个性化推荐系统若干关键技术研究

VIP免费
3.0 牛悦 2024-11-19 4 4 2.09MB 119 页 15积分
侵权投诉
i
目 录
中文摘要
ABSTRACT
第一章 ............................................................................................................. 1
§1.1 论文研究的目的和意义 ................................................................................... 1
§1.1.1 Internet 与信息过载 ....................................................................................1
§1.1.2 个性化服务 ................................................................................................. 2
§1.1.3 推荐系统 ..................................................................................................... 2
§1.2 推荐系统主要研究内容与研究现状 ................................................................3
§1.2.1 推荐系统主要研究内容 ............................................................................. 3
§1.2.2 推荐系统主要研究现状 ............................................................................. 4
§1.2.3 推荐系统面临的主要挑战 ......................................................................... 7
§1.3 本文工作 ............................................................................................................8
§1.3.1 研究内容及成果 ......................................................................................... 8
§1.3.2 本文结构 ..................................................................................................... 9
第二章 相关理论与技术 ......................................................................................... 11
§2.1 推荐系统描述 ..................................................................................................11
§2.2 推荐系统的输入与输出 ................................................................................. 12
§2.2.1 推荐系统的输入 ....................................................................................... 12
§2.2.2 推荐系统的输出 ....................................................................................... 12
§2.3 推荐系统的分类 ............................................................................................. 13
§2.3.1 非个性化推荐 ........................................................................................... 13
§2.3.2 基于属性输入推荐 ................................................................................... 14
§2.3.3 项目之间相关性推荐 ............................................................................... 14
§2.3.4 用户之间相关性推荐 ............................................................................... 14
§2.4 用户建模技术 ..................................................................................................15
§2.4.1 用户模型的表示 ....................................................................................... 15
§2.4.2 用户建模技术及其分类 ........................................................................... 17
§2.5 经典推荐算法 ..................................................................................................20
§2.5.1 推荐技术的构成 ....................................................................................... 20
§2.5.2 主要的推荐算法 ...................................................................................... 21
§2.5.3 推荐算法的评价 ...................................................................................... 24
§2.6 基于 WEB 使用挖掘的推荐技术 ....................................................................25
§2.6.1 数据的预处理 ........................................................................................... 26
§2.6.2 模式发现 ................................................................................................... 27
ii
§2.6.3 模式应用 ................................................................................................... 30
§2.7 智能 AGENT 技术 ............................................................................................ 30
§2.8 人工免疫理论 ..................................................................................................31
§2.8.1 自然免疫机理 ........................................................................................... 31
§2.8.2 自然免疫系统的特点 ............................................................................... 32
§2.8.3 人工免疫算法基本框架 ........................................................................... 33
§2.9 蚁群算法概述 ..................................................................................................34
§2.10 本章小结 ........................................................................................................36
第三章 基于独特型免疫网络的并行推荐算法 ..................................................... 37
§3.1 引言 ..................................................................................................................37
§3.2 协同过滤推荐算法 ..........................................................................................37
§3.2.1 算法过程 ................................................................................................... 37
§3.2.2 算法特点 ................................................................................................... 39
§3.3 并行算法与机群系统 ......................................................................................39
§3.3.1 并行算法及程序并行性的条件 ............................................................... 39
§3.3.2 并行算法的基本设计技术 ....................................................................... 40
§3.3.3 机群系统 ................................................................................................... 41
§3.4 并行免疫推荐算法 ..........................................................................................44
§3.4.1 最近邻选择的多样化问题 ....................................................................... 44
§3.4.2 独特型人工免疫网络模型 ....................................................................... 45
§3.4.3 Steve Farmer 的模型的改进 ................................................................46
§3.4.4 并行免疫推荐算法 ................................................................................... 47
§3.5 实验设计与结果分析 ..................................................................................... 48
§3.5.1 实验数据集和评测标准 ........................................................................... 48
§3.5.2 实验环境 ................................................................................................... 49
§3.5.3 实验结果与分析 ....................................................................................... 51
§3.6 本章小结 ......................................................................................................... 52
第四章 基于人工免疫系统的关联规则挖掘 ......................................................... 53
§4.1 引言 ................................................................................................................. 53
§4.2 WEB 挖掘中的关联规则技术 ......................................................................... 53
§4.2.1 数据挖掘的基本概念 ............................................................................... 53
§4.2.2 关联规则挖掘 ........................................................................................... 54
§4.2.3 经典的关联规则挖掘算法 ....................................................................... 55
§4.2.4Web 使用挖掘中的关联规则挖掘 ............................................................56
§4.3 带权值的关联规则挖掘 ..................................................................................57
§4.4 算法描述 ......................................................................................................... 58
§4.5 挖掘增量数据集 ..............................................................................................60
iii
§4.6 实验及结果 ......................................................................................................62
§4.7 本章小结 ......................................................................................................... 64
第五章 基于蚁群聚类的增量式用户访问模式挖掘 ............................................. 65
§5.1 引言 ................................................................................................................. 65
§5.2 聚类分析 ..........................................................................................................65
§5.2.1“聚类”的概念 ........................................................................................ 65
§5.2.2 聚类与分类的区别 .................................................................................. 65
§5.2.3 主要的聚类方法 ...................................................................................... 66
§5.3 WEB 挖掘中的聚类技术 ................................................................................. 66
§5.4 基于蚁群算法的聚类分析 ..............................................................................67
§5.4.1 基于蚁堆原理的聚类分析 ....................................................................... 68
§5.4.2 基于蚂蚁觅食原理的聚类分析 ............................................................... 69
§5.4.3 蚁群聚类算法和其他聚类算法的比较 ................................................... 70
§5.5 基于蚂蚁的化学辨认系统的蚁群聚类模型和算法 ..................................... 70
§5.5.1 人工蚂蚁聚类建模 ............................................................................... 71
§5.5.2 人工蚂蚁聚类算法描述 .......................................................................... 72
§5.6 增量式蚁群聚类算法应用于 WEB 使用挖掘 ................................................72
§5.7 实验结果及分析 ............................................................................................. 74
§5.7.1 数据源介绍 ............................................................................................... 74
§5.7.2 数据预处理 ............................................................................................... 74
§5.7.3 聚类结果 ................................................................................................... 77
§5.8 本章小结 ..........................................................................................................78
章 基WEB 使.................................................... 79
§6.1 引言 ................................................................................................................. 79
§6.2 基于 WEB 使用挖掘的推荐系统 ....................................................................79
§6.2.1 基于 Web 使用挖掘推荐系统的组成 ..................................................... 79
§6.2.2 推荐方法的选择 ...................................................................................... 81
§6.3 AGENT 系统 ...............................................................................................82
§6.4 基于 WEB 使用挖掘和市场模型的推荐系统框图 ........................................83
§6.5 基于 WEB 使用挖掘和市场机制的推荐系统结构 ........................................84
§6.5.1 界面 Agent .................................................................................................84
§6.5.2 离线处理 Agent .........................................................................................85
§6.5.3 增量更新 Agent .........................................................................................85
§6.5.4 过滤 Agent .................................................................................................86
§6.5.5 在线推荐 Agent .........................................................................................86
§6.5.6 反馈 Agent .................................................................................................89
§6.5.7 管理 Agent .................................................................................................89
iv
§6.6 系统工作流程 ..................................................................................................89
§6.7 基于拍卖的资源分配机制 ..............................................................................90
§6.7.1 资源分配问题 ........................................................................................... 90
§6.7.2 定制市场拍卖机制 ................................................................................... 91
§6.7.3 定制回报机制 ........................................................................................... 91
§6.7.4 定制投标策略 ........................................................................................... 93
§6.8 本章小结 ......................................................................................................... 97
第七章 结论与展望 ................................................................................................. 99
§7.1 论文工作总结 ................................................................................................. 99
§7.2 进一步研究的展望 ......................................................................................... 99
参考文献 ................................................................................................................... 101
在读期间公开发表的论文和承担科研项目及取得成果 ....................................... 117
....................................................................................................................... 119
错误!未定义样式。
1
第一章 绪 论
§1.1 论文研究的目的和意义
§1.1.1 Internet 与信息过
Internet 的迅猛发展将人类带入了信息社会和网络经济时代,对企业发展和个
Web
Cyveillance 公司于 2000 年针对 Internet 规模发表的调查报告[1]指出,当时 Internet
的网页总数超过 21 亿页。但到 2005 年初,仅 Google 搜索引擎索引的网页就已经
超过了 80 亿,Internet 信息量的爆炸式增长由此可见一斑。2008 年中国互联网络
信息中心发布的第二十二次《中国互联网络发展状况统计报告》[2]指出, 2008
6月中国的域名总数为 1485 万个,年增长率为 61.8%,继续保持 2006 12 月以
50%以上的增长水平。目前中国网站数量已达 191.9 万个,年增长率达到 46.3%
继续保持快速增长的势头。中国网页数为 84.7 亿个,年增长率达到 89.4%,网上
信息资源的增长速度非常迅猛。这些网页中,动、静态的比例为 0.921,动态网
页的比重在逐年增高。除了网站、网页数量的大幅增加,报告中显示的 IP 地址数、
国际出口带宽数等数据也不断上升,这表明中国互联网信息资源大幅增加,网上
内容日益丰富。由于 Web 信息的日益增长, 人们不得不花费大量的时间去搜索、
浏览自己需要的信息,并且要找到正确的、用户需要的信息也越来越困难,这种
现象就是信息过载[3]
在征服信息过载方面,搜索引擎等检索工具得到了广泛的应用,它可以给人
们在寻找信息时提供一定的帮助,提高查找信息的效率,但这种信息检索技术和
用户信息的需求之间仍然存在许多矛盾,主要体现在以下几个方面:
1、用搜索引擎进行信息查找,只要所输入的关键字相同,就会返回相同的
信息,而不会考虑到不同用户的不同兴趣爱好。而且,返回的信息往往成千上万,
良莠不齐,还需要用户花费大量的时间精力去筛选以期获得自己真正需要的信息。
2、网络上的信息是动态变化的,往往这种变化是用户最关心的,然而传统
的信息获取方法如搜索引擎并不能主动给用户反映这种变化。
3、具有相同兴趣的用户对信息的需求往往基本一致,但传统的搜索引擎方
式并不能提供协同过滤功能,因而也就使用户失去了准确获取信息的一个重要方
式。
4、搜索引擎要求用户自己输入关键字,而关键字质量的高低直接影响到返
回的结果的好坏。作为普通用户往往并不能准确地用关键字描述自己的信息需求,
个性化推荐系统若干关键技术研究
2
导致用户获取信息的困难。
§1.1.2 个性化服务
所谓个性化服务Personalization Service就是指,根据用户的不同情况提供
有针对性的服务。比如当用户浏览网站时,尽可能地迎合每个用户的浏览兴趣并
且不断调整自己来适应用户浏览兴趣的变化,使得每个用户都有是该 Web 站点唯
一用户的感觉。Amazon.com CEO 贝索斯对这一点有一句精辟的描述:“如果我
的站点有三百万用户,我将为他们提供三百万个 Amazon 网站。[4]
个性化服务需要获取有关用户的知识,建立用户的信息需求模型,利用有关
用户的知识,有针对性地获取或帮助用户筛选信息资源,并能够逐渐学习用户需
求的变化[5]
高质量的个性化服务至少包括如下内涵:
1、推荐的准确性
系统提供的信息要尽可能地满足用户的需求,这就需要对用户需求的准确把
握、对信息内容的准确把握、对信息内容和用户需求之间相关性的准确把握。
2、响应的及时性
网络应用面对的服务用户是数以万计的。面对大量用户的信息需求,系统要
对用户做出及时有效的反馈。
3、以用户为中心
系统要以用户为中心进行服务[6]这就要求方便用户的使用。例如:系统主动
将信息推荐给用户;用户可以方便地表达自己的需求;系统要及时适应用户需求
的变化。
§1.1.3 推荐系统
为了解决以上矛盾,克服信息获取的困难,真正实现个性化服务,推荐系统
recommender systems[7]也就应运而生。它能从 Internet 的大量信息中向用户自
动推荐出符合其兴趣偏好或需求的资源。推荐系统有非个性化系统和个性化系统
之分。非个性化推荐系统向所有用户提供具有同样内容的推荐,如电子商务站点
的畅销排行。而个性化推荐系统则区分不同的用户或用户群,根据用户的兴趣爱
好,推荐符合用户兴趣爱好的对象。由于个性化推荐系统的信息过滤效果及推荐
被用户接受的程度都远胜于非个性化推荐系统,因而在电影、音乐、产品、新闻
Web 页面推荐等方面得到了越来越广泛的研究与应用。个性化推荐技术集成了
许多传统的研究方法(如文本信息抽取、数据挖掘等技术)有很广阔的研究空间,
错误!未定义样式。
3
所以它也吸引了大量的研究人员投入其中。GroupLens 就是一个很有影响的研究项
目,它的关于协同推荐的首篇论文[8],被认为是推荐技术的“开山之作”
根据推荐对象的特点,目前有两种类型的推荐系统,一种是以网页为推荐对
象的推荐系统,为用户推荐符合其兴趣爱好的网页;另一种是在网上购物环境下、
以商品为推荐对象的推荐系统,为用户推荐符合其兴趣爱好的商品,如书籍、音
像等。
就网上购物的推荐系统而言,推荐系统可以从三方面促进电子商务站点的销
[9]
1、将网站的浏览者变为商品的购买者。推荐系统能帮助顾客找到他们希望
购买的商品。
2、提高交叉销售能力。推荐系统能根据顾客的兴趣和已购买的商品向顾客
推荐其它的顾客可能需要的附属商品,来提高网站的整体销售。
3、提高顾客对网站的忠诚度。在电子商务环境下,顾客转向竞争对手的网
站,简单到仅仅点击几下鼠标或是输入简单内容而已,所以培养顾客的忠诚度是
一项根本的商业战略[10]。推荐系统能根据顾客的信息为他们提供符合其意愿的建
议,提高用户对网站服务的满意度,增强相互关系,来达到提高顾客忠诚度的目
的。
目前有许多著名的网站使用了推荐系统服务,例如在电子商务方面,许多电
子商务网站都不同程度的使用了个性化推荐系统作为其提高销售的工具。比如,
CDNOW.com CD 推荐系统,Wine.com 的酒类推荐系统,Moviefinder.com 的电
影推荐系统等,其中 Amazon.com 的图书推荐系统是其中的佼佼者。
§1.2 推荐系统主要研究内容与研究现状
随着 90 期第篇介GroupLens[8]推荐系统文章的发表,越来越多
研究者投入到推荐技术的研究中,引起了一股研究热潮。ACM 1999 年开始每
年召开一次电子商务研讨会,其中推荐技术作为一项重要的议题。同年,WEBKDD
WEB
AAAI)和协同工作会议(CSCW)也纷纷把推荐技术作为研究主题。
§1.2.1 推荐系统主要研究内容
1信息源收集:推荐系统的基础是用户资料,如何尽可能多的获取用户的
相关信息,并以合适的形式表示,是进行个性化推荐的前提。当前国内外用户信
息收集方法的研究,主要研究如何收集能反映用户兴趣偏好的信息,以及如何通
个性化推荐系统若干关键技术研究
4
过网络数据挖掘等方法自动的收集用户输入的隐式信息,解决用户信息过多依赖
于显式信息的问题。
2推荐算法:个性化推荐技术是个性化推荐系统的核心问题。目前的推荐
技术主要有协同过滤,基于内容的推荐、基于知识的推荐和基于规则的推荐等等。
3用户反馈:推荐是否成功是推荐系统研究的最终落脚点。目前大多只是
采取准确率、召回率等评判指标对推荐算法进行评价。这些方法无法从真正意义
上对整个推荐系统进行评价,尤其缺乏从个性化程度、持久性程度、系统安全性
以及用户接受程度等方面对推荐系统进行综合评价。
4)数据(Web)挖掘技术在推荐系统中的应用:随着研究的深入,各种数
据挖掘技术如关联规则挖掘、序列模式挖掘、聚类分析等在推荐系统中得到了广
泛的应用。基于 Web 挖掘的推荐系统得到越来越多研究者的关注。
5用户隐私保护:由于推荐系统需要分析用户的兴趣偏好,涉及到用户的
隐私问题;如何在推荐系统中既为用户提供优质的推荐服务又能有效的保护用户
的隐私是必须深入研究的内容。
6推荐系统的可视化:推荐系统的目的是向用户提供服务,因此必须为用
户提供友好的可视化服务界面。主要包括推荐结果可视化研究和推荐结果解释等
方面的内容。
§1.2.2 推荐系统主要研究现状
国内外对个性化推荐系统的研究主要可分为三方向,一是对推荐系统中算法
本身的研究及应用,二是对推荐系统中各个算法组合方法的研究及应用,三是将
数据挖掘技术尤其是 Web 挖掘技术应用于推荐系统中。
1)基于内容的推荐技术。基于内容过滤的系统如Personal WebWatcher[11],
CiteSeer[12], ifWeb[13], SIFTER[14],WebPersonalizer[15]等,它们利用资源与用户兴
趣的相似性来过滤信息。基于内容的推荐常采用两种方法:①基于特征。即用相
关特征来定义所要推荐的项目,定义方法可采用向量空间模型、矢量权重模型和
概率权重模型[16],系统通过学习用户评价或以选的项目特征来获得对用户兴趣的
描述,从而对用户进行建模,并且随着系统对用户偏好的学习不断更新使用的学
习方法包括决策树、神经网络和基于矢量的表示等[17]。②基于文本分类。基于文
本分类是从成千上万的文本特征,如词汇和短语,通过学习来构建有效的分类器,
然后利用该分类器对文本进行分类,若所分类别与用户兴趣相符则向用户推荐。
基于内容的方法主要被应用于推荐信息类项目,如文本、Web站点、新闻消
息等文本丰富型信息,它往往无法很好的解决多媒体信息的推荐问题[1819]。由于
基于内容方法的局限性,现在已经很少有研究者将其单独作为推荐方法,而是更
错误!未定义样式。
5
多的采用这种方法或直接使用其它信息处理研究领域最新的研究成果作为改善协
同过滤方法的一种途径,与之构成某种混合推荐形式。
2协同过滤推荐技术。协同过滤推荐系统如:WebWatcher[20], Let’s Browse[21],
GroupLens[8], Firefly[22], SELECT[23]SiteSeer[24]等,它们利用用户之间的相似性来
过滤信息。其最大的特点是不需要分析推荐对象的特征属性,对推荐对象没有特
殊要求,在数据密度达到一定程度有较好的推荐质量。目前很多技术都是围绕协
同过滤展开研究的。协同过滤技术是个性化推荐系统中最常用的技术,一般可以
将此类技术分为三类:一是基于内存的协同过滤[25,4]Memory-based Collaborative
Filtering(或者称为基于用户的协同过滤,基于邻居的协同过滤);二是基于模型
的协同过滤[9];三是基于项目的协同过滤[26] Item-based Collaborative Filtering
在早期的协同过滤推荐系统中,用户需要了解对方的兴趣爱好[2728]。随着研究的
深入,研究者提出了一些自动化的协同过滤推荐技术[2933]
协同过滤技术存在的不足主要表现在两个方面:一是数据稀疏性问题,即用户
对项目的评分数据较少时推荐质量比较低,特别是添加一项新项目(新商品)没
有任何评分数据时,协同过滤技术无法向用户推荐;另一方面当一个新用户没有
对任何项目或商品进行评分时,同样无法对该用户进行推荐,这就是所谓的“冷
启动”问题。二是可扩展性问题,协同过滤算法的计算时间随着用户和项目的增
加而成线性关系的增加。因此,如何解决协同过滤技术的文献非常多,文献[34]
提出了一种改进的协同过滤算法,把维数简化和项集相似性引入到算法中,提高
了推荐准确性同时降低了计算成本。文献[35]中提出了一种基于项目评分预测的方
法来改进协同过滤推荐算法;文献[36]则通过在协同过滤推荐算法中引入云模型,
并重新定义了一个在知识层面的用户相似度计算方法,从而使协同过滤算法在数
据稀疏的情况下也能取得较好推荐效果。文献[37]提出利用神经网络预测用户
未评分项的评分。文献[38]利用项目项聚类的概率模型来解决用户评分中的偏见、
缺少关联关系等新项目问题。文献[39]通过实验分析了反映用户兴趣的浏览动作。
3)基于规则的推荐技术。基于规则的系统如 IBM WebSphere
(www.ibm.com/websphere), BroadVision (www.broadvision.com)
ILOG(www.ilog.com) ,它们允许系统管理员根据用户的静态特征和动态属性来
制定规则。文献[40]通过一个数据挖掘算法对 Web 数据产生一系列关联规则,然
后根据关联规则建立预测模型,从而提供推荐的效率,减少推荐错误。文献[41]
利用关联规则来挖掘项目之间的相关性,然后,利用项目之间的相关性减少协同
过滤算法中数据的稀疏问题。文献[42]提出了关联规则的分级算法,算法通过对比
属于同一个关联规则的用户的属性来度量一个用户同关联规则的相关性。如果适
当的对关联规则评级,则基于关联规则过滤算法的精度就会得到很大改良。文献[43]
个性化推荐系统若干关键技术研究
6
通过定义多个关联规则模板,减少用户不感兴趣的规则数目,试验结果显示了推
荐的精度有大幅度的提高。
4)基于人口统计的推荐技术。该方法根据个人特征(如职业、年龄、性别
等)对用户进行分类,并基于人口统计信息做出推荐[44]。早期一般是通过交互式
对话来收集个人信息,用户的反应与一个人工建造的模式库相匹配[45]。这种推荐
技术不需要历史的用户数据,因此具有较好的自适应。
5基于知识的推荐技术。基于内容的过滤和协同过滤技术若没有经过足够
的数据训练则其推荐质量非常低。基于知识的推荐技术不依赖用户对项目的评价
数据,而是通过推断用户的需要和偏好来作出推荐。基于知识的推荐技术可分为3
类:①数据库知识发现(Knowledge Discovery in DATABASE;②基于案例推理
Case Based Reasoning;③基于知识推理(Knowledge Reasoning。数据库知识
发现主要和传统推荐技术相结合,目前该技术被广泛应用于基于内容过滤和协同
过滤推荐系统中[46474849]基于案例推理的推荐技术试图从以往推荐过的类似案
例中找到现成的或经过修改后能够解决现有问题的答案[5051]。基于知识的推荐技
术的基本原理是通过用户交互界面引导用户明确对项目或商品特征的要求从而获
取用户的需求知识,推荐系统根据获取的用户需求知识和项目或商品知识库中的
目录知识,找到能够满足用户需求的项目并推荐给用户[525354]
6混合推荐技术。对于混合方法的研究主要集中在混合的方式研究上。
Fab[55]
系统是比较早的一种混合方法推荐系统,它采用融合的混合方法把基于内容和协
同方法结合进行推荐,文献[56]对该方法进行了详细的描述。还有一些个性化服务
系统如 WebSIFT[57]Anatagonomy[58]等,也同时采用了基于内容过滤和协同过滤
这两种技术,结合这两种过滤技术可以克服各自的一些缺点,为了克服协同过滤
的稀疏性问题,可以利用用户浏览过的资源内容预期用户对其他资源的评价,这
样可以增加资源评价的密度,利用这些评价再进行协同过滤,从而提高协同过滤
的性能。另外,文献[59]提出了线性结合各种推荐组件的方式来混合不同的推荐技
术。
7基于数据挖掘的推荐技术。由于传统的协同过滤技术根据用户的显式评
分结果来产生推荐结果,用户使用很不方便。于是,各种数据挖掘技术特别是 Web
挖掘技术被广泛应用到推荐系统中。文献[6][9]提出可以通过 Web 挖掘技术获取用
户隐式评分。文献[60][61]提出通过 Web 日志挖掘提供推荐服务。文献[62]提出基
于贝叶斯分类挖掘推荐系统。文[63]Web 挖掘、关联规则挖掘和决策树技术
应用到电子商务推荐系统中,为网上商店的客户推荐适合他们需要的产品。文献[64]
提出通过 URL 聚类产生推荐的方法。文献[65]提出通过 Web 使用挖掘和内容挖掘
提高推荐质量的方法。随着研究的进一步深入,遗传算法、神经网络等技术也在
摘要:

i目录中文摘要ABSTRACT第一章绪论.............................................................................................................1§1.1论文研究的目的和意义...................................................................................1§1.1.1Internet与信息过载........................................................

展开>> 收起<<
个性化推荐系统若干关键技术研究.pdf

共119页,预览10页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:119 页 大小:2.09MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 119
客服
关注