语义Web技术和点击流数据集市在旅游电子商务网站中的应用研究
VIP免费
I
摘 要
现有的 Web 环境对语义的支持比较弱,不利于信息的共享和交换。语义 Web
是对当前 Web 的扩展,它通过 XML、RDF 以及本体等技术,使 Web 具有结构化
特性和语义特性,在一定程度上缓解机器可理解的语义信息匮乏的问题。
随着 Web 应用范围的广泛,点击流信息资源开发在帮助网站适应用户需求,
提高 Web 站点用户满意度方面作用显著。然而目前的点击流信息资源开发仅限于
语法层次,即只能在纯粹形式化的水平上进行识别、推理和判断,准确度低,用
户兴趣满足程度低。鉴于此,本文将基于本体的语义 Web 技术引入到点击流信息
资源开发中,使 Web 应用系统既利用语法层次的点击流信息又能整合语义层次的
点击流信息,从而提高用户兴趣满足感,更好地为 Web 用户服务。
本文主要完成以下工作:
1、将语义 Web 技术引入点击流信息资源开发中,利用站点领域本体,将点
击流信息由语法层次转化为语义层次,进而进行语义层次的逻辑推理,提炼出电
子商务网站关心的信息。
2、提炼语义层次点击流信息资源开发方法,针对各开发环节的语义转换均依
赖于同一统计信息――领域本体概念实例权重的问题提出将个性化推荐集生成过
程进行改进,采用结合语义距离和统计信息的语义相似度算法进行语义用户会话
和语义使用文档的相似度匹配,且该相似度算法可以通过调整参数的值来改善原
算法的通用性极差的问题。
3、在遵循领域本体建立准则的基础上,根据领域本体的知识工程构建方法构
造领域本体库,支持语义层次的点击流信息资源的开发。
4、在分布式本体环境下引入多 Agent 技术,结合语义 Web 和Web 挖掘的特
点,提出基于多 Agent 的本体挖掘系统框架模型,对各 Agent 的功能进行严格划
分,实现全局本体与局部本体之间的调用与通信,协助本体更好地发挥作用。
5、结合旅游电子商务特点,以点击流信息资源为基础,综合运用基于本体的
语义 Web 技术、点击流数据集市技术和个性化推荐技术,研究、设计并实现一种
旨在能够有效提高“浏览-预订比率”,将潜在旅游者转化为实实在在的游客的电
子商务个性化推荐系统模型。
关键词:语义 Web 本体 点击流信息 多 Agent 旅游电子商务 个
性化推荐
II
ABSTRACT
The support of existing Web environment to semantic is relatively weak,is not
conducive to information sharing and exchange. Semantic Web is an extension of the
current Web,it makes Web structured and semantic through technologies such as XML,
RDF and ontology,it alleviates the problem of machine-understandable semantic
information scarcity at a certain extent.
With the range of Web application widing, click-stream information resources
development is very helpful to Web site to adapt to user needs and improve the
customer satisfaction.But the current click-stream information resources development
is limited to the level of grammar,that is,it only can distinguish,reason and gudge, low
accuracy and low level of users’ interest satisfication.Because of this,this paper brings
ontology-based semantic Web technology into click-stream information resources
development,thus improve users’ interest satisfaction,serve for Web users better.
In this paper, the following tasks are completed:
1.Bring semantic Web technology into click-stream information resources
development,making the use of the site domain ontology, transform click-stream
information from the level of grammar into a semantic level, thus reason the logic on
semantic level,and extract the concern information to e-commerce sites.
2.Extract click-stream information resources development methodology of the
semantic level,for the problem that the semantic conversion of every development
aspects are dependent on the same statistical information- the concept of domain
ontology instances weight, improve the process of generating personalized
recommendations,use semantic similarity algorithm which is the combination of
semantic distance and statistics information to match the similarity of semantic user
session and semantic using document, and the similarity algorithm can adjust the value
of the parameter to improve the very poor general problem of original algorithm.
3.On the base of complying with the guidelines of establishing domain ontology,
build domain ontology database according to knowledge engineering methods of
domain ontology,to support click-stream information resources development on the
semantic level.
4.Brings multi-Agent technology into distributed Ontology environment,presents
ontology mining system framework model based on multy-Agent according to the
III
semantic Web and Web mining features,carry out a strict division of the functions of
the Agent,realize the call and communication between the overall ontology and local
ontology to help better the role of ontology.
5.Combining the characteristics of tourism e-commerce,based on click-stream
information resources,according to ontology-based semantic Web technology,
click-stream data mart technology and personalized recommendation technology,
research, design and realize the system model of e-commerce personalized
recommendations system.The purpose is to effectively improve the "Browse -- Book
ratio,convert potential tourists to the real tourists.
Key Word :the semantic Web,ontology, click-stream information,
multi-Agent,travel e-commerce,personalized recommendations
目 录
摘 要 ....................................................................................................................... I
ABSTRACT ............................................................................................................II
第一章 绪 论 ...................................................................................................... 1
§1.1 课题研究的目的和意义..........................................................................1
§1.2 国内外的发展现状..................................................................................3
§1.3 论文的主要工作和内容..........................................................................4
第二章 语义 Web 技术和点击流数据集市 .........................................................6
§2.1 基于本体的语义 Web ............................................................................. 6
§2.1.1 语义网的思想及体系结构...........................................................6
§2.1.2 本体及其相关技术.......................................................................9
§2.1.3 语义网与本体的关系.................................................................17
§2.2 点击流信息资源开发............................................................................18
§2.2.1 点击流信息.................................................................................18
§2.2.2 点击流数据集市.........................................................................20
§2.2.3 点击流信息资源开发方法.........................................................23
第三章 基于 Agent 的电子商务网站本体架构模型设计 ................................ 26
§3.1 本体的构建............................................................................................26
§3.1.1 站点领域本体的构建方法.........................................................26
§3.1.2 旅游领域本体的构建.................................................................28
§3.1.3 领域本体知识库的构建.............................................................36
§3.2 Agent 技术介绍 ...................................................................................... 38
§3.2.1 Agent 定义 ................................................................................... 38
§3.2.2 Agent 模型 ................................................................................... 39
§3.2.3 Agent 通信语言 ........................................................................... 40
§3.2.4 多Agent 系统介绍.....................................................................41
§3.3 基于 Agent 的电子商务网站本体架构模型设计................................44
§3.3.1 分布式本体的定义及结构.........................................................44
§3.3.2 分布式本体中的多 Agent 架构.................................................45
§3.3.3 多Agent 分布式本体架构实现细节.........................................47
第四章 语法层次向语义层次的转化研究 ........................................................ 54
§4.1 语法层次点击流信息开发方法............................................................54
§4.1.1 Web 使用挖掘常用技术 ............................................................. 54
§4.1.2 Web 使用挖掘流程 ..................................................................... 55
§4.1.3 Web 使用挖掘优缺点 ................................................................. 56
§4.2 语义层次点击流信息开发方法............................................................57
§4.2.1 识别语义用户会话.....................................................................57
§4.2.2 导出语义层次使用文档.............................................................58
§4.2.3 生成个性化推荐集.....................................................................61
§4.3 个性化推荐集生成方法的改进............................................................62
§4.3.1 语义相似度计算方法比较.........................................................63
§4.3.2 适合生成个性化推荐集的语义相似度算法.............................65
第五章基于 Agent 和语义 Web 技术的旅游电子商务个性化推荐系统构建.. 67
§5.1 系统设计目标........................................................................................68
§5.2 系统工作流程........................................................................................69
§5.3 系统功能模块........................................................................................71
§5.3.1 信息处理中心.............................................................................72
§5.3.2 本体中心.....................................................................................74
§5.3.3 偏好中心.....................................................................................75
§5.4 系统实现技术........................................................................................76
§5.4.1 网页关键词的提取.....................................................................77
§5.4.2 用户当前会话的识别.................................................................77
§5.4.3 点击流数据集市.........................................................................80
第六章 总结与展望 ............................................................................................ 84
§6.1 论文总结................................................................................................84
§6.2 工作展望................................................................................................85
参考文献 .................................................................................................................86
在读期间公开发表的论文和承担科研项目及取得成果 .................................... 88
致 谢 .....................................................................................................................89
第一章 绪论
1
第一章 绪 论
§1.1 课题研究的目的和意义
Web已经发展成为一个巨大的全球化信息资源库。Web上的信息量高速增长,
使得用户发现其所需要的信息变得非常困难。现有互联网技术的核心是超文本系
统,它的主要思想是通过统一资源标识符URI对互联网上的信息进行标识,使人们
可以迅速地对互联网上的信息进行定位。然而,现有互联网技术并没有对信息的
含义进行描述,计算机在处理信息时只是按照URI来定位信息,但对信息的内容并
不关心。而人们真正关心的是信息的内容,也就是互联网上的文本、图片等资源
所包含的意义,这就要求给出一种计算机能理解的表示资源的手段,以有效地表
示Web信息。Berners Lee于2000年在XML 2000的会议上正式提出了语义Web的概
念,其目标是使得Web上的信息具有计算机可以理解的语义,满足智能软件代理对
Web上信息的有效访问[1]。
在语义Web中,本体(ontology)具有非常重要的地位,是解决语义层次上Web
信息共享和交换的基础。本体是对概念体系的明确的、形式化的、可共享的规范
说明。本体对概念进行了严格定义,并通过概念之间的关系来确定概念的精确含
义,表示共同认可的、可共享的知识,从而解决同一概念有多种词汇表示和同一
个词汇有多种概念(含义)的问题。将本体技术引入Web技术中,将从根本上解决
目前Web的信息格式的异构性、信息语义的多重性以及信息关系的匮乏和非统一
性。本体是实现资源共享和应用协作的前提。
基于Web的信息系统与传统的基于内联网的信息系统相比,其Web用户的高度
自治性使得Web用户具有很强的心理优势,真正成为了“上帝”,而网站管理者对
于用户的控制却越发困难。为了使网站的浏览者转变为实实在在的购买者,尽可
能防止浏览者在短时间内放弃浏览网站,提高其对网站的忠诚度,对于网络企业
的浏览者行为进行分析的需求不断增长,而解决这一问题主要要依靠对点击流信
息资源的开发利用。
狭义地讲,网站上的每个用户的每一次点击都会被记录在网页服务器的日志
文件中,即所谓的点击流信息。点击流信息具有以下特点:
实时性:只要用户对站点进行访问,用户的访问信息就会被记录。
可靠性:只要用户访问Internet,那么必然至少有一个服务器记录其访问行
为。
海量:中等大小的网站每天可记载几兆的用户访问信息,记载着数万次用户
语义 Web 技术和点击流数据集市在旅游电子商务网站中的应用研究
2
的访问,随着时间的推移,所记载的用户访问量信息更是非常庞大。
分布广泛:数据来自于世界上每一台Web服务器或Web代理服务器,分布记录
着来自不同国家、地区的访问者的访问信息。
内容丰富:访问信息记载了来访者、被访问页面、访问时间等一系列信息,
可提取出访问页面特性、访问路径特性、访问时间特性,以便进一步探究导致网
站用户行为的内在因素。
结构化程度高:服务器日志文件由系统按照W3C标准的访问信息记录格式由系
统自动记录,可以方便地由数据库进行结构化处理。
鉴于点击流信息具有以上特点,具体到实现方式,通过把点击流信息加载到
一个设计良好的点击流数据集市中,使用数据挖掘便可以把简单的点击流信息转
化为商业智能的珍藏品。
旅游电子商务,是互联网为旅游业带来的新的契机,它是指以网络为主体,
以旅游信息库、电子化商务银行为基础,利用最先进的电子手段运作旅游业及其
分销系统的商务体系。它集合了客户心理学、消费者心理学、商户心理学、计算
机网络等多门学科,展现和提升了“网络”和“旅游”的价值,具有营运成本低、
用户范围广、无时空限制以及能同用户直接交流等特点,提供了更加个性化、人
性化的服务。旅游电子商务具有三个特性:
1、聚合性。旅游产品是一个纷繁复杂,多个部分组成的结构实体。旅游电子
商务像一张大网,把众多的旅游供应商、旅游中介、旅游者联系在一起。景区、
旅行社、旅游饭店及旅游相关行业,如租车业,可借助同一网站招徕更多的顾客。
新兴的“网络旅游公司”即将成为旅游行业的多面手,它们将原来市场分散的利
润点集中起来,提高了资源的利用效率。由此可见,旅游市场的规模将因导入电
子商务而扩大。
2、有形性。旅游产品具有无形性的特点,旅游者在购买这一产品之前,无法
亲自了解,只能从别人的经历或介绍中寻求了解。随着信息技术的发展,网络旅
游提供了大量的旅游信息和虚拟旅游产品,网络多媒体给旅游产品提供了“身临
其境”的展示机会。这种全新的旅游体验,使足不出户畅游天下的梦想成真,并
且培养和壮大了潜在的游客群。因此,旅游电子商务使无形的旅游产品慢慢变得
“有形”起来。
3、服务性。旅游业是典型的服务性行业,旅游电子商务也以服务为本。旅游
网站希望具有较高的访问量,能够产生大量的交易,必须能提供在线交易的平台,
提供不同特色、多角度、多侧面、多种类、高质量的服务来吸引各种不同类型的
消费者。
第一章 绪论
3
旅游电子商务可以通过使用点击流数据集市获取用户需求,以用户需求为导
向主动向用户提供其可能需要的信息和服务。而将基于本体的语义Web技术与点击
流数据集市的开发相结合,将有利于更准确地识别用户需求,把握用户的消费心
理,牢牢锁住用户群。
§1.2 国内外的发展现状
语义Web是当前互联网技术研究的热点,为推动语义Web的发展,W3C成立了专
门的工作组并对各种相关技术进行标准化。其中较为突出的是RDF Core工作组和
Web Ontology工作组[2]。RDF Core工作组致力于修订RDF模型和语法的推荐标准,
完成RDF模式规范并在规范中提供与XML模式中的数据类型规范紧密结合的支持。
Web Ontology工作组致力于创建一种语言,以定义结构化的,基于Web的本体。其
中一个重要思想,即以本体来表示语义信息,通过在语义Web中引入本体来实现语
义信息的共享,从而提高网络信息服务的智能化与自动化已得到了众多语义Web研
究者的认同。而在语义Web中应用本体需要对现有的本体相关技术作进一步的发
展。本体的发展包括本体的管理、本体的适应和本体的标准化。当前的许多项目
都致力于在语义Web中引入本体的研究,其中有代表性的为On-To-Knowledge、KAON
和COHSE项目。显而易见,本体是语义Web实现的关键所在,已经成为当前语义Web
研究的热点问题。
对于本体的研究主要集中在:建立本体的方法和过程、本体设计和评估的形
式化方法和本体论的应用研究。至今已经产生了几种为大家所认可的本体表示方
法,对于本体设计和评估的方法学的探索也有了初步的进展,一些组织机构还相
继开发了用于构造、编辑、浏览和评价本体的初级工具,以及一些用于支持不同
表示语言互操作的本体语义转换工具。近年来,本体论被应用到计算机科学的众
多领域,但是本体的研究和应用总体上还处于不成熟的探索阶段。
目前,电子商务正在经历一场有意义的改革。企业通过跟踪顾客的浏览行为
和单击行为,了解顾客的兴趣和爱好,拉近企业与顾客之间的距离,对顾客行为
数据的收集和分析,为顾客量体裁衣,提供个性化服务,即个性化推荐。个性化
推荐方法主要有两种:一种是分别分类用户和被推荐的对象,对不同兴趣的用户
提供不同类别的对象;另一种是对网站的日志即点击流信息进行聚类,根据用户
访问的记录推断用户的偏好,为用户提供相近的其它对象。
点击流信息被划分为语法层次、语义层次和语用层次三种。语法层次的点击
流信息资源开发利用方法是是当前研究的热点,即以Web使用数据(主要是Web服
务器日志)为挖掘对象,利用各种Web使用挖掘方法(如聚类分析、关联规则、序
语义 Web 技术和点击流数据集市在旅游电子商务网站中的应用研究
4
列模式等)提炼出各种用户点击行为模式,然后根据用户当前会话与这些用户点
击行为模式的匹配情况,实现面向用户的各种Web应用。语义层次的点击流信息资
源开发利用方法是当前研究的前沿,是利用站点领域本体,将语法层次的点击流
信息转化为语义层次的点击流信息。这种层次的方法可以进行语义层次的逻辑推
理,最终所形成的Web应用系统的准确度相对较高,能够有效弥补语法层次方法的
诸多不足。
旅游业是基于信息的产业, 因为在旅游产品的购买阶段, 只需提供产品的信
息而不用提供产品本身。旅游业的这种特点决定了它和信息技术之间的紧密联系。
早在20世纪60年代, 就有集中式的飞机订票系统投入了商业运行。新的信息技术
不断地被引入到旅游业中来, 目前互联网与人工智能技术在旅游业中的应用是计
算机界和旅游产业界研究的热点。
相对于旅游业高额收入来说,旅游电子商务服务B2C营收所占比例只有0.1%到
0.2%左右,未来旅游电子商务行业发展速度将会保持40%以上的高速增长,旅游电
子商务行业已经成为全球旅游巨头的投资热点。我国旅游电子商务服务的B2B还处
于刚刚起步阶段,但众多旅行社和航空代理、酒店、景点之间的交易给旅游B2B带
来了巨大潜力。相信在旅游电子商务中使用基于语义层次的点击流信息资源开发
方法来锁定旅游电子商务网站的浏览者,将会大大提高“浏览者-客户”的转换
比率,从而大大提高旅游电子商务网站的盈利空间。
§1.3 论文的主要工作和内容
本文在研究基于本体的语义Web的理论基础上探索怎样将点击流信息资源的
开发利用由语法层次过渡到语义层次,并基于该研究成果构建旅游电子商务网站
的个性化推荐系统,为系统实现选择使用合适的关键技术。
主要研究内容如下:
(1) 研究语义Web的概念和分层结构;分析本体的含义、构造准则以及本体工
程方法学;总结语义网与本体的关系。
(2) 简述点击流信息的特点;对点击流数据集市技术进行分析与总结;对比
点击流信息资源的开发方法。
(3) 根据本体论工程方法学,遵循领域本体建立准则,针对旅游电子商务网
站构建站点领域本体,用以实现点击流信息资源开发的语义性。
(4) 使用多 Agent 技术,在分布式本体环境中结合语义 Web 和Web 挖掘的特
点构造基于多 Agent 的本体挖掘系统框架模型,各 Agent 分工明确,可
以有效地协助本体工作。对多 Agent 系统的实现细节进行综合考虑。
第一章 绪论
5
(5) 对语义层次的点击流信息资源利用方法进行归纳总结,针对开发过程各
个环节过分依赖领域本体概念实例权重这一统计信息的状况采用基于语
义距离和统计信息相结合的算法计算语义用户会话和语义使用文档的语
义相似度对个性化推荐集生成方法进行改进,且用以改进的算法可以通
过调整参数的值极大地改善原计算方法通用性差的问题,有效地提高其
适应性。
(6) 研究、设计基于语义层次的点击流信息资源开发利用方法的旅游电子商
务个性化推荐系统模型、工作流程及体系结构,并对系统各部分的主要
功能进行设计与划分,对实现所需的关键技术进行探索。该系统模型以
点击流信息资源为基础,综合运用基于本体的语义 Web 技术、点击流数
据集市技术和个性化推荐技术,旨在将潜在旅游者转化为实实在在的游
客,实现旅游产品与服务个性化推荐的精准化。
(7) 最后对论文进行总结,并对下一步的工作进行展望。
研究工作的意义如下:
(1) 在旅游行业蓬勃发展的大环境下,旅游电子商务对旅游数据的整合可以
显著提高旅游服务质量,进而提高旅游行业的盈利水平。目前,旅游电
子商务的发展水平严重落后于旅游行业的发展,其个性化推荐技术的使
用更是处于起步阶段,针对此种情况,本文提出将语义层次的点击流信
息资源方法应用于旅游电子商务对浏览者进行个性化推荐,不仅可以分
析浏览者的兴趣偏好,而且可以基于语义技术对浏览者下一步的浏览行
为进行推理,从而可以显著提高“浏览-预订比率”,促进旅游电子商务
更快更好地发展。
(2) 对语义层次点击流信息资源开发的个性化推荐集生成算法进行改进,采
用基于语义距离和统计信息相结合的语义相似度计算方法。原算法存在
两个严重问题,一是过分依赖同一统计信息,多次重复利用该统计信息
将扩大统计误差对算法结果的影响,二是要针对概念实例属性的不同分
别单独调整语义相似度计算方法关键部分,灵活性极差。采用基于语义
距离和统计信息相结合的语义相似度计算方法既可以消除对上述统计信
息的过分依赖,又可以通过简单调整一个参数的值来显著提高算法的通
用性。
(3) 在分布式本体环境中引入多Agent系统架构,可以提高本体的自动处理的
能力和使用效率,使全局本体和局部本体发挥最大范围的作用。
摘要:
展开>>
收起<<
I摘要现有的Web环境对语义的支持比较弱,不利于信息的共享和交换。语义Web是对当前Web的扩展,它通过XML、RDF以及本体等技术,使Web具有结构化特性和语义特性,在一定程度上缓解机器可理解的语义信息匮乏的问题。随着Web应用范围的广泛,点击流信息资源开发在帮助网站适应用户需求,提高Web站点用户满意度方面作用显著。然而目前的点击流信息资源开发仅限于语法层次,即只能在纯粹形式化的水平上进行识别、推理和判断,准确度低,用户兴趣满足程度低。鉴于此,本文将基于本体的语义Web技术引入到点击流信息资源开发中,使Web应用系统既利用语法层次的点击流信息又能整合语义层次的点击流信息,从而提高用户兴趣满...
相关推荐
-
跨境电商商业计划书模版VIP免费
2025-01-09 26 -
跨境电商方案范文VIP免费
2025-01-09 14 -
创业计划书VIP免费
2025-01-09 18 -
xx生鲜APP计划书VIP免费
2025-01-09 12 -
跨境电商创业园商业计划书(盈利模式)VIP免费
2025-01-09 8 -
跨境电商计划书VIP免费
2025-01-09 13 -
绿色食品电商平台项目计划书VIP免费
2025-01-09 22 -
农产品电子商务商业计划书VIP免费
2025-01-09 8 -
农村电商平台商业计划书VIP免费
2025-01-09 13 -
生鲜商城平台商业计划书VIP免费
2025-01-09 21
作者:陈辉
分类:高等教育资料
价格:15积分
属性:92 页
大小:2MB
格式:PDF
时间:2024-11-19

