一种结合领域本体的垂直搜索引擎的研究

VIP免费
3.0 陈辉 2024-11-19 4 4 4.07MB 78 页 15积分
侵权投诉
i
摘 要
在互联网技术飞速发展的背景下,万维网中的资源以级数增长着,虽然搜索
引擎为用户提供了信息检索和导航的功能,但是搜索结果往往不能直接满足用户
的需求,具有大量的“噪音”结果,同时,用户对搜索服务的要求也越来越高,
希望搜索引擎能够提供更加专业化的检索功能,以便能够迅速的定位到自己所需
的资源。
垂直搜索引擎的出现,向用户提供了专业检索的功能,解决了目前通用搜索
引擎中的部分问题。垂直搜索引擎是面向领域的,其组织的网络资源是具有主题
性的,并向用户提供专业领域的信息检索服务。而领域本体正是用于描述某一领
域知识的一种专门本体,它给出了领域中概念对应的术语以及概念间的内在关系,
或者在该领域中具有主导地位的理论。它可以对信息资源的主题类别进行推断,
因此,在垂直搜索引擎中引入领域本体,成了改进垂直搜索引擎服务的研究热点。
本文首先介绍和讨论了搜索引擎的概念,并对不同种类的搜索引擎及其工作
方式进行了分析,同时,对目前广泛使用的基于全文检索的通用搜索引擎的原理
进行了分析。接着对比通用搜索引擎,介绍了垂直搜索引擎的原理及其相关技术。
然后对本体的概念、种类及本体构建的评价规则进行了介绍,详细的研究的不同
的本体构建方法和本体描述语言,对本体在语义 Web 中的作用和其在信息组织和
检信息索方面的应用进行了介绍。最后,结合领域本体的领域性和垂直搜索引擎
的专业性,提出了一种结合领域本体的垂直搜索引擎,其中重点研究了结合领域
本体的垂直搜索引擎中主题爬虫的工作方式,提出了一种基于概率模型的主题爬
虫,在主题爬虫中引入领域本体对网页内容和超链接文本内容的主题进行分析,
确定其对应的主题相关度,根据它们利用概率模型推算网页中 URLs 的主题相关
性,进而使主题爬虫能够更好地过滤主题无关的 URLs,抓取主题相关的网页。
为了提高查全率和查准率,提出了一种通过本体确定查询词所属概念,进而从语
义上对查询词进行扩展的方法,并描述了相应的实现算法。
关键词:本体、垂直搜索、领域本体、主题爬虫、概率模型
ii
ABSTRACT
With the rapid development of Internet technology, the resources in World Wide
Web grow exponentially, although the search engine provides users of information
retrieval and navigation functions, but the search results often do not directly meet the
needs of users, with a lot of noise information in the results, while the demands of for
search service turn more and more flexible, hoping the search engine to provide a more
specialized search functions in order to be able to quickly locate the resources they
need.
The emergence of vertical search engine to provide users with a professional
search features to solve a part of the problems in the current general-purpose search
engine. Vertical search engine is domain-oriented, and the resources it organized is a
theme of nature, and to provide information retrieval services for specialized fields.
The domain ontology is specialized ontology used to describe a particular field of
knowledge, it gives the concept of the domain, as well as the corresponding terms of
the intrinsic relationship between concepts, or in the field has a dominant theory. It can
infer the topic categories of information resources. Therefore, the introducting the
domain ontology into vertical search engine has become a research focus that is used to
improve the services supplied by vertical search engine.
This paper first introduces and discusses the concept of search engine, and
analyses the different types of search engines and their working methods. While we
analyzed the general search engine based full-text searching which is used
widespreadly. Then, compared to the general search engine, we introduced the
principle of vertical search engine and related technologies. After that the concept of
ontology type and the rules to evaluate building ontology were introduced, a detailed
study kinds of methods to build ontology build and different ontology languages, and
then introduce the role of ontology in the Semantic Web and information
organization and retrieval fields. Finally, the combined the features of domain ontology
and vertical search engine, we propose a vertical search engine that combined with
domain ontology, in which we focuse on the methods by which the topic crawler works,
proposed a probability model that the topic crawler based on, in the topic crawler we
introduce the domain ontology that help the crawler analyse the topic of web page
content and hyperlinks text content, and calculate the relevancy of web page content
iii
and hyperlink’s content. Then, according to their probability model to estimate whether
the URLs of a page are topic relevant and thus make the topic crawler is able to filter
off-topic URLs better, and crawling more topic related web pages. In order to improve
the rate of recall and precision rates, presents a way to determine the concept of the
query keyword through the ontology, and then expand query by semantics, also we
describes the corresponding algorithm.
Key Words: Ontology, Vertical Search, Domain Ontoloty, Topic Crawler,
Probability Model
iv
目 录
................................................................................................................................. i
ABSTRACT .....................................................................................................................ii
第一章 ............................................................................................................... 1
§1.1 研究的背景和意义............................................................................................1
§1.2 相关研究现状....................................................................................................2
§1.2.1 语义 Web 相关技术的研究 ................................................................... 2
§1.2.2 语义检索的相关研究.............................................................................3
§1.3 论文的主要工作................................................................................................4
§1.4 论文的组织结构................................................................................................4
第二章 垂直搜索引擎 ................................................................................................. 6
§2.1 搜索引擎............................................................................................................6
§2.1.1 搜索引擎的分类.....................................................................................6
§2.1.2 搜索引擎原理.........................................................................................7
§2.2 垂直搜索引擎的概念......................................................................................11
§2.3 垂直搜索引擎的特点......................................................................................12
§2.4 垂直搜索引擎的原理和技术..........................................................................13
§2.4.1 垂直引擎的原理...................................................................................13
§2.4.2 垂直搜索引擎中的主题爬虫...............................................................14
§2.4.2 结构化信息抽取...................................................................................15
§2.5 垂直搜索引擎的应用......................................................................................15
第三章 本体相关概念及技术 ................................................................................... 17
§3.1 本体的概念......................................................................................................17
§3.1.1 本体的定义............................................................................................17
§3.1.2 本体建模元语........................................................................................18
§3.1.3 已有本体及其分类................................................................................20
§3.2 本体的描述语言..............................................................................................22
§3.3 本体构建..........................................................................................................25
§3.3.1 本体的评价规则....................................................................................26
§3.3.2 本体的构建方法....................................................................................26
§3.3.3 本体构建工具........................................................................................29
§3.4 本体和语义网..................................................................................................30
§3.5 本体和信息系统..............................................................................................32
第四章 结合领域本体的垂直搜索引擎相关技术研究 ........................................... 35
§4.1 领域本体和垂直搜索引擎..............................................................................35
§4.2 领域本体的构建..............................................................................................35
§4.3 基于概率模型的主题爬虫..............................................................................39
§4.3.1 主题爬虫的相关研究...........................................................................39
§4.3.2 概率模型...............................................................................................40
§4.3.3 主题爬虫结构.......................................................................................41
§4.3.4 概念实例抽取.......................................................................................42
§4.3.5 网页主题相关性分析...........................................................................43
v
§4.3.6 动态主题库...........................................................................................45
§4.3.7 超链接文本主题相关性分析...............................................................48
§4.3.8 主题爬虫工作流程...............................................................................49
§4.4 语义扩展查询..................................................................................................51
第五章 结合领域本体的垂直搜索引擎系统 ........................................................... 54
§5.1 系统功能和目标..............................................................................................54
§5.2 系统结构..........................................................................................................54
§5.3 系统设计开发..................................................................................................56
§5.3.1 开发环境和工具...................................................................................56
§5.3.2 主题爬虫的开发...................................................................................56
§5.3.3 本体开发...............................................................................................60
§5.3.4 语义扩展查询实现...............................................................................65
第六章 总结与展望 ................................................................................................... 68
§6.1 总结..................................................................................................................68
§6.2 不足与展望......................................................................................................69
参考文献 .........................................................................................................................70
在读期间公开发表的论文和承担科研项目及取得成............................................ 74
...............................................................................................................................75
第一章 绪论
1
第一章 绪 论
§1.1 研究的背景和意义
随着互联网技术与应用的飞速发展,万维网中的有用资源日益增多,然而,
其动态性和非结构化的本质使得这些资源很难被定位。在这种相应的背景下,搜
索引擎技术应运而生。搜索引擎通过网络爬虫在网络中抓取网页,并进行分析处
理后存储到本地,利用索引技术对网页资源进行索引处理,生成对应的索引库,
通过一个统一的检索接口给人们提供了一定的资源搜索功能,帮助人们更快地定
位自己需要的相关信息。虽然通用搜索引擎在很大程度上为人们解决了资源查找
的困难,但是,由于目前万维网中的网页数量级数增长,已经突破了 300 亿,类
似于 Google 这样的通用搜索引擎返回给用户的检索结果中的信息出现了一定程
度“过载”产生了大量的“搜索噪音”[12]。同时,不同工作领域的人们对信息
的需求也是千差万别的,因此,向不同的专业领域的人群提供专向领域的搜索服
务的成为了新一代搜索引擎发展的必然趋势。垂直搜索引擎的出现解决了通用搜
索引擎中的某一类问题,为人们提供了特定领域的专向搜索功能,在很大的程度
上解决了“信息噪音”的问题,使得其功能更加专注。
垂直搜索引擎是领域性的,它向具有特定领域或者主题需求的用户提供具有
一定价值的信息检索相关服务的。与通用搜索引擎相比,它显得更加专注、具体
和深入,针对特定领域中信息进行全面和深入采集,而领域外的信息会被其过滤。
然而,目前的垂直搜索引擎中对网页的主题相关性分析还主要停留在语法层次,
是利用统计分析算法完成的,在采集主题相关的网页资源时,不能够深入到语义
的层面去分析网页的主题相关性和超链接的主题相关性,使得网络爬虫在抓取了
较多的主题无关网页的同时,网页的主题相关性也偏低。另一方面,为用户提供
检索服务时,也不能够理解用户检索关键字与文档的语义,使得查询仅停留在关
键字的匹配上。
2000 12 18 日的 XML2000 会议上,针对目前的万维网的资源定位
的缺点,Berners-Lee 提出了新一代的 Web 模型——语义 Web 模型,在语义 Web
上下文中,利用本体提供的对特定领域的概念的共享理解,使得人们能够利用计
算机程序从语义层次上准确的定位资源,解决了人机之间以及机器之间语义交流
问题[3]。目前,语义技术已在很多应用工程中得到使用,例如对词义进行消歧、
不同种类的语言之间的翻译、信息检索系统等语言工程。在搜索引擎领域,不少
大型搜索引擎也开始使用一些特定的算法来模拟实现基于“语义”的检索功能,
一种结合领域本体的垂直搜索引擎的研究
2
但是它们并不是真正的从语义层次上对检索关键字和文本进行分析。此外,不少
科研工作者也开始在搜索引擎中引入本体技术,实现主题或者领域信息的语义层
次的分析。因此,本文在前述的背景下,考虑到垂直搜索引擎的领域性,引入领
域本体,改进垂直搜索引擎的主题爬虫,使其能够利用本体,从语义层次上分析
网页和超链接的主题相关性,更好地过滤主题无关的网页的同时,尽可能多地抓
取主题相关的网页。同时,在另一方面,利用本体对用户检索关键字进行语义层
次上的分析和扩展,提高检索结果的查全率和查准率,更好地为用户提供检索服
务。
§1.2 相关研究现状
搜索引擎迅猛发展,在为用户提供服务时,从检索过程中发现了不少缺点,
如信息噪音引起的人肉搜索,领域不够深入,缺少语义层次的分析等引起的资源
偏题。为了解决各种问题,人们试图将各种先进的思想和方法引入到信息检索领
域之中,促进其从理论和技术上能够有深层次改进。因此,结合人工智能技术的
知识检索的相关研究逐渐成为该领域的热点。在上个世纪末期,语义网中的本体
的概念和相关技术被学者应用到信息检索中,并在该领域进行了各种不同的研究
和探索。
§1.2.1 语义 Web 相关技术的研究
自从语义 Web 的概念被提出之后,它就一直是人们讨论与研究的热点。2001
730 日,第一个关于语义 Web 的国际会议“语义网基础设施和应用”在美
国新坦福大学召开后,关于语义 Web 的大会形成了每年举行一次惯例。同时,
IT 大公司和世界著名的研究学院都开始对语Web 的相关技术进行了深入的
研究和探索,产生了如 JenaKAONRacerPellet 等一系列的语义 Web 技术开
发应用平台、信息检索、推理和本体编辑系统。相对于国外而言,我国对语义
Web 各个方面的研究都还是比较落后的。然而,可幸的是,我国学者已经开始认
识到了语义 Web 及其相关技术对未来互联网发展的影响,并开始着手研究语义
Web 及其相关的关键技术与应用。虽然与国外相比我国对语义 Web 的研究相对落
后,但近年来,我国对语义 Web 方面研究的论文不断增加,同时也出现了相关的
语义 Web 讨论论坛,如中国万维网联盟论坛中的语义 Web 讨论板块,大家对各
种不同的关于语义 Web 的技术进行了探讨。2009 829 —31 日,在中国南
京的东南大学,第三届中国语义万维网研讨会成功召开,对语义 Web 概念的推广
第一章 绪论
3
起到了积极的作用。
目前,我国对语义 Web 的研究内容越来越广泛而深入,大致可分为三个层次:
第一层次主要是对语义 Web 的基础和关键技术的方面的描述与介绍,它主要
包括语义 Web 的根本含义[4,5,6,7]、体系结构[8,9]、实现语义 Web 的关键技术(本体,
本体描述语言本体构建方法等)[10,11,12]以及实现语义 Web 所面临的挑战等[4]
第二层次主要是关于语义 Web 技术的使用领域,以及其对不同学科或研究领
域的所能产生影响与带来改进和启示,它主要包含信息的管理和检索[13,14,15,16]
建知识库系统的方法[17,18]、语义层次的数据挖掘[19]、多语言的机器翻译实现[20]
元数据的描述和交换[21]Web 中的信息资源描述和表示等[22,23]
第三个层次主要是语义 Web 及其技术方面的试验与应用的研究,它包括如何
应用和存储 RDF[24]、设计和实现基于 RDF 检索系统[25]、试验性地实现小范围
的语义 Web[26,27,28,29]、基于本体实现的语义检索系统[30,31]、本体在图书服务系统、
知识或数字图书馆中的相关应用等[32,33]
§1.2.2 语义检索的相关研究
随着不同学科领域中对语义 Web 及相关技术应用研究的深入,本体在信息检
索领域得到了广泛的应用,其中国外的著名项目有 OntobrokerSKCSemantic Web
Search 等。Ontobroker 对万维网中的网页资源使用本体转换网页,为用户提供查
询服务,支持用户检索知识,帮助用户快速地定位到相关资源。SKC 的主要是解
决信息系统中的语义异构问题,实现异构自治系统之间的信息交换和互相控制操
作。
Semantic Web Search 是一个基于语义 Web 的搜索引擎,它可以很好地定位和
采集发布在语义 Web 上的信息,它的用户可以是人,也可以是计算机。而国内对
本体在信息检索系统中的著名项目有 SPARK[34]SemSearch[35]等。SPARK
通过对检索关键字进行调节,将其转换成对应的规则的逻辑查询,SPARQL
询,利用 SPQRQL 语言对语义 Web 进行检索,返回语义相关的结果给用户。
SemSearch 主要利用语义 Web 上下文中可获得的信息的明确语义,构建类 SQL
的查询语句,对语义 Web 进行查询,向用户返回准确的查询结果。
在语义 Web 相关技术信息检索试验项目中获得了一定的成功后,人们开始在
搜索引擎中引入语义 Web 的相关技术,出现了不少基于本体的语义搜索引擎,
SHOEOntoSeekWebKB 等。然而,在构建本体的过程中,相关领域概念并不
能通过计算机程序自动或半自动的创建,这使得在大型通用搜索引擎中使用本体
的复杂度增加,需要投入大量人力对概念进行分析提取,才能创建良好的本体,
使其更好应用在搜索引擎中;另外一方面,大范围的引入本体,会增加计算量,
摘要:

i摘要在互联网技术飞速发展的背景下,万维网中的资源以级数增长着,虽然搜索引擎为用户提供了信息检索和导航的功能,但是搜索结果往往不能直接满足用户的需求,具有大量的“噪音”结果,同时,用户对搜索服务的要求也越来越高,希望搜索引擎能够提供更加专业化的检索功能,以便能够迅速的定位到自己所需的资源。垂直搜索引擎的出现,向用户提供了专业检索的功能,解决了目前通用搜索引擎中的部分问题。垂直搜索引擎是面向领域的,其组织的网络资源是具有主题性的,并向用户提供专业领域的信息检索服务。而领域本体正是用于描述某一领域知识的一种专门本体,它给出了领域中概念对应的术语以及概念间的内在关系,或者在该领域中具有主导地位的理论...

展开>> 收起<<
一种结合领域本体的垂直搜索引擎的研究.pdf

共78页,预览8页

还剩页未读, 继续阅读

作者:陈辉 分类:高等教育资料 价格:15积分 属性:78 页 大小:4.07MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 78
客服
关注