目 录
摘 要..................................................................................................................................I
Abstract...........................................................................................................................II
第1章 绪论...................................................................................................................1
1.1 选题背景和意义................................................................................................................1
1.2 Web 信息的抽取................................................................................................................2
1.3 Web 信息抽取的应用........................................................................................................3
1.4 本文的研究内容................................................................................................................3
1.5 本文的组织........................................................................................................................3
第2章 相关标准与 Web 信息抽取技术......................................................................5
2.1 引言....................................................................................................................................5
2.2 相关标准............................................................................................................................5
2.2.1 XML.............................................................................................................................................5
2.2.2 XHTML........................................................................................................................................8
2.2.3 DOM.............................................................................................................................................8
2.2.4 XPath............................................................................................................................................8
2.2.5 XSLT............................................................................................................................................9
2.3 Web 信息抽取技术概述..................................................................................................10
2.3.1 Web 信息抽取技术的分类........................................................................................................11
2.3.2 Web 信息抽取存在的问题........................................................................................................16
2.3.3 Web 信息抽取的关键技术........................................................................................................17
2.3.4 信息抽取系统的评测指标........................................................................................................19
2.4 资料综述..........................................................................................................................20
2.5 本章小结..........................................................................................................................20
第3章 基于 XML 的Web 信息抽取平台...............................................................22
3.1 概述..................................................................................................................................22
3.1.1 平台的目标................................................................................................................................22
3.1.2 设计的基本思想........................................................................................................................22
3.1.3 XML 和XSLT 在平台中的角色...............................................................................................23
3.1.4 数据导向型页面........................................................................................................................25
3.2 平台的总体框架..............................................................................................................26
3.3 平台中的知识库与数据库..............................................................................................27
3.3.1 构造领域知识库........................................................................................................................27
3.3.2 抽取规则库................................................................................................................................28
3.3.3 抽取结果数据库和 Web 页面数据库.......................................................................................28
- I -