点击流OLAP及DM系统的研究和设计

VIP免费
3.0 牛悦 2024-11-19 4 4 1.88MB 74 页 15积分
侵权投诉
摘 要
随着电子商务的高速发展,电子商务对企业的经营活动带来巨大的影响。它
逐渐成为企业市场销售和客户服务的一个重要渠道。充分利用电子商务将给企业
带来巨大的经济效益和社会效益。而电子商务中,Web网页服务器日志文件记录了
网站上每个用户的每一次点击,带来了新的、大规模的数据资源,称之为点击流。
这便为OLAP及数据挖掘提供了丰富的资源。
本文主要研究点击流数据仓库多维模型建模以及web日志预处理技术,在此基
础上,研究根据点击流数据仓库构建点击流OLAP及数据挖掘系统,本文将根据点
击流数据分析的现状、发展趋势,及其面临的挑战,介绍SQL Server 2005 BI平台
对传统BI工具的革新;接着介绍数据预处理技术,尤其是基于Web日志的数据预处
理技术,同时给出基于Web日志的数据预处理过程以及预处理过程中所涉及到的技
术。
其实点击流数据分析是一项非常关键的技术,几乎贯穿于互联网分析(包括
联机分析项目、web挖掘以及知识发现)的每一个方面,总而言之,WEB点击流是
一笔非常巨大的财富,采用何种方式去分析它和挖掘它,以更好的理解互联网、
理解电子商务。针对此,本文讨论了2种不同的分析方法,即针对网页和突出用户
(它们分别代表了当今互联网OLAP分析的不同方向),并分别讨论不同的建模方
法,内容维度和以会话作为分析对象的建模。接着通过结合SQL Server 2005 BI
台分别讨论与实现了在互联网联机分析以及数据挖掘中的两个典型案例,分别是
面向网页内容的智能分析和搜索关键字分析。这两个实际案例都是通过SSAS来实
施的,涉及了很多SQL Server 2005最新的BI技术,包括DMXMDX语言,挖掘算
法、挖掘结构的创建,XMLA以及与Reporting Service的集成。在挖掘系统中还加
入了一些笔者实际工程应用中的优化技巧和工作体会,这对分析结果改善有非常
有益的帮助。
关键词:点击流 数据仓库 OLAP 数据挖掘 web日志
ABSTRACT
With the rapid development of e–business it brings about great influence on
business management. Gradually, it becomes an important channel for market-selling
and clients' services. Full use the advantages of e-business will bring company
enormous economical and social benefits. But in e-business, web server always record
all surfer's clicks on relevant web site which brings us very important and huge stuff,
this is so-called Clickstream. Naturally it becomes the biggest asset for Internet OLAP
and Data Mining.
This paper mainly explores Multi-dimentional Model on Clickstream Data
warehouse and data preprocessing of web logs and how to implement OLAP and Data
Mining system based on Clickstream Data warehouse. Firstly, the article discusses new
progresses and future trend of Clickstream analysis, the challenges which attracts more
attention meanwhile, the revolutions of SQL Server 2005 brings to traditional BI
Platform are introduced. After this, the article puts emphasis on data preprocessing,
especially the technology of Web Log preprocessing. Based on it, the process of data
preprocessing and other key technologies are presented at last.
Clickstream analysis is a very important technology and can be used in every
aspect of Internet analysis, which includes OLAP Data Mining and Knowledge
discovery on Web. All together, Clickstream is huge resource, all depends on the way
how to analyze it and make use of it, to understand the hidden rules behind Internet
and e-business. For this, the paper puts emphasis on common issues of Internet BI
solutions and proposes basic solutions to them. this article discusses two different ways
of SQL Server 2005 BI platform to design Multi-dimentional Model: Web Page
oriented and surfer oriented (they also delegate the main aspects of Internet
OLAP).then the implementation process of two typical projects in OLAP and Data
Mining are discussed and introduced, they respectively are intelligent analysis of Page
content and association analysis of key words in Search Engines. These cases are all
implemented by SQL Server analysis services. Undoubtedly, there are so many newest
BI technologies ,including DMX MDX Data Mining algorithms Data Mining
structureXMLAReporting Service and so on, adopted in the solutions. Besides,
some optimization skills are used to improve the performance and user experiences,
eventually the visualization of results can benefit a lots from them.
Key WordClickstream, Data warehouse, OLAP, Data Mining, Web
Log
目 录
中文摘要
ABSTRACT
第一章 论 ...................................................... 1
§1.1 背景 ....................................................... 1
§1.1.1 点击流数据分析概述 ................................... 1
§1.1.2 点击流分析技术的研究现状 ............................. 3
§1.1.3 点击流分析所面临的挑战 ............................... 4
§1.2 BI(商务智能)技术概述 ....................................... 5
§1.2.1 商务智能的技术支柱 ................................... 5
§1.2.2 联机分析处理与数据挖掘 ............................... 6
§1.3 SQL Server 2005 BI 平台的主要优势 .......................... 7
§1.4 论文的结构 ................................................. 9
第二章 Web 服务器日志预处理技术 ................................... 11
§2.1 WEB 服务器日志概述 ........................................ 11
§2.2.1 点击流数据的收集 .................................... 11
§2.2.2 WEB 服务器日志的分类及其含义 ........................ 12
§2.2 WEB 服务器日志预处理概述 .................................. 17
§2.2.1 WEB 服务器日志预处理的必要性 ........................ 17
§2.2.2 WEB 服务器日志分析的困难 ............................ 17
§2.2.3 WEB 服务器日志预处理的一般过程 ...................... 18
§2.3 WEB 服务器日志 ETL 方法 .................................... 21
§2.3.1 ETL 含义与 Integration Services 介绍 ................. 21
§2.3.2 WEB 服务器日志特色维度 ETL 处理 ...................... 22
第三章 点击流数据仓库及其多维数据建模 ............................. 25
§3.1 点击流数据仓库模式及多维分析理论 .......................... 25
§3.1.1 点击流数据仓库模式 .................................. 25
§3.1.2 点击流数据仓库多维分析理论 .......................... 28
§3.2 点击流数据仓库多维数据建模 ................................ 30
§3.2.1 页面活动粒度维度建模 ................................ 30
§3.2.2 会话活动粒度维度建模 ................................ 35
§3.3 本章小结 .................................................. 36
第四章 点击流 OLAP 系统 ............................................ 37
§4.1 设计多维数据集 ............................................ 37
§4.1.1 维度结构 ............................................ 37
§4.1.2 内容维度处理 ........................................ 40
§4.1.3 进一步扩展 .......................................... 42
§4.2 内容关键字的提取 .......................................... 43
§4.2.1 基于 SQL Server 2005 全文检索解决方案 ................ 43
§4.3 OLAP 分析 ................................................. 45
§4.3.1 确定分析需求 ........................................ 45
§4.3.2 OLAP 分析 ........................................... 46
§4.4 分析结果的前端展示 ........................................ 48
§4.4.1 基于 ADO MD.NET 的展示 ............................... 48
§4.4.2 基于 SQL Server Reporting Service 的展示 ............. 50
第五章 点击流数据挖掘系统及其优化 ................................ 52
§5.1 SSAS 挖掘算法及 DMX 语言 ................................... 52
§5.1.1 SSAS 挖掘算法 ....................................... 52
§5.1.2 DMX 语言 ............................................ 54
§5.2 挖掘模型的创建及其浏览 .................................... 56
§5.2.1 创建挖掘模型 ........................................ 56
§5.2.2 浏览挖掘模型 ........................................ 58
§5.3 挖掘模型的优化处理及部署应用 .............................. 62
§5.3.1 挖掘模型的优化处理 .................................. 62
§5.3.2 部署应用 ............................................ 64
第六章 总结与展望 ................................................ 65
参考文献 .......................................................... 67
录 ............................................................. 69
在读期间公开发表的论文和承担科研项目及取得成果 .................... 71
谢 ............................................................ 72
第一章 绪 论
-1-
第二章 绪
§1.1 背景
§1.1.1 点击流数据分析概述
随着 Internet 在流量、规模和复杂度等方面的快速增长,WWW 成为一个巨
大的、分布广泛的、全球性的信息服务中心,它涉及到新闻、广告、金融管理、
教育、电子政务、电子商务等各方面的信息服务。Web 中的网页服务器日志文件
记录了网站上每个用户的每一次点击,为我们带来了新的、大规模的数据资源,
我们称之为点击流(clickstream),这便为 OLAP 及数据挖掘提供了丰富的资源。当
前的 Web 分析工具只能对网站的基本流量、访问及基本运行进行概要分析,而通
过将点击流引入数据仓库,可以更好地分析网站用户的行为,并进一步探究导致
网站用户行为的内在因素,获取有商业价值的信息,得到比 Web 分析工具更好的
决策支持数据。而数据挖掘是指从大量的数据中提取隐含的、未知的、有潜在应
用价值的模式、规则和知识,它包括关联分析、决策树、聚类分析、序列分类、
偏差分析、趋势分析等[18]Web 点击流挖掘技术针对 Web 点击流信息的特性,对
传统的挖掘方法进行扩展和改进,并将其应用到 Web 点击流信息上进行挖掘,得
到有用的知识。
针对此,可总结 Web 点击流信息具有如下特点:
1) 点击流数据是大规模且海量的:一个中等大小的网站每天可以记载几MB
用户访问信息,记载着数万次用户的访问,随着时间的推移,所记载的用
户访问量信息更是非常庞大。此外,数据分布也十分广泛,可来自于世界
上每一台Web服务器或Web代理服务器,分别记录着来自不同国家、地区的
访问者的访问信息。
2) 数据时时刻刻地产生:只要用户对站点进行访问,那么用户访问信息就会被
记录;只要用户访问Internet那么必然至少有一个服务器记录其访问行为 。
3) 记录内容十分丰富:访问信息记载了来访者,被访问页面,访问时间等一系
列信息 。当这些信息被事务化,提取出访问页面特性,访问路径特性,
访问时间特性,以及将这些特性和网站原有的拓扑结构结合起来后,便可
进一步探究导致网站用户行为的内在因素,获取有商业价值的信息。
4) 结构化程度高:访问信息一般都按照确定的数据格式由系统自动记录,遵循
点击流 OLAP DM 系统的研究和设计
-2-
W3C 标准的访问信息记录格式,可以很方便地转化成关系式数据库进行
结构化的处理,这便为OLAP多维数据建模和挖掘提供了很好的基础。
如果失去了点击流数据信息,电子商务就显得非常盲目,完全不理解它与用
户间的商业关系ERM同时在电子商务环境中,也不再存在任何其他类型的反
馈或者智能商业机制。相反地,Web 点击流信息含有丰富的 ERM 数据,由这些数
据挖掘的商务智能可用于商业的所有方面,可以根据用户表现出的一般行为模式,
为其提供更加方便、快捷的个性化服务。总之,Web 点击流信息可以从各方面详
尽反映出用户访Web 的细节,是取之不尽、用之不竭的宝贵资源。为了不浪费
这宝贵而丰富的资源,开展 Web 点击流联机分析及挖掘方面的研究具有广泛的普
遍意义。通过对 Web 点击流信息进行有效的数据挖掘,可以帮助我们更好地理解
Web Web 用户访问模式,这对于开发 Web 的最大经济潜力是非常关键的。
目前,针对点击流数据的数据分析可以分为两个方面,OLAP(在线分析处理)
或数据(这也文所讨论2),者又基于击流据仓
术。点击流数据仓库的建立完全遵从传统数据仓库建立的原则,只是其数据来源
与一般数据仓库不同,来自点击流数据,通过收集、整理、转换这些数据,建立
针对 Web 点击信息的各种维度,进而分析网站用户的行为并最终探索导致这些行
为的内在原因是点击流数据仓库的建设初衷。其优势主要在于点击流数据是一种
真正改进了的数据资源集,加上数据仓库系统本身的成熟应用,使点击流数据仓
库具有其他方式或工具无法比拟的优势。
点击流数据仓库能够更好地组织和管理点击流数据,能描绘 Web 用户完整的
行为视图;其次点击流数据仓库中的数据通常经过抽取、转换和清洗,因而在数据
仓库上进行点击流数据分析可免去许多数据预处理的工作;点击流数据仓库中集成
了大量的历史数据,而对用户行为分析的大多数问题也与时间有关,因此,借助
点击流数据仓库进行 OLAP 分析更利于理解用户的行为。
点击流挖掘是 Web 挖掘的一个主要方向,它是通过分析 Web 服务器的日志文
件,以发现用户访问站点的浏览模式,为站点管理员提供各种利于站点改进或可
以带来经济效益的信息(:聚类分析可以把具有相似特征的用户或数据项归类
帮助进行市场决策[19]),Web 服务器日志也可以结合其它数据库(:电子商务、银行
数据库)一同进行挖掘,以获得更详细的信息。Web 日志挖掘能带来许多方面的好
:分析网站流量模式、发现系统性能瓶颈、测定广告和促销计划的成功度及测定
投资回报率、发现用户的需要和兴趣等。
第一章 绪 论
-3-
§1.1.2 点击流分析技术的研究现状
点击流分析以 Web 上的点击流数据为基础,利用 OLAP数据挖掘等技术对数
据进行分析来达到不同的目的。Web 点击流分析中的一个显著的挑战是在多个用
户使用同一个代理服务器的环境下如何标识某个用户,如何识别属于该用户的会
话和使用记录,这个问题在很大程度上影响着挖掘质量,所以有人专门在这方面
进行了研究。通常来讲,一些经典的数据挖掘算法都可以直接用到点击流挖掘上
来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规
则算法、改进的序列发现算法,序列聚类等。
目前根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务
器数量以及分析的用途等点击流分析主要集中在以下五类:
1) 个性挖掘[5][15]:针对单个用户的使用记录对该用户进行建模,结合该用户
基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用
户提供与众不同的个性化服务。
2) 系统改进:Web服务(数据库、网络等)的性能和其他服务质量是衡量用
户满意度的关键指标,Web 用法挖掘可以通过用户的拥塞记录发现站点的
性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负
载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据
找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。
3) 站点修改:站点的结构和内容是吸引用户的关键。
Web 用法挖掘通过挖掘
用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接
情况应如何组织、那些页面应能够直接访问等。
4) 行为分析:用户怎样使用Web站点的信息无疑是电子商务经营商关心的重
点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,Web
用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,
以期发现用户浏览模式,来帮助经营商合理安排营销策略[6]
5) Web特征描述[4] [7]:这类研究更关注怎样通过用户对站点的访问情况来统
计各个用户在页面上的交互情况,进而对用户访问情况进行特征描述。
迄今为止 ,国外基于点击流的数据分析方法主要分为两大类:一类基于 Web
事务的方法,即将数据挖掘技术应用于 Web 服务器日志以期发现用户浏览模式[7]
并用它将用户会话分割成一系列的事务,然后采用与关联规则相似的方法挖掘频
繁浏览路径。第二类方法是基于 cube(数据立方体)和数据仓库的方法,即根据 Web
日志建立 cube 和数据仓库,进行数据挖掘和 OLAP
点击流 OLAP DM 系统的研究和设计
-4-
而国内本身对 DMKD 的研究起步就较晚,至今还没有形成整体力量。1993
国家自然科学基金首次支持对该领域的研究项目。目前,国内的许多单位和高等
院校竟相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科
院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工
程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开
展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大
学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改
:南京大学、四川大学和上海交通大学等单位探讨、研究了非结构化数据的知识
发现以及 Web 数据挖掘。当前,该领域的研究多应用于推荐系统,提供个性化网
站,动态自适应网站的建造等。Web 挖掘是一项综合技术,涉及 Web数据挖掘、
计算语言学、信息学等多个领域。不同研究者从自身的领域出发,对 Web 挖掘的
含义有着不同的理解,项目开发也各有其侧重点。
点击流作为 Web 挖掘的一种分支,现在已经出现了很多通用的挖掘系统,如
DBMinerWUM 等,但是都还不能达到期望的智能系统那样。在近来的点击流挖
掘研究和开发中,随着 MicrosoftOracle
IBM 等国际大公司的介入,特别是 SQL
SERVER 2005 的发布,使得开发人员可将一种开发工具用于 Transact-SQLXML
多维表达式 (MDX) XML for Analysis (XMLA)Visual Studio 开发环境的
集成将使行业和商务智能系统的开发更加快捷和高效。通过在可伸缩性、数据集
成、开发工具和丰富的分析方法等方面的革新,SQL Server 2005 促进了 Microsoft
在商务智能领域的领导地位。SQL Server 2005 全面的集成、分析和报表功能使企
业能够扩展他们现有应用程序的价值,而无需考虑应用程序的基础平台。BI 功能
的增强包括以下几个方面:
1) 端到端的集成商务智能平台
2) Integration Services
3) Analysis Services
4) Reporting Services
5) Microsoft Office System 的集成
而本课题主要就是借助于 SQL SERVER 2005 BI 平台来搭建点击流 OLAP
及数据挖掘系统。
§1.1.3 点击流分析所面临的挑战
点击流数据仓库 OLAP 及数据挖掘技术同样也存在如下的一些挑战:
1) 日志的同步问题:因为数据可能分布于不同的web服务器,它们之间总存
摘要:

摘要随着电子商务的高速发展,电子商务对企业的经营活动带来巨大的影响。它逐渐成为企业市场销售和客户服务的一个重要渠道。充分利用电子商务将给企业带来巨大的经济效益和社会效益。而电子商务中,Web网页服务器日志文件记录了网站上每个用户的每一次点击,带来了新的、大规模的数据资源,称之为点击流。这便为OLAP及数据挖掘提供了丰富的资源。本文主要研究点击流数据仓库多维模型建模以及web日志预处理技术,在此基础上,研究根据点击流数据仓库构建点击流OLAP及数据挖掘系统,本文将根据点击流数据分析的现状、发展趋势,及其面临的挑战,介绍SQLServer2005BI平台对传统BI工具的革新;接着介绍数据预处理技术...

展开>> 收起<<
点击流OLAP及DM系统的研究和设计.pdf

共74页,预览8页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:74 页 大小:1.88MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 74
客服
关注