基于SSAS的企业数据仓库OLAP研究与实现

VIP免费
3.0 牛悦 2024-11-19 4 4 4.06MB 81 页 15积分
侵权投诉
摘 要
随着数据库技术的广泛应用,企业信息系统产生了大量的数据,如何从这些
海量数据中提取出对企业决策分析有用的信息成为企业决策人员所面临的重要课
题。传统的企业数据库系统即联机事务处理系统OLTP Online Transaction
Processing)作为数据管理手段,主要用于事务处理,它对分析处理的支持一直不
能令人满意。因此,人们逐渐尝试对OLTP数据库中的数据进行再加工,形成一个
综合的、面向分析的、能更好地支持决策制定的决策支持系统DSS
Decision Support
System。但是目前企业的信息系统的数据一般DBMS管理,由于决策数据库和
操作数据库在数据来源、数据内容、数据模式、服务对象、访问方式、事务管理
等方面都有不同的特点和要求,因此直接在操作数据库上建立DSS是不合适的。
据联机分析处理OLAPOnline Analysis Process)技术就是在这样的背景下发展起
来的。联机分析处理的主要特点,是直接仿照用户的多角度思考模式,预先为用
户组建多维的数据模型。一旦多维数据模型建立完成,用户可以快速地从各个分
析角度获取数据,也能动态的在各个角度之间切换或者进行多角度综合分析,具
有极大的分析灵活性。这也是联机分析处理在近年来被广泛关注的根本原因。本
文首先对OLAP的概念以及它与数据仓库,数据挖掘,决策系统的关系做了详细的
介绍,之后结合实际,实现了一个小型企业的数据仓库搭建过程和在此基础上的
OLAP数据分析设计、实施方案。本文的最后对OLAP的数据显示进行了简单的讨
论并对OLAP发展的新方向进行了展望。
关键词:OLAP 数据仓库 数据挖掘 决策系统
ABSTRACT
With the wild implementation of database technology, enterprise information
system has got billions of data. How to extract information that is really valuable from
those billions of data become to an important problem for enterprise decision makers.
Traditional enterprise database system (i.e. OLTP) is mainly used in transaction
processing field, and is not proper for analysis processing. Therefore, people have tried
to refine the data in OLTP database and to reform a new integrated, analysis-oriented,
better decision supported Decision Support system (DSS). Currently enterprise
information system data are generated managed by DBMS, however, DSS are different
from transaction system at data resource, data content, data model, data object, service
target, access model, transaction management etc, thus it’s not proper to run DBMS on
DSS systems. Online Analysis Process (OLAP) rises in such a background. The main
feature of OLAP is that it directly uses client users view and model toward system data,
and can build up a multiple diversionary database model. Besides, it’s also very
convenient to transform through different user views and roles. Thus it can provide a
more sophisticated and more flexible solution. That’s the reason why OLAP is wild
adopted in the world. This paper first give an concept discussion on OLAP and
OLAP&Data Warehouse, OLAP&Data Mining, OLAP&DSS, and then it presents a real
world implementation of OLAP including build up an enterprise data ware house and
OLAP analysis execution. At the end of this paper we have also discussed OLAP data
presentation issues and have given a prospect to OLAP futures.
Key words: OLAP, Data Ware House, Data Mining, DSS
目 录
中文摘要
ABSTRACT
第一章 绪论.....................................................................................................................1
§1.1 研究背景 .............................................................................................................1
§1.2 论文的主要工作 .................................................................................................. 1
§1.3 论文的结构 .........................................................................................................2
第二章 OLAP 理论研究............................................................................................... 3
§2.1 什么是联机分析处理技术 .................................................................................3
§2.2 OLAP OLTP .................................................................................................. 3
§2.3 OLAP 和数据仓库 ............................................................................................. 4
§2.3.1 什么是数据仓库..........................................................................................4
§2.3.2 数据仓库的特征..........................................................................................6
§2.3.3 数据仓库和传统数据库的区别和联系......................................................7
§2.3.4 数据仓库的组成部分..................................................................................8
§2.4 OLAP 和数据挖掘 .............................................................................................9
§2.4.1 什么是数据挖掘..........................................................................................9
§2.4.2 OLAP 和数据挖掘(DM)之间的区别和联系 ............................................. 9
§2.4.3 现有的 OLAP 技术类型........................................................................... 11
第三章 企业 OLAP 数据分析的概念与设计............................................................ 12
§3.1 构建数据仓库 ...................................................................................................13
§3.1.1 数据仓库的设计........................................................................................14
§3.1.2 数据转移....................................................................................................21
§3.2 搭建 OLAP 服务器 .......................................................................................... 25
§3.2.1 什么是数据立方........................................................................................25
§3.2.2 数据立方的设计........................................................................................27
§3.2.3 建立数据立方............................................................................................29
§3.2.4 数据立方的调试和发布............................................................................32
§3.3 OLAP 服务器上进行数据分析 .................................................................. 35
§3.3.1 什么是多维表达式(MDX)语言 .......................................................... 36
§3.3.2 MDX SQL 的区别 ...........................................................................37
§3.3.3 MDX 的查询 ............................................................................................. 38
§3.3.4 客户端与 OLAP 服务器的连接................................................................. 40
第四章 企业 OLAP 数据分析的具体实现................................................................ 41
§4.1 构建数据仓库 ...................................................................................................41
§4.1.1 创建数据仓库的事实表和维表..................................................................41
§4.1.2 数据转移和定时更新..................................................................................45
§4.2 搭建 OLAP 服务器 .......................................................................................... 53
§4.2.1 建立数据立方............................................................................................53
§4.2.2 调试和发布数据立方..................................................................................59
§4.2.3 在已发布好的数据立方上进行 OLAP 操作............................................. 62
§4.3 OLAP 服务器上进行数据分析 .................................................................. 63
§4.4 OLAP 数据分析过程中的常见问题 ............................................................... 67
第五章 OLAP 功能扩展及其展望............................................................................. 69
§5.1 OLAP 多维数据的可视化 ...............................................................................69
§5.1.1 OLAP 可视化的特点............................................................................... 69
§5.1.2 如何进行 OLAP 数据的可视化............................................................... 69
§5.2 OLAP 发展的新方向 ....................................................................................... 73
第六章 总结.................................................................................................................75
参考文献.........................................................................................................................76
在读期间公开发表的论文和承担科研项目及取得成果.............................................77
:论文........................................................................................................................ 78
:科研项目................................................................................................................ 78
致 谢.............................................................................................................................79
第一章 绪论
1
第一章 绪论
§1.1 研究背景
最近二、三十年,计算机的普及与互联网的发展带来了海量数据。但是,存
储在各种数据媒体中的海量数据,在缺乏强有力的分析方法和分析工具的情况下
已经远远地超出了人们的理解能力和概括能力。因此必须要有方便有效的工具提
供给用户,使他们能够对其中的数据进行分析处理。1993 年,E.F.Codd 提出联
分析处理(Online Analytical Process, OLAP)的概念。从理论上讲,OLAP
是一种专门设计用于复杂数据分析操作的技术,它可以应分析人员的要求对数据
进行快速、灵活、有效地查询和处理,并以一种直观易懂的形式将处理结果提供
给决策人员,以方便他们准确掌握企业的经营状况,了解市场需求,制定正确的
企业决策方案。
在实际的项目操作中,
OLAP 也泛指用于数据联机分析处理操作的一系列软件
工具的集合。这些工具是为满足数据多维分析处理的需求而产生的,主要功能是
根据用户所选择的分析角度,事先设计出一些辅助结构,使得在进行数据分析查
询时能够快速抽取到所需要的记录,尽快地计算出分析的结果,并能方便地进行
分析角度的切换(这样一来,用户就可以在短时间内从各种不同的角度审视企业
业务的经营情况)“联机”一词形容的就是这种机动的、快速显现的功能。
总之,
OLAP 就是针对特定问题的数据联机分析和处理。它通过对数据信息进
行多角度(维)的交互访问,使决策分析人员能够方便地对海量数据进行深入细
致的观察和分析。在数据分析处理的过程中,OLAP 使用的数据是经过预处理的历
史数据(包括去掉坏数据、消除数据之间的矛盾、集成不同数据源数据、进行数
据转换以及必要的数据精简和数据抽象)其数据分析处理的过程也是自动的,
此具有高度的可靠性。同时,OLAP 也可以解决一些传统数据分析方法所无法解决
的问题,因此被越来越广泛地应用在生产生活中。
§1.2 论文的主要工作
1.深入了解 OLAP、数据仓库、数据挖掘的相关概念,然后对它们之间的关
系进行比较,理解它们自各的内涵,为后面的进一步分析打下基础。
2研究了数据仓库的定义和它的构建过程。包括数据仓库的主题定义、模式
定义、数据仓库中数据抽取和数据转移,以及数据仓库的维护和定时更新。
基于 SSAS 的企业 OLAP 设计与实
2
3研究了数据立方的定义和构建过程。包括数据立方的维度和事实定义、数
据立方上的各种操作,数据立方的发布和调试等。
4结合具体实例设计了一个 OLAP 的解决方案。包括对具体项目的理解、
据仓库的设计,数据立方的设计。学习了多维表达式语言。
5.研究了如何在 Microsoft SQL Server Analysis ServiceSSAS)环境下对一
OLAP 项目进行实施。这其中包括对 SSAS 环境的熟悉,以及在 SSAS 下数据仓
库和数据立方的构建、发布和调试等具体操作过程。
6.了解 OLAP 分析结果的可视化过程和 OLAP 的进一步发展方向。
§1.3 论文的结构
论文第一章为绪论,主要介绍研究的背景、论文的主要工作以及论文的结构。
第二章介绍 OLAP 的相关概念,包括数据联机分析的定义、特点、应用、分类
和目前国际国内的发展现状。另外还详细介绍了 OLAP OLTPOLAP 和数据仓
库,OLAP 和数据挖掘之间的区别和联系。本章的最后对现有的 OLAP 技术类型
进行了简单的比较,指出了各自的优缺点。
第三章重点介绍了一个 OLAP 项目的设计方案。本章结合一个企业内部的生产
销售链(包括进货、生产和销售),详细介绍了如何构建数据仓库(包括数据仓库
的设计、数据抽取和转移,以及数据仓库的维护和更新),如何构建数据立方(包
括数据立方的创建和发布)以及在 OLAP 服务器上如何对数据立方进行联机分析
的过程。本章同时对数据联机分析所使用的多维表达式语言(MDX)进行了介绍。
第四章是对第三章中所提到的设计方案的具体实施。本章主要介绍了在
Microsoft SQL Server Analysis Service(SSAS)下如何新建一个 OLAP 工程
结合相应的数据仓库对数据进行联机分析,最终得到分析结果。
第五章对数据联机分析的可视化进行了讨论,并指出了 OLAP 发展的新方向,
OLAP 的发展前景进行了展望。
第六章是对本文的一个总结。
第二章 OLAP 理论研究
3
第二章 OLAP 理论研究
§2.1 什么是联机分析处理技术
联机分析处理(OLAP)的概念最早是由关系数据库之父 EFCodd 1993
年提出的。它与数据仓库有着密切的联系,是数据仓库系统的主要应用。OLAP
支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。也就是说,
它是一种验证型分析工具,它将分析决策所需要的大量数据从传统的操作环境中
分离出来,经过清理和转换,形成集成的、统一的信息,以帮助决策者们进行及
时有效的分析、判断和预侧,并获得更多的收益。
同时,OLAP 又是一系列软件工具的集合,这些软件技术能够从不同的角度对
原始的操作型数据进行转换,并能以用户所能理解的方式对这些信息进行快速、
一致、交互的访问。简单地说,它是进行多维分析的一系列工具的集合。
0LAP 的分析操作主要有:钻取、旋转、切片以及漂移。由于 OLAP 分析操作
是多维的,因此这些分析操作也是在多维空间中进行的。但是数据仓库中的所有
物理数据都是平面存放的,为了能够应用这些多维空间的操作,我们必须寻找一
个能够将二维平面的数据映射到空间多维数据之中的数据模型。OLAP 术语中,
我们称这样的一个数据模型为数据立方。
数据立方是一个具有多个空间坐标系的数据模型,每个空间坐标轴代表多维
数据模型中的一维。由于数据仓库本身是个时变系统,因此时间维是必不可少的
一个维。它总是占据着超级立方体的一个坐标轴,其余的坐标轴可以根据需要由
用户自行定义。
空间中的每一维可以根据用户的需要分成若干等级,如时间维就可以分成诸
如年、季度、月、周等几个等级,这些等级我们称之为粒度。等级高的粒度称之
为粗粒度。等级低的粒度称为细粒度。
沿着维上的粒度的粗细方向进行的分析操作我们称之为钻取。参与分析的维
的变化称之为旋转。将参与分析的某维进行常数化,以观察其它维的变化情况,
这种操作就叫做切片。而参与分析的那个常数我们就称之为观察点。观察点之间
的切换操作就是漂移。
§2.2 OLAP 和 OLTP
传统的 OLTPOnline Transaction Process,联机事务处理)数据库系统是一个操
基于 SSAS 的企业 OLAP 设计与实
4
作型的数据库系统,主要为联机事务处理而设计。OLTP 所关心的是具体业务的应
用,对实时性要求很高。同时,因为操作的对象主要为当前的数据,所以数据库
的数据检索量相对较少。
与传统的 OLTP 相比,OLAP 是一种专门为数据分析服务而设计的技术。OLAP
系统是一个分析决策型的系统,它所关心的是客户、产品等一系列主题,对实时
性要求不是很高。同时,由于决策分析常常需要操作的对象必须是所有数据,因
OLAP 的数据检索量相对很大。
除此之外,对传统的 OLTP 来说,由于所有数据都存在于不同的数据库表中,
在进行一些复杂查询时效率会很低。而且如果再涉及稍微复杂一点的查询,查询
语句就需要做多次表连接,有时甚至需要执行 UNION 查询等等才能得到最终的结
果。OLAP 系统则能很好的解决这个问题。OLAP 系统能够在运行时从数据
中抽取信息,将数据按照不同种类进行整理汇总,由用户来进行汇总和比较(通
过上钻,下钻,旋转,切片,切块等 OLAP 操作)然后将结果数据直观地提供给
决策层。因此 OLAP 有着更好的复杂查询性能。
§2.3 OLAP 和数据仓库
§2.3.1 什么是数据仓库
提到 OLAP 分析处理,就不能不提到数据仓库。在讨论数据仓库之前,先来看
一下数据处理的划分。随着计算机应用,特别是数据库应用的广泛普及,人们开
始逐渐认识到在数据库上的数据处理可以大致划分为两大类:操作型处理和在此
基础上的分析型处理(或决策型处理)。
操作型处理和分析型处理的分离,划清了数据处理的操作型环境与分析型环
境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为一种新的体
系化的环境。传统的数据库系统在操作型处理上已经有了有很成熟的发展,然而
随着科学技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直
力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。
后来人们逐渐认识到,在目前的计算机处理能力上,根本无法实现这种功能。而
且另一方面,事物处理和分析处理具有根本不相同的性质,直接使用事务处理环
境来支持分析处理和决策是行不通的。
事务处理环境不适宜分析处理和决策应用的原因主要有以下五条:
第二章 OLAP 理论研究
5
1. 事务处理和分析处理的性能特性不同。在事务处理环境中,用户的行为
特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用
户的行为模式与此完全不同,某个决策系统应用程序可能需要连续几个小时,从
而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中
运行显然是不适当的。
2. 数据集成问题。决策系统需要集成的数据。全面而正确的数据是有效的
分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝
大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,
主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构
化数据。
3. 数据动态集成问题。静态集成的最大缺点在于,如果在数据集成后数据
源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时
的数据。集成数据必须以一定的周期(例如一周或一个月) 进行刷新,我们称其为
动态集成。显然,事务处理系统不具备动态集成的能力。
4. 历史数据问题。事务处理一般只需要当前数据,在数据库中一般也是存
储短期数据,且不同数据的保存期限也不一样,即使有一些历史数据保存下来了,
也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,
许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析,是难以
把握企业的发展趋势的。决策系统对数据在空间和时间的广度上都有了更高的要
求,而事务处理环境难以满足这些要求。
5. 数据的综合问题。在事务处理系统中积累了大量的细节数据,一般而言,
决策系统并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不
同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综
合还往往因为是一种数据冗余而加以限制。要提高分析和决策的效率和有效性,
分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事
务处理环境中提取出来,按照决策系统处理的需要进行重新组织,建立单独的分
析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存
储和组织技术。可以说,数据仓库就是一个用以更好地支持企业或组织的决策分
析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合。
综上所述,数据仓库的概念可以由如下的一段话来表示: “数据仓库是一个
面向主题的,集成的,稳定的,随时间而变化的数据集合,用以支持企业管理中
的决策处理”
摘要:

摘要随着数据库技术的广泛应用,企业信息系统产生了大量的数据,如何从这些海量数据中提取出对企业决策分析有用的信息成为企业决策人员所面临的重要课题。传统的企业数据库系统即联机事务处理系统OLTP(OnlineTransactionProcessing)作为数据管理手段,主要用于事务处理,它对分析处理的支持一直不能令人满意。因此,人们逐渐尝试对OLTP数据库中的数据进行再加工,形成一个综合的、面向分析的、能更好地支持决策制定的决策支持系统DSS(DecisionSupportSystem)。但是目前企业的信息系统的数据一般由DBMS管理,由于决策数据库和操作数据库在数据来源、数据内容、数据模式、服务...

展开>> 收起<<
基于SSAS的企业数据仓库OLAP研究与实现.pdf

共81页,预览9页

还剩页未读, 继续阅读

作者:牛悦 分类:高等教育资料 价格:15积分 属性:81 页 大小:4.06MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 81
客服
关注