数据清洗的关键技术研究与实现

VIP免费
3.0 赵德峰 2024-11-19 4 4 1.62MB 83 页 15积分
侵权投诉
摘 要
随着信息技术的飞速发展,管理人员进行决策分析时对数据的依赖性越来越
强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境——数据
仓库。但是在构建数据仓库的过程中,从异构的数据源中导入的数据中存在各种
质量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,影响
信息服务的质量。所以必须对其进行数据清洗来提高其质量。数据清洗正在成为
数据仓库和数据挖掘领域,乃至网络数据处理领域的一个重要课题。
本文首先对数据清洗的知识进行了全面和详细的描述,介绍了数据清洗的概
念、意义和国内外研究与应用的现状。对数据清洗技术的原理、方法、评价标准
以及基本流程进行了分析和总结,得出了目前数据清洗研究领域最复杂而又亟待
进一步解决的最主要的三个问题,即:错误数据清洗问题、相似重复数据清洗问
题和数据清洗框架问题,并基于以上问题引入了文本的第一个研究重点——错误
数据的清洗。在详细比较当前各种错误数据清洗方法优劣的基础上提出了一种新
的基于聚类技术检测孤立点数据的新方法,并通过实验验证了该方法的有效性。
其次,相似重复记录的清洗是本文的另一个研究重点,文中首先详细介绍了当前
检测相似重复记录多种方法,在总结其不足的前提下提出了一种在高维空间基于
密度收缩的相似重复记录的检测方法,通过在模拟数据集上的实验验证了该方法
的可行性和有效性。再次,本文提出了一个基于数据清洗关键技术的可扩展数据
清洗框架的思想,该框架具有开放的规则库和算法库。对数据进行清洗时,可以
根据具体业务,通过预定义清洗规则并选择合适的算法,来清洗数据源中的种种
错误。最后的实现阶段初步完成了该框架数据清洗模块的基本功能,并通过实验
验证了此框架具有良好的运行效率和运行效果。在本文的结尾,对所做的工作进
行了总结,并对未来数据清洗技术的研究方向进行了展望。
通过理论分析和实践研究,本论文所获得的研究成果为将来进一步发展和完
善各类数据清洗算法和系统级数据清洗软件平台提供了一条有益的思路。
关键词:数据清洗 聚类 孤立点 相似重复记录 可扩展数据清洗
框架
ABSTRACT
With the rapid development of information technology,organizational managers
depend on data more and more when making their decisions.On the foundation of
database there appears data warehouse which can support decision analysis.But during
the construction of data warehouse,data from different data sources are inputted into
the data warehouse ,there may exist many data qualitative Problems,resulting in false
decisive analysis and influent quality of information service.There is a strong need to
carry out a data cleansing process to improve the data quality.Data cleaning is
becoming an important topic in data warehouse and data mining,as well as web data
processing fields.
In this paper ,we depicted the knowledge of data cleaning in detail firstly.We
introduced the concept ,meaning and current research and application situation in home
and abroad of data cleaning fields.We summarized and described the theories,
methods,evaluating standards and basic workflow of data cleaning. Based on the
konwlodge mentioned above, we realized that the most difficult problems that should
be resolved as soon as possible are the followings: outlier detection problem,
duplicated records detection problem and the data cleaning tools problem.So the outlier
detection is the first point in this paper, We introduce a new method of outlier detection
based on clustering after comparison of many outlier detection methods in present, and
certify the effect of the method by experiment. Secondly, the duplicated records
detection is another point in this paper.We introduce many method of duplicated record
detection in present at first and propose a new duplicated records approach that based
on high dimension space by using adjustable density after analysis the defects of them,
then prove the method’s feasibility and efficiency by the simulated input records.
Thirdly, we propose a novel idea named the extended data cleaning framework based
on the critical technologies of data cleaning that lets users clean data flexibly and
effortlessly without any coding .The extensible framework has open algorithms library,
open functions library and Fuzzy Inference System based on fuzzy rule, which make it
universal and adaptive.At last we implement the framework’s basic function model and
the experimental results prove the framework’s effectiveness. At the end of the paper,
we summarized the research work in this paper and gave a future view about research
direction of data cleansing technology.
By the fact that theoretical analysis and practice study, study results in this paper
have provided the certain train of thought and beneficial trial for developing algorithm
of data cleaning and data cleaning software platform in system going a step further in
the future.
Key Word Data Cleaning, Clustering, Outlier, Duplicate Record,
EDCF
目 录
第一章 绪 论 ......................................................................................................1
§1.1 研究背景..................................................................................................1
§1.2 国内外研究现状及不足..........................................................................1
§1.2.1 国外研究现状...............................................................................2
§1.2.2 国内研究现状...............................................................................3
§1.3 存在的问题..............................................................................................4
§1.4 论文的内容和组织结构..........................................................................4
第二章 数据质量和数据清洗的相关知识 ..........................................................5
§2.1 数据质量的基本概念..............................................................................5
§2.1.1“脏数据”的产生.........................................................................5
§2.1.2 数据质量的定义...........................................................................5
§2.1.3 数据质量的分类...........................................................................6
§2.2 数据清洗相关概念..................................................................................7
§2.2.1 数据清洗的定义...........................................................................7
§2.2.2 脏数据的分类及对应的数据清洗方法.......................................9
§2.3 数据清洗的基本流程............................................................................11
§2.4 数据清洗的评价标准............................................................................12
§2.5 ETL 与数据清洗.................................................................................... 12
§2.5.1 ETL 简介..................................................................................... 12
§2.5.2 数据清洗在 ETL 中的应用模型............................................... 13
§2.6 本章小结................................................................................................14
第三章 错误数据清洗的研究与改进 ................................................................15
§3.1 多数据源集成与数据标准化................................................................15
§3.1.1 多数据源集成的数据模型.........................................................15
§3.1.2 数据标准化的重要性.................................................................16
§3.1.3 数据标准化的定义.....................................................................17
§3.1.4 数据标准化的方法.....................................................................18
§3.2 依赖型错误数据清洗............................................................................19
§3.3 孤立点检测的相关方法研究................................................................20
§3.3.1 基于统计的方法.........................................................................20
§3.3.2 基于距离的方法.........................................................................21
§3.3.3 基于密度方法.............................................................................22
§3.3.4 基于深度的方法.........................................................................22
§3.3.5 基于偏移的方法.........................................................................23
§3.3.6 基于业务规则的方法.................................................................23
§3.4 一种新的基于聚类分析的孤立点检测方法的研究与实现................26
§3.4.1 将数据表中的记录映射为高维空间的点.................................27
§3.4.2 基于高维空间中点集的密度聚类算法.....................................29
§3.4.3 基于高维空间中聚类的孤立点检测算法(BHCOD) ................ 33
§3.4.4 算法分析与比较.........................................................................35
§3.4.5 实验及结果.................................................................................35
§3.5 孤立点数据的处理................................................................................36
§3.6 本章小结................................................................................................37
第四章 相似重复记录清洗的研究与改进 ........................................................37
§4.1 排序比较检测相似重复记录的方法....................................................39
§4.1.1 字段匹配算法.............................................................................39
§4.1.2 重复记录检测.............................................................................44
§4.2 聚类分析检测相似重复记录的方法....................................................48
§4.2.1 聚类的概念.................................................................................48
§4.2.2 主要聚类方法的分类.................................................................49
§4.2.3 DBSCAN 聚类之前的数据准备 ................................................ 49
§4.2.4 DBSCAN 聚类算法 .................................................................... 49
§4.3 改进型的 DBSCAN 聚类算法—IDS 算法 ..........................................53
§4.4 IDS 算法的实现..................................................................................... 54
§4.4.1 IDS 算法的数据结构.................................................................. 54
§4.4.2 与数据库的底层连接及数据交换.............................................55
§4.4.3 寻找核心点.................................................................................56
§4.4.4 聚类.............................................................................................56
§4.5 相似重复记录检测的标准及实验验证................................................57
§4.6 相似重复记录冲突处理........................................................................57
§4.7 本章小结................................................................................................58
第五章 可扩展数据清洗框架 EDCF 的研究与实现 ....................................... 59
§5.1 可扩展数据清洗框架的原理................................................................60
§5.1.1 EDCF 的功能模块及清洗方法 .................................................. 60
§5.1.2 EDCF 的清洗过程 ...................................................................... 61
§5.1.3 EDCF 的规则库与算法库 .......................................................... 62
§5.1.4 EDCF 的特点 .............................................................................. 64
§5.2 EDCF 的实现 ......................................................................................... 65
§5.2.1 EDCF 的开发方法 ...................................................................... 65
§5.2.2 EDCF 的主要功能界面 .............................................................. 66
§5.3 数据清洗框架的效果评价....................................................................69
§5.4 本章小结................................................................................................70
第六章 总结与展望 ............................................................................................72
§6.1 本文所做工作的总结............................................................................72
§6.2 未来研究方向的展望............................................................................72
参考文献 ................................................................................................................74
在读期间公开发表的论文和承担科研项目及取得成果 ....................................78
....................................................................................................................79
第一章 绪论
1
第一章 绪 论
§1.1 研究背景
近年来,随着信息产业的快速发展,人们积累的数据越来越多。激增的数据
背后隐藏着许多重要的信息,如何对其进行更高层次的分析,以便更好地利用这
些数据,变得越来越重要。传统的数据管理方法可以高效地实现数据的录入、查
询、统计等功能,但无法发现数据中潜在的、有用的关系和规则。为了挖掘数据
背后隐藏的知识,解决“数据爆炸但知识贫乏”的问题,人们努力寻求各种新方
法和技术,以便使数据能够转化成有用的信息和知识。数据挖掘在这种背景下应
运而生。目前,它已成为计算机科学研究中一个十分活跃的前沿领域,并在市场
分析、金融投资、医疗卫生、环境保护、产品制造和科学研究等许多领域获得了
广泛的应用,取得了十分可观的社会效益和经济效益。
数据挖掘领域的研究日趋成熟,其中许多研究把方法和模型建立在理想的数
据而不是现实的数据集上。但现实中的数据是错综复杂的,总体而言,它们不可
避免的存在冗余数据(Redundant Data)、缺失数据(Missing Data)、不确定数据
(Uncertain Data)和不一致数据(Inconsistent Data)等诸多情况,这样的数据统称为“脏
数据”它们成为数据挖掘的一大障碍。要在基于历史的、现存的数据基础上为将
来的企业发展作决策或预测,数据的质量问题就变得十分关键。根据“垃圾进,
垃圾出”(GIGOGarbage InGarbage Out)原理,错误的数据会导致昂贵的操作费
用和漫长的响应时间,影响从数据集中抽取模式的正确性和导出规则的准确性,
使得决策支持系统产生错误的分析结果,将会误导决策,影响信息服务的质量。
因此,在从数据库中挖掘知识之前必须对其进行一系列的预处理工作。大量的事
实证明,在数据挖掘系统中,数据预处理所占的工作量达到了整个工作量的60%
80%
§1.2 国内外研究现状及不足
数据清洗是作为数据仓库、KDD(数据挖掘)客户关系管理中重要的、必不可
少的组成部分,但直接针对这方面的研究并不多,下面将国内外有关数据清洗技
术的研究现状概述如下:
数据清洗关键技术的研究与实现
2
§1.2.1 国外研究现状
国外对数据清洗技术的研究,最早出现在美国,是从对全美的社会保险号错
误的纠正开始的[1]。美国信息业和商业的发展,刺激了对这方面技术的研究。研
究内容主要涉及:
1对数据集进行异常检测,是指对数据集的记录属性的清洗。主要有下列方
[2]:采用统计学的方法来检测数值型属性,计算字段值的均值和标准差,考虑
每一个字段的置信区间来识别异常字段和记录。另外,还把人工智能的方法引入
到数据清洗中,主要有:①采用基于距离聚类的方法来识别异常的记录。②采用
基于模式的方法来发现不符合数据集中现存模式的异常记录。③采用关联规则的
方法来发现数据集中不符合具有高置信度和支持度的规则的异常数据。
对值为字符型的属性进行清洗利用了属性间的约束关系、模式识别技术等,
难度较大。属性清洗可以针对具体问题具体分析,也可针对某类问题提供解决方
案。如果清洗方案能自动发掘规则,则属于自适应性属性清洗,实现难度非常大,
这种方案较少见。
2识别并消除数据集中的近似重复对象,即重复记录的清洗[3]它在数据仓
库环境下特别重要,因为在集成不同的系统时会产生大量的重复记录。消除数据
集中的近似重复的记录问题是目前数据清洗领域研究最多的内容。为了从数据集
中消除重复记录,首要的问题就是如何判断两条记录是否是近似重复。其核心问
题是字段的匹配问题,目前常用的算法有:递归式字段匹配算法、Smith-Waterman
算法和 R-S-W 算法。在数据集级识别重复记录的经典方法是基本近邻排序方法。
针对这种算法的缺陷,研究者提出了各种改进的算法,主要包括多趟近邻排序方
法,优先权队列清洗策略等。针对召回率——精确度两难的问题提出了一个基于
知识管理的智能型数据清洗系统的框架,该框架采用专家系统,用规则来表示领
域知识,实现了知识的高效表示和灵活管理。通过指定有效的规则,并且在传递
闭包的计算过程中引入不确定因子,在一定程度上解决了召回率——精确度两难
的问题。
3在数据仓库应用中,数据清洗必须考虑数据集成,主要是将数据源中的结
构和数据映射到目标结构与域中。在这方面已做了大量的研究工作。
4不少数据清洗方案和算法都是针对特定应用问题的,只适用于较小的范围。
通用的,与应用领域无关的算法和方案较少。绝大部分数据清洗方案[4]供了接
口用于编制清洗程序。它们一般来说包括很多耗时的排序、比较、匹配过程,且
这些过程往往多次反复,用户必须等待较长时间。为了方便用户进行清洗,许多
工具还通过提供描述性语言来降低用户编程复杂度,解决用户友好性。例如
第一章 绪论
3
ARKTOS XADL ( DTD XML )
SADLSADL 语言,AJAX 提供了一套宏操作(SQL 语句及外部函数组成)类似于
一种 SQL-Like 命令语言些描述性都在一定度上轻了户的程难
度,但各系统一般不具有互操作性,不能通用。
5近几年,国外的数据清洗技术发展的很快,从市场上存在的数据清洗软件
的数目可以看出来,其中包括商业上的数据清洗软件,也有各大学和研究机构开
发的数据清洗软件[56]
商业上的数据清洗软件主要有:
SAS Institute 公司的 SAS Warehouse Administrator
ELECTRNOIC DIGITAL DOCUMENTSINC 公司的 Data Cleanser
Data junction Corporation 公司的 Data junction
Platinum Technology 公司的 Info Refiner
Vality Technology 公司的 Integrity Data Reengineering Environment
WinPure Ltd 公司的 WinPure
各大学研究机构的数据清洗软件主要有:
加州 Berkeley 大学分校的 Poters whee1 A-B-C,一个交互式的清理工具。
C语言 PERL 语言或者工具提供的宏语言来写转换规则。
新加坡国立大学的 IntelliClean一个基于知识的智能数据清洗工具。使用
了一个 Java 语言的专家系统外壳。
法国 NIRIA 研究机构的 AJAX,一个可扩展的数据清洗工具。
需要说明的是,上述所描述的国外的研究现状都是针对英文的数据清洗。
§1.2.2 国内研究现状
目前国内对于数据清洗技术的研究还处在一个起步阶段。尽管在一些学术期
刊及学术会议上也能见到一些有关这方面的理论性文章,但直接针对数据清洗,
特别是针对与领域无关数据清洗的论文并不多。大多是在数据仓库、决策支持、
数据挖掘的研究中,对其做一些比较简单的阐述。银行、保险和证券等对客户数
据的准确性要求很高的行业,都在做自己的客户数据的清洗工作,针对自己的具
体应用而开发软件,且很少有理论性的东西公布出来。
与领域无关的数据清洗在理论研究上的欠缺,也使得在市场上几乎看不到有
关这方面数据清洗的软件工具。需求刺激技术的发展,随着数据仓库、数据挖掘、
客户关系管理等在企业中的大量应用,必然要求高质量的企业数据集的支持,同
时也将带动在项目的实施过程中对提高数据质量的方法和数据清洗技术的研究,
摘要:

摘要随着信息技术的飞速发展,管理人员进行决策分析时对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境——数据仓库。但是在构建数据仓库的过程中,从异构的数据源中导入的数据中存在各种质量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,影响信息服务的质量。所以必须对其进行数据清洗来提高其质量。数据清洗正在成为数据仓库和数据挖掘领域,乃至网络数据处理领域的一个重要课题。本文首先对数据清洗的知识进行了全面和详细的描述,介绍了数据清洗的概念、意义和国内外研究与应用的现状。对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结,得出了目前数据清洗研究领...

展开>> 收起<<
数据清洗的关键技术研究与实现.pdf

共83页,预览9页

还剩页未读, 继续阅读

作者:赵德峰 分类:高等教育资料 价格:15积分 属性:83 页 大小:1.62MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 83
客服
关注