基于影像数据的非结构化数据管理的应用研究
VIP免费
目录
摘要
ABSTRACT
第一章 绪论...................................................................................................................1
§1.1 研究背景............................................................................................................1
§1.2 研究现状............................................................................................................2
§1.3 本文工作............................................................................................................3
§1.4 本文的组织结构................................................................................................3
第二章 非结构化数据管理...........................................................................................5
§2.1 非结构化数据管理的概述................................................................................5
§2.2 非结构化数据管理的现实需求........................................................................5
§2.3 非结构化数据管理的解决方案——内容管理................................................6
§2.3.1 内容管理的概述..........................................................................................6
§2.3.2 内容管理系统..............................................................................................8
§2.3.3 内容管理系统的架构分析..........................................................................9
§2.3.4 内容管理系统的检索查询........................................................................14
本章小结..................................................................................................................15
第三章 基于内容管理系统的非结构化数据模型.....................................................16
§3.1 数据模型的概述..............................................................................................16
§3.1.1 属性(Attributes)....................................................................................16
§3.1.2 属性组........................................................................................................17
§3.1.3 组件............................................................................................................17
§3.1.4 对象(Object).........................................................................................18
§3.1.5 项目模板(项目类型)(Item Type)....................................................18
§3.1.6 项目(Item)..................................................................................................20
§3.1.7 CM 中的数据关系.....................................................................................20
§3.2 面向业务的数据建模......................................................................................22
§3.2.1 逻辑模型....................................................................................................23
§3.2.2 数据建模....................................................................................................24
本章小结..................................................................................................................30
第四章 影像数据管理的应用模型.............................................................................31
§4.1 影像数据管理..................................................................................................31
1
§4.2 影像数据管理模型..........................................................................................32
§4.3 影像数据管理模型中数据采集方案的设计..................................................35
§4.3.1 OCR 技术...................................................................................................35
§4.3.2 数据采集方案概述....................................................................................36
§4.3.3 扫描系统的设计........................................................................................38
§4.3.4 数据处理系统设计....................................................................................40
§4.4 影像数据管理模型中工作流程的设计..........................................................42
§4.4.1 业务流程....................................................................................................43
§4.4.2 系统业务工作流程设计............................................................................45
§4.4.3 审核模块的工作流分析............................................................................46
§4.5 影像数据管理模型中影像业务管理系统的设计..........................................47
§4.5.1 CM API......................................................................................................47
§4.5.2 事务控制....................................................................................................50
§4.5.3 系统功能设计............................................................................................51
§4.6 影像数据管理模型中数据备份方案的设计..................................................54
§4.6.1 Tivoli Storage Manager..............................................................................54
§4.6.2 CM-TSM 的整合.......................................................................................55
§4.6.3 数据归档(备份)系统的设计................................................................56
本章小结..................................................................................................................58
第五章 基于影像数据的非结构化数据管理应用模型的实现.................................59
§5.1 影像系统的概述..............................................................................................59
§5.1.1 影像系统的应用背景................................................................................59
§5.1.2 基于非结构化数据管理模型的影像系统构成........................................60
§5.1.3 系统部署环境及系统接口........................................................................60
§5.2 影像系统中影像业务管理系统的实现..........................................................62
§5.2.1 影像业务管理系统的系统架构................................................................62
§5.2.2 影像业务管理系统核心代码分析............................................................64
§5.2.3 影像业务管理系统的主要界面................................................................76
§5.3 影像系统中数据采集系统的实现..................................................................84
§5.3.1 数据业务系统的实现................................................................................84
§5.3.2 数据传送模块的实现................................................................................90
§5.4 影像系统中数据归档(备份)系统的实现..................................................93
§5.4.1 CM-TSM 应用...........................................................................................93
§5.4.2 影像备份系统核心代码分析....................................................................95
§5.5 系统应用分析................................................................................................101
§5.5.1 系统模型的改进......................................................................................101
§5.5.2 应用模型的分析......................................................................................103
本章小结................................................................................................................104
2
第六章 影像系统的部署、配置及测试...................................................................105
§6.1 影像系统的软件环境....................................................................................105
§6.2 CM 系统的性能优化及配置.........................................................................105
§6.3 CM 系统环境配置.........................................................................................106
§6.3.1 CM 部署的注意要点...............................................................................106
§6.3.2 SSL 配置及测试......................................................................................109
§6.4 影像系统的测试.............................................................................................111
§6.4.1 测试数据..................................................................................................111
§6.4.2 测试准备工作..........................................................................................111
§6.4.3 测试用例..................................................................................................111
本章小结................................................................................................................114
第七章 总结与展望...................................................................................................115
§7.1 本文工作总结.................................................................................................115
§7.2 展望.................................................................................................................116
参考文献....................................................................................................................117
附 录...........................................................................................................................119
3
4
第一章 绪论
第一章
第一章
绪论
绪论
目前,数据管理技术已经不能和数据库技术划上等号,因为结构化的数据管
理系统只为目前的企业解决了15%数据管理业务,而并不能为85%的非结构化数
据(如影像文件)提供管理的解决方案。由此,本文对非结构化数据管理的研究
具有十分重要的现实意义。
§1.1 研究背景
近年来,人寿保险业的业务量几乎成几何级的速度增长,如表 1.1 某人寿保
险公司的业务历史数据及业务发展计划,就是一个极好的例证。
表1.1 人寿保险公司的业务历史数据及业务发展计划
保单业务 1保单业务 2纸质保单数(单
位:张)
所含数据量
(单位:M)
所含数
据量
(单
位:G)
2005 78,173 220,341 154,238,700 150,623.73 147.09
2006 187,907 504,049 352,834,300 344,564.75 336.49
2007 424,325 1,098,829 769,180,300 751,152.64 733.55
2008 866,535 2,243,973 1,570,781,100 1,533,965.92 1,498.01
如何存储、管理、利用这些海量数据?如何提高办公人员的工作效率?如何提
高业务处理准确度?如何建立一个高效的业务工作流程?为了解决这些问题,我
们需要通过信息管理系统将纸质的文档转换为影像文件来进行存储管理。
那么又如何将这些非结构化的影像文件进行有效地存储管理呢?由此,本文
引入了非结构化数据管理及其解决方案——内容管理。
随着业务的不断扩展,各行业中所涉及的信息每天都在以惊人的速度增长。
有统计表明,来自交易中的数据每年增长的速度达到 61%,而其他各种相关信息
的每年增长率甚至超过92%。同时,信息的种类也在不断地扩展,越来越多的非
结构化信息不断出现,包括企业的各种报表、账单、电子文档、网站的各种元素、图
片、传真、扫描影像,以及大量的多媒体的音频、视频信息等等。而信息爆炸的背后
我们面临的巨大挑战是如何有序地存储、管理并利用这些信息,尤其是对于那些
大量的、非结构化的信息。如果一个企业无法将这些信息进行系统地编目和管理,
则随之面临的危机是不断流失的生产力。另一方面,企业和组织也希望对这些信
息有更多的控制,保障信息的安全,挖掘信息的价值[6]。
对于报表、账单、影像、电子文档、图片、音频、视频等各种信息,由于它们都
是非结构化的大存储量的对象,难以用传统的关系型数据库管理,我们将这些非
1
基于影像数据的非结构化数据管理的应用研究
结构化的信息称为内容(Content)。而上述的各种客户需求也反映了客户对于内
容管理系统的基本需求,包括基于成熟开放的技术、标准;支持各种硬件环境、提
供从部门级应用到企业级应用的扩展;具有高可用性、安全性、工业化强度;支持
多级海量存储管理、强大的开发能力;保证信息的一致性、完整性、灵活的数据模
型、工作流、数字版权保护等等。
那么,又如何建立一个基于影像数据的非结构化信息管理系统呢?基于这个
问题,本文设计了一个包含业务信息采集(OCR 技术)、信息管理(CM 应用技
术)、信息归档(CM-TSM 应用技术)的面向业务的影像数据管理模型。这个模型
通过对 OCR 技术,结构化数据存储技术及 J2EE 等技术与内容管理系统的整合,
实现对人寿保险业务中数据的集中管理。
§1.2 研究现状
以管理非结构数据技术为核心的“内容管理”技术被广泛认知是互联网应用
流行以后。IBM曾把信息管理定义为数据管理和内容管理两部分的集成,显示出
内容管理重要性。内容管理不是某种单独的创新技术,而是许多先进技术的综合
应用,它涵盖企业内联网(Intranet)、因特网(Internet)和企业外联网(Extranet)应用,
大大突破了传统信息流管理软件、办公自动化软件以及文档管理软件的应用范围、
使用效果和商业价值。内容管理解决方案重点解决各种非结构化或半结构化的数
字资源的采集、管理、利用、传递和增值,并能有机集成到结构化数据的商业智能
(BI)环境中,如ERP,CRM等,内容管理解决方案的终极目标是实现内容价值链
的最优化。内容管理持续呈现出良好的产业趋势:在2003年的调查显示,内容管
理软件是IT买主最希望购买的三大类产品之一[21]。
目前企业内容管理逐步形成六大核心功能组件:
(1) 文档管理,包括文档发布和获取校验,版本控制,安全性检验以及对商业文件
提供存储检索服务;
(2) 网页内容管理,突破网站管理员的瓶颈,实现网页内容管理自动化,动态内容
的管理以及内容授权;
(3) 记录管理,为每一条单独的企业信息分配专门的生命周期记录,从信息产生、
接收、维护、使用直到最后的处理都将被记录下来;
(4) 用于纸质文档的影像获取与管理技术;(本文的主要研究方向)
(5) 为项目团队提供文档共享与支持的文档中心协作功能;
(6) 支持商业流程和内容传递的工作流,配置工作任务和状态,并创建查找索引
[21]。
从发展趋势看,企业内容管理中其他功能模块很多会体现出工具化和组件化
的特征,并且以WEB系统(.Net Framework/J2EE)结合内容管理系统作为企业信
息管理解决方案的应用框架,形成完整的企业内容管理架构。而影像管理作为非
结构数据管理技术的一个应用领域,随着近年来各个企业对海量影像数据管理现
实需求的不断增强,其应用技术正在迅速发展。目前,非结构数据管理以及以管
理非结构数据技术为核心的内容管理的理论、应用正处于茁壮成长阶段。
§1.3 本文工作
本文以研究非结构化数据管理和它的解决方案——内容管理为基础,结合非
结构化数据管理的应用实例对内容管理、内容管理系统进行分析与研究。并在此基
2
第一章 绪论
础上,给出了一个具体的影像数据管理的业务模型与解决方案。该方案结合OCR
(条形码识别)技术对图像数据进行采集,以提高基于内容管理系统的业务系统
的工作效率;引入结构化数据库(Oracle)存储技术,结合内容管理系统对企业
实际业务中的复杂业务数据进行更为有效的管理。
本文建立了一个基于CMS(IBM CM)、综合OCR、DBMS(Oracle)存储,TSM备
份技术的影像数据管理的模型。结合人寿保险业务中的应用案例,本文给出了基
于此模型的一个解决方案,它是一个影像管理系统,主要有四大功能:保单影像
采集、保单录入、保单查阅和基于影像的业务处理。在整个业务系统中,影像系统
对其它相关业务系统起到辅助和数据支持作用。本文对此方案所运用到的CMS、O
CR、TSM、DBMS(Oracle) 存储、CM API编程等技术的综合应用进行了研究;并给
出了相关的系统部署、配置、优化及测试方案。
§1.4 本文的组织结构
本文共分为七章:
第一章:介绍本文的研究背景,指出本文的研究内容。
第二章:介绍非结构化数据管理及其解决方案——内容管理,并介绍了内容
管理系统,分析了其系统架构和查询技术。
第三章:结合内容管理系统介绍了非结构化数据的数据模型,并分析了面向
业务的数据建模过程。
第四章:给出了一个基于影像数据的非结构化数据管理的应用模型,对模型
中的关键部分进行了设计。
第五章:主要介绍应用模型中关键部分的实现,并对系统实现中基于 CM
API 的编程结合实例进行了阐述。本章最后还对模型在人寿保险案例中的应用效果
作了分析。
第六章:介绍了应用系统的部署、CM 系统环境的配置及应用系统的测试方案
第七章:对全文进行了总结,并对本文研究对象的前景进行了展望。
3
第二章 非结构化数据管理
第二章
第二章
非结构化数据管理
非结构化数据管理
非结构化数据管理在企业整体业务信息的管理需求正日益增加,而内容管理是
非结构化数据管理的一个较为成熟的解决方案, 内容管理的核心就是对非结构化
信息的管理[29]。本章介绍非结构化数据管理的现实需求,然后展开对内容管理系统
相关概念的介绍。随后,本章对IBM CM的主要技术进行了分析和研究。
§2.1非结构化数据管理的概述
目前,我们能够把现有网络中的信息数据从其内容性质上分为两大类:
(1) 能够用数据或统一的结构表示的信息,比如数字,结构文本,符号等,定义其
为结构化数据。
(2) 无法用数字或统一的结构表示,比如网页,图像,声音文件等,称为非结构化
数据。
非结构化数据管理目的是在组织现有的分散应用环境下,把原来分散的部门
和组织,通过系统的集成使其相互关联,形成广泛的、相互关联的组织应用环境
它在组织系统的构架层次上,为组织的信息流建立了一个跨越多种分散的、内部
和外部的信息处理过程的系统链,完全淡化了传统的内外部分界。
针对当前组织的需求,非结构化数据管理首先是要支持广泛的数据源(结构化
和非结构化数据),包括ERP系统、Lotus Notes、数据库、文字处理和表格文件等
通过从后台系统(如数据库、ERP等)抽取业务信息、建立索引并映射到基于
Internet和Intranet的内容。
其次,非结构化数据管理必须有一个强大的、可扩展的系统用于存储和组织数
据。由于后端结构数据库或者文件系统是动态的,这意味着自动抽取数据源并递
交给桌面是一种非常复杂的连接,需要一种灵活的、可扩展的信息抽取机制和个
性化的界面定制工具[2]。
§2.2非结构化数据管理的现实需求
对于金融行业来说,法律规定有些业务文件必须保存其纸质原件。而且在业务
活动中,人们对纸质文件的使用习惯也决定了其存在的必要性。而对纸质原件的影
像文件(非结构化数据)的管理则是金融行业信息管理的重要任务之一。所以,非结
构化数据目前将是金融企业信息中的一大组成部分。
根据巴塞尔协议II,金融业在数据留存方面要执行新规定。相应地,各银行对本
行的Email、支票原始图像、甚至对客户所填的信用卡申请资料文件的留存也都有
了各自的规定,这些都对存储提出了较高的要求。为了适应这些新需求,不少存储
厂商费尽心机,将内容管理软件与最新的数据存储技术结合起来,以提升非结构化
信息管理水平,不断满足客户所面临的法律法规及金融监管的挑战[19]。
同时,在银行、证券、人寿等金融行业的业务中,数字化报表起着关键性的作用
数字化报表通常是通过各类系统,交付打印机输出为纸张,并最终以纸张的形式进
行保存和各类业务操作。这种方式存在很多弊病。银行需要报表管理系统提供功能
强大的数字化报表存储、归档、查询等功能,能自动处理各种内容的报表、对账单
图像和计算机桌面文件。非结构化数据管理软件可将大量的银行业务档案转化成相
应的电子图像,并建立对应影像的查询索引存放到存储平台中。这样,各类数字化
5
基于影像数据的非结构化数据管理的应用研究
报表就可以进行集中管理,集中高效查询,而纸质原件可以方便的单独保存,以保
证档案资料的长期保存。业务人员也可以从本地计算机对影像文件进行操作,简化
整个企业的业务工作流程。
§2.3非结构化数据管理的解决方案——内容管理
据分析,目前企业每天产生的信息中有八成以上的数量是非结构化的,非结构化
数据管理要解决的就是这八成信息的管理问题,包括这些半结构化或非结构化的信
息采集、管理、利用、传递和存储,将其集成到ERP、CRM等结构化数据的信息
系统中。
但是,企业级非结构化数据管理技术目前还不是很成熟。我们知道用来管理结
构化数据的关系数据库从理论到技术上经历了数年发展,已经相当成熟,而非结构
化数据的复杂程度远远高于结构化数据,所以其管理技术还存在很多有待解决的难
题,而内容管理软件的应用结合企业门户、协作软件、企业应用集成将是目前非结
构化数据管理的较为实际的解决方案之一。
“内容管理作为一种专门的非结构化信息管理技术,伴随着非结构化数据规模和
应用需求的不断增长,正逐渐成为数据管理技术发展的一个重要方向。” 中国计算
机学会数据库专业委员会副主任唐世渭对内容管理的发展曾作过如此评述。可见,
内容管理是近年来非结构化数据管理的一个发展迅速的解决方案,而本文对非结构
化数据管理的研究正是基于内容管理来展开的。
§2.3.1内容管理的概述
内容管理中的“内容”的形式是多种多样的,按照功能包括备忘录、报告、信件
白皮书、市场档案、调研报告、办公文档、演示文稿等等,按照物理存在形式,
“内容”包括Email、各种格式的文档(Word、PDF)、不同格式的图片、声音文件
影像文件等等。相对于结构化信息,内容本质上是非结构化信息,因此内容管理的
核心就是对非结构化信息的管理[29]。尽管内容的形式是多样的,但用于内容管理的
基本模型可以简化为:内容=元数据(Metadata)+数据(data)。这里的数据(Data)就是
要管理的内容(非结构化数据) 本身,元数据是对内容的结构化描述,其作用是为了
发现、找到要管理的内容(非结构化数据) [29]。
内容指在网站中包含的所有事物,可分为信息,应用两大类。信息指用户浏览网
站时所触及的文本,图片,以及供下载的文件。应用指在网站服务器中运行的以提
供显示信息等功能的软件系统。目前大多数内容管理系统将自身的功能集中于信息
管理上。内容组件指网页上的文本,图片,超链接,可下载的文件,以及视频,音
频,元数据(关键字,描述,语言信息等等),内容管理系统则提供不同等级的内
容组件支持。内容管理由“内容”和“管理”两部分组成,所谓“内容”就是具有
价值的能够容易(数字化)、安全(权限控制)、快速(元数据管理)地进行共享
和利用的信息资产。对于“内容”来说,怎样进行再加工、再利用将是提高内容价
值的关键环节。同时,真正的内容不是单一的、无任何关联的一些文件,而是经过
整理、加工甚至重构的具有利用价值的数字对象。由此可见,内容管理所包含的功
能是广泛的,其主要目的就是将信息的价值提升到更高的层次,而不仅仅是存储管
理这么简单。
从内容的生命周期来看,同时要涉及内容的创作(创建),内容的管理以及内容
6
第二章 非结构化数据管理
的分发;在一个企业中,内容的管理起着承上启下、融会贯通的重要作用,而数字
化的IT技术使得企业能够以更低的成本来实现更广泛的信息共享,使得内容能实现
更多的价值[20]。
内容创建依赖于内容管理系统所提供的包容性,包括对格式的支持,传输标准的
支持,内容精细度及存储容量的支持,创建方式和传输方式的支持等。一个稳固的
开放的、易于扩展的内容管理系统将极大提高内容创建系统的灵活性和高效性,并
使得内容更加丰富和全面。内容创建同时对内容管理提出更高要求,包括新标准的
支持,高效的管理,安全性的控制等。
内容管理的有效性将直接使得内容分发更有效和容易实现。内容管理系统的强劲
的检索能力、安全的性能、对工作流的支持、全方位的发布方式将使得系统能在合
适的时间将合适的内容分发到合适的人手中,从而真正发挥这些内容的价值。同时
内容发布产生的结果将直接影响到内容创建和内容管理系统的建设,对这两个系统
提出更新更高的要求。
由上所述,对于一个企业来说,越来越多的非结构化信息不断出现,包括企业的
各种报表、账单、电子文档、网站的各种元素、图片、传真、扫描影像,以及大量
的多媒体的音频、视频信息等等,这些所有的企业级非结构化数据的管理可称为内
容管理[20]。
而企业内容管理解决方案包含许多技术,能同时满足各种内容管理需求,其中包
括业务影像(本文的研究内容),企业报表管理/计算机输出文档管理(COLD),文
档管理,数字媒体资产管理,网站内容管理等等。
由此,内容管理系统的定义为:由内容管理,元数据管理以及内容传递等应用组
件构成的系统。他们的目的是通过应用工作流管理内容组件和元数据,以期为使用
者提供高效、方便的信息检索服务。内容管理系统的特色包括标准化接口,统一存
储,工作流支持,动态页面生成,内容转换,整合搜索引擎,监控,分析以及报告
系统等等。
§2.3.2内容管理系统
内容管理系统是一个位于WEB前端(Web 服务器)和后端办公系统或流程(内
容创作、编辑)之间的软件系统。内容管理解决方案重点解决各种非结构化或半结
构化的数字资源的采集、管理、利用、传递和增值,并能有机集成到结构化数据的
商业智能环境中,如OA,CRM等。内容的创作人员、编辑人员、发布人员使用内
容管理系统来提交、修改、审批、发布内容。这里指的“内容”可能包括文件、表
格、图片、数据库中的数据甚至视频等一切将要发布到 Internet、Intranet以及
Extranet网站的信息。
本文对内容管理系统的研究是基于IBM CMV8的实例展开的。在本节中,我们将
对IBM内容管理系统及其架构进行分析和研究。
IBM CM 内容管理系统
IBM内容管理第8版(CM V8)提供了一套可靠的、易升级的、强劲的企业内容管
理体系架构,它也同时提供了强劲的、安全的和高扩展能力的服务,使得企业用户
能非常容易地访问电子商务的内容。这种体系架构能够通过具有灵活的数据模型的
单一存储来支持不同的、异构的内容管理技术,包括文档管理、数字媒体资产管理
网站内容管理等。这种数据模型使得企业能非常容易地在不同系统之间实现内容共
享,从而提高了业务处理流程效率。
7
摘要:
展开>>
收起<<
目录摘要ABSTRACT第一章绪论...................................................................................................................1§1.1研究背景............................................................................................................1§1.2研究现状.............................................
相关推荐
-
绿化工程投标书VIP免费
2024-11-26 84 -
道路及两侧绿化投标书VIP免费
2024-11-26 16 -
国控点环保宣传用品项目投标文件VIP免费
2024-11-26 13 -
国自然标书VIP免费
2024-11-26 17 -
绿化工程投标文件范本VIP免费
2024-11-26 21 -
绿化养护投标书样本VIP免费
2024-11-26 11 -
绿化养护投标文件范本VIP免费
2024-11-26 28 -
园林绿化工程投标文件范本VIP免费
2024-11-26 19 -
园林绿化养护投标书VIP免费
2024-11-26 12 -
绿化工程施工招标文件VIP免费
2024-11-26 27
作者:高德中
分类:高等教育资料
价格:15积分
属性:109 页
大小:6.81MB
格式:DOC
时间:2024-11-19

