基于影像数据的非结构化数据管理的应用研究

VIP免费
3.0 高德中 2024-11-19 4 4 6.81MB 109 页 15积分
侵权投诉
目录
摘要
ABSTRACT
第一章 绪论...................................................................................................................1
§1.1 研究背景............................................................................................................1
§1.2 研究现状............................................................................................................2
§1.3 本文工作............................................................................................................3
§1.4 本文的组织结构................................................................................................3
第二章 非结构化数据管理...........................................................................................5
§2.1 非结构化数据管理的概述................................................................................5
§2.2 非结构化数据管理的现实需求........................................................................5
§2.3 非结构化数据管理的解决方案——内容管理................................................6
§2.3.1 内容管理的概述..........................................................................................6
§2.3.2 内容管理系统..............................................................................................8
§2.3.3 内容管理系统的架构分析..........................................................................9
§2.3.4 内容管理系统的检索查询........................................................................14
本章小结..................................................................................................................15
第三章 基于内容管理系统的非结构化数据模型.....................................................16
§3.1 数据模型的概述..............................................................................................16
§3.1.1 属性(Attributes....................................................................................16
§3.1.2 属性组........................................................................................................17
§3.1.3 组件............................................................................................................17
§3.1.4 对象(Object.........................................................................................18
§3.1.5 项目模板(项目类型)(Item Type....................................................18
§3.1.6 项目(Item)..................................................................................................20
§3.1.7 CM 中的数据关系.....................................................................................20
§3.2 面向业务的数据建模......................................................................................22
§3.2.1 逻辑模型....................................................................................................23
§3.2.2 数据建模....................................................................................................24
本章小结..................................................................................................................30
第四章 影像数据管理的应用模型.............................................................................31
§4.1 影像数据管理..................................................................................................31
1
§4.2 影像数据管理模型..........................................................................................32
§4.3 影像数据管理模型中数据采集方案的设计..................................................35
§4.3.1 OCR 技术...................................................................................................35
§4.3.2 数据采集方案概述....................................................................................36
§4.3.3 扫描系统的设计........................................................................................38
§4.3.4 数据处理系统设计....................................................................................40
§4.4 影像数据管理模型中工作流程的设计..........................................................42
§4.4.1 业务流程....................................................................................................43
§4.4.2 系统业务工作流程设计............................................................................45
§4.4.3 审核模块的工作流分析............................................................................46
§4.5 影像数据管理模型中影像业务管理系统的设计..........................................47
§4.5.1 CM API......................................................................................................47
§4.5.2 事务控制....................................................................................................50
§4.5.3 系统功能设计............................................................................................51
§4.6 影像数据管理模型中数据备份方案的设计..................................................54
§4.6.1 Tivoli Storage Manager..............................................................................54
§4.6.2 CM-TSM 的整合.......................................................................................55
§4.6.3 数据归档(备份)系统的设计................................................................56
本章小结..................................................................................................................58
第五章 基于影像数据的非结构化数据管理应用模型的实现.................................59
§5.1 影像系统的概述..............................................................................................59
§5.1.1 影像系统的应用背景................................................................................59
§5.1.2 基于非结构化数据管理模型的影像系统构成........................................60
§5.1.3 系统部署环境及系统接口........................................................................60
§5.2 影像系统中影像业务管理系统的实现..........................................................62
§5.2.1 影像业务管理系统的系统架构................................................................62
§5.2.2 影像业务管理系统核心代码分析............................................................64
§5.2.3 影像业务管理系统的主要界面................................................................76
§5.3 影像系统中数据采集系统的实现..................................................................84
§5.3.1 数据业务系统的实现................................................................................84
§5.3.2 数据传送模块的实现................................................................................90
§5.4 影像系统中数据归档(备份)系统的实现..................................................93
§5.4.1 CM-TSM 应用...........................................................................................93
§5.4.2 影像备份系统核心代码分析....................................................................95
§5.5 系统应用分析................................................................................................101
§5.5.1 系统模型的改进......................................................................................101
§5.5.2 应用模型的分析......................................................................................103
本章小结................................................................................................................104
2
第六章 影像系统的部署、配置及测试...................................................................105
§6.1 影像系统的软件环境....................................................................................105
§6.2 CM 系统的性能优化及配置.........................................................................105
§6.3 CM 系统环境配置.........................................................................................106
§6.3.1 CM 部署的注意要点...............................................................................106
§6.3.2 SSL 配置及测试......................................................................................109
§6.4 影像系统的测试.............................................................................................111
§6.4.1 测试数据..................................................................................................111
§6.4.2 测试准备工作..........................................................................................111
§6.4.3 测试用例..................................................................................................111
本章小结................................................................................................................114
第七章 总结与展望...................................................................................................115
§7.1 本文工作总结.................................................................................................115
§7.2 展望.................................................................................................................116
参考文献....................................................................................................................117
...........................................................................................................................119
3
4
第一章 绪论
第一章
第一章
目前,数据管理技术已经不能和数据库技术划上等号因为结构化的数据管
理系为目企业15%管理,而能为85%的非化数
据(如影像文件)提供管理的解决方案。由此,本文对非结构化数据管理的研究
具有十分重要的现实意义。
§1.1 研究背景
近年人寿业的量几几何速度,如1.1 寿
险公司的业务历史数据及业务发展计划,就是一个极好的例证。
1.1 人寿保险公司的业务历史数据及业务发展计划
保单业务 1保单业务 2纸质保单数(单
位:张)
所含数据量
(单位:M
所含数
据量
(单
位:G
2005 78,173 220,341 154,238,700 150,623.73 147.09
2006 187,907 504,049 352,834,300 344,564.75 336.49
2007 424,325 1,098,829 769,180,300 751,152.64 733.55
2008 866,535 2,243,973 1,570,781,100 1,533,965.92 1,498.01
如何存储、管理、利用这些海量数据?如何提高办公人员的工作效率?如何提
高业务处理准确度?如何建立一个高效的业务工作流程?为了解决这些问题,我
们需要通过信息管理系统将纸质的文档转换为影像文件来进行存储管理。
那么又如何将这些非结构化的影像文件进行有效地存储管理呢?由此,本
引入了非结构化数据管理及其解决方案——内容管理。
随着业务的不断扩展,各行业中所涉及的信息每都在以惊人的速度增长。
有统计表,来自交易中的数据每年增长的速度61%,而其种相关信息
的每年增长率甚至超92%,信息的不断地扩展,的非
结构化信息不断现,包括企业的各种报表、单、电子文档、网站的各种元素
扫描影像,量的多媒体音频视频信息等等。而信息爆炸的背
我们大挑战是如何有地存储、管理并利用这些信息,是对于那
量的、非结构化的信息。一个企业无法将这些信息进行系统地目和管理,
危机是不断流生产力一方面,企业和组织也希望对这些
息有更多的控制,保信息的安全挖掘信息的价值[6]
对于表、单、影像、电子文档、图片音频视频等各信息,由于
是非结构化存储量的对象,难以用传统的关系型数据库管理,我们将这些
1
基于影像数据的非结构化数据管理的应用研究
结构化的信息为内容(Content)。而上述的各种客户需求也反映客户对于内
容管理系统的基本需求,包括基于成熟开放的技术、;支持种硬件环境、
级应用企业级应用的扩展具有高用性、安全性、工业化;支持
级海量存储管理、强大发能力;保证信息的一性、整性、灵活的数据模
型、工作流、数字版权等等。
那么,又如何建立一个基于影像数据的非结构化息管理系统呢?基于这
问题,本文设计了一业务信息采集OCR 技术)、信息管理CM 应用
术)、信息归档(CM-TSM 应用技术)的面向业务的影像数据管理模型。这个模型
通过OCR 技术,结构化数据存储技术J2EE 等技术与内容管理系统的整合,
实现对人寿保险业务中数据的集中管理。
§1.2 研究现状
管理非结构数据技术为核心内容管理技术广泛认知联网应用
流行IBM曾把信息管理义为数据管理和内容管理部分的集成,显示出
内容管理重要性。内容管理不是创新技术,而是许多技术
应用,它涵盖企业内联网(Intranet)特网(Internet)和企业外联网(Extranet)应用,
大大突破了传统信息流管理软件、办公自动化软件及文档管理软件的应用范围
使用效价值。内容管理解决方案重点解决各非结构化或半结构化的
字资源的采集、管理、利用、和增,并能有集成结构化数据的
(BI),如ERPCRM内容解决极目内容
优化。内容管理持续2003年的显示,内容管
理软件是IT最希购买的三产品之[21]
目前企业内容管理逐步形成六核心功能组件:
(1) 文档管理,包括文档发获取校验本控制,安全性检验以及对业文件
提供存储检索
(2) 网页内容管理,突破网站管理员的瓶颈,实现网页内容管理自动化,动态内容
的管理及内容授权;
(3) 录管理,为每一的企业信息分配专门生命周期记录,信息产生
维护使直到最后的处理被记
(4) 用于纸质文档的影像获取与管理技术(本文的主要研究方向)
(5) 为项目团队提供文档共享支持的文档中心作功能
(6) 支持商业流程和内容传的工作流,配置工作务和状,并建查索引
[21]
发展趋势看,企业内容管理中其功能模块很多会体工具化和组件化
特征,并且以WEB系统(.Net Framework/J2EE)结合内容管理系统作为企业信
息管理解决方案的应用架,整的企业内容管理架构。而影像管理作为非
结构数据管理技术的一个应用领域,随着近年来各个企业对海量影像数据管理现
实需求的不断增,其应用技术正在迅速发展。目前,非结构数据管理
理非结构数据技术为核心的内容管理的理论、应用处于茁壮成长阶段
§1.3 本文工作
本文研究非结构化数据管理和解决方—内容管理结合
结构化数据管理的应用实例对内容管理、内容管理系统进行分析与研究。此基
2
第一章 绪论
上,了一个具的影像数据管理的业务模型与解决方案。方案结合OCR
条形识别)技术数据进行采集提高基于内容管理系统的业务系统
的工构化库(Oracle存储,结容管统对
业务中的复杂业务数据进行为有效的管理。
本文建立了一个基于CMS(IBM CM)OCRDBMS(Oracle)存储,TSM
份技术的影像数据管理的模型。结合人寿保险业务中的应用案例,本
于此模型的一个解决方案,一个影像管理系统,主要有四功能:保单影
采集、保单录入、保单查和基于影像的业务处理。整个业务系统中,影像系统
对其它相关业务系统起到辅助和数据支持作用。本文对此方案所CMSO
CRTSMDBMS(Oracle) 存储、CM API程等技术的合应用进行了研究
关的系统部署、配置、优化及测试方案。
§1.4 本文的组织结构
本文分为七章:
第一章:介绍本文的研究背景,指出本文的研究内容。
第二章:介绍非结构化数据管理及其解决方案——内容管理,内容
管理系统,分析了其系统架构和查询技术。
第三章:结合内容管理系统非结构化数据的数据模型,并分析了面
业务的数据建模过程。
第四章:给出了一个基于影像数据的非结构化数据管理的应用模型,对模
中的关部分进行了设计。
CM
API 程结合实例进行了述。本章最后还对模型人寿保险案例中的应用效
作了分析。
第六章:介绍了应用系统的部署、CM 系统环境的配置及应用系统的测试方案
第七章:对文进行了总结,并对本文研究对象的前景进行了展望。
3
第二章 非结构化数据管理
第二章
第二章
非结构化数据管理
非结构化数据管理
非结构化数据管理企业整业务信息的管理需求正日益,而内容管理是
非结构化数据管理的一个为成的解决方案, 内容管理的核心就是对非结构化
信息的管理[29]。本章介绍非结构化数据管理的现实需求,然后对内容管理系统
关概介绍。随,本章对IBM CM的主要技术进行了分析和研究。
§2.1非结构化数据管理的概述
目前,我们能够把现有网络中的信息数据其内容性质上分为两大类:
(1) 用数据统一的结构表的信息,如数,结构文本,号等,义其
为结构化数据。
(2) 无法用数字或统一的结构表网页像,声音文件等,为非结构化
数据。
非结构化数据管理目的是组织现有的分应用环境把原来分的部
和组织,通过系统的集成使相互广泛的、相互的组织应用环境
它在组织系统的构架层次上,为组织的信息流建立了一个跨越多种的、内部
部的信息处理过程的系统完全淡化了传统的内部分界。
前组织的需求,非结构化数据管理首先是要支持广泛的数据(结构化
和非结构化数据)包括ERP系统、Lotus Notes、数据库、文处理和表文件等
(ERP)
InternetIntranet的内容。
,非结构化数据管理必须有一个强大的、扩展的系统用于存储和组织数
据。由于后端结构数据库或者文件系统是动态的,这意自动抽取数据
交给桌面是一常复杂接,需要一种灵活的、扩展的信息抽取机制和个
性化的界面制工具[2]
§2.2非结构化数据管理的现实需求
对于金融行业来法律规定有些业务文件必须保存其纸质件。而且在业务
活动中,人们对纸质文件的使习惯也了其存要性。而对纸质件的影
像文件(非结构化数据)的管理金融行业信息管理的重要一。所,非结
构化数据目前将是金融企业信息中的一组成部分。
巴塞II金融数据存方面要新规定应地,各行对本
行的Email像、甚至客户的信用卡申请文件的也都
了各规定,这些对存储提高的要求。为了应这些需求,不存储
费尽,将内容管理软件与最新的数据存储技术结合来,非结构化
信息管理水平,不断满足客户所面法律法规金融管的挑战[19]
同时行、证、人寿等金融行业的业务中,数着关性的作用
表通是通过各类系统,付打印为纸张,并最终以纸张的
行保存和各类业务作。这在很多弊病行需要表管理系统提供功能
强大的数表存储、归档、查询等功能,能自动处理各内容的表、对
像和计机桌面文件。非结构化数据管理软件量的行业务档案转化成
应的电子图像,并建立对应影像的查询索引存放到存储中。这,各类数
5
基于影像数据的非结构化数据管理的应用研究
表就可以进行集中管理,集中高效查询,而纸质可以便的单保存,
证档案的长保存。业务人员也可以从本地计对影像文件进行作,
整个企业的业务工作流程。
§2.3非结构化数据管理的解决方案——内容管理
据分析,目前企业每天产生的信息中有上的数量是非结构化的,非结构化
数据管理要解决的就是这成信息的管理问题,包括这些结构化非结构化的信
息采集、管理、利用、传和存储,将其集成ERPCRM等结构化数据的信息
系统中。
是,企业级非结构化数据管理技术目前不是。我们用来管理结
构化数据的关系数据库理论技术上经历了数年发展,已经相当,而非结构
化数据的复杂程度远远高于结构化数据,所其管理技术在很多解决的
题,而内容管理软件的应用结合企业门户作软件、企业应用集成将是目前非结
构化数据管理的为实的解决方案一。
内容管理作为一种专门的非结构化信息管理技术,随着非结构化数据模和
应用需求的不断增长,正逐成为数据管理技术发展的一个重要方向。
数据库唐世渭对内容管理的发展作过如此述。
内容管理是近年来非结构化数据管理的一个发展速的解决方案,而本文对非结构
化数据管理的研究是基于内容管理来展的。
§2.3.1内容管理的概述
内容管理中的内容多种多的,按照功能包括录、、信件
白皮市场档案办公文档、稿照物理存在形
内容”包括Email、各种格的文档(WordPDF)、不同格图片声音文件
影像文件等等。对于结构化信息,内容本质上是非结构化信息,因此内容管理的
核心就是对非结构化信息的管理[29]管内容的的,用于内容管理的
基本模型可以化为:内容=数据(Metadata)+数据(data)。这的数据(Data)就是
要管理的内容(非结构化数据) 数据是对内容的结构化描述,其作用是为了
发现、找到要管理的内容(非结构化数据) [29]
内容指在网站含的所有事分为信息,应用两大类。信息浏览
站时及的文本,图片及供的文件。应用指在网站服行的
显示信息等功能的软件系统。目前大多数内容管理系统将的功能集中于信息
管理上。内容组件指网页上的文本,图片超链接,可下的文件,视频
数据(关键字,描述,语言信息等等),内容管理系统提供不等级的内
容组件支持。内容管理由内容管理”两部分组成,所内容就是具有
价值的能(数化)、安全控制)、速(数据管理)地进行共享
和利用的信息资产。对于内容怎样进行工、利用将是提高内容
的关同时真正的内容不是单一的、无任何关的一些文件,而是经过
整理、甚至重构的具有利用价值的数对象。由此,内容管理所含的功
能是广泛的,其主要目的就是将信息的价值到更高的层次,而不仅仅是存储管
理这么单。
内容的生命周期同时要涉及内容的作(建),内容的管理及内容
6
第二章 非结构化数据管理
的分发;在一个企业中,内容的管理融会通的重要作用,而数
化的IT技术使企业能够以更的成本来实现更广泛的信息共享使内容能实现
更多价值[20]
内容依赖于内容管理系统所提供的容性,包括支持,传准的
支持,内容精细度及存储容量的支持建方和传支持等。一个稳固
开放的、于扩展的内容管理系统将极提高内容建系统的灵活性和高效性,并
使内容更加丰富面。内容同时对内容管理提出更高要求,包括新标准的
支持,高效的管理,安全性的控制等。
内容管理的有效性将使内容分发有效和容实现。内容管理系统的
的检索能安全的性能、对工作流的支持方位的发使系统能
将合的内容分发的人中,真正这些内容的价值同时
内容发布产生的结接影内容建和内容管理系统的建设,对这个系统
出更新更高的要求。
由上所述,对于一个企业来越多的非结构化信息不断现,包括企业的
种报表、单、电子文档、网站的各种元素图片、传、扫描影像,
多媒体音频视频信息等等,这些所有的企业级非结构化数据的管理可称为内
容管理[20]
而企业内容管理解决方案许多技术,能同时满足内容管理需求,其中
业务影像(本文的研究内容),企业表管理/文档管理(COLD),文
档管理,数字媒体资产管理,网站内容管理等等。
由此,内容管理系统的义为:由内容管理,数据管理及内容传等应用组
件构成的系统。们的目的是通过应用工作流管理内容组件和数据,以期使
提供高效、方便的信息检索务。内容管理系统的包括标准化接口,统一存
储,工作流支持动态页成,内容转换,整合索引控,分析
系统等等。
§2.3.2内容管理系统
内容管理系统是一个位于WEBWeb )和后端办公系统流程(内
作、辑)的软件系统。内容管理解决方案重点解决各非结构化或半
构化的数字资源的采集、管理、利用、传和增,并能有集成结构化数据的
能环境中,如OACRM等。内容的作人员、辑人员、发人员使用内
容管理系统来提改、审、发内容。这内容”可包括文件、表
、数据库中的数据甚至视频 InternetIntranet
Extranet网站的信息。
本文对内容管理系统的研究是基于IBM CMV8的实例展的。中,我们将
IBM内容管理系统及其架构进行分析和研究。
IBM CM 内容管理系统
IBM内容管理第8(CM V8)提供了一的、级的、的企业内容管
系架构,它也同时提供了的、安全的和高扩展能务,使企业用
能非访电子商务的内容。这种体系架构能通过具有灵活的数据模型的
单一存储来支持的、构的内容管理技术,包括文档管理、数字媒体资产管理
网站内容管理等。这数据模型使企业能非系统实现内容
而提高了业务处理流程效率。
7
摘要:

目录摘要ABSTRACT第一章绪论...................................................................................................................1§1.1研究背景............................................................................................................1§1.2研究现状.............................................

展开>> 收起<<
基于影像数据的非结构化数据管理的应用研究.doc

共109页,预览10页

还剩页未读, 继续阅读

作者:高德中 分类:高等教育资料 价格:15积分 属性:109 页 大小:6.81MB 格式:DOC 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 109
客服
关注