虚拟磁带库在海量数据备份环境中的应用研究

VIP免费
3.0 陈辉 2024-11-19 4 4 1.87MB 71 页 15积分
侵权投诉
第一章 绪论
1
第一章 绪 论
§1.1 引言
随着计算机信息系统的不断发展,用户的核心业务越来越依赖于信息系统的
可靠运行,信息系统中的关键业务数据已经成为用户最为重要的资产。因此数据
保护保障业务应用系统的连续性运行是企业运营的关键。
数据备份是信息系统保护数据的必要手段,规划备份系统成为了整个企业必
然面临的重要问题。大型企业在规划备份系统方面正面临着严峻的挑战——
量的急剧增长,成本高昂,管理困难等。关键性业务的海量数据备份对服务器的
性能要求很高,资源占用非常严重,导致备份时间窗口过长[1,2]。面对这些问题,
必须改变现有的备份存储架构与备份技术,来应对海量数据备份性能不足这一迫
在眉睫的问题。虚拟磁带库(VTL:Virtual Tape Library)技术为海量数据备份的严
峻困境带来了技术方案。随着虚拟磁带库逐渐得到企业的广泛认可,三级存储备
份架构也得到了普遍的应用,但是这种架构也同时带来了数据备份性能的瓶颈问
题。
§1.2 问题的提出
备份是每个企业的日常性工作,其过程对服务器的 CPUIO 及网络资源的占
用非常严重,而数据量大的关键业务应用系统对服务器的性能要求很高,因此
份的时间窗口大小会受到严格限制。数据量越大,备份时间窗口的问题就会越成
为数据备份系统建设的所面临的严峻挑战。
由于传统物理磁带库在应用中有某些局限性,使得物理磁带库在作海量数据
备份时存在以下问题[3]
1海量数据导致备份时间窗口过长,备份作业无法在规定时间内完成备份任
务,影响生产系统性能;
2磁带读写速度低,磁带库抓带、加载和机械定位等操作导致数据备份、恢
复慢,无法完成日常任务,影响生产系统数据的时效性;
3磁带为非封闭介质,易受损坏;而且数据没有容错保护,从而导致备份失
效率高,干扰日常业务运行;
虚拟磁带库在海量数据备份环境中的应用研究
2
4机械磁带库的故障率高,维护成本高,管理复杂。
在传统的备份模式中,系统的设计者往往通过增加磁带驱动器的数量来提高
备份速度,随着数据量的急剧增长,就需要配置更多的驱动器来满足备份时间窗
口的要求。因此采用物理磁带技术解决备份时间窗口问题非常吃力,会使运行和
维护成本大幅度增加。而众所周知,磁盘驱动器的读写速度比磁带的读写速度快
的多,但磁盘的价格一直居高不下。随着 ATA 及串行 ATA 技术的快速发展,采用
ATA 接口的大容量磁盘的单位容量价格已经与磁带非常接近。虚拟磁带库正是采
用了这种单位容量价格便宜的磁盘,将磁盘虚拟成用户看到的磁带,使备份和恢
复速度可以达到 100MB/s,是磁带库速度的几倍甚至几十倍[4,5]。此外,虚拟磁带
库避免了传统物理磁带库机械臂抓磁带,数据定位慢的问题,故障率低,效率高;
并且它仍然使用简单、全面、图形化用户界面的备份软件和传统的备份流程进行
集中管理[6,7]虚拟磁带库是磁盘存储与磁带存储技术相结合的近线存储备份技术,
从而提高了设备的可用性和备份、恢复速度。因此,将虚拟磁带库应用到海量数
据的存储备份架构中,是数据备份领域发展的必然趋势。
§1.3 国内外的应用现状
目前,美国许多企业级用户已经普遍采用了虚拟磁带库作为数据备份设备;
在国内,中、小型虚拟磁带库已经得到了普遍采用,但是采用大型虚拟磁带库
只有两、三家大型企业。一方面是企业出于设备成本考虑,大型虚拟磁带库价格
昂贵;另一方面是企业对备份设备容量的需求还未达到几百甚至上千 TB 级。国内
各企业广泛采用的是第二代、第三代虚拟磁带库。第二代虚拟磁带库即将虚拟磁
带库管理软件安装在一个专用的服务器上,将该专用服务器与所连接的后端磁盘
存储一起构成虚拟磁带库。第三代虚拟磁带库,即将磁带库管理软件固化在基
ARM 结构、嵌入式实时系统中,将管理系统与存储磁盘阵列统一的管理起来,
成独立的虚拟磁带库设备[8]
对虚拟磁带库的发展有较大影响的因素是重复数据删除技术的成熟和普及,
有国外该领域资深人员称,目前尖端的重复数据删除技术将会改写存储备份行
的规划[9]重复数据删除技术已经成为大型企业在选择虚拟磁带库设备时考虑的重
点。
目前,虚拟磁带库技术已成为存储备份领域的主流趋势,IBMHPVERITAS
CABackboneStorageTek 等厂商都已经拥有虚拟磁带库的高、中、低端硬件产
品及软件产品。
第一章 绪论
3
§1.4 本课题的工作
海量数据备份对备份设备的要求和对实时系统的影响是大型物流和金融企业
面临的重要课题。本课题是基于虚拟磁带库设备的应用,通过搭建从生产数据中
心的服务器到存储阵列,到本地虚拟磁带库,再到远程灾备中心的物理磁带库的
三级存储备份架构,研究虚拟磁带库应用到海量数据备份环境中对生产系统性能
的提高。本课题的主要工作分为以下几个方面:
1调整生产数据中心和远程灾备中心的存储备份架构,构建三层结构的分级
存储备份架构。
2在三层结构的分级数据存储备份模式下,进行功能测试:包括生产数据中
心虚拟磁带库的本地备份、恢复功能;远程灾备中心物理磁带库的本地备份、恢
复功能;数据从生产数据中心虚拟磁带库到远程灾备中心物理磁带库的远程出库
功能;虚拟磁带库重复数据删除功能。
3在三层结构的分级数据存储备份模式下,通过对虚拟磁带库的各项基本性
能及压力性能进行测试,对比虚拟磁带库的海量数据备份性能与物理磁带库的
量数据备份性能;并通过测试实验,分析整个架构的性能瓶颈。
4.海量业务数据备份策略的规划与调整。
§1.5 本文的组织结构
本论文共分六章,具体内容安排如下:
第一章为绪论,简要介绍了问题的提出、国内外的应用现状、论文的研究内
容以及论文的结构。
第二章介绍了数据备份的相关概念。从基本和高级两方面介绍了数据备份的
方法,备份工具,备份策略,备份时间窗口的概念以及数据灾难备份。
第三章主要为数据备份系统的分析。介绍了数据备份系统的基本要素由备份
主体、备份目的地、备份架构、备份路径、备份引擎和备份策略组成,并结合性
的介绍了上海中远资讯科技有限公司整个数据备份系统各基本要素的情况,最后
例举了该企业其中一个应用环境的数据备份系统实例。
第四章主要为项目方案的提出以及项目的技术实施。根据对上海中远资讯
技有限公司存储备份架构中各环境现状的分析,明确系统的需求,提出备份架构
改造项目的方案,并根据项目方案进行了实施。通过项目的实施,虚拟磁带库
备成功上线,实现了企业生产数据中心与远程灾备中心各备份环境的整合,解决
虚拟磁带库在海量数据备份环境中的应用研究
4
了以往异地磁带运输带来的安全隐患,提高了海量数据备份的性能和可靠性。
第五章主要为备份策略的测试与调整。测试过程分为功能测试、基本性能测
试和压力测试三个阶段。每个阶段都通过对测试过程的观察,给出了测试结果。
并根据实际测试数据,得出了针对该企业有代表性的备份对象的备份策略规划
法。测试过程中发现了影响备份架构性能瓶颈主要因素,通过分析,得出了分析
整个备份架构性能瓶颈的分析模型。依据此分析模型,对该企业备份策略进行
调整和优化,从而提高了备份系统的整体性能,彻底解决了企业海量数据备份
间窗口问题。
第六章总结了本论文的研究成果和内容,提出了一些今后需要改进的地方。
第二章 数据备份的相关概念
5
第二章 数据备份的相关概
数据备份,就是对需要进行保护的数据集合从应用服务器的本地硬盘或后端
磁盘阵列复制到其它存储介质的过程,以应对突如其来的如磁盘损坏,操作失误,
系统故障,等其它各种原因导致的数据不可被访问,而影响到业务生产系统的正
常运行。备份后的数据,可以在源数据遭到损坏后,恢复到原来的生产磁盘上,
从而最大程度的降低损失。
§2.1 数据危险因素
造成数据危险的因素主要有以下几个方面:
1.系统的硬件故障;
2.数据处理和访问软件平台故障;
3.人为的操作失误;
4.网络内非法访问者的恶意破坏;
5.网络供电系统故障;
6.操作系统的设计漏洞等。
对数据的威胁通常比较难于防范,这些数据危险因素不仅能够毁坏数据,也
会毁坏访问数据的系统。因此,要采用适当的方法对核心应用数据进行合理的保
护。
§2.2 数据备份方法
§2.2.1 基本数据备份方
从底层来讲,数据备份方法可以分为流式备份和块式备份。
1.流式备份
流式备份,就是将待备份对象以一个个数据流的形式读出,然后再将其存储
在其它介质上。
磁带采用的数据记录机制就是流式的,没有扇区的概念,即数据连续存储在
介质上。磁带会把待备份对象的每个文件看成一个数据流,在每段数据流之间都
有一个空隙,从而来分隔开每个小文件,以使磁头快速定位。但是磁带这种机械
虚拟磁带库在海量数据备份环境中的应用研究
6
设备,数据定位速度要比磁盘慢的多。
这种方式中备份软件只能识别到一个个数据流,将磁盘阵列上的所有文件,
通过调用文件系统接口备份到其它介质上。待备份对象的文件在原存储块上可以
是不连续存放的,且这些不连续的块的链接关系由文件系统负责管理。当备份软
件调用操作系统提供的接口将文件备份到新的介质上时,可以实现数据的连续存
储。
2.块式备份
块式备份是指,无论待备份块上是否有数据,或是数据属于哪个文件,对
个块上的数据都进行备份。这种备份方式不像流式备份,它直接读取磁盘扇区,
完全复制待备份磁盘的数据内容到新的磁盘,不考虑文件系统层次的逻辑,是一
种最底层的实现方式。块式备份的工作机制,是通过磁盘控制器的驱动接口,直
接对磁盘扇区进行读取,而不经过操作系统的文件系统接口,与流式备份方式比
较,大大提高了备份性能。磁盘就是典型的块设备,数据以块的形式存储在介质
上,并可以直接对某一块数据进行读写操作。块设备可以不连续的记录逻辑上连
续的数据,而其数据链接关系,需由文件系统负责管理。
随着备份技术的发展,出现了虚拟磁带库设备,用后端磁盘阵列来模拟磁带。
这个概念其实现原理就是一个协议转换器,将磁盘逻辑与磁带逻辑相互映射融合,
使用户看到的介质是抽象的物理磁带,而后端却是按照磁盘的记录方式进行数据
读写,这就是所谓的虚拟化技术的应用。
§2.2.2 高级数据备份方
高级的数据备份方法有远程文件复制、远程磁盘(卷)镜像、快照数据保护、
连续数据保护。
1.远程文件复制
远程文件复制,是指把需要备份的数据,通过网络传输到异地灾难备份中
的相应服务器上。
2.远程磁盘镜像
远程磁盘镜像是指将生产数据中心磁盘阵列的待备份数据通过网络传输到
程灾难备份中心的磁盘阵列上,是一种块式远程备份方式,在底层设备上实现,
因此不会占用服务器资源。这种方式对关键业务数据是很好的保护方法,一旦
产数据中心的磁盘物理卷发生故障,可以立即切换到远程镜像卷。它可分为同步
镜像和异步镜像两种。同步镜像是指应用系统数据 IO 写入生产数据中心后端磁盘
第二章 数据备份的相关概念
7
阵列后,需等待数据复制传输到远程灾难备份中心的磁盘阵列成功后,再通知应
用系统镜像成功的消息。异步镜像是指应用系统数据 IO 写入生产数据中心后端磁
盘阵列后,就向应用系统通知成功消息,然后在后台将数据通过网络传输到远程
灾难备份中心。同步镜像方式可以使两地数据实时保持一致,但是对应用系统响
应速度慢,而异步镜像方式不能确保两地数据保持一致,但是对应用系统响应速
度快。
远程磁盘镜像方式,生产数据中心物理卷有 IO 写操作时,远程灾难备份中心
镜像卷也同时会有写 IO 操作。如果想对镜像卷进行备份操作,那么就需要在拆分
镜像时,停止两地卷组的 IO 写操作,将它们的镜像关系分割。拆分镜像后,生产
数据中心物理卷恢复 IO 写操作,并且这些操作会被记录下来,待镜像卷备份结束
后,可以将这些写 IO 操作再同步到远程灾难备份中心的镜像卷上,重新恢复两地
卷组的同步关系。
可见,这种方式实现过程中需要停掉服务器数据写 IO 操作,对应用系统会造
成影响;而且,备份结束后,又需要再进行数据同步,过程较复杂。而快照数据
保护方式解决了这个问题。
3.快照数据保护
快照数据保护是指,速度很快地抓取某一时刻生产数据中心物理卷上的所
文件系统及其存储簇的映射关系链表,就像照相机快门一样快,而且无需停止 IO
读写操作[10]快照数据保护方法有基于文件系统的快照和基于物理卷的快照两种。
4.连续数据保护(CDP:Continuous Data Protect
连续数据保护是一种可以实现持续数据捕捉或跟踪目标数据所发生的任何变
化的数据备份方法,可以保护物理卷或文件在任意时刻的数据状态,并把数据的
每次改变都记录下来,不影响应用系统运行性能,并且能够将数据恢复到此前任
意时刻[11]CDP 有基于流式和基于块式两种实现方式。
§2.3 备份工具
大型数据备份的工具主要有以下几种:
1.应用系统本身的备份工具,如 SQL Server Oracle 自身的备份工具;
2第三厂商企业级的专用备份软件,Veritas NetbackupHP Date Protector
上海中远资讯科技有限公司 IT 系统主要使用的第三厂商企业级的专用备份软
件有:HP Date Protector(简称 DPIBM Tivoli Storage Manager (简称 TSM
Symantec Veritas NetBackup(简称 NBU该企业在备份工具选型上充分分析了各
虚拟磁带库在海量数据备份环境中的应用研究
8
类备份软件与每种操作系统平台的兼容性以及性价比。HP UNIX 操作系统平台采
用的均是 HP DP 实现数据备份; IBM AIX 操作系统平台均采用 IBM TSM 实现数
据备份; Windows NT 操作系统平台均采用 NBU 实现数据备份。本次项目所涉及
数据备份系统及测试实验所使用的均是 HP DP
§2.4 备份策略
备份策略是指确定需要备份的对象、备份时间、备份工具以及备份的方式。
一般需要根据企业实际的应用情况来制定不同的备份策略。目前广泛采用的备份
策略主要有三种:完全备份(Full Backup、增量份(Incremental Backup
量备份(Differential Backup。在实际备份系统应用中,通常是采用以上三种备份
策略的结合[12,13]
备份策略制定的是否合理,将直接影响系统备份时间窗口的长短。备份时间
窗口过长,将会导致生产系统无法正常运行。
§2.5 备份时间窗口
所谓备份时间窗口,就是每天完成数据备份任务所花费的时间。
备份时间窗口由需要备份的数据量大小、备份策略和处理数据的网络架构速
度决定。如果数据量不是很大,企业在生产系统相对空闲的时间内能够完成日常
的数据备份任务,那么备份时间窗口就不成问题。但是随着企业业务范围发展迅
速,业务数据量会迅猛增长,不久生产系统就可能无法在规定的时间内完成备份、
恢复任务,从而影响生产系统的正常运行。而当代很多企业都需要连续 7、每
24 小时的网络访问能力,因此,备份时间窗口问题已经成为海量数据备份所面
临的严峻挑战。
上海中远资讯科技有限公司自 2009 2009 年末数据量增长情况如图 2-1
所示:
摘要:

第一章绪论1第一章绪论§1.1引言随着计算机信息系统的不断发展,用户的核心业务越来越依赖于信息系统的可靠运行,信息系统中的关键业务数据已经成为用户最为重要的资产。因此数据保护保障业务应用系统的连续性运行是企业运营的关键。数据备份是信息系统保护数据的必要手段,规划备份系统成为了整个企业必然面临的重要问题。大型企业在规划备份系统方面正面临着严峻的挑战——数据量的急剧增长,成本高昂,管理困难等。关键性业务的海量数据备份对服务器的性能要求很高,资源占用非常严重,导致备份时间窗口过长[1,2]。面对这些问题,必须改变现有的备份存储架构与备份技术,来应对海量数据备份性能不足这一迫在眉睫的问题。虚拟磁带库(...

展开>> 收起<<
虚拟磁带库在海量数据备份环境中的应用研究.pdf

共71页,预览8页

还剩页未读, 继续阅读

作者:陈辉 分类:高等教育资料 价格:15积分 属性:71 页 大小:1.87MB 格式:PDF 时间:2024-11-19

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 71
客服
关注