基于焦点分块的神经网络图像压缩研究
VIP免费
第一章 综 述
1
第一章 综 述
1.1 课题背景及意义
人类已经步入信息时代,信息时代的重要特征是信息的数字化,而数字化的多媒
体信息的数据量之大是惊人的,多媒体信息主要有三种表现形式,即文本、声音
和图像。其中,图像作为最常见的信息存储方式,其表现形式生动而直观,能提
供比其它形式数据更多的信息。在人类所接受到的全部信息中,大部分是通过视
觉得到的。然而图像是三种信息形式中数据量最大的,若不经过压缩,数字图像
传输所需的高传输速率和数字图像存储所需要的巨大容量会阻碍数字图像的发
展。例如,一幅分辨率为 1280×1024 的彩色图像,每个像素用 24B 存储,则总的
数据量约为 3.75MB。如果地球卫星以 30 帧每秒的速度将所摄取的图像传回地面,
那么 1秒传输数据量约为 112.5MB。在现有的通信能力下,如果不经过压缩,无
法完成大量多媒体信息的实时传输,数字图像高速传输和存贮所需要的巨大容量
已成为推广数字图像通信的最大障碍,因此对图像进行压缩十分必要。进行数据
压缩可以较快地传输各种信源、提高信道的利用率、降低发射功率、节约能源以
及减少存储容量等。
在计算机中,一幅图像可以用两种表达方式:一种是位图,另一种是矢量图。
然而,对于复杂的图像采用矢量法生成是很费时间的,因为每个点的位置都需要
经过计算机后才能显示出来,所以通常可以看到计算机边计算边显示。不过矢量
图有许多优点,如图像的移动、放大以及其他属性的改变是非常方便的。而一幅
位图是由许多点(这些点在计算机中被称作像素)组成。
图像压缩可分为无损压缩和有损压缩两大类,有损压缩的原理是图像中某些
数据被有意地删除了,而被删除的数据再也不能恢复。有损压缩的特点是保持颜
色的逐渐变化,删除图像中颜色的突然变化。其优点是既能减少图像的尺寸,又
能减少图像打开时内存的占用量,缺点是压缩率太高时会影响图像质量。使用了
有损压缩技术的图像在屏幕上显示,可能对图像质量影响不太大,至少对于人类
眼睛的识别程度来说区别不大。如果要把它用高分辨率打印机打印出来,图像质
量就会有明显的受损痕迹。无损压缩的基本原理是相同的颜色信息只需保存一次,
重复的颜色信息就被删除。压缩处理的关键是要确定图像中哪些区域是相同的,
哪些是不同的。从本质上看,无损压缩的方法可以删除一些重复数据,减小在磁
盘上保存的图像尺寸。但是,无损压缩的方法不能减少图像的内存占用量,这是
因为,当从磁盘上读取图像时,软件又会把丢失的像素用适当的颜色信息填充进
来。如果要减少图像占用内存的容量,就必须使用有损压缩方法。无损压缩方法
的优点是能够比较好地保存图像的质量,但是压缩率比较低。如果需要把图像用
高分辨率的打印机打印出来,最好还是使用无损压缩。
图像之所以能够进行压缩有以下几个方面的原因:
一是原始图像数据是高度相关的,存在很大的数据冗余。如图像内相邻像素
之间的空间冗余度、系列图像前后帧之间的时间冗余度、多光谱遥感图像各频谱
间的频率域冗余度等,它们造成了大量的比特数浪费,消除这些冗余就可以节约
码字,大大减少数据量,达到数据压缩的目的。
二是信源符号出现的概率不同,若用相同码长表示不同出现概率的符号,就
会造成符号冗余度。如果采用可变长编码技术,对出现概率高的符号用短码字,
基于角点分块的神经网络图像压缩研究
2
对出现概率低的符号用长码字表示,就可以消除符号冗余度,从而节约码字。
三是人眼具有视觉冗余,允许图像编码有一定的失真。人类视觉系统(HVS) 是
有缺陷的,人眼对于某些失真不敏感难以察觉。在许多场合中,并不要求经压缩
及复原以后的图像和原始图像完全相同,可以允许有少量的失真,只要这些失真
并不被人眼所察觉即可。这就为压缩比的提高提供了十分有利的条件,这种有失
真的编码称为限失真编码。在多数应用中,人眼往往是图像信息的最终接受者,
图像编码方法如果能充分利用人眼的视觉特性,就可以在保证复原图像主观质量
较好的前提下取得较高的压缩比。
四是还可以利用先验知识来实现图像编码,降低知识冗余度。例如,在可视
电话中,编码对象可为人的头和肩等,这时可利用对编码对象的先验知识为编码
对象建立模型,通过提取模型参数,对参数进行编码而不对图像直接进行编码,
可以达到非常高的压缩比。
1.2 课题的提出
人工神经网络在图像压缩中的应用越来越引起人们的注意,因为人工神经网
络与一些传统的压缩方法相比,人工神经网络技术具有良好的容错性,自组织和
自适应性,因此在图像压缩的过程中不必借助于某种先前确定的数据编码算法,
神经网络能根据图像本身的特点,自主的完成图像编码和压缩。目前,在图像压
缩中使用较多的是3层BP网络,如图1-1所示。
图1-1 3 层BP 网络示意图
将图像先分成n个小块,对应于输入的n个神经元,压缩后的数据对应于隐含m
个神经元(m < n)。通过BP训练算法,调整网络权重,使重建图像尽可能相似于原
始图像,经过训练后BP神经网络便可直接用来进行数据压缩。BP神经网络用于数
据压缩类似于图像的KL变换。从图1-1中可以看出,网络输入层与隐含层之间的加
权值相当于一个编码器,从输入端的原始图像数据经过神经网络的处理在隐含层
得到的输出数据就是原始图像的压缩编码。BP神经网络用于图像编码的压缩比 =
输入层节点数n/隐含层节点数m。隐含层节点数目并非越少越好,人工神经网络BP
用于图像数据压缩时,网络拓扑结构变化和算法修正对网络训练时间及重建图像
质量会有影响,仿真表明:选择合适的网络结构和合适的快速网络训练算法,可明
显加速网络收敛,且网络易避开学习误差的局部极小点,可取得高压缩比和好的
重建图像质量。另外,神经网络的大规模并行处理能力,为神经网络图像编码的
实时实现创造了条件。
基于角点分块的神经网络图像压缩的方法是把角点检测算法和人工神经网络
相结合,角点最直观的印象就是在水平、竖直两个方向上变化均较大的点,都较
大,边缘是仅在水平、或者仅在竖直方向有较大的变化量,而平坦地区在水平、
竖直方向的变化量均较小,对于给定一幅图像,我们利用角点检测算法,求出角
点数,然后根据角点数的分布来确定 BP 网络隐含层的个数,这样对每一块采用不
第一章 综 述
3
同隐含层的 BP 网络,同时采用并行的编码,加快压缩过程。
1.3 本文的工作
把角点检测技术与人工神经网络图像压缩技术相结合,设计一种新的结构合
理,压缩比率高,收敛速率快的基于人工神经网络的图像压缩编码。
基于角点分块的神经网络图像压缩研究
4
第二章 图像压缩编码技术
2.1 概述
图像压缩编码技术可以追溯到1948年提出的电视信号数字化,已有50多年的
历史。上个世纪五十年代和六十年代的图像压缩技术由于受到电路技术等的制约,
仅仅停留在预测编码、亚采样和内插复原等技术的研究,对视觉特性也做了一些
重要的工作。1966年,J.B.O Neal对比分析了DPCM和PCM,并提出了对电视的实
验数据进行编码,1969年进行了线性预测编码的实际实验。1969年美国召开第一
届“图像编码会议”,标志着图像编码作为一门独立的学科诞生。上个世纪的七
十年代和八十年代,人们突破了Shannon理论的框架,重视对感知特性的利用,使
图像压缩技术取得了质的突破。这一阶段,图像压缩技术的主要成功集中在编码
技术上。变换编码以其压缩比高以及误差影响小等明显优势成为了图像压缩编码
的核心技术之一。这一时期的代表即静止彩色图像压缩编码国际标准(JPEG标准)
就是以变换编码为基础的。此外,图像压缩技术的发展与矢量量化技术(Vector
Quantization简称VQ) 有十分紧密的联系,矢量量化方法在近十几年发展很快,为
编码技术提供了灵活的应用空间。
二十世纪八十年代,图像编码技术得到了突破性的发展,特别随着小波变换
理论、分形理论、人工神经网络理论等的建立,人们开始突破传统的信源编码理
论,例如不再假设图像是平稳的随机场,图像编码进入了一个崭新的时期。
在继续研究灰度图像压缩技术的同时,越来越关注它们在彩色图像压缩编码
技术中的推广使用,图像数据压缩技术的应用前景也越来越广阔。当前,电子产
品的数字化已是大势所趋,所有的数字产品均涉及到图像压缩技术,其中包括高
清晰数字电视、可视电话、手机等等。
图像压缩编码可分为两类:一类压缩是可逆的,即从压缩后的数据可以完全恢
复原来的图像,信息没有损失,称为无损压缩编码;另一类压缩是不可逆的,即
从压缩后的数据无法完全恢复原来的图像,信息有一定损失,称为有损压缩编码。
常用的无损压缩编码有形程长度编码(RLE) 、算术编码、霍夫曼编码(Huffman
encoding)等,无失真压缩编码由于其压缩率有一定的极限,目前已经不是研究的
热点,现在主要集中在有损压缩编码和综合编码上。有损压缩编码就是压缩后图
像的某些信息会丢失,可有较高的压缩率。其中变换编码就是将图像光强度矩阵(时
域信号)变换到系数空间(频域信号)上进行处理的方法。在空间上具有强相关性的
信号,反映在频域上是某些特定的区域内能量常常被集中在一起,或者是系数矩
阵的分布具有某些规律。我们可以利用这些规律在频域上减少量化比特数,达到
压缩的目的。常用的变换编码有K- L变换编码(均方误差准则下最佳变换编码)和
DCT编码(离散余弦变换编码)。由于DCT编码性能接近K- L 变换编码而运算量小
且可采用快速离散余弦变换FCT 算法,实际中应用更广泛。矢量量化编码也是有
损编码,它利用相邻图像数据间的高度相关性,将输入图像数据序列分组,每一
组m个数据构成一个m维矢量一起进行编码,即一次量化多个点。根据香农率失
真理论,对于无记忆信源,矢量量化编码总是优于标量量化编码。输入图像块按
照一定的方式形成一个输入矢量,编码时用这个输入矢量与码书中的所有码字计
算距离,找到距离最近的码字,即找到最佳匹配图像块输出其索引(地址)作为编
码结果。当前使用的矢量量化编码方案主要是随机矢量量化,包括变换域矢量量
第一章 综 述
5
化、有限状态矢量量化、地址矢量量化、波形增益矢量量化、分类矢量量化及预
测矢量量化等。
图像压缩系统的常用模型如图2-1所示,它包括两个不同的结构块:一个编码器
和一个解码器。图像f(x,y)输入到编码器中,该编码器可以根据输入数据生成一组
符号。在通过信道进行传输后,将经过编码的表达符号送入解码器,经过重构后,
就生成了输出复原图像
( , )f x y
。一般而言,
( , )f x y
不一定完全与原始图像f(x,y)
相同。如果复原图像与原始图像完全相同,系统就是无误差的编码系统,否则,
在复原图像中就会呈现出某种程度的失真。在上图中显示的编码器和解码器都包
含两个彼此相关的函数或子块。编码器由一个消除输入冗余的信源编码器和一个
用于增强信源编码器输出的噪声抗扰性的信道编码器构成。一个解码器包括一个
信道解码器和一个信源解码器。如果信道是无噪声的(趋向于无误差),则信道编码
器和信源编码器可以略去。
图2-1图像压缩系统的一般模型
到目前为止,图像压缩编码技术己发展到第二代编码技术。
第一代编码技术包括建立在shannon的码率失真理论基础上的预测编码、变换
编码、统计编码及Oliver提出的PCM编码理论。虽然这些编码技术在中等压缩率的
情况下,能提供非常好的图像质量,但在码率非常低的情况下,无法提供令人满
意的质量。究其原因是由于这些技术没有利用图像的结构特点,同时也没有考虑
人类视觉系统的特性,因此它们也就只能以像素或块作为编码的对象。
第二代编码技术包括基于分形的编码、基于模型的编码、基于区域分割的编
码,以及基于神经网络的编码等。这类编码技术不再局限于信息论的框架,充分
利用了人类视觉以及图像信源的各种特征,实现从“波形”编码到“模型”编码
的转变,获得了更高的压缩比。其中分形图像编码技术因其极高的压缩比(对特定
图像可达到10000:1) 在众多编码技术中尤为引人注目。
在第一代和第二代编码技术之间,还有一些过渡编码技术,如子带编码和基
于小波变换的编码等。这类方法使用不同类型的一维或二维线性数字滤波器,对
图像整体进行分解,然后根据人类视觉特性对不同频段的数据进行粗细不同的量
化处理,以达到更好的压缩效果,属于“波形”编码,可归入经典编码技术。但
它们又充分利用了人类视觉系统的特性,因此可以被看作是“第一代”编码技术
向“第二代”编码技术的过渡。
基于角点分块的神经网络图像压缩研究
6
2.2 像素编码
像素编码包括行程编码,LZW 编码,熵编码。
行程编码是像素编码中一种最简单的,在某些场合是非常有效的一种无损压
缩编码方法。虽然这种编码方式的应用范围非常有限,但是因为这种方法中所体
现出的编码设计思想非常明确,所以在图像编码方法中都会将其作为一种典型的
方法来介绍。 行程编码的基本原理是通过改变图像的描述方式,来实现图像的压
缩,既将一行中灰度值相同的相邻像素,用一个计数值和该灰度值来代替。如:
[aaaa bbb cc d eeeee fffffff] (2-1)
式(2-1) 没有采用行程编码时,总共是 22*8=176 bits,采用行程编码为:
[4a3b2c1d5e7f] (2-2)
总共是 12*8=96 bits,则其压缩率为:96/176=54.5%,行程编码对于仅包含很
少几个灰度级的图像,特别是二值图象,比较有效。二维行程编码要解决的核心
问题是:将二维排列的像素,采用某种方式转化成一维排列的方式。之后按照一维
行程编码方式进行编码。如图 2-2 所示,是两种典型的二维行程编码的排列方式:
(a)
(b)
图2-2 两种典型的二维行程编码的排列
LZW 编码是由 Lemple 和Ziv 提出并经 Welch 扩充而形成的无损压缩专利技
术。在对文件进行编码时,需要生成特定字符序列的表以及对应的代码。每当表
中没有的字符串出现时,就把它与其代码一道存储起来。这以后当该串再次出现
时,只存储其代码。实际上,字符串表是在压缩过程中动态生成的,而且由于解
压缩算法可以从压缩文件中重构字符串表,因而字符串表也不必存储。
Huffman 编码是 50 年代提出的一种基于统计的无损编码方法,它利用变长的
码来使冗余量达到最小。通过一个二叉树来编码,使常出现的字符用较短的码代
表,不常出现的字符用较长的码代表。静态 Huffman 编码使用一棵依据字符出现
第一章 综 述
7
的概率事先生成好的编码树进行编码。而动态 Huffman 编码需要在编码的过程中
建立编码树。由于 Huffman 编码所得到的平均码字长度可以接近信源的熵,因此
在变长编码中是最佳的编码方法,故也称为熵编码。行程编码要获得好的压缩率
的前提是有很多相邻像素的值是相同的。熵是指数据中承载的信息量,所谓的熵
编码是指在完全不损失信息量前提下最小数据量的编码。为了达到大的压缩率,
提出了一种方法就是将在图像中出现频度大的像素值,给一个比较短的编码,将
出现频度小的像数值,给一个比较长的编码。式(2-1) 如果不进行特殊的编码,
按照图像像素的描述,需要的数据量为:22*8=176 bits 按照熵编码的原理进行编
码为:
[1011011011011111111111111100111001110110101010100000000] (2-3)
式(2-3) 编码的数据量是:7*1+5*2+4*3+3*4+2*5+1*5=56 bit,压缩效率为:
56/176=31.8%。
Huffman 编码方法:
(1)Huffman 编码方法首先求出图像中灰度分布的灰度直方图;
(2)根据该直方图,对其按照分布概率从小到大的顺序进行排列;
(3)每一次从中选择出两个概率为最小的节点相加,形成一个新的节点,构造一
个称为“Huffman 树”的二叉树;
(4)对这个二叉树进行编码,就获得了 Huffman 编码码字。
对一幅图像进行编码时,如果图像的大小大于 256 时,这幅图像的不同的码字
就有可能是很大,例如极限为 256 个不同的码字。这时如果采用全局 Huffman 编
码则压缩效率不高。甚至与原来的等长编码的数据量相同。常用的且有效的方法
是:将图像分割成若干的小块,对每块进行独立的 Huffman 编码。
Huffman 编码方法形成的码字是可辨别的,即一个码字不能成为另一码字的前
缀,Huffman 编码对不同的信源其编码效率不同,适合于对概率分布不均匀的信源
编码。
2.3 预测压缩编码
预测压缩编码算法是图像压缩技术领域的重要分支,其理论基础是现代统计学
和控制论。在信源数据流中,由于相邻像素之间存在相关性,因此前面像素和当
前像素的数据之间存在某种相近性,预测压缩编码就是试图用以前数据的某种函
数形式来替代当前像素,以降低信源的不确定性,减少数码率。一般在图像中局
部的像素是高度相关的,因此可以用先前像素的亮度值来对当前像素的亮度值进
行预计,这就是预测。而所谓内插就是根据先前的和后来的像素的亮度值来推断
当前像素的亮度值情况。如果预测内插是正确的,则不必对一个像素的灰度值都
基于角点分块的神经网络图像压缩研究
8
进行压缩编码,而是把预测值和输入的像素的亮度值的差值经过信道编码后发送
到接收端。设输入的像素的灰度值为
k
X
,则预测值
'
k
X
为:
'
1
N
k i k i
i
X a X
(2-4)
与实际像素值
k
X
之间的差值
k
e
为:
'
1
N
k k k k i k i
i
e X X X a X
,(2-5)
其中
i
a
是预测系数,预测后的差值
k
e
经过信道编码后发送到接收端,在接收
端通过预测值
'
k
X
加差值信号
k
e
来重现原像素。
预测编码可以获得比较高的编码质量,并且实现起来比较简单,因此被广泛
应用于图像压缩编码系统。但是它的压缩率并不高,而且精确的预测有赖于图像
的特性,并且必须作大量的非线性运算,因而一般不单独使用而是与其他方法结
合起来使用。为提高压缩率可采用自适应预测编码,自适应预测编码的预测系数
i
a
不固定,而是随图像的局部特性有所变化。自适应预测可减少预测误差
k
e
,从而
进一步提高压缩数码率。自适应预测编码方法很多,如:
(1)可把图像区域分平坦区、水平轮廓区、非水平直线轮廓区和网格区4类区
域,通过判别输入图像的各区域属于哪类区域来选择不同的预测系数
i
a
,实现自
适应预测。
(2)采用运动函数的方法,即利用一运动函数来判别待预测像素为非运动像素
(平坦区的)还是运动像素(非平坦区的),对这两种像素采用不同的预测系数ai 来
预测,从而实现自适应预测。
(3)基于视差分割的视差补偿预测算法是建立在可变尺寸块匹配算法的基础
上,充分利用视差信息实现对目标图像帧的有效分割,并采用相适应的视差向量
编码方案,与传统算法相比,在相同预测精度下,明显降低了视差信息编码开销。
2.4 变换编码
处理数字图像通常有两类方法:空间域处理法和频率域处理法。前者是直接对
图像像素值进行处理,方法直观、简单;后者则是利用正交变换将图像从空间域
变换到频率域,再对频率分量进行处理,方法更有效、更有实质性。在图像压缩
的各种方法中,同样可分为空间域和频率域两类,变换压缩编码算法属于后者。
它是图像压缩技术领域的一个重要分支,是目前比较有效、应用比较广泛的一类
方法。在频率域的处理中,首先要对图像进行线性正交变换,所谓线性变换是指
变换后的输出量是由输入图像像素的线性组合而成的。设有一个M ×N 大小的输入
摘要:
展开>>
收起<<
第一章综述1第一章综述1.1课题背景及意义人类已经步入信息时代,信息时代的重要特征是信息的数字化,而数字化的多媒体信息的数据量之大是惊人的,多媒体信息主要有三种表现形式,即文本、声音和图像。其中,图像作为最常见的信息存储方式,其表现形式生动而直观,能提供比其它形式数据更多的信息。在人类所接受到的全部信息中,大部分是通过视觉得到的。然而图像是三种信息形式中数据量最大的,若不经过压缩,数字图像传输所需的高传输速率和数字图像存储所需要的巨大容量会阻碍数字图像的发展。例如,一幅分辨率为1280×1024的彩色图像,每个像素用24B存储,则总的数据量约为3.75MB。如果地球卫星以30帧每秒的速度将所摄...
相关推荐
-
新能源项目融资计划VIP免费
2024-12-31 12 -
新能源汽车运营服务公司商业计划书VIP免费
2024-12-31 8 -
上海xxx新能源股份有限公司商业计划书VIP免费
2024-12-31 47 -
绿特新能源商业计划书VIP免费
2024-12-31 10 -
关于新能源充电项目创业计划VIP免费
2024-12-31 13 -
太阳能充电器创业计划书模板VIP免费
2025-01-09 6 -
中国新能源及节能环保材料项目商业计划书VIP免费
2025-01-09 5 -
中国(陕西)xxxx新能源股份有限公司VIP免费
2025-01-09 5 -
阳光新能源公司创业计划书VIP免费
2025-01-09 5 -
新型纯电动安全汽车项目商业计划书VIP免费
2025-01-09 6
作者:陈辉
分类:高等教育资料
价格:15积分
属性:71 页
大小:1.15MB
格式:PDF
时间:2024-11-19

