多媒体技术笔记
1. 引论
媒体的分类
感觉媒体
: 能直接作用于人的感官,使人直接产生感觉的一类媒体(作用于人)。如人类的语言、音乐、自然界的各种声音、图形、图像。表示媒体
: 计算机对信息的表示方法的描述。是为了加工、处理和传输感觉媒体而人为研究、构造出来的一种媒体**(作用于计算机)**。具体体现为:编码表现媒体
: 感觉媒体和用于通信的电信号之间转换用的一类媒体,分为输入表现媒体和输出表现媒体。如打印机、音箱、MIDI键盘,扫描仪、键盘、鼠标。除此之外,还有耳麦、轨迹球、绘图仪等(用于人与计算机交互)存储媒体
: 用于计算机存放表示媒体,以便计算机随时处理、加工和调用信息编码。常用的有光盘、硬盘、磁带、活动硬盘、优盘等传输媒体
: 用于传输表示媒体,将表示媒体从一处传送到另一处的物理载体。如双绞线、同轴电缆、光纤等
多媒体
多媒体
是指信息表示媒体的多样化,包括文本、图形、图像、声音、音乐、动画、视频等,即多媒体主要研究表示媒体。- 性质:
- 多媒体是多种信息载体的表现形式、存储和传输方式的有机集合
- 多媒体系统具有多样性、集成性、实时性和交互性
多媒体系统的体系结构
- 多媒体应用系统 / 多媒体应用软件:利用多媒体工具软件,针对某一主题设计开发的具体多媒体应用系统。
- 多媒体创作系统 / 多媒体应用系统开发软件:集成文本、图形、声音、图像、视频和动画等多种媒体信息的编辑和著作工具,是开发多媒体应用系统的平台或环境,可以用于生成各种多媒体应用系统。
- 媒体制作平台与工具 / 多媒体素材创作软件:利用本层提供的工具及接口可以完成多媒体数据的采集、制作及编辑。
- 多媒体核心系统 / 多媒体系统软件:提供硬件层上的基础服务,拥有一系列的服务软件,包括对多种硬件设备的连接、控制,对用户使用的语言环境的支持和解释。其核心是多媒体操作系统,还包括设备驱动程序
- 多媒体计算机硬件系统:包括多媒体计算机主机系统(MPC)及各种外围设备的接口部件。
- 多媒体外围设备:包括音频、视频等多种媒体的输入/输出设备和装置,通信(网络)传输设备及装置
2. 图形图像技术
图形
- 图形(矢量图)是用一系列计算机指令来表示一幅图,如画点、画线、画曲线、画圆、画矩形等。例如,一条直线可以用Line (1,1 5,5)表示(计算机中描述方式?)
- 优点
- 存储和传输时数据量较小
- 缩放、旋转、移动图形不会失真,能保证质量(可无级缩放)
- 适合管理图形的每一部分
- 编辑方便
- 图块可重用
- 缺点
- 图形重生成花费时间较长
- 不适合描述彩色图像
图像 / 位图
- 将一幅图像在空间上离散化为多个像素,每个像素用若干个二进制位来描述其颜色、亮度和属性
- 位图的获取通常使用扫描仪、数码相机、数码摄像机
- 优点
- 显示速度快
- 表现力强,可适于任何自然图像,细腻、层次多、细节丰富
- 缺点
- 存储和传输时数据量比较大
- 缩放、旋转时算法复杂且容易失真
- 矢量图和位图之间可以进行转换
- 由矢量图转换成位图采用光栅化技术,转换也相对容易
- 由位图转换成矢量图用跟踪技术
采样与量化
在用计算机进行处理时,需要对连续信号离散化。包括空间、时间、幅值上的离散化
其中空间/时间离散称为采样,幅值离散称为量化
离散化后的连续信号还需要进行编码,以便计算机存储、处理和传输
对量化后的数据编码、压缩,生成不同多媒体信息的表示媒体,可以采用多种方案。思考:什么是编码?编码是否等同于压缩?
对于数据编码不一定压缩数据,但压缩数据的结果一定是一种编码,即编码可以分为非压缩编码和压缩编码
压缩可以在编码前进行,也可以在编码后针对编码结果进行压缩得到另一种编码
输入矢量图时是否需要采样、量化和编码?为什么?
矢量图在表示方式上采用数学描述,因此在输入时不需要采样和量化,但在计算机内部有其自身的编码方式
颜色模型
RGB
:R,G,B分别代表红、绿、蓝三色,相加混色模型。用于显示设备。(从黑色开始加)CMYK
:印刷四分色模式,相减混色模型。用于打印设备。(从白色开始减)- **
HSL
**:H(色调)、S(饱和度)、I(光强度)这3个分量来表示一种颜色。用于人眼。 Lab
:颜色-对立空间,带有维度L表示亮度,a和b表示颜色对立维度,所生成的颜色与所使用的设备无关。用途:Lab模式可以用作为在不同颜色模式之间转换时使用的中间颜色模式。Index
:索引色彩模式用8bit描述,最多可以使用256种颜色,采用调色板方式实现。用于减小图片文件的大小,同时基本上不影响视觉效果。(不是真的彩色)Grayscale
:灰度模式用8bit描述,最多使用256级灰度来表现图像,图像中的每个像素有一个0(黑色)到255(白色)之间的亮度值。主要用于医学、图像识别领域。- **
Binary
**:二值图像是每个像素只有两个可能值的数字图像(黑、白)。主要用于数字图像处理研究。
索引色彩模式和灰度模式中,每个像素值都占用一个字节,为什么一种为彩色?一种不为彩色?
索引彩色有调色板,灰度模式没有,且灰度模式的索引8bit就是灰度值本身灰度模式和索引色彩模式归为同一类。
位图图像基本属性
- 分辨率
- 图像分辨率:构成图像的像素总数,以水平和垂直的像素表示。
- 显示分辨率:在某种显示方式下,在屏幕上最大的显示区域中,可显示的像素总数。
- 颜色深度:图像每个像素所占用的存储位数。它决定了彩色图像中最多能使用的颜色数,或者灰度图像中最多能有的灰度级数
- 调色板:
- 一个彩色图像假如只包含24位真彩色空间中的16个离散的点(16色图),则可以建立一个颜色查找表,表中的每一行记录一组RGB值。
- 实际像素的值用来指定该点颜色在查找表中的索引值,这样就可以大大缩小存储量。这个颜色查找表就叫做调色板
- 真彩色、伪彩色与直接色 (不考)
- 真彩色:在组成一幅彩色图像的每个像素值中,有R,G,B三个基色分量,每个基色分量直接决定显示设备的基色强度。
- 伪彩色:把像素值当作彩色查找表(调色板)的表项入口地址,去查找一个显示图像时使用的R,G,B强度值,用查找出的R,G,B强度值产生的彩色。
- 直接色:每个像素值分成R,G,B分量,每个分量作为单独的索引值对它做变换。也就是通过相应的彩色变换表找出基色强度,用变换后得到的R,G,B强度值产生的彩色称为直接色
- 位图图像数据量
- 位图图像数据量计算公式B = (h * w * c ) / 8 (Byte)
- 其中,h:垂直分辨率,w:水平分辨率,c:颜色深度
- 例:一副大小为640X480,256色彩色图像,其数据量为:B =( 640 × 480 × 8 ) / 8 = 307, 200字节
BMP图像文件格式
- BMP图像文件格式:
- 采用位映射存储格式
- 图像颜色深度可选lbit、4bit、8bit及24bit
- 不采用其他任何压缩(?)
- 包含的图像信息较丰富
- 占用磁盘空间过大,不利于网络传输
- 存储数据时,图像的扫描方式是按从左到右、从下到上的顺序
- BMP文件由4个部分组成:
- 位图文件头
- 位图信息头
- 颜色表
- 图像数据阵列字节
- 有哪些不同类型的图形/图像文件?为什么有这些不同的类型?各自有何特点?
3. 音频技术
- 声音、语音、音乐的区别和联系?
- 声音是统称,或专指除语音、音乐之外的其它声音。
- 语音是声音的一种特殊类型,因为人类语音的频率范围小于声音的频率范围,且具有独特的发音特点。
- 音乐也是声音的一种特殊类型,主要是指MIDI音乐。
声音的听觉心理特性
- 音调:声音的高低。由声音的(基)频率决定
- 音强(响度):表示人们所感觉到的声音能量的强弱,主要取决于声波振幅的大小。可听声音的强度范围是0-120dB
- 响度的特性:响度与人耳的可闻程度有关
- 人耳的可听频率范围外,声音的响度再大,人耳也无法察觉
- 人耳的可听频域范围内,当声音弱或强到一定程度,人耳都无法听到
- 等响曲线:人类感受不同频率声音时,其所感知的相同响度对应的声音能量是不同的,由此构成了等响曲线。
- 听阈:人能听到的最低声压级
- 痛阈:当声压级增大到一定强度时,人耳会感到不适或疼痛。
掩蔽效应:
- 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。人的耳朵只对最明显的声音反应敏感,而对于不明显的声音,反应则较不敏感
- 前者称为掩蔽声音,后者称为被掩蔽声音
- 应用此原理,人们发明了mp3等压缩的数字音乐格式,在这些格式的文件里,只突出记录了人耳朵较为敏感的中频段声音,而对于较高和较低的频率的声音则简略记录,从而大大压缩了所需的存储空间
- 频域掩蔽:指一个强纯音会掩蔽在其附近同时发声的弱纯音。
- 时域掩蔽:指在时间上相邻的声音之间也有掩蔽现象。
声音信号数字化
- 声音如何数字化?
- 与模拟图像数字化相似,声音数字化包括采样、量化和编码
- 采样:将声音信号在时间上离散化,即每隔相等的一段时间抽取一个信号样本
- 量化:将连续的信号幅度离散化。
- 如果幅度的划分是等间隔的,称为线性量化/均匀量化。
- 否则为非线性量化/非均匀量化。
- 编码:按一定的格式将离散的数字信号记录下来,并在数据的前、后加上同步、纠错等控制信号
影响数字音频质量的技术参数
- 数字音频的质量取决于:采样频率、采样精度/量化位数和声道数
采样数据量(考试不用计算,考算式)
- 声音采样数据量 (字节) = 采样频率 × 采样精度 / 8 × 声道数 × 采样时间
- 为了减少数据量,采样且量化后的数据常要进行压缩编码(将在第5章介绍)
- eg. 1分钟的双声道声音,采用不同采样频率和精度所需的存储容量例如,采用44.1kHz采样频率和16位采样精度时,数字化后需要的存贮容量为:44.1 × 16 / 8 × 2 × 60 = 10584(字节)
语音
- 以语音的基本特性为基础,主要针对语音的成分进行相应处理,包括语音采样、识别、模拟、合成等技术
- 语音识别和语音合成技术是实现人机语音通信的两项关键技术
MIDI音乐
- 数字音乐是一种音乐语言;数字音乐编码。
- MIDI:电子乐器数字接口
- MIDI音乐是一种数字音乐,MIDI音乐通常被称为电子音乐或合成音乐,它也是声音的一种,但是这种声音与流行的乐器有关,例如,钢琴、提琴、长号、鼓等乐器。
- 优点:
- 生成的文件比较小,一个六分多钟、有16个乐器的文件只有80多KB(为什么?)
- 容易编辑
- 可以作背景音乐
- 缺点:
- 播放效果因软、硬件而异。好的播放效果必须支持波表功能
- 录制较复杂,需要学习一些使用MIDI创作并改编作品的专业知识,还须有专门工具,如键盘合成器
音频文件的格式
- WAV
- MIDI:MIDI文件储存着MIDI资料和命令。
- MP3:利用了知觉音频编码技术,削减了音乐中人耳所听不到的成分,尽可能保持原有的音质。
- MP3PRO:降低压缩比
- ra(RealAudio) & rm(RealMedia):网络流媒体文件格式
- Windows Media
4. 动画视频技术
- 动态图像:由多幅连续的图像构成的序列称为动态图像
- 原理:它利用了人眼的视觉暂留性
动态图像的特点
- 时间连续性:动态图像具有时间连续性
- 数据量大:数据量更大
- 相关性强:动态图像的帧与帧之间具有很强的相关性。据研究,相邻帧之间有10%以下的像素有亮度变化,1%以下的像素有色度变化(注:该性质在动态图像压缩中具有重要作用。为什么?)@“为什么”考试
- 实时性高:动态图像对实时性要求高,必须在规定的时间内完成更换画面播放的过程
动画文件的格式
- GIF
- SWF
- FLI/FLC
视频文件格式
- 微软的AVI
- 苹果公司的MOV
- MPEG
- RealNetwork公司的RM
- ASF、 WMV
5. 多媒体数据压缩技术
5.1 数据压缩的基本原理和方法
多媒体数据压缩的必要性和可能性
- 必要性
- 数字化后的图像、视频和音频等媒体信息的海量性
- 计算机存储资源和网络带宽难以满足需要
- 导致多媒体数据存储和传输的困难
- 结论:多媒体数据需要压缩
- 可能性
- 多媒体数据冗余:统计冗余(空间冗余、时间冗余)、结构冗余、知识冗余、感知冗余(视觉冗余、听觉冗余)
- 信息表达冗余:信息熵冗余
数据冗余
- 统计冗余
- 时间冗余: 一段视频的前后相邻的2帧中会有大量的区域有相同或相近的数据,形成帧间的数据冗余。
- 空间冗余: 在同一个静态图像或画面中,有部分区域数据值一样或相差不大,形成空间冗余。
- 结构冗余:有些图像存在着明显的分布模式
- 知识冗余:许多图像的理解与某些基础知识有相当大的相关性。如人脸的图像有固定的结构。
- 感知冗余
- 视觉冗余
- 听觉冗余
- 信息熵冗余:信息的表达存在冗余。
- 信息熵:一组数据所携带的平均信息量(不确定性的度量)
- 平均信息量乘以数据的个数,就是整个一组数据的信息量
- 存在数据冗余,才可能进行数据压缩
- 某些数据冗余是多媒体数据所特有的
- 针对不同数据冗余,设计不同数据压缩方法
信源符号,码元,码字
- 对于消息集中的信源符号使用符号集中的码元进行编码,得到输出集(码书)中的与信源符号一一对应的码字
- 信源符号,码元,码字(要求信源符号和码字一一对应)
- 英文字母,0和1,ASCII码
- 数字,0和1,ASCII码
- 汉字,0和1,GB2312码
- 压缩目标:用尽量短的码字表达信源符号,且一一对应
- 按照单个英文字母或单个汉字,与按照单词或词组,信源符号的个数不同
- 不同环境下的信源符号、码元、码字,同一符号可能分别为信源符号或码元
感知冗余
- 视觉冗余(是否知道有哪些?)
- 亮度和色度的差别:人眼对亮度的敏感性比色度要强,所以在色度成分上,可以不要保留太多细节,这样可以使色度成分中出现更多的冗余。
- 高亮度区和非高亮度区差别:在高亮度区,人眼的敏感度会下降。灰度值的量化可以更粗糙些,人类视觉系统一般分辨能力约为26灰度等级,而一般图像量化采用28灰度等级。
- 边缘和非边缘区别:人眼对急剧色彩和亮度变化的物体边缘的敏感度比非边缘区域强
听觉冗余(在“音频数据压缩技术”中介绍)
数据压缩方法分类
- 根据解码(解压缩)后数据与原始数据是否完全一致,数据压缩方法分为两类
- 可逆编码(无失真编码,无损编码):解码数据与原始数据(数字而非模拟)严格相同
- 不可逆编码(有失真编码,有损编码): 解码数据与原始数据存在一定的误差,但感知效果一般可以接受。常用的有变换编码和预测编码等。
- 根据数据压缩的原理可以分为
- 统计编码(针对信息熵冗余,即信息表达冗余)
- 预测编码(针对统计冗余,即多媒体信号的相关性)
- 变换编码(针对感知冗余,即多媒体信号的人类感知冗余)
- 其他编码
- 通用无损数据压缩
- 研究中发现,大多数信息表达都存在着一定的冗余度,通过采用一定的模型和编码方法,可以降低这种冗余度。
- eg. Huffman编码,算术编码,词典式编码,LZ78,LZW,ZIP格式。
- (专用)多媒体数据压缩
- 采用成熟的通用数据压缩技术进行压缩
- 根据媒体信息的特性设计新的压缩方法
- eg. RLE编码(游程编码,适合压缩具有面积重复的颜色块的图像),预测编码,变换编码
- 数据压缩方法评价
- 压缩比(压缩效果:要求压缩比高
- 算法复杂性和运算速度(压缩效率):要求算法简单,压缩和解压缩速度快,最好能实时解压
- 失真度(压缩质量):要求恢复效果好
- 三个指标相互制约
5.2 统计编码
统计编码的基本原理
- 数据压缩技术的理论基础是信息论,根据信息论的原理,数据压缩的理论极限是信息熵
- 如果要求编码过程中不丢失信息量(无损编码),即要求保存信息熵,这种信息保持编码叫熵编码(统计编码)
- 信息论认为信源中存在的冗余度来自于信源本身的相关性和信源概率分布的不均匀性
- 熵编码(统计编码)要解决的问题是,如何利用信息熵理论减少数据在存储和传输中的冗余度。也就是要找到去除信源的相关性和概率分布的不均匀性的方法
- 无损压缩编码
- 根据信源符号出现概率的分布特性进行编码
- 概率大的信源符号用短码字表示
- 概率小的信源符号用长码字表示
- 从而去除数据之间的冗余而达到压缩的目的
- 统计编码需要在信源符号和码字之间确定严格的一一对应关系,以便准确无误地再现原来信源,同时使平均码长尽量小
- 如果所有的信源符号出现的概率相同,则说明平均信息量最大,也就不存在信源的冗余
- 游程(RLE)编码
- Huffman编码
- 算术编码
游程(RLE)编码
- 不需要存储每一个像素的颜色值,而仅仅存储一个像素的颜色值,以及具有相同颜色的连续像素数目
- 即,将颜色值相同的相邻像素用一个计数值和那些像素的颜色值来代替
- 例如:aaabccccccddeee,则可用3a1b6c2d3e来代替
- 游程长度:具有相同颜色并且是连续的像素数目
- 对于拥有大面积,相同颜色区域的图像,用RLE压缩方法非常有效
- 无损压缩编码
- RLE压缩编码特点
- 直观,经济
- 压缩比的大小,主要取决于图像本身的特点。如果图像中具有相同颜色的图像块越大,图像块数目越少,获得的压缩比就越高。反之,压缩比就越小
- 适用于计算机生成的图像,但对颜色丰富的自然图像不仅不能压缩图像数据,反而可能使原来的图像数据变得更大。
Huffman编码
- 统计编码,针对信息熵冗余,无损压缩编码
- 1952年为文本文件建立
- 编码方法简单且有效,得到广泛应用,现在已经派生出很多变体。
- 基本原理:
- 使用变长编码,对出现概率大的信源符号赋于短码字,而对于出现概率小的信源符号赋于长码字
- 如果码字长度严格按照所对应符号出现概率大小逆序排列,则编码结果平均码字长度一定小于任何其它排列方式。
- 步骤:
- 将信源符号按概率递减顺序排列;
- 把二个最小概率相加作为新符号的概率, 并按(1)重排;
- 重复 (1)、(2),直到概率为1;
- 在每次合并信源时,将合并的信源分别赋“0”和“1”(例如概率大的赋“0”,概率小的赋“1”);
- 寻找从每一信源符号到概率为1处的路径,记录下路径上的“1”和“0”;
- 写出每一符号的“1”、“0”序列(从树根到信源符号节点)。
- 特点
- Huffman编码是最佳变长码,其优点是编码效率高
- Huffman编码依赖于信源的统计特性
- Huffman编码是否只能得到唯一编码结果?
- 由于“0”和“1”的指定可以是任意的,所以Huffman编码所得到的编码不是唯一的。
- 各次累加时对于信源符号可以任意指定0或1,并非一定要所有大概率信源符号使用相同编码,所有小概率信源符号使用相同编码。因为最终是以查表的方式查找信源符号的码字。
- Huffman编码结果是否需要考虑如何区分不同字符的编码?
- Huffman编码不需要附加同步代码,任何一个字符的编码,都不是另一个字符编码的前缀
- Huffman编码如何解码?特别是对于自适应概率模型解码?
- 查表。因此在解码时需要有编码时采用的Huffman表,才能正确解码、
- 如果信源符号数(例如,汉字?)很大,需要存储的码表(码书)也需很大,从而会影响存储量、编码以及解码速度等各个方面的性能。
- 根据Huffman编码得到的消息编码序列,是否可以从中间开始解码?
- Huffman编码是可变长度码,很难随意查找或调用压缩文件中间的内容
- Huffman编码没有错误保护功能,会出现错误传播
- 总结
- 信源符号的概率统计模型 → Huffman表
- 编码:消息(由信源符号组成) → 根据Huffman表对于消息中的信源符号逐个编码 → 消息编码
- 解码:消息编码 → 根据Huffman表对于消息编码逐个解码 → 信源符号 → 消息
算术编码
- 统计编码,针对信息熵冗余,无损压缩编码。
- 常用于图像数据压缩标准(如JPEG,JBIG)中
- 基本原理:将出现概率较多的“消息”(可以是字符或字符串) (Huffman编码针对信源符号) ,用尽可能少的位或字节来表示。
- 算术编码是一种变长码,主要针对出现概率高的消息序列标识的信息进行压缩。
- 信源符号是表达消息的符号
- 算术编码用到的两个基本的参数是符号的概率和它的编码间隔。
- 信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔。
- 间隔则决定了符号压缩后的输出
- 算术编码区别于Huffman编码的是,它是根据信源符号估计出各个元素的概率,然后进行迭代计算。而不像Huffman编码必须预先得知信源的出现概率。
- 将编码的消息表示成实数0和1之间的一个间隔,消息越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位就越多。
- 步骤
- 两个基本的参数:符号的概率和编码间隔(在0到1之间)。令概率为p1,p2,…pn(其和为1),则编码间隔为[0,p1) 、[p1,p1+p2)…[p1+p2+…pn-1,1)
- 令high为间隔的高端,low为低端,range为间隔的长度,rangelow为编码字符分配的间隔低端,rangehigh为编码字符分配的间隔高端。
- 初始high=1,low=0,range = high-low
- 计算一个字符编码后新的low和high:
low = low + range×rangelow
high = low + range×rangehigh - 特点:
- 算术编码的精度在64位以内,对于运算中的溢出问题,可使用比例缩放方法解决
- 在解码器中需要添加一个专门的终止符,当解码器看到终止符时就停止解码,否则可以无穷尽地解码。
- 算术编码器对整个消息只产生一个码字,这个码字是在间隔[0,1)中的一个实数,解码器在接受到表示这个实数的所有位之前不能进行解码
- 算术编码也是一种对错误很敏感的编码方法
- 算术编码可以是静态的或者自适应的。在静态算术编码中,信源符号的概率是固定的。但事先很难知道精确的信源概率。最有效的方法是在编码过程中估算概率,这就是自适应算术编码,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改,也就是在编码期间估算信源符号概率建模。
- 信源符号概率接近时,建议使用算术编码,这种情况下其效率高于Huffman编码(约5%) 。
5.3 词典编码
- 词典编码:在不知数据统计特性的前提下的通用编码算法
- 用已经出现过的字符串替代重复的部分,输出仅仅是指向早期出现过的字符串的“指针”。eg. LZ77算法
- 创建一个“短语词典”。编码中遇到已在词典中出现的“短语”时,输出词典中的短语的“索引号” 。eg. LZ78算法,改进后为LZW压缩编码。
LZW压缩编码算法
- 查找冗余字符和用较短的符号标记替代冗余字符
- 压缩效率较高(思考:为什么?)
- 无损压缩编码
- LZ77 → LZ78 → LZW
- 特点:
- 处理过程比其他压缩过程复杂,但过程完全可逆
- 对于简单图像和平滑且噪音小的信号源具有较高的压缩比,并且有较高的压缩和解压缩速度。对机器硬件条件要求不高
- 可压缩任何类型和格式的数据。
- 有错误传播(虽然是定长编码,但在解码过程中需要生成词典。如果存在错误,可能导致生成词典出错,甚至无法生成词典)
各种编码方式的比较
预测编码 & 变换编码
- 预测编码:根据离散信号之间存在一定的相关性的特点,利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差值进行编码。
- 针对统计冗余
- 有损压缩编码
- 适合于声音和图像数据的压缩
- 变换编码:对欲编码的原始数据所在的时间或空间域进行某种数学变换,从一种信号空间变换到另一种信号空间,产生一批变换系数,使得通过变换后能够突出原始数据中的重要部分,以便重点处理。然后再对这些系数进行编码处理。
- 数据变换的方式有:傅立叶变换、沃尔什变换、正弦变换、余弦变换、斜变换、哈尔变换、K-L变换等
- 针对感知冗余
- 有损压缩编码
- 常用于音频信号压缩编码和图像/视频信号压缩编码
5.4 音频信号压缩技术
- 音频编译码器的分类
- 波形编译码器:不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。 eg.PCM、DPCM、ADPCM等
- 音源编译码器 / 参数编译码器 / 声码器:它从话音波形信号中提取话音生成模型的参数,使用这些参数通过话音生成模型重构出话音。
- 混合编译码器:综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。eg. CELP, MPEGⅠ中的音频部分是一种混合编码
两类压缩
- 模拟信号转换为数字信号
- 降低采样频率,减少量化位数
- 音频信号编码,PCM、DM、DPCM
- 针对数字信号
- 统计编码,词典编码。无损。通用压缩编码
- 预测编码,变换编码。有损。多媒体数据专用压缩编码
6. 多媒体数据压缩标准
6.1 图像数据压缩标准
JPEG算法特点
- JPEG是一个适用范围很广的静态图像数据压缩标准,既可用于灰度图像又可用于彩色图像(为什么?)
- JPEG算法与色彩空间无关,因此“RGB到YUV变换”和“YUV到RGB变换”不包含在JPEG算法中。JPEG算法处理的彩色图像是单独的彩色分量图像,因此它可以压缩来自不同彩色空间的数据,如RGB, YCbCr和CMYK
- 通常使用YUV模式(为什么?)
- JPEG不仅适于静止图像的压缩,电视图像的帧内图像的压缩编码,也常采用此算法(作为动态图像压缩的一个组成部分)
- JPEG标准还可以大范围地调节图像压缩比及其保真度(如何调节?)
- JPEG中的有损压缩利用了人的视觉系统的特性,使用变换编码+量化和无损压缩编码相结合来去掉视觉的冗余信息和数据本身的冗余信息
JPEG压缩编码算法的主要步骤
- 图像分块
- 分为8x8图像块;相关性强,标准化,计算量的考虑。
- 正向离散余弦变换(FDCT)
- 区分重要信息和次要信息
- 量化
- 减小非“0”系数的幅度以及增加“0”值系数的数目。
- 重要系数和次要系数采用不同的量化步长。分别处理,量化表可以不同,可调节压缩比和压缩质量。
- 不能使用一个值作为所有系数的量化系数,需要体现相对于感知冗余的不同系数的不同重要性。
- Z字形编排
- 增加0值系数的长度
- 使用差**分脉冲编码调制(DPCM)**对直流系数(DC)进行编码
- 直流DC系数特点:相关性预测编码
- 进一步压缩:预测编码,DPCM
- 使用**游程长度编码(RLE)**对交流系数(AC)进行编码
- 交流AC系数特点:0值系数较多
- 进一步压缩:RLE游程编码
- 熵编码
- 组成位数据流
- 各种压缩技术的组合
相关问题
- 为什么不使用整个图像而使用分块图像?
- 局部图像的相关性比整体图像的相关性更强
- 算法标准化
- 计算量的考虑
- 采样精度为P位(二进制),把[0,2P-1]范围的无符号数变换成[-2P-1,2P-1-1]范围的有符号数(为什么?),作为正向离散余弦变换的输入,通过DCT变换,把能量集中在少数几个系数上。
- 使得变换后的系数分布于[-2P-1,2P-1-1]
- 对经过FDCT变换后的系数进行量化(为什么?)
- 目的是减小非“0”系数的幅度以及增加“0”值系数的数目
- 量化是图像质量下降的最主要原因
- 对经过FDCT变换后的系数进行量化(为什么?)
- 目的是减小非“0”系数的幅度以及增加“0”值系数的数目
- 量化是图像质量下降的最主要原因
- 量化后的系数按Z字形编排(为什么?)
- 目的是为了增加连续的“0”系数的个数,就是“0”的游程长度
- 变换编码提到通过正交变换减少相关性,为什么这里还有相关性存在并可以加以利用?
- DCT变换减少的是8×8块内部各像素之间的相关性,但各8×8块之间的相关性依然存在
- DC、AC系数表达的特点?如何进一步压缩?
- 信息表达的冗余
- 熵编码,先转化为中间符号
JPEG图像文件格式 & JPEG2000
- JEPG文件大体上可以分成两个部分:标记码(tag)和压缩数据
- 标记码部分给出了JPEG图像的所有信息,如图像的宽、高、Huffman表、量化表等等
- JPEG2000主要特点
- 高压缩率。在具有和传统JPEG类似质量的前提下,JPEG2000的压缩率比JPEG高30%左右。
- 同时支持有损和无损压缩
- 渐进传输。即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示,以满足用户的需要。从而节约、充分利用有限的带宽。
- 感兴趣区域压缩。即可以指定感兴趣区域,在这些区域,可以在压缩时指定特定的压缩质量,或在恢复时指定特定的解压缩要求。
6.2 动态图像压缩标准MPEG
MPEG-Video压缩技术基本方法
- 如何分别实现图像空间方向压缩和运动图像时间方向压缩?
- 在空间方向上,图像数据压缩采用JPEG压缩算法来去掉冗余信息
- 在时间方向上,图像数据压缩采用运动补偿算法来去掉冗余信息
MPEG定义的三种图
- I图像(帧内图)
- 采用帧内编码方式,即只利用了单帧图像内的空间相关性,而没有利用时间相关性
- 与JPEG压缩算法大致相同
- 压缩后每个像素为1~2bit
- 一个内帧是一个随机访问点
- 可作为其它图像的参考帧
- P图像(预测图)
- 用最近的前一个I图像(或P图像)预测编码得到
- 只采用前向时间预测
- 可以提高压缩比和图像质量
- 可作为其它图像的参考帧
- B图像(插补图,即双向预测图)
- B图像在预测时, 既可使用前一个图像作参照, 也可使用后一个图像做参照或同时使用前后两个图像作为参照图像(双向预测)
- 采用双向时间预测可以大大提高压缩比
- 不可作为其它图像的参考帧
- P图像和B图像采用帧间编码方式,即同时利用了空间和时间上的相关性
7. 多媒体应用系统创作技术
多媒体应用系统设计基本过程
- 多媒体应用系统适用于各个领域,多媒体软件融图、文、声、像于一体,它的创作是一项系统工程,涉及到多种因素。
- 主要涉及到制作人员、制作环境和制作步骤三个方面
- 包含系统目标确定、编写系统脚本、进行脚本分析、脚本制作、脚本测试、系统评价等
多媒体系统创作工具
- 基于多媒体著作工具的多媒体系统创作
- 包括:
- Hypercard
- ToolBook
- Authorware Professional
- IconAuthor
- Action
- Director
- PowerPoint
- Animation Works Interactive
- Storyboard
- 方正奥思多媒体创作工具
- 洪图多媒体编著系统
多媒体程序设计基础
- 在Windows系统中,对多媒体设备进行控制主要有三种方法:
- 使用Microsoft提供的多媒体控制接口MCI,MCI是多媒体设备和多媒体应用软件之间进行设备无关的沟通的桥梁
- 通过调用Windows的应用程序接口API多媒体相关函数实现媒体控制
- 使用对象链接与嵌入OLE为不同软件之间共享数据和资源提供了有效的手段
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.