第1章多媒体信息处理基础

上传人:今*** 文档编号:106994445 上传时间:2019-10-17 格式:PPT 页数:105 大小:5.21MB
返回 下载 相关 举报
第1章多媒体信息处理基础_第1页
第1页 / 共105页
第1章多媒体信息处理基础_第2页
第2页 / 共105页
第1章多媒体信息处理基础_第3页
第3页 / 共105页
第1章多媒体信息处理基础_第4页
第4页 / 共105页
第1章多媒体信息处理基础_第5页
第5页 / 共105页
点击查看更多>>
资源描述

《第1章多媒体信息处理基础》由会员分享,可在线阅读,更多相关《第1章多媒体信息处理基础(105页珍藏版)》请在金锄头文库上搜索。

1、1.1 多媒体的基本概念 1.2 音频信息处理基础 1.3 图像信息处理基础 1.4 视频信号的数字化 1.5 MATALAB在图像处理中的应用,第1章 多媒体信息处理基础,熟悉多媒体及多媒体技术的基本概念及特征。 了解声音的基本特性及主观感觉。 熟悉音频、图像、视频信号数字化的过程,掌握均匀量化的原理。 掌握彩色三要素、三基色原理及混色方法等色度学基本知识。 理解RGB、YUV、YIQ、YCbCr、HSI/HSV等颜色空间的表示及转换。 熟悉ITU-R BT.601建议的主要内容。 了解MATLAB在图像处理和分析领域的应用。,本章学习目标,1.1.1 媒体的概念 1.1.2 多媒体与多媒体

2、技术,1.1 多媒体的基本概念,1.媒体(medium) 按传统的说法,媒体指的是信息的载体,如: 报纸、杂志、电视、广播、因特网 在计算机领域有两种含义: 信息的存储实体,如磁盘、光盘、磁带、半导体存储器等,中文常译为媒质或媒介; 传递信息的基本元素,如文字、声音、图形、动画和图像等。,1.1.1 媒体的概念,2. 媒体的分类 国际电话电报咨询委员会( CCITT )把媒体分成如下5类。 (1)感知媒体(Perception Medium) 感知媒体就是指能直接作用于人的感觉器官,使人直接产生感觉(视、听、嗅、味、触觉)的一类媒体,如语言、音乐、图形、动画、数据、文字、文件等都是感知媒体。

3、(2)表示媒体(Representation Medium) 表示媒体是为了更有效地加工、处理和传输感知媒体而人为研究和构造出来的一种媒体。它包括上述感知媒体的各种编码,诸如语言编码、静止和活动图像编码,以及文本编码等。,(3)呈现媒体(Presentation Medium) 呈现媒体是感知媒体与用于通信的电信号之间在转换中用于信息输入和输出的媒体。可分为输入呈现媒体(如键盘、摄像机、话筒、扫描仪等)和输出呈现媒体(如显示器、扬声器、打印机等)两种。 (4)存储媒体(Storage Medium) 存储媒体用于存储表示媒体,即存放感知媒体数字化后的代码的媒体称为存储媒体,如磁盘、光盘、磁带、

4、半导体存储器等。 (5)传输媒体(Transmission Medium) 传输媒体是指用来将表示媒体从一处传递到另一处的物理传输介质,如同轴电缆、双绞线、光纤及其他通信信道。,在多媒体技术中所说的媒体一般指感知媒体。常见的感知媒体包括: (1)视觉媒体:图像、图形、符号、视频、动画等。 (2)听觉媒体:声音、语音、音乐和音响。 (3)触觉媒体:通过直接或间接与人体接触,使人能感觉到对象的位置、大小、方向、方位、质地等性质。,图像,图像(Image):是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。 静止的图像可用一个矩阵来表示,矩阵列中的各个元素用来描述构成图像的各个点(称为

5、像素 pixel )的强度与颜色等信息。这种图像也称为位图( Bitmap)。,图像由像素组成,位图(bitmap,bit-mapped image ) 对位图进行操作时,只能对图中的像素进行操作,而不能把位图中的物体作为独立实体进行操作。 画位图或编辑位图的软件称为画图程序;存放位图的格式称为位图格式;存储的内容是描述像素的数值。 位图的获取通常用扫描仪、数码相机和相关的数字化设备。 位图文件占据的存储空间比较大,影响位图文件大小的因素 图像分辨率:分辨率越高,表示组成一幅图的像素就越多,图像文件就越大 像素深度:像素深度越深,表达单个像素的颜色和亮度的位数越多,图像文件就越大,灰度图像(g

6、ray-scale image或intensity image):只有明暗不同的像素而没有彩色像素组成的图像。按灰度级的数目来划分: 单色图像(二值图像):只有黑白两种颜色的图像。 每个像素的像素值用1bit存储,其值是“0”或“1” 灰度图像:如果每个像素的像素值用一个字节表示,灰度值级数就等于256级,每个像素可以是0255之间的任何一个值。,单色图像,灰度图像,彩色图像(color image) 每个像素包含颜色信息的图像。 可按照颜色的数目划分: 256色图像:每个像素的R、G和B值用一个字节来表示,一幅640480的彩色图像需要300 KB的存储空间 真彩色图像:每个像素的R、G、B

7、分量分别用一个字节表示,一幅640480的真彩色图像需要900 KB的存储空间,256色图像,24位真彩色图像,视频,视频(Video):是动态的图像序列,由一系列连续的画面序列(帧)组成 ,这些画面以一定的速率(帧频)连续地投射在屏幕上,使观察者具有图像连续运动的感觉。,图形,图形(Graphic):是一种抽象化的图像,一般指用计算机绘制(draw)的几何图(包含彩色图),如直线、圆、圆弧、矩形、任意曲线和图表等。 在几何学中,图形一般使用矢量表示,因此也称矢量图(Vector Graphics)。矢量图是用一组指令集合来描述图形的内容,这些指令用来描述构成该图形的所有直线、圆、圆弧、矩形、

8、曲线等图元的位置、维数和形状等。 在计算机屏幕上显示矢量图形要有专门的软件,如AutoCAD、Corel Draw、Adobe Illustrator等,这些软件将描述图形的指令转换成在屏幕上显示的形状和颜色,也可产生和操作矢量图形的各成分,并对矢量图形进行移动、缩放、旋转和扭曲等变换。,动画(Animation):是动态图像的一种,与视频不同之处在于,动画中的图像采用的是计算机产生出来或人工绘制的图像或图形,而视频中的图像则是真实的图像。也就是说,动画是活动的画面,实质是一幅幅静态图形的连续播放。,动画,计算机设计动画有两种: 帧动画:是由一幅幅位图组成的连续的画面,就如电影胶片或视频画面一

9、样要分别设计每屏幕显示的画面。 造型动画:是对每一个运动的物体分别进行设计,赋予每个动元一些特征,然后用这些动元构成完整的帧画面。动元的表演和行为是由制作表组成的脚本来控制。,帧动画,文本,文本(Text):分为非格式化文本文件和格式化文本文件。 非格式化文本文件:只有文本信息没有其他任何有关格式信息的文件,又称为纯文本文件。如“.TXT ”文件。 格式化文本文件:带有各种文本排版信息等格式信息的文本文件。如“.DOC ”文件。,音频(Audio)可分为波形声音、语音和音乐。 波形声音 包含了所有的声音形式 自然界中的各种声音,包括人的说话声、音乐、天空的惊雷等,可以用一种模拟的连续波形表示。

10、,音频,语音:不仅是一种波形声音,而且还具有内在的语言、语音学内涵,可以经由特殊的方法而提取。波形声音也可以表现和记录语音,但常把语音作为一种特殊的听觉媒体。,音频,音乐:符号化了的声音。这种符号就是乐谱。音乐与语音相比,形式更为规范。在多媒体计算机中,MIDI就是一种乐谱数字化描述的规范。,1多媒体 关于多媒体(Multimedium)的定义或说法多种多样,从不同的角度出发对多媒体给出了不同的描述,目前仍没有统一的标准。通常所说的多媒体就是各种媒体的综合,也就是声音、图像、动画、视频、文本等各种媒体的综合。“多媒体”常被当作“多媒体技术”的同义词。 2多媒体技术 多媒体技术就是利用计算机技术

11、把文本、图像、图形、动画、音频及视频等多种媒体有机地集成起来,使人们能以更加自然的方式使用信息,并与计算机进行交互,且使表现的信息图、文、声并茂。简言之,多媒体技术就是计算机综合处理声、文、图信息的技术,具有集成性、实时性和交互性。,1.1.2 多媒体与多媒体技术,1.1 多媒体的基本概念 1.2 音频信息处理基础 1.3 图像信息处理基础 1.4 视频信号的数字化 1.5 MATALAB在图像处理中的应用,第1章 多媒体信息处理基础,1.2.1 声音的基本特性 1.2.2 声音的主观感觉 1.2.3 音频信号的数字化,1.2 音频信息处理基础,声音是机械振动或气流振动引起周围传播媒质(气体、

12、液体、固体等)发生波动的现象,通常将产生声音的发声体称为声源。当声源产生振动时,引起邻近空气的振动。这样空气就随着声源体所振动幅度的不同,而产生密或稀的振动,空气的这种振动被称为声波。声波可以用一条连续的曲线来表示,它可以分解成一系列正弦波的线性叠加。,1.2.1 声音的基本特性,1.频率 单位时间内信号振动的次数,单位是赫兹(Hz)。声音的音调由频率决定。 声音尖细表示频率高, 声音低粗表示频率低。,1.2.1 声音的基本特性,声音信号按频率划分:,2.频谱 声音信号按频率成分组成来分,可分为: 纯音:频率单一、振幅随时间按正弦函数规律变化的声音 复音:由不同频率和不同振幅的声波组合而成的声

13、音 基音:复音中频率最低的成分(分音) 谐音:复音中频率与基音成整数倍的分音 声音的频谱结构是用基音、谐音数目、各谐音振幅大小及相位关系来描述的。声音的音色就是由其频谱成分决定的。,1.2.1 声音的基本特性,声压 由声波引起的交变压强称为声压,一般用P表示,单位是帕(Pa)。 声压的大小反映了声音振动的强弱,同时也决定了声波的幅度大小。 声压级 用声压的相对大小(称声压级或声强)来表示声压的强弱。声压级用符号SPL 表示,单位是分贝(dB): 式中,P为声压有效值;Pref为参考声压,一般取 Pa,这个数值是人耳所能听到的1kHz声音的最低声压,低于这一声压,人耳就无法觉察出声波的存在了。,

14、3.声压及声压级,1.2.1 声音的基本特性,人对声音的感知有响度、音调和音色三个主观听感要素。 响度:与声波振动的幅度有关 音调:取决于声波的基音频率 音色:由声波的的频谱成分决定,1.2.2 声音的主观感觉,1.响度:是人耳对声音强弱的主观感觉程度。,在客观的度量中,声音的强弱是由声波的振幅(声压)决定的。但响度与声波的振幅并不完全一致。响度不仅取决于振幅的大小,还取决于频率的高低。 响度用符号N表示,单位是宋(sone)。国际上规定,频率为1kHz的纯音在声压级为40dB时的响度为1宋(sone)。,另外,响度的大小与距声源的距离有关,同一声音离声源越近,响度越大。,1.2.2 声音的主

15、观感觉,2.响度级:人耳对声音强弱的主观感觉还可以用响度级来表示。响度级的单位为方(phon)。规定1kHz纯音声压级的分贝数定义为响度级的数值。,表1-1 声压级与响度、响度级的关系,1.2.2 声音的主观感觉,3.等响度曲线,1.2.2 声音的主观感觉,4.听阈与痛阈,听阈:当声音减弱到人耳刚刚可以听见时,此时的声音强度称为最小可听阈值,简称为“听阈”或“闻阈” 。一般以1kHz纯音为准进行测量,人耳刚能听到的声压级为0dB(通常大于0.3dB即有感受)。 痛阈:当声音增强到使人耳感到疼痛时,这个听觉阈值称为“痛阈”。仍以1kHz纯音为准来进行测量,使人耳感到疼痛时的声压级约达到13014

16、0dB左右。,1.2.2 声音的主观感觉,5.音调,音调也称音高,表示人耳对声音调子高低的主观感受。声音越低沉,音调越低;声音越尖细,音调越高。 音调的高低是由发声体振动的频率决定的,频率越高,音调越高;频率越低,音调越低。 物体的振动频率与发声体的结构有关,一般而言,大而长的物体振动频率低,小而短的物体振动频率高;物体绷得越紧,振动频率越高;物体越薄、越细,振动频率越高。 音调单位是“美(Mel)”。频率为1kHz、声压级为40 dB的纯音所产生的音调就定义为1 Mel。 音调大体上与频率的对数成正比。,1.2.2 声音的主观感觉,5.音色,音调也称音高,表示人耳对声音调子高低的主观感受。声音越低沉,音调越低;声音越尖细,音调越高。 音调的高低是由发声体振动的频率决定的,频率越高,音调越高;频率越低,音调越低。 物体的振动频率与发声体的结构有关,一般而言,大而长的物体振动频率低,小而短的物体振动频率高;物体绷得越紧,振动频率越高;物体越薄、越细,振动频率越高。 音调单位是“美(Mel)”。频率为1kHz、声压级为40 dB的纯音

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号