多媒体技术和通信课件

资源描述

《多媒体技术和通信课件》由会员分享，可在线阅读，更多相关《多媒体技术和通信课件（130页珍藏版）》请在金锄头文库上搜索。

1、第三章第三章音频信息处理技术音频信息处理技术3.1 声学基础知识声学基础知识3.2 数字音频技术数字音频技术 3.3 音频信号压缩编码音频信号压缩编码3.4 音频信息压缩编码标准音频信息压缩编码标准3.5 IP电话技术电话技术多媒体技术和通信3.1 声学基础知识声学基础知识声音是通过空气传播的一种连续的波。声音是通过空气传播的一种连续的波。是由许多频率不同的分量信号组成的复合信号。是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽。复合信号的频率范围称为带宽。带宽为带宽为20Hz20kHz的信号称为音频的信号称为音频（audio）信号。）信号。多媒体技术和通信声压及声压级

2、声压及声压级SPL（Sound Pressure Level）也是常用的声音描述参量。）也是常用的声音描述参量。声压就是声音的压力。以帕斯卡（声压就是声音的压力。以帕斯卡（Pa）为）为单位来度量响度；单位来度量响度；对声压有效值取对数，用此对数值来表示对声压有效值取对数，用此对数值来表示声音的强弱。这种表示声音强弱的对数值声音的强弱。这种表示声音强弱的对数值就叫做声压级就叫做声压级SPL。多媒体技术和通信一、声音和人耳听觉特性一、声音和人耳听觉特性1、声音的性质、声音的性质（1）声音是时基类媒体。）声音是时基类媒体。（2）声音有三个要素，音调、音强和音色。）声音有三个要素，音调、音强和音色。

3、（3）声音具有连续谱特性。）声音具有连续谱特性。（4）声音有方向感。）声音有方向感。（5）音色与失真特性。）音色与失真特性。多媒体技术和通信2、人耳听觉特性、人耳听觉特性（1）人耳对声音强弱的感觉特性）人耳对声音强弱的感觉特性（2）响度、响度级）响度、响度级（3）人耳听觉的掩蔽效应）人耳听觉的掩蔽效应一个声音的存在会影响人们对其他声音的听一个声音的存在会影响人们对其他声音的听觉能力，觉能力，使一个声音在听觉上掩蔽了另一使一个声音在听觉上掩蔽了另一个声音，个声音，即所谓的即所谓的“掩蔽效应掩蔽效应”。多媒体技术和通信（4）声音质量评价）声音质量评价声音类型带宽电话语音200Hz3.4kH

4、z调幅广播50Hz7kHz调频广播20Hz15kHzCD20Hz20kHz声音的质量与声音的带宽有关，一般来声音的质量与声音的带宽有关，一般来说频率范围越宽，声音质量也就越高。说频率范围越宽，声音质量也就越高。多媒体技术和通信可以使用信噪比（可以使用信噪比（SNR）、主观平均判分）、主观平均判分法（法（MOS）。）。在采用等级法在采用等级法MOS(Mean Opinion Score)进行评价时，通常设优，良，中，差，劣进行评价时，通常设优，良，中，差，劣五个等级。五个等级。平均观点分平均观点分(Mean Opinion Score， MOS)是一种主观评价指标。听众根据系统质量是一种主观评价

5、指标。听众根据系统质量的好坏使用的好坏使用N分制给系统打分。分制给系统打分。多媒体技术和通信常见的常见的5分制系统分制系统：平均观点分平均观点分质量等级质量等级主观感觉主观感觉 5 极好极好觉察不到觉察不到 4 好好觉察得到，但不难听觉察得到，但不难听 3 一般一般有点难听有点难听 2 差差难听，但不反感难听，但不反感 1 极差极差难以忍受难以忍受多媒体技术和通信采样点越多，声音记录的保真度就越高，但电采样点越多，声音记录的保真度就越高，但电脑存储的信息量也相应增加。脑存储的信息量也相应增加。多媒体技术和通信（5）声道）声道单声道单声道(Monophonic)意味着单个声

6、源。意味着单个声源。声音的三个属性：声音的三个属性：（1）幅值幅值(Amplitude)（2）相位相位(Phase) （3）时序时序(Timing)多媒体技术和通信3.2 数字音频技术数字音频技术一、数字音频一、数字音频在计算机中声音信号是用一系列的数字表在计算机中声音信号是用一系列的数字表示的，称为数字音频。示的，称为数字音频。分为：分为：波形声音：包含所有的声音形式。波形声音：包含所有的声音形式。语音：也表现为波形声音。语音：也表现为波形声音。音乐：是符号化的声音。音乐：是符号化的声音。多媒体技术和通信二、数字音频技术二、数字音频技术声音进入计算机的第一步就是数字化。声音进入计

7、算机的第一步就是数字化。数字化实际上就是采样和量化。数字化实际上就是采样和量化。影响数字声音波形质量的主要因素有三个：影响数字声音波形质量的主要因素有三个：（1）采样频率）采样频率（2）采样精度）采样精度（3）通道数）通道数多媒体技术和通信1、声音信号数字化、声音信号数字化l 采样（采样（sampling）：将声音信号在时）：将声音信号在时间上离散化，即每隔相等的一段时间抽间上离散化，即每隔相等的一段时间抽取一个信号样本。取一个信号样本。多媒体技术和通信l 量化（量化（quantization）：将连续的信号）：将连续的信号幅度离散化。如果幅度的划分是等间隔幅度离散化。如果幅度的划分是等间隔的

8、，称为线性量化，否则为非线性量化。的，称为线性量化，否则为非线性量化。电压范围电压范围量化量化(dec) 编码编码(bin) 0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001 -0.1 0.1 0 000 -0.3 -0.1 -1 111 -0.5 -0.3 -2 110 -0.7 -0.5 -3 101 -0.9 -0.7 -4 100多媒体技术和通信l 采样频率采样频率奈奎斯特理论指出：采样频率不应低于声音信奈奎斯特理论指出：采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，称为

9、无损数字化。声音还原成原来的声音，称为无损数字化。 fs=2fmax标准的采样频率有标准的采样频率有11.025kHz，22.05kHz， 44.1kHz。多媒体技术和通信l 采样精度采样精度每个声音样本的数字化位数反映了声音波形每个声音样本的数字化位数反映了声音波形幅度的采样精度。幅度的采样精度。一般有一般有8位和位和16位两种双声道（立体声）。位两种双声道（立体声）。声音的数据量声音的数据量=（采样频率（采样频率*每个采样位数每个采样位数*声道数）声道数）/8（B/s）多媒体技术和通信质量质量采样频率采样频率（kHz）样本精度样本精度单道声单道声/立体声立体声数据率数据率（kb/s）频

10、率范围频率范围（kHz）电话电话88单道声单道声642003400AM11.0258单道声单道声88507000FM22.05016立体声立体声705.62015000CD44.116立体声立体声1411.22020000DAT4816立体声立体声15362020000多媒体技术和通信2、音频的数字化与再现、音频的数字化与再现音频处理应考虑以下三点：音频处理应考虑以下三点：（1）人与计算机通信。包括音频获取、语音）人与计算机通信。包括音频获取、语音的识别和理解。的识别和理解。（2）计算机与人通信。包括音乐合成、语音）计算机与人通信。包括音乐合成、语音合成、声音的定位以及音频视频的同步。合成、声

11、音的定位以及音频视频的同步。（3）人）人-计算机计算机-人通信。有语音采集、音频人通信。有语音采集、音频的编码和解码、音频的存储、音频的传输等。的编码和解码、音频的存储、音频的传输等。多媒体技术和通信3、数字音乐国际标准、数字音乐国际标准MIDI和和MP3（1）电子乐器数字接口：）电子乐器数字接口：MIDI（musical instrument digital interface, MIDI）MIDI实质上是由实质上是由MIDI控制器（或控制器（或MIDI文件）产生的指示电子音乐合成器要做什么、文件）产生的指示电子音乐合成器要做什么、怎么做（如演奏某个音符、加大音量、生成怎么做（如演奏某个音

12、符、加大音量、生成音响效果）的一套标准指令。音响效果）的一套标准指令。多媒体技术和通信多媒体技术和通信1988年年MIDI制造商协会正式颁布制造商协会正式颁布MIDI技技术规范，作为数字式音乐的国际标准。术规范，作为数字式音乐的国际标准。规定每种规定每种MIDI装置由一个接收器和一个发装置由一个接收器和一个发送器组成。规定送器组成。规定MIDI键盘为键盘为128键。在键。在MIDI接收器中有接收器中有16个通道，它可以向声音个通道，它可以向声音合成器传送合成器传送16路不同的声音等。路不同的声音等。多媒体技术和通信（2）MP3数码音乐数码音乐MP3的全称是的全称是MPEG-1 Layer3音频

13、文件。音频文件。MPEG音频编码是国际上公认的高保真立体音频编码是国际上公认的高保真立体声音频压缩标准。声音频压缩标准。 MPEG-1声音标准其音频编码分为声音标准其音频编码分为3层：层：Laer-1、Layer-2和和Layer-3。 Layer 3的压缩比为的压缩比为1:101:12，压缩码率，压缩码率可以达到可以达到64kb/s。多媒体技术和通信3.3 音频信号压缩编码音频信号压缩编码音频信息编码技术可分为三类：音频信息编码技术可分为三类： u波形编译码器（波形编译码器（waveform coder）：）：波形编码是基于对语音信号波形的数字化处波形编码是基于对语音信号波形的数字化处理，

14、试图使处理后重建的语音信号波形与原语理，试图使处理后重建的语音信号波形与原语音信号波形保持一致。音信号波形保持一致。例如例如PCM、DPCM、ADPCM等。等。多媒体技术和通信u音源编译码器（音源编译码器（Source coder）：也叫参）：也叫参数编译码器、声码器（数编译码器、声码器（vocoder）。）。它从话音波形信号中提取话音生成模型的参它从话音波形信号中提取话音生成模型的参数，使用这些参数通过话音生成模型重构出数，使用这些参数通过话音生成模型重构出话音。话音。这种编码的特点是语音编码速率较低，基本这种编码的特点是语音编码速率较低，基本上在上在2kbits9.6kbits之间。之间。

15、多媒体技术和通信u混合编译码器（混合编译码器（Hybrid coder）：综合）：综合使用上述两种技术。使用的激励信号波形使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。尽可能接近于原始话音信号的波形。采用混合编码的编码器有：采用混合编码的编码器有：多脉冲激励线性预测编码器（多脉冲激励线性预测编码器（MPE-LPC），），规则脉冲激励线性预测编码器（规则脉冲激励线性预测编码器（RPE-LPC）等。）等。多媒体技术和通信多媒体技术和通信一、脉冲编码调制（一、脉冲编码调制（PCM）Pulse Code Modulation若输入的音频信号是话音信号，使用若输入的音频信号是话音信

16、号，使用8 kHz采样频率进行均匀采样，而后再将每个采样频率进行均匀采样，而后再将每个样本编码为样本编码为8位二进制数字信号，则我们就位二进制数字信号，则我们就可以得到数据率为可以得到数据率为64 kb/s的的PCM信号，这信号，这就是典型的脉冲编码调制。就是典型的脉冲编码调制。多媒体技术和通信多媒体技术和通信PCM的量化方式的量化方式均匀量化与非均匀量化均匀量化与非均匀量化多媒体技术和通信u非均匀量化非均匀量化对小信号采用小的量化间隔，对大信号采用对小信号采用小的量化间隔，对大信号采用大的量化间隔。大的量化间隔。对大信号，由于：对大信号，由于：（1）大信号出现的机会不多）大信号出现的机会不多

17、（2）信噪比（相对误差）与小信号是一致的）信噪比（相对误差）与小信号是一致的所以对总的话音质量影响不大。所以对总的话音质量影响不大。非均匀量化也是一种压缩。非均匀量化也是一种压缩。多媒体技术和通信律压扩与律压扩与A律压扩律压扩律律( -Law)压扩压扩(G.711)主要用在北美主要用在北美和日本等地区的数字电话通信中。和日本等地区的数字电话通信中。x 为输入信号，规格化为为输入信号，规格化为1= x =1 为确定压缩量的参数，它反映最大量化为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取间隔和最小量化间隔之比，取100 = = 500。多媒体技术和通信A律律(A-Law)压扩压扩

18、(G.711)主要用在欧洲主要用在欧洲和中国大陆等地区的数字电话通信中。和中国大陆等地区的数字电话通信中。0 = |x| = 1/A1/A = |x| = 1多媒体技术和通信PCM与时分多路复用（与时分多路复用（TDM）多媒体技术和通信二、差分脉冲编码调制（二、差分脉冲编码调制（DPCM）基本出发点：对相邻样值的差值进行量基本出发点：对相邻样值的差值进行量化编码。化编码。在具体的实现过程中，是对样值与对应在具体的实现过程中，是对样值与对应的预测值的差值进行量化编码的。的预测值的差值进行量化编码的。多媒体技术和通信对一个话音信号的样值序列，当前样值对一个话音信号的样值序列，当前样值的预测值可以由

19、其前面的若干个样值来的预测值可以由其前面的若干个样值来进行预测，若样值序列表示为：进行预测，若样值序列表示为：为当前值，则对当前样值完整的预测为当前值，则对当前样值完整的预测表达式由下式表示：表达式由下式表示：多媒体技术和通信当前值与预测值的差为：当前值与预测值的差为：式中式中, ,ai 为预测系数。如果为预测系数。如果ai是常数，则是常数，则为时不变线性预测；为时不变线性预测；否则若预测系数随输入信号而变化时就是否则若预测系数随输入信号而变化时就是自适应预测。自适应预测。多媒体技术和通信量化器预测器xkekekxkxk-自适应预测逆量化器自适应量化阶ek产生误差编码过程编码过程多媒体技术

20、和通信逆量化器预测器ekekxkxk译码过程译码过程多媒体技术和通信x0121123344x0012112334e011-1011010最简单的最简单的DPCM多媒体技术和通信三、增量调制三、增量调制( M)增量调制增量调制 (delta modulation，DM) 是一是一种预测编码技术，是对实际的采样信号与种预测编码技术，是对实际的采样信号与预测的采样信号（在编码端由前一个输入预测的采样信号（在编码端由前一个输入信号的编码值经解码器解码可得到下一个信号的编码值经解码器解码可得到下一个信号的预测值）之差的极性进行编码，将信号的预测值）之差的极性进行编码，将极性变成极性变成“0”和和“1”这

21、两种可能的取值这两种可能的取值之一。之一。多媒体技术和通信如果实际的采样信号与预测的采样信号之差如果实际的采样信号与预测的采样信号之差的极性为的极性为“正正”，则用，则用“1”表示；相反则表示；相反则用用“0”表示。表示。DM编码系统又称为编码系统又称为“1位系位系统统”。下图纵坐标表示输入的模拟电压，下图纵坐标表示输入的模拟电压，横坐标横坐标表示随时间增加而顺序产生的表示随时间增加而顺序产生的DM码。码。图中图中虚线表示输入的音频模拟信号。虚线表示输入的音频模拟信号。多媒体技术和通信多媒体技术和通信出现的问题：出现的问题：1、斜率过载、斜率过载当输入信号变化比较快时，编码器的输出无当输

22、入信号变化比较快时，编码器的输出无法跟上信号的变化，从而会使重建的模拟信法跟上信号的变化，从而会使重建的模拟信号发生畸变，这就是所谓的号发生畸变，这就是所谓的“斜率过载斜率过载”。多媒体技术和通信2、散粒噪声、散粒噪声当输入信号没有变化时，预测信号和输当输入信号没有变化时，预测信号和输入信号的差会十分接近，这时，编码器入信号的差会十分接近，这时，编码器的输出是的输出是0和和1交替出现的，这种现象就交替出现的，这种现象就叫做增量调制的叫做增量调制的“散粒噪声散粒噪声”。多媒体技术和通信四、自适应增量调制四、自适应增量调制(ADM)在在ADM中，中，常用的规则有两种：常用的规则有两种：一类

23、是控制可变因子一类是控制可变因子M，使量化阶距，使量化阶距在一定范围内变化。对于每一个新的在一定范围内变化。对于每一个新的采样，其量化阶距为其前面数值的采样，其量化阶距为其前面数值的M倍。而倍。而M的值则由输入信号的变化率的值则由输入信号的变化率来决定。来决定。多媒体技术和通信一类使用较多的自适应增量调制称为连一类使用较多的自适应增量调制称为连续可变斜率增量（续可变斜率增量（CVSD）调制。）调制。其工作原理如下：其工作原理如下：如果调制器如果调制器（CVSD）连续输出三个相同的码，）连续输出三个相同的码，则则量化阶距加上一个大的增量，量化阶距加上一个大的增量，也就是说，也就是说，因

24、为三个连续相同的码表示有过载发生。因为三个连续相同的码表示有过载发生。多媒体技术和通信五、自适应脉冲编码调制（五、自适应脉冲编码调制（APCM）多媒体技术和通信六、自适应差分脉冲编码调制六、自适应差分脉冲编码调制（ADPCM）综合了综合了APCM的自适应特性和的自适应特性和DPCM系统系统的差分特性。的差分特性。多媒体技术和通信ADPCM是利用样本之间的高度相关性和量化是利用样本之间的高度相关性和量化台阶自适应来压缩数据的一种波形编码技术。台阶自适应来压缩数据的一种波形编码技术。CCITT为此制定了为此制定了G.721推荐标准（推荐标准（32 kb/s ADPCM）。）。在此基础上制定了在此基

25、础上制定了G.721的扩充推荐标准的扩充推荐标准G.723，使用该标准的编码器的数据率可降，使用该标准的编码器的数据率可降低到低到40 kb/s和和24 kb/s。多媒体技术和通信七、七、子带编码子带编码多媒体技术和通信图中发送端的图中发送端的n个带通滤波器将输入信个带通滤波器将输入信号分为号分为n个子频带，对各个对应的子带个子频带，对各个对应的子带带通信号进行调制，将带通信号进行调制，将n个带通信号经个带通信号经过频谱搬移变为低通信号；过频谱搬移变为低通信号；对低通信号进行采样、量化和编码，得对低通信号进行采样、量化和编码，得到对应各个子带的数字流；再经复接器到对应各个子带的数字流；再经复接

26、器合成为完整的数字流。经过信道传输到合成为完整的数字流。经过信道传输到达接收端。达接收端。多媒体技术和通信在接收端，由分配器将各个子带的数字流在接收端，由分配器将各个子带的数字流分开，由译码器完成各个子带数字流的译分开，由译码器完成各个子带数字流的译码；由解调器完成信号的频移，将个子带码；由解调器完成信号的频移，将个子带搬移到原始频率的位置上。搬移到原始频率的位置上。各子带相加就可以恢复出原来的语声信号。各子带相加就可以恢复出原来的语声信号。多媒体技术和通信将语声信号分为若干个子带后再进行编码的将语声信号分为若干个子带后再进行编码的优点：优点：对不同的子带分配不同的比特数可以很好对不同的子带

27、分配不同的比特数可以很好的控制各个子带的量化电平数，很好的控的控制各个子带的量化电平数，很好的控制在重建信号时的量化误差方差值，进而制在重建信号时的量化误差方差值，进而获得更好的主观听音质量。获得更好的主观听音质量。多媒体技术和通信由于各个子带相互隔开，使各个子带的量由于各个子带相互隔开，使各个子带的量化噪声也相互独立，互不影响，量化噪声化噪声也相互独立，互不影响，量化噪声被束缚在各自的子带内。这样，某些输入被束缚在各自的子带内。这样，某些输入电平比较低的子带信号不会被其它子带的电平比较低的子带信号不会被其它子带的量化噪声所淹没。量化噪声所淹没。子带划分的结果，使各个子带的采样频率子带划分的

28、结果，使各个子带的采样频率大大的降低。大大的降低。多媒体技术和通信八、变换域编码八、变换域编码将输入信号直接转换到频域，然后在频域将输入信号直接转换到频域，然后在频域划分各频段，根据不同的频段能量大小分划分各频段，根据不同的频段能量大小分配码字然后编码，接收方解码后再用相应配码字然后编码，接收方解码后再用相应的反变换转换成时域信号。的反变换转换成时域信号。多媒体技术和通信九、矢量量化九、矢量量化VQ(Vector Quantization)矢量量化矢量量化VQ，是将输入的信号样值按照，是将输入的信号样值按照某种方式进行分组，把每个分组看作是一某种方式进行分组，把每个分组看作是一个矢量，并对该矢

29、量进行量化。个矢量，并对该矢量进行量化。多媒体技术和通信十、线性预测编码（十、线性预测编码（LPC）多媒体技术和通信在线性预测编码在线性预测编码LPC中，将语声信号简单的划中，将语声信号简单的划分为浊音信号和清音信号。根据语声信号的短分为浊音信号和清音信号。根据语声信号的短时分析和基音提取方法，可以用若干的样值对时分析和基音提取方法，可以用若干的样值对应的一帧来表示短时语声信号。应的一帧来表示短时语声信号。这样，逐帧将语声信号用基音周期这样，逐帧将语声信号用基音周期Tp，清，清/浊浊音音(u/v)判决，声道模型参数判决，声道模型参数ai和增益和增益G来表示。来表示。对这些参进数行量化编码，在

30、接收端再进行语对这些参进数行量化编码，在接收端再进行语声的合成。声的合成。多媒体技术和通信3.4 语音压缩编码标准语音压缩编码标准多媒体技术和通信3.4.1 常见音频编码标准常见音频编码标准1、采用波形编码的编码标准有、采用波形编码的编码标准有G.711标准、标准、G.721标准和标准和G.722G.711标准是标准是1972年制定的电话质量的年制定的电话质量的PCM语音压缩标准，采样频率为语音压缩标准，采样频率为8 kHz，每每个样值采用个样值采用8位二进制编码，因此其速率为位二进制编码，因此其速率为64 kb/s。多媒体技术和通信G.721标标准准是是ITU-T于于1984年年制制定定

31、的的，主主要要目目的的是是用用于于64 kb/s的的A律律和和律律PCM与与32 kb/s的的ADPCM之间的转换。之间的转换。它它基基于于ADPCM技技术术，采采样样频频率率为为8 kHz，每每个个样样值值与与预预测测值值的的差差值值用用4位位编编码码，其其编编码码速速率率为为32 kb/s，ADPCM是是一一种种对对中中等等质质量音频信号进行高效编码的有效算法之一。量音频信号进行高效编码的有效算法之一。多媒体技术和通信G.722标标准准旨旨在在提提供供比比G.711或或G.721标标准准压压缩缩技技术术更更高高的的音音质质，G.722编编码码采采用用了了高高低低两两个个子子带带内内的的

32、ADPCM方方案案，即即使使用子带用子带ADPCM(SB-ADPCM)编码方案。编码方案。多媒体技术和通信2、采用混和编码方法的编码标准有、采用混和编码方法的编码标准有 G.728标准、标准、G.729标准和标准和G.723.1标准。标准。 G.728标准是一个追求低比特率的标准，标准是一个追求低比特率的标准，其速率为其速率为16 kb/s，其质量与，其质量与32 kb/s的的 G.721 标准相当。它使用了标准相当。它使用了LD-CELP（低延时码激励线性预测）算法。（低延时码激励线性预测）算法。多媒体技术和通信G.729标准是标准是ITU-T为低码率应用设计而制为低码率应用设计而制定的语音

33、压缩标准，其码率为定的语音压缩标准，其码率为8 kb/s，算算法相对比较复杂，采用码激励线性预测法相对比较复杂，采用码激励线性预测（CELP， Code Excitation Linear Prediction）技术。）技术。ITU-T颁布的语音压缩标准中码率最低的颁布的语音压缩标准中码率最低的G.723.1标准主要是用于各种网络环境中的标准主要是用于各种网络环境中的多媒体通信的。多媒体通信的。多媒体技术和通信3、GSM音频编码标准音频编码标准是欧洲电信管理局下属的一个工作小组是欧洲电信管理局下属的一个工作小组CEPT-CCH-GSM（Group Special Mobile）的缩写。）

34、的缩写。 GSM是欧洲采用的移动电话的压缩标准。是欧洲采用的移动电话的压缩标准。GSM采用的算法为长时预测规则码激励采用的算法为长时预测规则码激励RPE-LTP（Regular-Pulse Excitation/Long Term Prediction），），采样频率为采样频率为8 kHz，运行速率为运行速率为13 kb/s。多媒体技术和通信3.4.2 MPEG音频编码标准音频编码标准MPEG-1声音标准规定其音频信号采样频率声音标准规定其音频信号采样频率可以有可以有32kHz、44.1kHz或或48kHz三种，三种，音频信号的带宽可以选择音频信号的带宽可以选择15kHz和和20kHz。其

35、音频编码分为其音频编码分为3层：层：Laer-1、Layer-2和和Layer-3。多媒体技术和通信1MPEG-1声音标准声音标准MPEG-1音频编码的信号频带是音频编码的信号频带是2020kHz，取样频率使用的是，取样频率使用的是32kHz、44.1kHz和和48kHz，采用的编码算法是，采用的编码算法是感知子带编码。感知子带编码。多媒体技术和通信Layer-1的编码的编码 Layer-1的子带划分采用等带宽划分，分的子带划分采用等带宽划分，分为为32个子带，每个子带有个子带，每个子带有12个样本，心个样本，心理声学模型只使用频域掩蔽特性。理声学模型只使用频域掩蔽特性。多媒体技术和通信La

36、yer-2编码编码Layer-2编码在编码在Layer-1的基础上作了改的基础上作了改进。进。32个子带的划分是不等划分，其划个子带的划分是不等划分，其划分依据是临界频段。每个子带分为分依据是临界频段。每个子带分为3个个12样本组，这样每帧共有样本组，这样每帧共有1152个样本。在个样本。在掩蔽特性方面除保留原有的频域掩蔽外还掩蔽特性方面除保留原有的频域掩蔽外还增加了时域掩蔽。另外在低频、中频和高增加了时域掩蔽。另外在低频、中频和高频段对位分配作了重新安排。频段对位分配作了重新安排。多媒体技术和通信Layer-3编码（编码（MP3）Layer-3仍然使用不等长子带划分。仍然使用不等长子带划分

37、。增加了霍夫曼编码器。滤波器组在原有的增加了霍夫曼编码器。滤波器组在原有的基础上增加了改进离散余弦基础上增加了改进离散余弦MDCT特性，特性，使得使得Layer3的播放器能更好地适应量化的播放器能更好地适应量化噪声噪声。多媒体技术和通信2、MPEG-2 BC声音压缩标准声音压缩标准MPEG-2 BC声音标准是在声音标准是在MPEG-1的基的基础上发展来的，是础上发展来的，是MPEG为多声道声音开为多声道声音开发的低码率编码方案，并与发的低码率编码方案，并与MPEG-1的声的声音标准保持后向兼容。音标准保持后向兼容。多媒体技术和通信3、MPEG-2 AAC编码标准编码标准AAC(Advance

38、d Audio Coding)采用感知编码方法，主要是利用听觉系统采用感知编码方法，主要是利用听觉系统的掩蔽特性来减少声音编码的数据量；并的掩蔽特性来减少声音编码的数据量；并且通过子带编码将量化噪声分散到各个子且通过子带编码将量化噪声分散到各个子带中，用全局的声音信号将噪声掩蔽掉。带中，用全局的声音信号将噪声掩蔽掉。多媒体技术和通信4、MPEG-4音频标准音频标准MPEG-4音频编码标准集成了从话音到高音频编码标准集成了从话音到高质量的多声道声音，从自然声音到合成声质量的多声道声音，从自然声音到合成声音。音。采用的编码方法有多种，包括参数编码、采用的编码方法有多种，包括参数编码、码激励线性预测

39、编码码激励线性预测编码CELP、时间、时间/频率编频率编码、结构化声音码、结构化声音SA编码和文编码和文-语系统语系统TTS的合成声音。的合成声音。多媒体技术和通信3.4.3 多媒体应用的语音编码器的选择多媒体应用的语音编码器的选择1可视电话可视电话/会议和远程教学会议和远程教学对于高速率、高可靠的网络（如对于高速率、高可靠的网络（如ISDN、 ATM和帧中继），选择最佳质量的和帧中继），选择最佳质量的G.722；如果带宽被限制在如果带宽被限制在56128 kb/s，则选择，则选择G.728；当速率降低时，则选择当速率降低时，则选择G.723.1。多媒体技术和通信2. 带有数据共享的商务会议

40、带有数据共享的商务会议使用网络可能是企业使用网络可能是企业Intranet或者或者Internet。根据网络的服务质量和可用带宽，根据网络的服务质量和可用带宽，语音编语音编码的三个最佳选择是码的三个最佳选择是G.722、 G.728和和G.729。多媒体技术和通信3. 单用户游戏单用户游戏倾向于在适用的语音编码器中选择速率最倾向于在适用的语音编码器中选择速率最低的。低的。例如参数编码器的例如参数编码器的LPC。多媒体技术和通信4. 远程站点的多用户游戏远程站点的多用户游戏多用户游戏中，参加者可以相互交谈，有多用户游戏中，参加者可以相互交谈，有些情况下要求能够辨认参加者的声音，可些情况下要求

41、能够辨认参加者的声音，可选择参数编码器。选择参数编码器。由于终端必须进行实时编码和解码，由于终端必须进行实时编码和解码，因此因此要求选择低复杂度的编码器。要求选择低复杂度的编码器。多媒体技术和通信5. 多媒体信息传送多媒体信息传送多媒体信息包括语音以及其他非语音信多媒体信息包括语音以及其他非语音信息，如文本、图形、图像、数据和视频信息，如文本、图形、图像、数据和视频信息。息。一般要求使用的编码必须满足公用标准，一般要求使用的编码必须满足公用标准，可用可用G.729或或G.723.1 等编码器。等编码器。多媒体技术和通信6. 语音注释文档语音注释文档在多媒体文档中，语音或作为注解或作为在

42、多媒体文档中，语音或作为注解或作为完整文档的一部分。完整文档的一部分。考虑存储空间，应当使用低速率编码器。考虑存储空间，应当使用低速率编码器。多媒体技术和通信 3.5 IP 电电话话技技术术发展历史：发展历史：u19951995年年2 2月月，以以色色列列的的VocalTecVocalTec公公司司推推出出了了客客户户端端InternetInternet电电话话软软件件“InternetPhone”“InternetPhone”，率率先先成成功功地地将将IPIP电电话话推推向向市市场场，此此后后，IPIP电电话话在在全全球球范范围得到迅速发展。围得到迅速发展。 uIPIP电电话话（I

43、PPhoneIPPhone）是是利利用用IPIP网网（互互联联网网）进进行行的的一一种种通通信信服服务务。最最初初它它是是在在InternetInternet上上实实现现的的，因因此通常有人称之为此通常有人称之为InternetInternet电话。电话。多媒体技术和通信v最初，最初，IPIP电话的应用研究实验是在两台多媒体计算电话的应用研究实验是在两台多媒体计算机上进行的，通过在计算机上安装相应的软件和硬机上进行的，通过在计算机上安装相应的软件和硬件，由计算机完成对话音的采集、数件，由计算机完成对话音的采集、数/ /模转换、压模转换、压缩缩/ /解压缩等的处理，通话双方在约定的时间同时解压缩

44、等的处理，通话双方在约定的时间同时上网，建立连接后，通过全双工的声卡，打包后通上网，建立连接后，通过全双工的声卡，打包后通过过InternetInternet传送话音，解决了通过传送话音，解决了通过InternetInternet的的PCPC机机之间的实时数据传送问题。之间的实时数据传送问题。多媒体技术和通信v这时也出现了一大批客户端软件开发商和相应的软这时也出现了一大批客户端软件开发商和相应的软件，比较有名的除了件，比较有名的除了Vocal TecVocal Tec开发的开发的Internet Internet PhonePhone以外，还有微软的以外，还有微软的NetMeetingNetM

45、eeting、IDTIDT的的Net2PhoneNet2Phone、NetspeakNetspeak的的Web PhoneWeb Phone和英特尔的和英特尔的Internet Video PhoneInternet Video Phone等。等。vInternetInternet、PCPC机、客户端软件的局限性，更趋向于机、客户端软件的局限性，更趋向于PSTNPSTN普通用户。普通用户。vIPIP网关的出现网关的出现v今天的今天的IPIP电话已经发展到：采用电话已经发展到：采用IPIP电话网关实现电话网关实现PSTNPSTN和和InternetInternet的互通，进而实现电话到电话、的互

46、通，进而实现电话到电话、PCPC机到电话的实时通信。机到电话的实时通信。多媒体技术和通信IP电话指在以电话指在以IP协议的计算机网络协议的计算机网络中进行话音通信的系统，表示为中进行话音通信的系统，表示为VoIP（Voice Over IP）。）。多媒体技术和通信其基本原理：通过语音压缩算法对语音信其基本原理：通过语音压缩算法对语音信号进行压缩编码处理，然后把这些语音数号进行压缩编码处理，然后把这些语音数据按据按TCP/IP标准进行打包，经过网络把数标准进行打包，经过网络把数据包发送到接收地；接收端把这些语音数据包发送到接收地；接收端把这些语音数据包串起来，经过解码解压缩处理后恢复据包串起来，

47、经过解码解压缩处理后恢复成原来的语音信号，从而达到由互联网传成原来的语音信号，从而达到由互联网传送语音的目的。送语音的目的。多媒体技术和通信3.5.1 IP电话的实现方式电话的实现方式电话机到电话机或电话机到电话机或PC； PC到电话机或到电话机或PC；以太电话机到以太电话机或以太电话机到以太电话机或PC等。等。多媒体技术和通信PC到到PC：最早的方式，终端配有：最早的方式，终端配有IP电话软件。电话软件。利用利用IP地址发出呼叫，地址发出呼叫，并采用语音压缩打包传送并采用语音压缩打包传送方式，在方式，在Internet上实现实时话音传送。上实现实时话音传送。电话机到电话机：这是电话机到电话

48、机：这是IP电话最主要的应用方式，电话最主要的应用方式，IP电话市场收入的主要来源。电话市场收入的主要来源。通过程控电话交换机将传统电话机连接到通过程控电话交换机将传统电话机连接到IP电话电话网关上，通过电话号码在网关上，通过电话号码在IP网上呼叫，发送端网网上呼叫，发送端网关鉴别主叫用户，在翻译电话号码关鉴别主叫用户，在翻译电话号码/网关网关IP地址地址后，发出后，发出IP电话呼叫，并与最近的被叫网关连接，电话呼叫，并与最近的被叫网关连接，同时完成话音编码和打包，最后接收端网关实现同时完成话音编码和打包，最后接收端网关实现拆包、解码和连接被叫。拆包、解码和连接被叫。多媒体技术和通信电话到电话

49、到PC或或PC到电话：属于到电话：属于IP电话的附加应用，电话的附加应用，主要是为满足不同用户的需求，吸引更多用户主要是为满足不同用户的需求，吸引更多用户而开展的。它需要客户端软件和网关双方的支而开展的。它需要客户端软件和网关双方的支持。持。由网关负责由网关负责IP地址和电话号码的对应和翻译，地址和电话号码的对应和翻译，并完成话音编解码和打包。并完成话音编解码和打包。多媒体技术和通信以太电话机是一种新型以太电话机是一种新型IP电话终端设备，它通电话终端设备，它通过以太网络接口直接连接至过以太网络接口直接连接至Internet，可通过，可通过IP地址或地址或E.164标准电话号码，直接呼叫普通电

50、标准电话号码，直接呼叫普通电话机或话机或PC。通过通过Web网页连接呼叫中心网页连接呼叫中心实现方式是在实现方式是在Web网页上建立一个与电话中网页上建立一个与电话中心连接的图标，用户只需点击这个图标就可以心连接的图标，用户只需点击这个图标就可以通过通过Internet连接到呼叫中心并实现通话。这连接到呼叫中心并实现通话。这种方式对那些有服务中心、技术支持和产品介种方式对那些有服务中心、技术支持和产品介绍的公司和企业来说非常有用，它加强了用户绍的公司和企业来说非常有用，它加强了用户与企业之间的联系。与企业之间的联系。多媒体技术和通信传真机到传真机传真机到传真机 IP电电话话网网关关通通常常

51、还还带带有有传传真真功功能能，网网关关可可以以辨辨别别呼呼叫叫是是电电话话还还是是传传真真从从而而分分别别处处理理。对对于于IP电电话话的的业业务务商商来来说说，IP传传真真已已成成为为一一项非常重要的收入来源。项非常重要的收入来源。多媒体技术和通信3.5.2 IP电话的系统构成电话的系统构成目前，目前， IP电话系统主要由电话系统主要由IP电话终端电话终端（Terminal）、网关（）、网关（Gateway）和网）和网守（守（Gatekeeper）多点接入控制单元）多点接入控制单元MCU（Multipoint Control Unit）等几）等几部分构成。部分构成。多媒体技术和通信IP电话组

52、成示意图多媒体技术和通信IP电话组成示意图多媒体技术和通信1、IP电话终端电话终端有传统电话机、配备有有传统电话机、配备有IP电话软件（如电话软件（如Netmeeting）的多媒体）的多媒体PC机和以太电话机机和以太电话机等。等。指指IP电话的客户终端，可以是软件（如电话的客户终端，可以是软件（如Microsoft的的Net meeting）或硬件（如电）或硬件（如电话机），它们直接连接在话机），它们直接连接在IP网上进行实时语网上进行实时语音和多媒体通信。音和多媒体通信。多媒体技术和通信2、网关、网关主要功能是信令处理、主要功能是信令处理、H.323协议处理、语协议处理、语音编解

53、码（音视频格式的转换）和路由协议音编解码（音视频格式的转换）和路由协议处理等，对外分别提供与处理等，对外分别提供与PSTN、PBX连接连接的中继接口以及与的中继接口以及与IP网络连接的接口。网络连接的接口。此此外外还还有有专专门门的的软软件件负负责责进进程程管管理理，网网关关与与网关、网关与网守之间的通信。网关、网关与网守之间的通信。多媒体技术和通信应具有下列功能：应具有下列功能： a 具有具有IP网络接口和与网络接口和与PSTN/ISDN/PBX交换机互联的接口；交换机互联的接口； b 完成实时语音压缩，将完成实时语音压缩，将64kbit/s的语音的语音信号压缩成低码率语音信号；信号压缩成

54、低码率语音信号；c 完成寻址和呼叫控制。完成寻址和呼叫控制。多媒体技术和通信3、网守、网守又称网络管理者或关守，负责用户的注册和又称网络管理者或关守，负责用户的注册和管理。管理。a 地址映射：将电话网的地址映射：将电话网的E.165地址映射成地址映射成相应网关的相应网关的IP地址；管理、更新和翻译地址地址；管理、更新和翻译地址表。表。 b 呼叫认证和管理：对接入用户的身份进行呼叫认证和管理：对接入用户的身份进行认证，访止非法用户的接入；设定访问者的认证，访止非法用户的接入；设定访问者的权限，提供允许或拒绝访问等管理。权限，提供允许或拒绝访问等管理。多媒体技术和通信c 呼叫记录：使得运营商有详细

55、的数据呼叫记录：使得运营商有详细的数据进行收费；进行收费； d 区域管理：多个网关可以由一个网守区域管理：多个网关可以由一个网守来进行管理。提供区域内的终端、来进行管理。提供区域内的终端、MCU和网关的注册、更新、管理等功能。和网关的注册、更新、管理等功能。多媒体技术和通信4、多点接入控制单元（、多点接入控制单元（MCU）功能：利用功能：利用IP的网络实现多点通信，使得的网络实现多点通信，使得IP电话能够支持诸如网络会议这样一些多电话能够支持诸如网络会议这样一些多点应用。点应用。MCU即提供了支持三点或多点的功能。即提供了支持三点或多点的功能。MCU包含一个多点控制器，有时也包含一包含一个多点

56、控制器，有时也包含一个多点处理器。个多点处理器。多媒体技术和通信IP电话系统结构示意图电话系统结构示意图多媒体技术和通信一个典型的呼叫过程是：一个典型的呼叫过程是：呼叫由呼叫由PSTN语音交换机发起，通过中继接语音交换机发起，通过中继接口接入到网关；口接入到网关；网关获得用户希望呼叫的被叫号码后，向网关获得用户希望呼叫的被叫号码后，向网守发出查询信息；网守发出查询信息；网守查找被叫网关的网守查找被叫网关的IP地址，并根据网络地址，并根据网络资源情况来判断是否应该建立连接。如果资源情况来判断是否应该建立连接。如果可以建立连接，则将被叫网关的可以建立连接，则将被叫网关的IP地址通地址通知给主叫

57、网关；知给主叫网关；多媒体技术和通信主叫网关在得到被叫网关的主叫网关在得到被叫网关的IP地址后，通过地址后，通过IP网络与对方网关建立起呼叫连接；网络与对方网关建立起呼叫连接；被叫侧网关向被叫侧网关向PSTN网络发起呼叫并由交换机网络发起呼叫并由交换机向被叫用户振铃；向被叫用户振铃；被叫摘机后，被叫侧网关和交换机之间的话音被叫摘机后，被叫侧网关和交换机之间的话音通道被连通；通道被连通；网关之间则开始利用网关之间则开始利用H.245协议进行能力交换，协议进行能力交换，确定通话使用的编解码，在能力交换完成后，确定通话使用的编解码，在能力交换完成后，主被叫方即可开始通话。主被叫方即可开始通话。多媒体

58、技术和通信3.5.3 IP电话与传统电话的比较电话与传统电话的比较首先，传统电话使用公众电话网作为语音首先，传统电话使用公众电话网作为语音传输的媒介，而传输的媒介，而IP电话则是电话则是IP电话运用的电话运用的是分组交换技术（是分组交换技术（IP技术允许多个用户共技术允许多个用户共用同一带宽资源）；用同一带宽资源）；多媒体技术和通信其次，由于技术和市场的推动，将语音转化成其次，由于技术和市场的推动，将语音转化成IP包的技术已变得更为实用，同时，包的技术已变得更为实用，同时，IP电话的电话的核心元件之一数字信号处理器的价格在下降。核心元件之一数字信号处理器的价格在下降。2.5.4 IP电话的相关

59、标准电话的相关标准目前被广泛接受的目前被广泛接受的VoIP控制信令体系包括控制信令体系包括ITUT的的H.323系列和系列和IETF的会话初始化协议的会话初始化协议SIP。多媒体技术和通信vIP电话的国际标准化组织主要有：电话的国际标准化组织主要有： ITUT（国际电联标准化部门）、（国际电联标准化部门）、ETSI（欧洲电信标准协会）、（欧洲电信标准协会）、IETF（Internet工工程任务组）和程任务组）和IMTC（多媒体远程会议集团）。（多媒体远程会议集团）。多媒体技术和通信 H.323协议和协议和SIP协议两大类，二者的主要区别在协议两大类，二者的主要区别在于呼叫建立和控制方面。于呼叫

60、建立和控制方面。目前各组织对目前各组织对IP网络上承载实时业务（话音、视频网络上承载实时业务（话音、视频等）的方式并无不同，均是利用了源自等）的方式并无不同，均是利用了源自IETF的的RTP协议。协议。 SIP比比H.323简单、灵活，但尚处于简单、灵活，但尚处于IETF的标准化的标准化阶段，支持厂家很少。阶段，支持厂家很少。ITUT于于1996年年11月通过月通过了了H.323标准，目的是使得不同厂商的标准，目的是使得不同厂商的IP电话产品电话产品之间有良好的互连性。之间有良好的互连性。H.323标准描述了标准描述了IP电话系电话系统的基本构成和各部分功能。它支持点对点通信及统的基本构成和

61、各部分功能。它支持点对点通信及在在MCU支持下的多点通信协议。支持下的多点通信协议。多媒体技术和通信1 H.323标准标准H.323建议是由建议是由ITU-T提出，基于电信网信提出，基于电信网信令和协议制定的令和协议制定的IP多媒体标准。多媒体标准。H.323协协议议是是ITU多多媒媒体体通通信信协协议议族族H.32x中中的的1个个，它它提提供供了了窄窄带带可可视视电电话话的的技技术术要要求求，包包括括基基于于X.25网网的的语语音音、视视频频、数数据据和和控控制制等等协协议议。H.323协协议议支支持持点点到到点点通通信信和和点点到到多多点通信。它是一个框架协议。点通信。它是一个框架协议。多

62、媒体技术和通信v图像压缩解压协议：图像压缩解压协议：H.261、H.263。v语语音音压压缩缩解解压压协协议议： G.711、 G.722、G.728、G.729、G.723、MPEG1。v数据通信协议：数据通信协议：T.120（资源共享）。（资源共享）。v呼呼叫叫控控制制协协议议：H.225（信信令令、注注册册、媒媒体体同步、分组打包）。同步、分组打包）。v系系统统控控制制协协议议：H.245（打打开开和和关关闭闭呼呼叫叫功功能协商）能协商）。多媒体技术和通信对对IP电话来说，电话来说，它不只用它不只用H.323标准，标准，而而且用了一系列标准，且用了一系列标准，其中有

63、其中有H.225、 H.245、 H.235、 H.450和和H.341等。等。H.323定义了网络传输系统中的四种基本定义了网络传输系统中的四种基本的构成单元：终端（的构成单元：终端（Terminal）、网关）、网关（Gateway）、）、GateKeeper和多点控制单和多点控制单元（元（MCU，Multipoint Control Unit）。）。多媒体技术和通信1）终端）终端终端指终端指IP网络上的客户终端，它提供了网络上的客户终端，它提供了实时的双向传输用以传送声音等。实时的双向传输用以传送声音等。H.323定义了能传送的声音标准定义了能传送的声音标准（G.711、G.723和和G.

64、729等），它们的等），它们的互操作也在终端实现。互操作也在终端实现。多媒体技术和通信所有的所有的H.323终端都必须支持通信控制协议终端都必须支持通信控制协议H.245，同时支持呼叫控制协议，同时支持呼叫控制协议Q.931；和网守进行通信的和网守进行通信的RAS（Registration/Admission/Status）登）登记、接纳和状态协议信号协议模块也包含在内；记、接纳和状态协议信号协议模块也包含在内；最后，终端支持最后，终端支持RTP/RTCP用以进行声音和视用以进行声音和视频的打包传送。频的打包传送。多媒体技术和通信2）网关）网关网关主要提供了网关主要提供了H.323会议终端与其

65、余的会议终端与其余的ITU-T系列终端（如系列终端（如ISDN H.320终端）终端）间的互联接口。间的互联接口。主要包括传输格式的转换（如主要包括传输格式的转换（如H.225.0到到H.221）,通信控制过程的转换（如通信控制过程的转换（如H.245到到H.242）。）。另外还完成音视频格式的转换和呼叫建立。另外还完成音视频格式的转换和呼叫建立。多媒体技术和通信3）网守）网守功能：功能：地址翻译：将一个地址的别名翻译成传输地址。地址翻译：将一个地址的别名翻译成传输地址。访问控制：设定访问者的权限，提供允许或拒访问控制：设定访问者的权限，提供允许或拒绝访问等管理。绝访问等管理。带宽控制：根据

66、网络带宽，带宽控制：根据网络带宽，区域管理：提供区域内的终端、区域管理：提供区域内的终端、MCU和网关的和网关的注册、更新、管理等功能。注册、更新、管理等功能。多媒体技术和通信4）多点控制单元（）多点控制单元（MCU）H.323提供了多点会议的能力。提供了多点会议的能力。H.323具有的特点：具有的特点：编码、解码标准。编码、解码标准。互操作性。互操作性。网络独立性。网络独立性。平台和应用独立性。平台和应用独立性。多点支持。多点支持。多址支持。多址支持。裁减方便。裁减方便。支持网络内和网络间会议。支持网络内和网络间会议。多媒体技术和通信2. SIP（SessionInitiationP

67、rotocol）会话起始协议会话起始协议SIP则是由则是由IETF提出的利用已有的提出的利用已有的IP网络协网络协议提供多媒体业务的协议，是一个与议提供多媒体业务的协议，是一个与H.323并列的协议，是一个应用层的信令控制协议。并列的协议，是一个应用层的信令控制协议。仅用于创建、修改和释放一个或多个参与者仅用于创建、修改和释放一个或多个参与者的会话。的会话。多媒体技术和通信vSIP只是简单的呼叫控制协议，仅提供了呼叫的建只是简单的呼叫控制协议，仅提供了呼叫的建立、控制和拆除等功能。立、控制和拆除等功能。vSIP工作在应用层上，可采用工作在应用层上，可采用TCP或或UDP作为其传作为其传输协

68、议。输协议。v由于由于SIP仅用于初始化呼叫，不涉及数据传输过程，仅用于初始化呼叫，不涉及数据传输过程，因而造成的附加传输代价远远小于因而造成的附加传输代价远远小于H.323。vSIP是是一一种种基基于于文文本本的的协协议议，它它由由SIP规规则则资资源源定定位位语语言言描描述述，可可嵌嵌入入web页页面面或或其其它它超超文文本本链链接接中中，用户只需用鼠标一点就可发出一个呼叫。用户只需用鼠标一点就可发出一个呼叫。多媒体技术和通信SIP协议的功能：协议的功能：(1)用户定位：确定通信中终端的位置；用户定位：确定通信中终端的位置；(2)用户可用性：确定被叫方是否愿意参与通信；用户可用性：确定被

69、叫方是否愿意参与通信；(3)性能协商：确定通信中所用媒体及媒体参数；性能协商：确定通信中所用媒体及媒体参数；(4)会话建立：呼叫双方会话参数的建立；会话建立：呼叫双方会话参数的建立；(5)会话管理：包括会话转移和中止、会话参数会话管理：包括会话转移和中止、会话参数变更、调用新业务等内容。变更、调用新业务等内容。多媒体技术和通信SIP协议是一个客户服务器协议，用于发协议是一个客户服务器协议，用于发起和管理用户间的会话。起和管理用户间的会话。SIP终端系统称为用户代理，即终端系统称为用户代理，即UA（User Agent），含用户代理客户机），含用户代理客户机UAC(User Agent C1ie

70、nt)和用户代理服和用户代理服务器务器UAS(User Agent sever)两部分。两部分。中间单元称为代理服务器。中间单元称为代理服务器。多媒体技术和通信SIP 会话使用的四个主要组件：会话使用的四个主要组件：SIP 用户代理用户代理SIP 注册服务器注册服务器SIP 代理服务器代理服务器SIP 重定向服务器。重定向服务器。这些系统通过传输包括了这些系统通过传输包括了 SDP 协议（用于协议（用于定义消息的内容和特点）的消息来完成定义消息的内容和特点）的消息来完成 SIP 会话。会话。多媒体技术和通信SIP 用户代理用户代理 (UA) 是终端用户设备；是终端用户设备；SIP 注册服务器

71、是包含域中所有用户代注册服务器是包含域中所有用户代理的位置的数据库；理的位置的数据库；SIP 代理服务器接受代理服务器接受 SIP UA 的会话的会话请求并查询请求并查询 SIP 注册服务器，获取收件注册服务器，获取收件方方 UA 的地址信息。；的地址信息。；SIP 重定向服务器允许重定向服务器允许 SIP 代理服务器代理服务器将将 SIP 会话邀请信息定向到外部域。会话邀请信息定向到外部域。多媒体技术和通信多媒体技术和通信1、当一个用户连接到网络，终端设备上的、当一个用户连接到网络，终端设备上的SIP 用户代理向用户代理向SIP注册服务器发送注册服务器发送SIP注册请求；注册请求； 2、当用

72、户试图和其他用户建立呼叫，终端设备上的、当用户试图和其他用户建立呼叫，终端设备上的SIP 用户用户代理向代理向SIP代理服务器发送代理服务器发送SIP Invite请求。请求。SIP 代理服代理服务器利用重定向服务器发现被叫用户所在域的务器利用重定向服务器发现被叫用户所在域的SIP代理服代理服务器。被叫用户域的代理服务器通过位置服务器发现被叫务器。被叫用户域的代理服务器通过位置服务器发现被叫用户当前采用的用户当前采用的IP地址。终端设备之间通过地址。终端设备之间通过SDP（会话描（会话描述协议）的提交述协议）的提交/应答模型协商会话能力，比如视频、共应答模型协商会话能力，比如视频、共享白板等。

73、享白板等。 3、当会话协商结束，终端设备之间的直接连接就建立起来，、当会话协商结束，终端设备之间的直接连接就建立起来，可以传输真实数据可以传输真实数据多媒体技术和通信H.323与与SIP的比较：的比较：首先，它是基于文本的协议，而首先，它是基于文本的协议，而H.323采采用基于用基于ASN.1和压缩编码规则的二进制方和压缩编码规则的二进制方法表示其消息；法表示其消息；其次，其次，SIP会话请求过程和媒体协商过程等会话请求过程和媒体协商过程等是一起进行的；而在是一起进行的；而在 H.323中呼叫建立过中呼叫建立过程和进行媒体程和进行媒体参数等协商的信令控制过程参数等协商的信令控制过程是分开进

74、行的。是分开进行的。多媒体技术和通信再次，再次，H.323为实现补充业务定义了专门为实现补充业务定义了专门的协议，如的协议，如 H.450.1、H.450.2和和H.450.3等；而等；而SIP只要充分利用已定义的只要充分利用已定义的头域。头域。最后，最后，H.323进行集中、层次式控制；而进行集中、层次式控制；而SIP为分布式的呼叫模型服务的，具有分布为分布式的呼叫模型服务的，具有分布式的组播功能。式的组播功能。多媒体技术和通信3MGCP、H.248标准标准MGCP协议是简单网关控制协议（协议是简单网关控制协议（SGCP）和和IP设备控制协议（设备控制协议（IPDC）合并的产物，）合并的产

75、物，其内容也是由其内容也是由IETF的的Megaco工作组制定。工作组制定。H.248协议是协议是2000年由年由ITU-T第第16工作工作组提出的媒体网关控制协议，它是在早期组提出的媒体网关控制协议，它是在早期的的MGCP协议基础上改进而成，支持二进制协议基础上改进而成，支持二进制和文本两种编码格式。和文本两种编码格式。多媒体技术和通信3.5.5 IP电话的关键技术电话的关键技术1、音频压缩技术、音频压缩技术主要的编码技术有主要的编码技术有ITUT 定义的定义的G.729、G.723(G.723.1)等。等。 2. IP电话的传输延时问题电话的传输延时问题ITU-T把把24 ms定为传输延时

76、的上限，。定为传输延时的上限，。实时传输技术主要是采用实时传输协议实时传输技术主要是采用实时传输协议RTP。多媒体技术和通信3 分组语音技术分组语音技术在基于在基于IP的分组网络上传输语音，的分组网络上传输语音，就必须就必须对模拟的语音信号进行特殊的处理，对模拟的语音信号进行特殊的处理，使处使处理后的信号可以适合在面向无连接的分组网理后的信号可以适合在面向无连接的分组网络上传输，络上传输，这项技术称为分组语音技术。这项技术称为分组语音技术。 4、静音检测技术、静音检测技术 5、回声消除技术、回声消除技术多媒体技术和通信6 话音抖动处理技术话音抖动处理技术采用了抖动缓冲技术，即在接收方

77、设采用了抖动缓冲技术，即在接收方设定一个缓冲器，话音包到达时首先进定一个缓冲器，话音包到达时首先进入缓冲器暂存，系统以稳定平滑的速入缓冲器暂存，系统以稳定平滑的速率将话音包从缓冲器中取出、解压、率将话音包从缓冲器中取出、解压、播放给受话者。播放给受话者。多媒体技术和通信7 话音优先技术话音优先技术一般在一般在IP网络路由器中设定话音包的优先网络路由器中设定话音包的优先级为最高；级为最高；另一种技术是采用资源预留协议另一种技术是采用资源预留协议（RSVP）为话音通信预留带宽。）为话音通信预留带宽。多媒体技术和通信习题习题 1、简述音频信号数字化的处理过程。、简述音频信号数字化的处理过程。2、常见的音频编码技术有哪些？请指出、常见的音频编码技术有哪些？请指出采用的何种编码技术和各自的应用场合。采用的何种编码技术和各自的应用场合。3、为多媒体应用选择音频编码标准的基、为多媒体应用选择音频编码标准的基本原则是什么？本原则是什么？多媒体技术和通信习题习题 4、简述、简述IP电话的原理及工作过程。电话的原理及工作过程。5、请比较、请比较H.323和和SIP的特点，并说明各的特点，并说明各自的优势和适用的场合。自的优势和适用的场合。多媒体技术和通信

展开阅读全文

多媒体技术和通信课件

最新文档