第二章 声音媒体

上传人:M****1 文档编号:568629803 上传时间:2024-07-25 格式:PPT 页数:82 大小:1.13MB
返回 下载 相关 举报
第二章 声音媒体_第1页
第1页 / 共82页
第二章 声音媒体_第2页
第2页 / 共82页
第二章 声音媒体_第3页
第3页 / 共82页
第二章 声音媒体_第4页
第4页 / 共82页
第二章 声音媒体_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《第二章 声音媒体》由会员分享,可在线阅读,更多相关《第二章 声音媒体(82页珍藏版)》请在金锄头文库上搜索。

1、辽宁工程技术大学辽宁工程技术大学辽宁工程技术大学辽宁工程技术大学多媒体技术及应用第二章声音媒体第二章声音媒体本章要点本章要点本章要点本章要点声音媒体的有关概念声音媒体的有关概念声音媒体的有关概念声音媒体的有关概念声音数字化过程声音数字化过程声音数字化过程声音数字化过程MIDIMIDI与音乐合成与音乐合成与音乐合成与音乐合成声音文件格式声音文件格式声音文件格式声音文件格式音频卡音频卡音频卡音频卡语音输入语音输入语音输入语音输入/ /输出技术输出技术输出技术输出技术7/25/20242多媒体技术目录提纲:提纲:提纲:提纲:2.1 2.1 2.1 2.1 声音及其分类声音及其分类声音及其分类声音及其

2、分类 2.2 2.2 2.2 2.2 音频信号音频信号音频信号音频信号2.3 2.3 2.3 2.3 声音信号数字化声音信号数字化声音信号数字化声音信号数字化2.4 MIDI2.4 MIDI2.4 MIDI2.4 MIDI接口和音乐合成接口和音乐合成接口和音乐合成接口和音乐合成2.5 2.5 2.5 2.5 音频文件格式音频文件格式音频文件格式音频文件格式 7/25/20243多媒体技术第二章声音媒体2.12.1声音及其分类声音及其分类声音及其分类声音及其分类2.1.12.1.12.1.12.1.1声音的概念声音的概念声音的概念声音的概念声音是通过空气传播的一种连续的波,由空气振声音是通过空气

3、传播的一种连续的波,由空气振声音是通过空气传播的一种连续的波,由空气振声音是通过空气传播的一种连续的波,由空气振动引起耳膜的振动,由人耳所感知。动引起耳膜的振动,由人耳所感知。动引起耳膜的振动,由人耳所感知。动引起耳膜的振动,由人耳所感知。声音依靠介质传播:固体、液体声音依靠介质传播:固体、液体声音依靠介质传播:固体、液体声音依靠介质传播:固体、液体声音的传播速度:介质不同,传播速度不同声音的传播速度:介质不同,传播速度不同声音的传播速度:介质不同,传播速度不同声音的传播速度:介质不同,传播速度不同7/25/20244多媒体技术实际的波形声音实际的波形声音实际的波形声音实际的波形声音7/25/

4、20245多媒体技术第二章声音媒体2.1.22.1.2声音的分类声音的分类声音的分类声音的分类声音被分为无规则的噪音和有规则的音频信号;声音被分为无规则的噪音和有规则的音频信号;声音被分为无规则的噪音和有规则的音频信号;声音被分为无规则的噪音和有规则的音频信号;有规则音频信号有规则音频信号有规则音频信号有规则音频信号是一种连续变化、周期性的模拟是一种连续变化、周期性的模拟是一种连续变化、周期性的模拟是一种连续变化、周期性的模拟信号信号信号信号, , , ,可用一条连续的曲线来表示,称为可用一条连续的曲线来表示,称为可用一条连续的曲线来表示,称为可用一条连续的曲线来表示,称为声波声波声波声波。波

5、形文件波形文件波形文件波形文件: : : :包括了所有的声音文件。包括了所有的声音文件。包括了所有的声音文件。包括了所有的声音文件。语音语音语音语音: : : :是波形文件,是一种特殊媒体。是波形文件,是一种特殊媒体。是波形文件,是一种特殊媒体。是波形文件,是一种特殊媒体。音乐音乐音乐音乐: : : :规范的符号化了的声音,这种符号就是乐规范的符号化了的声音,这种符号就是乐规范的符号化了的声音,这种符号就是乐规范的符号化了的声音,这种符号就是乐谱。谱。谱。谱。7/25/20246多媒体技术计算机音频处理涉及的内容包括:计算机音频处理涉及的内容包括:计算机音频处理涉及的内容包括:计算机音频处理涉

6、及的内容包括:音频传播媒体特征,即声波的物理特性音频传播媒体特征,即声波的物理特性音频传播媒体特征,即声波的物理特性音频传播媒体特征,即声波的物理特性音频的记录和产生方式,包括音频的记录和产生方式,包括音频的记录和产生方式,包括音频的记录和产生方式,包括A/DA/D、D/AD/A转换、数转换、数转换、数转换、数据压缩和声音合成据压缩和声音合成据压缩和声音合成据压缩和声音合成音频数据的编辑处理音频数据的编辑处理音频数据的编辑处理音频数据的编辑处理7/25/20247多媒体技术模拟音频信号模拟音频信号模拟音频信号模拟音频信号声音的声音的声音的声音的3 3个重要指标个重要指标个重要指标个重要指标振幅

7、:波的高低幅度,表示声音的强弱(音强)振幅:波的高低幅度,表示声音的强弱(音强)振幅:波的高低幅度,表示声音的强弱(音强)振幅:波的高低幅度,表示声音的强弱(音强)周期:两个相邻波之间的时间长度周期:两个相邻波之间的时间长度周期:两个相邻波之间的时间长度周期:两个相邻波之间的时间长度频率:每秒钟震动的次数,以频率:每秒钟震动的次数,以频率:每秒钟震动的次数,以频率:每秒钟震动的次数,以HzHzHzHz为单位(音调)为单位(音调)为单位(音调)为单位(音调)虽然正弦波代表了振动的大多数自然形式,但纯正弦波很少在现实生活中单独出现,而且,纯正弦波并不动听。大多数声音都很复杂。 7/25/20248

8、多媒体技术第二章声音媒体模拟声波信号曲线为一系列正弦波的线性叠加模拟声波信号曲线为一系列正弦波的线性叠加模拟声波信号曲线为一系列正弦波的线性叠加模拟声波信号曲线为一系列正弦波的线性叠加声音三要素:音调、音色和音强声音三要素:音调、音色和音强声音三要素:音调、音色和音强声音三要素:音调、音色和音强音调音调音调音调 :声音的高低叫做音调:声音的高低叫做音调:声音的高低叫做音调:声音的高低叫做音调(pitch)(pitch)(pitch)(pitch)。音调与。音调与。音调与。音调与声音的频率有关。声音的频率有关。声音的频率有关。声音的频率有关。音色音色音色音色 :与波形相关,取决于声波的频谱,即由

9、:与波形相关,取决于声波的频谱,即由:与波形相关,取决于声波的频谱,即由:与波形相关,取决于声波的频谱,即由混入基音的泛音所决定的。混入基音的泛音所决定的。混入基音的泛音所决定的。混入基音的泛音所决定的。音强音强音强音强 :即声音的响亮程度,与声音信号的幅度:即声音的响亮程度,与声音信号的幅度:即声音的响亮程度,与声音信号的幅度:即声音的响亮程度,与声音信号的幅度成正比。用声音信号幅度取对数后再乘成正比。用声音信号幅度取对数后再乘成正比。用声音信号幅度取对数后再乘成正比。用声音信号幅度取对数后再乘20202020所得值所得值所得值所得值来描述声强,以分贝(来描述声强,以分贝(来描述声强,以分贝

10、(来描述声强,以分贝(dBdBdBdB)为单位,此时称为音)为单位,此时称为音)为单位,此时称为音)为单位,此时称为音量。量。量。量。7/25/20249多媒体技术声音的基本特点:声音的基本特点:声音的基本特点:声音的基本特点:1 1 1 1声音的连续时基性:声音是一种随时间变化的连续声音的连续时基性:声音是一种随时间变化的连续声音的连续时基性:声音是一种随时间变化的连续声音的连续时基性:声音是一种随时间变化的连续媒体,构成声音的数据前后之间有强烈的相关性。此媒体,构成声音的数据前后之间有强烈的相关性。此媒体,构成声音的数据前后之间有强烈的相关性。此媒体,构成声音的数据前后之间有强烈的相关性。

11、此外,声音还具有实时性。外,声音还具有实时性。外,声音还具有实时性。外,声音还具有实时性。2 2 2 2声音的三要素声音的三要素声音的三要素声音的三要素3 3 3 3声音的频谱:周期信号和非周期信号声音的频谱:周期信号和非周期信号声音的频谱:周期信号和非周期信号声音的频谱:周期信号和非周期信号4 4 4 4声音有方向感声音有方向感声音有方向感声音有方向感7/25/202410多媒体技术提纲:提纲:提纲:提纲:2.1 2.1 2.1 2.1 声音及其分类声音及其分类声音及其分类声音及其分类 2.2 2.2 2.2 2.2 音频信号音频信号音频信号音频信号2.3 2.3 2.3 2.3 声音信号数

12、字化声音信号数字化声音信号数字化声音信号数字化2.4 MIDI2.4 MIDI2.4 MIDI2.4 MIDI接口和音乐合成接口和音乐合成接口和音乐合成接口和音乐合成2.5 2.5 2.5 2.5 音频文件格式音频文件格式音频文件格式音频文件格式 7/25/202411多媒体技术第二章声音媒体2.22.2音频信号音频信号音频信号音频信号2.2.12.2.1音频音频音频音频音频是指人类听觉所感知范围内的频率,也称声频音频是指人类听觉所感知范围内的频率,也称声频音频是指人类听觉所感知范围内的频率,也称声频音频是指人类听觉所感知范围内的频率,也称声频7/25/202412多媒体技术第二章声音媒体2.

13、2.22.2.2声音质量的度量声音质量的度量声音质量的度量声音质量的度量客观质量度量:即音频信号的技术指标客观质量度量:即音频信号的技术指标客观质量度量:即音频信号的技术指标客观质量度量:即音频信号的技术指标主观质量度量:依靠人的感觉机理主观质量度量:依靠人的感觉机理主观质量度量:依靠人的感觉机理主观质量度量:依靠人的感觉机理7/25/202413多媒体技术第二章声音媒体1 1客观评价指标客观评价指标客观评价指标客观评价指标(1 1 1 1)频带宽度)频带宽度)频带宽度)频带宽度声音信号是由许多频率不同的分量信号组成的复合声音信号是由许多频率不同的分量信号组成的复合声音信号是由许多频率不同的分

14、量信号组成的复合声音信号是由许多频率不同的分量信号组成的复合信号。信号。信号。信号。复合信号的频率范围称为频带宽度。是衡量声音质复合信号的频率范围称为频带宽度。是衡量声音质复合信号的频率范围称为频带宽度。是衡量声音质复合信号的频率范围称为频带宽度。是衡量声音质量的标准量的标准量的标准量的标准频带越宽,包含的音频信号越丰富,通常将音质定频带越宽,包含的音频信号越丰富,通常将音质定频带越宽,包含的音频信号越丰富,通常将音质定频带越宽,包含的音频信号越丰富,通常将音质定义为义为义为义为4 4 4 4个等级标准个等级标准个等级标准个等级标准 7/25/202414多媒体技术第二章声音媒体(2 2)动态

15、范围)动态范围)动态范围)动态范围声音的动态范围:音频信号的最大强度与最小强度声音的动态范围:音频信号的最大强度与最小强度声音的动态范围:音频信号的最大强度与最小强度声音的动态范围:音频信号的最大强度与最小强度之比。之比。之比。之比。动态范围越大,说明音频信号的相对变化范围大,动态范围越大,说明音频信号的相对变化范围大,动态范围越大,说明音频信号的相对变化范围大,动态范围越大,说明音频信号的相对变化范围大,则音响效果越好。则音响效果越好。则音响效果越好。则音响效果越好。 音音质质效果效果AMAM广广播播FMFM广广播播数字数字电电话话CDCDDADA动态动态范范围围(dBdB)40406060

16、50501001007/25/202415多媒体技术第二章声音媒体(3 3)信噪比)信噪比)信噪比)信噪比信噪比是有用信号与噪声之比的简称信噪比是有用信号与噪声之比的简称信噪比是有用信号与噪声之比的简称信噪比是有用信号与噪声之比的简称噪音可分为环境噪音和设备噪音噪音可分为环境噪音和设备噪音噪音可分为环境噪音和设备噪音噪音可分为环境噪音和设备噪音通常信噪比分为系统输入信号的信噪比通常信噪比分为系统输入信号的信噪比通常信噪比分为系统输入信号的信噪比通常信噪比分为系统输入信号的信噪比SNRSNRSNRSNR(inininin)和)和)和)和系统输出信号的信噪比系统输出信号的信噪比系统输出信号的信噪比

17、系统输出信号的信噪比SNRSNRSNRSNR(outoutoutout)。)。)。)。信噪比越大,声音质量越好。信噪比的表达式如下:信噪比越大,声音质量越好。信噪比的表达式如下:信噪比越大,声音质量越好。信噪比的表达式如下:信噪比越大,声音质量越好。信噪比的表达式如下: 有用信号的平均功率有用信号的平均功率噪声的平均功率噪声的平均功率SNR=SNR=7/25/202416多媒体技术第二章声音媒体 2 2主观度量法主观度量法主观度量法主观度量法分数分数质质量量级别级别失真失真级别级别5 5优优(Excellent)(Excellent)无察无察觉觉4 4良良(Good)(Good)( (刚刚)

18、)察察觉觉但不但不讨厌讨厌3 3中中(Fair)(Fair)( (察察觉觉) )有点有点讨厌讨厌2 2差差(Poor)(Poor)讨厌讨厌但不反感但不反感1 1劣劣(Bad)(Bad)极极讨厌讨厌( (令人反感令人反感) )人的感觉机理对声音的度量具有决定意义人的感觉机理对声音的度量具有决定意义人的感觉机理对声音的度量具有决定意义人的感觉机理对声音的度量具有决定意义7/25/202417多媒体技术目录提纲:提纲:提纲:提纲:2.1 2.1 2.1 2.1 声音及其分类声音及其分类声音及其分类声音及其分类 2.2 2.2 2.2 2.2 音频信号音频信号音频信号音频信号2.3 2.3 2.3 2

19、.3 声音信号数字化声音信号数字化声音信号数字化声音信号数字化2.4 MIDI2.4 MIDI2.4 MIDI2.4 MIDI接口和音乐合成接口和音乐合成接口和音乐合成接口和音乐合成2.5 2.5 2.5 2.5 音频文件格式音频文件格式音频文件格式音频文件格式 7/25/202418多媒体技术第二章声音媒体2.32.3声音信号数字化声音信号数字化声音信号数字化声音信号数字化 2.3.12.3.1声音信号数字化过程声音信号数字化过程声音信号数字化过程声音信号数字化过程数字化过程数字化过程数字化过程数字化过程采样采样 声音声音模拟量模拟量量化量化编码编码 声音声音数字化数字化7/25/20241

20、9多媒体技术第二章声音媒体采样量化过程采样量化过程采样量化过程采样量化过程采样(采样(sampling):时间上进行离散化处理,即每隔相等):时间上进行离散化处理,即每隔相等的一段时间在声音信号波形曲线上采集一个信号样本。的一段时间在声音信号波形曲线上采集一个信号样本。采样定理:(采样定理:(Shannon)在一定条件下,用离散的序列可以在一定条件下,用离散的序列可以完全代表一个连续函数。完全代表一个连续函数。7/25/202420多媒体技术量化量化量化量化 (quantization)(quantization)(quantization)(quantization):对采样后的声音信号幅值

21、:对采样后的声音信号幅值:对采样后的声音信号幅值:对采样后的声音信号幅值进行离散化处理。如果幅度的划分是等间隔的,就进行离散化处理。如果幅度的划分是等间隔的,就进行离散化处理。如果幅度的划分是等间隔的,就进行离散化处理。如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。称为线性量化,否则就称为非线性量化。称为线性量化,否则就称为非线性量化。称为线性量化,否则就称为非线性量化。量化过程:先将采样后的信号按整个声波的幅度量化过程:先将采样后的信号按整个声波的幅度量化过程:先将采样后的信号按整个声波的幅度量化过程:先将采样后的信号按整个声波的幅度划分成有限个区段的集合。把落入某个区段的

22、样值划分成有限个区段的集合。把落入某个区段的样值划分成有限个区段的集合。把落入某个区段的样值划分成有限个区段的集合。把落入某个区段的样值归为一类,并赋予相同的量化值。归为一类,并赋予相同的量化值。归为一类,并赋予相同的量化值。归为一类,并赋予相同的量化值。7/25/202421多媒体技术以下图所示的原始模拟波形为例进行采样和量化。以下图所示的原始模拟波形为例进行采样和量化。以下图所示的原始模拟波形为例进行采样和量化。以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为假设采样频率为假设采样频率为假设采样频率为1000100010001000次次次次/ / / /秒,即每秒,即每秒,即每秒

23、,即每1/10001/10001/10001/1000秒秒秒秒A/DA/DA/DA/D转转转转换器采样一次,其幅度被划分成换器采样一次,其幅度被划分成换器采样一次,其幅度被划分成换器采样一次,其幅度被划分成0 0 0 0到到到到9 9 9 9共共共共10101010个量化个量化个量化个量化等级,并将其采样的幅度值取最接近等级,并将其采样的幅度值取最接近等级,并将其采样的幅度值取最接近等级,并将其采样的幅度值取最接近0 90 90 90 9之间的之间的之间的之间的一个数来表示,如下图所示。图中每个正方形表一个数来表示,如下图所示。图中每个正方形表一个数来表示,如下图所示。图中每个正方形表一个数来

24、表示,如下图所示。图中每个正方形表示一次采样。示一次采样。示一次采样。示一次采样。 7/25/202422多媒体技术失真问题失真问题失真问题失真问题从上图得到的数值中重构原来信号时,得到下图中蓝从上图得到的数值中重构原来信号时,得到下图中蓝从上图得到的数值中重构原来信号时,得到下图中蓝从上图得到的数值中重构原来信号时,得到下图中蓝色色色色( ( ( (直线段直线段直线段直线段) ) ) )线段所示的波形。从图中可以看出,蓝色线段所示的波形。从图中可以看出,蓝色线段所示的波形。从图中可以看出,蓝色线段所示的波形。从图中可以看出,蓝色线与原波形线与原波形线与原波形线与原波形( ( ( (红色线红色

25、线红色线红色线) ) ) )相比,其波形的细节部分丢失了相比,其波形的细节部分丢失了相比,其波形的细节部分丢失了相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。很多。这意味着重构后的信号波形有较大的失真。很多。这意味着重构后的信号波形有较大的失真。很多。这意味着重构后的信号波形有较大的失真。 7/25/202423多媒体技术 失真在采样过程中是不可避免的,如何减少失真呢?失真在采样过程中是不可避免的,如何减少失真呢?失真在采样过程中是不可避免的,如何减少失真呢?失真在采样过程中是不可避免的,如何减少失真呢? 采样率和量化等级均提高采样率和量化等级均提高采样率和量化等级均

26、提高采样率和量化等级均提高了一倍,分别为了一倍,分别为了一倍,分别为了一倍,分别为2000200020002000次次次次/ / / /秒和秒和秒和秒和20202020个量化等级。在下个量化等级。在下个量化等级。在下个量化等级。在下图中,采样率和量化等级图中,采样率和量化等级图中,采样率和量化等级图中,采样率和量化等级再提高了一倍,分别达到再提高了一倍,分别达到再提高了一倍,分别达到再提高了一倍,分别达到4000400040004000次次次次/ / / /秒和秒和秒和秒和40404040个量化等个量化等个量化等个量化等级。从图中可以看出,当级。从图中可以看出,当级。从图中可以看出,当级。从图

27、中可以看出,当用用用用D/AD/AD/AD/A转换器重构原来信转换器重构原来信转换器重构原来信转换器重构原来信号时(图中的轮廓线),号时(图中的轮廓线),号时(图中的轮廓线),号时(图中的轮廓线),信号的失真明显减少,信信号的失真明显减少,信信号的失真明显减少,信信号的失真明显减少,信号质量得到了提高。号质量得到了提高。号质量得到了提高。号质量得到了提高。7/25/202424多媒体技术编码:就是按照一定的格式把经过采样和量化得编码:就是按照一定的格式把经过采样和量化得编码:就是按照一定的格式把经过采样和量化得编码:就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入

28、一到的离散数据记录下来,并在有用的数据中加入一到的离散数据记录下来,并在有用的数据中加入一到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。些用于纠错、同步和控制的数据。些用于纠错、同步和控制的数据。些用于纠错、同步和控制的数据。常用的编码方式是常用的编码方式是常用的编码方式是常用的编码方式是PCMPCM脉冲调制。脉冲编码脉冲调制。脉冲编码脉冲调制。脉冲编码脉冲调制。脉冲编码调制(调制(调制(调制(PCMPCM)是把模拟信号变换为数字信号的一种)是把模拟信号变换为数字信号的一种)是把模拟信号变换为数字信号的一种)是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模

29、拟信号变换为在时域调制方式,即把连续输入的模拟信号变换为在时域调制方式,即把连续输入的模拟信号变换为在时域调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传和振幅上都离散的量,然后将其转化为代码形式传和振幅上都离散的量,然后将其转化为代码形式传和振幅上都离散的量,然后将其转化为代码形式传输或存储。输或存储。输或存储。输或存储。7/25/202425多媒体技术第二章声音媒体2.3.22.3.2数字化声音的技术指标数字化声音的技术指标数字化声音的技术指标数字化声音的技术指标1 1采样频率采样频率采样频率采样频率 单位时间内的采样次数。单位时间内的采样次数。单位

30、时间内的采样次数。单位时间内的采样次数。奈奎斯特(奈奎斯特(奈奎斯特(奈奎斯特(HarryHarryNyquistNyquist)采样理论:只要采样)采样理论:只要采样)采样理论:只要采样)采样理论:只要采样频率频率频率频率f(1/Tf(1/T) ) ) )高于输入信号最高频率的高于输入信号最高频率的高于输入信号最高频率的高于输入信号最高频率的两倍两倍两倍两倍,则经过,则经过,则经过,则经过采样后的采样信号能够包含原模拟信号的全部信息,采样后的采样信号能够包含原模拟信号的全部信息,采样后的采样信号能够包含原模拟信号的全部信息,采样后的采样信号能够包含原模拟信号的全部信息,且经过反变换和低通滤波

31、后可不失真地恢复原模拟且经过反变换和低通滤波后可不失真地恢复原模拟且经过反变换和低通滤波后可不失真地恢复原模拟且经过反变换和低通滤波后可不失真地恢复原模拟信号。信号。信号。信号。声音质量的好坏主要取决于数字化过程中的采样频声音质量的好坏主要取决于数字化过程中的采样频声音质量的好坏主要取决于数字化过程中的采样频声音质量的好坏主要取决于数字化过程中的采样频率、量化精度、声道数等几个参数率、量化精度、声道数等几个参数率、量化精度、声道数等几个参数率、量化精度、声道数等几个参数7/25/202426多媒体技术第二章声音媒体2 2量化精度量化精度量化精度量化精度是指对模拟音频信号的幅度进行数字化二进制表

32、示是指对模拟音频信号的幅度进行数字化二进制表示是指对模拟音频信号的幅度进行数字化二进制表示是指对模拟音频信号的幅度进行数字化二进制表示的位数,它决定了模拟信号数字化以后的动态范围。的位数,它决定了模拟信号数字化以后的动态范围。的位数,它决定了模拟信号数字化以后的动态范围。的位数,它决定了模拟信号数字化以后的动态范围。一般的量化精度为一般的量化精度为一般的量化精度为一般的量化精度为8 8 8 8位或位或位或位或16161616位。位。位。位。量化位数越高,信号的动态范围越大,量化精度越量化位数越高,信号的动态范围越大,量化精度越量化位数越高,信号的动态范围越大,量化精度越量化位数越高,信号的动态

33、范围越大,量化精度越高,但所需要的存贮空间也越大。高,但所需要的存贮空间也越大。高,但所需要的存贮空间也越大。高,但所需要的存贮空间也越大。7/25/202427多媒体技术第二章声音媒体3 3声道数声道数声道数声道数声道数指的是一次同时产生的声波组数。声道数指的是一次同时产生的声波组数。声道数指的是一次同时产生的声波组数。声道数指的是一次同时产生的声波组数。(1 1 1 1)单声道)单声道)单声道)单声道 比较原始的声音复制形式,缺乏位置感。比较原始的声音复制形式,缺乏位置感。比较原始的声音复制形式,缺乏位置感。比较原始的声音复制形式,缺乏位置感。 (2 2 2 2)立体声)立体声)立体声)立

34、体声 双声道。声音在录制过程中被分配到两个独双声道。声音在录制过程中被分配到两个独双声道。声音在录制过程中被分配到两个独双声道。声音在录制过程中被分配到两个独立的声道,但所占空间比单声道多一倍。立的声道,但所占空间比单声道多一倍。立的声道,但所占空间比单声道多一倍。立的声道,但所占空间比单声道多一倍。(3 3 3 3)准立体声)准立体声)准立体声)准立体声 录制声音的时候采用单声道,放音有时立体录制声音的时候采用单声道,放音有时立体录制声音的时候采用单声道,放音有时立体录制声音的时候采用单声道,放音有时立体声。声。声。声。 7/25/202428多媒体技术第二章声音媒体(3 3 3 3)四声道

35、环绕四声道环绕四声道环绕四声道环绕 规定了规定了规定了规定了4 4 4 4个发音点:前左、前右,后左、后右,个发音点:前左、前右,后左、后右,个发音点:前左、前右,后左、后右,个发音点:前左、前右,后左、后右,同时建议增加一个低音音箱,以加强对低频信号同时建议增加一个低音音箱,以加强对低频信号同时建议增加一个低音音箱,以加强对低频信号同时建议增加一个低音音箱,以加强对低频信号的回放处理的回放处理的回放处理的回放处理(4 4 4 4)5.15.15.15.1声道声道声道声道 基于基于基于基于4.14.14.14.1环绕,增加了中置单元,负责传送低环绕,增加了中置单元,负责传送低环绕,增加了中置单

36、元,负责传送低环绕,增加了中置单元,负责传送低于于于于80Hz80Hz80Hz80Hz的声音信号。欣赏影片时,可加强人声,的声音信号。欣赏影片时,可加强人声,的声音信号。欣赏影片时,可加强人声,的声音信号。欣赏影片时,可加强人声,把对话集中在声场中部。一些知名的声音录制压把对话集中在声场中部。一些知名的声音录制压把对话集中在声场中部。一些知名的声音录制压把对话集中在声场中部。一些知名的声音录制压缩格式,都以缩格式,都以缩格式,都以缩格式,都以5.15.15.15.1声音系统为技术蓝本的。声音系统为技术蓝本的。声音系统为技术蓝本的。声音系统为技术蓝本的。(5 5 5 5)7.17.17.17.1

37、声道声道声道声道 它在它在它在它在5.15.15.15.1的基础上增加了中左和中右两个发音的基础上增加了中左和中右两个发音的基础上增加了中左和中右两个发音的基础上增加了中左和中右两个发音点,成本比较高。点,成本比较高。点,成本比较高。点,成本比较高。 7/25/202429多媒体技术第二章声音媒体4 4编码算法编码算法编码算法编码算法编码算法的作用:编码算法的作用:编码算法的作用:编码算法的作用:(1 1)采用一定的格式记录数字数据)采用一定的格式记录数字数据)采用一定的格式记录数字数据)采用一定的格式记录数字数据(2 2)采用一定的算法压缩数字数据减少存贮空间和)采用一定的算法压缩数字数据减

38、少存贮空间和)采用一定的算法压缩数字数据减少存贮空间和)采用一定的算法压缩数字数据减少存贮空间和提高传输效率。提高传输效率。提高传输效率。提高传输效率。压缩编码的基本指标之一:压缩比压缩编码的基本指标之一:压缩比压缩编码的基本指标之一:压缩比压缩编码的基本指标之一:压缩比音频数据压缩比音频数据压缩比音频数据压缩比音频数据压缩比压缩后的音频数据压缩后的音频数据压缩后的音频数据压缩后的音频数据压缩前的音频数据压缩前的音频数据压缩前的音频数据压缩前的音频数据7/25/202430多媒体技术第二章声音媒体5 5数据率及数据文件格式数据率及数据文件格式数据率及数据文件格式数据率及数据文件格式数据率:数据

39、率:数据率:数据率:为每秒位数,它与信息在计算机中的实时传输有直为每秒位数,它与信息在计算机中的实时传输有直为每秒位数,它与信息在计算机中的实时传输有直为每秒位数,它与信息在计算机中的实时传输有直接关系,而其总数据量又与计算机的存储空间有直接关系,而其总数据量又与计算机的存储空间有直接关系,而其总数据量又与计算机的存储空间有直接关系,而其总数据量又与计算机的存储空间有直接关系。接关系。接关系。接关系。数据文件格式:数据文件格式:数据文件格式:数据文件格式:用数字音频产生的数据一般以用数字音频产生的数据一般以用数字音频产生的数据一般以用数字音频产生的数据一般以WAVEWAVEWAVEWAVE的文

40、件格式存贮,的文件格式存贮,的文件格式存贮,的文件格式存贮,以以以以“.WAV.WAV”作为文件扩展名。是作为文件扩展名。是作为文件扩展名。是作为文件扩展名。是WindowsWindows 下通用下通用下通用下通用的数字音频标准,用的数字音频标准,用的数字音频标准,用的数字音频标准,用WindowsWindows的媒体播放器可以播的媒体播放器可以播的媒体播放器可以播的媒体播放器可以播放。放。放。放。7/25/202431多媒体技术第二章声音媒体2.3.32.3.3数字化声音的质量和存储量数字化声音的质量和存储量数字化声音的质量和存储量数字化声音的质量和存储量 数字化声音的数据量由那些因素决定?

41、数字化声音的数据量由那些因素决定?数字化声音的数据量由那些因素决定?数字化声音的数据量由那些因素决定? 采样频率、量化精度、声道数、声音持续时间等采样频率、量化精度、声道数、声音持续时间等采样频率、量化精度、声道数、声音持续时间等采样频率、量化精度、声道数、声音持续时间等数据量的计算方式:数据量的计算方式:数据量的计算方式:数据量的计算方式:数据量(数据量(数据量(数据量(ByteByteByteByte)=(=(=(=(采样频率采样频率采样频率采样频率量化精度量化精度量化精度量化精度声道声道声道声道数数数数声音持续时间声音持续时间声音持续时间声音持续时间)/8)/8)/8)/8 例:例:例:

42、例: CDCDCDCD格式格式格式格式1 1 1 1秒:秒:秒:秒: ( ( ( (采样频率采样频率采样频率采样频率量化位数量化位数量化位数量化位数声道数声道数声道数声道数声音持续时声音持续时声音持续时声音持续时间间间间)/8 )/8 )/8 )/8 (44.1k162144.1k162144.1k162144.1k1621)/8=0.176MB/s /8=0.176MB/s /8=0.176MB/s /8=0.176MB/s 7/25/202432多媒体技术第二章声音媒体 5.15.15.15.1声道每秒钟的数据量为:声道每秒钟的数据量为:声道每秒钟的数据量为:声道每秒钟的数据量为:( (

43、( (采样频率采样频率采样频率采样频率量化位数量化位数量化位数量化位数声道数声道数声道数声道数声音持续时间声音持续时间声音持续时间声音持续时间)/8 )/8 )/8 )/8 (44.1k 165.1144.1k 165.1144.1k 165.1144.1k 165.11)/8 =0.45MB/s/8 =0.45MB/s/8 =0.45MB/s/8 =0.45MB/s, 一个小时的多声道格式的音乐需要一个小时的多声道格式的音乐需要一个小时的多声道格式的音乐需要一个小时的多声道格式的音乐需要1.62GB1.62GB1.62GB1.62GB的存储空的存储空的存储空的存储空间,远远大于间,远远大于间

44、,远远大于间,远远大于CDCDCDCD的容量。的容量。的容量。的容量。7/25/202433多媒体技术CDCD唱唱盘盘10.0910.09双声道双声道161644.144.1FMFM广播广播5.055.05双声道双声道161622.0522.05语语音音0.630.63单单声道声道8 811.02511.025等效音等效音质质每分每分钟钟的数据量的数据量(MB,(MB,无无压压缩缩) )声道数声道数量化位数量化位数(bit)(bit)采采样频样频率率(KHz)(KHz)常用的采样指标及等效音质7/25/202434多媒体技术目录提纲:提纲:提纲:提纲:2.1 2.1 2.1 2.1 声音及其分

45、类声音及其分类声音及其分类声音及其分类 2.2 2.2 2.2 2.2 音频信号音频信号音频信号音频信号2.3 2.3 2.3 2.3 声音信号数字化声音信号数字化声音信号数字化声音信号数字化2.4 MIDI2.4 MIDI2.4 MIDI2.4 MIDI接口和音乐合成接口和音乐合成接口和音乐合成接口和音乐合成2.5 2.5 2.5 2.5 音频文件格式音频文件格式音频文件格式音频文件格式 7/25/202435多媒体技术第二章声音媒体2.4MIDI2.4MIDI接口和音乐合成接口和音乐合成接口和音乐合成接口和音乐合成什么是什么是MIDIMIDI接口?接口?MIDI(MusicalInstru

46、mentDigitalInterface)是电子乐器数字接口的缩写,是数字音乐是电子乐器数字接口的缩写,是数字音乐/ /电子合成电子合成乐器国际标准乐器国际标准 MIDI接口是音乐与计算机结合的产物,其目的是解接口是音乐与计算机结合的产物,其目的是解决各种电子乐器间存在的兼容性问题。决各种电子乐器间存在的兼容性问题。7/25/202436多媒体技术第二章声音媒体MIDI接口的原理接口的原理MIDI本身不能发出声音,而是一个协议,它不是本身不能发出声音,而是一个协议,它不是把音乐的波形进行数字化采样和编码,而是将数字把音乐的波形进行数字化采样和编码,而是将数字式电子乐器的弹奏过程记录下来,只包含

47、用于产生式电子乐器的弹奏过程记录下来,只包含用于产生特定声音的指令特定声音的指令. .这些指令包括调用何种这些指令包括调用何种MIDI设备的声音,声音的设备的声音,声音的强弱及持续的时间等。强弱及持续的时间等。当需要播放乐曲时,电脑把这些指令交由音频卡去当需要播放乐曲时,电脑把这些指令交由音频卡去合成相应的声音,根据记录的乐谱指令,通过音乐合成相应的声音,根据记录的乐谱指令,通过音乐合成器生成音乐声波,经放大后由扬声器播出。合成器生成音乐声波,经放大后由扬声器播出。7/25/202437多媒体技术第二章声音媒体最初,因为不同最初,因为不同MIDI设备的乐器排列方法不一,设备的乐器排列方法不一,

48、造成同一造成同一MIDI文件在不同的设备会出现完全不同文件在不同的设备会出现完全不同的放声效果。的放声效果。GM(GENERALMIDI,通用MIDI)标准得到标准得到了了WindowsWindows操作系统的支持。它规定了操作系统的支持。它规定了前前128128中常中常用乐器的音色编排方式,例如用乐器的音色编排方式,例如1 1号是钢琴,号是钢琴,6666号是号是萨克斯管等等,它实际上是对萨克斯管等等,它实际上是对MIDIMIDI规范的补充。规范的补充。ROLAND公司GS(GeneralSynthesizer,通用合成器通用合成器) )标准兼容标准兼容GMGM的基础上,提供比的基础上,提供比

49、GMGM标准标准数量更多的打击乐器组、更多的特殊音响。数量更多的打击乐器组、更多的特殊音响。 Yamaha公司提出了基于公司提出了基于GM标准的标准的XG(ExtendedGeneralMIDI,扩展的通用扩展的通用MIDI)标准。标准。 7/25/202438多媒体技术第二章声音媒体2.4.1MIDI2.4.1MIDI术语术语术语术语(1 1 1 1)MIDIMIDI文件文件文件文件 MIDIMIDI文件是存放文件是存放文件是存放文件是存放MIDIMIDI信息的标准文件格式,信息的标准文件格式,信息的标准文件格式,信息的标准文件格式,MIDIMIDI文件中包含音符、定时和多达文件中包含音符、

50、定时和多达文件中包含音符、定时和多达文件中包含音符、定时和多达16161616个通道的演奏个通道的演奏个通道的演奏个通道的演奏定义。定义。定义。定义。(2 2 2 2)音乐合成器()音乐合成器()音乐合成器()音乐合成器(MusicalSynthesizerMusicalSynthesizer) 利用数字信号处理器或其它芯片来产生音乐或利用数字信号处理器或其它芯片来产生音乐或利用数字信号处理器或其它芯片来产生音乐或利用数字信号处理器或其它芯片来产生音乐或声音,数字信号处理器产生并修改波形,然后通过声声音,数字信号处理器产生并修改波形,然后通过声声音,数字信号处理器产生并修改波形,然后通过声声音

51、,数字信号处理器产生并修改波形,然后通过声音产生器和扬声器发出声音。其发生的质量和声部取音产生器和扬声器发出声音。其发生的质量和声部取音产生器和扬声器发出声音。其发生的质量和声部取音产生器和扬声器发出声音。其发生的质量和声部取决于合成器能够同时播放的独立波形的个数即泛音的决于合成器能够同时播放的独立波形的个数即泛音的决于合成器能够同时播放的独立波形的个数即泛音的决于合成器能够同时播放的独立波形的个数即泛音的合成。合成。合成。合成。(3 3 3 3)复音()复音()复音()复音(PolyphonyPolyphony) 复音指合成器同时支持的最多音符数。复音指合成器同时支持的最多音符数。复音指合成

52、器同时支持的最多音符数。复音指合成器同时支持的最多音符数。 7/25/202439多媒体技术第二章声音媒体(4 4)多音色()多音色(Timbre) 同时演奏几种不同乐器时发出的声音,它着重同时演奏几种不同乐器时发出的声音,它着重于同时演奏的乐器数。于同时演奏的乐器数。(5 5)MIDI标准标准MIDI电子乐器:能产生特定声音的合成器,其数据电子乐器:能产生特定声音的合成器,其数据传送符合传送符合MIDIMIDI通信约定。通信约定。MIDI消息消息 ( ( message ) ) 或指令:乐谱的一种记或指令:乐谱的一种记录格式,相当于乐谱语言。录格式,相当于乐谱语言。MIDI接口(接口(int

53、erface):):MIDI硬件通信协议。硬件通信协议。MIDI通道通道 ( ( channel) ):共:共1616个通道,每种通道个通道,每种通道对应一种逻辑的合成器。对应一种逻辑的合成器。MIDI文件:由控制数据和乐谱信息数据构成。文件:由控制数据和乐谱信息数据构成。音序器音序器 ( ( Sequencer ) ):用来记录、编辑和播放:用来记录、编辑和播放MIDI文件的软件。文件的软件。7/25/202440多媒体技术第二章声音媒体2.4.22.4.2用计算机构成的用计算机构成的用计算机构成的用计算机构成的MIDIMIDI系统系统系统系统MIDIMIDIMIDIMIDI与计算与计算与计

54、算与计算机相连是通机相连是通机相连是通机相连是通过过过过MIDIMIDIMIDIMIDI接口接口接口接口实现的实现的实现的实现的计算机通过音序器软件来采计算机通过音序器软件来采计算机通过音序器软件来采计算机通过音序器软件来采集集集集MIDIMIDIMIDIMIDI电子乐器发出的一系电子乐器发出的一系电子乐器发出的一系电子乐器发出的一系列指令,并记录到以列指令,并记录到以列指令,并记录到以列指令,并记录到以.MID.MID.MID.MID为为为为扩展名的扩展名的扩展名的扩展名的MIDIMIDIMIDIMIDI文件中。文件中。文件中。文件中。在计算机上音序器在计算机上音序器在计算机上音序器在计算机

55、上音序器可对可对可对可对MIDIMIDIMIDIMIDI文件进行文件进行文件进行文件进行编辑和修改,然后编辑和修改,然后编辑和修改,然后编辑和修改,然后将将将将MIDIMIDIMIDIMIDI指令送往音指令送往音指令送往音指令送往音乐合成器乐合成器乐合成器乐合成器合成器将合成器将合成器将合成器将MIDIMIDIMIDIMIDI指指指指令符号进行解释令符号进行解释令符号进行解释令符号进行解释并产生波形并产生波形并产生波形并产生波形播放播放播放播放7/25/202441多媒体技术使用使用使用使用PCPC机构造机构造机构造机构造MIDIMIDI系统的方案:系统的方案:系统的方案:系统的方案:可把可把

56、可把可把MIDIMIDI接口和接口和接口和接口和MIDIMIDI声音模块组合在声音模块组合在声音模块组合在声音模块组合在PCPC添加卡上。添加卡上。添加卡上。添加卡上。多媒体个人计算机多媒体个人计算机多媒体个人计算机多媒体个人计算机MPCMPC规范就要求规范就要求规范就要求规范就要求PCPC添加卡上必须添加卡上必须添加卡上必须添加卡上必须有这样的声音模块,称为合成器有这样的声音模块,称为合成器有这样的声音模块,称为合成器有这样的声音模块,称为合成器( ( ( (synthesizersynthesizer) ) ) )。电。电。电。电脑播放脑播放脑播放脑播放MIDIMIDI文件,必须使用合成器

57、。文件,必须使用合成器。文件,必须使用合成器。文件,必须使用合成器。7/25/202442多媒体技术第二章声音媒体MIDIMIDI合成器分为两种合成器分为两种合成器分为两种合成器分为两种(1)(1)FM合成器合成器( (FMsynthesis) ) 通过已有的电子波形来产生声音的合成。产生通过已有的电子波形来产生声音的合成。产生各种逼真的乐音是相当困难的,有些乐音几乎不能产各种逼真的乐音是相当困难的,有些乐音几乎不能产生。生。(2)(2)波表合成器波表合成器( (wavetablesynthesis) ) 乐器的声音样本存储在音频卡波形表中,播放乐器的声音样本存储在音频卡波形表中,播放时从波形

58、表中取出来。可以产生更逼真的声音。时从波形表中取出来。可以产生更逼真的声音。7/25/202443多媒体技术第二章声音媒体2.4.3MIDI2.4.3MIDI文件的特点文件的特点文件的特点文件的特点1 1、数据量小、数据量小 MIDI数据量比声音文件小的多数据量比声音文件小的多2 2、MIDI配音方便配音方便 多媒体系统中不可能同时调用两个波形声音文多媒体系统中不可能同时调用两个波形声音文件,但可以在播放波形文件的同时调用件,但可以在播放波形文件的同时调用MIDIMIDI文件文件3 3、编辑灵活、编辑灵活 在音序器的帮助下,用户可以随意修改曲子的在音序器的帮助下,用户可以随意修改曲子的速度、音

59、调、音色等属性,也可以改换乐器的种类速度、音调、音色等属性,也可以改换乐器的种类4 4、表现能力弱、表现能力弱 不能与真正的乐器完全相似,音质有待提高不能与真正的乐器完全相似,音质有待提高7/25/202444多媒体技术7/25/202445多媒体技术GoldWaveGoldWave是一款相当不错的数码录音及编辑软件,是一款相当不错的数码录音及编辑软件,是一款相当不错的数码录音及编辑软件,是一款相当不错的数码录音及编辑软件,除了附有许多的效果处理功能外,它还能将编辑好除了附有许多的效果处理功能外,它还能将编辑好除了附有许多的效果处理功能外,它还能将编辑好除了附有许多的效果处理功能外,它还能将编

60、辑好的文件存为的文件存为的文件存为的文件存为WAVWAV、AUAU、SNDSND、RAWRAW和和和和AFCAFC等格式,等格式,等格式,等格式,而且它可以不经由声卡直接抽取而且它可以不经由声卡直接抽取而且它可以不经由声卡直接抽取而且它可以不经由声卡直接抽取SCSISCSI形式的形式的形式的形式的CD CD ROMROM中的音乐来录制编辑。中的音乐来录制编辑。中的音乐来录制编辑。中的音乐来录制编辑。作为作为作为作为WaveWave文件编辑处理工具,支持从文件编辑处理工具,支持从文件编辑处理工具,支持从文件编辑处理工具,支持从MP3MP3、MPGMPG、AVIAVI、ASFASF、MOVMOV等

61、文件中提取音频进行编辑,所等文件中提取音频进行编辑,所等文件中提取音频进行编辑,所等文件中提取音频进行编辑,所以除了它强大的编辑功能外,用作把以上格式的音以除了它强大的编辑功能外,用作把以上格式的音以除了它强大的编辑功能外,用作把以上格式的音以除了它强大的编辑功能外,用作把以上格式的音频转换成频转换成频转换成频转换成WAVWAV文件也是很方便的。文件也是很方便的。文件也是很方便的。文件也是很方便的。 7/25/202446多媒体技术GoldWaveGoldWave同时是较新的、适合于一般进行音频素同时是较新的、适合于一般进行音频素同时是较新的、适合于一般进行音频素同时是较新的、适合于一般进行音

62、频素材采集与制作的软件,它集音频录制和编辑于一体,材采集与制作的软件,它集音频录制和编辑于一体,材采集与制作的软件,它集音频录制和编辑于一体,材采集与制作的软件,它集音频录制和编辑于一体,不仅是一个录音程序,可以很方便地制作不仅是一个录音程序,可以很方便地制作不仅是一个录音程序,可以很方便地制作不仅是一个录音程序,可以很方便地制作CAICAI课件课件课件课件的背景音乐、音效、录制的背景音乐、音效、录制的背景音乐、音效、录制的背景音乐、音效、录制CDCD、转换音乐格式等,而、转换音乐格式等,而、转换音乐格式等,而、转换音乐格式等,而且还具有各种复杂的音乐编辑和特效处理功能。该且还具有各种复杂的音

63、乐编辑和特效处理功能。该且还具有各种复杂的音乐编辑和特效处理功能。该且还具有各种复杂的音乐编辑和特效处理功能。该软件不需要安装,只要运行程序文件夹中的可执行软件不需要安装,只要运行程序文件夹中的可执行软件不需要安装,只要运行程序文件夹中的可执行软件不需要安装,只要运行程序文件夹中的可执行程序即可。程序即可。程序即可。程序即可。GoldWaveGoldWave小巧玲珑,只有小巧玲珑,只有小巧玲珑,只有小巧玲珑,只有600K600K左右,左右,左右,左右,可从可从可从可从http:/http:/下载。下载。下载。下载。7/25/202447多媒体技术7/25/202448多媒体技术CoolEdit

64、CoolEdit Pro Pro是著名的是著名的是著名的是著名的SyntrilliumSyntrillium公司开发的数字音频处理软件。公司开发的数字音频处理软件。公司开发的数字音频处理软件。公司开发的数字音频处理软件。 支持的音频格式十分丰富,多达十余种,还提供了对支持的音频格式十分丰富,多达十余种,还提供了对支持的音频格式十分丰富,多达十余种,还提供了对支持的音频格式十分丰富,多达十余种,还提供了对5 5 5 5种不同类型种不同类型种不同类型种不同类型WAVWAVWAVWAV文件的支持。文件的支持。文件的支持。文件的支持。提供丰富的特殊效果。包括提供丰富的特殊效果。包括提供丰富的特殊效果。

65、包括提供丰富的特殊效果。包括3D3D3D3D混响、降噪、滤波、音混响、降噪、滤波、音混响、降噪、滤波、音混响、降噪、滤波、音频缩频缩频缩频缩/ / / /放、合声、延迟、变形、反转、静音等。放、合声、延迟、变形、反转、静音等。放、合声、延迟、变形、反转、静音等。放、合声、延迟、变形、反转、静音等。提供了强大的提供了强大的提供了强大的提供了强大的DSPDSPDSPDSP(数字信号处理)能力。能够同时处(数字信号处理)能力。能够同时处(数字信号处理)能力。能够同时处(数字信号处理)能力。能够同时处理理理理64646464条音轨。支持录音、回放、混音、音频编辑。借助条音轨。支持录音、回放、混音、音频

66、编辑。借助条音轨。支持录音、回放、混音、音频编辑。借助条音轨。支持录音、回放、混音、音频编辑。借助它,能够方便地制作出自己想要的任何特殊音效,并添它,能够方便地制作出自己想要的任何特殊音效,并添它,能够方便地制作出自己想要的任何特殊音效,并添它,能够方便地制作出自己想要的任何特殊音效,并添加到各种类型的多媒体作品中去。加到各种类型的多媒体作品中去。加到各种类型的多媒体作品中去。加到各种类型的多媒体作品中去。 操作界面设计简捷方便。在工具栏中,提供了操作界面设计简捷方便。在工具栏中,提供了操作界面设计简捷方便。在工具栏中,提供了操作界面设计简捷方便。在工具栏中,提供了56565656个图个图个图

67、个图形化按钮。几乎所有的编辑操作都能够方便地进行操作。形化按钮。几乎所有的编辑操作都能够方便地进行操作。形化按钮。几乎所有的编辑操作都能够方便地进行操作。形化按钮。几乎所有的编辑操作都能够方便地进行操作。7/25/202449多媒体技术目录提纲:提纲:提纲:提纲:2.1 2.1 2.1 2.1 声音及其分类声音及其分类声音及其分类声音及其分类 2.2 2.2 2.2 2.2 音频信号音频信号音频信号音频信号2.3 2.3 2.3 2.3 声音信号数字化声音信号数字化声音信号数字化声音信号数字化2.4 MIDI2.4 MIDI2.4 MIDI2.4 MIDI接口和音乐合成接口和音乐合成接口和音乐

68、合成接口和音乐合成2.5 2.5 2.5 2.5 音频文件格式音频文件格式音频文件格式音频文件格式 7/25/202450多媒体技术第二章声音媒体2.52.5音频文件格式音频文件格式音频文件格式音频文件格式2.5.12.5.12.5.12.5.1声音文件格式声音文件格式声音文件格式声音文件格式(1)(1)(1)(1)波形文件波形文件波形文件波形文件 扩展名为扩展名为扩展名为扩展名为WAVWAV,WindowsWindows本身存放数字声音的标本身存放数字声音的标本身存放数字声音的标本身存放数字声音的标准格式准格式准格式准格式 未经压缩处理的音频数据,直接记录声音的波形。未经压缩处理的音频数据,

69、直接记录声音的波形。未经压缩处理的音频数据,直接记录声音的波形。未经压缩处理的音频数据,直接记录声音的波形。 文件体积都很大(文件体积都很大(文件体积都很大(文件体积都很大(1 1 1 1分钟的分钟的分钟的分钟的CDCDCDCD音质需要音质需要音质需要音质需要10M10M10M10M字节),字节),字节),字节),不适于在网络上传播。不适于在网络上传播。不适于在网络上传播。不适于在网络上传播。 WAVWAVWAVWAV格式使用媒体播放机可以直接播放。格式使用媒体播放机可以直接播放。格式使用媒体播放机可以直接播放。格式使用媒体播放机可以直接播放。7/25/202451多媒体技术(2)MPEG-3

70、(2)MPEG-3 扩展名为扩展名为扩展名为扩展名为MP3MP3,最流行的声音文件格式,最流行的声音文件格式,最流行的声音文件格式,最流行的声音文件格式, 压缩率大,高达压缩率大,高达压缩率大,高达压缩率大,高达10:110:112:112:1, 音质基本保持不失真,音质基本保持不失真,音质基本保持不失真,音质基本保持不失真, 在网络可视电话通信方面应用广泛,在网络可视电话通信方面应用广泛,在网络可视电话通信方面应用广泛,在网络可视电话通信方面应用广泛, 但和但和但和但和CDCD唱片相比,音质不能令人非常满意。唱片相比,音质不能令人非常满意。唱片相比,音质不能令人非常满意。唱片相比,音质不能令

71、人非常满意。7/25/202452多媒体技术第二章声音媒体(3)CD Audio(3)CD Audio(3)CD Audio(3)CD Audio音乐音乐音乐音乐CDCDCDCD 扩展名扩展名扩展名扩展名.CDA.CDA.CDA.CDA,是唱片采用的格式,是唱片采用的格式,是唱片采用的格式,是唱片采用的格式 记录的是波形流,绝对的纯正记录的是波形流,绝对的纯正记录的是波形流,绝对的纯正记录的是波形流,绝对的纯正 无法编辑,文件长度太大无法编辑,文件长度太大无法编辑,文件长度太大无法编辑,文件长度太大(4)Creative Musical Format(4)Creative Musical Fo

72、rmat(4)Creative Musical Format(4)Creative Musical Format 扩展名扩展名扩展名扩展名.CMF.CMF.CMF.CMF 是是是是CreativeCreativeCreativeCreative公司的专用音乐格式公司的专用音乐格式公司的专用音乐格式公司的专用音乐格式 和和和和MIDIMIDIMIDIMIDI差不多,只是音色、效果上有些特色差不多,只是音色、效果上有些特色差不多,只是音色、效果上有些特色差不多,只是音色、效果上有些特色 专用于专用于专用于专用于FMFMFMFM音频卡,但其兼容性也很差。音频卡,但其兼容性也很差。音频卡,但其兼容性也

73、很差。音频卡,但其兼容性也很差。7/25/202453多媒体技术第二章声音媒体(5)VOC(5)VOC文件文件文件文件 CreativeCreative公司波形音频文件格式公司波形音频文件格式公司波形音频文件格式公司波形音频文件格式 是声霸卡使用的音频文件格式是声霸卡使用的音频文件格式是声霸卡使用的音频文件格式是声霸卡使用的音频文件格式 每个每个每个每个VOCVOC文件由文件头块(文件由文件头块(文件由文件头块(文件由文件头块(Header BlockHeader Block)和音)和音)和音)和音频数据块(频数据块(频数据块(频数据块(Data BlockData Block)组成)组成)组

74、成)组成(6)Real Audio(6)Real Audio 扩展名扩展名扩展名扩展名RARA、RAMRAM 是是是是RealReal公司开发的主要适用于网络上实时数字音公司开发的主要适用于网络上实时数字音公司开发的主要适用于网络上实时数字音公司开发的主要适用于网络上实时数字音频流技术的文件格式频流技术的文件格式频流技术的文件格式频流技术的文件格式 面向实时的网上传播,在高保真方面是远远不如面向实时的网上传播,在高保真方面是远远不如面向实时的网上传播,在高保真方面是远远不如面向实时的网上传播,在高保真方面是远远不如MP3MP3,但在低保真的网络传播方面却无人能及,但在低保真的网络传播方面却无人

75、能及,但在低保真的网络传播方面却无人能及,但在低保真的网络传播方面却无人能及 要播放要播放要播放要播放RARA、RAMRAM,需要使用,需要使用,需要使用,需要使用Real PlayerReal Player7/25/202454多媒体技术(7 7)PCMPCM文件文件文件文件模拟音频信号经模拟音频信号经模拟音频信号经模拟音频信号经A/DA/D转换直接形成的二进制序列转换直接形成的二进制序列转换直接形成的二进制序列转换直接形成的二进制序列该文件没有附加的文件头和文件结束标志该文件没有附加的文件头和文件结束标志该文件没有附加的文件头和文件结束标志该文件没有附加的文件头和文件结束标志在声霸卡提供的

76、软件中,可以利用在声霸卡提供的软件中,可以利用在声霸卡提供的软件中,可以利用在声霸卡提供的软件中,可以利用VOC-HDRVOC-HDR程序,程序,程序,程序,为为为为PCMPCM格式的音频文件加上文件头,形成格式的音频文件加上文件头,形成格式的音频文件加上文件头,形成格式的音频文件加上文件头,形成VOCVOC文件文件文件文件WindowsWindows的的的的ConvertConvert工具可以把工具可以把工具可以把工具可以把PCMPCM音频格式的音频格式的音频格式的音频格式的文件转换成文件转换成文件转换成文件转换成MicrosoftMicrosoft的的的的WAVWAV格式的文件格式的文件格

77、式的文件格式的文件7/25/202455多媒体技术第二章声音媒体2.5.2MIDI2.5.2MIDI文件格式文件格式文件格式文件格式(1)MIDI(1)MIDI 扩展名扩展名扩展名扩展名MIDMID,目前最成熟的音乐格式,已成为产业,目前最成熟的音乐格式,已成为产业,目前最成熟的音乐格式,已成为产业,目前最成熟的音乐格式,已成为产业标准,它的标准,它的标准,它的标准,它的general MIDIgeneral MIDI时最常见的通行标准。时最常见的通行标准。时最常见的通行标准。时最常见的通行标准。 优点:短小,一个六分多钟、有优点:短小,一个六分多钟、有优点:短小,一个六分多钟、有优点:短小,

78、一个六分多钟、有1616个乐器的文件个乐器的文件个乐器的文件个乐器的文件也只是也只是也只是也只是8080多多多多KBKB; 缺点:播放效果因软、硬件而异。可以使用媒体播缺点:播放效果因软、硬件而异。可以使用媒体播缺点:播放效果因软、硬件而异。可以使用媒体播缺点:播放效果因软、硬件而异。可以使用媒体播放机放机放机放机 要取得好的播放效果,电脑必须支持波表功能。要取得好的播放效果,电脑必须支持波表功能。要取得好的播放效果,电脑必须支持波表功能。要取得好的播放效果,电脑必须支持波表功能。(2)RMI(2)RMI文件文件文件文件 MicrosoftMicrosoft公司自己的公司自己的公司自己的公司自

79、己的MIDIMIDI文件格式,可以包括图文件格式,可以包括图文件格式,可以包括图文件格式,可以包括图片标记和文本。片标记和文本。片标记和文本。片标记和文本。7/25/202456多媒体技术目录提纲:提纲:提纲:提纲:2.6 2.6 2.6 2.6 音频卡及其应用音频卡及其应用音频卡及其应用音频卡及其应用 2.7 2.7 2.7 2.7 语音输入输出技术语音输入输出技术语音输入输出技术语音输入输出技术7/25/202457多媒体技术第二章声音媒体2.62.6音频卡及其应用音频卡及其应用音频卡及其应用音频卡及其应用2.6.12.6.1音频卡功能音频卡功能音频卡功能音频卡功能(1 1)音频信号的录制

80、与播放)音频信号的录制与播放)音频信号的录制与播放)音频信号的录制与播放 完成音频信号的完成音频信号的完成音频信号的完成音频信号的A AD D和和和和D DA A变换,将音频信号通变换,将音频信号通变换,将音频信号通变换,将音频信号通过音频卡录入计算机,并以文件的形式进行保存。过音频卡录入计算机,并以文件的形式进行保存。过音频卡录入计算机,并以文件的形式进行保存。过音频卡录入计算机,并以文件的形式进行保存。在需要播放时,只需调出相应的声音文件进行播放在需要播放时,只需调出相应的声音文件进行播放在需要播放时,只需调出相应的声音文件进行播放在需要播放时,只需调出相应的声音文件进行播放还可以与还可以

81、与还可以与还可以与CD-ROMCD-ROM驱动器相连,实现对驱动器相连,实现对驱动器相连,实现对驱动器相连,实现对CDCD唱片、唱片、唱片、唱片、VCDVCD、MP3MP3音乐的播放。音乐的播放。音乐的播放。音乐的播放。7/25/202458多媒体技术第二章声音媒体(2 2)音频信号编辑与合成)音频信号编辑与合成)音频信号编辑与合成)音频信号编辑与合成就像一部数字音频编辑器,它可以对声音文件进行就像一部数字音频编辑器,它可以对声音文件进行就像一部数字音频编辑器,它可以对声音文件进行就像一部数字音频编辑器,它可以对声音文件进行多种特殊效果处理多种特殊效果处理多种特殊效果处理多种特殊效果处理(3

82、3)MIDIMIDI接口和音乐合成接口和音乐合成接口和音乐合成接口和音乐合成MIDIMIDI接口是乐器数字接口的标准,规定了电子乐器接口是乐器数字接口的标准,规定了电子乐器接口是乐器数字接口的标准,规定了电子乐器接口是乐器数字接口的标准,规定了电子乐器与计算机之间相互数据通信的协议与计算机之间相互数据通信的协议与计算机之间相互数据通信的协议与计算机之间相互数据通信的协议通过软件,计算机可以直接对外部电子乐器进行控通过软件,计算机可以直接对外部电子乐器进行控通过软件,计算机可以直接对外部电子乐器进行控通过软件,计算机可以直接对外部电子乐器进行控制和操作。制和操作。制和操作。制和操作。音乐合成功能

83、依赖于合成芯片音乐合成功能依赖于合成芯片音乐合成功能依赖于合成芯片音乐合成功能依赖于合成芯片完成与完成与完成与完成与CDCDROMROM和游戏手柄的接口和游戏手柄的接口和游戏手柄的接口和游戏手柄的接口7/25/202459多媒体技术第二章声音媒体2.6.22.6.2音频卡工作原理音频卡工作原理音频卡工作原理音频卡工作原理播放:一个播放:一个播放:一个播放:一个D/AD/A转换过程转换过程转换过程转换过程录音:一个录音:一个录音:一个录音:一个A/DA/D转换的过程转换的过程转换的过程转换的过程音频卡的基本构造:音频卡的基本构造:音频卡的基本构造:音频卡的基本构造:声音控制声音控制声音控制声音控

84、制/ /处理芯片、功放芯片、声音输入处理芯片、功放芯片、声音输入处理芯片、功放芯片、声音输入处理芯片、功放芯片、声音输入/ /输出接输出接输出接输出接口等口等口等口等7/25/202460多媒体技术第二章声音媒体声音控制处声音控制处理芯片:理芯片:本质上关系本质上关系到音频卡的到音频卡的性能,性能,Creative和和CMedia公公司的芯片较司的芯片较常见常见功放芯片:功放芯片:即声音放大即声音放大芯片,放大芯片,放大功率以推动功率以推动喇叭发声。喇叭发声。声音输入输声音输入输出接口:音出接口:音频信号的输频信号的输入和输出。入和输出。分为外端接分为外端接口和内端接口和内端接口口外端接口包外

85、端接口包括:喇叭输括:喇叭输出、线性输出、线性输出;线性输出;线性输入和麦克风入和麦克风输入输入内端接口:内端接口:基本上是基本上是CDCD音频接口,音频接口,用音频线直用音频线直接和光驱连接和光驱连接。接。MIDIMIDI接口:接口:连接电子连接电子乐器和游乐器和游戏控制器戏控制器7/25/202461多媒体技术第二章声音媒体音频卡与外设之间的连接音频卡与外设之间的连接音频卡与外设之间的连接音频卡与外设之间的连接(1 1)卡内的主要接口)卡内的主要接口 CDCDROMROM数据接口数据接口 CDCD音频数据接口音频数据接口(2 2)卡后面板)卡后面板上的主要接口上的主要接口 线性输入线性输入

86、 话筒输入话筒输入 线性输出:线性输出:跳过内置功放,跳过内置功放,接有源音箱接有源音箱 扬声器输出:扬声器输出:利用内置功放利用内置功放 游戏棒游戏棒/MIDI/MIDI接口接口7/25/202462多媒体技术第二章声音媒体2.6.42.6.4音频软件的使用音频软件的使用音频软件的使用音频软件的使用1Windows1Windows本身自带的录音机本身自带的录音机本身自带的录音机本身自带的录音机 使用它可录音,只能录制使用它可录音,只能录制使用它可录音,只能录制使用它可录音,只能录制1 1分钟的声音文件,能进分钟的声音文件,能进分钟的声音文件,能进分钟的声音文件,能进行简单的编辑。行简单的编辑

87、。行简单的编辑。行简单的编辑。 2 2音频卡自带的工具音频卡自带的工具音频卡自带的工具音频卡自带的工具 声卡一般都附带有音频软件,基本功能类似声卡一般都附带有音频软件,基本功能类似声卡一般都附带有音频软件,基本功能类似声卡一般都附带有音频软件,基本功能类似 3 3网络上下载的工具网络上下载的工具网络上下载的工具网络上下载的工具 可以在网上下载免费试用版如可以在网上下载免费试用版如可以在网上下载免费试用版如可以在网上下载免费试用版如Cool EditCool Edit工具工具工具工具(Adobe AuditionV2.0)Adobe AuditionV2.0)。类似的工具还有。类似的工具还有。类

88、似的工具还有。类似的工具还有GoldWaveGoldWave公司的声音工具,公司的声音工具,公司的声音工具,公司的声音工具,CakewalkCakewalk,CubaseCubase等。等。等。等。7/25/202463多媒体技术目录提纲:提纲:提纲:提纲:2.6 2.6 2.6 2.6 音频卡及其应用音频卡及其应用音频卡及其应用音频卡及其应用 2.7 2.7 2.7 2.7 语音输入输出技术语音输入输出技术语音输入输出技术语音输入输出技术7/25/202464多媒体技术第二章声音媒体2.72.7语音输入输出技术语音输入输出技术语音输入输出技术语音输入输出技术2.7.12.7.1语音识别语音识

89、别语音识别语音识别语音识别的研究对象:语音语音识别的研究对象:语音语音识别的研究对象:语音语音识别的研究对象:语音语音识别的目的:让机器具有人的听觉功能语音识别的目的:让机器具有人的听觉功能语音识别的目的:让机器具有人的听觉功能语音识别的目的:让机器具有人的听觉功能语音识别的内容语音识别的内容语音识别的内容语音识别的内容狭义的语音识别:排除不同人的发音差异,提取狭义的语音识别:排除不同人的发音差异,提取狭义的语音识别:排除不同人的发音差异,提取狭义的语音识别:排除不同人的发音差异,提取代表语意的共性特征,代表语意的共性特征,代表语意的共性特征,代表语意的共性特征,“ “理解理解理解理解” ”发

90、音人所说的话发音人所说的话发音人所说的话发音人所说的话说话人语音识别:寻求不同说话人的个性特征,说话人语音识别:寻求不同说话人的个性特征,说话人语音识别:寻求不同说话人的个性特征,说话人语音识别:寻求不同说话人的个性特征,以辨认出说话人的身份以辨认出说话人的身份以辨认出说话人的身份以辨认出说话人的身份7/25/202465多媒体技术第二章声音媒体语音识别的基本原理语音识别的基本原理语音识别的基本原理语音识别的基本原理语音识别原理语音识别原理语音识别原理语音识别原理大致相同,分大致相同,分大致相同,分大致相同,分为训练和识别为训练和识别为训练和识别为训练和识别两大阶段两大阶段两大阶段两大阶段训练

91、阶段:训练阶段:训练阶段:训练阶段:建立被识别建立被识别建立被识别建立被识别语音的标准语音的标准语音的标准语音的标准样板,或对样板,或对样板,或对样板,或对已存在的样已存在的样已存在的样已存在的样板做特定发板做特定发板做特定发板做特定发音人的适应音人的适应音人的适应音人的适应性修改。性修改。性修改。性修改。识别阶段:识别阶段:识别阶段:识别阶段:将被识别的将被识别的将被识别的将被识别的特征参量提特征参量提特征参量提特征参量提取出来进行取出来进行取出来进行取出来进行模式匹配,模式匹配,模式匹配,模式匹配,相似度最大相似度最大相似度最大相似度最大者即为被识者即为被识者即为被识者即为被识别语音。别语

92、音。别语音。别语音。 7/25/202466多媒体技术IBMIBMIBMIBM在在在在1997199719971997年开发了年开发了年开发了年开发了ViaVoiceViaVoiceViaVoiceViaVoice中文语音识别系统,中文语音识别系统,中文语音识别系统,中文语音识别系统,与次年开发了与次年开发了与次年开发了与次年开发了VioVoice98VioVoice98VioVoice98VioVoice98,可以识别上海话、广东,可以识别上海话、广东,可以识别上海话、广东,可以识别上海话、广东话、四川话等地方口音。话、四川话等地方口音。话、四川话等地方口音。话、四川话等地方口音。清华大学电

93、子工程系语音技术与专用芯片组,研发清华大学电子工程系语音技术与专用芯片组,研发清华大学电子工程系语音技术与专用芯片组,研发清华大学电子工程系语音技术与专用芯片组,研发的非特定人语音识别系统精度达到了的非特定人语音识别系统精度达到了的非特定人语音识别系统精度达到了的非特定人语音识别系统精度达到了95%95%95%95%,可以识别,可以识别,可以识别,可以识别普通话和四川话,基本达到实用的要求普通话和四川话,基本达到实用的要求普通话和四川话,基本达到实用的要求普通话和四川话,基本达到实用的要求中科院自动化研究及其所属模式公司(中科院自动化研究及其所属模式公司(中科院自动化研究及其所属模式公司(中科

94、院自动化研究及其所属模式公司(PattekPattekPattekPattek)与)与)与)与2002200220022002年发布了年发布了年发布了年发布了“天语天语天语天语”中文语音系列产品。中文语音系列产品。中文语音系列产品。中文语音系列产品。7/25/202467多媒体技术目前常用的语音识别软件:目前常用的语音识别软件:目前常用的语音识别软件:目前常用的语音识别软件:InsTalkInsTalkInsTalkInsTalkVioVoiceVioVoiceVioVoiceVioVoiceWindow7Window7Window7Window7自带语音识别软件自带语音识别软件自带语音识别软

95、件自带语音识别软件Speech SDK Speech SDK Speech SDK Speech SDK 微软的语音识别软件微软的语音识别软件微软的语音识别软件微软的语音识别软件7/25/202468多媒体技术第二章声音媒体2.7.22.7.2语音合成语音合成语音合成语音合成(1 1)语音合成可能实现的途径:)语音合成可能实现的途径:)语音合成可能实现的途径:)语音合成可能实现的途径: 波形拼接法:一种是所谓的录音重放模式,使机波形拼接法:一种是所谓的录音重放模式,使机波形拼接法:一种是所谓的录音重放模式,使机波形拼接法:一种是所谓的录音重放模式,使机器再生一个预先存入的语音信号,就像普通的录

96、音器再生一个预先存入的语音信号,就像普通的录音器再生一个预先存入的语音信号,就像普通的录音器再生一个预先存入的语音信号,就像普通的录音机一样,不同之处是采用了数字存储技术。机一样,不同之处是采用了数字存储技术。机一样,不同之处是采用了数字存储技术。机一样,不同之处是采用了数字存储技术。 参数合成法:采用数字信号处理的方法,将人类发参数合成法:采用数字信号处理的方法,将人类发参数合成法:采用数字信号处理的方法,将人类发参数合成法:采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个声过程看作是一个模拟声门状态的源,去激励一个声过程看作是一个模拟声门状态的源,去激励一个声过

97、程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器,这个源可能表征声道谐振特性的时变数字滤波器,这个源可能表征声道谐振特性的时变数字滤波器,这个源可能表征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,是周期脉冲序列,它代表浊音情况下的声带振动,是周期脉冲序列,它代表浊音情况下的声带振动,是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音。或者是随机噪声序列,代表不出声的清音。或者是随机噪声序列,代表不出声的清音。或者是随机噪声序列,代表不出声的清音。1 1、语音合成的基本概念、语音合成的基本概念、语音合成

98、的基本概念、语音合成的基本概念7/25/202469多媒体技术第二章声音媒体(2 2)语音数据的存储形式)语音数据的存储形式)语音数据的存储形式)语音数据的存储形式可分为两大类:波形存储和参数存储,取决于合成可分为两大类:波形存储和参数存储,取决于合成算法。为减少数据量,一般要对语音数据进行压缩。算法。为减少数据量,一般要对语音数据进行压缩。波形存储方式波形存储方式:存储数字化的语音波形数据。常用的存储数字化的语音波形数据。常用的编码方式有编码方式有PCM,ADPCM等。波形存储方式的主要等。波形存储方式的主要优点是编码和解码算法简单,易于实时实现,缺点优点是编码和解码算法简单,易于实时实现,

99、缺点是数据量大。是数据量大。参数存储方式参数存储方式:存储从语音信号中提取的参数,常用存储从语音信号中提取的参数,常用的有的有LPC参数,共振峰参数等。主要优点是数据量参数,共振峰参数等。主要优点是数据量小,易于实现韵律修改,但有限的参数很难表述自小,易于实现韵律修改,但有限的参数很难表述自然语音的细微变化。然语音的细微变化。7/25/202470多媒体技术第二章声音媒体2 2文语转换技术文语转换技术文语转换技术文语转换技术文语转换过程:文语转换过程:文字序列音韵序列语音波形涉及语言学处理,以及一涉及语言学处理,以及一整套有效的韵律控制规则整套有效的韵律控制规则需要先进的语音合成需要先进的语音

100、合成技术,能按要求实时技术,能按要求实时合成出高质量的语音流合成出高质量的语音流7/25/202471多媒体技术文语合成系统需要一套复杂的文字序列到音韵序文语合成系统需要一套复杂的文字序列到音韵序列的转换程序,也就是说,文语转换系统不仅要应列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知用数字信号处理技术,而且必须有大量的语言学知识的支持。识的支持。语音合成是最基本的部分,任何语言合成系统都语音合成是最基本的部分,任何语言合成系统都包括文语转换系统,都离不开语音合成器。包括文语转换系统,都离不开语音合成器。7/25/202472多媒体技术第二章声音媒体语

101、音合成系统的组成语音合成系统的组成语音合成系统的组成语音合成系统的组成(1 1)文本分析模块)文本分析模块)文本分析模块)文本分析模块 使计算机从文本中认识文字,知道要发什么音、使计算机从文本中认识文字,知道要发什么音、使计算机从文本中认识文字,知道要发什么音、使计算机从文本中认识文字,知道要发什么音、怎么发音怎么发音怎么发音怎么发音 还要让计算机知道,在文本中,哪些是词,哪些还要让计算机知道,在文本中,哪些是词,哪些还要让计算机知道,在文本中,哪些是词,哪些还要让计算机知道,在文本中,哪些是词,哪些是短语或句子,发音时应该到哪里停顿及停顿多长是短语或句子,发音时应该到哪里停顿及停顿多长是短语

102、或句子,发音时应该到哪里停顿及停顿多长是短语或句子,发音时应该到哪里停顿及停顿多长时间等。时间等。时间等。时间等。7/25/202473多媒体技术第二章声音媒体(2 2)韵律生成模块)韵律生成模块)韵律生成模块)韵律生成模块韵律特征:音节的不同声调、语气和停顿方式,发韵律特征:音节的不同声调、语气和停顿方式,发音长短等。音长短等。韵律参数:能影响这些特征的声学参数,如基频、韵律参数:能影响这些特征的声学参数,如基频、时长、音强等。时长、音强等。韵律的生成方法:基于规则和数据驱动韵律的生成方法:基于规则和数据驱动 7/25/202474多媒体技术第二章声音媒体基于规则的方法:基于规则的方法: 要

103、求系统设计人员花费大量的时间和精力去研要求系统设计人员花费大量的时间和精力去研究不同语种普遍存在的韵律特征,生成语音的自然究不同语种普遍存在的韵律特征,生成语音的自然度受到较多的限制。只追求发音的自然,掩盖了人度受到较多的限制。只追求发音的自然,掩盖了人的个性。行之有效,大部分汉语语音合成系统采用的个性。行之有效,大部分汉语语音合成系统采用这种方法。这种方法。数据驱动方法数据驱动方法 神经网络或统计驱动。神经网络或统计驱动。实现步骤:实现步骤:首先设计或收集大量语音和文本信息数据首先设计或收集大量语音和文本信息数据然后建立训练模型,并利用韵律参数进行模型训练然后建立训练模型,并利用韵律参数进行

104、模型训练7/25/202475多媒体技术(3 3)语音合成模块)语音合成模块)语音合成模块)语音合成模块语音合成技术经历了一个逐步发展的过程,从参数语音合成技术经历了一个逐步发展的过程,从参数语音合成技术经历了一个逐步发展的过程,从参数语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成,再到两者的逐步结合合成到拼接合成,再到两者的逐步结合合成到拼接合成,再到两者的逐步结合合成到拼接合成,再到两者的逐步结合目前常用的语音合成技术主要有共振峰合成、目前常用的语音合成技术主要有共振峰合成、目前常用的语音合成技术主要有共振峰合成、目前常用的语音合成技术主要有共振峰合成、LPCLPC合成、合成、

105、合成、合成、PSOLAPSOLA(基音同步叠加)拼接合成等技术,(基音同步叠加)拼接合成等技术,(基音同步叠加)拼接合成等技术,(基音同步叠加)拼接合成等技术,其中其中其中其中PSOLAPSOLA合成器结构简单容易实现,已具备一定合成器结构简单容易实现,已具备一定合成器结构简单容易实现,已具备一定合成器结构简单容易实现,已具备一定商业用途。商业用途。商业用途。商业用途。一种新的基于数据库的语音合成方法正引起人们的一种新的基于数据库的语音合成方法正引起人们的一种新的基于数据库的语音合成方法正引起人们的一种新的基于数据库的语音合成方法正引起人们的注意。在这个方法中,合成语句的语音单元是从一注意。在

106、这个方法中,合成语句的语音单元是从一注意。在这个方法中,合成语句的语音单元是从一注意。在这个方法中,合成语句的语音单元是从一个预先录下的庞大的语音数据库中挑选出来的,由个预先录下的庞大的语音数据库中挑选出来的,由个预先录下的庞大的语音数据库中挑选出来的,由个预先录下的庞大的语音数据库中挑选出来的,由于合成的语音基元都是来自自然的原始发音,合成于合成的语音基元都是来自自然的原始发音,合成于合成的语音基元都是来自自然的原始发音,合成于合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然度都将会非常高。语句的清晰度和自然度都将会非常高。语句的清晰度和自然度都将会非常高。语句的清晰度和自然度都

107、将会非常高。 7/25/202476多媒体技术我国语音合成技术的典型代表我国语音合成技术的典型代表我国语音合成技术的典型代表我国语音合成技术的典型代表1998199819981998年中国科技大学在国家年中国科技大学在国家年中国科技大学在国家年中国科技大学在国家863 863 863 863 计划和国家自然科学基金委计划和国家自然科学基金委计划和国家自然科学基金委计划和国家自然科学基金委支持下,研制成功支持下,研制成功支持下,研制成功支持下,研制成功KD-863KD-863KD-863KD-863汉语文语转换系统。在输出语音的汉语文语转换系统。在输出语音的汉语文语转换系统。在输出语音的汉语文语

108、转换系统。在输出语音的音质和自然度上有了突破性的提高。音质和自然度上有了突破性的提高。音质和自然度上有了突破性的提高。音质和自然度上有了突破性的提高。KD- 863KD- 863KD- 863KD- 863采用了一种全新的基于语音数据库的语音合成方法,采用了一种全新的基于语音数据库的语音合成方法,采用了一种全新的基于语音数据库的语音合成方法,采用了一种全新的基于语音数据库的语音合成方法,该技术的基本思想是将实际语流中汉语音节千变万化的音变该技术的基本思想是将实际语流中汉语音节千变万化的音变该技术的基本思想是将实际语流中汉语音节千变万化的音变该技术的基本思想是将实际语流中汉语音节千变万化的音变进

109、行听感上的量化归并,设计出多样本的汉语语音基元库进行听感上的量化归并,设计出多样本的汉语语音基元库进行听感上的量化归并,设计出多样本的汉语语音基元库进行听感上的量化归并,设计出多样本的汉语语音基元库 ,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元,这个库蕴涵了汉语韵律变化信息,合成时只要通过对基元库样本的选取便可实现韵律控制。库样本的选取便可实现韵律控制。库样本的选取便可实现韵律控制。库样本的选取便可实现韵律控制。同时语音基元库中的样本是直接从自然语音中截取,避免了同时语音基元库中的样

110、本是直接从自然语音中截取,避免了同时语音基元库中的样本是直接从自然语音中截取,避免了同时语音基元库中的样本是直接从自然语音中截取,避免了采用信号处理技术获取音变单元对音质的损害,因而合成语采用信号处理技术获取音变单元对音质的损害,因而合成语采用信号处理技术获取音变单元对音质的损害,因而合成语采用信号处理技术获取音变单元对音质的损害,因而合成语音具有接近自然语音的音质。音具有接近自然语音的音质。音具有接近自然语音的音质。音具有接近自然语音的音质。 7/25/202477多媒体技术最近中国科技大学又推出了最近中国科技大学又推出了最近中国科技大学又推出了最近中国科技大学又推出了KD-2000KD-2

111、000KD-2000KD-2000汉语文语转换系汉语文语转换系汉语文语转换系汉语文语转换系统,不仅在语音合成技术方面有进一步的发展,特统,不仅在语音合成技术方面有进一步的发展,特统,不仅在语音合成技术方面有进一步的发展,特统,不仅在语音合成技术方面有进一步的发展,特别是在文本预处理中围绕层次化结构思想,运用大别是在文本预处理中围绕层次化结构思想,运用大别是在文本预处理中围绕层次化结构思想,运用大别是在文本预处理中围绕层次化结构思想,运用大量的统计和规则的方法,较好地解决了三个大的处量的统计和规则的方法,较好地解决了三个大的处量的统计和规则的方法,较好地解决了三个大的处量的统计和规则的方法,较好

112、地解决了三个大的处理环节:特殊符号处理,分词处理和拼接处理,使理环节:特殊符号处理,分词处理和拼接处理,使理环节:特殊符号处理,分词处理和拼接处理,使理环节:特殊符号处理,分词处理和拼接处理,使得汉语文语转换系统的整体性能有很大提高。以得汉语文语转换系统的整体性能有很大提高。以得汉语文语转换系统的整体性能有很大提高。以得汉语文语转换系统的整体性能有很大提高。以KD-KD-KD-KD-2000200020002000文语转换为核心的文语转换为核心的文语转换为核心的文语转换为核心的“畅言畅言畅言畅言2000”2000”2000”2000”智能汉语平台智能汉语平台智能汉语平台智能汉语平台软件已开始进

113、入市场。软件已开始进入市场。软件已开始进入市场。软件已开始进入市场。 7/25/202478多媒体技术语音合成发展方向语音合成发展方向语音合成发展方向语音合成发展方向1 1 1 1提高合成语音的自然度提高合成语音的自然度提高合成语音的自然度提高合成语音的自然度 提高合成语音的自然度仍提高合成语音的自然度仍提高合成语音的自然度仍提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成然是高性能文语转换的当务之急。就汉语语音合成然是高性能文语转换的当务之急。就汉语语音合成然是高性能文语转换的当务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂来说,目前在单字和词组一级上,

114、合成语音的可懂来说,目前在单字和词组一级上,合成语音的可懂来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级度和自然度已基本解决,但是到句子乃至篇章一级度和自然度已基本解决,但是到句子乃至篇章一级度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。时其自然度问题就比较大。时其自然度问题就比较大。时其自然度问题就比较大。 2 2 2 2丰富合成语音的表现力丰富合成语音的表现力丰富合成语音的表现力丰富合成语音的表现力 目前国内外大多数语音合目前国内外大多数语音合目前国内外大多数语音合目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某

115、种朗成研究是针对文语转换系统,且只能解决以某种朗成研究是针对文语转换系统,且只能解决以某种朗成研究是针对文语转换系统,且只能解决以某种朗读风格将书读风格将书读风格将书读风格将书 面语言转换成口语输出,缺乏不同年龄、面语言转换成口语输出,缺乏不同年龄、面语言转换成口语输出,缺乏不同年龄、面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予性别特征及语气、语速的表现,更不用说赋予性别特征及语气、语速的表现,更不用说赋予性别特征及语气、语速的表现,更不用说赋予 个人个人个人个人的感情色彩。的感情色彩。的感情色彩。的感情色彩。 7/25/202479多媒体技术3 3 3 3降低

116、语音合成技术的复杂度降低语音合成技术的复杂度降低语音合成技术的复杂度降低语音合成技术的复杂度 语音合成技术正在走语音合成技术正在走语音合成技术正在走语音合成技术正在走向市场。为了适应社会的需求,扩大文语合成的应向市场。为了适应社会的需求,扩大文语合成的应向市场。为了适应社会的需求,扩大文语合成的应向市场。为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音用场合,除了解决好上面两个问题,提高合成语音用场合,除了解决好上面两个问题,提高合成语音用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用的质量和增强语音合成的表现力以外,在其

117、他实用的质量和增强语音合成的表现力以外,在其他实用的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方。减小音库容量就是化方面也有要加以改进的地方。减小音库容量就是化方面也有要加以改进的地方。减小音库容量就是化方面也有要加以改进的地方。减小音库容量就是一个重要课题。一个重要课题。一个重要课题。一个重要课题。4 4 4 4多语种文语合成多语种文语合成多语种文语合成多语种文语合成 不同语言之间的交流在今天开放不同语言之间的交流在今天开放不同语言之间的交流在今天开放不同语言之间的交流在今天开放 的信息社会和网络时代显得十分重要,多语种的文的信息社会和网络时代显得十分重要,多语种的文

118、的信息社会和网络时代显得十分重要,多语种的文的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值。例如在自动电话翻译,语合成有着独特的应用价值。例如在自动电话翻译,语合成有着独特的应用价值。例如在自动电话翻译,语合成有着独特的应用价值。例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是有声的电子邮件等中都提出多语种的合成,即使是有声的电子邮件等中都提出多语种的合成,即使是有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方对汉语合成也有多方对汉语合成也有多方对汉语合成也有多方 言文语转换的需求。理想的多言文语转换的需求。理想的多言文语转换的需求。理想的多

119、言文语转换的需求。理想的多语种合成系统最好是各种语言共用一种合成算法或语种合成系统最好是各种语言共用一种合成算法或语种合成系统最好是各种语言共用一种合成算法或语种合成系统最好是各种语言共用一种合成算法或语音合成器。语音合成器。语音合成器。语音合成器。7/25/202480多媒体技术本章小结本章小结本章小结本章小结 本章主要介绍了声音媒体的概念及分类、声音本章主要介绍了声音媒体的概念及分类、声音质量的度量、声音信号的数字化过程、质量的度量、声音信号的数字化过程、MIDIMIDI接口和接口和音乐合成、声音格式、音频卡以及语音的输入输出音乐合成、声音格式、音频卡以及语音的输入输出等内容。需要了解声音

120、的基本概念、声音质量的主等内容。需要了解声音的基本概念、声音质量的主客观度量方法、客观度量方法、MIDIMIDI接口和音乐合成以及语音的输接口和音乐合成以及语音的输入输出技术。理解声音的三要素、声音喜好的数字入输出技术。理解声音的三要素、声音喜好的数字化过程、衡量数字化声音的技术指标及音频卡的工化过程、衡量数字化声音的技术指标及音频卡的工作原理。掌握数字化声音存储两的计算及音频卡的作原理。掌握数字化声音存储两的计算及音频卡的使用。使用。 7/25/202481多媒体技术作业和思考题作业和思考题作业和思考题作业和思考题课后题:课后题:课后题:课后题:1 1 1 1,2 2 2 2,3 3 3 3,4 4 4 4,5 5 5 5,6 6 6 6,7 7 7 7 自学自学自学自学GoldWave5.58GoldWave5.58GoldWave5.58GoldWave5.58汉化版,了解数字音频的原理和汉化版,了解数字音频的原理和汉化版,了解数字音频的原理和汉化版,了解数字音频的原理和质量参数,掌握电脑录音的基本方法,掌握声音编质量参数,掌握电脑录音的基本方法,掌握声音编质量参数,掌握电脑录音的基本方法,掌握声音编质量参数,掌握电脑录音的基本方法,掌握声音编辑的基本方法辑的基本方法辑的基本方法辑的基本方法。 7/25/202482多媒体技术

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号