音频基础(一)向辉山东大学计算机学院2003年秋季09 九月 2024多媒体技术-音频基础2本章内容n音频的声学基础n声音的数字化n声音的存储格式nMIDI音乐n语音信号、非语音信号09 九月 2024多媒体技术-音频基础3音频媒体n音频(audio)或声音(sound)n携带信息的极其重要的媒体n多媒体技术研究中的一个重要内容n与视觉媒体相比具有特殊性n不同场合下的重要性不同nPassive viewing (e.g. film, video, etc.)nVideo conferencing09 九月 2024多媒体技术-音频基础4声音的概念n声音是一种机械振动状态的传播现象,它表现为一种机械被即声波n产生声波的条件n有作机械振动的物体:声源n有能传播机械振功的弹性介质n声波在介质中传播有一定速度,称之为声波的传播速度(声速)09 九月 2024多媒体技术-音频基础5声波示意(L. A. Rowe )压缩稀薄时间幅度正弦波09 九月 2024多媒体技术-音频基础6声波频率n声压变化可以是周期性的和非周期性n频率概念n循环(cycle)- 压缩/稀薄过程n频率(frequency):每秒cycle数,单位 hertz (Hz)n周期 – cycle的持续时间 (1/frequency)n声音信号一般由许多频率不同的信号组成,称为复合信号;而单一频率的信号称为分量信号09 九月 2024多媒体技术-音频基础7频率范围n频率小于20Hz 一般称为次声波(subsonic)n人的听觉器官能感知的声音频率范围约为20Hz~20kHz的信号称为音频(Audio)信号n人发音器官发声频率约是80~3400Hz,但人说话的信号频率约为300~3000Hz,即话音(speech)信号n高于20kHz的信号称为超声波 (ultrasonic)n超声波及次声波一般不能引起人听觉器官的感觉,但可借助一些仪器设备进行观察和测量09 九月 2024多媒体技术-音频基础8乐音与噪音n一般乐音指具有确定的基频以及与该基频有较小整数倍关系的各阶谐频(harmonic tone)n频率比基音高的所有分音统称泛音(over tone),泛音的频率不必与基音成整数倍关系n在主观上把令人不愉快或不需要的声音定义为噪音n噪音的频谱较为复杂, 具有无规则的振幅和波形的连续频谱09 九月 2024多媒体技术-音频基础9声音要素(一)n响度(音响)loudnessn到达人耳的声扰动振幅所产生的听觉的大小n声振动能量是物理特性,可用声强(sound pressure)定义,单位:帕斯卡 (Pa)n实用上通常都以对数方式的声压级 (sound pressure level)表示,单位:分贝(db)n响度是主观量,不能用任何仪器正确地测量n声音响度使用了以两个声强之比的对数为基础的相对标度,单位:宋(sone)09 九月 2024多媒体技术-音频基础10声音要素(二)n音调(音高)pitch或tonen人对声音刺激频率的主观判断与估量,称之为音调 (Pitch),单位:美(Mel)nFrequency是物理量,而音调是人的感觉n听觉经验n一般女生的声音比男生高n较大物体振动的音调较低09 九月 2024多媒体技术-音频基础11声音要素(三)n音色(音质)timbern由其频谱决定n不同乐器发出同一音高的乐音,仍然可以分辨n可以把音色描述为音的瞬时横截面,即用谐音(泛音)的数目、强度、分布和相位来描述。
n泛音的强度可使音色发生变化,音色的主观特性比响度或音调的主观特性复杂得多09 九月 2024多媒体技术-音频基础12模拟信号与数字信号n在时间和幅度上连续的信号为模拟(analog)信号n巴时间和幅度都用离散的数字表示的信号就称为数字(digital)信号n采样(sampling)-时间n量化(quantization)-幅度n数字化实际上就是采样和量化09 九月 2024多媒体技术-音频基础13声音的采样和量化§两个关键参数:采样频率与量化精度09 九月 2024多媒体技术-音频基础14采样频率n每秒钟需要采集多少个声音样本n根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的nfs >= 2f 或者 Ts <= T/2n如果一个信号中的最高频率为fmax,采样频率最低要选择2fmax09 九月 2024多媒体技术-音频基础15量化精度§反映度量声音波形幅度的精度,一般用每个声音样本的位数(bit per sample,bps)表示§常见的量化精度有:8与16§声音的质量越高,需要的存储空间越多09 九月 2024多媒体技术-音频基础16声音质量等级质量采样频率(kHz)样本精度(bit/s)单道声/立体声数据率(未压缩)(kb/s)频率范围88单道声64200~3400 HzAM11.0258单道声88.220~15000HzFM22.05016立体声705.650~7000HzCD44.116立体声1411.220~20000 HzDAT4816立体声1536.020~20000 Hz09 九月 2024多媒体技术-音频基础17声音质量的度量§声音质量的评价目前仍然是一个很困难的问题,需要继续研究§声音质量的度量有两种基本的方法§客观质量度量:主要用信噪比(signal to niose ratio,SNR)§主观质量度量:主观平均判分法 §对于图象等其它媒体数据的处理同样存在两种质量度量§主客观结合?09 九月 2024多媒体技术-音频基础18存储格式(一)§用.wav为扩展名的文件格式称为波形文件格式(WAVE File Format)§RIFF:Resource Interchange File Format §IBM和微软公司于1991年8月联合开发§支持存储各种采样频率和样本精度的声音数据,并支持一定的声音数据的压缩§主要用于PC §类似格式§au(SUN),aiff(Apple),snd(SGI)§09 九月 2024多媒体技术-音频基础19存储格式(二)nmp3/mp3 pronRealAudio(ra)/RealMedia(rm)nOgg VorbisnWMAnQuickTime/QDesign MusicnMIDInVQFnMOD。