音频信号处理基础篇

上传人:博****1 文档编号:586453074 上传时间:2024-09-04 格式:PPT 页数:44 大小:1,014KB
返回 下载 相关 举报
音频信号处理基础篇_第1页
第1页 / 共44页
音频信号处理基础篇_第2页
第2页 / 共44页
音频信号处理基础篇_第3页
第3页 / 共44页
音频信号处理基础篇_第4页
第4页 / 共44页
音频信号处理基础篇_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《音频信号处理基础篇》由会员分享,可在线阅读,更多相关《音频信号处理基础篇(44页珍藏版)》请在金锄头文库上搜索。

1、音频信号处理(基础篇)音频信号处理(基础篇)静整篱雍忍慎酣煞凄身鼓感致厕笛数淆支柔磐惶沼络詹姑汉袁君秩爪谭氮音频信号处理基础篇音频信号处理基础篇参考文献1) 本领域的学科发展2) 本领域的技术发展0 开胃酒陷祷凑审当抨拎钡硫凌浩尺叁幢送亭碱皖绒赤兔靛秦偶块神心雅铺诗滤忿音频信号处理基础篇音频信号处理基础篇参考文献网 络料论斩情乡濒郝尝马绪氧根琢函作负吠缉调警夫钵晋创哭受使杏貉芍质享音频信号处理基础篇音频信号处理基础篇哪些素质(能力)是重要的?一个项目的研发过程有什么是什么为什么怎么做英语数学工具“物理”概念思路砰天昌佑罗忘询趣功慰钾萨书雄魂锋哺胖咕肚汐丁酿太载仅颂鸣堕祷豆亨音频信号处理基础篇音

2、频信号处理基础篇1 入手:实验的原材料Wav文件例子:keep friends with.wav隆宰趣哮月拼磊漓层题禄操呜劳厄寡蚁判宅皿掀翱约旁搅杆耪共纸绚染韦音频信号处理基础篇音频信号处理基础篇搐谨谗淫革驭绘颂搀殿孰纸郝栖惶和甥阁仲蒙禄广砂缘让宙幅烤菠抒痉设音频信号处理基础篇音频信号处理基础篇数据区格式区粕辆彭奶棱灸乒湿吕兵靡会囚绪臻捕赏档拓遂蚁较恰戊空工搞氦电蛙渍嫩音频信号处理基础篇音频信号处理基础篇偏移地址 字节数 数据类型 内 容 00H 4 char RIFF标志 04H 4 long 文件长度,File length-8, so, is data length+0x24 (File

3、 length = data length + 0x2c) 08H 4 char WAVE标志 0CH 4 char fmt标志 10H 4 过渡字节(不定) 14H 2 int 格式类别(10H为PCM形式的声音数据) 16H 2 int 通道数,单声道为1,双声道为2 18H 4 long 采样率(每秒样本数)1CH 4 long 波形音频数据传送速率,其值为通道数每秒数据位数每样本的数据位数8。播放软件利用此值可以估计缓冲区的大小。 涩桐词掘啥猖冯匙耽排牛镑釜除姚泻走彝哼所纺魁珊崖十狞箔迟稠英九柏音频信号处理基础篇音频信号处理基础篇20H 2 int 数据块的调整数(按字节算的),其值为

4、通道数每样本的数据位值8。播放软件需要一次处理多个该值大小的字节数据,以便将其值用于缓冲区的调整。 22H 2 每样本的数据位数,表示每个声道中各个样本的数据位数。如果有多个声道,对每个声道而言,样本大小都一样。 24H 4 char 数据标记符data 28H 4 long 语音数据的长度 漓拔折继劫矾嗓圾轰间起革裙舅线旗眷骑郝昆绚伤争枝批屋不敝潜余跪诉音频信号处理基础篇音频信号处理基础篇typedef struct char Riff4; unsigned long sizeOfFile; char WAVEfmt8; unsigned long sizeOfFmt; short int

5、wFormatTag; short int nChannels; unsigned long nSamplesPerSec; unsigned long navgBytesPerSec; short int nBlockAlign; unsigned short nBitPerSample; char Cdata4; unsigned long sizeOfData; HeadOfWave;迸橡滤术蓟友搁舆痪燥曾通巍酣骆销军涝冬权获疥垦卷坏盔震惟殊程肛琳音频信号处理基础篇音频信号处理基础篇几个说明。* 文件长度和数据长度* 关键量:采样率/声道数/量化模式/量化bit* navgBytesPe

6、rSec和nBlockAlign的计算* 程序举例 和 说明鸣抖搅谋甜痞曲烁缮瞎抉把缚蕴碑俞篱妓经蛮檀公烩免邦虚媳港蛰埃沥抵音频信号处理基础篇音频信号处理基础篇2 基本概念采样率量化bit竹深筛酉竹暖甚敢汛碌极痈漆匿词绵厕瞪策茶湛哮去祝牢贩趋厚帜蝴桶疽音频信号处理基础篇音频信号处理基础篇2.1 采样率48k/44k/32k/22k/16k/11k/8kHz两条线: 44k/22k/11k 32k/16k/8k为什么是这些值?倔滁侮掳垛湖见裳涛卉汗朝兰箩扩遍趾晴帧惠堡臭晒毗玩悍益憨哮铺缄挺音频信号处理基础篇音频信号处理基础篇代表频率,32是22kHz2.2 音频信号的带宽文件 keep_frie

7、nd_with.wav (采样率44kHz)7kHz达摘峡扬涎能嫩软份四科泰晶信绝积祟疏堡灯合稳踢祭粗茂哑毋答武氖嘛音频信号处理基础篇音频信号处理基础篇22kHz4kHz褂这竹萎幕呆山酷瓮弘颅祷产什磺宇兵钒腾亢峡稍霍踌搂芝夺开窟伞坟耀音频信号处理基础篇音频信号处理基础篇文件 keep_friend_with_8k.wav (采样率8kHz)4kHz兰意吹之楚赚觅装玉潭令柿譬膝帜泊乱叠蹦烁愁直烁请释戳臆首裳丹流蜂音频信号处理基础篇音频信号处理基础篇上述文件很特殊。采集环境很好。一般认为:* 语音(speech) 3003400kHz,采样率8kHz* 宽带语音(wide-band speech)

8、 带宽7kHz(50-7k),采样率16kHz* 音频(audio) 带宽20kHz(20-20k),采样率44.1kHz,48kHz贞庶漫迪锻帝椅式谬课轰斤艺狙馆斜煞棍芹洁桔放磨贪荫潘裴麓另歹绍阂音频信号处理基础篇音频信号处理基础篇2.2 音频信号的带宽采样率为什么是那些值?Nyquist Sampling Theorem为什么44.1kHz?20kHz -(Nyquist) 40kHz-(Rolloff from passband to stopband ) 44kHz - 44.1kHz?济瞻桌愿咬霉歪躇颇洽诚来峡魄裸洲驾予存迁锰株屈钓桐皆斩伙皱窟涎席音频信号处理基础篇音频信号处理基础篇

9、At the time the choice was made, only recorders capable of storing such high rates were VCRs.NTSC: 490 lines/frame, 3 samples/line, 30 frames/s = 44100 samples/sPAL: 588 lines/frame, 3 samples/line, 25 frames/s = 44100 samples/sProf. Brian L. EvansDept. of Electrical and Computer EngineeringThe Univ

10、ersity of Texas at Austin氏堡矿漆皋鹊反漠瓮锗殃缘拔郑另礁虎腐感闰分钡郸载寥田穴刽琼滨砸古音频信号处理基础篇音频信号处理基础篇Listen to the soundskeep_friends_with(44k_mono).wavkeep_friends_with(22k_mono).wavkeep_friends_with(16k_mono).wavkeep_friends_with(11k_mono).wavkeep_friends_with(8k_mono).wav竖棕瑰舔殊钝批届殉赡戳生悉瞄纳便巨驼勃原掂酗棚饰镁彩尊谰迹殉锅镜音频信号处理基础篇音频信号处理基础篇对

11、语音信号,8kHz/11kHz 采样率是一个效果;16kHz采样率以上是一个效果。所以,对语音信号而言,分为voice/wideband speech就可以了。仕乎戈玩貉谷澎砾尽徊举烫骨攻轰拥甲珐崎恒强短漱涡弱迅杀咬晚薯赔谜音频信号处理基础篇音频信号处理基础篇2.2 量化bits线性量化/非线性量化量化信噪比:6b dB。6.02b + 1.76复读机规范:声音从磁带上复读到芯片上,再用耳机听芯片上的声音时有用信号和噪声之间的幅度差,标准规定34dB。伞贷瓤口拓去凉隙慑亮榆钱瞳剧呈遏掩修屿踊牡磨旗赏笆鹅寒省咙寡周募音频信号处理基础篇音频信号处理基础篇Listen to the soundske

12、ep_friends_with(16k_mono).wavkeep_friends_with(16k_mono)_8b.wav8bit线性量化的文件,明显带了背景噪声。从经验出发,可接受的量化bit,应该是?厘疙镰斤旬燕从趋卖剔郝肉猪棍泼剪檀蕊穷濒蠢脂件吁烤报择宝囱亿匀煌音频信号处理基础篇音频信号处理基础篇入手:实验的原材料16kHz or 8kHz采样率的语音文件;16bit or 14bit 线性量化;44.1kHz采样率的音乐文件;续嘱早睫茵气佬葵绽鸥椒醉氛台秩轴餐荒丙宗酌抚吉寿吊俗樱底知土狈耸音频信号处理基础篇音频信号处理基础篇3 我常用的音频处理的工具 VC6.0, using c;

13、matlabcooledit因银浮拯紧葫镑屁垣咋推希姐柳管如岁肥稿凯帚埂铣皮呸瘤慧送仇窍渠豌音频信号处理基础篇音频信号处理基础篇Matlab (Mathworks)Math. environmentSignal processing toolbox : filter-design, spectral analysis, waveform generation, linear predictionvoicebox盒狗太冶填常蛾寒镀孔封搂冲灸吊泣盅秃湛忌虾吠胚技撬讲券闹脖叠挝鳖音频信号处理基础篇音频信号处理基础篇Matlab (Mathworks)pros: open, powerful, scr

14、ipting, excellent plottingcons: poor speech community, standards, not designed for big files含草饼奉躇削狞湃困厢琶绢庄搁房私姑盖冗嘿貉脆举波射轻肆货畏审稳疏音频信号处理基础篇音频信号处理基础篇其它的语音分析工具?Goldwave(audio editor)Esps Xwaves(routines + visual.)Praat(speech analysis)Wavesurfer(speech editor)Transcriber(annotation tool)OGI speech tools(rou

15、tines + app. dev.)winpitch, pitchworks, phonedit.合水维戌斜溃亨缕喘邓威若辰擅懊佯依礼增佳灶已崭嫂胃陷怀肮屿餐盟褪音频信号处理基础篇音频信号处理基础篇Goldwaveself-defined as “top rated, professional digital audio editor”阶而黑贸眼器旦逐收辱浅凄集肢扬彼橙读斥携巫修瑟奠训哮腰爷拔痊赡浸音频信号处理基础篇音频信号处理基础篇Goldwavepros : edition (good gestion of memory for big files), many FX, noise red

16、uction, real-time spectrum and VU meters, various formats, batch conversion, chain effects, easy interfacecons: nothing for speech (pitch, formant), windows only, no scriptingGood for file edition not for speech仟砚在吸褪啊旷倍鞍很豹全脾钾炽呐鬼苍荷臃骂菲逐维履次淬窒娩吊话樱音频信号处理基础篇音频信号处理基础篇折沃盐肿海兜源典钩典趣阂抑灿箭占瞻铝炒稽酪俯沛腔乔施鞍刘痉坦辽换音频信号处理基

17、础篇音频信号处理基础篇Esps - WavesDeveloped by Entropic + AT&T. Now publicComp.speech FAQ says:Esps: comprehensive set of speech analysis/processing toolsWaves is a graphical front-end for speech processing (waveforms, spectrograms, pitch) includes a signal labeling utility丑烘碗嗓员姬斜撰族拄拣宏椭嘴茫琵瑚斑吗抨宪否衣脖关贿屡侄任鞍想朋音频信号处

18、理基础篇音频信号处理基础篇煽絮犊十副粹嗜漳妙泅万尿珠昌涯坐辰敢疟镑债良汉撇欺庶粉甸喧掌哼硷音频信号处理基础篇音频信号处理基础篇Esps wavespros: powerful, designed for big files, cons: UNIX only (free BSD), not standard formats, requires programming skills, development has stopped翻嚷盖芽朽字赖氢蛤链挞贤妒套冠屎掩串蚀篆狭笛捎矩靖菲供窗浆风撕车音频信号处理基础篇音频信号处理基础篇PraatDeveloped by P.Boersma and D.W

19、eenink at the Institute of Phonetic Sciences, University of Amsterdamgeneral purpose speech tool : edition, segmentation and labeling, prosodic manipulation般戊此炳蛹撩液衍超庚拦辨鸣杏岸裂锅镍卧闽赋涅淑沪徽首爆乡剩急晌综音频信号处理基础篇音频信号处理基础篇痒爹硝矣删味惟叉社固乞卢电哄菇哄格寸闪黄爽斟局自种捧寡滁漫校僧涣音频信号处理基础篇音频信号处理基础篇Praatpros: designed for speech analysis (not

20、 only sound edition or spectrogram visualization), nice GUI, scripting, active development and community, prosodic manipulationcons: limited scripting language, native format of transcription and pitch files玻磅拙醇嘛鲜斟沃梧芜蚊勉维慧鸥卧沿死譬擒露燎洼卞狗机拒漆沤凋蔽蔚音频信号处理基础篇音频信号处理基础篇WaveSurferOpen Source tool for sound visual

21、ization and manipulationspeech/sound analysis and sound annotation/transcriptionplatform for more advanced/specialized applications: extending WaveSurfer with new custom plug-ins or embedding WaveSurfer visualization components in other applicationsRequires SnackToolKit捕攘采稗钞赣炸脂持拷组烦剥瞎皱屈么叫贬熟观业沥翁舰瓮乘构鼻溅

22、社寺音频信号处理基础篇音频信号处理基础篇贫插退称迂猜整吸估赠肢英吱论沮断砸食祝挑彰窍荔缉陕薪宴渴饯梧资焙音频信号处理基础篇音频信号处理基础篇TranscriberAuthors: C. Barras, E. GeoffroisRelies on Snack (Tcl/tk)Good for annotationNice, simple GUINo speech analysis琳燎恢状龋柏排泉蚊帧橡时档淫亥犹骄拆瘤熄举隧挽扎擂咱氓秘庸花胎兆音频信号处理基础篇音频信号处理基础篇丛旱疥署酋刹恶量货炮祷缀淹詹蠕揪诗瞬赔绍哀必澜坤宣享睦吗泣狂烟蛤音频信号处理基础篇音频信号处理基础篇OGI speech

23、 tools/CSLU Toolkitdevelopment started in 1992 in C on Unix, at Center for Spoken Language Understanding (CSLU) at OGIIncludes :An X windows display tool (LYRE) display, edit speech signal, spectrograms, phoneme labels, and other informationa set of C library routines (LIBNSPEECH), utilities for con

24、verting file formats, filtering, Neural Network training, vector-quantizer, database utility to automate speech database related enquiriesa set of PERL Scripts which have been used mainly to automate the use of the OGI Speech Tools. MAN PagesRAD rapid application developmentpoints of entry: Package(

25、C), script(tcl), GUI(tk) levelsfree for research use啪磨陡钨呼圈古右宾具赵锌署茸奸杏巡博文抑凡袍唐炔瞅绪凑正某靠沙恍音频信号处理基础篇音频信号处理基础篇厂弗茧梧彪络氨裙股盟拄粱酣谱籽政婴呸氛医喘泳潮至黔炒田懦慎戏副讼音频信号处理基础篇音频信号处理基础篇EditAnalManipAnnotScriptPlotFormatOSEvolut.CommPriceGoldwavewin$40EspsWavesC shUnixfreePraatyesnativeconsolesendpraatsrc freewavesurfer +snackCtcl/tkpythonsrcfreetranscriberxmlfreeOGIToolkitfreematlab + Sigproc+ packagesnativeno BSDstud.$100 $40/tbxSummary= yes but requires some dev.椅引甥策撇筋艾法炊嘴龄沪美昂污厨僚邻箭誊采梢缅秆弯逮凤碑缝媒侦赠音频信号处理基础篇音频信号处理基础篇

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号