文字声音图像虚拟存储传播

资源描述

《文字声音图像虚拟存储传播》由会员分享，可在线阅读，更多相关《文字声音图像虚拟存储传播（124页珍藏版）》请在金锄头文库上搜索。

1、第1章文本计算机处理的文字信息称为文本。文本存储与传输（阅读器）用户文本处理（文本处理软件）文本生成其他媒体电子文本文本编辑（编辑器）格式化的电子文本文本输入文本展现文本文本信息的输入人工输入自动识别输入印刷体识别手写体识别键盘键盘输入输入语音语音输入输入联机手写输入手写输入手写输入扫描输入扫描输入文本输入扫描臂扫描方向反射镜反射镜反射镜光源镜头CCD玻璃板被扫描图件CCD扫描仪工作原理返回OCR印刷体识别返回扫描后扫描后的图像的图像文本文本预处理版面分析文字切分特征提取字符识别后处理识别后识别后的编码的编码文本文本手写板返回手写板n超文本(hypertext)的

2、阅读方式n传统的顺序式阅读线形文本n通过链接、跳转、导航、回溯等操作实现跳跃式阅读n超文本采用一种网状结构来组织信息n节点（node）n节点包含的内容n超链（hyperlink）n链源（也称之为“锚”）n链宿n超文本的结构超文本超文本的结构如：Windows操作系统中的“帮助” 信息a1a 2b2 c2f 1d1c1b 1e1g1h1返回超文本n超文本节点中的数据从文字扩展为图形、图像、声音、动画、动态视频n把超文本推广到多媒体的形式n超媒体 = 超文本 + 多媒体n如：因特网的WWW信息系统n简单超媒体文档示意图超媒体返回主页(图像)(图形)(声音)(视频)一个声音序列一个视频序列简

3、单超媒体文档示意图第2章声音信息处理声音的相关概念n多媒体技术处理的声音信号n主要是人耳所能接受的频率范围内的声音信号，通常称之为音频n全频带声音音乐声、风雨声、汽车声等其他声音其带宽可达到2020kHzn言语/语音(speech) 人说话的声音其频率范围约为3003400Hzn噪音除语音和音乐外的其他音频信号声波声波是由机械振动产生的波。当声波进入人耳，鼓膜振动导致内耳里的微细感骨的振动，将神经冲击传向大脑，听者感觉到的这些冲击就是声音声音。频率，每秒钟振动的周期数，用Hz表示，1Hz表示每秒振动1次慢声音粗，快声音细振幅，指示了声音的大小高度：记载了每次采样，8个比特

4、(0 255）离散采样，大致描述30个采样假定每个采样之间的高度不变，可以在每个高度之间画一条直线。这种用数字表示的声波叫“分步波形 ”声波的高度为 155，因此这个采样为 “10011011”采样量化的主要技术参数采样速率：采样速率：也叫采样频率，指在记录过程中，每秒钟对声音进行测量的次数，以Hz为单位，1Hz表示每秒钟采样一次。采样速率直接影响到数字声音的精度。采样定理：采样定理：奈奎斯特采样定理，采样的频率高于声音波形中最高频率的2倍，可以完全还原出原声音常用采样频率：常用采样频率：高保真效果：采样频率为44.1kHz（音频的最高频率为20kHz），如音乐CD唱

5、盘的采样频率即为44.1kHz。音乐效果：采样频率为22.05kHz语音效果：采样频率为11.025kHz采样量化的主要技术参数n量化精度：指每个声音样本采样点的幅度量化时采用的二进制的位数，单位bit/s, bps。反映度量声音波形幅度的精度。 n常用的量化精度为8位、12位、16位。 n量化精度越高（即位数越多），声音的质量越高，而需要的存储空间也越多；量化精度越低（即位数越少），声音的质量越低，需要的存储空间越少。n声道数：声音通道的个数，指一次采样记录所产生的声音波形的个数。n单声道：记录声音时，一次只产生一个声波数据。n双声道（立体声）：记录声音时，一次产生两个声波数据

6、。数据量（Byte）（采样频率量化精度声道数时间）/8 声音的相关概念n音频文件的分类：（1）声音文件：指通过声音录入设备录制的原始声音，直接记录了真实声音的二进制采样数据，通常文件较大（2）MIDI文件：它是一种音乐演奏指令序列，相当于乐谱，可以利用声音输出设备或与计算机相连的电子乐器进行演奏，由于不包含声音数据，其文件较小声音信号的数字化1、声音信号的数字化实质n将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程 2、声音信号数字化的过程n n取样取样n取样定理：取样频率不低于声音信号频率的两倍n取样频率：语音8kHz，音乐40kHzn n量化量化n量化精度越

7、高，声音的保真度越高n量化精度：8位，12位，16位n n编码编码n按某种格式将数据进行组织、压缩，便于计算机存储、处理和在网上传输声音信号的数字化3、波形声音的主要参数取样频率取样频率量化位数量化位数声道数目声道数目 1(单声道)、2(双声道)、5.1/7.1(环绕立体声 )使用的压缩编码方案使用的压缩编码方案数码率数码率（bit rate）指的是每秒钟的数据量，也称比特率、码率声音的编码声音的压缩编码的必要性和可能性n波形声音数据压缩的必要性n波形声音，尤其是全频带声音数据量很大n波形声音数据压缩的可能性n声音信号中包含有大量的冗余信息n人的听觉感知特性具有某种不敏感性n相邻的取

8、样信息之间存在很强的相关性声音的编码二、第2代全频带声音的压缩编码 1、MPEG-1声音压缩编码n国际上第一个高保真声音数据压缩的国际标准。分为三个层次：层1(Layer 1)：编码简单用于数字盒式录音磁带层2(Layer 2)：算法复杂度中等用于数字音频广播(DAB)和VCD、DVD等层3(Layer 3)：编码复杂用于互联网上的高质量声音的传输如：MP3音乐压缩10倍声音的编码2、MPEG-2声音压缩编码n采用与MPEG-1声音相同的编译码器n层1, 层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声声音的编码3、杜比数字AC-3（Dolby Digita

9、l AC-3 ）n美国杜比公司开发的多声道全频带声音编码系统n它提供的环绕立体声系统由5个（或7个）全频带声道加一个超低音声道组成n6个声道的信息在制作和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果n在数字电视、DVD和家庭影院中广泛使用声音的编码名称压缩压缩后的码码率（每个声道）声道数目主要应应用MPEG-1 层1384kbps（压缩4倍）2数字盒式录音带MPEG-1 层2256192kbps （压缩68倍）2DAB，VCD， DVD MPEG-1 层3128112kbps （压缩1012倍）2Internet， MP3音乐MPEG-2 audio与MP

10、EG-1层1，层2，层3相同5.1，7.1同MPEG-1Dolby AC- 364kbps5.1，7.1DVD，DTV，家庭影院几种典型的第2代全频带声音压缩编码标准数字音频的处理一、语音合成（Speech synthesis）n根据语言学和自然语言理解的知识，使计算机模仿人的发声，自动生成语音的过程 1、语音合成可分为三个层次： (1)从文字到语音的合成（Text-to- Speech） (2)从概念到语音的合成（Concept-to- Speech） (3)从意向到语音的合成（Intention-to- Speech） n目前主要是按照文本（书面语言）进行语音合成，这个过程称为文语

11、转换（Text-To-Speech，简称TTS）数字音频的处理2、文语（TTS）转换过程n文本分析n韵律分析n语音生成文本文本分析韵律处理语音合成合成语音词典，发音规则韵律规则库语音库数字音频的处理3、语音库n语音库中存储了大量预先录制的语音基元（单音、词组、短语或句子）的波形，合成时读取语音基元的波形，将这些波形进行拼接和韵律修饰，然后输出连续语音流 4、对计算机合成的语音希望能达到的要求n发音清晰可懂n语气语调自然n说话人可选择n语速可变化等数字音频的处理5、计算机合成语音的应用n股票交易、航班动态查询、电话报税等业务n有声E-mail服务nCAI课件或游戏解说词的自动配音n

12、文稿校对、语言学习、语音秘书、自动报警、残疾人服务等 6、语言合成技术的发展方向n（1）提高合成语音的自然度n（2）丰富合成语音的表现力n（3）降低语音合成技术的复杂度n（4）多语种文语合成数字音频的处理二、音乐合成 1、MIDI 音乐设备乐设备数字接口 (Musical Instrument Digital Interface)n计算机中描述乐谱的一种标准描述语言n规定了乐谱的数字表示方法（包括音符、定时、乐器等）和演奏控制器、音源、计算机等相互连接时的通信规程n一首乐曲所对应的全部MIDI消息组成一个MIDI文件nMIDI文件的扩展名为 .MID，它是计算机合成音乐的交换标

13、准，也是商业音乐作品发行的标准数字音频的处理2、相关概念n音符n音乐的基本单元n音符的属性：音调、音色、音强、旋律n音源n也称为音乐合成器（music synthesizer）n它能模仿许多乐器生成各种不同音色的音符n音源一般在声卡上数字音频的处理3、声卡上的音源 1) 调频合成器（FM合成）n一种受控的电子振荡器（波形发生器），能模拟生成许多乐器演奏的音符n特点：音色单调，效果较差2)波表合成器n预先将每种乐器演奏的各个音符的波形数字化，把它们组织成一张表(称为波表)，存放在ROM中n播放时根据乐器类型、音符等参数访问 ROM，取出相应的波形数据，将其修饰成所要求的音强和时长，

14、然后播放出来n特点：音色优美，效果好数字音频的处理4、衡量波表声卡或波表软软件的主要性能指标标：波表库容量复音数特殊效果(回馈、和声、变化)数字音频的处理5、播放MIDI音乐乐的过过程n媒体播放器软件从磁盘上读入MID文件n把其中的一个个MIDI消息发送给声卡上的音乐合成器n由音乐合成器解释并执行MIDI消息所规定的操作n合成出各种音色的音符，通过扬声器播放出乐曲来媒体格式扩展名相关公司或组织主要优点主要缺点适用领域WAVwav Microsoft可通过增加驱动程序而支持各种各样的编码技术不适于传播和用作聆听 Windows平台下使用音频原始素材保存mp3

15、Fraunhofer-IIS在低至128kbps 的比特率下提供接近CD音质的音频质量。广泛的支持音质欠佳一般聆听和高保真聆听Real Media ra RealNetworks在极低的比特率环境下提供可听音频质量不适于除网络传播之外的用途。音质不是很好网络音频流传输音频文件格式媒体格式扩展名相关公司或组织主要优点主要缺点适用领域WindowsMedia功能齐全，使用方便。同时支持无失真、有失真、语音压缩方式失真压缩方式下音质不高。平台限制音频档案级别保存，一般聆听，网络音频流传输wma, asfMicrosoftMID MIDI RMI X

16、MI等音频数据为乐器的演奏控制，通常不带有音频采样没有波表硬件或软件配合时播放效果不佳与电子乐器的数据交互，乐曲创作等MIDI AssociationOgg Vorbis OGG XiphFoundation在极低的比特率环境下提供接近CD音质的音频。开放源代码，跨平台发展较慢，推广力度不足一般聆听和高保真聆听音频文件格式数字音频的处理三、语音识别技术（Automatic Speech Reorganization）如何用计算机将声音数据流映射为相应的一串字符。声卡通过采用语音识别功能，让用户通过说话指挥计算机。1、语音识别器的类型：连续语音识别离散语音识别数字音频的处理2、影响语音识别的因素：词汇量的大小与说话者的相关性环境因素 3、语音识别系统优劣的衡量：

展开阅读全文

文字声音图像虚拟存储传播

最新文档