文字声音图像虚拟存储传播

上传人:宝路 文档编号:47964857 上传时间:2018-07-07 格式:PPT 页数:124 大小:4.97MB
返回 下载 相关 举报
文字声音图像虚拟存储传播_第1页
第1页 / 共124页
文字声音图像虚拟存储传播_第2页
第2页 / 共124页
文字声音图像虚拟存储传播_第3页
第3页 / 共124页
文字声音图像虚拟存储传播_第4页
第4页 / 共124页
文字声音图像虚拟存储传播_第5页
第5页 / 共124页
点击查看更多>>
资源描述

《文字声音图像虚拟存储传播》由会员分享,可在线阅读,更多相关《文字声音图像虚拟存储传播(124页珍藏版)》请在金锄头文库上搜索。

1、第1章 文本计算机处理的文字信息称为文本。 文本存储 与传输(阅读器)用户文本处理(文本处理软件)文本生成其他 媒体电子 文本文本编辑(编辑器) 格式化的 电子文本文本输入文本 展现文本文本信息的输入人工输入自动识别输入印刷体识别手写体识别键盘键盘 输入输入语音语音 输入输入联机手 写输入手写输入手写输入扫描输入扫描输入文本输入扫描臂扫描方向反射镜反射镜反射镜光源镜头CCD玻璃板被扫描图件CCD扫描仪工作原理返回OCR印刷体识别返回扫描后扫描后 的图像的图像 文本文本预处理版面分析文字切分特征提取字符识别后处理识别后识别后 的编码的编码 文本文本手写板返回手写板n超文本(hypertext)的

2、阅读方式n传统的顺序式阅读线形文本n通过链接、跳转、导航、回溯等操作 实现跳跃式阅读n超文本采用一种网状结构来组织 信息n节点(node)n节点包含的内容n超链(hyperlink)n链源(也称之为“锚”)n链宿n超文本的结构超文本超文本的结构如:Windows操作系统中的“帮助” 信息a1a 2b2 c2f 1d1c1b 1e1g1h1返回超文本n超文本节点中的数据从文字扩展为图 形、图像、声音、动画、动态视频n把超文本推广到多媒体的形式n超媒体 = 超文本 + 多媒体n如:因特网的WWW信息系统n简单超媒体文档示意图超媒体返回主页(图像)(图形)(声音)(视频)一个声音序列一个视频 序列简

3、单超媒体文档示意图第2章 声音信息处理声音的相关概念n多媒体技术处理的声音信号n主要是人耳所能接受的频率范围内 的声音信号,通常称之为音频n全频带声音 音乐声、风雨声、汽车声等其他声 音 其带宽可达到2020kHzn言语/语音(speech) 人说话的声音 其频率范围约为3003400Hzn噪音 除语音和音乐外的其他音频信号声波声波是由机械振动产生的波。当声波进入人耳,鼓 膜振动导致内耳里的微细感骨的振动,将神经冲击 传向大脑,听者感觉到的这些冲击就是声音声音。频率,每秒钟振动的周期数,用Hz表 示,1Hz表示每秒振动1次 慢声音粗,快声音细振幅,指示了声音的大小高度:记载了每次采样,8个比特

4、(0 255)离散采样,大致 描述30个采样假定每个采样之间的 高度不变,可以在每 个高度之间画一条直 线。这种用数字表示 的声波叫“分步波形 ”声波的高度为 155,因此这 个采样为 “10011011”采样量化的主要技术参数 采样速率:采样速率:也叫采样频率,指在记录过程中,每秒钟对声音 进行测量的次数,以Hz为单位,1Hz表示每秒钟采样一次。 采样速率直接影响到数字声音的精度。 采样定理:采样定理:奈奎斯特采样定理,采样的频率高于声音波形中 最高频率的2倍,可以完全还原出原声音 常用采样频率:常用采样频率:高保真效果:采样频率为44.1kHz(音频的最高频率 为20kHz),如音乐CD唱

5、盘的采样频率即为44.1kHz。音乐效果:采样频率为22.05kHz语音效果:采样频率为11.025kHz采样量化的主要技术参数n量化精度:指每个声音样本采样点的幅度量化时 采用的二进制的位数,单位bit/s, bps。反映度量 声音波形幅度的精度。 n常用的量化精度为8位、12位、16位。 n量化精度越高(即位数越多),声音的质量越 高,而需要的存储空间也越多;量化精度越低(即位 数越少),声音的质量越低,需要的存储空间越少。n声道数:声音通道的个数,指一次采样记录所产 生的声音波形的个数。n单声道:记录声音时,一次只产生一个声波数 据。n双声道(立体声):记录声音时,一次产生两 个声波数据

6、。 数据量(Byte)(采样频率量化精度声道数时间)/8 声音的相关概念n音频文件的分类: (1)声音文件:指通过声音录入 设备录制的原始声音,直接记录了真实 声音的二进制采样数据,通常文件较大 (2)MIDI文件:它是一种音乐 演奏指令序列,相当于乐谱,可以利用 声音输出设备或与计算机相连的电子乐 器进行演奏,由于不包含声音数据,其 文件较小声音信号的数字化1、声音信号的数字化实质n将模拟声音信号转换成数字编码形式以便于计 算机进行处理的过程 2、声音信号数字化的过程n n取样取样n取样定理:取样频率不低于声音信号频率的 两倍n取样频率:语音8kHz,音乐40kHzn n量化量化n量化精度越

7、高,声音的保真度越高n量化精度:8位,12位,16位n n编码编码n按某种格式将数据进行组织、压缩,便于 计算机存储、处理和在网上传输声音信号的数字化3、波形声音的主要参数取样频率取样频率量化位数量化位数声道数目声道数目 1(单声道)、2(双声道)、5.1/7.1(环绕立体声 )使用的压缩编码方案使用的压缩编码方案数码率数码率(bit rate) 指的是每秒钟的数据量,也称比特率、 码率声音的编码声音的压缩编码的必要性和可能性n波形声音数据压缩的必要性n波形声音,尤其是全频带声音数据 量很大n波形声音数据压缩的可能性n声音信号中包含有大量的冗余信息n人的听觉感知特性具有某种不敏感 性n相邻的取

8、样信息之间存在很强的相 关性声音的编码二、第2代全频带声音的压缩编码 1、MPEG-1声音压缩编码n国际上第一个高保真声音数据压 缩的国际标准。分为三个层次:层1(Layer 1):编码简单 用于数字盒式录音磁带层2(Layer 2):算法复杂度中等 用于数字音频广播(DAB)和VCD、DVD等层3(Layer 3):编码复杂 用于互联网上的高质量声音的传输 如:MP3音乐压缩10倍声音的编码2、MPEG-2声音压缩编码n采用与MPEG-1声音相同的编译码器n层1, 层2和层3的结构也相同,但 它能支持5.1声道和7.1声道的环绕立体 声声音的编码3、杜比数字AC-3(Dolby Digita

9、l AC-3 )n美国杜比公司开发的多声道全频带 声音编码系统n它提供的环绕立体声系统由5个( 或7个)全频带声道加一个超低音声道组 成n6个声道的信息在制作和还原过程 中全部数字化,信息损失很少,细节丰 富,具有真正的立体声效果n在数字电视、DVD和家庭影院中广 泛使用声音的编码名称压缩压缩 后的码码率(每个声道 )声道数目主要应应用MPEG-1 层1384kbps(压缩4倍)2数字盒式录音带MPEG-1 层2256192kbps (压缩68倍)2DAB,VCD, DVD MPEG-1 层3128112kbps (压缩1012倍)2Internet, MP3音乐MPEG-2 audio与MP

10、EG-1层1,层2,层3相同5.1,7.1同MPEG-1Dolby AC- 364kbps5.1,7.1DVD,DTV,家 庭影院几种典型的第2代全频带声音压缩编码标准数字音频的处理一、语音合成(Speech synthesis)n根据语言学和自然语言理解的知识, 使计算机模仿人的发声,自动生成语音的过 程 1、语音合成可分为三个层次: (1)从文字到语音的合成(Text-to- Speech) (2)从概念到语音的合成(Concept-to- Speech) (3)从意向到语音的合成(Intention-to- Speech) n目前主要是按照文本(书面语言)进 行语音合成,这个过程称为文语

11、转换 (Text-To-Speech,简称TTS)数字音频的处理2、文语(TTS)转换过程n文本分析n韵律分析n语音生成文本文本分析韵律处理语音合成合成 语音词典,发音规则韵律规则库语音库数字音频的处理3、语音库n语音库中存储了大量预先录制的语音基元 (单音、词组、短语或句子)的波形,合成时读 取语音基元的波形,将这些波形进行拼接和韵律 修饰,然后输出连续语音流 4、对计算机合成的语音希望 能达到的要求n发音清晰可懂n语气语调自然n说话人可选择n语速可变化等数字音频的处理5、计算机合成语音的应用n股票交易、航班动态查询、电话报 税等业务n有声E-mail服务nCAI课件或游戏解说词的自动配音n

12、文稿校对、语言学习、语音秘书、 自动报警、残疾人服务等 6、语言合成技术的发展方向n(1)提高合成语音的自然度n(2)丰富合成语音的表现力n(3)降低语音合成技术的复杂度n(4)多语种文语合成 数字音频的处理二、音乐合成 1、MIDI 音乐设备乐设备 数字接口 (Musical Instrument Digital Interface)n计算机中描述乐谱的一种标准描述 语言n规定了乐谱的数字表示方法(包括 音符、定时、乐器等)和演奏控制器、 音源、计算机等相互连接时的通信规程n一首乐曲所对应的全部MIDI消息组 成一个MIDI文件nMIDI文件的扩展名为 .MID,它是 计算机合成音乐的交换标

13、准, 也是商业音乐作品发行的标准数字音频的处理2、相关概念n音符n音乐的基本单元n音符的属性:音调、音色、音强、 旋律n音源n也称为音乐合成器(music synthesizer)n它能模仿许多乐器生成各种不同音色的 音符n音源一般在声卡上数字音频的处理3、声卡上的音源 1) 调频合成器(FM合成)n一种受控的电子振荡器(波形发生器) ,能模拟生成许多乐器演奏的音符n特点:音色单调,效果较差2)波表合成器n预先将每种乐器演奏的各个音符的波形 数字化,把它们组织成一张表(称为波表), 存放在ROM中n播放时根据乐器类型、音符等参数访问 ROM,取出相应的波形数据,将其修饰成所要 求的音强和时长,

14、然后播放出来n特点:音色优美,效果好数字音频的处理4、衡量波表声卡或波表软软 件的主要性能指标标:波表库容量 复音数 特殊效果(回馈、和声、变化)数字音频的处理5、播放MIDI音乐乐的过过程n媒体播放器软件从磁盘上读入MID文 件n把其中的一个个MIDI消息发送给声 卡上的音乐合成器n由音乐合成器解释并执行MIDI消息 所规定的操作n合成出各种音色的音符,通过扬声 器播放出乐曲来媒体格式 扩展名 相关公司或组织 主要优点 主要缺点 适用领域WAVwav Microsoft可通过增加驱 动程序而支持 各种各样的编 码技术不适于传播 和用作聆听 Windows平 台下使用音频原始素 材保存mp3

15、Fraunhofer-IIS在低至128kbps 的比特率下提 供接近CD音质 的音频质量。 广泛的支持音质欠佳一般聆听和 高保真聆听Real Media ra RealNetworks在极低的比特 率环境下提供 可听音频质量不适于除网 络传播之外 的用途。音 质不是很好网络音频流 传输音频文件格式媒体格式 扩展名 相关公司或组织 主要优点 主要缺点 适用领域WindowsMedia功能齐全,使 用方便。同时 支持无失真、 有失真、语音 压缩方式失真压缩方 式下音质不 高。平台限 制音频档案级 别保存,一 般聆听,网 络音频流传 输wma, asfMicrosoftMID MIDI RMI X

16、MI等音频数据为乐 器的演奏控制 ,通常不带有 音频采样没有波表硬 件或软件配 合时播放效 果不佳与电子乐器 的数据交互 ,乐曲创作 等MIDI AssociationOgg Vorbis OGG XiphFoundation在极低的比特 率环境下提供 接近CD音质的 音频。开放源 代码,跨平台发展较慢, 推广力度不 足一般聆听和 高保真聆听音频文件格式数字音频的处理三、语音识别技术 (Automatic Speech Reorganization) 如何用计算机将声音数据流映射为 相应的一串字符。声卡通过采用语音识 别功能,让用户通过说话指挥计算机。1、语音识别器的类型: 连续语音识别 离散语音识别数字音频的处理2、影响语音识别的因素:词汇量的大小与说话者的相关性环境因素 3、语音识别系统优劣的衡量:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号