第2章多媒体输入与输出技术

资源描述

《第2章多媒体输入与输出技术》由会员分享，可在线阅读，更多相关《第2章多媒体输入与输出技术（12页珍藏版）》请在金锄头文库上搜索。

1、第2章多媒体输入与输出技术2.1输入与输出的概念2.1.1声音素材的输入与输出在多媒体技术中，人们通常将声音媒体分为波形声音、语音和音乐三类。波形声音从声音是振动波的角度来说，波形声音实际上已经包含了所有的声音形式，是声音的最一般形态。人的说话声不仅是一种波形声音，更重要的是它还包含丰富的语言内涵，是一种特殊的媒体，称之为语音。音乐与语音相比，形式更为规范一些，音乐是符号化的声音，也就是乐曲，乐谱是乐曲的规范表达形式。声音是人耳所感知的空气振动。通常用连续的随时间变化的波形来表示，是模拟信号。波形的最大位移也就是振幅反映音量（音高、响度或强度）。波形中连续两个波峰或波谷之间的时间距

2、离称为周期，周期的倒数称为频率。频率用Hz表示，用来反映声音的音调。声音素材常用的输入方式是，通过声音数字化接口的录音设备将声音直接或转录到计算机中。实际上，这个方法就是将模拟声音信号经过采样、量化进行数字化的过程。1 .采样：以固定的时间间隔（采样周期）抽取模拟信号的幅度值。采样后得到的是离散的声音振幅样本序列，仍是模拟量。采样频率越高，声音的保真度越好，但采样获得的数据量也越大。在 MPC wow gold 中，采样频率标准定为：11,025KHz，22,05KHz，44,1KHz。2. 量化：量化即是将采样得到的声音信号幅度的样本值从模拟量转换成数字量。数字量的二进制位数是量化精

3、度。在MPC中，量化精度标准定为8位和16位。采样和量化过程称为模/数（A / D）转换。3. 编码：把数字化声音信息按一定数据格式表示。常用PCM、DPCM、ADPCM、LPC、MPEG Layer- III等波形声音压缩编码。对于数字化后的波形声音文件，可以使用声音处理实用软件工具对其进行剪切、连接、混合、音调升降处理，并可以为其增加回音、频率过滤、边缘效果等特殊效果。声音信号的输出即声音的重构，将数字化的信号经计算机处理后，还原为模拟信号（D / A转换），通过扬声器转换为声音。2.1.2图像素材的输入与输出图像是表达思想的一种直观方法，传统的图像通过化学摄影术制成，如一张照片，是

4、一幅静态的画面，它一旦形成就很难再改变。数字图像是以0或1的二进制数据表示的，其优点是便于修改、易于复制和保存。数字图像分为矢量图和位图两种形式。位图以点或象素的方式来记录图像，图像由许许多多小点组成。位图图像的优点是色彩显示自然、柔和、逼真。其缺点是图像在放大或缩小的转换过程中会产生失真，且随着图像精度提高或尺寸增大，所占用的磁盘空间也急剧增大。矢量图是以特征数据（特征点坐标、线宽、线条颜色、填充颜色等）的方式来记录图像信息的，由特定软件制作而成。矢量图的优点是信息存储量小，在图像的尺寸放大或缩小过程中图像的质量不会受到影响，而且它是面向对象的，每一个对象都可以任意移动、调整大

5、小或重叠，所以很多3D软件都使用矢量图。矢量图的缺点是用数学方程式来描述图像，运算比较复杂，而且所制作出的图像色彩显示比较单调，图像看上去比较生硬，不够柔和逼真。在图形的复杂程度不大的情况下，矢量图形具有文件短小、可无级缩放等优点。图形图像的采集输入主要有以下途径：用软件创作，扫描仪扫描，数码相机拍摄，数字化仪输入，从屏幕、动画、视频中捕捉等。图形图像可以通过显示器显示输出，或通过打印机、绘图设备打印输出。2.1.3视频素材的输入与输出任何动态图像都是由多幅连续的图像序列构成。每一幅图像沿着时间轴保持一个At时间，以较快的速度顺序更换为另一幅图像，连续不断地显示，就形成了动态图像。当每

6、一帧图像是人工或计算机产生的时候，被称为“动画”，当每一帧图像是通过实时获取的自然景物时，被称为“视频”。视频具有以下特点：具有时间连续性数据量更大帧与帧之间具有很强的相关性对实时性要求很高，必须在规定时间内完成更换画面播放的过程。视频有模拟和数字两种形式。模拟视频可以使用摄像机拍摄获得。获取数字视频信息主要有两种方式：一种是将模拟视频信号数字化；另一种是利用数字摄像机拍摄实际景物，从而直接获得无失真的数字视频。视频素材通常使用显示器显示输出。2.1.4文本素材的输入与输出文本是人们早已熟知的信息表示方式，如一篇文章、一段程序、一个文件都可用文本描述。它通常以字、句子、段落、节

7、、章为单位，记录自然现象、表述思想感情、传达某种信息。人们在阅读时，通常是一字一句、一行一页顺序地浏览。文本是文字、字母、数字和各种功能符号的集合。在现实生活中，人们对事情的讲述、逻辑的推理、数学公式的表述等都主要用文字和数字来准确的表达。在多媒体应用系统中，虽然有图形、声音、视频影像等多种媒体形式，但是对于一些复杂而抽象的事件，文本表达却有它不可替代的独到之处。与其它媒体素材相比，文字输入方便、容易处理。文本信息输入、采集的方法主要有以下几类：(1) 键盘输入方法：键盘输入法是利用键盘，按照一定的编码规则来输入汉字。这是最早采用的文本输入方法，也是现在计算机进行文字输入最普遍的方

8、式。其中，英文字符可以直接从键盘输入，无需编码；汉字输入则必需对汉字编码，可以根据汉字的读音或基本形状用数字或英文字符编码。常用的有“微软拼音输入法”、“五笔字型输入法”等。汉字输入法种类繁多，而且新的输入法还在不断涌现，各种输入法各有特点，功能也不断增强。键盘输入文本的优点是方便快捷，易修改并且不需附加录入设备，缺点是由于使用键盘输入文字通常需要理解和记忆对应的中文输入法的编码规则，因此输入速度较难提高。(2) 语音输入方法随着计算机技术的发展，大量信息输入仅仅通过键盘来完成已经不能满足人们的需要，让计算机能听懂人类语言，或是用语音来控制各种自动化系统，是一种最理想的信息输入选择

9、。语音输入法，是将声音通过话筒输入计算机后直接转换成文字的一种输入方法。利用语音识别技术，计算机能迅速、自然地把读入计算机的声音信息转换成计算机中的文本。语音输入法在硬件方面要求电脑必须配备能正常录音的声卡和录音设备，安装语音识别软件。在调试好麦克风后，即可以对着麦克风进行朗读录入。如果普通话不标准，可用语音识别软件提供的语音训练程序，进行一段时间的训练，让软件熟悉您的口音后，就可以通过讲话来实现文字输入。识别软件将录入的语音信号识别转换为数字文本，实现语音文字输入。目前，语音识别技术整合较好的软件有IBM公司的VIA Vice，VIAVoice标志大词汇量、非特定人和连续语音识别技

10、术正在趋于成熟。国内推出的Dutty +语音识别系统、天信语音识别系统、世音通语音识别系统等也被广泛使用。语音输入方法的优点是可以快捷、自然地完成文本录入，可减轻用户使用键盘输入的疲劳；缺点是错字率仍然比较高，特别是一些未经训练的专业名词及生僻字，因此要求录入者发音比较标准，还需要先使系统适应录入者的语音语调。（3）联机手写识别输入手写输入法是一种用特制的感应书写笔，在与计算机接口相连的手写板上书写文字来完成文本输入的方法。它符合人们用笔写字的习惯，只要将手写板接入计算机，在手写板上按平常的习惯写字，电脑就能将其识别显示出来。联机手写识别输入法中，计算机之所以能感受到手写的笔划顺序，

11、达到识别文字的目的，这是因为手写板结构中使用的电阻或电磁感应方式，将专用笔在运动中的坐标输入计算机，计算机中的文字识别软件根据采集到笔迹之间的位置关系和时间关系信息来识别出书写的文字，并把相应的文字显示在文字录入窗口。目前市场上销售的手写板产品众多，从构成原理来分，主要有电阻式手写板和感应式手写板两类，电阻式手写板一般是中、低档产品，而感应式手写板的识别率一般较高，是目前的高端产品。从外观结构来分也有两类：一类是有连线的有线笔；另一类是无线笔，无线笔特受用户喜爱，是手写板发展的方向。从不同品牌来分，有汉王公司的汉王笔、北大方正的如意笔、摩托罗拉公司的慧笔、台湾蒙恬公司的蒙恬笔、清

12、华紫光笔等。图2-1和图2-2是常见的两款手写笔实物图。图2-1汉王笔和蒙恬全能王实物联机手写识别输入的优点是，不用专门学习训练，即写即得，并且识别率较高，其录入速度取决于书写速度。缺点是不同的字体和潦草的字迹会严重影响识别系统的识别率。手写录入实际上是在OCR （光识别技术）基础上发展的文字录入方法。（4）扫描仪+OCR识别输入法在实际办公中，如果需要进行大量文字录入，如书稿，资料等，仍用手工录入，无疑会浪费许多时间，用扫描转换的方法，可以大大加快文字录入速度，提高工作效率。利用OCR 技术，我们可以把需要的教材、文件、资料等进行扫描转换，生成电子文档，更便于保存。OCR是光学字符识

13、别技术的英文缩写。扫描仪+OCR识别输入就是将印刷品类纸张上的文字以图像的方式扫描到计算机中，再用OCR软件将图像中的文字识别出来，并转换为文本格式的文件。它要求把要输入的文稿首先通过扫描仪转化为图像后才能识别，所以，扫描仪是OCR技术中必须的配置。如果被扫描的原稿印刷质量越高，识别的准确率就越高，一般最好是印刷体的文字，比如图书、杂志等。需要注意的是，扫描仪本身并没有文字识别功能，它只能将文稿扫描到计算机中后以图片的方式保存，文字识别则由OCR软件处理完成。文本信息有使用显示器显示、使用打印机打印等输出方式。2.2输入输出的基本参数2.2.1声音的基本参数模拟音频信号有频率和带宽

14、、周期和幅度等特征。频率，是信号每秒钟变化的次数，单位是Hz。频率高，则音调高，频率低，则音调低。人耳可感受的声音信号频率范围为2020.000Hz。这个范围内的声音信号称为音频（Audio）信号。一般来说，频率范围（带宽）越宽，声音质量越高。淤 CD质量（Super Hi Fi）音频带宽为1020,000Hz% FM无线电广播的带宽为2015,000Hz% AM无线电广播的带宽为507,000Hz% 数字电话话音带宽为2003,000Hz 周期，是相邻声波波峰间的时间间隔。幅度，表示信号强弱的程度。幅度决定声音信号的音量。音频信号由许多不同频率和幅度的信号组成。在复音中，最低频率为基

15、音，其他频率为谐音，基音和谐音组合起来，决定了声音的音色。对声音信号，通常使用响度、音质、客观质量度量及主观质量度量等指标参数来评价。响度的大小决定于发声体振动的振幅，音调的高低决定于发声体振动的频率，音色的不同取决于不同的泛音，每一种乐器、不同的人以及所有能发声的物体发出的声音，除了一个基音外，还有许多不同频率的泛音伴随，正是这些泛音决定了其不同的音色，使人能辨别出是不同的乐器甚至不同的人发出的声音。（1）低于20 Hz的声音称为次声，（2）频率范围在 20 Hz20 kHz范围的可听声称为音频，（3）频率高于20 kHz的称为超音频（或超声），人的发音器官发出的声音频段在80Hz

16、到3400Hz之间，人说话的信号频率在300到3000Hz，有的人将该频段的信号称为语音信号。音质是指声音的品质，主要是衡量声音的上述三方面是否达到一定的水准。即相对于某一频率或频段的音高是否具有一定的强度，并且在要求的频率范围内、同一音量下，各频点的幅度是否均匀、均衡、饱满，频率响应曲线是否平直，声音的音准是否准确，既忠实地呈现了音源频率或成分的原来面目，频率的畸变和相移又符合要求。声音的泛音适中，谐波较丰富，听起来音色就优美动听。用声音信号的带宽来衡量，分为五级。客观质量度量：用信噪比（signal to niose ratio，SNR）衡量，建立在度量均方误差的基础上，计算简单，但不能完全反映人对语音质量的感觉。主观质量度量：用平均意见得分（mean opinion score， MOS

展开阅读全文

第2章 多媒体输入与输出技术

第2章多媒体输入与输出技术