最新多媒体技术及其新发展ppt课件

资源描述

《最新多媒体技术及其新发展ppt课件》由会员分享，可在线阅读，更多相关《最新多媒体技术及其新发展ppt课件（59页珍藏版）》请在金锄头文库上搜索。

1、多媒体技术及其新发展多媒体技术及其新发展报告提纲报告提纲什么是多媒体什么是多媒体什么是多媒体什么是多媒体语音处理技术语音处理技术语音处理技术语音处理技术图像、视频处理技术图像、视频处理技术图像、视频处理技术图像、视频处理技术多媒体人机交互技术多媒体人机交互技术多媒体人机交互技术多媒体人机交互技术多媒体信息检索多媒体信息检索多媒体信息检索多媒体信息检索多媒体传输（流媒体和多媒体传输（流媒体和多媒体传输（流媒体和多媒体传输（流媒体和P2PP2P）未来的发展未来的发展未来的发展未来的发展1声音的特点声音的特点声音的特点声音的特点声音是一种弹性波，声音信号可以分成周期信号与非周期信号两类。声音

2、的质量与声音的频率范围有关。人的听觉器官能感知的频率范围为2020000Hz ,能感知的声音幅度范围在0120dB之间，而人的发音器官能够发出的声音频率范围为803,400Hz。语音处理技术语音处理技术1分钟数字音频信号需要的存储空间语音处理技术语音处理技术音频压缩技术音频压缩技术音频压缩技术音频压缩技术音频文件格式音频文件格式音频文件格式音频文件格式主要用在主要用在PCPC上的以上的以. .wavwav为扩展名的文件格式为扩展名的文件格式主要用在主要用在UnixUnix工作站上的以工作站上的以. .auau为扩展名的文件格式为扩展名的文件格式主要用在苹果机和美国视算科技有限公司的工作站上

3、的主要用在苹果机和美国视算科技有限公司的工作站上的以以. .aiffaiff和和. .sndsnd为扩展名的文件格式为扩展名的文件格式目前流行的格式目前流行的格式. .rmrm、.mp3.mp3、. .wmawma 语音压缩标准语音压缩标准语音压缩标准语音压缩标准G.711G.711G.711G.711、G.723.1G.723.1G.723.1G.723.1、GSMGSMGSMGSM、MPEG Audio Layer 3MPEG Audio Layer 3MPEG Audio Layer 3MPEG Audio Layer 3（MP3MP3MP3MP3）语音压缩技术语音压缩技术语音压缩技术

4、语音压缩技术语音处理技术语音处理技术音频压缩技术音频压缩技术音频压缩技术音频压缩技术音频压缩技术指的是对原始数字音频信号流（音频压缩技术指的是对原始数字音频信号流（音频压缩技术指的是对原始数字音频信号流（音频压缩技术指的是对原始数字音频信号流（PCMPCMPCMPCM编码）编码）编码）编码）运用适当的数字信号处理技术，在不损失有用信息量，或运用适当的数字信号处理技术，在不损失有用信息量，或运用适当的数字信号处理技术，在不损失有用信息量，或运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称所引入损失可忽略的条件下，降低（压缩）其码率，也称所引入损

5、失可忽略的条件下，降低（压缩）其码率，也称所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解为压缩编码。它必须具有相应的逆变换，称为解压缩或解为压缩编码。它必须具有相应的逆变换，称为解压缩或解为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪码。音频信号在通过一个编解码系统后可能引入大量的噪码。音频信号在通过一个编解码系统后可能引入大量的噪码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。声和一定的失真。声和一定的失真。声和一定的失真。研究发现，直接采用研究发现，直接采用研究发

6、现，直接采用研究发现，直接采用PCMPCMPCMPCM码流进行存储和传输存在非常大码流进行存储和传输存在非常大码流进行存储和传输存在非常大码流进行存储和传输存在非常大的冗余度。事实上，在无损的条件下对声音至少可进行的冗余度。事实上，在无损的条件下对声音至少可进行的冗余度。事实上，在无损的条件下对声音至少可进行的冗余度。事实上，在无损的条件下对声音至少可进行4:14:14:14:1压缩，即只用压缩，即只用压缩，即只用压缩，即只用25252525的数字量保留所有的信息的数字量保留所有的信息的数字量保留所有的信息的数字量保留所有的信息语音处理技术语音处理技术MP3MP3音频压缩编码音频压缩编码音频压

7、缩编码音频压缩编码 MP3MP3是一种音频压缩的国际技术标准。是一种音频压缩的国际技术标准。是一种音频压缩的国际技术标准。是一种音频压缩的国际技术标准。MP3MP3格式开始于格式开始于格式开始于格式开始于二十世纪二十世纪二十世纪二十世纪8080年代中期，是在德国夫朗和费研究所年代中期，是在德国夫朗和费研究所年代中期，是在德国夫朗和费研究所年代中期，是在德国夫朗和费研究所（Fraunhofer InstituteFraunhofer Institute）开始的，研究致力于高质量、低）开始的，研究致力于高质量、低）开始的，研究致力于高质量、低）开始的，研究致力于高质量、低数据率的声音编码数据率的声

8、音编码数据率的声音编码数据率的声音编码MP3MP3格式是一个让音乐界产生巨大震动的一个声音格式。格式是一个让音乐界产生巨大震动的一个声音格式。格式是一个让音乐界产生巨大震动的一个声音格式。格式是一个让音乐界产生巨大震动的一个声音格式。MP3MP3的全称是的全称是的全称是的全称是Moving Picture Experts Group, Audio Moving Picture Experts Group, Audio Layer 3Layer 3，它所使用的技术是在，它所使用的技术是在，它所使用的技术是在，它所使用的技术是在VCDVCD（MPEG-1MPEG-1）的音频）的音频）的音频）的音频

9、压缩技术上发展出的第三代，而不是压缩技术上发展出的第三代，而不是压缩技术上发展出的第三代，而不是压缩技术上发展出的第三代，而不是MPEG-3MPEG-3。 MP3MP3的压缩率则高达的压缩率则高达的压缩率则高达的压缩率则高达10:110:112:112:1，也就是说一分钟，也就是说一分钟，也就是说一分钟，也就是说一分钟CDCD音音音音质的音乐未经压缩需要质的音乐未经压缩需要质的音乐未经压缩需要质的音乐未经压缩需要10MB10MB存储空间，而经过存储空间，而经过存储空间，而经过存储空间，而经过MP3MP3压缩压缩压缩压缩编码后只有编码后只有编码后只有编码后只有1MB1MB左右，同时其音质基本保持

10、不失真。左右，同时其音质基本保持不失真。左右，同时其音质基本保持不失真。左右，同时其音质基本保持不失真。语音处理技术语音处理技术三维音效三维音效三维音效三维音效日常生活中，我们用两只耳朵来听东西，从各处音源中获日常生活中，我们用两只耳朵来听东西，从各处音源中获日常生活中，我们用两只耳朵来听东西，从各处音源中获日常生活中，我们用两只耳朵来听东西，从各处音源中获得信息，再通过人脑的计算来定位声音。计算机模拟人脑得信息，再通过人脑的计算来定位声音。计算机模拟人脑得信息，再通过人脑的计算来定位声音。计算机模拟人脑得信息，再通过人脑的计算来定位声音。计算机模拟人脑的的的的3D3D（三维）音效计算，通过

11、数字音源播放出来，让我（三维）音效计算，通过数字音源播放出来，让我（三维）音效计算，通过数字音源播放出来，让我（三维）音效计算，通过数字音源播放出来，让我们感到自己处身于虚拟的世界。们感到自己处身于虚拟的世界。们感到自己处身于虚拟的世界。们感到自己处身于虚拟的世界。既然在现实世界中，我们可以用一双耳朵分辨出既然在现实世界中，我们可以用一双耳朵分辨出既然在现实世界中，我们可以用一双耳朵分辨出既然在现实世界中，我们可以用一双耳朵分辨出3D3D音场，音场，音场，音场，那么仅靠贴近耳朵的两只耳机也能实现近似效果。用两只那么仅靠贴近耳朵的两只耳机也能实现近似效果。用两只那么仅靠贴近耳朵的两只耳机也能实

12、现近似效果。用两只那么仅靠贴近耳朵的两只耳机也能实现近似效果。用两只扬声器也可以吗？扬声器也可以吗？扬声器也可以吗？扬声器也可以吗？语音处理技术语音处理技术三维音效三维音效三维音效三维音效人耳的基本声音定位原理是人耳的基本声音定位原理是人耳的基本声音定位原理是人耳的基本声音定位原理是IIDIID（两侧声音强度差别）和（两侧声音强度差别）和（两侧声音强度差别）和（两侧声音强度差别）和ITDITD（两侧声音时间延迟差别）。（两侧声音时间延迟差别）。（两侧声音时间延迟差别）。（两侧声音时间延迟差别）。耳廓（外耳）的作用是滤波器，根据声音的不同角度，加耳廓（外耳）的作用是滤波器，根据声音的不同角度，

13、加耳廓（外耳）的作用是滤波器，根据声音的不同角度，加耳廓（外耳）的作用是滤波器，根据声音的不同角度，加强强强强/ /减弱音波能量，过滤之后传给大脑，让我们更准确地减弱音波能量，过滤之后传给大脑，让我们更准确地减弱音波能量，过滤之后传给大脑，让我们更准确地减弱音波能量，过滤之后传给大脑，让我们更准确地确定声源的位置。确定声源的位置。确定声源的位置。确定声源的位置。许多时候，我们听到的声音并不是直线进入耳朵，而是通许多时候，我们听到的声音并不是直线进入耳朵，而是通许多时候，我们听到的声音并不是直线进入耳朵，而是通许多时候，我们听到的声音并不是直线进入耳朵，而是通过了几次反射才进入大脑。在音波行进的

14、过程中，音波能过了几次反射才进入大脑。在音波行进的过程中，音波能过了几次反射才进入大脑。在音波行进的过程中，音波能过了几次反射才进入大脑。在音波行进的过程中，音波能量会减弱，再加上反射造成的消音和延迟作用，声音已经量会减弱，再加上反射造成的消音和延迟作用，声音已经量会减弱，再加上反射造成的消音和延迟作用，声音已经量会减弱，再加上反射造成的消音和延迟作用，声音已经有了变化，这种反射混合起来的效果称为交互混响。有了变化，这种反射混合起来的效果称为交互混响。有了变化，这种反射混合起来的效果称为交互混响。有了变化，这种反射混合起来的效果称为交互混响。模拟模拟模拟模拟3D3D音效需要还原以上定位效果：

15、音效需要还原以上定位效果：音效需要还原以上定位效果：音效需要还原以上定位效果：IIDIID、ITDITD、耳廓、耳廓、耳廓、耳廓、反射，并分析不同角度声音发生的变化，通过计算机模拟反射，并分析不同角度声音发生的变化，通过计算机模拟反射，并分析不同角度声音发生的变化，通过计算机模拟反射，并分析不同角度声音发生的变化，通过计算机模拟合成来建立一种虚拟声音系统合成来建立一种虚拟声音系统合成来建立一种虚拟声音系统合成来建立一种虚拟声音系统-数字化音场。数字化音场。数字化音场。数字化音场。语音处理技术语音处理技术3D3D音效的分类音效的分类音效的分类音效的分类扩展式立体声扩展式立体声扩展式立体声扩展

16、式立体声它使用声音延迟技术对传统的立体声进行额外处理，扩宽了音场的位它使用声音延迟技术对传统的立体声进行额外处理，扩宽了音场的位它使用声音延迟技术对传统的立体声进行额外处理，扩宽了音场的位它使用声音延迟技术对传统的立体声进行额外处理，扩宽了音场的位置，使声音延展到音箱以外的空间，让我们感觉的置，使声音延展到音箱以外的空间，让我们感觉的置，使声音延展到音箱以外的空间，让我们感觉的置，使声音延展到音箱以外的空间，让我们感觉的3D3D3D3D世界更广阔。世界更广阔。世界更广阔。世界更广阔。环绕立体声环绕立体声环绕立体声环绕立体声它采用音频压缩技术它采用音频压缩技术它采用音频压缩技术它采用音频压缩技

17、术( ( ( (如：杜比如：杜比如：杜比如：杜比AC-3)AC-3)AC-3)AC-3)把多通道音源编码成一段程序，把多通道音源编码成一段程序，把多通道音源编码成一段程序，把多通道音源编码成一段程序，再以一组多扬声器系统来进行解码，实现多区域环绕效果。这也是一再以一组多扬声器系统来进行解码，实现多区域环绕效果。这也是一再以一组多扬声器系统来进行解码，实现多区域环绕效果。这也是一再以一组多扬声器系统来进行解码，实现多区域环绕效果。这也是一种被动播放音轨的技术，最适合于电影播放。种被动播放音轨的技术，最适合于电影播放。种被动播放音轨的技术，最适合于电影播放。种被动播放音轨的技术，最适合于电影播放。

18、交互式交互式交互式交互式3D3D3D3D音效音效音效音效交互式交互式交互式交互式3D3D3D3D尽量地复制了人耳在真实世界中听到的声音，并使用一定的尽量地复制了人耳在真实世界中听到的声音，并使用一定的尽量地复制了人耳在真实世界中听到的声音，并使用一定的尽量地复制了人耳在真实世界中听到的声音，并使用一定的算法来播放出来，让我们感到整个三维空间的所有地方都可能产生声算法来播放出来，让我们感到整个三维空间的所有地方都可能产生声算法来播放出来，让我们感到整个三维空间的所有地方都可能产生声算法来播放出来，让我们感到整个三维空间的所有地方都可能产生声音，并随听者的移动而做出相应改变。它是最接近实际生活的

19、音，并随听者的移动而做出相应改变。它是最接近实际生活的音，并随听者的移动而做出相应改变。它是最接近实际生活的音，并随听者的移动而做出相应改变。它是最接近实际生活的3D3D3D3D音效，音效，音效，音效，通常应用于第一人称通常应用于第一人称通常应用于第一人称通常应用于第一人称3D3D3D3D游戏。游戏。游戏。游戏。语音处理技术语音处理技术语音识别语音识别语音识别语音识别“让计算机能和人类自由交流让计算机能和人类自由交流让计算机能和人类自由交流让计算机能和人类自由交流”一直是人们的梦想，语言一直是人们的梦想，语言一直是人们的梦想，语言一直是人们的梦想，语言是描述人类思维的工具之一，因此将人类语言

20、和计算机联是描述人类思维的工具之一，因此将人类语言和计算机联是描述人类思维的工具之一，因此将人类语言和计算机联是描述人类思维的工具之一，因此将人类语言和计算机联系起来，应当是实现这一梦想的重要一步。系起来，应当是实现这一梦想的重要一步。系起来，应当是实现这一梦想的重要一步。系起来，应当是实现这一梦想的重要一步。语音识别技术是语音处理技术中最具有挑战性和最富有应语音识别技术是语音处理技术中最具有挑战性和最富有应语音识别技术是语音处理技术中最具有挑战性和最富有应语音识别技术是语音处理技术中最具有挑战性和最富有应用前景的技术。用前景的技术。用前景的技术。用前景的技术。语音识别是一个多学科交叉的领

21、域，它与声学、语音学、语音识别是一个多学科交叉的领域，它与声学、语音学、语音识别是一个多学科交叉的领域，它与声学、语音学、语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多语言学、数字信号处理理论、信息论、计算机科学等众多语言学、数字信号处理理论、信息论、计算机科学等众多语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。学科紧密相连。学科紧密相连。学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只由于语音信号的多样性和复杂性，目前的语音识别系统只由于语音信号的多样性和复杂性，目前的语音识别系统只由于语音信号的多样性

22、和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用能在一定的限制条件下获得满意的性能，或者说只能应用能在一定的限制条件下获得满意的性能，或者说只能应用能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于于某些特定的场合。语音识别系统的性能大致取决于于某些特定的场合。语音识别系统的性能大致取决于于某些特定的场合。语音识别系统的性能大致取决于4 4 4 4类类类类因素：因素：因素：因素：1. 1. 1. 1. 识别词汇表的大小和语音的复杂性；识别词汇表的大小和语音的复杂性；识别词汇表的大小和语音的复杂性；识别词汇表的大小和语

23、音的复杂性；2. 2. 2. 2. 语音信语音信语音信语音信号的质量；号的质量；号的质量；号的质量；3. 3. 3. 3. 单个说话人还是多说话人；单个说话人还是多说话人；单个说话人还是多说话人；单个说话人还是多说话人；4. 4. 4. 4. 硬件。硬件。硬件。硬件。语音处理技术语音处理技术语音识别系统的原理框图语音识别系统的原理框图语音识别系统的原理框图语音识别系统的原理框图语音处理技术语音处理技术IBMIBM语音识别输入系统语音识别输入系统 ViaVoice Pro 9.1 ViaVoice Pro 9.1该系统可用于声控打字和语音导航。只要对着微机讲话，该系统可用于声控打字和语音导航

24、。只要对着微机讲话，该系统可用于声控打字和语音导航。只要对着微机讲话，该系统可用于声控打字和语音导航。只要对着微机讲话，不用敲键盘即可打汉字，每分钟可输入不用敲键盘即可打汉字，每分钟可输入不用敲键盘即可打汉字，每分钟可输入不用敲键盘即可打汉字，每分钟可输入150150150150个汉字，是键个汉字，是键个汉字，是键个汉字，是键盘输入的两倍，是普通手写输入的六倍。该系统识别率可盘输入的两倍，是普通手写输入的六倍。该系统识别率可盘输入的两倍，是普通手写输入的六倍。该系统识别率可盘输入的两倍，是普通手写输入的六倍。该系统识别率可达达达达95%95%95%95%以上。以上。以上。以上。IBMIBMIB

25、MIBM潜心研究潜心研究潜心研究潜心研究26262626年，领导了世界的语音识别技术，其语音年，领导了世界的语音识别技术，其语音年，领导了世界的语音识别技术，其语音年，领导了世界的语音识别技术，其语音识别产品在全球销售已达一百万套以上。识别产品在全球销售已达一百万套以上。识别产品在全球销售已达一百万套以上。识别产品在全球销售已达一百万套以上。语音处理技术语音处理技术自然语言理解自然语言理解自然语言理解自然语言理解自然语言理解自然语言理解自然语言理解自然语言理解(NLU(NLU，Natural Language Understanding)Natural Language Understand

26、ing)就是研究如何能让计算机理解并生成人们日常所使用的就是研究如何能让计算机理解并生成人们日常所使用的就是研究如何能让计算机理解并生成人们日常所使用的就是研究如何能让计算机理解并生成人们日常所使用的( (如汉语、英语如汉语、英语如汉语、英语如汉语、英语) )语言，使得计算机懂得自然语言的含义，语言，使得计算机懂得自然语言的含义，语言，使得计算机懂得自然语言的含义，语言，使得计算机懂得自然语言的含义，并对人给计算机提出的问题，通过对话的方式，用自然语并对人给计算机提出的问题，通过对话的方式，用自然语并对人给计算机提出的问题，通过对话的方式，用自然语并对人给计算机提出的问题，通过对话的方式，用自

27、然语言进行回答。言进行回答。言进行回答。言进行回答。自然语言处理的核心技术是语言分析技术，即将句子（数自然语言处理的核心技术是语言分析技术，即将句子（数自然语言处理的核心技术是语言分析技术，即将句子（数自然语言处理的核心技术是语言分析技术，即将句子（数量无限）变换成由词语（数量可控）及其抽象形式（数量量无限）变换成由词语（数量可控）及其抽象形式（数量量无限）变换成由词语（数量可控）及其抽象形式（数量量无限）变换成由词语（数量可控）及其抽象形式（数量有限）构成的用某种数据结构（句法树、复杂特征集或语有限）构成的用某种数据结构（句法树、复杂特征集或语有限）构成的用某种数据结构（句法树、复杂特征集或

28、语有限）构成的用某种数据结构（句法树、复杂特征集或语义网络）表示的内部形式（数量有限）。义网络）表示的内部形式（数量有限）。义网络）表示的内部形式（数量有限）。义网络）表示的内部形式（数量有限）。语言分析可以划分为词法析、句法分析、语义分析、篇章语言分析可以划分为词法析、句法分析、语义分析、篇章语言分析可以划分为词法析、句法分析、语义分析、篇章语言分析可以划分为词法析、句法分析、语义分析、篇章分析等步骤。现在，词法分析和句法分析相对成熟，语义分析等步骤。现在，词法分析和句法分析相对成熟，语义分析等步骤。现在，词法分析和句法分析相对成熟，语义分析等步骤。现在，词法分析和句法分析相对成熟，语义分析

29、逐渐成为研究重点。分析逐渐成为研究重点。分析逐渐成为研究重点。分析逐渐成为研究重点。语音处理技术语音处理技术语音合成语音合成语音合成语音合成语音合成是以言语产生模型为基础语音合成是以言语产生模型为基础语音合成是以言语产生模型为基础语音合成是以言语产生模型为基础, ,分析抽取激励源分析抽取激励源分析抽取激励源分析抽取激励源, ,声道声道声道声道的特征参数；再利用这些特征参数重新综合出语音信号的的特征参数；再利用这些特征参数重新综合出语音信号的的特征参数；再利用这些特征参数重新综合出语音信号的的特征参数；再利用这些特征参数重新综合出语音信号的过程。过程。过程。过程。语音合成是通过一个声学模块来具

30、体实现的。早期的语音语音合成是通过一个声学模块来具体实现的。早期的语音语音合成是通过一个声学模块来具体实现的。早期的语音语音合成是通过一个声学模块来具体实现的。早期的语音合成技术的研究，往往集中在语音合成算法本身，其研究合成技术的研究，往往集中在语音合成算法本身，其研究合成技术的研究，往往集中在语音合成算法本身，其研究合成技术的研究，往往集中在语音合成算法本身，其研究的方法和手段与语音编码有很多相似之处。其声学模型的的方法和手段与语音编码有很多相似之处。其声学模型的的方法和手段与语音编码有很多相似之处。其声学模型的的方法和手段与语音编码有很多相似之处。其声学模型的构筑，也多通过模拟人的口腔的声

31、道特性来产生。构筑，也多通过模拟人的口腔的声道特性来产生。构筑，也多通过模拟人的口腔的声道特性来产生。构筑，也多通过模拟人的口腔的声道特性来产生。进入进入进入进入2020世纪世纪世纪世纪9090年代以来，波形拼接年代以来，波形拼接年代以来，波形拼接年代以来，波形拼接(PSOLA(PSOLA，Pitch Pitch Synchronous OverLap Add) Synchronous OverLap Add) 算法，越来越被广泛地应用算法，越来越被广泛地应用算法，越来越被广泛地应用算法，越来越被广泛地应用在语音合成系统中。在语音合成系统中。在语音合成系统中。在语音合成系统中。近年来，一些

32、新的方法，如人工神经网络、决策树、隐马近年来，一些新的方法，如人工神经网络、决策树、隐马近年来，一些新的方法，如人工神经网络、决策树、隐马近年来，一些新的方法，如人工神经网络、决策树、隐马尔可夫模型等被广泛地应用于语音合成技术。这些方法的尔可夫模型等被广泛地应用于语音合成技术。这些方法的尔可夫模型等被广泛地应用于语音合成技术。这些方法的尔可夫模型等被广泛地应用于语音合成技术。这些方法的运用，彻底改变了汉语语音合成研究的研究重点，使汉语运用，彻底改变了汉语语音合成研究的研究重点，使汉语运用，彻底改变了汉语语音合成研究的研究重点，使汉语运用，彻底改变了汉语语音合成研究的研究重点，使汉语语音合成的研

33、究突破了早期重点对单纯算法的研究，而变语音合成的研究突破了早期重点对单纯算法的研究，而变语音合成的研究突破了早期重点对单纯算法的研究，而变语音合成的研究突破了早期重点对单纯算法的研究，而变成一个系统工程的研究。成一个系统工程的研究。成一个系统工程的研究。成一个系统工程的研究。语音处理技术语音处理技术TTSTTSTTS即文本语音转换技术(Text To Speech)，它涉及声学、语言学、数学信号处理技术、多媒体技术等多个学科技术，是中文信息处理领域的一项前沿技术，实现把计算机中任意出现的文字转换成自然流畅的语音输出。语音处理技术语音处理技术视觉语音视觉语音视觉语音视觉语音视觉语音是指人们在

34、用语言交流时所表达出的面部表情和动作，它能在一定程度上传达人们想要表达的意思，并能帮助人们加深对语言的理解。研究表明，在环境噪声较大或听者有听力障碍的情况下，如果在给出声音信息的同时能给出一个“讲话的头”（talking head），即表现说话者面部表情和嘴部、眼部等变化情况，则会大大改善人们对声音的理解。语音处理技术语音处理技术三图像、视频处理技术三图像、视频处理技术三图像、视频处理技术三图像、视频处理技术 5图像、视频处理技术图像、视频处理技术图像处理图像处理图像处理图像处理图像处理根据处理的程度和目的，可以分为三个层次：图图像处理根据处理的程度和目的，可以分为三个层次：图图像处理根据处

35、理的程度和目的，可以分为三个层次：图图像处理根据处理的程度和目的，可以分为三个层次：图像处理、图像分析识别和图像理解像处理、图像分析识别和图像理解像处理、图像分析识别和图像理解像处理、图像分析识别和图像理解图像、视频处理技术图像、视频处理技术图像处理图像处理图像处理图像处理图像编码格式：GIF，JPEG，PNG图像编码标准：JPEG、JPEG2000图像、视频处理技术图像、视频处理技术数字视频处理数字视频处理数字视频处理数字视频处理数字视频含有丰富的内容，结构复杂，不同于传统的字符数字视频含有丰富的内容，结构复杂，不同于传统的字符型数据，主要表现在以下几个方面：型数据，主要表现在以下几个方面

36、：视频数据量大：视频数据量大：一幅中等分辨率的图像一幅中等分辨率的图像一幅中等分辨率的图像一幅中等分辨率的图像(640*480)(640*480)(640*480)(640*480)，颜色为，颜色为，颜色为，颜色为24bit/24bit/24bit/24bit/象素，数字视频图像的数据量大约为象素，数字视频图像的数据量大约为象素，数字视频图像的数据量大约为象素，数字视频图像的数据量大约为1MB1MB1MB1MB，如播放速度每，如播放速度每，如播放速度每，如播放速度每秒秒秒秒30303030帧，则帧，则帧，则帧，则1 1 1 1秒的数据量约为秒的数据量约为秒的数据量约为秒的数据量约为30MB3

37、0MB30MB30MB，一个，一个，一个，一个600MB600MB600MB600MB的硬盘也只能存放的硬盘也只能存放的硬盘也只能存放的硬盘也只能存放20s20s20s20s的动态图像的动态图像的动态图像的动态图像。视频数据内容的多样性视频数据内容的多样性视频数据解释的多样性和模糊性视频数据解释的多样性和模糊性视频数据结构复杂：视频数据结构复杂：视频数据既有空间属性又有时间属性。视频数据既有空间属性又有时间属性。视频数据既有空间属性又有时间属性。视频数据既有空间属性又有时间属性。图像、视频处理技术图像、视频处理技术数字视频处理数字视频处理数字视频处理数字视频处理数字视频是视频数据库存储的

38、对象，为了从视频数据库中数字视频是视频数据库存储的对象，为了从视频数据库中数字视频是视频数据库存储的对象，为了从视频数据库中数字视频是视频数据库存储的对象，为了从视频数据库中方便地检索视频对象，数字视频均应以一定的结构存储。方便地检索视频对象，数字视频均应以一定的结构存储。方便地检索视频对象，数字视频均应以一定的结构存储。方便地检索视频对象，数字视频均应以一定的结构存储。如果视频信息仅以帧图像和视频流这两级存储，对视频内如果视频信息仅以帧图像和视频流这两级存储，对视频内如果视频信息仅以帧图像和视频流这两级存储，对视频内如果视频信息仅以帧图像和视频流这两级存储，对视频内容的检索是十分不便的。因此

39、，通常用帧、镜头、场景和容的检索是十分不便的。因此，通常用帧、镜头、场景和容的检索是十分不便的。因此，通常用帧、镜头、场景和容的检索是十分不便的。因此，通常用帧、镜头、场景和幕等描述把视频序列分层表示。幕等描述把视频序列分层表示。幕等描述把视频序列分层表示。幕等描述把视频序列分层表示。图像、视频处理技术图像、视频处理技术数字视频处理数字视频处理数字视频处理数字视频处理数字视频处理的主要研究内容包括视频编码压缩、镜头检测与分割、运动对象检测与分割等等。数字视频处理常用的算法：傅里叶变换傅里叶变换小波变换小波变换分形变换分形变换人工神经网络人工神经网络图像、视频处理技术图像、视频处理技术视

40、频编码压缩标准视频编码压缩标准视频编码压缩标准视频编码压缩标准HH系列标准：系列标准：系列标准：系列标准：H.261H.261、H.263H.263、H.264H.264MPEGMPEG系列标准：系列标准：系列标准：系列标准：MPEG1MPEG1、MPEG2MPEG2、MPEG4MPEG4图像、视频处理技术图像、视频处理技术四多媒体人机交互四多媒体人机交互四多媒体人机交互四多媒体人机交互 7多媒体人机交互多媒体人机交互人机交互的意义人机交互的意义l l传统的信息处理环境一直是传统的信息处理环境一直是“人适应计算机人适应计算机”，而当今的，而当今的目标或理念是要逐步使目标或理念是要逐步使“计算机

41、适应人计算机适应人”，人们要求通过，人们要求通过视觉、听觉、触觉、嗅觉，以及形体、手势或口令，参与视觉、听觉、触觉、嗅觉，以及形体、手势或口令，参与到信息处理的环境中去，从而取得身临其境的体验。这种到信息处理的环境中去，从而取得身临其境的体验。这种信息处理系统已不再是建立在单维的数字化空间上，而是信息处理系统已不再是建立在单维的数字化空间上，而是建立在一个多维的信息空间中。建立在一个多维的信息空间中。 l l计算机包括了三个主要部分：人机信息交互、信息处理和计算机包括了三个主要部分：人机信息交互、信息处理和存储以及信息显示，其中存储以及信息显示，其中“信息处理和存储信息处理和存储”和和“信息展

42、信息展示示”技术更新和发展的速度相当快。但人机交互技术多年技术更新和发展的速度相当快。但人机交互技术多年来并未有重大技术突破。来并未有重大技术突破。 8多媒体人机交互多媒体人机交互人机交互的意义人机交互的意义计算机缺乏仿生的眼睛和耳朵，也没有从外部世界收集信计算机缺乏仿生的眼睛和耳朵，也没有从外部世界收集信息所需的触觉、味觉和嗅觉。计算机没有语言能力，没有息所需的触觉、味觉和嗅觉。计算机没有语言能力，没有四肢，没有建立各种各样信息表达形式的能力，这就限制四肢，没有建立各种各样信息表达形式的能力，这就限制了人和计算机之间的信息沟通。因为通过多种渠道来沟通了人和计算机之间的信息沟通。因为通过多种渠

43、道来沟通信息将更有效，例如手势和其它的人体动作伴随着语音可信息将更有效，例如手势和其它的人体动作伴随着语音可增强对语音的理解增强对语音的理解, , 眼光的接触在人际信息沟通中带有意眼光的接触在人际信息沟通中带有意义。义。在计算机系统中使用音频、视频、图形和动画等不只是常在计算机系统中使用音频、视频、图形和动画等不只是常规计算机的扩充，而是试图将计算机开发成一台规计算机的扩充，而是试图将计算机开发成一台“通用机通用机器器”，使它能完整地理解人的需要，并和人沟通信息，因，使它能完整地理解人的需要，并和人沟通信息，因此一个易于使用的、形象直观的用户接口将极大地改善此一个易于使用的、形象直观的用户接

44、口将极大地改善系统的可用性。系统的可用性。多媒体人机交互多媒体人机交互人机界面人机界面人机界面(HCI, Human-computer Interface)又称用户界面、人机交互人机接口等是人与计算机之间传递交换信息的媒介，是用户使用计算机系统的综合操作环境人机界面的设计在计算机系统设计中占有重要地位。三维用户界面三维用户界面三维用户界面三维用户界面多媒体和超媒体界面多媒体和超媒体界面多媒体和超媒体界面多媒体和超媒体界面多通道交互界面多通道交互界面多通道交互界面多通道交互界面虚拟现实技术虚拟现实技术虚拟现实技术虚拟现实技术多媒体人机交互多媒体人机交互多通道用户界面多通道用户界面多通道人机

45、界面技术基于视线跟踪、语音识别、多通道人机界面技术基于视线跟踪、语音识别、手势输入、感觉反馈等新的交互技术，允许用户手势输入、感觉反馈等新的交互技术，允许用户利用自身的内在感觉和认知技能，使用多个交互利用自身的内在感觉和认知技能，使用多个交互通道，以并行、非精确方式与计算机系统进行交通道，以并行、非精确方式与计算机系统进行交互，旨在提高人机交互的自然性和高效性互，旨在提高人机交互的自然性和高效性它代表了人机交互的一种新范式，与传统的图形它代表了人机交互的一种新范式，与传统的图形用户界面相比，能将互补的通道进行整合来获取用户界面相比，能将互补的通道进行整合来获取增强的混合，通道之间可以相互补充，

46、克服彼此增强的混合，通道之间可以相互补充，克服彼此的缺陷的缺陷多媒体人机交互多媒体人机交互多通道用户界面的主要研究内容多通道用户界面的主要研究内容认知心理学认知心理学界面模型及描述方法界面模型及描述方法软件结构软件结构多通道整合多通道整合多通道的错误纠正机制多通道的错误纠正机制多媒体人机交互多媒体人机交互三维人机交互技术三维人机交互技术三维人机交互技术与传统的三维人机交互技术与传统的三维人机交互技术与传统的三维人机交互技术与传统的WIMPWIMP（WindowWindow，IconIcon，MenuMenu，PointerPointer，窗口、图标、菜单和指，窗口、图标、菜单和指，窗口、

47、图标、菜单和指，窗口、图标、菜单和指点装置）图形交互技术不同点装置）图形交互技术不同点装置）图形交互技术不同点装置）图形交互技术不同, , 它采用六自由度输它采用六自由度输它采用六自由度输它采用六自由度输入设备。入设备。入设备。入设备。所谓六自由度，指所谓六自由度，指所谓六自由度，指所谓六自由度，指X X、Y Y、Z Z轴平移和绕轴平移和绕轴平移和绕轴平移和绕X X、Y Y、Z Z轴旋转，而现在流行的用于桌面型图形界面的交轴旋转，而现在流行的用于桌面型图形界面的交轴旋转，而现在流行的用于桌面型图形界面的交轴旋转，而现在流行的用于桌面型图形界面的交互设备，如鼠标、轨迹球、触摸屏等只有两个自互设备

48、，如鼠标、轨迹球、触摸屏等只有两个自互设备，如鼠标、轨迹球、触摸屏等只有两个自互设备，如鼠标、轨迹球、触摸屏等只有两个自由度（沿平面由度（沿平面由度（沿平面由度（沿平面X X、Y Y轴平移）。轴平移）。轴平移）。轴平移）。多媒体人机交互多媒体人机交互三维交互设备三维交互设备目前三维交互设备还处于摸索阶段，还没有一种目前三维交互设备还处于摸索阶段，还没有一种目前三维交互设备还处于摸索阶段，还没有一种目前三维交互设备还处于摸索阶段，还没有一种输入装置像二维图形界面中的鼠标那样处于主流输入装置像二维图形界面中的鼠标那样处于主流输入装置像二维图形界面中的鼠标那样处于主流输入装置像二维图形界面中的鼠

49、标那样处于主流地位。现有的三维设备中被广泛应用的主要有以地位。现有的三维设备中被广泛应用的主要有以地位。现有的三维设备中被广泛应用的主要有以地位。现有的三维设备中被广泛应用的主要有以下几种：下几种：下几种：下几种：浮动鼠标（浮动鼠标（浮动鼠标（浮动鼠标（Flying MouseFlying Mouse）：浮动鼠标类似于标准的）：浮动鼠标类似于标准的）：浮动鼠标类似于标准的）：浮动鼠标类似于标准的计算机鼠标，但当离开桌面后就成为一个六自由度探计算机鼠标，但当离开桌面后就成为一个六自由度探计算机鼠标，但当离开桌面后就成为一个六自由度探计算机鼠标，但当离开桌面后就成为一个六自由度探测器，大多数浮动鼠

50、标器内部装有电磁探测器。测器，大多数浮动鼠标器内部装有电磁探测器。测器，大多数浮动鼠标器内部装有电磁探测器。测器，大多数浮动鼠标器内部装有电磁探测器。数据手套数据手套数据手套数据手套手持式操作器（手持式操作器（手持式操作器（手持式操作器（WandWandWandWand）：类似于浮动鼠标，但没有鼠）：类似于浮动鼠标，但没有鼠）：类似于浮动鼠标，但没有鼠）：类似于浮动鼠标，但没有鼠标球，因此不能在桌面上滚动。标球，因此不能在桌面上滚动。标球，因此不能在桌面上滚动。标球，因此不能在桌面上滚动。力矩球：安装在一个小型的固定平台上，可以扭转、力矩球：安装在一个小型的固定平台上，可以扭转、力矩球：安装在

51、一个小型的固定平台上，可以扭转、力矩球：安装在一个小型的固定平台上，可以扭转、压下的拉出、来回摇摆等。力矩球通常使用发光二极压下的拉出、来回摇摆等。力矩球通常使用发光二极压下的拉出、来回摇摆等。力矩球通常使用发光二极压下的拉出、来回摇摆等。力矩球通常使用发光二极管和光接收器进行测量。管和光接收器进行测量。管和光接收器进行测量。管和光接收器进行测量。多媒体人机交互多媒体人机交互人机交互中的视线跟踪技术人机交互中的视线跟踪技术视线跟踪技术早期主要应用于心理学研究视线跟踪技术早期主要应用于心理学研究视线跟踪技术早期主要应用于心理学研究视线跟踪技术早期主要应用于心理学研究( (如阅读如阅读如阅读如阅

52、读研究研究研究研究) )、助残等领域，后来才被应用于图像压缩及、助残等领域，后来才被应用于图像压缩及、助残等领域，后来才被应用于图像压缩及、助残等领域，后来才被应用于图像压缩及人机交互技术。人机交互技术。人机交互技术。人机交互技术。从理论上说，由于几乎所有的人机交互形式都离从理论上说，由于几乎所有的人机交互形式都离从理论上说，由于几乎所有的人机交互形式都离从理论上说，由于几乎所有的人机交互形式都离不开视觉介入，因此，当用户凝视其感兴趣的目不开视觉介入，因此，当用户凝视其感兴趣的目不开视觉介入，因此，当用户凝视其感兴趣的目不开视觉介入，因此，当用户凝视其感兴趣的目标时，如果系统能标时，如果系统能

53、标时，如果系统能标时，如果系统能“ “自动自动自动自动” ”将光标置于其上或触发将光标置于其上或触发将光标置于其上或触发将光标置于其上或触发必要的动作，则比利用鼠标器等间接指点设备甚必要的动作，则比利用鼠标器等间接指点设备甚必要的动作，则比利用鼠标器等间接指点设备甚必要的动作，则比利用鼠标器等间接指点设备甚至触屏这样的直接指点设备更为直接。至触屏这样的直接指点设备更为直接。至触屏这样的直接指点设备更为直接。至触屏这样的直接指点设备更为直接。多媒体人机交互多媒体人机交互人机交互中的视线跟踪技术人机交互中的视线跟踪技术伺服机构半反射镜瞳孔摄像机光源红外滤光镜一种远距离视线跟踪系统原理图多媒体人

54、机交互多媒体人机交互基于手势的人机交互技术基于手势的人机交互技术手势是人手或者手和臂结合所产生的各种姿势和手势是人手或者手和臂结合所产生的各种姿势和手势是人手或者手和臂结合所产生的各种姿势和手势是人手或者手和臂结合所产生的各种姿势和动作，它包括静态手势动作，它包括静态手势动作，它包括静态手势动作，它包括静态手势( (指姿态，单个手形指姿态，单个手形指姿态，单个手形指姿态，单个手形) )和动和动和动和动态手势态手势态手势态手势( (指动作，由一系列姿态组成指动作，由一系列姿态组成指动作，由一系列姿态组成指动作，由一系列姿态组成) )。静态手势对应空间里的一个点，而动态手势对应静态手势对应空间里

55、的一个点，而动态手势对应静态手势对应空间里的一个点，而动态手势对应静态手势对应空间里的一个点，而动态手势对应着模型参数空间里的一条轨迹，需要使用随时间着模型参数空间里的一条轨迹，需要使用随时间着模型参数空间里的一条轨迹，需要使用随时间着模型参数空间里的一条轨迹，需要使用随时间变化的空间特征来表述。变化的空间特征来表述。变化的空间特征来表述。变化的空间特征来表述。手势和姿势手势和姿势手势和姿势手势和姿势(Posture)(Posture)的主要区别在于，姿势更为的主要区别在于，姿势更为的主要区别在于，姿势更为的主要区别在于，姿势更为强调手和身体的形态和状态，而手势更为强调手强调手和身体的形态和状

56、态，而手势更为强调手强调手和身体的形态和状态，而手势更为强调手强调手和身体的形态和状态，而手势更为强调手的运动。的运动。的运动。的运动。多媒体人机交互多媒体人机交互基于手势的人机交互技术基于手势的人机交互技术手势逐渐成为人机界面中一种新颖的交互手段，手势逐渐成为人机界面中一种新颖的交互手段，手势逐渐成为人机界面中一种新颖的交互手段，手势逐渐成为人机界面中一种新颖的交互手段，研究手势识别的主要目的就是把手势这种既自然研究手势识别的主要目的就是把手势这种既自然研究手势识别的主要目的就是把手势这种既自然研究手势识别的主要目的就是把手势这种既自然又直观的交流方式引入人机接口中，实现更符合又直观的交流

57、方式引入人机接口中，实现更符合又直观的交流方式引入人机接口中，实现更符合又直观的交流方式引入人机接口中，实现更符合人类行为习惯的人机接口。人类行为习惯的人机接口。人类行为习惯的人机接口。人类行为习惯的人机接口。手势识别还可用于虚拟现实、三维设计、临场感、手势识别还可用于虚拟现实、三维设计、临场感、手势识别还可用于虚拟现实、三维设计、临场感、手势识别还可用于虚拟现实、三维设计、临场感、可视化、医学研究、手语理解等领域可视化、医学研究、手语理解等领域可视化、医学研究、手语理解等领域可视化、医学研究、手语理解等领域手势识别问题的解决方法对于表情识别、唇读、手势识别问题的解决方法对于表情识别、唇读、手

58、势识别问题的解决方法对于表情识别、唇读、手势识别问题的解决方法对于表情识别、唇读、步态识别、时空纹理分类、视觉导航、图像拼接步态识别、时空纹理分类、视觉导航、图像拼接步态识别、时空纹理分类、视觉导航、图像拼接步态识别、时空纹理分类、视觉导航、图像拼接和基于内容的视频检索等研究都有直接推广的意和基于内容的视频检索等研究都有直接推广的意和基于内容的视频检索等研究都有直接推广的意和基于内容的视频检索等研究都有直接推广的意义。义。义。义。多媒体人机交互多媒体人机交互基于手势的人机交互技术基于手势的人机交互技术多媒体人机交互多媒体人机交互五多媒体信息检索五多媒体信息检索五多媒体信息检索五多媒体信息检索

59、10多媒体信息检索多媒体信息检索查询语言查询语言查询语言是数据库系统极其重要的特性之一，是查询语言是数据库系统极其重要的特性之一，是查询语言是数据库系统极其重要的特性之一，是查询语言是数据库系统极其重要的特性之一，是鉴别一个数据库管理系统成功与否的重要依据鉴别一个数据库管理系统成功与否的重要依据鉴别一个数据库管理系统成功与否的重要依据鉴别一个数据库管理系统成功与否的重要依据关键字查询关键字查询关键字查询关键字查询可视化查询可视化查询可视化查询可视化查询语义查询语义查询语义查询语义查询多媒体信息检索多媒体信息检索全文检索技术全文检索技术所谓全文检索技术就是给定一个字符串或字符串所谓全文检索技术

60、就是给定一个字符串或字符串所谓全文检索技术就是给定一个字符串或字符串所谓全文检索技术就是给定一个字符串或字符串的逻辑表达式，在全文数据库中进行相应的检索，的逻辑表达式，在全文数据库中进行相应的检索，的逻辑表达式，在全文数据库中进行相应的检索，的逻辑表达式，在全文数据库中进行相应的检索，查出与指定表达式相匹配的出现，并将这些出现查出与指定表达式相匹配的出现，并将这些出现查出与指定表达式相匹配的出现，并将这些出现查出与指定表达式相匹配的出现，并将这些出现的原文件作为检索结果返回给用户。的原文件作为检索结果返回给用户。的原文件作为检索结果返回给用户。的原文件作为检索结果返回给用户。当数据库数据量巨

61、大时，实现快速的全文检索包当数据库数据量巨大时，实现快速的全文检索包当数据库数据量巨大时，实现快速的全文检索包当数据库数据量巨大时，实现快速的全文检索包括以下几个方面的技术问题：括以下几个方面的技术问题：括以下几个方面的技术问题：括以下几个方面的技术问题：检索的快速响应检索的快速响应检索的快速响应检索的快速响应如何建立索引库如何建立索引库如何建立索引库如何建立索引库如何压缩索引数据如何压缩索引数据如何压缩索引数据如何压缩索引数据提供完整、丰富的检索操作手段提供完整、丰富的检索操作手段提供完整、丰富的检索操作手段提供完整、丰富的检索操作手段超文本处理超文本处理超文本处理超文本处理分布式网络文档

62、的检索处理分布式网络文档的检索处理分布式网络文档的检索处理分布式网络文档的检索处理多媒体信息检索多媒体信息检索Web信息检索信息检索 l l目前许多搜索引擎一般都使用传统信息检索算法和技术。目前许多搜索引擎一般都使用传统信息检索算法和技术。传统的信息检索算法主要是从相对少量和同构的文献集合传统的信息检索算法主要是从相对少量和同构的文献集合( (如新闻、书目等如新闻、书目等) ) 发展过来的。然而，发展过来的。然而，WebWeb上的信息具有巨上的信息具有巨量的、异构的、非结构或半结构的、动态的、分布的等特量的、异构的、非结构或半结构的、动态的、分布的等特点，对传统的信息检索技术提出了挑战。点，

63、对传统的信息检索技术提出了挑战。 l l典型的搜索引擎由以下几个部分组成：爬行器典型的搜索引擎由以下几个部分组成：爬行器( (或称为机器或称为机器人、蜘蛛等人、蜘蛛等) )、索引生成器、查询检索器等三大模块。、索引生成器、查询检索器等三大模块。 11多媒体信息检索多媒体信息检索基于内容的图像检索基于内容的图像检索在图像检索系统中，传统的方法是基于文字或数值的信息在图像检索系统中，传统的方法是基于文字或数值的信息在图像检索系统中，传统的方法是基于文字或数值的信息在图像检索系统中，传统的方法是基于文字或数值的信息检索技术。在检索之前，人们要对图像数据库中的每幅图检索技术。在检索之前，人们要对图像

64、数据库中的每幅图检索技术。在检索之前，人们要对图像数据库中的每幅图检索技术。在检索之前，人们要对图像数据库中的每幅图像进行人工标注，用文字描述图像的内容，形成图像描述像进行人工标注，用文字描述图像的内容，形成图像描述像进行人工标注，用文字描述图像的内容，形成图像描述像进行人工标注，用文字描述图像的内容，形成图像描述数据库，并使用图像编号的方式与图像数据库联系起来。数据库，并使用图像编号的方式与图像数据库联系起来。数据库，并使用图像编号的方式与图像数据库联系起来。数据库，并使用图像编号的方式与图像数据库联系起来。基于内容的图像检索技术就是对图像内容进行标注或索引，基于内容的图像检索技术就是对图像

65、内容进行标注或索引，基于内容的图像检索技术就是对图像内容进行标注或索引，基于内容的图像检索技术就是对图像内容进行标注或索引，并据此实现图像检索的一项综合性技术。并据此实现图像检索的一项综合性技术。并据此实现图像检索的一项综合性技术。并据此实现图像检索的一项综合性技术。通过对图像内容的语义分析，从中抽取其颜色、纹理、形通过对图像内容的语义分析，从中抽取其颜色、纹理、形通过对图像内容的语义分析，从中抽取其颜色、纹理、形通过对图像内容的语义分析，从中抽取其颜色、纹理、形状、对象空间关系以及对象语义等特征，在此基础之上，状、对象空间关系以及对象语义等特征，在此基础之上，状、对象空间关系以及对象语义等特

66、征，在此基础之上，状、对象空间关系以及对象语义等特征，在此基础之上，利用图像相似性度量函数计算或评估图像之间的相似性利用图像相似性度量函数计算或评估图像之间的相似性利用图像相似性度量函数计算或评估图像之间的相似性利用图像相似性度量函数计算或评估图像之间的相似性（评价的准则是预先定义的），并将最相似的一些图像作（评价的准则是预先定义的），并将最相似的一些图像作（评价的准则是预先定义的），并将最相似的一些图像作（评价的准则是预先定义的），并将最相似的一些图像作为检索结果返回给用户。为检索结果返回给用户。为检索结果返回给用户。为检索结果返回给用户。多媒体信息检索多媒体信息检索六多媒体传输六多媒体传

67、输17多媒体传输多媒体传输流媒体技术流媒体技术 18流媒体是指在网络中使用流式传输技术的连续时基流媒体是指在网络中使用流式传输技术的连续时基媒体，例如：音频、视频、动画或其他多媒体文件。媒体，例如：音频、视频、动画或其他多媒体文件。流媒体技术（或称为流式媒体技术）就是把连续的流媒体技术（或称为流式媒体技术）就是把连续的影像和声音信息经过压缩处理后放到网络服务器上，影像和声音信息经过压缩处理后放到网络服务器上，让浏览者一边下载一边观看、收听，而不需要等到整让浏览者一边下载一边观看、收听，而不需要等到整个多媒体文件下载完成就可以即时观看的技术。个多媒体文件下载完成就可以即时观看的技术。多媒体传输

68、多媒体传输流式传输流式传输流媒体实现的关键技术就是流式传输。流媒体实现的关键技术就是流式传输。流媒体实现的关键技术就是流式传输。流媒体实现的关键技术就是流式传输。实现流式传输有两种方法：实时流式传输和顺序实现流式传输有两种方法：实时流式传输和顺序实现流式传输有两种方法：实时流式传输和顺序实现流式传输有两种方法：实时流式传输和顺序流式传输。一般说来，如视频为实时广播，或使流式传输。一般说来，如视频为实时广播，或使流式传输。一般说来，如视频为实时广播，或使流式传输。一般说来，如视频为实时广播，或使用流式传输媒体服务器，或应用如用流式传输媒体服务器，或应用如用流式传输媒体服务器，或应用如用流式传输

69、媒体服务器，或应用如RTSPRTSPRTSPRTSP的实时协的实时协的实时协的实时协议，即为实时流式传输。如使用议，即为实时流式传输。如使用议，即为实时流式传输。如使用议，即为实时流式传输。如使用HTTPHTTPHTTPHTTP服务器，文服务器，文服务器，文服务器，文件即通过顺序流发送。采用哪种传输方法依赖用件即通过顺序流发送。采用哪种传输方法依赖用件即通过顺序流发送。采用哪种传输方法依赖用件即通过顺序流发送。采用哪种传输方法依赖用户的需求。户的需求。户的需求。户的需求。多媒体传输多媒体传输流媒体播放方式流媒体播放方式单播单播单播单播：从一台服务器送出的每个数据包只能传送给一个从一台服务器

70、送出的每个数据包只能传送给一个从一台服务器送出的每个数据包只能传送给一个从一台服务器送出的每个数据包只能传送给一个客户机客户机客户机客户机, , , ,这种传送方式称为单播。这种传送方式称为单播。这种传送方式称为单播。这种传送方式称为单播。组播组播组播组播：采用采用采用采用IPIPIPIP组播技术构建一种具有组播能力的网络，组播技术构建一种具有组播能力的网络，组播技术构建一种具有组播能力的网络，组播技术构建一种具有组播能力的网络，允许路由器一次将数据包复制到多个通道上允许路由器一次将数据包复制到多个通道上允许路由器一次将数据包复制到多个通道上允许路由器一次将数据包复制到多个通道上点播：点播：

71、点播：点播：点播连接是客户端与服务器之间的主动的连接。点播连接是客户端与服务器之间的主动的连接。点播连接是客户端与服务器之间的主动的连接。点播连接是客户端与服务器之间的主动的连接。在点播连接中，用户通过选择内容项目来初始化客户端连在点播连接中，用户通过选择内容项目来初始化客户端连在点播连接中，用户通过选择内容项目来初始化客户端连在点播连接中，用户通过选择内容项目来初始化客户端连接。用户可以开始、停止、后退、快进或暂停流。接。用户可以开始、停止、后退、快进或暂停流。接。用户可以开始、停止、后退、快进或暂停流。接。用户可以开始、停止、后退、快进或暂停流。广播：广播：广播：广播：广播指的是用户被动接

72、收流。在广播过程中，客广播指的是用户被动接收流。在广播过程中，客广播指的是用户被动接收流。在广播过程中，客广播指的是用户被动接收流。在广播过程中，客户端接收流，但不能控制流。户端接收流，但不能控制流。户端接收流，但不能控制流。户端接收流，但不能控制流。多媒体传输多媒体传输流媒体文件格式流媒体文件格式 RealNetworksRealNetworks公司的公司的公司的公司的RealMediaRealMedia包括包括包括包括RealAudioRealAudio、RealVideoRealVideo和和和和RealFlashRealFlash三类文件三类文件三类文件三类文件AppleApple公

73、司的公司的公司的公司的QuickTimeQuickTimeMicrosoftMicrosoft公司的公司的公司的公司的Windows MediaWindows MediaMacromediaMacromedia的的的的Shockwave FlashShockwave Flash技术技术技术技术多媒体传输多媒体传输P2P技术技术P2P(Peer to Peer)P2P(Peer to Peer)技术称为对等网络技术，它是技术称为对等网络技术，它是技术称为对等网络技术，它是技术称为对等网络技术，它是一种用于不同一种用于不同一种用于不同一种用于不同PCPC客户之间，不经过中间设备直接客户之间，不经

74、过中间设备直接客户之间，不经过中间设备直接客户之间，不经过中间设备直接交换信息的技术，实质上是一种网络结构思想。交换信息的技术，实质上是一种网络结构思想。交换信息的技术，实质上是一种网络结构思想。交换信息的技术，实质上是一种网络结构思想。与目前网络中占主导地位的客户端与目前网络中占主导地位的客户端与目前网络中占主导地位的客户端与目前网络中占主导地位的客户端/ /服务器服务器服务器服务器（Client/ServerClient/Server，简写为，简写为，简写为，简写为C/SC/S）结构的本质区别使）结构的本质区别使）结构的本质区别使）结构的本质区别使整个网络不存在中心节点（或中心服务器）。整

75、个网络不存在中心节点（或中心服务器）。整个网络不存在中心节点（或中心服务器）。整个网络不存在中心节点（或中心服务器）。P2PP2P节点之间是平等的、直接联系的，每个节点节点之间是平等的、直接联系的，每个节点节点之间是平等的、直接联系的，每个节点节点之间是平等的、直接联系的，每个节点都具有提供信息和处理信息的功能。每台都具有提供信息和处理信息的功能。每台都具有提供信息和处理信息的功能。每台都具有提供信息和处理信息的功能。每台PCPC可以可以可以可以直接连接到其它直接连接到其它直接连接到其它直接连接到其它PCPC，并进行文件交换，而不需要，并进行文件交换，而不需要，并进行文件交换，而不需要，并进行

76、文件交换，而不需要连接到服务器上再进行浏览与下载。连接到服务器上再进行浏览与下载。连接到服务器上再进行浏览与下载。连接到服务器上再进行浏览与下载。P2PP2P技术弱技术弱技术弱技术弱化了服务器的作用，甚至可以取消服务器，任意化了服务器的作用，甚至可以取消服务器，任意化了服务器的作用，甚至可以取消服务器，任意化了服务器的作用，甚至可以取消服务器，任意两台两台两台两台PCPC互为服务器，同时又是客户机。互为服务器，同时又是客户机。互为服务器，同时又是客户机。互为服务器，同时又是客户机。多媒体传输多媒体传输P2P技术体系结构与分类技术体系结构与分类 P2P技术存在三种结构模式的体系结构：技术存在三

77、种结构模式的体系结构：以以以以NapsterNapster为代表的集中目录式结构为代表的集中目录式结构为代表的集中目录式结构为代表的集中目录式结构以以以以GnutellaGnutella为代表的纯为代表的纯为代表的纯为代表的纯P2PP2P网络结构网络结构网络结构网络结构混合式混合式混合式混合式P2PP2P网络结构。网络结构。网络结构。网络结构。多媒体传输多媒体传输七未来的发展七未来的发展 20未来的发展未来的发展多媒体处理芯片多媒体处理芯片多媒体处理芯片多媒体处理芯片移动多媒体技术移动多媒体技术移动多媒体技术移动多媒体技术多媒体产品的安全多媒体产品的安全多媒体产品的安全多媒体产品的安全高速多媒体通信技术高速多媒体通信技术高速多媒体通信技术高速多媒体通信技术更为完善的人机交互技术更为完善的人机交互技术更为完善的人机交互技术更为完善的人机交互技术多媒体技术应用的拓展多媒体技术应用的拓展多媒体技术应用的拓展多媒体技术应用的拓展未来的发展未来的发展Thanks

展开阅读全文

最新多媒体技术及其新发展ppt课件

最新文档