多媒体搜索引擎

上传人:大米 文档编号:568538716 上传时间:2024-07-25 格式:PPT 页数:30 大小:487.51KB
返回 下载 相关 举报
多媒体搜索引擎_第1页
第1页 / 共30页
多媒体搜索引擎_第2页
第2页 / 共30页
多媒体搜索引擎_第3页
第3页 / 共30页
多媒体搜索引擎_第4页
第4页 / 共30页
多媒体搜索引擎_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《多媒体搜索引擎》由会员分享,可在线阅读,更多相关《多媒体搜索引擎(30页珍藏版)》请在金锄头文库上搜索。

1、多媒体搜索引擎多媒体文档及其内容理解(4)压缩基于频域变换的图像编码把图像变换到频率域在频率域中,对低频信号采取较小量化步长量化,对高频信号采取较大量化步长量化大量高频信号变成“0”用熵编码输出量化系数由于有大量的“0”,数据得到压缩熵编码源图像正向变换量化压缩图像7/25/20242Multimedia Search Engine压缩基于频域变换的图像编码基于DCT的图像压缩(JPEG)DCT变换:一类正交变换l正交变换特性l可逆熵保持(信息不丢失)l去相关变换系数线性无关(设计目的)l能量集中:大部分能量集中到少数变换系数熵编码源图像正向变换量化压缩图像7/25/20243Multimed

2、ia Search Engine压缩基于DCT的图像压缩DCT的基函数生成每个变换系数所用的各点权重l不同的系数与不同的空域频率共振l第一个系数:DCl整个块的平均值熵编码源图像正向变换量化压缩图像7/25/20244Multimedia Search Engine压缩基于DCT的图像压缩变换前像素值熵编码源图像正向变换量化压缩图像52 55 61 66 70 61 64 7363 59 66 90 109 85 69 7262 59 68 113 144 104 66 7363 58 71 122 154 106 70 6967 61 68 104 126 88 68 7079 65 60

3、70 77 68 58 7585 71 64 59 55 61 65 8387 79 69 68 65 76 78 947/25/20245Multimedia Search Engine压缩基于DCT的图像压缩变换后系数熵编码源图像正向变换量化压缩图像http:/p.nus.edu.sg/cs5248/l01/DCTdemo.html-415 -29 -62 25 55 -20 -1 3 7 -21 -62 9 11 -7 -6 6 -46 8 77 -25 -30 10 7 -5 -50 13 35 -15 -9 6 0 3 11 -8 -13 -2 -1 1 -4 1 -10 1 3 -

4、3 -1 0 2 -1 -4 -1 2 -1 2 -3 1 -2 -1 -1 -1 -2 -1 -1 0 -17/25/20246Multimedia Search Engine压缩基于DCT的图像压缩量化对DCT变换后的系数进行量化l系数除以量化步长再取整l不可逆信息丢失l依据心理视觉特性量化l丢失难以看见的信息l保留容易看见的信息l如果量化台阶小于人眼在该频率的灵敏度,则量化噪声无法被看见熵编码源图像正向变换量化压缩图像-415/16 = -26-26*16 = -4167/25/20247Multimedia Search Engine压缩基于DCT的图像压缩量化JPEG建议的亮度分量量

5、化值熵编码源图像正向变换量化压缩图像7/25/20248Multimedia Search Engine压缩基于DCT的图像压缩量化后的系数熵编码源图像正向变换量化压缩图像-26 -3 -6 2 2 0 0 0 1 -2 -4 0 0 0 0 0 -3 1 5 -1 -1 0 0 0 -4 1 2 -1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7/25/20249Multimedia Search Engine压缩基于DCT的图像压缩Zig-zag:把0系数尽量归并到一起游程编码0系数-26

6、 (DC) (0, -3) (0, 1) (0, -3) EOB熵编码源图像正向变换量化压缩图像-26 -3 -6 2 2 0 0 0 1 -2 -4 0 0 0 0 0 -3 1 5 -1 -1 0 0 0 -4 1 2 -1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 EOB7/25/202410Multimedia Search Engine压缩基于DCT的图像压缩DC系数先做预测编码,再做熵编码l用前一块的DC系数预测本块的DC系数AC系数游程编码后二元组直接用于熵编码熵编码源图像正向变

7、换量化压缩图像7/25/202411Multimedia Search Engine压缩基于DCT的图像压缩使用的技术颜色空间:通常用YUVl颜色分量亚采样:通常用4:2:0l即使不用亚采样,YUV空间也比RGB空间容易压缩l使用高级压缩技术,颜色分量亚采样用处不大频域变换:DCT基于心理视觉的量化系数设置预测编码(DC系数)Zig-zag和游程编码(AC系数)熵编码(霍夫曼或算术编码)7/25/202412Multimedia Search Engine压缩基于DCT的图像压缩优点实现较简单对自然图像压缩率不错缺点块效应l由于每8x8块独立处理,块的边界上很容易出现前后块差异较大的情况l人眼

8、对边缘敏感不能实现无损压缩7/25/202413Multimedia Search Engine压缩基于小波变换的图像压缩(JPEG2000)小波变换(wavelet transformation)用一对滤波器对图像进行滤波,把图像分解成不同的频带l滤波器对:低通滤波器+高通滤波器7/25/202414Multimedia Search Engine压缩基于小波变换的图像压缩(JPEG2000)小波变换(wavelet transformation)7/25/202415Multimedia Search Engine压缩基于小波变换的图像压缩(JPEG2000)二者均在约43:1的压缩率时J

9、PEGJPEGJPEG2000JPEG20007/25/202416Multimedia Search Engine压缩基于小波变换的图像压缩(JPEG2000)优点无块效应l整个图像统一处理,不存在块边界可实现无损压缩同等质量下压缩率高缺点运算复杂l计算量大,存储开销大7/25/202417Multimedia Search Engine压缩视频的压缩视频:连续的多个图像用JPEG编码每帧Motion JPEGl压缩率低视频的特点:相邻帧之间的差异很小预测编码:用前面的帧预测后面的帧l用后面的帧预测前面的帧?7/25/202418Multimedia Search Engine压缩视频的压缩

10、I帧(Intra Frame)不进行帧间预测,只使用DCT变换进行编码lJPEGP帧(Predictive Frame)用前面的帧预测l直接用对应像素预测?I P P P P7/25/202419Multimedia Search Engine压缩视频的压缩是否可以用后续帧来预测?顺序编码:后续帧不可能先被处理,所以解码器不可能事先获得后续帧不可以不能顺序编码帧重排序7/25/202420Multimedia Search Engine压缩视频的压缩帧重排序把用于反向预测的帧提前编码和传输B帧(Bi-directional Frame)1 2 3 4 5 6 71 4 2 3 7 5 6?XX

11、MPEG演示7/25/202421Multimedia Search Engine压缩视频压缩标准H.261仅I/P帧,面向500-1000kbps的视频传输MPEG-1/H.262I/P/B帧,VHS质量,1.5Mbps左右H.263I/P/B帧,更小的运动补偿单位,100kbps视频MPEG-2, MPEG-4, 较高和高质量视频,DVD/HDTV7/25/202422Multimedia Search Engine压缩总结数据可以被压缩的原因数据的真实信息量小于数据的总量l我们只需要真实的信息数据包含人无法感知的信息l我们只需要可感知的信息文档语义仅可能来自真实的、可感知的信息l压缩原理

12、与多媒体文档内容理解技术密切相关数据压缩的基本原理根据已经处理的数据尽可能准确地预测后续数据7/25/202423Multimedia Search Engine多媒体文档的语义多媒体文档包含丰富的语义“百闻不如一见”要检索多媒体文档,必须提取这些语义如何提取7/25/202424Multimedia Search Engine多媒体文档的语义可对应于文字的语义话音ASR(Automatic Speech Recognition)字符图像OCR(Optical Character Recognition)物体、类别等7/25/202425Multimedia Search Engine多媒体文

13、档的语义无法或难以对应于文字的语义7/25/202426Multimedia Search Engine多媒体文档的语义语义的表示可对应于文字的语义用文字表示l如何提取?无法或难以对应于文字的语义如何表示?如何运算?如何检索?7/25/202427Multimedia Search Engine多媒体文档的语义面临的问题多媒体数据的原始信息像素矩阵/音频数组需要的信息便于计算和检索的信息文字信息两种信息差异巨大无法一步跨越底层数据高层语义语义鸿沟7/25/202428Multimedia Search Engine多媒体文档的语义面临的问题多媒体数据的原始信息像素矩阵/音频数组需要的信息便于计算和检索的信息文字信息两种信息差异巨大无法一步跨越l用多步来跨越底层数据高层语义多步跨越 每步难度降低需要哪些步骤/技术?7/25/202429Multimedia Search Engine多媒体文档的语义多媒体语义提取涉及的技术分割(图像/声音:分离出需要的对象)特征提取(突出需要的信息)图像:直方图、纹理、形状、小波声音:MFCC、倒普系数机器学习/模式识别(转换成高层语义)各种分类器及分类器训练算法lSVM、EM、神经网络、贝叶斯下一次课7/25/202430Multimedia Search Engine

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 幼儿教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号