多媒体通信技术第3章+多媒体通信同步+

资源描述

《多媒体通信技术第3章+多媒体通信同步+》由会员分享，可在线阅读，更多相关《多媒体通信技术第3章+多媒体通信同步+（34页珍藏版）》请在金锄头文库上搜索。

1、第3章多媒体通信同步,3.1 引言 3.2 多媒体信息同步描述法 3.3 多媒体同步控制机制,3.1 引言,多媒体对象的同步关系抽象为以下两种类型: (1) 媒体内的时间关系媒体内的时间关系即流内同步, 主要是保证单个媒体流之间的简单时态关系, 也就是按一定的时间要求传送每一个媒体对象, 其表现为媒体流的连续性, 以满足人类感知上的要求。流内同步的复杂性不仅和单个媒体的种类有关, 而且和分布式系统提供的服务质量（Quality of Service, QoS）有关。同时, 也和源端和目的端操作系统的实时性有关。,(2) 媒体间的同步关系媒体间的同步关系即流间同步, 主要是保证不同媒

2、体间的时间关系, 如音频和视频之间的时态关系, 音频和文本之间的时态关系等, 表现为各个媒体流中在同步点上的同时播放。流间同步的复杂性和需要同步的媒体的数量有关。多媒体对象在时间上存在着并行、顺序、独立关系, 在对象的时间表现控制上分别对应于并发、串行和异步执行。多媒体系统的同步控制必须保证在同步点上各个媒体之间能够保持时间关系。例如, 一个有语音讲解的多媒体幻灯片, 其讲解必须和一组画面同时表现, 且随着画面的显示, 讲解是顺序的。这里的同步点处于画面的改变点和讲解的起始点与结束点。又如, 一个可视电话系统, 其语音和图像序列通过通信网络传输到接收端, 且必须同步地在接收设备上演示,

3、以保持口型和声音同步。,3.2 多媒体信息同步描述法,3.2.1 基于Petri网的描述法,图 3.1 将对象分成SIU例,OCPN模型描述了媒体对象内和媒体对象间的时间关系, 它是一个定时Petri网, 用一个六元组Nocpn = T,P,A,D,R,M 表示, 其中: T = t1,t2, , tn 为变迁集, ti表示同步点和处理位置, 在图中用短垂直棒表示。 P = p1,p2, , pm 为位置集, pi表示进程, 并假定变迁瞬时发生, 故pi具有相应状态, 在图中用圆表示。 A: TP PT I = 1,2, 是有向孤集, 在图中用箭头表示。 D: PRe定义了由位置集向实数集的映

4、射, 实数集Re表示OCPN中的时间约束。,R:Pr1,r2,rk 定义了由位置集向资源集 r1,r2,rk 的映射。 M:PI,I =1,2,定义了由位置集向整数集的映射,它表示位置集中的标记(token)分布。 XOCPN是在OCPN模型的基础上扩展了对多媒体对象通信和同步机理的描述。它用一个八元组Nxocpn = T,P,A,D,R,M,Y,Z 表示, 也就是在OCPN模型的基础上扩展了两个映射函数Y（pi）和Z（pi）: Y: P 控制, 对象定义了位置集向位置类型集的映射。位置分为对象位置和控制位置两种。 Z: P动作, 函数地址, 同步单元地址, 通信和同步的信息地址定义了由位

5、置集向地址集的映射。,OCPN中的位置分成对象位置和控制位置两种。 (1) 对象位置它表示媒体对象的播放进程, 每个对象位置与媒体对象的一个同步单元（SIU）相对应。每个对象位置Pi指定一个时间间隔, 一个时间间隔与其对应的SIU的时间间隔相等, 由映射函数Z(Pi )保持的SIU的地址可以是一个缓冲器指针。每个对象位置表示如下两种操作之一: Action.SIUPlayout: 在媒体输出设备上播放相关的同步单元。 Action.SIUTransmit: 向指定的虚电路通道发送相关的同步单元。,(2) 控制位置它表示基于XOCPN语义的控制过程, 在其上执行的操作有资源的建立, 资源的

6、释放以及媒体间的同步等, 即: Action. ResourceSetup: 建立虚电路信道、按用户设置的QoS参数的协商信道属性、分配接收端缓冲器、预备输出设备等。其中, 资源（Resource）定义了通信通道、缓冲器或输出设备等。 Action. ResourceRelease: 在媒体对象完成播出后, 立即释放所占用的资源。 Action.InterstreamSynchronize: 按所希望的同步策略实现流间同步机制。,1. 流内同步 (1) 中断同步 (2) 受限中断同步 ,图 3.2 流内同步机制 (a) 中断同步； (b) 受限中断同步,2. 流间同步对于流间同步, XOC

7、PN模型也支持两种同步机制: 中断和非中断。 (1) 流间中断同步将在Nxocpn中的每一个IPP（流间播放点）处中断快速流的播放过程, 直到所有需要同步的媒体流都到达IPP才播放。（）非中断同步将在Nxocpn中的每一个IPP点收集有关流间的同步状态信息, 然后根据所收集的同步状态信息进行某些校正动作, 参见图3.3。这些校正动作分成两种:,图3.3 流间同步机制,图3.4 一个电视新闻广播时间线的例子,图3.5 电视新闻广播的XOCPN,3.2.2 基于同步标记的描述法媒体间的同步关系可以借助于插入到各媒体流之中的同步标记来描述。同步标记可以有两种形式: 一是有形标记, 如以

8、信息帧的形式插入到媒体数据流中; 二是逻辑标记, 如相对数据量和相对时间。这种基于同步标记的描述法的共同点是将各个媒体流映射到一个逻辑时间轴上, 赋予每个媒体单元一个时戳(Timestamp), 以此来标识媒体单元相对于逻辑时间轴起始点的时域位置。逻辑时间轴的单位应小于最小媒体单元的持续时间, 从而使同一媒体中两个不同的媒体单元的时戳相异。在媒体表现过程中, 具有相同时戳的媒体单元同步播放。,图 3.6 RTP报头格式,其中: V: RTP协议的版本号, 占2位。当前协议版本号为2。 P: 填充标志, 占1位。如果P=1, 则在该报文的尾部将填充一个或多个额外的八位组。 X: 扩展标志，

9、占1位。如果X=1, 则在RTP报头后跟有一个扩展报头。 CC: CSRC计数器, 占4位, 指示CSRC 标识符的个数。 M: 标记, 占1位, 不同的有效载荷有不同的含义。对于视频, 标记一帧的结束; 对于音频, 标记会话的开始。 PT: 有效载荷类型, 占7位, 用于说明RTP报文中有效载荷的类型。例如, GSM音频、 JPEM视频等。,序列号: 占16位, 用于标识发送者所发送的RTP报文的序列号; 每发送一个报文, 序列号增1。接收者通过序列号来检测报文丢失情况, 重新排序报文, 恢复数据。时戳(Timestamp): 占32位, 时戳反映了该RTP报文的第一个八位组的采样时

10、刻。接收者使用时戳来计算延迟和延迟抖动, 并进行同步控制。同步信源(SSRC)标识符: 占32位, 用于标识同步信源。该标识符是随机选择的, 参加同一视频会议的两个同步信源不能有相同的SSRC。特约信源(CSRC)标识符: 每个CSRC标识符占32位, 可以有015个。每个CSRC标识了包含在该RTP报文有效载荷中的所有特约信源。,典型的时戳递进策略分成以下两类: (1) 设备驱动法源于主设备的媒体单元的时戳在主设备时钟控制下递进, 而源于从设备的媒体单元的时戳的递进要经过调节过程的处理, 使从设备媒体单元与同时生成的主设备媒体单元具有相同的时戳。选择主设备时的考虑因素有: 时钟频率

11、的精确性和媒体源的重要性等。例如, 声音媒体和图像媒体中, 通常选择声音频媒体源作为主设备, 因为声音媒体的时间误差易被人们的听觉感受; 也可以选择外部时钟源作为主设备。 (2) 连接驱动法在分布式网络环境中, 媒体单元时戳递进率取决于某一网络连接的数据传输率。,3.3 多媒体同步控制机制,1. 基于参考点的同步法在基于参考点的同步法中, 视频和音频对象被看作是由等间距的子单元序列组成的, 同步关系可以用同时出现的不同对象子单元来定义。一个媒体对象的子单元的位置称为参考点。一个参考点可以是绝对自然数（如视频帧的帧号）, 也可以是相对参考点（如0和1之间是小数）。在演示之前, 相对参考点

12、必须映射到最相近的绝对参考点。,(1) 数据组织基于参考点的同步法把多媒体对象分为静态和动态两种基本对象, 基本对象由演示属性和信息对象（如文本、图形、音频、视频等）的索引组成。基本对象的同步由参考点定义, 一个参考点与相应基本对象的共同描述称为同步元素, 两个或多个元素可以结合成一个同步点, 完整的多媒体对象之间的同步由这些同步点定义。,图 3.7 一种视频和音频交替存储的文件格式,(2) 同步算法在这种同步算法中, 同步控制采用如下三种原子动作, 这些动作控制着动态对象的同步。即: 等待: 如果一个动态对象的演示已达到同步点而其它对象尚未到达, 则该对象需要执行一个等待动作,

13、例如, 冻结、暂停视频帧等。跳过: 如果一个对象的演示需要跟上另一个对象的演示, 则该对象要执行跳过动作去演示下一个媒体单元的数据。连续跳过: 如果一个对象的演示需要连续跳过多个媒体单元到达新的同步点, 则该对象要执行连续跳过动作来增大演示速度, 这是一种加速操作。,一种基于参考点同步法的实现算法如下: 初始化, 包括测试计算机系统速度和磁盘I/O速率、复位帧计数器、读取媒体文件的头信息以确定帧的索引（同步）点。对于第m帧, 先读入第m帧音频数据, 然后检测第m-1帧的音频是否播完。如果已经播放完, 则说明音频段比一帧图像演示得快, 需要跳过下一帧图像。这时只需播放第m帧音频段

14、, 而不必播放图像帧。计数器增值后返回到第步, 继续播放后续的帧。, 如果第m-1帧音频段未播放完, 则把第m帧音频数据存放到音频输出队列中, 使其自动连续播放, 然后读入并显示第m帧图像。计数器增值后返回到第步, 继续播放后续的帧。如果第步中的情况连续出现N次（经验值）, 则说明音频段比一帧视频图像演示得慢, 在演示图像帧时要适当加入延时。,基于参考点同步法的优点是: 对内存的要求较低, 无需一次性将所有音频数据调入内存, 而是利用双缓冲技术实现音频数据的连续播放。在播放过程中进行快进、快退、暂停或慢放等控制操作非常方便。与OCPN机理相吻合。,2. 基于参考时间线的同步法,(1)

15、数据组织在这种同步法中, 一个多媒体影片中的音频和视频数据是分开存储的。音频数据将存储在一个数字化声音文件中, 该文件包含有文件头和声音控制块, 每个声音控制块包含播放控制信息和数字化声音采样值。视频数据存放在一个由图像序列组成的视频图像文件中。音频对象将随时间的延伸而映射到时间线, 形成音频轨迹。同样, 视频对象将随时间的延伸而映射到时间线, 形成视频轨迹。在视频图像库中, 还包含有音频轨迹, 其存储形式是一种带有控制信息的数据结构, 这个数据结构包含音频起始标记和定位指针等参数。,(2) 同步算法为了保持播放速度与视频序列采集速率的一致性, 实现媒体在不同媒介上演示, 其同步准则是: 设视频媒体表现在时间线上的映射为VideoRate 秒/帧, 视频的采集速率为VideoSampleRate 秒/帧, 时间差定义为tVideoRate-VideoSampleRate。如果t0, 则播放速度慢于采集速度, 需要丢帧; 如果t0, 则播放速度快于采集速度, 需要延时; 如果t0, 则播放速度等于采集速度, 正常播放。,一种基于参考时间线同步法的实现算法如下: 初始化, 包括测试计算机系统速度和磁盘I/O速率等, 以确定丢帧数目和帧延时时间。对于非正常顺序播放, 其同步控制（如暂停、快进、快退等）是以参考时间线的映射为基础的。重定位音频流和视频流, 也就是

展开阅读全文