面向信息隐藏的文本特征值性质研究

上传人:宝路 文档编号:48108642 上传时间:2018-07-10 格式:PPT 页数:32 大小:293.57KB
返回 下载 相关 举报
面向信息隐藏的文本特征值性质研究_第1页
第1页 / 共32页
面向信息隐藏的文本特征值性质研究_第2页
第2页 / 共32页
面向信息隐藏的文本特征值性质研究_第3页
第3页 / 共32页
面向信息隐藏的文本特征值性质研究_第4页
第4页 / 共32页
面向信息隐藏的文本特征值性质研究_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《面向信息隐藏的文本特征值性质研究》由会员分享,可在线阅读,更多相关《面向信息隐藏的文本特征值性质研究(32页珍藏版)》请在金锄头文库上搜索。

1、面向信息隐藏的文本特征值性质研究 申 请 者: 戴祖旭 工作单位: 武汉工程大学 电子邮件: 申请日期: 2009/11/29 2009-11-291第一届中国(杭州)安全电子商务学 术会议摘 要文本作为一种重要的信息传输载体,文本信息隐 藏研究在信息安全等领域应用价值极高。目前对照信 息隐藏的要求(数据有效载荷、不可感知性、鲁棒性 、安全性等)去研究携带秘密信息的特征值的性质并 评价相应算法的工作还很缺乏。本项目采用数理统计 方法研究基于词性标记串序关系、语法结构关系以及 其他统计特性的载体特征值的概率分布与冗余性质; 对词性标记串按文本编辑相互转化关系分类,研究特 征值在文本编辑下的变换

2、性质,将这些变换性质作为 信息隐藏的噪声,建立不同类型特征值的信道模型, 估计容量,设计信道编码方法。本研究为基于词性标 记工作域的文本信息隐藏技术提供理论基础。2009-11-292第一届中国(杭州)安全电子商务学 术会议1.研究意义及国内外研究工作现状信息隐藏是以多媒体信号作为宿主载体,利用多 媒体数据的冗余特性和人类感知觉的冗余特性来隐藏 秘密信息的技术。在开放式网络环境中,信息隐藏技 术主要用于:(1)隐秘通信;(2)数字作品完整性与版权保护。作为一种重要的信息存储与传输媒体,文本载体 信息隐藏理论与技术的研究是信息隐藏学科的一个重 要分支。2009-11-293第一届中国(杭州)安全

3、电子商务学 术会议基于格式的方法:将文本解释为二值或灰度图像,通过 调整行间距或单词和字符间距、修改字符轮廓与拓扑结构 、调整字符亮度或颜色,以及格式化文本的脚本控制符来 隐藏信息。选择行(字)间距、字符结构、字符亮度 等物理 量作为载体特征值来携带秘密信息,利用人类视觉保真度 量模型计算特征值调整幅度,隐藏过程不改变人眼对文本 外观的感知效果。这类方法有科学的人类视觉模型做基础 ,易于实现自动化,在信息隐藏技术出现的初期发展较快 ,缺点是隐藏容量较小,抵抗文本重新录入、复印等再生 操作的鲁棒性较差。2.文本信息隐藏的代表性方法2009-11-294第一届中国(杭州)安全电子商务学 术会议基于

4、内容的方法:建立在文本内容理解的基础上 ,主要通过修改自然语言语句来隐藏信息,利用同义 词替换,可选择同义词、同义词频率、同义词语义歧 义等特征值携带秘密信息;利用语句结构的变化,可 选择句法分析树和词性标记串等特征值携带秘密信息 。更高级的是利用文法来生成含密文本。 2009-11-295第一届中国(杭州)安全电子商务学 术会议例:汉语语句“风景优美的房间请给我。”部分改写实例 (1) 风景优美的房间请给我。 (2) 请把风景优美的房间给我。 (3) 我想要风景优美的房间。 (4) 请给我风景优美的房间。 (5) 房间请给我风景优美的。 (6) 把风景优美的房间给我。 (7) 风景优美的房间

5、给我。 (8) 风景优美的房间我要。 (9) 我要风景优美的房间。 (10)给我风景优美的房间。 2009-11-296第一届中国(杭州)安全电子商务学 术会议我们可以有10种改写方式(或许还有更多的其它 方式),10个句子的语法都正确,意思也相似。因此 ,采用定长编码方法,一个句子用句法分析树可携带 3比特信息。再考虑到用“优美”的同义词美丽,漂 亮,好看,悦目,美妙,幽美,优美做替换,则可 增加到70个改写句子,一个句子就可携带6比特信息 。当然还可以进一步综合利用词性标记等其它特征值 来携带信息以提高容量。 2009-11-297第一届中国(杭州)安全电子商务学 术会议3.信息隐藏算法的

6、两个基本要素秘密信息的隐藏空间与隐藏方式是信息隐藏算法 的两个基本要素。隐藏空间称为嵌入工作域,人们总 是利用工作域中的各类特征值来携带秘密信息。隐藏 方式由数据嵌入方式实现,包括叠加嵌入和映射嵌入 。叠加嵌入中,秘密信息作为弱信号用叠加的方式嵌 入到宿主信号的特征值中;映射嵌入中,宿主信号的 系数被映射函数映射到由嵌入比特确定的特征值,嵌 入方式直接受特征值性质制约。2009-11-298第一届中国(杭州)安全电子商务学 术会议目前的文本信息隐藏研究一般集中在寻找文本的各种特征值并设计相应的信息隐藏方法等较为基本的内容上,而对照信息隐藏的要求(数据有效载荷、不可感知性、鲁棒性、误判率、安全性

7、、计算效率和成本等)去研究特征值的性质并评价相应信息隐藏算法的研究工作还很缺乏。2009-11-299第一届中国(杭州)安全电子商务学 术会议4.项目研究内容、目标文本载体信息隐藏过程一般包括以下步骤:秘密 信息编码(映射)为载体特征值(格式参数、同义词、 语法树、逆序数等);根据特征值修改载体得到含密 载体(受文本不可感知性条件约束);公开发送含密 载体以及文本编辑处理等噪声干扰;接收方计算特征 值并译码提取秘密信息。2009-11-2910第一届中国(杭州)安全电子商务学 术会议设信息隐藏函数为(1)其中 分别表示秘密信息、原始载体、含 密载体和载体特征值, 分别表示编码密钥和嵌入 密钥,

8、函数d表示不可感知性约束条件,为常数。另设噪声干扰为(2)其中 是加噪含密载体。2009-11-2911第一届中国(杭州)安全电子商务学 术会议项目组成员经过多年研究,找到了基于词性标记工作域的 部分特征值,并据此提出了若干文本信息隐藏新算法,在前期 研究工作的基础上,本项目将深入研究如下内容: 1) 研究现有文本载体特征值的性质。公式(1)中t是载体特征 值,是秘密信息的携带者,也是噪声干扰的目标。针对文献已 提出的特征值,比如语法树、逆序数、信息熵等,重点研究t 在常规文本编辑(比如语句或语句中词的增加、删除与移位等) 处理下的变换性质,它是进一步评估相关隐藏算法鲁棒性、安 全性和计算复杂

9、性的理论基础;特征值t的分布性质,它是设计 秘密信息编码函数f的基础,也是度量不可感知性的基本因素 之一。2009-11-2912第一届中国(杭州)安全电子商务学 术会议2)研究文本载体信息隐藏信道模型。信道模型是噪声对特征 值的作用方式,是计算信息隐藏容量的基础。公式(2)描述了 文本编辑噪声对含密文本的干扰作用,这种干扰作用传递到 不同的特征值上会有不同的影响。对于逆序数、语法树等来 说,干扰导致离散状态之间的转换,对于信息熵等取非负实 数的特征值来说,干扰导致熵值的波动。因此信道模型可能 是状态转移矩阵,需要具体研究同一类特征值之间的转移概 率,也可能是具有加性或乘性噪声的连续信道,需要

10、建立噪 声分布函数关系式。2009-11-2913第一届中国(杭州)安全电子商务学 术会议5.本项目预期目标1)针对2-3种文本载体特征值建立文本编辑变换模型 ,据此建立相应的信道模型。2)针对2-3种文本载体特征值建立统计模型及其相关 性模型。2009-11-2914第一届中国(杭州)安全电子商务学 术会议6. 拟采取的研究方法和技术路线本项目总的研究方案是以词性标记工作域上的特 征值为中心,收集大容量的文本样本,将文本按文体 分类,首先研究各类特征值的分布规律与冗余性质, 研究文本编辑操作对词性标记串的改变规律,对词性 标记串按文本编辑相互转换关系进行分类,根据分类 情况研究各类特征值的变

11、换性质,将这些性质作为噪 声,得到信道模型。2009-11-2915第一届中国(杭州)安全电子商务学 术会议1)关于数据统计分析工作本项目的研究内容涉及大量不同类型数据的统计 分析工作,可以利用成熟的数理统计方法,关键点在 于合理规划数据采集、存储与处理等实验方案,科学 选择统计指标与统计模型,保证数据处理工作有序、 高效且准确。2009-11-2916第一届中国(杭州)安全电子商务学 术会议研究载体特征值概率分布模型时,计划将载体按文体分 为小说、散文、新闻报道、文史哲类学术论文四类,每类文 体样本量在1000篇左右,分别对词性、词性标记串及其信息 熵、逆序数等进行统计处理,分门别类地建立这

12、些特征值的 概率分布类型与冗余模型,测定各种分布参数。把特征值理解为一个句子固有的属性,而这些特征值都 具有随机性,因此可以用特征值随机向量来描述样本。2009-11-2917第一届中国(杭州)安全电子商务学 术会议设 是特征值构成的随机向量,其中 是统计相关的,是联合分布。2009-11-2918第一届中国(杭州)安全电子商务学 术会议采集各特征值的样本,建立特征值的一维分布和高维联合分布。联合分布可由样本统计得到,而相应低维分布就是边际分布,即 = ;2009-11-2919第一届中国(杭州)安全电子商务学 术会议分析特征值之间的相关关系。由于各特征值统计 上是不独立的,所以携带秘密信息的

13、主特征值的分布 改变后,其它特征值的分布也会改变,因此我们要知 道其它特征值的分布的变化规律,这样才能控制其它 特征值分布的变化。这个变化规律就是主特征值与其 它特征值的相关关系,对于一个好的信息隐藏系统来 说,这种关系在信息隐藏前后应该是不变的。可采用 两种方法表示这种相关关系。2009-11-2920第一届中国(杭州)安全电子商务学 术会议例句 “他/r买/v了/u一/m把/q裁/v纸/n的/u刀/n,/w” “他/r买/v了/u一/m把/q裁/v纸/n刀/n,/w”,(去掉 “的”)则句法分析树变了,词性标记串也由 “/r/v/u/m/q/v/n/u/n/w”变为 “/r/v/u/m/q

14、/v/n/n/w”,词性标记串的逆序数也由偶数20变为奇数19(采用字 典序)。2009-11-2921第一届中国(杭州)安全电子商务学 术会议一个是函数关系,我们可以由采集到的样本回归出 与 的函数关系;2009-11-2922第一届中国(杭州)安全电子商务学 术会议另一个是条件概率,比如条件概率 反映了真实文本中特征值子向量 对 的依赖关系。2009-11-2923第一届中国(杭州)安全电子商务学 术会议2)关于信道建模工作以词性标记串逆序数、逆序数奇偶性、词性标记 串信息熵等特征值来携带秘密信息,文本编辑(语句 增删与移位,语句中词的增删与移位等)可能引起特 征值的改变,改变的规律即为相

15、应的信道模型。2009-11-2924第一届中国(杭州)安全电子商务学 术会议设标记串集合为 ,文本编辑为公式(1)中映射 ,定义A上的关系即两个标记串具有关系 当且仅当它们可以通过文本编辑 相互转换,显然 具有对称性和传递性,可根据 对A分 类。2009-11-2925第一届中国(杭州)安全电子商务学 术会议设有 共n个划分块,设要计算的特征 值类型为T,若T为离散型,则根据T的值进一步将 分为 共 个子块,每个子块有相同的 特征值。由此可按如下方法定义子块间特征值的转移 概率2009-11-2926第一届中国(杭州)安全电子商务学 术会议最后可通过对划分块加权的方式定义特征值转移 概率。若为连续型,比如信息熵,则划分块的基数可 用于标记串频数变化范围估计,据此可对特征值波动 做出误差估计,采用误差分析理论建立信道模型。2009-11-2927第一届中国(杭州)安全电子商务学 术会议7.与本项目有关的工作条件项目组已购置了由北京大学计算语言学研究所开 发的汉语自动分

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号