1、上海交通大学 硕士学位论文 Blog文本内容敏感信息的自动提取技术 姓名:朱文轩 申请学位级别:硕士 专业:通信与信息系统 指导教师:陈丽亚 20080101 上海交通大学硕士学位论文 V Blog 文本内容敏感信息的自动提取技术文本内容敏感信息的自动提取技术 摘摘 要要 近几年来,信息技术和产业迅速发展,国际互联网上各种新兴应用 层出不穷。上世纪 90 年代,Blog 在西方国家出现,到 2001 年,已经成 为了网络主流;2002 年,Blog 被引入我国,5 年内,就吸引了近 5000 万人,平均每 4 个网民中就有一个 Blog 作者。Blog 已经成为世界范围 内的第 4 媒体。网络

2、信息犯罪是与网络媒体的发展共生的,人们对于网 络与系统安全已做了大量研究,但对于网络媒体信息内容的安全问题, 只在近年来才逐渐得以重视。在 Blog 这种巨大的开放信息源上,一旦 有敏感信息(包括反动、恐怖、色情等等)不受限制地流传,将会对网 络用户造成巨大影响, 给社会造成巨大损失。 为了保护用户, 维护稳定, 必须采取措施对敏感信息进行监控, 同时也为运行Web服务的各种组织, 提供对此类信息的访问加以监控的技术和服务。为此,开发先进的文本 信息安全监控技术是一项紧急而又重要的课题。 本文结合自然语言理解、中文信息处理等相关知识,结合本实验室 文本信息处理目前研究进展,提出基于 Blog

3、日志属性构造决策树的算 法,对文本中未知的敏感信息进行自动提取。 本文首先介绍了 Blog 的发展概况, 给出了 Blog 上敏感信息的几个 外延,阐述了提取敏感信息的重要意义。最后,简要介绍了国内外这方 上海交通大学硕士学位论文 VI 面工作的现状。 其次,介绍了中文文本的预处理、表示技术以及分类技术。我们介 绍了中文自动分词,文本的向量化表示,特征提取,特征降维,权重计 算等。并介绍了几种经典的文本分类方法。还对新词发现作了介绍。 接着,介绍了网页文本和有用属性提取的方法。并对使用汉字部件 组合技术处理拆字现象作了详细介绍。 随后,针对现有过滤监控技术的速度可能成为瓶颈这一问题,提出 利用

4、 Blog 日志属性信息构造决策树,实现未知敏感文本的发现。介绍 了决策树的原理和构造决策树的算法 ID3 算法。 我们提出了几个 ID3 算 法的改进算法。 最后,提出了系统流程图,对各个部分进行了解释。使用改进算法 与已有算法进行了对比,效果良好。 文章最后对本文的研究课题进行总结, 提出当前研究的可行性和今 后一些需要改进的地方,并提出相应的对策。 关键词:关键词: Blog,未知敏感信息,决策树,ID3 算法 贝叶斯 上海交通大学硕士学位论文 VII TECHNOLOGY OF SENSITIVE INFORMATIONS AUTOMATIC EXTRACTION IN BLOG TE

5、XTS ABSTRACT With the rapid development of information technology and information industry in recent years, the applications in the Internet has increased day by day.In 1990s,Blog appeared in western countries and become the vogue in Internet by 2001. In 2002,Blog was introduced to China. In 5 years

6、,it attracted nearly 50million people.There is one blogger out of 4 netizens in China.Blog has become the 4th biggest worldwide medium.With the rampancy of net information crimes activities,a mount of researches have been laid out to the network and system security.But to the Internet media informat

7、ion content security, it is paid attention to during these recent years.On huge open information source ,such as Blog,once sensitive information spreads out of control,Internet users will be greatly influenced and our society will suffer great lost.In order to protect the stabilization of countrythe

8、 and network users from the intrusion of bad messages,we must take necessary measures to monitor and control this kind of information in Blog text.Meanwhile,we should provide techniques and service of access control to this information to Web service organization.Thus, it is an urgent 上海交通大学硕士学位论文 V

9、III and important task to research advanced text information control technology. This paper maintain the knowledge referring to natural language understanding, Chinese information processingand so on,and combine it with the research development of text information processing in our laboratory.We put

10、 forward an idea to build decision tree based on the attributes of the Blog text,and make the automatic extraction of unknown sensitive information in Blog text come true. In this paper, firstly, the development of Blog is introduced,and several examples of sensitive information in Blog text are pre

11、sented,in order to analyze the signification of text information filtering.The research actuality in or out of China is introduced,too. Then,paper refers to the technology of Chinese text preprocessing, presentation,and classification.We introduced automatic segmentation of Chinese words,vector pres

12、entation for text,the feature extraction,feature dimension reduction,and feature weight calculation. Besides,several classic text classification methods are introduced. We also give introduction to common useful algorithms in new-word-find orientation. Next,we introduce the methods of extraction of

13、web texts and useful attributes.And also the technology of using Chinese characters constituent to deal with the character-split problem. 上海交通大学硕士学位论文 IX But because of the speed of using the monitor and control technology,a new problem comes up,so we think of a new technology which builds decision

14、tree based on the attributes of the Blog text to discover the unknown sensitive texts.We unfold the concept of decision tree,and some useful methods to construct it,here we take ID3 algorithm.We present several improved versions of ID3 algorithm. At last,we show the flow chart of the whole system,an

15、d explain the word of each part of it .Use improved ID3 algorithm to realize the system,and make comparison with existed technology. The result is exiting. In the end of the paper,we give some conclusion to the above researh work and give corresponding measures to some problems maybe occur in later

16、research work. KEY WORDS: Blog, Non-known sensitive information, Decision tree, ID3 algorithm,Bayesian 上海交通大学硕士学位论文 III 上海交通大学上海交通大学 学位论文原创性声明学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明的引用内容外, 本论文不包含其他个人或集体已经发表或撰写过的作品成果。 对文 人的研究做出重要贡献的个人和集体,均已在文中以明确方式标 明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 朱 文 轩 日期:2008 年 1 月 16 日 上海交通大学硕士学位论文 IV 上海交通大学上海交通大学 学位论文版权使用授权书学位论文版权使用授权书



