文本挖掘-摘要－金锄头文库

资源描述

《文本挖掘-摘要》由会员分享，可在线阅读，更多相关《文本挖掘-摘要（94页珍藏版）》请在金锄头文库上搜索。

1、1 文档自动摘要技术文档自动摘要技术杨建武 Email yangjianwu 第九章第九章北京大学计算机科学技术研究所文本挖掘技术 2010春 2 文摘的定义以提供文献内容梗概为目的不加评论和补充解释简明确切地记述文献重要内容的短文 GB6447 86文摘编写规则文摘编写规则 An express of a certain document without any explanations and comment It s unnecessary to know who writes the summary ANSI A concise and accurate expres

2、s of the document without any explanation and comment A summary is independent on the author of the summary ISO214 1976 E Concise 简洁 Accurate 准确 Explicit 清楚 3 文摘的种类 GB6447 86 报道性文摘 informative abstracts 概括叙述原文献中的重要事实情报包括研究对象工作目的主要结果以及与研究性质方法条件手段等有关的各种资料在一定程度上可代替原文献指示性文摘 indicative abstracts

3、指明原文献的主题与内容梗概为读者查检和选择文献提供线索报道性指示性文摘informative indicative abstracts 以报道性文摘的形式表述文献中信息价值较高的部分而以指示性文摘的形式表述其余部分的文摘作者文摘 author s abstracts 由文献作者自己撰写的文摘文摘员文摘 abstractpr s abstracts 由文献作者以外的人员编写的文摘 4 Summary Classification Classified by user s requirement Generic Summarization GS User query Summar

4、ization UQS Classified by text object Single Document Summarization Multiple Document Summarization Classified by method Summarization Based on Extraction SBE Summarization Based on Understanding SBU Classified by need corpus Supervised Summarization SS Unsupervised Summarization US 5 自动摘要定义利用计算机自

5、动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文自动文摘系统自动文摘系统应能将原文的主题思想或中心内容自动提取出来文摘应具有概况性客观性可理解性和可读性 6 DUC hold by NIST from 2001 http duc nist gov By Mark T Maybury and Inderjeet Mani A Brief History of Summarization 7 研究现状国外研究主要是面对英文信息的处理比较有代表性的系统有美国哥伦比亚大学的多文档自动文摘系统Newsblaster 对每天发生的同主题新闻进行摘要美国密西根大学研

6、究开发的WebInEssence 个性化的基于Web的多文档自动文摘和内容推荐系统美国南加利福尼亚大学的信息科学研究所NeATS Vivisimo公司 infonetware公司这两个公司对搜索引擎返回的结果进行了有效地聚类整理文档聚类是多文档自动文摘的一个关键的预处理步骤 DUC Document Understanding Conference 北大中科院哈工大复旦上海交大等 8 评价方法 9 内部评价方法 Intrinsic Methods 在提供参考摘要的前提下以参考摘要为基准评价系统摘要的质量通常情况下系统摘要与参考摘要越吻合其质量越高外部评价方法 Extr

7、insic Methods 不需要提供参考摘要利用文档摘要代替原文档执行某个文档相关的应用例如文档检索文档聚类文档分类等能够提高应用性能的摘要被认为是质量好的摘要 Evaluation 10 Evaluation Edmundson Edmundson评价属于内部评价方法客观评估比较机械文摘自动文摘系统得到的文摘与目标文摘的句子重合率 coselection rate 主观评估由专家比较机械文摘与目标文摘所含的信息然后给机械文摘一个等级评分等级分为完全不相似基本相似很相似完全相似等 11 Edmundson评价的几个基本规定专家文摘和机械文摘都存

8、入文本文件中比较的基本单位是句子句子是两个句子级标点符号之间的部分句子级标号包括为使专家文摘与机械文摘具有可比性只允许专家从原文中抽取句子而不允许专家根据自己对原文的理解重新生成句子专家文摘和机械文摘的句子都按照在原文中出现的先后顺序给出 Evaluation Edmundson 12 定义重合率p 匹配句子数专家文摘句子数 100 每一个机械文摘的重合率为按三个专家给出的文摘得到的重合率的平均值平均重合率 Pi为相对于第i个专家的重合率 n为专家的数目原文题目机械文摘系统专家文摘机械文摘评价 100 1 nP n i i mhm hhm NNecisio

9、n NNcall Pr Re Evaluation 13 Evaluation ROUGE准则由ISI的Lin和Hovy提出的一种自动摘要评价方法被广泛应用于DUC的摘要评测任务中 ROUGE准则基于摘要中n元词 n gram 的共现信息来评价摘要是一种面向n元词召回率的评价方法 ROUGE准则由一系列的评价方法组成包括 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE 4 其中ROUGE 1至ROUGE 4分别基于1元词到4元词以及ROUGE L ROUGE W等 14 Evaluation ROUGE准则其中 n gram表示n元词 Ref Summaries 表示

10、参考摘要 Countmatch n gram 表示系统摘要和参考摘要中同时出现n gram的个数 Count n gram 则表示参考摘要中出现的n gram个数 Summaries Ref Summaries Ref NROUGE SSgramn SSgramn match gramnCount gramnCount 15 DUC http duc nist gov The Document Understanding Conference DUC is a series of summarization evaluations that have been conducted by th

11、e National Institute of Standards and Technology NIST since 2001 Its goal is to further progress in automatic text summarization and enable researchers to participate in large scale experiments in both the development and evaluation of summarization systems Since 2008 DUC has moved to the Text Analy

12、sis Conference TAC http www nist gov tac Question Answering Recognizing Textual Entailment Summarization 16 自动摘要方法 17 Summarization Algorithms Keyword summaries Display most significant keywords Easy to do Hard to read poor representation of content Sentence extraction Extract key sentences Medium h

13、ard Summaries often don t read well Good representation of content Natural language understanding generation Build knowledge representation of text Generate sentences summarizing content Hard to do well Something between the Something between the last two methods last two methods 18 基本方法 19 位置法美国的P

14、 E Baxendale的研究结果显示人工摘要中的句子为段首句的比例为 85 是段尾句的比例为7 美国康奈尔大学G Salton提出了寻找文章的中心段落为文摘核心的思想其他 E g 除了论题句段首段尾等句子之外段落的第二句常常表示段落的主题 20 提示字串法文章中常常有一些特殊的线索词短语字串字串链它们对文章主题具有明显的提示作用可以利用它们来获取文章的主题 e g Edmundson的文摘系统中的线索词词典取正值的奖励词 Bonus Words 取负值的惩罚词 Stigma Words 无效词 Null Words 21 频率统计法实验表明高频字串往往与

15、主题相关度极大 Luhn 1958 根据句子中实词的个数来计算句子的权值 V A Oswald 主张句子的权值应按其所含代表性的词串的数量来计算 Doyle 则重视共现频度最高的词对 Lisa F Rau 1995 采用相对词频的方法实现 ANES Autormatic News Extraction System 系统 22 文章框架法目次性摘要借助文章的大小标题与语义段的摘要方法统计表明大部分科技文献 99 8 的标题都能基本反映主题捷克Janos把文中的句子分为主干句与枝叶句删枝叶句留主干句的文摘方法可划归于文章框架法 23 信息提取法信息提取法常用于

16、对一些特殊领域的文献资料做摘要如气象预报等该方法根据用户的需求首先构造出一个用户喜闻乐见的文摘框架 Abstract Frame 文摘框架以空槽的形式提出应该从原文中获取的各项内容然后再把文摘框架中的内容转换为文摘文字或图表该方法常称之为二段式抽取有关信息然后生成摘要 24 理解分析法基于理解的自动摘要常包含语法分析语义分析信息提取和文摘生成作者文摘应属于此研究表明理解首先应着重篇章理解段落理解也就是理解应该是分层的高层理解比低层理解更为重要 25 仿人算法仿人算法就是对人工方法的学习模仿与发挥所产生的综合性方法手工文摘人员在编制文摘时并不一定通读全文往往只着重观察标题前言结束语及其论题句以发现其主题再挑选句子并修饰稍加组织生成文摘人工很多经验都是值得注意的同一篇文献不同用户兴趣点和观察角度可能不同文摘的结果应当不同 26 Sentence Extraction 27 Summarization Review Web Page Plain Text Sentence Sentence Sentence Sen

展开阅读全文

文本挖掘-摘要

最新文档