文本挖掘-摘要

上传人:我*** 文档编号:133273768 上传时间:2020-05-25 格式:PDF 页数:94 大小:744.25KB
返回 下载 相关 举报
文本挖掘-摘要_第1页
第1页 / 共94页
文本挖掘-摘要_第2页
第2页 / 共94页
文本挖掘-摘要_第3页
第3页 / 共94页
文本挖掘-摘要_第4页
第4页 / 共94页
文本挖掘-摘要_第5页
第5页 / 共94页
点击查看更多>>
资源描述

《文本挖掘-摘要》由会员分享,可在线阅读,更多相关《文本挖掘-摘要(94页珍藏版)》请在金锄头文库上搜索。

1、1 文档自动摘要技术文档自动摘要技术 杨建武 Email yangjianwu 第九章 第九章 北京大学计算机科学技术研究所 文本挖掘技术 2010春 2 文摘的定义 以提供文献内容梗概为目的 不加评论和补充 解释 简明 确切地记述文献重要内容的短文 GB6447 86文摘编写规则文摘编写规则 An express of a certain document without any explanations and comment It s unnecessary to know who writes the summary ANSI A concise and accurate expres

2、s of the document without any explanation and comment A summary is independent on the author of the summary ISO214 1976 E Concise 简洁 Accurate 准确 Explicit 清楚 3 文摘的种类 GB6447 86 报道性文摘 informative abstracts 概括叙述原文献中的重要事实情报 包括研究对象 工作目的 主要结果 以及与研究性质 方法 条件 手段等有关的各种资料 在一定程度上可代替原文献 指示性文摘 indicative abstracts

3、 指明原文献的主题与内容梗概 为读者查检和选择文 献提供线索 报道性 指示性文摘informative indicative abstracts 以报道性文摘的形式表述文献中信息价值较高的部 分 而以指示性文摘的形式表述其余部分的文摘 作者文摘 author s abstracts 由文献作者自己撰写的文摘 文摘员文摘 abstractpr s abstracts 由文献作者以外的人员编写的文摘 4 Summary Classification Classified by user s requirement Generic Summarization GS User query Summar

4、ization UQS Classified by text object Single Document Summarization Multiple Document Summarization Classified by method Summarization Based on Extraction SBE Summarization Based on Understanding SBU Classified by need corpus Supervised Summarization SS Unsupervised Summarization US 5 自动摘要 定义 利用计算机自

5、动地从原始文档中提取全面准 确地反映该文档中心内容的简单连贯的短文 自动文摘系统 自动文摘系统应能将原文的主题思想或中心 内容自动提取出来 文摘应具有概况性 客观性 可理解性和可 读性 6 DUC hold by NIST from 2001 http duc nist gov By Mark T Maybury and Inderjeet Mani A Brief History of Summarization 7 研究现状 国外研究主要是面对英文信息的处理 比较有代 表性的系统有 美国哥伦比亚大学的多文档自动文摘系统Newsblaster 对每天发生的同主题新闻进行摘要 美国密西根大学研

6、究开发的WebInEssence 个性化的基于Web的多文档自动文摘和内容推荐系统 美国南加利福尼亚大学的信息科学研究所NeATS Vivisimo公司 infonetware公司 这两个公司对搜索引擎返回的结果进行了有效地聚类整理 文档聚类是多文档自动文摘的一个关键的预处理步骤 DUC Document Understanding Conference 北大 中科院 哈工大 复旦 上海交大等 8 评价方法 9 内部评价方法 Intrinsic Methods 在提供参考摘要的前提下 以参考摘要为基 准评价系统摘要的质量 通常情况下 系统摘要与参考摘要越吻合 其质量越高 外部评价方法 Extr

7、insic Methods 不需要提供参考摘要 利用文档摘要代替原 文档执行某个文档相关的应用 例如 文档检索 文档聚类 文档分类等 能够提高应用性能的摘要被认为是质量好的 摘要 Evaluation 10 Evaluation Edmundson Edmundson评价 属于内部评价方法 客观评估 比较机械文摘 自动文摘系统得 到的文摘 与目标文摘的句子重合率 coselection rate 主观评估 由专家比较机械文摘与目标文摘 所含的信息 然后给机械文摘一个等级评分 等级分为 完全不相似 基本相似 很相 似 完全相似等 11 Edmundson评价的几个基本规定 专家文摘和机械文摘都存

8、入文本文件中 比较的基本单位是句子 句子是两个句子级标点符号之间的部分 句子级标号包括 为使专家文摘与机械文摘具有可比性 只 允许专家从原文中抽取句子 而不允许专 家根据自己对原文的理解重新生成句子 专家文摘和机械文摘的句子都按照在原文 中出现的先后顺序给出 Evaluation Edmundson 12 定义 重合率p 匹配句子数 专家文摘句子数 100 每一个机械文摘的重合率为按三个专家给出的 文摘得到的重合率的平均值 平均重合率 Pi为相对于第i个专家的重合率 n为专家的数目 原文 题目 机械文摘系统 专家文摘机械文摘 评价 100 1 nP n i i mhm hhm NNecisio

9、n NNcall Pr Re Evaluation 13 Evaluation ROUGE准则 由ISI的Lin和Hovy提出的一种自动摘要评价方法 被广泛应用于DUC的摘要评测任务中 ROUGE准则 基于摘要中n元词 n gram 的共现信息来评价摘要 是一种面向n元词召回率的评价方法 ROUGE准则由一系列的评价方法组成 包括 ROUGE 1 ROUGE 2 ROUGE 3 ROUGE 4 其中ROUGE 1至ROUGE 4分别基于1元词到4元词 以及ROUGE L ROUGE W等 14 Evaluation ROUGE准则 其中 n gram表示n元词 Ref Summaries 表示

10、参考摘要 Countmatch n gram 表示系统摘要和参考摘要 中同时出现n gram的个数 Count n gram 则表示参考摘要中出现的n gram个数 Summaries Ref Summaries Ref NROUGE SSgramn SSgramn match gramnCount gramnCount 15 DUC http duc nist gov The Document Understanding Conference DUC is a series of summarization evaluations that have been conducted by th

11、e National Institute of Standards and Technology NIST since 2001 Its goal is to further progress in automatic text summarization and enable researchers to participate in large scale experiments in both the development and evaluation of summarization systems Since 2008 DUC has moved to the Text Analy

12、sis Conference TAC http www nist gov tac Question Answering Recognizing Textual Entailment Summarization 16 自动摘要方法 17 Summarization Algorithms Keyword summaries Display most significant keywords Easy to do Hard to read poor representation of content Sentence extraction Extract key sentences Medium h

13、ard Summaries often don t read well Good representation of content Natural language understanding generation Build knowledge representation of text Generate sentences summarizing content Hard to do well Something between the Something between the last two methods last two methods 18 基本方法 19 位置法 美国的P

14、 E Baxendale的研究结果显示 人工摘要中的句子为段首句的比例为 85 是段尾句的比例为7 美国康奈尔大学G Salton提出了寻找文章 的中心段落为文摘核心的思想 其他 E g 除了论题句 段首 段尾等句子之 外 段落的第二句常常表示段落的主题 20 提示字串法 文章中常常有一些特殊的线索词 短语 字串 字串链 它们对文章主题具有明 显的提示作用 可以利用它们来获取文 章的主题 e g Edmundson的文摘系统中的线索词词 典 取正值的奖励词 Bonus Words 取负值的惩罚词 Stigma Words 无效词 Null Words 21 频率统计法 实验表明 高频字串往往与

15、主题相关度极 大 Luhn 1958 根据句子中实词的个数来计 算句子的权值 V A Oswald 主张句子的权值应按其所含 代表性的 词串 的数量来计算 Doyle 则重视共现频度最高的 词对 Lisa F Rau 1995 采用相对词频的方法实现 ANES Autormatic News Extraction System 系统 22 文章框架法 目次性摘要 借助文章的大小标题与语 义段的摘要方法 统计表明 大部分科技文献 99 8 的标 题都能基本反映主题 捷克Janos把文中的句子分为主干句与枝 叶句 删枝叶句留主干句的文摘方法可 划归于 文章框架法 23 信息提取法 信息提取法常用于

16、对一些特殊领域的文 献资料做摘要 如气象预报等 该方法根据用户的需求 首先构造出一个用户喜闻乐见的文摘框架 Abstract Frame 文摘框架以空槽的形式提 出应该从原文中获取的各项内容 然后再把文摘框架中的内容转换为文摘 文 字或图表 该方法常称之为二段式 抽取有关信 息 然后生成摘要 24 理解分析法 基于理解的自动摘要常包含语法分析 语义分析 信息提取和文摘生成 作者 文摘应属于此 研究表明 理解首先应着重篇章理解 段落理解 也就是理解应该是分层的 高层理解比低层理解更为重要 25 仿人算法 仿人算法就是对人工方法的学习 模仿 与发挥所产生的综合性方法 手工文摘人员在编制文摘时并不一定通 读全文 往往只着重观察标题 前言 结束语及其论题句 以发现其主题 再 挑选句子并修饰稍加组织生成文摘 人工很多经验都是值得注意的 同一篇 文献 不同用户兴趣点和观察角度可能 不同 文摘的结果应当不同 26 Sentence Extraction 27 Summarization Review Web Page Plain Text Sentence Sentence Sentence Sen

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号