WEB文本数据仓库论文:预处理信息抽取文本分类

上传人:jiups****uk12 文档编号:39453825 上传时间:2018-05-16 格式:DOC 页数:3 大小:32.50KB
返回 下载 相关 举报
WEB文本数据仓库论文:预处理信息抽取文本分类_第1页
第1页 / 共3页
WEB文本数据仓库论文:预处理信息抽取文本分类_第2页
第2页 / 共3页
WEB文本数据仓库论文:预处理信息抽取文本分类_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《WEB文本数据仓库论文:预处理信息抽取文本分类》由会员分享,可在线阅读,更多相关《WEB文本数据仓库论文:预处理信息抽取文本分类(3页珍藏版)》请在金锄头文库上搜索。

1、Web 文本数据仓库论文:预处理信息抽取文本分类【提示】本文仅提供摘要、关键词、篇名、目录等题录内容。为中国学术资源库知识代理, 不涉版权。作者如有疑义,请联系版权单位或学校。【摘要】随着互联网技术的发展,人们越来越多的利用 Web 获得自己所需的资源。由于 Web 上各种资源非常丰富,包括大量的图片、文本等信息。如何把 Web 中非结构化的文本结构化,抽取支持高级应用的有用信息并载入数据仓库成为预处理的一个关键技术。本文以 Web 文本数据仓库中的预处理系统为例,重点讨论了预处理中的关键技术。首先介绍了基于主题方法的 Web 文本数据仓库的构建,并设计了其星型模型,从中得到需要从 Web 文

2、本中获取的信息。然后论述了文档对象模型(DOM)和信息抽取技术,通过对 HTML 解析把非结构化的 Web 文本变成 DOM,获得所需的标题、作者以及内容等信息,并为后续获得其他所需信息的信息抽取操作提供了结构化模型。在信息抽取过程中采用了文本分词、关键词提取、自动摘要提取以及文本分类技术。由于分词技术已经比较成熟,本文采用了中科院 ICTCLAS 分词系统;在关键词提取中采用基于词共现模型的方法;在摘要提取的过程中,使用了一种改进的基于统计的摘要提取技术,获得流畅的摘要,达到了较好的效果;本文还设计了一种二维的 SVM-KNN 的文本分类方法,解决了 SVM 中对核函数的依赖问题,并且采用了

3、 KNN 算法的高准确性,获得了较好的分类效果。根据以上研究成果,本文描述了系统的设计方案和实现过程。【关键词】Web 文本数据仓库;预处理;信息抽取;文本分类;【篇名】面向 Web 文本数据仓库的预处理关键技术研究【目录】面向 Web 文本数据仓库的预处理关键技术研究 摘要 3-4 Abstract 4 第一章 绪论 7-11 1.1 课题背景 7 1.2 国内外研究现状 7-9 1.2.1 国外研究现状 8-9 1.2.2 国内研究现状 9 1.3 本文研究内容与组织结构 9-11 第二章 Web 文本数据仓库 11-21 2.1 数据仓库 11-16 2.1.1 数据仓库定义及特点 11

4、-12 2.1.2 数据仓库与传统数据库的区别 12-13 2.1.3 数据仓库体系结构 13-14 2.1.4 数据仓库建模技术 14-16 2.2 Web 文本数据仓库 16-20 2.2.1 Web 文本数据仓库基本概念 16 2.2.2 Web 文本数据仓库的构建方法 16-17 2.2.3 Web 文本数据仓库的设计 17-20 2.3 本章小结 20-21 第三章 Web 页面预处理 21-25 3.1 Web 页面分析 21-23 3.1.1 HTML 概述 21-23 3.2 Web 页面处理 23-24 3.2.1 文档对象模型 23-24 3.3 本章小结 24-25 第四

5、章 Web 文本信息抽取关键技术研究 25-51 4.1 信息抽取技术 25-27 4.1.1 信息抽取概念 25-26 4.1.2 信息抽取的常用方法 26-27 4.1.3 Web 文本数据仓库的信息抽取方法 27 4.2 中文文本分词技术 27-30 4.2.1 常用中文分词方法 27-30 4.3 关键字提取技术 30-33 4.3.1 常用关键字提取方法 30-32 4.3.2 词共现模型 32-33 4.4 自动摘要技术 33-40 4.4.1 文摘的概念 33 4.4.2 常用自动文摘方法 33-37 4.4.3 改进的基于统计的自动文摘方法 37-39 4.4.4 改进的自动文

6、摘方法实验 39-40 4.5 Web 文本分类技术 40-50 4.5.1 Web 文本分类概述 40-41 4.5.2 Web 文本分类过程 41-43 4.5.3 Web 文本分类方法 43-47 4.5.4 二维的 SVM-KNN 分类方法 47-49 4.5.5 二维的 SVM-KNN 分类方法实验 49-50 4.6 本章小结 50-51 第五章 Web 文本数据仓库预处理系统的设计与实现 51-67 5.1 系统功能模块 51-53 5.2 预处理系统详细设计 53-62 5.2.1 HTML 树型解析 53-55 5.2.2 Web 文本分词与关键字提取详细设计 55-57 5.2.3 自动摘要详细设计 57-60 5.2.4文本分类详细设计 60-62 5.3 系统实现 62-66 5.4 本章小结 66-67 第六章 总结与展望 67-69 6.1 本文总结 67-68 6.2 研究展望 68-69 致谢 69-71 参考文献 71-74

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号