基于主题的网页文本分类技术

上传人:油条 文档编号:1817313 上传时间:2017-07-15 格式:PDF 页数:32 大小:711.46KB
返回 下载 相关 举报
基于主题的网页文本分类技术_第1页
第1页 / 共32页
基于主题的网页文本分类技术_第2页
第2页 / 共32页
基于主题的网页文本分类技术_第3页
第3页 / 共32页
基于主题的网页文本分类技术_第4页
第4页 / 共32页
基于主题的网页文本分类技术_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《基于主题的网页文本分类技术》由会员分享,可在线阅读,更多相关《基于主题的网页文本分类技术(32页珍藏版)》请在金锄头文库上搜索。

1、北京联合大学 毕 业 设 计I摘 要随 着 Web上 信 息 的 迅 速 扩 展 ,各 项 基 于 Web的 服 务 也 逐 渐 繁 荣 起 来 。 作 为 这 些 信息 服 务 的 基 础 和 重 要 组 成 部 分 ,Web信 息 采 集 正 广 泛 应 用 于 搜 索 引 擎 、 站 点 结 构 分 析 、页 面 有 效 性 分 析 、 用 户 兴 趣 挖 掘 以 及 个 性 化 信 息 获 取 等 多 种 应 用 和 研 究 中 。 然 而 ,随着 人 们 对 提 供 的 各 项 信 息 服 务 要 求 越 来 越 高 ,传 统 的 基 于 整 个 Web的 信 息 采 集 也 越 来

2、越 力 不 从 心 ,它 无 法 及 时 地 采 集 到 足 够 的 Web信 息 ,也 不 能 满 足 人 们 日 益 增 长 的 个 性化 需 求 。 为 此 ,本 项 目 面 向 互 联 网 中 存 在 的 海 量 教 育 资 源 , 对 Web上 满 足 特 定 主 题 的信 息 的 有 效 采 集 进 行 研 究 。基 于 主 题 的 Web教 育 资 源 采 集 技 术 的 研 究 主 要 有 三 个 研 究 内 容 : 本 体 构 建 技 术研 究 、 主 题 爬 虫 技 术 研 究 以 及 网 页 文 本 分 类 技 术 研 究 。网 页 文 本 分 类 技 术 被 广 泛 应

3、 用 到 搜 索 引 擎 中 , 本 文 对 文 本 分 类 技 术 进 行 研 究 , 介绍 文 本 分 类 的 基 本 过 程 , 论 述 文 本 预 处 理 、 分 词 以 及 特 征 提 取 方 法 , 讨 论 朴 素 贝 叶 斯 、K近 邻 、 支 持 向 量 机 、 投 票 等 常 用 的 文 本 分 类 原 理 与 方 法 , 探 讨 网 页 文 本 分 类 技 术 。采 用 支 持 向 量 机 技 术 , 设 计 并 实 现 了 一 个 开 放 的 基 于 主 题 的 网 页 文 本 分 类 系 统 。实 验 表 明 , 它 不 仅 具 有 较 高 的 训 练 效 率 , 同

4、时 能 得 到 很 高 的 分 类 准 确 率 和 查 全 率 。关 键 词 : 主 题 , 分 词 , 向 量 空 间 模 型 , 文 本 分 类 , 支 持 向 量 机北京联合大学 毕 业 设 计IIAbstractWiththerapidexpansionofinformationontheWeb,theWeb-basedservicesaregraduallyflourished.Asthebasicandimportantcomponentoftheseinformationservices,Webinformationcollectionisbeingwidelyappliedto

5、thesearchenginesitestructureanalysis,analysisoftheeffectivenessofthepage,theuserinterestinformationandpersonalizedaccesstotapavarietyofapplicationsandresearch.However,aspeopleofvariousinformationservicesrequireincreasinglyhigh,thetraditionalinformationcollectionbasedontheentireWebareincreasinglypowe

6、rless,itisunabletocollecttimelyinformationtotheWebenough,cannotmeetthegrowingindividualneeds.Tothisend,theprojectfacingmassiveeducationalresourcesontheInternetthatexistontheWebtomeetthespecifictopicofthecollectionofinformationoneffectiveresearch.ResearchtopicsofWeb-basededucationalresourceacquisitio

7、ntechnologythreemainresearchcontents:ontologyconstructiontechnologyresearch,technology,andresearchtopicsreptilespagetextclassificationtechnologyresearch.Webtextclassificationtechnologiesarewidelyappliedtothesearchengines,thispaperthebasicprocessoftextclassificationtechnologyresearch,introductorytext

8、classification,discussesthetextpre-processing,segmentationandfeatureextractionmethodsdiscussedNaiveBayes,Knearestneighbor,supportvectormachines,votingandothercommonlyusedtextclassificationprinciplesandmethodstoexplorepagetextclassificationtechniques.Usingsupportvectormachinetechnology,designandimple

9、mentationofaweb-basedopentopictextclassificationsystems.Experimentsshowthatitnotonlyhasahighertrainingefficiencywhiletogethighclassificationaccuracyandrecall.K eywords : theme , word , vector space model, Text categorization ,SupportVector Machine(SVM)北京联合大学 毕 业 设 计III目 录摘 要 .IAbstract.II目 录 .III1 引

10、 言 .-1-1.1 研 究 目 的 及 意 义 .-1-1.2 国 内 外 研 究 现 状 .-1-2 基 于 主 题 的 Web信 息 采 集 .-3-2.1 基 本 原 理 .-3-3 网 页 文 本 分 类 技 术 .-4-3.1 文 本 分 类 系 统 构 建 .-4-3.1.1 自 动 分 词 .-5-3.1.2 特 征 选 择 .-6-3.1.3 向 量 空 间 模 型 .-6-3.1.4 TF*IDF 启 发 式 权 重 算 法 .-6-3.2 文 本 分 类 方 法 .-7-3.2.1 k-近 邻 算 法 ( KNN) .-8-3.2.2 贝 叶 斯 算 法 ( NaiveBayes) .-9-3.2.3 决 策 树 ( DecisionTree) 分 类 .-10-3.2.4 基 于 投 票 的 方 法 .-10-3.2.5 支 持 向 量 机 ( SVM) 方 法 .

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号