WEB信息个性化采集与管理关键技术研究PPT课件.ppt

上传人:优*** 文档编号:127927817 上传时间:2020-04-07 格式:PPT 页数:27 大小:6.38MB
返回 下载 相关 举报
WEB信息个性化采集与管理关键技术研究PPT课件.ppt_第1页
第1页 / 共27页
WEB信息个性化采集与管理关键技术研究PPT课件.ppt_第2页
第2页 / 共27页
WEB信息个性化采集与管理关键技术研究PPT课件.ppt_第3页
第3页 / 共27页
WEB信息个性化采集与管理关键技术研究PPT课件.ppt_第4页
第4页 / 共27页
WEB信息个性化采集与管理关键技术研究PPT课件.ppt_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《WEB信息个性化采集与管理关键技术研究PPT课件.ppt》由会员分享,可在线阅读,更多相关《WEB信息个性化采集与管理关键技术研究PPT课件.ppt(27页珍藏版)》请在金锄头文库上搜索。

1、WEB信息个性化采集与管理关键技术研究 1 主要内容介绍 个性化信息采集与管理系统设计 4 2 主要内容介绍 本课题是在郑州市科技攻关项目 网络定制搜索与舆情分析系统 项目编号 0910SGYG23259 3 的基础上对WEB信息个性化的采集与管理的相关技术进行的研究 3 1选题背景及研究意义 虽然Internet信息量庞大 但是不能满足不同背景 不同目的和不同时期的用户需求 以每天730万网页 0 1TB信息量的速度增长 4 1选题背景及研究意义 目前的通用搜索引擎在使用中存在着诸多问题 很难满足不同用户的兴趣需求 WEB信息质量良莠不齐 表达的单一性 用户很难用简单的关键字来表达他所要的真

2、正内容 通用搜索引擎为用户提供的是无差别的 千人一面 的服务模式 丰度问题 即 99 的Web信息对于99 的Web用户是没有用处的 产生所谓的 信息源多种特征性 新闻网 论坛 博客等都具有不同的网页结构 动态页面无法检索 由用户在网站上填写表单动态生成 搜索引擎所用的爬虫无法自动填写表单 5 主要内容介绍 6 2关键技术与存在问题 使用效果 可利用扫描枪 二代证读卡器采集车辆信息和购车人身份信息 杜绝发票开具错误的情况 节约了人力成本 交通成本和燃油成本 初步统计一个年销售量在1500台的销售企业 车购税代办业务一年所节约的费用约为3 5万元 自助机每笔业务用时在2 3分钟左右 节省了纳税人

3、在窗口排队等候的时间 节约成本 降低开票差错率 高效服务 延伸车辆服务 提升企业形象 在汽车生产或销售企业就可进行 一站式 服务 使用效果 7 主要内容介绍 8 3 1 个性化定制WEB信息采集与提取综合采取网络爬虫 元搜索引擎 深网搜索三种搜索策略进行WEB信息采集 右图 能够达到召回率和精确率双重高效的标准 基于双重净化的网页主题内容提取方法 与 基于DOM树 的方法进行比较 能够更好地达到精确提取兴趣相关信息 本地数据库 9 3 采用的技术路线及解决方法 2 个性化WEB信息去重提出一种根据用户偏好进行网页去重算法 通过抽取网页要素中用户偏好的短语来抽取网页的内容 根据学习的网页内容设置

4、兴趣库 利用经典逻辑推理推测出它们的相似度来判断网页的重复度 同 基于网页内容结构 的去重方法进行比较 能达到更好的的去除重复的效果 10 3 采用的技术路线及解决方法 3 个性化分析WEB信息提出一种基于网络评论语言学结构的情感倾向识别模型 即 固定情感词元模型 该方法利用网络评论的语言学结构思想构造基于固定情感词元的三种特定搭配模式来构造识别算法 采用RBF核的SVM分类器进行分类 通过基于增量的tf idf模型的相关用户反馈不断更新特征词元集合 与传统的情感识别方法相比较 可以得到较为明显地提高情感分类的效率和准确率 11 3 采用的技术路线及解决方法 基于这种思想 提出一种固定语义词元

5、的识别算法 算法描述如下 text 在算法中 参数text表示输入的一篇文档 m表示文档中的特征词元数量 tag为条件标志beginforj 1tom if 不是最后一个词 tag 1 if 符合E T固定搭配 tag 100 在E T模式中 选择1 100中任意一个整数代表子模式的固定搭配endif 符合T T固定搭配 tag 200 在T T模式中 选择100 200中任意一个整数代表子模式的固定搭配endif 符合A S固定搭配 tag 300 在A S模式中 选择200 300中任意一个整数代表子模式的固定搭配endswich tag case1 在第j 1个词后增加特征 E T固定搭

6、配and第j 2个词 j j 2 break case2 在第j 1个词后增加特征 T T固定搭配and第j 2个词 j j 2 break case3 在第j 1个词后增加特征 A S固定搭配and第j 2个词 j j 2 break default 在第j 1个词后增加一个特征 第j个词and第j 1个词 j j 1 break endfor 返回增加了语义特征的text 主算法描述如下 begin 在本算法中 n表示文档的数目 text表示一篇当前评论文档 输入经过停用词过滤后的文档集 fori 1ton if text 中含有 E T固定搭配 and T T固定搭配 and A S固定

7、搭配 text else 增加用户的反馈信息 直接保存 text endendfor 输出经过 FSTIdentificationAlgorithm 处理过后的文档集 12 3 采用的技术路线及解决方法 4 个性化预测用户的搜索行为提出一种用户搜索行为预测模型 ARIMA SVM模型 该方法首先将一段时间内特定用户使用搜索的行为记录视为有序的随机序列 通过特征选择和文档表示的方法抽取搜索行为特征并进行标记 然后利用ARIMA时序分析方法来近似描述这一期的搜索行为记录 从而预测下一期的用户搜索行为 最后采用基于RBF核的SVM分类器去除噪声提高预测精确度 实验测试表明 新方法能够纠正预测用户行为

8、的方向 与ARIMA模型相比 具有更好的预测性能 13 主要内容介绍 个性化信息采集与管理系统设计 4 14 4 个性化信息采集与管理系统设计 4 1利用E R图建模和UML用例图建模相结合的方法设计数据库 4 2系统架构设计如下图 15 4 个性化信息采集与管理系统设计 4 3本系统的编程思路将采用MVC框架的解耦合的设计思路如图右图所示 4 4搜索模块 WangYi cs 利用正则表达式 baidu cs 利用正则表达式 BingAPIWrapper cs 通过在微软搜索引擎Bing注册API spider cs 通过启动网络爬虫抓取工作中的requestCrawlStart 方法 来抓取

9、信息 16 4 个性化信息采集与管理系统设计 4 6MD5去重算法 编码如下 MD5CryptoServiceProvidermd5 newMD5CryptoServiceProvider byte encryptedBytes md5 ComputeHash Encoding ASCII GetBytes inputString StringBuildersb newStringBuilder for inti 0 i encryptedBytes Length i sb AppendFormat 0 x2 encryptedBytes i returnsb ToString 4 7管理模块

10、 17 4 个性化信息采集与管理系统设计 4 8分析模块如下图所示 首先抽取搜索模块和管理模块处理过的页面主要内容形成文本 然后利用中科院开发的 ICTCLAS2009版系统 进行文本切词和分句处理 通过聚类算法处理形成文本句集合 接着通过语义类集合进行判断重要度 最终生成主题文本 并以分析图表的形式展示给用户 4 9系统展示 18 4 个性化信息采集与管理系统设计 19 4 个性化信息采集与管理系统设计 20 4 个性化信息采集与管理系统设计 21 4 个性化信息采集与管理系统设计 22 主要内容介绍 23 1 综合采取网络爬虫 元搜索引擎 深网搜索三种搜索策略进行WEB信息采集 能够达到召

11、回率和精确率双重高效的个性化搜索标准 2 基于双重净化的网页主题内容提取方法 与 基于DOM树 的方法进行比较 能较为精确地提取兴趣相关信息 5 总结 本研究解决的问题 3 用户偏好进行网页去重算法 同 基于网页内容结构 的去重方法进行比较 能达到更好的的去除重复的效果 4 基于网络评论语言学结构的情感倾向识别模型 与传统的情感识别方法相比较 可以得到较为明显地提高信息分类的效率和准确率 明确展示信息情感倾向 5 一种用户搜索行为预测模型 ARIMA SVM模型 实验测试表明 新方法能够纠正预测用户行为的方向 与ARIMA模型相比 具有更好的预测性能 24 5 总结 从整体上看 系统能够顺利运

12、行 也能够满足用户基本的个性化搜索服务 但是系统自身还存在一些不足之处 总结如下 1 三种搜索策略同时进行信息采集后 从信息抽取和去除到信息展示 没有设计相应的优化算法 从而导致系统时间运行5分钟以上才会显示给用户 2 由于网页的异构性 动态访问网站后台数据库的入口也不尽相同 因此定制信息采集组件的通用性不高 不可能适用于每个网站 因此遇到不同结构的网站 需要重新定制搜索策略 编写正则表达式 对于初学者具有一定困难 3 信息分析模块 还不能实现实时地动态形成趋势图 只能通过获取 分词 形成趋势图一步步地操作完成 4 考虑把信息理论和DOM树结构知识运用到网页信息的抽取 以达到从网页中抽取相关的

13、文字信息和相关链接 针对以上问题 总结经验 完善需求 编写相应的优化算法加快数据展示的速度 以人为本 利用人的反馈信息提高搜索的精度 把信息理论和DOM树结构知识运用到网页信息的抽取 以达到从网页中抽取相关的文字信息和相关链接 未来的web个性化信息采集与管理的发展势必向着人性化 智能化的方向不断前进 25 1 De QiangFan Su ZhiZhangandBao YanLi ANewSentimentPolarityRecognitionModelBasedonLinguisticStructureofNetworkReviews FixedSentimentTermsModel C

14、The2ndIEEEYouthConferenceonInformation ComputingandTelecommunications YC ICT2010 2010 311 314 2 Su ZhiZhang De QiangFan andBao YanLi ANewUserSearchBehaviorForecastModel ARIMA SVMModel C 2010ThirdInternationalConferenceonEducationTechnologyandTraining ETT2010 2010 557 560 3 张素智 樊得强 李宝燕 基于网络评论语言学结构的情感

15、倾向识别模型 J 被 第九届全国搜索引擎和网上信息挖掘学术研讨会 SEWM2011 收录 并在郑州大学学报 理学版 正刊于2011年5月发表 4 张素智 樊得强 网页去重方法研究及算法设计 J 郑州轻工业学报 自然科学版 Vol25 2 2010 63 67 5 张素智 李宝燕 樊得强 面向用户和领域本体的web信息采集系统 计算机研究新近展 C 电子工业出版社 2010 230 236 6 张素智 李宝燕 樊得强 面向用户的本体爬虫研究与设计 郑州轻工业学院学报 自然科学版 Vol25 2 2010 62 66 1 参与河南省科技攻关项目基于RFID技术的车辆出入安全管理系统 项目编号082102210054 并已结项 2010年5月 荣获 河南省教育厅科学技术成果一等奖 2010年5月 荣获 河南省科技进步三等奖 2 参加 河南省第四届软件大赛 并荣获 优秀奖 3 参与郑州市科技攻关项目网页定制搜索与舆情分析系统 项目编号0910SGYG23259 3 4 参加2009 大学科技园杯 科技创业大赛 并荣获 优秀奖 攻读硕士学位期间发表论文 攻读硕士学位期间获得科研鉴定成果 26 ThankYou 27

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号