WEB信息个性化采集与管理关键技术研究PPT课件.ppt

资源描述

《WEB信息个性化采集与管理关键技术研究PPT课件.ppt》由会员分享，可在线阅读，更多相关《WEB信息个性化采集与管理关键技术研究PPT课件.ppt（27页珍藏版）》请在金锄头文库上搜索。

1、WEB信息个性化采集与管理关键技术研究 1 主要内容介绍个性化信息采集与管理系统设计 4 2 主要内容介绍本课题是在郑州市科技攻关项目网络定制搜索与舆情分析系统项目编号 0910SGYG23259 3 的基础上对WEB信息个性化的采集与管理的相关技术进行的研究 3 1选题背景及研究意义虽然Internet信息量庞大但是不能满足不同背景不同目的和不同时期的用户需求以每天730万网页 0 1TB信息量的速度增长 4 1选题背景及研究意义目前的通用搜索引擎在使用中存在着诸多问题很难满足不同用户的兴趣需求 WEB信息质量良莠不齐表达的单一性用户很难用简单的关键字来表达他所要的真

2、正内容通用搜索引擎为用户提供的是无差别的千人一面的服务模式丰度问题即 99 的Web信息对于99 的Web用户是没有用处的产生所谓的信息源多种特征性新闻网论坛博客等都具有不同的网页结构动态页面无法检索由用户在网站上填写表单动态生成搜索引擎所用的爬虫无法自动填写表单 5 主要内容介绍 6 2关键技术与存在问题使用效果可利用扫描枪二代证读卡器采集车辆信息和购车人身份信息杜绝发票开具错误的情况节约了人力成本交通成本和燃油成本初步统计一个年销售量在1500台的销售企业车购税代办业务一年所节约的费用约为3 5万元自助机每笔业务用时在2 3分钟左右节省了纳税人

3、在窗口排队等候的时间节约成本降低开票差错率高效服务延伸车辆服务提升企业形象在汽车生产或销售企业就可进行一站式服务使用效果 7 主要内容介绍 8 3 1 个性化定制WEB信息采集与提取综合采取网络爬虫元搜索引擎深网搜索三种搜索策略进行WEB信息采集右图能够达到召回率和精确率双重高效的标准基于双重净化的网页主题内容提取方法与基于DOM树的方法进行比较能够更好地达到精确提取兴趣相关信息本地数据库 9 3 采用的技术路线及解决方法 2 个性化WEB信息去重提出一种根据用户偏好进行网页去重算法通过抽取网页要素中用户偏好的短语来抽取网页的内容根据学习的网页内容设置

4、兴趣库利用经典逻辑推理推测出它们的相似度来判断网页的重复度同基于网页内容结构的去重方法进行比较能达到更好的的去除重复的效果 10 3 采用的技术路线及解决方法 3 个性化分析WEB信息提出一种基于网络评论语言学结构的情感倾向识别模型即固定情感词元模型该方法利用网络评论的语言学结构思想构造基于固定情感词元的三种特定搭配模式来构造识别算法采用RBF核的SVM分类器进行分类通过基于增量的tf idf模型的相关用户反馈不断更新特征词元集合与传统的情感识别方法相比较可以得到较为明显地提高情感分类的效率和准确率 11 3 采用的技术路线及解决方法基于这种思想提出一种固定语义词元

5、的识别算法算法描述如下 text 在算法中参数text表示输入的一篇文档 m表示文档中的特征词元数量 tag为条件标志beginforj 1tom if 不是最后一个词 tag 1 if 符合E T固定搭配 tag 100 在E T模式中选择1 100中任意一个整数代表子模式的固定搭配endif 符合T T固定搭配 tag 200 在T T模式中选择100 200中任意一个整数代表子模式的固定搭配endif 符合A S固定搭配 tag 300 在A S模式中选择200 300中任意一个整数代表子模式的固定搭配endswich tag case1 在第j 1个词后增加特征 E T固定搭

6、配and第j 2个词 j j 2 break case2 在第j 1个词后增加特征 T T固定搭配and第j 2个词 j j 2 break case3 在第j 1个词后增加特征 A S固定搭配and第j 2个词 j j 2 break default 在第j 1个词后增加一个特征第j个词and第j 1个词 j j 1 break endfor 返回增加了语义特征的text 主算法描述如下 begin 在本算法中 n表示文档的数目 text表示一篇当前评论文档输入经过停用词过滤后的文档集 fori 1ton if text 中含有 E T固定搭配 and T T固定搭配 and A S固定

7、搭配 text else 增加用户的反馈信息直接保存 text endendfor 输出经过 FSTIdentificationAlgorithm 处理过后的文档集 12 3 采用的技术路线及解决方法 4 个性化预测用户的搜索行为提出一种用户搜索行为预测模型 ARIMA SVM模型该方法首先将一段时间内特定用户使用搜索的行为记录视为有序的随机序列通过特征选择和文档表示的方法抽取搜索行为特征并进行标记然后利用ARIMA时序分析方法来近似描述这一期的搜索行为记录从而预测下一期的用户搜索行为最后采用基于RBF核的SVM分类器去除噪声提高预测精确度实验测试表明新方法能够纠正预测用户行为

8、的方向与ARIMA模型相比具有更好的预测性能 13 主要内容介绍个性化信息采集与管理系统设计 4 14 4 个性化信息采集与管理系统设计 4 1利用E R图建模和UML用例图建模相结合的方法设计数据库 4 2系统架构设计如下图 15 4 个性化信息采集与管理系统设计 4 3本系统的编程思路将采用MVC框架的解耦合的设计思路如图右图所示 4 4搜索模块 WangYi cs 利用正则表达式 baidu cs 利用正则表达式 BingAPIWrapper cs 通过在微软搜索引擎Bing注册API spider cs 通过启动网络爬虫抓取工作中的requestCrawlStart 方法来抓取

9、信息 16 4 个性化信息采集与管理系统设计 4 6MD5去重算法编码如下 MD5CryptoServiceProvidermd5 newMD5CryptoServiceProvider byte encryptedBytes md5 ComputeHash Encoding ASCII GetBytes inputString StringBuildersb newStringBuilder for inti 0 i encryptedBytes Length i sb AppendFormat 0 x2 encryptedBytes i returnsb ToString 4 7管理模块

10、 17 4 个性化信息采集与管理系统设计 4 8分析模块如下图所示首先抽取搜索模块和管理模块处理过的页面主要内容形成文本然后利用中科院开发的 ICTCLAS2009版系统进行文本切词和分句处理通过聚类算法处理形成文本句集合接着通过语义类集合进行判断重要度最终生成主题文本并以分析图表的形式展示给用户 4 9系统展示 18 4 个性化信息采集与管理系统设计 19 4 个性化信息采集与管理系统设计 20 4 个性化信息采集与管理系统设计 21 4 个性化信息采集与管理系统设计 22 主要内容介绍 23 1 综合采取网络爬虫元搜索引擎深网搜索三种搜索策略进行WEB信息采集能够达到召

11、回率和精确率双重高效的个性化搜索标准 2 基于双重净化的网页主题内容提取方法与基于DOM树的方法进行比较能较为精确地提取兴趣相关信息 5 总结本研究解决的问题 3 用户偏好进行网页去重算法同基于网页内容结构的去重方法进行比较能达到更好的的去除重复的效果 4 基于网络评论语言学结构的情感倾向识别模型与传统的情感识别方法相比较可以得到较为明显地提高信息分类的效率和准确率明确展示信息情感倾向 5 一种用户搜索行为预测模型 ARIMA SVM模型实验测试表明新方法能够纠正预测用户行为的方向与ARIMA模型相比具有更好的预测性能 24 5 总结从整体上看系统能够顺利运

12、行也能够满足用户基本的个性化搜索服务但是系统自身还存在一些不足之处总结如下 1 三种搜索策略同时进行信息采集后从信息抽取和去除到信息展示没有设计相应的优化算法从而导致系统时间运行5分钟以上才会显示给用户 2 由于网页的异构性动态访问网站后台数据库的入口也不尽相同因此定制信息采集组件的通用性不高不可能适用于每个网站因此遇到不同结构的网站需要重新定制搜索策略编写正则表达式对于初学者具有一定困难 3 信息分析模块还不能实现实时地动态形成趋势图只能通过获取分词形成趋势图一步步地操作完成 4 考虑把信息理论和DOM树结构知识运用到网页信息的抽取以达到从网页中抽取相关的

13、文字信息和相关链接针对以上问题总结经验完善需求编写相应的优化算法加快数据展示的速度以人为本利用人的反馈信息提高搜索的精度把信息理论和DOM树结构知识运用到网页信息的抽取以达到从网页中抽取相关的文字信息和相关链接未来的web个性化信息采集与管理的发展势必向着人性化智能化的方向不断前进 25 1 De QiangFan Su ZhiZhangandBao YanLi ANewSentimentPolarityRecognitionModelBasedonLinguisticStructureofNetworkReviews FixedSentimentTermsModel C

14、The2ndIEEEYouthConferenceonInformation ComputingandTelecommunications YC ICT2010 2010 311 314 2 Su ZhiZhang De QiangFan andBao YanLi ANewUserSearchBehaviorForecastModel ARIMA SVMModel C 2010ThirdInternationalConferenceonEducationTechnologyandTraining ETT2010 2010 557 560 3 张素智樊得强李宝燕基于网络评论语言学结构的情感

15、倾向识别模型 J 被第九届全国搜索引擎和网上信息挖掘学术研讨会 SEWM2011 收录并在郑州大学学报理学版正刊于2011年5月发表 4 张素智樊得强网页去重方法研究及算法设计 J 郑州轻工业学报自然科学版 Vol25 2 2010 63 67 5 张素智李宝燕樊得强面向用户和领域本体的web信息采集系统计算机研究新近展 C 电子工业出版社 2010 230 236 6 张素智李宝燕樊得强面向用户的本体爬虫研究与设计郑州轻工业学院学报自然科学版 Vol25 2 2010 62 66 1 参与河南省科技攻关项目基于RFID技术的车辆出入安全管理系统项目编号082102210054 并已结项 2010年5月荣获河南省教育厅科学技术成果一等奖 2010年5月荣获河南省科技进步三等奖 2 参加河南省第四届软件大赛并荣获优秀奖 3 参与郑州市科技攻关项目网页定制搜索与舆情分析系统项目编号0910SGYG23259 3 4 参加2009 大学科技园杯科技创业大赛并荣获优秀奖攻读硕士学位期间发表论文攻读硕士学位期间获得科研鉴定成果 26 ThankYou 27

展开阅读全文