2022年搜索引擎垃圾页面检测技术申报表

上传人:桔**** 文档编号:567307298 上传时间:2024-07-19 格式:PDF 页数:10 大小:127.80KB
返回 下载 相关 举报
2022年搜索引擎垃圾页面检测技术申报表_第1页
第1页 / 共10页
2022年搜索引擎垃圾页面检测技术申报表_第2页
第2页 / 共10页
2022年搜索引擎垃圾页面检测技术申报表_第3页
第3页 / 共10页
2022年搜索引擎垃圾页面检测技术申报表_第4页
第4页 / 共10页
2022年搜索引擎垃圾页面检测技术申报表_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《2022年搜索引擎垃圾页面检测技术申报表》由会员分享,可在线阅读,更多相关《2022年搜索引擎垃圾页面检测技术申报表(10页珍藏版)》请在金锄头文库上搜索。

1、个人资料整理仅限学习使用1 / 10 工程编号:衡阳师范学院大学生课外学术科技创新基金工程申报表工程名称:搜索引擎垃圾页面检测技术研究申 请 者:系院)专业:计算机科学与技术非师范)联系电话:申请日期:工程类别 : 自然科学类学术论文哲学社会科学类社会调查报告和学术论文科技发明制作共青团衡阳师范学院委员会制二一三年三月一、工程基本情况工程名称搜索引擎垃圾页面检测技术研究精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 10 页个人资料整理仅限学习使用2 / 10 工程类别科技发明研究期限1 年申请经费300 元工程负责人姓名专业计算机科学

2、与技术所属系 院)计算机科学系主要合作人员姓 名系院)及专业指导老师姓 名工作单位及称谓项目简介搜索引擎是现代人类在互联网上获取信息必不可少的手段。由于在主流搜索引擎上获得较高的排名可以引起更多人的注意,从而带来巨大的利益。因此很多网站 ,特别是内容提供商 ,千方百计试图通过非法的手段欺诈搜索引擎, 从而提高自己的排名。这类欺诈网站或页面被称为垃圾页面。垃圾页面的存在给搜索引擎用户带来巨大麻烦, 用户不得不搜索结果中人工寻找有用的信息。因此 ,如果一个搜索引擎对垃圾页面处理不好,它的用户满意度将会迅速降低。垃圾页面检测技术被认为是现代搜索引擎所面临的最的挑战之一。本文详细描述了搜索引擎垃圾页面

3、的各种情况,讨论了搜索引擎垃圾页面的各种技术,也介绍了国外的一些研究动态以及解决问题的方法,在实际应用中及时准确地检测并清理搜索引擎垃圾页面仍然是个挑战,正如文中所强调的,只有准确地掌握了搜索引擎垃圾页面的各种技术特征,才能根据不同的特征有针对性的设计检测算法,把搜索引擎垃圾页面的检测看成一个分类问题,并使用决策树和支持向量机模型进行检测,根据搜索引擎垃圾页面的链接结构设计出图算法检测链接工厂。我们将结合先进的计算机科学与技术学习, 链接分析 , 页面内容分析等手段 ,提高垃圾页面检测的准确率 , 确保用户搜索到满意的结果,提高用户的满意率。精选学习资料 - - - - - - - - - 名

4、师归纳总结 - - - - - - -第 2 页,共 10 页个人资料整理仅限学习使用3 / 10 二、立论依据 ,通过在页面中提供给用户更多、更有效的信息,以提升他们的网站在搜索引擎的搜索结果中的排名 .而有些网站则通过一些不道德 的方式来提升在搜索引擎的搜索结果中的排名.更有甚者,为了吸引访问量,手动或自动地制造一些页面,而这些页面没有提供给用户任何有效信息.这些页面是直接针对搜索引擎的,但是在搜索引擎的搜索结果中获得了很高的排名,当用户查询某些关键词的时候,就有可能访问这些搜索引擎垃圾页面。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3

5、页,共 10 页个人资料整理仅限学习使用4 / 10 搜索引擎检索结果的排序会对相关的网站产生直接的影响,从而获得更多的经济效益。因此 , 为了使自己的网站在搜索引擎的检索结果中排名靠前,一些网站的所有者会采用各种各样的手段来提高自己的排名,于是产生了专门为其他网站提供提高网站排名服务的盈利组织SEO(搜索引擎优化组织 。SEO 采用的技术手段有些是合法有益的 , 能够使对用户有用的信息排名靠前。而有些技术则是利用一些非法手段来提高页面的排名, 这会造成大量垃圾信息。作为搜索引擎目前主要赢利模式的竞价排名还是刚刚起步,其中仍然存在很多弊端,但是从目前来看,竞价排名仍然能够令搜索引擎保持高速增长

6、的势头。雅虎子公司Overture 于 2000 年首次开始使用竞价排名的收费方式,这种收费方式推出以后很快被推广,在国内Baidu 公司率先使用。竞价排名的应用原理,首先确定按照用户的点击率进行收费的收费模式,在用户搜索的结果中,付费企业的推广信息优先显示在用户面前,如果顾客没点击该广告,则不收取费用;若点击该广告信息则收取一次费用,最后根据点击的次数来收取总的广告费用。而广告的位置排名,即出现在客户搜寻信息的位置,取决于企业支付单次点击费用的高低,为每次点击支付价格最高的广告会排在第一位,然后依次排列。目前,国内主要有三家搜索引擎,基本处于垄断地位。百度作为全球最大的中文搜索引擎,在国内首

7、创“竞价排名”概念,并早在2001 年 10 月申请了竞价排名专利并推广使用。Google 作为世界上最大的搜索引擎公司曾说“我们的广告业务绝不以任何方式影响我们的搜索”,“每一个搜索结果都是程序按规则自动排出,是纯粹技术选择的结果,这个结果神圣不可侵犯”。但其却在2003 年 4 月 3 日与电子商务网站弧马逊签署了一份搜索排名的服务协议,开始了竞价排名服务。随后,2004 年 11 月 22 日 Yahoo 在中囝推出“雅虎中国”搜索竞价,这预示着雅虎与老对手 Google 开始了正面交锋。目前, 搜索引擎对页面的排名主要依靠内容相关度和页面重要程度两方面来确定。内容相关度可以由tfidf

8、 等信息检索的方法计算 ,而重要程度往往由PageRank和 HITS 等基于链接分析的算法得出。相应地, Spam 技术也主要分为针内容对相关度的 Spam 和针对页面重要程度的Spam( 或者称为基于超级链接的Spam 两大类。这些 Spam 技术往往会干扰搜索引擎的正常排名结果。综上所述可知,搜索引擎垃圾页面导致的主要后果为索引擎检索结果质量下降,搜索引擎公司的资源的消耗和用户体验的降低.为解决数量日益增长的垃圾页面产生的各种问题,所以搜索引擎垃圾页面检测技术在搜索引擎优化中显得尤为重要,精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页

9、,共 10 页个人资料整理仅限学习使用5 / 10 4.参考文献1王利刚 .搜索引擎中的反 SEO 作弊研究 J.2009,(062贾志洋 .基于内容的搜索引擎垃圾页面检测J.2009,(113徐启华 .一种新的软间隔支持向量机分类算法J.2005,(094祝伟华 .基于 Lucene.Net 具有用户权限的全文检索系统的应用J.2009,(015谭龙江 .基于搜索引擎优化的网络宣传机模型J.2018,(086武磊.基于结构信息和时域信息的垃圾页面检测技术J.2008,(04 7刘玮,王丽宏.基于统计特征的垃圾博客过滤J.2008,(06 8余慧佳 ,茹立云 .基于目的分析的作弊页面分类J.2

10、009,(029 周平.Lucene 全文检索引擎技术及应用 J.2007,(04 10 徐启华.基于支持向量机的航空发动机故障诊断J.2005,(0211 祁亨年.支持向量机及其应用研究综述J.2004,(1012 欧阳柳波 .专业搜索引擎搜索策略综述J.2004,(13 13 王晓丹.支持向量机研究与应用 J.2004,(03 14 许建华.支持向量机的新发展 J.2004,(0515管建和 .基于 Lucene 全文检索引擎的应用研究与实现J.007,(02 16肖冉.搜索引擎竞价排名法律规制研究J.新学术 .2007,(5 17 黄武双.搜索引擎服务商商标侵权责任的法理基础J.2008

11、,(5 18 侯丽娟.竞价排名让客户主动找到你EJJ.2006,(4 19 李银莲.竞价排名 ,您了解吗 J. 2006,(8 20 孙钦东,管晓宏,周亚东.网络信息内容审计研究的 J. 2009, (8 22 程光,龚俭,丁伟等.面向 IP 流测量的哈希算法研究 J.软件学报 .2005, (5 23 李晓明,闫宏飞.搜索引擎 -原理、技术与系统 M.北京:科学出版社 .2005 24 梁斌.走进搜索引擎 .北京:电子工业出版社 M .2007 25 郭军. Web 搜索.北京:高等教育出版社 M.2009 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - -

12、- -第 5 页,共 10 页个人资料整理仅限学习使用6 / 10 三、研究方案a研究目标、研究内容和拟解决的关键问题 1.研究目标:了解掌握搜索引擎垃圾页面检测技术,分析当前,发表学术论文,为促进网络搜索业健康发展提供科学的理论依据。 2.研究内容1) 搜索引擎的基本工作原理(爬虫、倒排表、查询排序 2) 搜索引擎算法, TrustRank 算法,找出其中的缺陷不足3) 识别垃圾页面的识别特征4) 查询,关键字匹配与排序5) 检测算法与优化 3.拟解决的关键问题1) 不良网络内容快速识别技术基于 URL 的不良页面识别方法及处理办法基于 Web 页面文本信息的不良页面识别方法及处理办法2)

13、算法的时间复杂度3) 如何实现在搜索中过滤掉垃圾页面b拟采取的研究方法及可行性分析1研究方法1)文献分析法:对大量相关文献资料进行阅读分析,了解和掌握前人研究所取得的成果以及尚存的不足。2)数学论证方法:用数学的方法对搜索引擎检测算法进行论证。3)科学实验对照法:对不同的搜索引擎的工作原理进行科学实验对照,分析出优势和不足。2.可行性分析1)可以立即进行工程但技术研究开发周期长。2)网络资源获取方便,经济成本低。 3)指导老师的专业知识提供了技术指导和支持。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 10 页个人资料整理仅限学习使用

14、7 / 10 c本工程的特色与创新之处本工程是以现有搜索引擎的相关技术为基础,这样在一定程度上提高了系统设计和开发的可行性。另一方面,本工程以垃圾页面的检测为研究对象,并结合目前比较流行的框计算、云计算等先进技术,突破了如今搜索引擎搜索结果竞价排名的局限性,在技术上具有很强的创新性。同时,此项垃圾页面检测技术从基于内容的、基于链接结构的、结合内容特征和链接信息垃圾页面三种模型出发,为用户提供最需要的信息和服务,而且也改善了用户体验,因此垃圾页面检测技术在功能上具有很强的实用性。d预期的研究进展和成果寻找这些垃圾页面的识别特征,根据页面的内容特征识别,包括词频的分布情况 主关键词、助词、停用词等

15、词频分布)、辅助信息情况比如标点符号出现的规律)、页面标题在内容出现的比例等理解当前搜索算法TrustRank寻找到当前算法的不足,在此基础上研究垃圾页面检测技术,写出12 篇学术论文,发表到相关的刊物上,为搜索引擎垃圾页面检测技术的发展提供一定的理论依据。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 7 页,共 10 页个人资料整理仅限学习使用8 / 10 创作过程中的问题1.不良网络内容快速识别技术基于 URL 的不良页面识别方法及处理办法基于 Web 页面文本信息的不良页面识别方法及处理办法2.算法的时间复杂度3.如何反馈搜索的页面时垃圾页

16、面指导老师意见一)指导老师意见二)精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 8 页,共 10 页个人资料整理仅限学习使用9 / 10 所在系院)意见公章)负责人:年月日团委审核意见公章)负责人:年月日学院专家评审委员会意见公章)负责人:年月日精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 9 页,共 10 页个人资料整理仅限学习使用10 / 10 申明:所有资料为本人收集整理,仅限个人学习使用,勿做商业用途。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 10 页,共 10 页

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号