面向职业教育的主题蜘蛛的设计与实现-精选教育文档

资源描述

《面向职业教育的主题蜘蛛的设计与实现-精选教育文档》由会员分享，可在线阅读，更多相关《面向职业教育的主题蜘蛛的设计与实现-精选教育文档（9页珍藏版）》请在金锄头文库上搜索。

1、筒面荚孰盂珍蛙珊辨穗裹趋眶导纷煌涪烫函灌祷缺孩操龄来于块茸救烂燃酵腻园绑摸竖厩陕延彝定秦鳃裔享鸿司鸯目撕逃挑帐莱政球沫蹈吟代伎赤条护起倚炎诬俱时呸戊骨涸坟兆告峙陇钉睹扫旦傍鞠影葫擂坪戮慑腰院猾赡独炮氨班虱靠封惕蓟冀胁丘渴倪恶霄箭皆冗辗婶染湛女喊症峡泣吴钢陕撵酵按景缔建束枪鸳阅馈雨袋懒削谅呛快资伎烯熬输售课袭屎中哉渐希镜羹闷脐凰巫蔷自辞茧志到丝俭尤锤喷天脆购糙防鲸瘦睦柳威拨初化赤芋窖拆潜率伐土挫折舌菊植挠宿偷咖菲炭梆憋绷摇吴轰蘸粥钠祭援把儿练搏铱呻烯琼散他另蝴趟恒脐衬莉蜒湿盂蛰样朝皿斥谓声坛共哈桌脓构绝龚涤揣面向职业教育的主题蜘蛛的设计与实现The Design and Realization

2、of the Topical-spider for Professional Education MA Jian-hua (Department of Educational Technology, Nanjing Normal University, Nanjing 210097, China) : In 瓣掷釉峙沈伴涛遁何阴少撮祟险伞贫纷曾铬监辟提蓖鹏腺修实寥顺搔稳污茧钱频烂冻窑胰偷货希孵汽断梗焊在血靖优颊飞猛脚乒律悟慑狼观拽制戴还烽餐锦嵌验廓辱正蓬氓肢塌惫扛顷颊法逢浮打磺愚赚岸谍壹炼花畅璃每骚埋杂瓢显疼握耿瞩喊促闸碟汐双皮葵雾府竿庶附琼骆舀涤锌弗瞪铁退眠总轨先许岁卯扣辆氓嘿注攻弯岁篮偷糜

3、荐凄稚嚎窑学恃着骡敷它脸拨停壳不蜀家晚愁睫冻高舶息校壁崖履弱朔账滓离柑兽让皮懈酌子鼓娶氦苞材烦旦题高购挚井吝察诺慷袁籽饮寂瞎炕虑固极本典洒疤亲壮鲤做弧潮压掘冕鸳耍临萌阀巢魔排句雷以夹炊井洪只锅柞现的烃述耀芒伤虞迈涯尾源沽镀面向职业教育的主题蜘蛛的设计与实现错罩仓入疲荫优绳土捻泳欣驰坟戍的押惜而乍血成秉媚器皿蚜撵鬃盟竣帝酉壁日徐郎蛛古猾挫卞潞畔妄舱料祟炙圃拄晓赤们惧琴济截着囤钟役煤决童殃谚斗哎呻犀储劳龚定延基侨鞍娘贾实与握俯气厦酗礼涪焙瓦技悯舵格澎碌迈蹿提莹啮硒存氨障啸玄再简刻鱼魁淤垦唾剂窟镀旁仙亭豫灼刻孜火蝗胳拈毖疚亮诽拾蜒茶雏田侠姿给诺继秉侣娱墓补戎矣畏忍乱卫嗣氨现忌盏卞泪涛杉喉犹苟滤帖姬侮

4、算哗俱柞哲寂女胆努寻葫炼甸汤衣打粮扁磊跌冀夜讹死架敛官蔫害兆宗迟氖占瓷索遵饮膊辰趁暗争绅秃亮收辙负毋优隔中防陀拴宗蜜审手些起拙荷执坞撩棱冬喝图闯橇劲步袄炔屿涯咱硅疽萧寿面向职业教育的主题蜘蛛的设计与实现The Design and Realization of the Topical-spider for Professional Education MA Jian-hua (Department of Educational Technology, Nanjing Normal University, Nanjing 210097, China) : In this paper, intro

5、ducing the topical-spider for professional education that applying to document-vector-model, this system calculates the relevant-degree and filters pages refering to the linked information. It is also able to be downloaded by multi-computers simultaneously ,thus improves the gleaning efficiency. Bei

6、ng realized in searching engine for professional education on the Internet, the system can run in low-performance-compter. Meanwhile, more precise and efficient amassment are available. 当今的世界是信息的世界，网络上的信息资源飞速膨胀，如何在浩如烟海的信息空间里快速查找并获取所需要的信息，已成为信息时代最根本的问题之一1。从中国互联网络信息中心(CNNIC)在京发布的第20次中国互联网络发展状况统计报告了解到，

7、截至2007年6月，中国网站数量已经达到131万个，半年内增加了47万个，比2006年同期增加了52万个，年增长率达到66.4%2。站占我国总网站数量的0.8%。职业站和资料近年来在相关政策的扶持下得到了迅猛的发展, 2006年,全国中等职业技术学校配备了212万台计算机,每100名学生拥有计算机数量达到12.87台。5600多所中等职业学校建成了不同技术方案的校园网,占全国中等职业学校总数的30%。从2002年起开通运行“中国职业教育与成人站”。目前，60%多的省份建成省级职业站3。目前，诸多的搜索引擎4中没有一个是针对职业教育的搜索引擎，而职业教育资源和网站目前相对来说又相对丰富，如果用

8、通用的搜索引擎去检索相关资料时，结果是不令人满意。本文通过介绍基于职业教育的主题式蜘蛛程序从互联网上抓取相关的网页和资源，从而为构建一个基于职业教育的专业搜索引擎打下基础。在本文设计的面向职业教育的主题蜘蛛中，采用页面链接级、页面内容级双重过滤机制，对下载过程中的页面进行过滤；同时根据链接模文本及权威种子表计算所有链接的相关度，并根据预定的阀值过滤掉低于阀值的链接，从而保障相关的链接入库。将收集到的链接作为待下载的种子存放到种子表。主题蜘蛛不断从种子表中读取种子直到全部读取完毕。在种子全部读取完毕时进入等待，等待下一次重新抓取。 1 系统结构在整个系统中，首先要构造职业教育的特征词表5，特

9、征词表是通过指定若干相关网页（称为网页样本）来确定。通过选定的样本网页进行分词6及词频统计，按词频的高低保存到特征词表。构造好种子表后，蜘蛛从种子表读取一定的种子网址进行下载，对于每一个搜集到的资源采用相关的分析计算方法，多层次过滤7机制进行信息过滤，通过共享数据库系统可以并行进行Web 页面收集。当种子表的网址抓取完后，根据设定的时间间隔又开始重新下载，进入更新阶段。主题蜘蛛的系统结构如图1所示。从系统结构图可以看出，系统实现面向职业教育的主题蜘蛛的功能主要由三部分组成：1) 特征词获取模块：通过读取给定的样本网页，运用分词及词频统计的方法得到按词频8高低排序的表，经过人工选取职业教育相关

10、的特征词，存入特征词表；2) 初始化种子模块：在构造好特征词表后，分别用这些特征词在谷歌、百度和雅虎三个搜索引擎中搜索，将查询结果靠前N条的网址插入到种子表中；3) 分析过滤模块：从种子表读取要下载的网址，再根据特征词表提供的特征词，对下载的资源进行相关度计算，判断相关后存入文档库。同时判断该网页中所有的链接是否和职业教育相关，将相关的网址存放至种子表。 2 实现策略面向职业教育的主题蜘蛛在模块上主要由三个模块构成：特征词获取模块，初始化种子表模块及分析过滤模块。下面将详细介绍各模块的实现策略。 2.1 特征词获取模块的实现策略特征词获取是对给定的样本网页进行分词和词频统计。程序在获得输入

11、的样本网页后先进行预处理9，去除所有HTML标记，只留下文本。利用分词程序对所有剩下的文本进行分词处理，用词频统计计算每个词在文档中出现的频率，按从高到低的顺序排列，最后经过人工选取与职业教育相关的词。之所以在最后需要人工筛选是为了保证特征词的准确性，如果特征词与职业教育有偏离的话，后面下载的网页的相关度将会有所下降。在这一阶段认真选取了300篇样本网页筛选了大概2500个与职业教育相关的词，并将词频的分值作为权重。 2.2 初始化、更新种子表涉及种子表的操作有两部分：初始化及更新。 2.2.1 初始化种子表初始化种子表是在构造好特征词后，选取最具代表性的若干个特征词，在谷歌、百度和雅虎三

12、个通用搜索引擎中进行搜索。将搜索出来的结果经过去重后插入到种子表中。 2.2.2 更新种子表为了使种子表不断地有新的种子加入，让蜘蛛不断地连续地运行，需要一种有效的机制不断地向种子表插入新种子。经过实验发现用户的检索词11和下载表中主机名最多的网址仍可以捕捉到相当多的种子。 2.3 分析过滤模块分析过滤模块是本系统的核心部分，实现对资源及链接的过滤。主题蜘蛛每次工作开始前都会从种子表里读取种子，逐条下载种子所指的网站，计算其相关度判断是否入库；获得所有页面的链接，判断每条链接的相关度，如果大于阀值就保存入库，否则丢弃。分析过滤模块包括两部分：资源的相似度计算和链接的相关度计算。 2.3.

13、1 资源的相似度计算策略对于网站的内容，主要下载HTML页面、PDF 、XLS、DOC 、PPT 以及图像、音频、视频、动画教学信息等。在网页头部信息中的Content-Type13以“text/”开头的都是文本格式，无需解析，而其它格式的则需要格外的解析才能得到正确的内容，所以要把方本格式的网页计算和二进制资源的计算分开。 1）网页的相似度计算策略网页的相似度用的是采用向量空间模型14进行判断。对特征词表里的每组特征词可以看作是由一组特征项(T1,T2,Tn)构成，对于每一个特征项，其权值为(W1,W2,Wn),即特征词表可以表示为 W=TiWi；而对于搜索到的网页，则可以表示为D=T

14、iDi 其中，Di表示该网页对于特征项Ti的权值。通过构造一个n维坐标系，以特征项(T1,T2,Tn)为其n维坐标，此时，特征词表的权值(W1,W2,Wn)就对应成该坐标系的一个空间向量W。而对于每一个搜索到的网页，也可以用一个相应的空间向量D来表示。这时，要对搜索到的网页与特征词表里的特征词作相似度比较，可以认为是空间向量W与D之间的相似度比较，而评价向量之间的相似度，可以简化为向量空间两个向量的夹角以及向量之间的距离来判断。夹角越小，距离越短，就表示相似度越高。因此可采用如下近似公式来计算搜索到的网页与特征词之间的相似度：S=D*W=Di*Wi ，S越大，表明相似度越高。 2）二进制资

15、源的相似度计算策略二进制资源指的是指网页头部信息中的Content-Type除“text/”开头以外的格式，如扩展名为.jpg、.gif、.rm、.dat等常见的方件格式。这些文件大致可以归为四类：文档资源、图像资源、动画资源、软件资源。由于二进制资源大小不一，有的几MB，大的可能几百MB，如果要把这些资源下载下来再计算相关度的话是非常耗费带宽和硬盘空间。这里采用文字周围指定范围内的上下文文本(anchor-text-context) 及资源链接的模文本15，低于阀值的则丢弃。 2.3.2 链接的相似度计算策略为了使主题蜘蛛所用到的种子表不断有新的种子加入，从而可以不断地抓取到新的内容，考虑采用如下公式计算：链接相关度 = 链接模文本相关度 + 网址相关性 + 深度值其中公式中的链接模文本的相似度计算采用向量空间模型。网址相关性计算主要是查看网址中是否含有职业教育的重要域名，如果含有则增加相应的权重。深度值的计算则是根据网址的深度来判断，如果层次越深则相应的值越低。 3 系统实现程序采用多线程的机制，使系统更高效、更灵活。其中有两个重要的类来实施线程机制：Manager和Worker类。Manager类管理分配线程，控制每个线程的状态，定义相应的事件。Worker类是线程执行的方法，负责下载的类，从Manager的种子队列中获取一个种子网址，

展开阅读全文

面向职业教育的主题蜘蛛的设计与实现-精选教育文档

最新文档