从引文分析看网络结构挖掘

上传人:新** 文档编号:486554430 上传时间:2023-06-14 格式:DOC 页数:7 大小:52.51KB
返回 下载 相关 举报
从引文分析看网络结构挖掘_第1页
第1页 / 共7页
从引文分析看网络结构挖掘_第2页
第2页 / 共7页
从引文分析看网络结构挖掘_第3页
第3页 / 共7页
从引文分析看网络结构挖掘_第4页
第4页 / 共7页
从引文分析看网络结构挖掘_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《从引文分析看网络结构挖掘》由会员分享,可在线阅读,更多相关《从引文分析看网络结构挖掘(7页珍藏版)》请在金锄头文库上搜索。

1、从引文分析看网络结构挖掘洪光宗深圳图书馆 广东 深圳 518026摘要本文在阐述引文分析的原理及作用的基础上,分析了网络结构挖掘的原理和作用,并给出了网络结构挖掘技术在搜索引擎中几例初步应用。关键词引文分析 网络结构挖掘 网络数据挖掘Analyzing Web Structure Mining From Citation Analysis AspectHong GuangzongShenzhen Library, Shenzhen , Guangdong 518026AbstractThe method of web structure mining originates from citat

2、ion analysis, the article at first sets forth the principle and function of the citation analysis, then analyses the principle and function of web structure mining. At present, the technology of web structure mining is applied into search engine and has got a good effect on it.KeywordCitation; Citat

3、ion analysis; Web structure mining; Web data mining1955 年,加菲尔德博士发表了具有划时代意义的引文索引论文Citation Indexes for Science: A New Dimension in Documentation through Association of Ideas, 1964 年,推出了第一个科学引文索引。如今,世界各地的研究人员利用引文索引深入地研究和评估他们的工作。时代已经跨入21世纪,互联网风行全球,大量的数据资源以二进制的形式存贮,并以超级链接的形式将这些资源联结成一个立体网络。那么,挖掘出这些数据资源之间

4、的内在联系,为我们科学地分析和评估这些数据资源提供帮助,这正是网络结构挖掘的作用之所在。1 引文分析的原理及作用1.1 引文及引文分析 任何一篇论文都不是孤立存在的, 而是相互影响和相互联系的,不同文献间的联系突出表现在文献间的相互引用。那么,什么叫引文呢?简单而言,引文就是引用他人的著述。在科学著述活动中,作者往往要直接或间接地引用他人的著述,以提供文章的佐证,提供历史背景材料,来加强论述的可信度,帮助读者更好地理解作者的观点。详细而言,引文便可以这样描述:在文献甲中提到或描述了文献乙,并以文后参考书目或脚注的形式列出了文献乙的出处,其目的在于指出信息的来源、提供某一观点的依据、借鉴陈述某一

5、事件(实)等。这时,便称文献乙为文献甲的引文,称文献甲为文献乙的引证文献。引文通常也称为被引文献或参考文献,引证文献通常也称为来源文献。文献间的相互引用,表明知识信息内容的继承和利用, 标志着学术研究的进展。正因为引文在科学发展、学术研究中的特殊作用,对引文进行研究分析,可以让我们更清楚地发现文献间的内在联系。所谓引文分析,就是对专业人员论著之间的引用与被引用的现象运用统计、归纳、比较、抽象、概括等分析方法, 对科学期刊、论文、著者等各种分析对象的引用或被引用现象进行分析,以揭示各种文献集合以及与文献交流有关的各种集合特征和集合之间联系的文献计量研究方法。引文分析作为一项学术成果,同时作为一种

6、研究方法,其应用十分广泛。比如说,我们可以用引文分析法来进行机构和人才的评价,作为科学管理的工具;也可以用来研究引文间立体网络关系,从而提示科学发展、历史背景、前景等;还可以用来进行文献检索,对期刊地位进行学术评价等。1.2 引文分析的原理从宏观的角度来看,文献间引用和被引用的特有关系构成了文献信息的整体,整个文献信息构成一张网,这张网是以文献(作者或期刊)为节点、以文献引证关系为边的链型、树型、网型的结构,这些链、树、网可以用加权有向图统一描述。根据划分的标准不同,网络结构也不一样。时序网络。在一组重要的具有代表性的引文中,每篇论文(或著者、或某期刊) 作为节点,按时间先后标以序号,连接这些

7、节点并以引用次数或其被引率为权值,即构成引文时序网络图。时序网络图能够展示出某个研究主题的论文源流、最初著者以及该主题发展的来龙去脉,从中可以探讨科学技术的历史发展和研究规律。同引网络。当两篇或两篇以上的文献共同被后来的一篇或多篇的文献引用,则称这两篇文献为同引,具有同引关系的两篇文献分别与其他文献构成同引关系,这些具有同引关系的文献形成的网络被称为同引网络。利用同引关系进行分析研究,可以展示和预测科学情报交流、传递的结果,同时也是文献检索的一种好方法。耦合网络。若两篇文献共同引用了一篇或多篇文献,则称这两篇文献有耦合关系,如果多篇文献间具有耦合关系,则构成一个耦合网络。从文献耦合关系可以定量

8、地分析文献,描绘出某一领域内的科学研究趋向,还可弥补传统检索方法的不足。1.3 引文分析的作用科学文献的相互引用,说明了知识信息内容的继承和利用,标志着科学循序渐进的发展。利用引文分析,我们可以通过影响因子来评价期刊的影响程度,也可以利用论文被引证次数可以评价个人,同时还可以对期刊和学科的学术影响力进行评价。因此,引文分析的作用是多方面的。(1)研究文献结构和科学结构。引用文献与被引文献在学科上是相关的,这种相关性使文献在学科上建立了的有机联系,并以学科自行组织,构成前后连贯的脉络。通过求本溯源,找出文献之间的联系,从而研究文献结构和学科结构。(2)研究文献的动态规律和用户行为特征。引用数据显

9、示了用户利用文献的习惯和特征,无需通过其他方式对用户进行调查就可以获得用户的习惯与特征。了解了用户的引用习惯,我们可以为其提供针对性很强的信息服务。 (3)研究科学发展史。每一篇文献和引用文献都是科学发展进程中一个特定事件的记录,因此,通过引文分析可以展现这些事件的发生和发展、揭示某种思想和实验的改善、扩充及修正等等,据此进行科学发展史的研究。 (4)评价人才、机构和成果。文献被引的多少、次数,可以作为学术水平、价值的测度。目前,利用引文来评价机构的科研实力的做法已被较为普遍地采用,例如中国科技信息研究所每年都根据SCI收录的论文数和论文被引次数对我国高校和科研院所进行排名,以比较这些高校和科

10、研院所的创造能力。引文分析除了上述列举的应用之外,许多国家还用引文分析来确定科研资助政策和重点研究领域等等。2 网络数据挖掘网络信息挖掘是指在大量样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取。例如,当信息挖掘系统发现“信息源”,它就会自动过滤掉与“信息源”无关的数据,这样可以大大减少用户的检索时间和成本。即除了处理传统数据库中的数值型结构化数据外,还可以是文本、图形、图像、网络信息资源等半结构、非结构的数据。根据挖掘的对象不同, 网络数据挖掘可以分为网络内容挖掘、网络结构挖掘以及网络用法挖掘。2.1 网络内容挖掘网络内容挖掘即从网络的内容/数据/文档中发现有用信息的

11、过程。在互联网中,一些信息是显性的,而另外有一些网络信息是“隐藏”着的数据, 如由用户的提问而动态生成的结果, 或存在于数据库管理系统中的数据, 它们无法被索引, 从而无法提供对它们有效的检索方式。而通过网络内容挖掘,可出找出隐含在web页面中的内容,进行更深层次的加工与处理。2.2 网络用法挖掘通过网络用法挖掘, 可以了解用户的网络行为数据所具有的意义。网络用法挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括: 网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。2.3 网络结构挖掘网络结构挖掘即挖掘Web 潜

12、在的链接结构模式。这种思想源于引文分析, 即通过分析一个网页链接和被链接数量以及对象来建立Web 自身的链接结构模式。这种模式可以用于网页归类, 并且可以由此获得有关不同网页间相似度及关联度的信息。网络结构挖掘有助于用户找到相关主题的权威站点, 并且可以概观指向众多权威站点的相关主题的站点。3 从引文分析看网络数据结构挖掘网络结构挖掘理论源自于引文分析,它是引文分析在网络领域的继续与发展。引文分析主要着重于平面文献之间的信息挖掘,找出引用文献与被引文献之间的逻辑关系,进而为科学评估与科学管理、决策等服务,而网络结构挖掘着重于网络文献之间和网络文献内部的信息挖掘,找出同一主题下各超级链接间的链接

13、与被链之间的逻辑关系,进而找出同一主题下的中心站点、中心网页和权威站点、权威网页,为用户能够准确、快捷地使用网络信息资源服务。3.1网络中超级链接网络就像由成千上万个互相连接、交织在一起的细胞组织起来的一个复杂结构,它将世界各地的众多的计算机用户和企业产品放在一个巨大的数据库中。这些网络中的庞大的数据资源正是通过超级链接作用到一起的。这些超链一方面引导用户进行网页浏览,另一方面也反映出网页创建者的一种判断,即如果网页甲存在一条超链指向网页乙,那么表明网页甲的作者认为网页乙包含了有价值的信息,网络结构挖掘正是分析与研究WWW中超链结构信息的工具。3.2网络结构挖掘原理正是由于这些网络资源并不是有

14、序的,而是处于杂乱、无序的状态。例如,同一主题的问题它会出现在不同的站点中,并且这些内容相关的WEB网页并不一定会有链接。在互联网中,超级链接的使用是随机的,并非所有的超级链接都包含十分重要的信息,有的只是为了给用户的浏览提供方便,而没有其它的意义,我们在这种提供浏览方便的超级链接称为浏览超级链接。而那些包含有语义信息的超级链接叫做语义超级链接。只有挖掘出语义超级链接才能帮助我们理解网页文档之间的意义,因此,我们在进行网络结构挖掘时要删去浏览超级链接,找出语义超级链接。网络结构挖掘的原理正是来源于引文分析,它认为若网页甲通过超链指向网页乙,则网页乙与网页甲是主题相关的,网页乙对于网页甲来讲是值

15、得关注的网页,其中隐含着对网页甲来说有价值的信息。在互联网中,相关主题的站点和页面之间一般都存在大量的链接,通过这种链接方式相聚集。但主题相同的所有站点或页面不一定会围绕一个中心相聚集,也就是说一个主题会存在多个聚集中心。聚集中心的站点或页面之间的链接关系最为密切,内容也最为相似,随着内容相似度的降低,相互的链接关系也会逐渐减少。另外,内容上的关联关系也会随着链接级数的增加而降低,会从一个主题逐渐演化为另外一个主题。3.3网络结构挖掘的作用正如引文分析的作用一样,我们分析网络结构挖掘,是因为它能够为我们在进行网站评估、网站分析等提供量化的佐证。(1)了解各网站受欢迎和关注的程度。如果一个网站在

16、同类网站中被用户点击的次数越多,那么它就越受用户的关注。同样,如果一个网站在同类网站中被别的网站链接的次数越多,那么它也受到同类网络主管的重视。相反,根据马太效应,一个网站很少被点击或者很少被链接,那么,它就会沉没在茫茫网海中,无人问津。(2)了解本站点与其它站点之间的关系。如果一个站点被别的站点链接,我们在除掉浏览超链的基础上,那么这两个站点之间应该有语义相关关系,这两个站点就可能为同一主题的相关站点。通过网络结构挖掘,我们可以找出同一主题下分布在世界各地的站点中的相关文档。(3)快速了解一个网站的内部结构。超链分为站内超链和站外超链,通过网络结构挖掘分析站内超链,可以找出本网页和父网页、子网页之间的关系,进而了解一个网站的内部结构,为我们进行网站设计提供参考与借鉴。(4)找出中心站点和核心站点。卡耐尔大学的Jon Kl

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号