web数据挖掘-华中师范大学.ppt

资源描述

《web数据挖掘-华中师范大学.ppt》由会员分享，可在线阅读，更多相关《web数据挖掘-华中师范大学.ppt（91页珍藏版）》请在金锄头文库上搜索。

1、Web数据挖掘及其教育应用数据挖掘及其教育应用华中师范大学信息技术华中师范大学信息技术赵呈领赵呈领教授教授 E-mail E-mail：目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 Web数据挖掘教育应用数据挖掘教育应用 4Web数据挖掘概述数据挖掘概述1Web结构挖掘结构挖掘 2We

2、b内容挖掘内容挖掘35Web日志挖掘日志挖掘目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 Web挖掘就是采用数据挖掘等信息处理技术，从Web信息资源及Web使用记录中发掘对特定用户感兴趣的、有用的信息或知识的过程，其结果可以为用户决策所使用。这里所讲的Web信息，从广义上讲，包括Web文本，

3、 Web图片， Web动画（如Flash广告，视频信息）等。这里主要探讨Web文本挖掘。1.1 相关概念相关概念1、什么是Web数据挖掘（Web挖掘）目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。（2）传统数据挖掘

4、和文本挖掘技术的不断完善和应用。1.1 相关概念相关概念2、Web挖掘产生的原因目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）站点主页门户（WebsiteHomepageInformation Port（2）ISP（Internet Service Provider，Internet服

5、务提供商）（3）IP地址域名（4）搜索引擎元搜索引擎（Search EngineMeta Search Engine）（5）标签（Tag）（6）URL（统一资源定位器Uniform Resource Locator）1.1 相关概念相关概念3、Web挖掘相关概念目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进

6、行了统计分析。（7）链接（Hyperlink）（8）日志（Log）（9）会话（Session）（10）网络蜘蛛（Web SpiderCrawler）（11）Cookie1.1 相关概念相关概念3、Web挖掘相关概念目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）按挖掘内容语种：中文We

7、b挖掘、西文Web挖掘;（2）按挖掘的终点的属性：企业门户挖掘、政务门户挖掘、个人站点挖掘；（3）按挖掘对象： Web结构挖掘、 Web内容挖掘和Web日志挖掘。1.2 Web挖掘内容挖掘内容1、Web挖掘内容分类目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）Web结构挖掘属于信息结

8、构（IA）方面的研究内容。对于一个站点而言，按结构层次高低可以分出以下三种结构：站点结构：指的是整个站点的框架结构；页面（框架）结构：较为简单，这是由于许多网页由框架（Frame）组成而产生的；页内结构：单个网页里面也存在一定层次结构，对页内文档结构的提取有助于分析页面内容，提取页面信息。1.2 Web挖掘内容挖掘内容2、Web挖掘内容目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模

9、型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）Web内容挖掘 Web内容挖掘就是Web页面上文本内容的挖掘，是普通文本挖掘结合Web信息特征的一种特殊应用。目前应用较多的是页面内容特征提取，即提取页面上重要的名词、数字等等；另一方面是对页面进行聚类，即将大量Web页面进行各种方式的分类组合，如按站点的主题类别进行聚类、按页面的内容进行聚类等，可以发现其中可能存在的隐含模式等。1.2 Web挖掘内容挖掘内容2、Web挖掘内容目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示

10、或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）Web日志（使用）挖掘 Web日志（使用）挖掘就是在服务端对用户访问网络的活动记录进行挖掘，目前这方面的实际应用最为广泛，大部分集中在银行业、证券业、电子商务等方面。 Web日志挖掘的主要目的包括网络广告分析、流量、用户分类、网络欺骗预防等等。1.2 Web挖掘内容挖掘内容2、Web挖掘内容目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状

11、况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 1.2 Web挖掘内容挖掘内容3、Web挖掘内容比较目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型

12、；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。一方面，数据仓库中的数据一般是相对固定的，而Web上的信息日益增多，Web页面目次达数千亿，每天还在不断更新之中，任何搜索引擎的发展速度都难以适应，在搜索深度和广度上都存在困难；另一方面，尽管网络带宽一再扩大、并行处理等技术也不断发展，仍然不能很快检索所有的Web页，而且Internet上绝大部分信息对特定用户是没有意义的。1.3 Web挖掘难点挖掘难点1、Web信息日新月异目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献

13、核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。不同于以往简单的、安全性较低的HTML文件，随着ASP，JSP以及Web数据库技术发展，许多页面都是动态从数据库中调用生成，而且许多站点禁止Robot类工具的访问，而且站点访问权限和较高的安全性也给Web挖掘设置了越来越多的障碍。1.3 Web挖掘难点挖掘难点2、Web信息越来越难以获取目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以

14、及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）半结构化的Web数据：相对于Web的数据而言，一般的数据库中的数据组织形式是基于二维关系表格，结构性很强，即使是普通文本数据，也常常可以有一些诸如作者项、标题项等结构信息。而Web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库而言的。显然，面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得

15、多。1.3 Web挖掘难点挖掘难点3、异构的数据库环境目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）异构数据的归一化处理：整个Web可以视为一个巨大而且复杂的数据库，其中每个站点就是一个数据源，每个数据源都是异构的，因为每一站点信息组织方式通常不一样，这就构成了一个巨大的异构数据库环境

16、。本地数据库的数据来源可以根据用户的意图事先固定好，而Web上的数据源则根本无法统一。因此，如果想要对这些数据进行挖掘，首先必须要研究各站点之间异构数据的集成问题，如果所需的数据不能有效地进行归一化处理，对这些数据进行分析、集成、处理就无从谈起。1.3 Web挖掘难点挖掘难点3、异构的数据库环境目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后

17、将主题词集运用到分词与索引中，并进行了统计分析。（3）语种问题：常规挖掘一般只对一种语言信息进行处理，或者中文，或者英文，而目前Web站点常常以多种语言形式同时提供，使得Web挖掘的复杂程度因此而提高。1.3 Web挖掘难点挖掘难点3、异构的数据库环境目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计

18、分析。目前Web挖掘的具体应用和工具多在日志挖掘和内容挖掘方面，很少有人重视Web站点的结构挖掘，其实，从网站的页面结构可以挖掘出相当重要的信息或知识。通过对门户站点Web结构分析，可以了解对方门户的Web主题、用户接口、标记语言、连接与响应速度等有关站点信息结（Information Architecture）的内容。从这里一般可以了解该机构对网站的重视程度，单位的信息化水平等。当对结构进行分析时，可根据一定规则，建立一个可以动态调整的评价体系，进行评价（见下表），最后则给出一个合适的结果报表提供给企业决策者。常用方法：定标比超法（Bench Marking）2.1 Web结构挖掘的意

19、义结构挖掘的意义目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 2.1 Web结构挖掘的意义结构挖掘的意义IA分析表示例目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频

20、次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。几乎所有的Web站点页面之间的联系是通过超链来完成的（有的也通过脚本程序等来实现链接），所以Web结构挖掘的主要内容在于超链分析，即通过分析页面的链接关系来产生Web站点的结构。在对网站进行结构分析时，也可以借鉴超链分析的一些基本思想以及聚类算法对Web页面进行分类，从而得出网站的信息结构。2.2 超链分析与页面分类超链分析与页面分类目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以

21、及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。如：Yahoo网站分析2.2 超链分析与页面分类超链分析与页面分类1、目录式站点结构分析：目录层次直接获取目录式网站结构目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向

22、的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）复杂站点结构（Web页内文本）特点A、许多站点本身没有目录结构，所有文件在同一个目录下，这在个人站点中尤为常见。B、一些站点页面由脚本动态生成，无法捕捉其目录路径。C、网站设计者以及制作者的一些失误或故意，页面链接错误或者故意添加没必要的主题信息（可以增加被搜索引擎索引的机会）。2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发

23、展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）基于特征的分类方法对于Web页内文本结构的分析，相对普通文本结构分析，它有一些明显的特征：通常没有段落、句子等显要的区别；文本中文字的属性特征比较丰富（颜色、字体等）；文本中标题性文字较多（如简介、产品信息、友情链接等）。由于在分析Web站点结构时感兴趣的是Web页面上的超链，鉴于这些情况，采用基于特征的分类方法较为有效，因

24、为在同一页面上出现的具有相同外观的链接属于同一子类或相关程度大，如下图所示。而这种外观是通过HTML标签来控制的，所以可以采用以下的步骤：2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）基于特征的分类方法A

25、、获取页面的HTML源文件；B、扫描HTML文件，获取HTML文件中所有超链的集合；C、依据超链前的标签给超链一个权值；D、获取每个超链文字的特征参数；E、根据超链的特征参数将超链进行分类；F、根据权值和分类结果确定页面上超链的层次关系。2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精

26、度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）基于特征的分类方法2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析页内文档结构的利用目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）分裂分类法基本思想：Web页面分类的目的是

27、根据Web页面的主题内容把相关的页面归为一类。在此也借鉴使用文本标引词来定义Web页面的相似度。先做以下假设或定义：假设待分类的Web页面集中有m个页面，而用于反映页面主题内容的标引词有n个。定义页面的标引词向量为（ti1， ti2 ， tin ），其中tij表示第i个页面与第j个标引词的相关性，其值为0,1。当页面与标引词密切相关时取值为1，无关时取值为0，部分相关时可按照相关程序给2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核

28、心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）分裂分类法予到之间的值，且对于某页面i有。而ti=min(t1i，t2i，tmi) 为第k个Web页面的标引词向量的第个分量（，）。同时，用求和数值大小来表示该页面集的相似度。又设为待分类的页面集的子集，为给定的分类阈值，为一个集合。若的相似度大于或者等于阈值，则称为的一个基于阈值的真类，否则称为的一个基于阈值的伪类。若中的元素均是的子集，则称为关于的一个类集

29、。2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）分裂分类法由上述定义可知，若页面集W1是页面集W2的子集，则必然有W1的相似度大于或者等于W2的相似度。2.2 超链分析与页面分类超链分析与页面分类2、复

30、杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）分裂分类法具体算法：计算Web页面集M中每篇页面的标引词向量。构造待分裂页面集的类集和分裂分类结果类B，A=M，B空集。计算中每个页面集的标引词向量。计算中每个页面集的相似度。构造集合和，其中xxA且x为关于

31、M的基于阈值的真类，FAT。记xxM，且存在yBT使得xy为集合P。若P中有m个元素，则转步骤,否则转步骤。2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）分裂分类法构造集合Q为xxF，且存在yx使得y不属

32、于P。设P中有n个元素。令F空集，按照页面集相似度从大到小的顺序从Q中选取元素，加入F之中，直到对任意xMP均存在yF，使得xy（若有多个页面集相似度相同，则可能F的选取不惟一）。分裂伪类集F：记x|存在yF，x是y的最大真子集为EF，x|xEF，存在yx满足yP为L，把EF L赋值给A，BT重新赋值给B。转步骤。输出分类结果B。2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定

33、该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）分裂分类法例：采用分裂分类法对Web站点进行结构分析假设：任一页面的目录层次称为距离首面的距离，如页面http:/ 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了

34、面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）分裂分类法同类的页面会在同一个上级页面上有链接，如上海贝尔有关产品的页面的链接基本都出现在http:/ 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集

35、；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）分裂分类法自顶向下简化页面分类：1）选取首页链接的所有页面（L）为集合（Li|i=1m），其中包含m个Web页，根据分裂分类法进行分类得到分类结果集A（l1，l2，），（l3，l4，），A的元素即为分类后的子集B，每个这样的子集都可以包含一个以上的Web页面，共计a个子集，子集中元素的个数为bi（），且；2）根据假设（2），（3）对集bi进行处理，排除不符合假设的元素；2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁

36、以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）分裂分类法自顶向下简化页面分类：3）对集合bi中的每个元素页上的链接重新生成集合，根据分裂分类法进行分类；4）对结果按步骤）进行处理，并循环2），3）过程，直到最后所有子集中的元素有且仅有一个元素；5）根据分类结果生成企业门户结构图，并记录到数据库。2.2 超链分析与页面分类超链分析与页面分类2、复杂站点结构（Web页内

37、文本）分析目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 1、人工直接提交方式Yahoo等检索站点都支持用户直接提交URL信息，需要提交四部分内容：名称、URL、语言和描述，如图所示。3.1 Web信息获取方式信息获取方式目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究

38、热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 1、人工直接提交方式对于普通用户，较少使用这种提交方式，尤其对于一个企业而言，其竞争对手更加不可能主动提交有用的URL，惟一可能的是企业内部员工的积极参与，但这可能浪费员工的工作时间，而且无法保证每个员工提交的页面都具有很大的价值。3.1 Web信息获取方式信息获取方式目前国内外很多人都采用该方法来研究某领域的论文

39、产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 2、软件搜索方式采用Spider或Robot等软件来进行，如Excite、Lycos等搜索引擎采用的就是这种方法。Robot可以从最初给定的一些URL开始检索相关信息，并不断试图连接这些页面上提供的URL。理论上这样的软件有可能获取Internet上所有的资源，但实际是不可能的，花费的时间

40、和代价太高，而且大部分信息对特定用户而言没有用。此外，由于隐私问题或者有些Web管理员担心这种软件执行时可能会对被链接的站点响应时间下降，所以许多站点是禁止Robot连接的。常见的禁止Robot有两种。3.1 Web信息获取方式信息获取方式目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 2、软

41、件搜索方式常见的禁止Robot的两种方式：1）在Web站点主目录下放置一个文本文件robots.txt,里面按照Robot限制协议声明该站点是否允许被Robot检索或者部分检索。3.1 Web信息获取方式信息获取方式目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 2、软件搜索方式常见的禁止Ro

42、bot的两种方式：2）在HTML文件中放置声明标签.3.1 Web信息获取方式信息获取方式目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 2、软件搜索方式据此，就可以自己编写或者利用成型的Robots工具来检索Internet资源。关于Robots的算法有许多种，主要可以分为最大深度优先算法

43、和最大广度优先算法，前者着重于单个站点的挖掘，力图实现对单个站点的遍历和索引（即追求深度），而后者则是试图检索更多的站点（即追求广度）。对于搜索引擎而言，这两种算法均有可取之处，而对于特定的企业用户而言，感兴趣的站点不是很多，则应该采用最大深度优先的算法，以期对竞争对手、大客户等的Web站点进行完全的挖掘。3.1 Web信息获取方式信息获取方式目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析

44、模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。由于诸种原因，网络抓取回来的信息常常有许多是重复的，表现如下：（）数据源众多。这在搜索引擎的检索中尤其常见，用户常常发现几条甚至几十条结果的内容相同，而尽管它们指向的不同。（）不同的语言。现在许多网站都提供多种语言，尽管可以只限定抓取一种语言的页面，但往往不同语言的网页中有着不同的信息，因而有不得不面对语种的问题。3.2 Web信息清理信息清理1、信息去重目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词

45、或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（）滥用缩写词。缩写词是为了方便，尤其网络语言的发展更是支持了缩写词的大量应用。例如，WTO和世界贸易组织，Sina和新浪等，不一而足，甚至ASAP（As Soon As Possible，尽快）等传统的缩略语也会给Web挖掘带来不少麻烦。（）不同的计量方式和标准。如同样一件商品，美国人说2公斤，在中国也许是4斤，尽管大家都尽力使用国际标准单位，但不同的国家、不同的行业总还是有些特殊的

46、习惯暂时难以更改。（）过时的编码。例如中国大陆身份证件编号的变化，以前是15位，现在是18位。3.2 Web信息清理信息清理1、信息去重目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。解决信息重复的基本步骤：3.2 Web信息清理信息清理1、信息去重目前国内外很多人都采用该方法来研究某领域的论

47、文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。如下两则地址信息：张建风，男，江苏南京人，1975年8月14日出生，身高173cm；张建风，男，南京人，1975-8-14出生，身高1.73m。数据标准化：数据标准化就是按照数据库规范记录的格式将数据格式统一，如将“1975年8月14日”转为“1975-8-14”，“1.73m”转为“1

48、73cm”。元素化数据和标准化数据分别如图：3.2 Web信息清理信息清理1、信息去重目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）信息清理的对像3.2 Web信息清理信息清理2、信息清理1）数据输入错误。包括拼写错误、重复记录、漏录等等，这些错误有些是数据录入的时候就出问题，有的是

49、网络制作人员的失误。2）网络欺骗。有些站点会不经意地发布一些虚假信息或者会故意引导来自竞争对手的访问到错误的页面上去。3）突发数据异常。由于一些不可预测的原因造成的数据异常，如灾害天气、突发事件等造成正常的数据突然发生异常变化等。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）信息清理的

50、方法（步骤：建立异常信息模型、识别异常信息、更改异常信息）3.2 Web信息清理信息清理2、信息清理1）回归分析：对于一些有规律的数值性数据，通常可以根据历史数据进行回归，然后辨别新的信息数据是否偏离太远。某公司销售收入与其利润的历史数据基本在两条曲线之间，那么，对新发现且相差比较大的数据就很容易进行相关的处理。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，

51、构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）信息清理的方法（步骤：建立异常信息模型、识别异常信息、更改异常信息）3.2 Web信息清理信息清理2、信息清理回归处理注意两个问题：一是所建的数学模型是否准确，因为在许多情况下，用户并不知道要分析对象的数据分布趋势，而且现实数据也往往不完全符合某种理想的数学分布，这就需要有完善的建模工具和专业人才，才能发现数据中的规律性，有时候这种规律性也可以通过对历史数据进行数据挖掘获得；二是对异常数据的处理，有时数据异常是有客观原因的（如某公司突然进行大规模的有奖销售，销售额增加但利润可能降低等），对于这种异常，常常需要人工来分

52、析和剔除。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）信息清理的方法（步骤：建立异常信息模型、识别异常信息、更改异常信息）3.2 Web信息清理信息清理2、信息清理2）页面分类删除:在向搜索引擎提交检索结果以后，有可能得到许多没用的信息。比如用关键词“移动”检索天网（http:/），

53、反回信息可能包括中国移动、移动存储等各种包含“移动”一词的页面，而用户需要的可能是移动存储的有关信息，此时可以根据分类处理垃圾信息。这种分类可以借助页面文本的主题词汇进行，比如包括中国移动的页面常常包括电信行业的词汇，而包括移动存储的页面则常常包含关于计算机存储方面的词汇。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与

54、索引中，并进行了统计分析。某公司软件（Trillium）中对于地址信息的处理过程：3.2 Web信息清理信息清理3、Web信息清理举例目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。某公司软件（Trillium）中对于地址信息的处理过程：3.2 Web信息清理信息清理3、Web信息清理举例（

55、1）转换。主要功能是在Web页面上发现有关地址信息，进行分析后以确定格式，进行初步存储。（2）剖析。对于初步获取的信息，将其元素化，比如区分出姓名、街道等，进行标准化存储。（3）解码。对于（2）中的结果进行下一步分析，根据系统数据库或者某些规则，判断所得数据是否合理，如430079是湖北武汉的邮政编码，若有一上海地址留下的邮政编码是430079，则说明该地址信息有误。（4）匹配。将获取的人名、地址、电话等信息一一对应存储到数据库，供下一步数据挖掘工作使用。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键

56、词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。文本挖掘是指从非结构化的文本（包括txt、PostScript、PDF、HTML、XML等）中发现和提取隐含的、事先未知的、用户可理解的、有价值的信息和知识，这是一个分析文本并从中抽取特定信息的过程。其对象是非结构化数据。从功能上来讲，Web文本挖掘主要是对Web上大量文档集合进行表示、特征提取、文档总结、分类、聚类、关联分析、语义分析，以及利用Web文档进行趋势预测等。其对象是半

57、结构化数据。3.3 Web文本挖掘文本挖掘1、文本挖掘与Web文本挖掘目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘2、Web信息挖掘工具（IBM公司推出）（1）Text Analysis Tools（文本分析工具）。其主要目的是从文本信息中发现一些特征数据（F

58、eature），如人名、日期、数据等，并将这些特征数据以一定格式标记或存储起来。（2）Full text Search Engine（全文检索引擎）。以此来实现模糊检索、布尔逻辑检索等，从而使检索的质量和效率提高。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘2

59、、Web信息挖掘工具（IBM公司推出）（3）Web Crawler Tools（Web遍历工具）。它能按照一定目标沿着Web的链接从一个目录浏览到另一个目录或从一个主机浏览到另一个主机，这种工具有时也叫Web Spider。（4）A Web Search Solution（Web检索工具）。它同一般讲的搜索引擎有所区别，是建立在文本检索技术基础上的一种检索方案，可以用来跟踪Intranet或Internet上竞争对手的信息变化，一般先由Web Crawler遍历，然后由Web Search Solution进行索引，并提供一个用户界面给用户。目前国内外很多人都采用该方法来研究某领域的论文产出与

60、分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘3、Web挖掘模型 IBM等认为数据准备要花费整个数据挖掘80%以上的工作量，而最后真正的数据挖掘过程（分类分析、聚类分析等）则只占了很少的工作量，但只有这20%的工作才能产生数据挖掘的成果，IBM公司Web挖掘的基本流程如图：IBM公司Web挖掘的框架目前国内外很多

61、人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘3、Web挖掘模型大多数Web挖掘模型或框架主要对Web文本特征提取、分类、聚类等方法进行探讨，而对挖掘来的结果如何使用没有进一步的建议。鉴于Web挖掘的根本目的是充分挖掘和利用企业内外部的知识资源，从而提高企业的竞争优势。因此

62、，结合现有数据挖掘以及竞争情报研究方法的主要特点，建立了一个直接为企业竞争情报服务的Web挖掘模型如下：目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘3、Web挖掘模型CI（Corporate Identify ）模型的Web挖掘器（Web Miner for

63、CI）目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘3、Web挖掘模型首先，系统需要获取必需的企业站点地址，关于这些站点的选择，一般可以由用户决定，它应该是企业密切注意的竞争对手的站点，或者行业类门户站点等，然后由特定的Browse Agents访问这些门户网

64、站，并利用其中的超链最大深度地访问整个站点，这种工作可以在不同机器上同时进行；然后，将结果汇总到后续处理的机器上即可。而进一步的代理软件可以根据长期的监测和分析，能够自行决定需要跟踪的企业门户，并考虑逐渐去除那些已失去竞争力的企业的门户，也可能从其他页面中发现潜在的竞争对手。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词

65、与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘3、Web挖掘模型 Browse Agent重要部分在于将抓取的页面，并连同其目录结构一起提交到下一步的特征提取处理过程中，同IBM等公司的产品一样，这里需要根据特定的需要建立一套关键词词表，最方便的办法是依照波特理论的指标体系或者Tyson的指标体系，尤其是Tyson的指标体系更适合门户站点的信息处理，分八大类236个指标。企业实际应用时，可以根据行业特点和企业特色，对这些指标进行筛选，制定最适合企业本身的指标体系，并以此来提取页面中感兴趣的人名、地名、数据等特征参数。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状

66、况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘3、Web挖掘模型信息分类的算法有很多，目前基于粗糙集、决策树理论的分类方法已经比较成熟，而在Web Miner for CI 模型中，可以根据竞争情报的专业特点进行简化，以提高算法的精度和效率。在竞争情报搜集过程中，很重要的一个问题是信息的真实性辨认，为此在门户信息处理过程

67、中，依靠其本身的信息关联和来自其他信息源的信息进行真实性判断和修改，以确保最后用于分析的信息真实可靠。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘3、Web挖掘模型Web Miner for CI模型的关键部分在于竞争情报分析体系的建立。目前竞争情报的分析主要

68、有以下方法：（1）传统的微观分析方法，主要用于对具体的某一产品或市场制定战略或战术规划，如本企业产品分析销售分析、研发分析、财务报表分析等；（2）传统的宏观分析方法，主要从市场增长、市场份额等方面入手，包括波士顿矩阵法（BCG法）、九分法（GE法，通用电气公司法）、产品寿命周期法等；（3）竞争性分析方法，主要从企业战略决策分析入手，包括优劣势（SWOT）分析法、定标比超法、竞争对手战略地位分析等。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点

69、和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘3、Web挖掘模型在信息处理过程中可能涉及五个子数据库，即文本库、数据库、模型库、方法库、知识库，代理软件就是要根据外界的变化不断修改这五个数据库。在整个处理过程中，用户可以干涉任一步骤，使得处理过程更人性化，结果更准确、更有说服力。当Web Spider从企业门户上抓取大量页面后，如果按照页面之间的链接构造关系图，将是一个十分复杂的网状图，在没有分类之前，程序无法合理地生成门户的信息结构说明，而且以后的数据

70、挖掘和分析也会增加难度，而分类之前的主题提取的效率又决定了分类的效果。为此，该模型中的主要工作在于最初的页面主题抽取和准确分类过程。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（1）分词西文文本中词与词之间存在空格，可以直接获取其

71、中的单词，而汉语则不同，不同的切分会导致不同的语义，因此需要根据上下文进行有效的切分。方法主要包括词典分词法、切分标记分词法、单汉字法、智能分词法等，其中词典分词法简单、易于实现，广泛应用于实际工程中。当然这种方法也存在着匹配速度慢，词典的功能越强，词典中词条的数目就越大等缺点。然而，对企业门户内容的分词而言，一方面跟踪的页面更新不会太大，初次建库时工作量大而后续的工作量则相对小；另一方面，对于某些具体的行业而言，由于受到行业词汇的限制，词典构造也相对容易。为了能够适应不断发展的需要，分词系统应对词典有一套完整的维护机制和控制手段。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展

72、状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（1）分词虚线部分表示这部分工作只需要在对企业门户的初次挖掘时进行，在以后对变化（主要是新增加）的页面进行分词时，可以直接输出分词结果。Web文本的自动分词目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方

73、向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（1）分词例：以电信设备行业为例，解释页面的分词过程：1）从,，等首页上人工提取关键词（如交换机、GSM、通信等行业名词）以及根据后续情报分析体系（如Tyson体系）主题词，建立初步切分词表。2）从首页链接开始逐个页面根据初步建立的分词表进行分词，并统计每个页面出现频率最高的几个

74、词（一般为个）或者出现频率超过一定的次数的词，经过几重后，加入到切分词表中。3）重复过程（），直到前、后两次分词结果相似度大于一定阈值，分词结束。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（1）分词对于Web文本的分类，则可以根

75、据分词的结果进行，首先将Web页面用一组关键词来表示，如C1，C2，Cn，为了便于计算，需要将其转化成数字量的向量，通常根据一定的规则给这些词赋以不同的数值，最简单的方法就是根据各关键词在某Web页面上出现的频率进行赋值，如 pimin式中，mi为某词Ci在该页面上出现的次数，n为该页面所有词数。为了避免诸如“的”、“了”等无实在意义的字影响分类结果，一般应该设置停用字表来处理。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计

76、量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（1）分词由于关键词的出现概率可能有大量为的情况，可以对上述计算方法进行一定改进，如 pi（mi）n即加上这个常数，可以为，也可以根据实际需要确定。考虑到Web页面中还有许多标签信息，可以对不同关键词的概率乘以一个加权指数，如title中出现的关键词，或者用粗体表示的关键词等，可以给比较大的加权指数，这样就可以充分利用Web文本同普通文本的不同之处。目前国内外很多人都采用该方法来研究某领域的论文产出与

77、分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（2）特征抽取普通文本主题的提取目的主要有四个方面：标引、聚类、分类和摘要，作为Web中的特征提取则应着重于挖掘文本中的关键词，如人名、地址信息、数据等，并分类存入数据库，前面提到IBM公司的Text Analysis Tools及Tri

78、llium软件就是这样的工具。该软件所抽取的关键词主要是名称性词条、数值型词条和日期型词条。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（2）特征抽取IBM文本挖掘工具包括以下模块：1）名称抽取：人名、公司名或者产品名等当然是竞争情

79、报感兴趣的内容，这个模块需要根据既定的名称词典来获取页面中的名称及其位置，并确定名称的类型人名、地名或是公司名等。对于指向同一个实体的名称，如“克林顿总统”、“比尔克林顿”和“克林顿先生”，系统需要另外建立一个规范表，确立这些词的规范写法，如“比尔克林顿”，这样可以与其他歧义区分开来，如美国还有一个克林顿的地名。对于一些缩写名称的规范则可能根据上、下文来区分。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了

80、面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（2）特征抽取IBM文本挖掘工具包括以下模块：2）术语抽取：对于每个特定行业或者企业而言，相应有比较特殊的技术或者产品，也因此有着自己的专用名词和术语。名词和术语抽取通常需要一个已有的术语词典进行匹配，有时候还需要借助词频统计来确定一个新的术语是否加入到术语词典中。需要指出的是，这里的术语可能不是单独的词条，而是包含一定意义的“短语”，如“机架式服务器”、“家用电脑”等。对于这些“短语”，也存在名词抽取中的规范问题，如“

81、便携电脑”和“笔记本电脑”指的同一个物品。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（2）特征抽取IBM文本挖掘工具包括以下模块：3）缩写抽取。新的词汇层出不穷，许多专业词汇也习惯于用缩写来记录，如CDMA，ABS等，缩写抽取模块

82、的功能是识别这些缩写词的意义并与其完整形式匹配。如果名词抽取模块或者术语抽取模块已经识别出其完整形式，就可以将其缩略形式添加到规范形式的变体集中。否则，这个完整形式就作为一个新的词汇的规范形式，并记录其缩略形式为其变体。需要特别注意的是某些组合的缩略词，如MSWindows等，一部分为缩略词，一部分为完整形式，同样需要记录在变体集中。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次

83、为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（2）特征抽取IBM文本挖掘工具包括以下模块：4）数字、日期等数据抽取：这类模块主要抓取文本中的数字、日子、货币等数字性的词条。如“时速120km/h”、“今天是11月2号”、价格信息等。5）关系抽取：关系抽取模块是用一些试探项来标志一些关系模式，如企业、个体之间的联系。这些联系有从属关系（拥有、属于）、等同关系（类似于、和一样等）、家庭关系（兄弟、父母）等。这些试探性的匹配常基于一些动词的语言规则和上、下文环境，其结果也很难保证，一般只给出可能的

84、关系以供选择。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（3）分类 Web页面文本分词并经过数值化处理以后，每一Web页面都能够以向量形式p1，p2，pn表示，即可以将Web页面看做维空间的一个点。对Web页面的分类可以按其相似度

85、（Similarity）来进行，而相似度的计算可以采用向量夹角的余弦，即目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 3.3 Web文本挖掘文本挖掘4、页面主题抽取和分类的步骤（3）分类或者页面的距离，如欧氏距离，即对于页面的聚类和分类的其他方法，还可以参照其他一些分类方法，如最近领导法

86、、Kmeans方法等。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.1 Web日志挖掘数据源日志挖掘数据源1、服务器端数据当访问者浏览Web服务器时，服务器端将会产生Server Logs、Error Logs和Cookies Logs等日志文件。Web服务器日志是Web用法挖掘中的一

87、个重要的数据源!它清楚地记录着网站用户的访问浏览行为“这些日志文件通常采用普通日志格式（CLF）或扩展普通日志格式（ECLF）。在日志文件中，每条记录被称为项或条目，主要包含：客户端IP地址（IP Address）、用户标识符（User ID）、时间戳（Time）、请求域（Request）、状态与（Status）、返回大小域（Size）。如下图是从实际Web服务器上采集的Log文件片段。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方

88、向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.1 Web日志挖掘数据源日志挖掘数据源1、服务器端数据Web服务器上的Log文件片段目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.1 We

89、b日志挖掘数据源日志挖掘数据源2、客户端数据客户端数据可以利用远程代理Agent（如Javascripts或Java applets）或修改现有浏览器的源代码而实现。显然，客户端直接收集用户访问网站的浏览行为，要比在服务器端间接记录用户的访问行为要准确的多!但是利用远程Agent在客户端进行（用户）浏览数据的收集工作需要得到用户的首肯，否则收集工作很难进行。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面

90、相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.1 Web日志挖掘数据源日志挖掘数据源3、代理端数据代理端数据包括用户访问日志和在缓存中被访问的页面信息。一个Web代理作为用户（浏览）与Web服务器之间的交通要道，代理端的缓存将有助于减少网页在客户端的装载时间和服务器端的工作负载。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科

91、的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.2 Web日志挖掘数据源的预处理日志挖掘数据源的预处理1、数据清洗（1）合并数据：需要合并Web服务器上的多个日志文件，并且解析每个文件，将其转化到数据库或特定格式的数据文件中；（2）删除不相关的数据：在Web日志中存在一些与挖掘任务无关的数据，如图形文件、压缩文件等的存取可能对面向文本挖掘的用户并不需要考虑，这些内容应删除；（3）代理访问的处理：由于日志中存在大量的由代理发出的请求，如不进行处理，将会对挖掘结果产生影响。因此，从日志中识别代理或网络爬虫的访问是必需的；（4）正规化

92、URL：将相对URL地址转换为绝对URL地址；（5）数据项解析：CGI数据项必须被解析在不同的阈中，并被解析为对的形式。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.2 Web日志挖掘数据源的预处理日志挖掘数据源的预处理2、用户与会话识别所谓用户会话是指一个用户访问一个站点时，访问的全

93、部页的参照序列。在对Web日志数据进行数据挖掘之前，需要把对Web页的访问序列组织成逻辑单元以表征用户会话。用户识别方法及优缺点如下：目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.3 Web日志挖掘常用技术日志挖掘常用技术1、频繁项目集和关联规则利用关联规则可以发现服务会话中常常一起访

94、问的有关网站。如：（1）20%的客户访问Web页面/TV/model1时，也访问了web页面/TV/model2；（2）30%的客户访问Web页面/TV/special时,在/TV/model1进行了在线订购。利用这些相关信息，不仅可以更好地组织站点内的Web空间,而且可以帮助市场营销以及帮助预先读取网页以减少用户访问网站的等待时间。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其

95、次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.3 Web日志挖掘常用技术日志挖掘常用技术2、序列模式在Web用法挖掘中，利用序列模式挖掘方法可以帮助发现如下模式知识：（1）40%的情况下，浏览彩电商品网页后就会浏览电脑商品网页；（2）在Web页面/TV/model1上进行过在线订购的客户中50%的人在过去10天内也在Web页面/TV/model5处下过订单。利用这些序列模式知识,可以帮助预测网页的使用情况,从而可以帮助合理地放置广告以针对特定的客户。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方

96、向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.3 Web日志挖掘常用技术日志挖掘常用技术3、聚类分析在Web用法挖掘中,有两类常用的聚类形式,即用户聚类和网页聚类。用户聚类就是将有类似访问浏览模式的用户归类到一起,如:一个聚类中的用户在访问一个新闻网站时常读取体育方面的报道。这类知识可以帮助实现个性化信息服务,或在电子商务中进行客户信息统计以划分客户集。网页聚类技术可以发现

97、一起被用户访问的Web页面,并把它们组织到一个组里,以帮助用户更好地访问。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.3 Web日志挖掘常用技术日志挖掘常用技术4、分类分析发现分类规则可以给出识别一个特殊群体公共属性的描述,这种描述可以用于分类新的项。如: (1)利用含有登记数据的访

98、问数据,进行分类学习所获得的知识模式可以是:35%提交在线mp4订单的客户中,年龄在1825岁,家住北京; (2)北京政府机关人员一般感兴趣的网页是。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 4.3 Web日志挖掘常用技术日志挖掘常用技术5、路径分析路径分析中最常见的应用是判定在一个

99、Web站点中被最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。如我们可以通过路径分析得出如下一些有用的信息:(1)60%的客户端在存取/TV/modle1时,是从/TV开始的,经过/TV/或经过produce;(2)的客户在浏览5个或更少的网页后就离开了。利用这些信息,可以更精确地来改进站点的设计结构。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其

100、次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 5.1 Web数据挖掘在网络教育中的应用数据挖掘在网络教育中的应用1、Web内容挖掘在网络教育中的应用1)有效地进行教育网站中教学内容建设与管理。应用文本分类方法,对教育网站中的教学文档进行挖掘,可以实现网站中的大量教学文档的层次化结构的组织和管理,利于学习者获取所需资源。2)有助于学习者对信息进行有效的检索和利用。基于关键词的传统信息检索方法有很大的主观性, Web内容挖掘采用的是基于内容的检索技术, 可以从网页信息中抽取一些更为详细的、经过特殊加工的特征信息,从而大大提高检索的全面性和准确性。3）实

101、现师生双向选择。理者可利用挖掘中关联规则技术在已建立好的教师和学生数据库中进行关联查询,找到相关记录,提交给老师或学生,实现教师与学生的双向选择。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 5.1 Web数据挖掘在网络教育中的应用数据挖掘在网络教育中的应用2、Web结构挖掘在网络教育中的应

102、用1)提高学习者对检索结果的访问效率。可先将用关键词搜索到的前N个页面用PageRank或HITS算法按页面质量高低进行排序,然后再使用超链分析对质量高的文档进行聚类,提供给用户进行浏览和访问。2)消除在检索结果中重复出现的网页。网站的镜像使得搜索引擎为镜像网页建立了大量重复的索引, 通过超链分析可以找到近似的镜像网站, 消除重复网页。3)帮助学习者查找相关的教学页面。通过挖掘Web的链接结构信息,可以做到根据学生需要查找的某一教学网页,找出与该教学网页相关或类似的其他的教学网页。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭

103、示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 5.1 Web数据挖掘在网络教育中的应用数据挖掘在网络教育中的应用2、Web结构挖掘在网络教育中的应用4)识别网络学习虚拟社区。借助于Web的链接结构信息的挖掘方法,可以找到网络学习虚拟社区。这些挖掘方法是基于这样的基本思想:同一个虚拟社区的页面在内容上是相关的,而一个虚拟社区与另一个虚拟社区的页面在内容上是不同的。5)查找权威教育站点。判定一个站点是否权威

104、的基本原理是:越多网页通过链接指向某一站点,该站点就越有影响力。当然,对链接也还需要进行分析,因为有些链接可能仅仅是为了导航。另外,链源网页的重要性也将影响链宿页面的重要性。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 5.1 Web数据挖掘在网络教育中的应用数据挖掘在网络教育中的应用3、W

105、eb日志挖掘在网络教育中的应用1)为学习兴趣相同的学生群体提供针对性服务。应用Web访问信息挖掘的聚类方法（分析Web日志，了解学生学习偏好）,将具有相同或相似学习兴趣的学生聚为同一组,并根据他们的兴趣及时调整教学页面结构及页面内容。 2)实现动态地组织教学页面,提高学生的访问效率。通过对Web日志进行挖掘,可以发现学生访问教学页面的相关性。因此,在访问的页面中动态地增加相关页面的链接,可方便学生访问。 3)实现教学页面预取,提高学生学习的积极性。应用序列模式分析方法对Web日志进行挖掘,能预测出学习者未来的访问模式。根据挖掘出的访问模式,可实现预先存储的功能和解决下载缓慢的问题,以提高学生的

106、学习积极性。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 5.2 Web数据挖掘工具Weka应用 Weka全名为怀卡托智能分析环境(Waikato Environ-merit for Knowledge Analysis)，是一个基于java、用于数据挖掘和知识发现的开源项目，开发者来自新西

107、兰怀卡托大学的IanH.Witten和EibeFrank。经过12年的发展历程，Weka是现今最完备的数据挖掘工具之一，而且被公认为是数据挖掘开源项目中最著名的一个。和其他数据挖掘工具不同，Weka使数据挖掘轻松易行，无需编程也能轻松实现：它提供了统一的用户界面，可在任何数据集上应用各种预处理和数据挖掘算法，同时还提供了数据可视化工具。运行Weka，有四种不同的界面供选择：SimpleCLI、Explorer、Experimenter、KnowledgeFlow。Weka下载页面：http:/www.cs.waikato.ac.nz/ml/weka/ 目前国内外很多人都采用该方法来研究某领域

108、的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 5.2 Web数据挖掘工具Weka应用Weka运行界面目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构

109、建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 5.2 Web数据挖掘工具Weka应用(1)SimpleCLI：能通过键入文本命令的方式来实现其他三个用户界面所提供的所有功能。 (2)Explorer：是普通用户最常用的一个界面。用户可以从ARFF文件网页或数据库中读取数据集。打开数据文件后，可以选择算法对数据进行预处理。 (3)Experimenter：它可以同时使用多个算法对一组(或多组)数据进行分析，对各种算法分析的结果进行比较并从中选出最佳，还可以使用把一项任务分割成多个子项，并单独运行，大大加快分析过程。(4)KnowledgeFlow：它提供了一个用于处理大型数据集的递增算法，使得大型数据集就可以被分批读取和处理，解决大数据量内存不足的问题。目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 Thank YouThank You！

展开阅读全文

web数据挖掘-华中师范大学.ppt

最新文档