web数据挖掘－金锄头文库

资源描述

《web数据挖掘》由会员分享，可在线阅读，更多相关《web数据挖掘（91页珍藏版）》请在金锄头文库上搜索。

1、Web数据挖掘及其教育应用华中师范大学信息技术赵呈领教授E-mail：目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 Web数据挖掘教育应用 4Web数据挖掘概述1Web结构挖掘 2Web内容挖掘35Web日志挖掘目前国内外很多人都采用该方法来研究某领域的论文产出与分布，

2、发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 Web挖掘就是采用数据挖掘等信息处理技术，从 Web信息资源及Web使用记录中发掘对特定用户感兴趣的、有用的信息或知识的过程，其结果可以为用户决策所使用。这里所讲的Web信息，从广义上讲，包括Web文本， Web图片， Web动画（如Flash广告，视频信息）等。这里主要探讨Web

3、文本挖掘。1.1 相关概念1、什么是Web数据挖掘（Web挖掘）目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。（2）传统数据挖掘和文本挖掘技术的不断完善和应用。1.1 相关概念2、Web挖掘产

4、生的原因目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）站点主页门户（WebsiteHomepage Information Port （2）ISP（Internet Service Provider，Internet服务提供商）（3）IP地址域名（4）搜索引擎元搜

5、索引擎（Search EngineMeta Search Engine）（5）标签（Tag）（6）URL（统一资源定位器Uniform Resource Locator）1.1 相关概念3、Web挖掘相关概念目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（7）链接（Hyp

6、erlink）（8）日志（Log）（9）会话（Session）（10）网络蜘蛛（Web SpiderCrawler）（11）Cookie1.1 相关概念3、Web挖掘相关概念目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）按挖掘内容语种：中文Web挖掘、西文Web

7、挖掘; （2）按挖掘的终点的属性：企业门户挖掘、政务门户挖掘、个人站点挖掘；（3）按挖掘对象： Web结构挖掘、 Web内容挖掘和 Web日志挖掘。1.2 Web挖掘内容1、Web挖掘内容分类目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）Web结构挖掘属于信息结构（

8、IA）方面的研究内容。对于一个站点而言，按结构层次高低可以分出以下三种结构：站点结构：指的是整个站点的框架结构；页面（框架）结构：较为简单，这是由于许多网页由框架（Frame）组成而产生的；页内结构：单个网页里面也存在一定层次结构，对页内文档结构的提取有助于分析页面内容，提取页面信息。1.2 Web挖掘内容2、Web挖掘内容目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模

9、型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）Web内容挖掘Web内容挖掘就是Web页面上文本内容的挖掘，是普通文本挖掘结合Web信息特征的一种特殊应用。目前应用较多的是页面内容特征提取，即提取页面上重要的名词、数字等等；另一方面是对页面进行聚类，即将大量Web页面进行各种方式的分类组合，如按站点的主题类别进行聚类、按页面的内容进行聚类等，可以发现其中可能存在的隐含模式等。1.2 Web挖掘内容2、Web挖掘内容目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要

10、利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）Web日志（使用）挖掘Web日志（使用）挖掘就是在服务端对用户访问网络的活动记录进行挖掘，目前这方面的实际应用最为广泛，大部分集中在银行业、证券业、电子商务等方面。 Web日志挖掘的主要目的包括网络广告分析、流量、用户分类、网络欺骗预防等等。1.2 Web挖掘内容2、Web挖掘内容目前国内外很多人都采用该方法来研究某领域的

11、论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。 1.2 Web挖掘内容3、Web挖掘内容比较目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量

12、方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。一方面，数据仓库中的数据一般是相对固定的，而Web上的信息日益增多，Web页面目次达数千亿，每天还在不断更新之中，任何搜索引擎的发展速度都难以适应，在搜索深度和广度上都存在困难；另一方面，尽管网络带宽一再扩大、并行处理等技术也不断发展，仍然不能很快检索所有的Web页，而且 Internet上绝大部分信息对特定用户是没有意义的。1.3 Web挖掘难点1、Web信息日新月异目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热

13、点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。不同于以往简单的、安全性较低的HTML文件，随着ASP，JSP以及Web数据库技术发展，许多页面都是动态从数据库中调用生成，而且许多站点禁止 Robot类工具的访问，而且站点访问权限和较高的安全性也给Web挖掘设置了越来越多的障碍。1.3 Web挖掘难点2、Web信息越来越难以获取目前国内外很多人都

14、采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（1）半结构化的Web数据：相对于Web的数据而言，一般的数据库中的数据组织形式是基于二维关系表格，结构性很强，即使是普通文本数据，也常常可以有一些诸如作者项、标题项等结构信息。而Web上的数据最大特点就是半结构化。所谓半结构化是相对于

15、完全结构化的传统数据库而言的。显然，面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。1.3 Web挖掘难点3、异构的数据库环境目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（2）异构数据的归一化处理：整个Web可以视为一个巨大而且复杂的数据库，其中每个站点就

16、是一个数据源，每个数据源都是异构的，因为每一站点信息组织方式通常不一样，这就构成了一个巨大的异构数据库环境。本地数据库的数据来源可以根据用户的意图事先固定好，而Web上的数据源则根本无法统一。因此，如果想要对这些数据进行挖掘，首先必须要研究各站点之间异构数据的集成问题，如果所需的数据不能有效地进行归一化处理，对这些数据进行分析、集成、处理就无从谈起。1.3 Web挖掘难点3、异构的数据库环境目前国内外很多人都采用该方法来研究某领域的论文产出与分布，发展状况，研究热点的变迁以及发展方向。本文主要利用能够揭示或表达文献核心内容的关键词或主题词在某一领域文献中出现的频次高低来确定该领域研究热点和发展方向的文献计量方法。首先构建了面相学科的主题分析模型；其次为了提高分析的精度，构建了主题词集；最后将主题词集运用到分词与索引中，并进行了统计分析。（3）语种问题：常规挖掘一般只对一种语言信息进行处理，或者中文，或者英文，而目前Web站点常常以多种语言形式同时提供，使得Web挖掘的复杂程度

展开阅读全文