IRS系统使用手册－金锄头文库

资源描述

《IRS系统使用手册》由会员分享，可在线阅读，更多相关《IRS系统使用手册（74页珍藏版）》请在金锄头文库上搜索。

1、网络数据挖掘 2 1 1 网络数据挖掘定义 2 1 2 网络信息挖掘面临的问题 2 1 3 网络信息挖掘的分类 3 1 4 网页数据的结构与特点 3 1 4 1 HTML 超文本标记语言 3 1 4 2 WML 无线标记语言 5 1 5 网页数据挖掘的基本方法 6 1 5 1 预备知识 7 1 5 2 树节点直接标识方法 11 1 5 3 语义规则识别方法 14 1 6 智能网络爬虫 15 1 6 1 智能网络爬虫的定义与特点 15 1 6 2 抓取入口定义 15 1 6 3 次级页面自动发现 16 1 6 4 次级页面地址拼接 18 1 6 5 已爬地址处理 19 1 6 6 信息采集强度控

2、制 20 1 6 7 模拟用户登录 20 1 6 8 验证码识别 21 1 6 9 代理服务器设置 21 1 6 10 JavaScript 解析控制 22 2 网页信息挖掘专用程序设计语言 IRS 23 2 1 IRS 语言的简介与设计原则 23 2 2 IRS 脚本语法结构 24 2 2 1 页面配置块 24 2 2 2 页面名语句 24 2 2 3 入口声明语句 24 2 2 4 编码配置 28 2 2 5 步长配置 28 2 2 6 重试次数配置 29 2 2 7 正则模式匹配语句 29 2 2 8 匹配名声明 30 2 2 9 IEE 表达式 30 2 2 10 模式匹配修饰符 31

3、 2 2 11 节点模式匹配语句 34 2 2 12 次级页面入口语句 34 2 2 13 保存语句 36 2 2 14 Ruby 控制语句 37 2 2 15 爬虫配置语句 38 2 2 16 系统配置语句 39 2 2 17 外部配置文件 39 2 2 18 执行语句块 40 2 2 19 IRQL 存储语句 41 2 2 20 IRQL 语言中的数据表 46 2 2 21 IRQL 内部函数 50 2 2 22 POST 方式的入口生成 56 2 2 23 实例解析 59 3 附录 74 3 1 IRS 错误号 74 网络网络数据挖掘数据挖掘 1 1 网络网络数据挖掘定义数据挖掘定义数

4、据挖掘 Data Mining DM 是是从存放在数据库数据仓库或其他信息库中的大量数据中提取或挖掘有趣知识的过程随着网络的不断发展因特网目前已成为一个巨大的分布广泛的和全球性的信息服务中心从海量的网络信息中寻找有用的知识早已成为人们的迫切需求各种类似 Google Baidu 等的搜索引擎也层出不穷网络数据挖掘的应用在现实中不断体现网络信息挖掘是一个极其复杂的过程它不同于传统的数据仓库技术和简单的知识发现它面对的海量信息不是全简单的结构化数据而常常为半结构化的数据如文本图形图像数据甚至是异构型数据网络信息挖掘建立在对大量的网络数据进行分析的基础上

5、采用相应的数据挖掘算法在具体的应用模型上进行数据的提取数据筛选数据转换数据挖掘和模式分析最后作出归纳性的推理预测客户的个性化行为以及用户习惯从而帮助进行决策和管理减少决策的风险网络信息挖掘挖掘涉及多个领域除数据挖掘外还涉及计算机网络数据库与数据仓储人工智能信息检索可视化自然语言理解等技术 1 2 网络信息挖掘网络信息挖掘面临的问题面临的问题 Web 的巨大分布广泛和内容多样使得目前的 Web 数据挖掘面临着众多问题和挑战首先对有效的数据仓库和数据挖掘来说 Web 上的数据过于庞大而且 Web 上的数据具有极强的动态性不仅数量增长快而且更新十分迅

6、速但是面对如此大量的 Web 信息却有调查表明 99 的 Web 信息对于 99 的用户是无用的这样看来面对网络上形形色色的用户群体许多由 Web 搜索引擎所检索到的资料将会被淹没另外由于 Web 页面缺乏统一的结构其结构又比任何传统的文本文档都要复杂所以要实现基于 Web 的数据挖掘和信息检索在目前来说是非常具有挑战性的 Web 数据挖掘是一项具有挑战性的课题它实现对 Web 存取模式 Web 结构和规则以及动态的 Web 内容的查找 1 3 网络信息挖掘网络信息挖掘的分类的分类一般来说 Web 数据挖掘可分为四类 Web 内容挖掘 Web 结构挖掘 Web 使用

7、记录挖掘和 Web 用户性质挖掘其中 Web 内容挖掘 Web 结构挖掘和 Web 使用记录挖掘是 Web1 0 时代就已经有了的而 Web 用户性质挖掘则是伴随着 Web2 0 的出现而出现的网络信息挖掘主要包括文本挖掘和多媒体挖掘两类其对象包括文本图像音频视频多媒体和其他各种类型的数据这些数据一般由非结构化的数据如文本半结构化的数据如 HTML 文档和结构化的数据如表格构成对非结构化文本进行的 Web 挖掘称为文本数据挖掘或文本挖掘是 Web 挖掘中比较重要的技术领域 Web 数据挖掘中另一个比较重要的技术领域是 Web 多媒体数据挖掘目前关

8、于网络信息挖掘的研究大体以 Web 文本内容挖掘为主 Web 内容挖掘一般从资源查找和数据库两个方面进行研究从资源查找的方面来看 Web 内容挖掘的任务是从用户的角度出发怎样提高信息质量和帮助用户过滤信息主要是对非结构化文档和半结构化文档的挖掘非结构化文档主要指 Web 上的自由文本如小说新闻等 Web 上的半结构化文档挖掘指在加入了 HTML 超链接等附加结构的信息上进行挖掘其应用包括超链接文本的分类聚类发现文档之间的关系提出半结构化文档中的模式和规则等从数据库的方面来看进行 Web 内容挖掘主要是试图建立 Web 站点的数据模型并加以集成以支持复杂查询

9、而不只是简单的基于关键词的搜索这要通过找到 Web 文档的模式建立 Web 知识库来实现对文本数据进行挖掘的文档分类和模型质量评价方法与传统的数据挖掘方法相类似分类算法主要应用朴素贝叶斯 Naive Bayes Classifier 对模型的质量评价主要有分类的正确率 Classification Accuracy 准确率 Precision 和信息估值 Information Score Web 多媒体数据挖掘是指从多媒体数据库中提取隐藏的知识多媒体数据关联或者是其他没有直接储存在多媒体数据库中的模式多媒体数据挖掘包括对图像视频和声音的挖掘 Web 多媒体挖掘首先进行特

10、征提取然后再应用传统的数据挖掘方法进行进一步的信息挖掘对网页中的多媒体数据进行特征的提取应充分利用 HTML 的标签信息 Web 数据挖掘是当今世界上的热门研究领域其研究具有广阔的应用前景和巨大的现实意义目前国内的 Web 数据挖掘尚处于学习跟踪和探索阶段 Web 数据挖掘有许多问题有待于进一步的研究和深化 Web2 0的出现给Web数据挖掘提出了新的要求基于Web2 0 的数据挖掘目前还处于起步阶段它必将成为 Web 数据挖掘中很重要的一个研究领域 1 4 网页数据的结构与特点网页数据的结构与特点 1 4 1 HTML 超文本标记语言超文本标记语言什么是 HTML 文

11、件 HTML 的英文全称是 Hyper Text Markup Language 中文叫做超文本标记语言和一般文本的不同的是一个 HTML 文件不仅包含文本内容还包含一些 Tag 中文称标记一个 HTML 文件的后缀名是 htm 或者是 html 用文本编辑器就可以编写 HTML 文件这就试写一个 HTML 文件吧打开你的 Notepad 新建一个文件然后输入以下代码到这个新文件最后将这个文件保存为 first html 其中的代码如下 Title of page This is my first homepage This text is bold 要浏览这个 f

12、irst html 文件双击它或者打开浏览器在 File 菜单中选择 Open 然后选择这个文件就行了 1 示例解释这个文件的第一个 Tag 是这个 Tag 告诉浏览器这是 HTML 文件的头文件的最后一个 Tag 是表示 HTML 文件到此结束 Tag 通常是成对出现的比如起始的叫做 Opening Tag 起始标记结尾的就叫做 Closing Tag 结尾标记在和之间的内容是 Head 信息 Head 信息是不显示出来的在浏览器里看不到但是这并不表示这些信息没有用处比如你可以在 Head 信息里加上一些关键词有助于搜索引擎搜索到网页在和之间的内容

13、是这个文件的标题你可以在浏览器最顶端的标题栏看到这个标题在和之间的信息是正文 HTML 文件看上去和一般文本类似但是它比一般文本多了 Tag 比如等在和之间的文字用粗体表示顾名思义就是 bold 的意思通过这些 Tag 可以告诉浏览器如何显示这个文件 HTML 元素 HTML Element 用来标记文本表示文本的内容比如 body p title 就是 HTML 元素 HTML 元素用 Tag 表示 Tag 以结束目前 HTML 的 Tag 不区分大小写比如和其实是相同的 2 HTML 元素 HTML Elements 的属性 HTML 元素可以拥有属性

14、属性可以扩展 HTML 元素的能力比如你可以使用一个 bgcolor 属性使页面的背景色成红色就像这样再比如你可以使用 border 属性将一个表格设成一个无边框的表格这时的标记形如属性通常由属性名和值成对出现形如 name value 上面例子中的 bgcolor border 就是 name red 和 0 就是 value 属性值一般用双引号标记起来属性通常是附加给 HTML 的 Opening Tag 而不是 Closing Tag 1 4 2 WML 无线无线标记语言标记语言 WML Wireless Markup Language 无线标记语言这种描述语言

15、同我们常听说的 HTML 语言同出一家都属于 XML 语言这一大家族 WML 的语法跟 XML 一样 WML 是 XML 的子集 HTML 语言写出的文件我们可以在 PC 机上用 IE 或是 NetScape 等浏览器进行阅读而 WML 语言写出的文件则是专门用来在手机等的一些无线终端显示屏上显示供人们阅读并且同样也可以向使用者提供人机交互界面接受输入的查询等信息然后向使用者返回他所想要获得的最终信息 1 WML 文件结构 WML 由一组互相链接的卡片 CARD 组成当移动电话访问一个 WML 页面的时候页面的所有 CARD 都会从 WAP 服务器下载到设备里 CARD

16、之间的切换由电话内置的处理器处理不需要再到服务器上取信息 CARD 可以包含文本标记链接输入控制任务 TASK 图像等 CARD 之间可以互相链接文档的实体包含在和标记之间文档里每个 CARD 又包含在标记中实际的文字段落则包含在和标记之间下面是一个简单的例子 Hello world 显示结果如下 HELLO Hello World 2 WML 字符集 WML 是 XML 的子集继承了 XML 的字符集设置 WML 文档默认的字符集是 UTF 8 要显示中文有两种办法最简单的办法就是在文档头使用 encoding 即把第一行改为然而令人失望的是这种方法有些手机和模拟器并不支持将来会的所以目前第 2 种方法更普遍不改变字符集设置但是在写中文的时候用 UNICODE 代表中文字符如代表通讯录 3 WML 元素标记 Tag 和属性 WML 的主要内容是文本由于标记会降低与手持设备的通讯速度所以 WML 标准里仅仅使用了很少一部分标记用于表格和图像的的标记几乎都被排除了与 XML 一样在 WML 语言中所有元素都放在符号中并且包含

展开阅读全文