IRS系统使用手册

上传人:飞****9 文档编号:132601955 上传时间:2020-05-18 格式:PDF 页数:74 大小:1.13MB
返回 下载 相关 举报
IRS系统使用手册_第1页
第1页 / 共74页
IRS系统使用手册_第2页
第2页 / 共74页
IRS系统使用手册_第3页
第3页 / 共74页
IRS系统使用手册_第4页
第4页 / 共74页
IRS系统使用手册_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《IRS系统使用手册》由会员分享,可在线阅读,更多相关《IRS系统使用手册(74页珍藏版)》请在金锄头文库上搜索。

1、网络数据挖掘 2 1 1 网络数据挖掘定义 2 1 2 网络信息挖掘面临的问题 2 1 3 网络信息挖掘的分类 3 1 4 网页数据的结构与特点 3 1 4 1 HTML 超文本标记语言 3 1 4 2 WML 无线标记语言 5 1 5 网页数据挖掘的基本方法 6 1 5 1 预备知识 7 1 5 2 树节点直接标识方法 11 1 5 3 语义规则识别方法 14 1 6 智能网络爬虫 15 1 6 1 智能网络爬虫的定义与特点 15 1 6 2 抓取入口定义 15 1 6 3 次级页面自动发现 16 1 6 4 次级页面地址拼接 18 1 6 5 已爬地址处理 19 1 6 6 信息采集强度控

2、制 20 1 6 7 模拟用户登录 20 1 6 8 验证码识别 21 1 6 9 代理服务器设置 21 1 6 10 JavaScript 解析控制 22 2 网页信息挖掘专用程序设计语言 IRS 23 2 1 IRS 语言的简介与设计原则 23 2 2 IRS 脚本语法结构 24 2 2 1 页面配置块 24 2 2 2 页面名语句 24 2 2 3 入口声明语句 24 2 2 4 编码配置 28 2 2 5 步长配置 28 2 2 6 重试次数配置 29 2 2 7 正则模式匹配语句 29 2 2 8 匹配名声明 30 2 2 9 IEE 表达式 30 2 2 10 模式匹配修饰符 31

3、 2 2 11 节点模式匹配语句 34 2 2 12 次级页面入口语句 34 2 2 13 保存语句 36 2 2 14 Ruby 控制语句 37 2 2 15 爬虫配置语句 38 2 2 16 系统配置语句 39 2 2 17 外部配置文件 39 2 2 18 执行语句块 40 2 2 19 IRQL 存储语句 41 2 2 20 IRQL 语言中的数据表 46 2 2 21 IRQL 内部函数 50 2 2 22 POST 方式的入口生成 56 2 2 23 实例解析 59 3 附录 74 3 1 IRS 错误号 74 网络网络数据挖掘数据挖掘 1 1 网络网络数据挖掘定义数据挖掘定义 数

4、据挖掘 Data Mining DM 是是从存放在数据库 数据仓库或其他信息库中的大量数 据中提取或挖掘有趣知识的过程 随着网络的不断发展 因特网目前已成为一个巨大的 分 布广泛的和全球性的信息服务中心 从海量的网络信息中寻找有用的知识 早已成为人们的 迫切需求 各种类似 Google Baidu 等的搜索引擎也层出不穷 网络数据挖掘的应用在现实 中不断体现 网络信息挖掘是一个极其复杂的过程 它不同于传统的数据仓库技术和简单的知识发 现 它面对的海量信息不是全简单的结构化数据 而常常为半结构化的数据 如文本 图形 图像数据 甚至是异构型数据 网络信息挖掘建立在对大量的网络数据进行分析的基础上

5、采用相应的数据挖掘算法 在具体的应用模型上进行数据的提取 数据筛选 数据转换 数据挖掘和模式分析 最后作 出归纳性的推理 预测客户的个性化行为以及用户习惯 从而帮助进行决策和管理 减少决 策的风险 网络信息挖掘挖掘涉及多个领域 除数据挖掘外 还涉及计算机网络 数据库与数据仓 储 人工智能 信息检索 可视化 自然语言理解等技术 1 2 网络信息挖掘网络信息挖掘面临的问题面临的问题 Web 的巨大 分布广泛和内容多样使得目前的 Web 数据挖掘面临着众多问题和挑战 首先 对有效的数据仓库和数据挖掘来说 Web 上的数据过于庞大 而且 Web 上的数据 具有极强的动态性 不仅数量增长快而且更新十分迅

6、速 但是面对如此大量的 Web 信息 却有调查表明 99 的 Web 信息对于 99 的用户是无用的 这样看来 面对网络上形形色 色的用户群体 许多由 Web 搜索引擎所检索到的资料将会被淹没 另外 由于 Web 页面缺乏统一的结构 其结构又比任何传统的文本文档都要复杂 所 以要实现基于 Web 的数据挖掘和信息检索在目前来说是非常具有挑战性的 Web 数据挖掘是一项具有挑战性的课题 它实现对 Web 存取模式 Web 结构和规则以 及动态的 Web 内容的查找 1 3 网络信息挖掘网络信息挖掘的分类的分类 一般来说 Web 数据挖掘可分为四类 Web 内容挖掘 Web 结构挖掘 Web 使用

7、记录 挖掘和 Web 用户性质挖掘 其中 Web 内容挖掘 Web 结构挖掘和 Web 使用记录挖掘是 Web1 0 时代就已经有了的 而 Web 用户性质挖掘则是伴随着 Web2 0 的出现而出现的 网络信息挖掘主要包括文本挖掘和多媒体挖掘两类 其对象包括文本 图像 音频 视 频 多媒体和其他各种类型的数据 这些数据一般由非结构化的数据 如文本 半结构化 的数据 如 HTML 文档 和结构化的数据 如表格 构成 对非结构化文本进行的 Web 挖掘 称为文本数据挖掘或文本挖掘 是 Web 挖掘中比较重要的技术领域 Web 数据挖掘中另一 个比较重要的技术领域是 Web 多媒体数据挖掘 目前 关

8、于网络信息挖掘的研究大体以 Web 文本内容挖掘为主 Web 内容挖掘一般从 资源查找和数据库两个方面进行研究 从资源查找的方面来看 Web 内容挖掘的任务是从用户的角度出发 怎样提高信息质 量和帮助用户过滤信息 主要是对非结构化文档和半结构化文档的挖掘 非结构化文档主要 指 Web 上的自由文本 如小说 新闻等 Web 上的半结构化文档挖掘指在加入了 HTML 超链接等附加结构的信息上进行挖掘 其应用包括超链接文本的分类 聚类 发现文档之间 的关系 提出半结构化文档中的模式和规则等 从数据库的方面来看 进行 Web 内容挖掘主要是试图建立 Web 站点的数据模型并加以 集成 以支持复杂查询

9、而不只是简单的基于关键词的搜索 这要通过找到 Web 文档的模 式 建立 Web 知识库来实现 对文本数据进行挖掘的文档分类和模型质量评价方法与传统的数据挖掘方法相类似 分 类算法主要应用朴素贝叶斯 Naive Bayes Classifier 对模型的质量评价主要有分类的正确率 Classification Accuracy 准确率 Precision 和信息估值 Information Score Web 多媒体数据挖掘是指从多媒体数据库中提取隐藏的知识 多媒体数据关联或者是 其他没有直接储存在多媒体数据库中的模式 多媒体数据挖掘包括对图像 视频和声音的挖 掘 Web 多媒体挖掘首先进行特

10、征提取 然后再应用传统的数据挖掘方法进行进一步的信 息挖掘 对网页中的多媒体数据进行特征的提取 应充分利用 HTML 的标签信息 Web 数据挖掘是当今世界上的热门研究领域 其研究具有广阔的应用前景和巨大的现 实意义 目前国内的 Web 数据挖掘尚处于学习 跟踪和探索阶段 Web 数据挖掘有许多问 题有待于进一步的研究和深化 Web2 0的出现给Web数据挖掘提出了新的要求 基于Web2 0 的数据挖掘目前还处于起步阶段 它必将成为 Web 数据挖掘中很重要的一个研究领域 1 4 网页数据的结构与特点网页数据的结构与特点 1 4 1 HTML 超文本标记语言超文本标记语言 什么是 HTML 文

11、件 HTML 的英文全称是 Hyper Text Markup Language 中文叫做 超 文本标记语言 和一般文本的不同的是 一个 HTML 文件不仅包含文本内容 还包含一 些 Tag 中文称 标记 一个 HTML 文件的后缀名是 htm 或者是 html 用文本编辑器就 可以编写 HTML 文件 这就试写一个 HTML 文件吧 打开你的 Notepad 新建一个文件 然后输入以下代码到这个新文件 最后将这个文件 保存为 first html 其中的代码如下 Title of page This is my first homepage This text is bold 要浏览这个 f

12、irst html 文件 双击它 或者打开浏览器 在 File 菜单中选择 Open 然后选择 这个文件就行了 1 示例解释 这个文件的第一个 Tag 是 这个 Tag 告诉浏览器这是 HTML 文件的头 文件的 最后一个 Tag 是 表示 HTML 文件到此结束 Tag 通常是成对出现的 比如 起始的叫做 Opening Tag 起始标记 结尾的就叫做 Closing Tag 结尾标 记 在和之间的内容 是 Head 信息 Head 信息是不显示出来的 在浏览 器里看不到 但是这并不表示这些信息没有用处 比如你可以在 Head 信息里加上一些关键 词 有助于搜索引擎搜索到网页 在和之间的内容

13、 是这个文件的标题 你可 以在浏览器最顶端的标题栏看到这个标题 在和之间的信息 是正文 HTML 文件看上去和一般文本类似 但是它比一般文本多了 Tag 比如 等 在和之间的文字 用粗体表示 顾名思义 就是 bold 的意思 通过这些 Tag 可以告诉浏览器如何显示这个文件 HTML 元素 HTML Element 用来标记文本 表示文本的内容 比如 body p title 就是 HTML 元素 HTML 元素用 Tag 表示 Tag 以结束 目前 HTML 的 Tag 不区分 大小写 比如 和其实是相同的 2 HTML 元素 HTML Elements 的属性 HTML 元素可以拥有属性

14、属性可以扩展 HTML 元素的能力 比如 你可以使用一个 bgcolor 属性 使页面的背景色成红色 就像这样 再比如 你可以使用 border 属性 将一个表格设成一个无边框的表格 这时的标记形 如 属性通常由属性名和值成对出现 形如 name value 上面例子中的 bgcolor border 就是 name red 和 0 就是 value 属性值一般用双引号标记起来 属性通常是附加给 HTML 的 Opening Tag 而不是 Closing Tag 1 4 2 WML 无线无线标记语言标记语言 WML Wireless Markup Language 无线标记语言 这种描述语言

15、同我们常听说的 HTML 语言同出一家 都属于 XML 语言这一大家族 WML 的语法跟 XML 一样 WML 是 XML 的子集 HTML 语言写出的文件 我们可以在 PC 机上用 IE 或是 NetScape 等浏览器 进行阅读 而 WML 语言写出的文件则是专门用来在手机等的一些无线终端显示屏上显示 供人们阅读 并且同样也可以向使用者提供人机交互界面 接受输入的查询等信息 然后向 使用者返回他所想要获得的最终信息 1 WML 文件结构 WML 由一组互相链接的卡片 CARD 组成 当移动电话访问一个 WML 页面的时候 页面的所有 CARD 都会从 WAP 服务器下载到设备里 CARD

16、之间的切换由电话内置的处理 器处理 不需要再到服务器上取信息 CARD 可以包含文本 标记 链接 输入控制 任务 TASK 图像等 CARD 之间可以互相链接 文档的实体包含在和标记之间 文档里每个 CARD 又包含在 标记中 实际的文字段落则包含在和标记之间 下面是一个简单的例子 Hello world 显示结果如下 HELLO Hello World 2 WML 字符集 WML 是 XML 的子集 继承了 XML 的字符集设置 WML 文档默认的字符集是 UTF 8 要显示中文 有两种办法 最简单的办法就是在文档头使用 encoding 即把第一行改为 然而令人失望的是 这种方法有些手机和模拟器并不支持 将来会的 所以目前第 2 种方法更普遍 不改变字符集设置 但是在写中文的时候用 UNICODE 代表中文字符 如 代表 通讯录 3 WML 元素 标记 Tag 和属性 WML 的主要内容是文本 由于标记会降低与手持设备的通讯速度 所以 WML 标准里 仅仅使用了很少一部分标记 用于表格和图像的的标记几乎都被排除了 与 XML 一样 在 WML 语言中 所有元素都放在符号中 并且包含

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号