面向组织内部的搜索引擎的设计与实现

上传人:bao****ty 文档编号:117075328 上传时间:2019-11-18 格式:DOC 页数:158 大小:245KB
返回 下载 相关 举报
面向组织内部的搜索引擎的设计与实现_第1页
第1页 / 共158页
面向组织内部的搜索引擎的设计与实现_第2页
第2页 / 共158页
面向组织内部的搜索引擎的设计与实现_第3页
第3页 / 共158页
面向组织内部的搜索引擎的设计与实现_第4页
第4页 / 共158页
面向组织内部的搜索引擎的设计与实现_第5页
第5页 / 共158页
点击查看更多>>
资源描述

《面向组织内部的搜索引擎的设计与实现》由会员分享,可在线阅读,更多相关《面向组织内部的搜索引擎的设计与实现(158页珍藏版)》请在金锄头文库上搜索。

1、面向组织内部的搜索引擎的设计与实现1、相关定义1.1、特定主题的描述与分词的定义 本小节的目的在于对如何进行主题的描述和如何定义分词这两方面内容进 行介绍。 在本文所设计的网络信息挖掘系统中,采用了词频的权重计算方法,并且在 该计算方法的基础上进行了一些改进。经过上一小节的介绍,已经对 Web 文档 有了一定的认识,在 Web 文档中寻找与主题相关度较高的部分,这样可以针对 这个特点对计算方法进行改进,达到适合本系统的目的。公式(2.3)如下: CW (t , d ) *W (t , d ) * P (t , d)(2.3) 其中, 表示的是词频权重在特征权重中所占的比例,同样的 表示的是位

2、置权重在特征权重中所占的比例。这里的 +=1, 表示传统 TF-IDF 方法25 所得的权值。根据位置计算的权重用 P(t,d)表示,P(t,d)用下面的公式(2.4)进行 计算: P t,d (w e k *TF(t,d,e k)(2.4) ek TF (t , d , ek )中,t 代表词组数量,d 代表网页,ek 表示网页中的影响特征权值 的标记元素,则, TF (t , d , ek )表示了 t 在 d 中ek 出现的次数。 w( e k )表示对应标 记元素ek的权重。通过上面两公式计算之后得出的结果来选择合适的阈值,然 20 第 2 章 网络爬行器概述 后在本系统中使用。 如何

3、对主题进行描述的问题是一个如何规范用户完整需求的问题,当用户只 针对一个词来让主题网络爬行器爬取相关主题的时候,这时候用户的要求就显得 很宽泛,而且爬行器基本不能按照用户的要求爬行下来相应的网页信息。比如, 搜索”教育”这个词,但是没有对这个”教育”进行”英语”的限定,那爬行器 只会把所有”教育”页面爬取下来,这就可以看出来,还需要对主题进行更为精 确的定义,这样才能使得爬行器爬取到用户想用的特定主题的页面内容。 本文所设计的系统中对主题进行了两个层次的订制,为了使得爬行器爬取到 的内容与用户所提供的主题关键词相近。第一层就是用户所提供的主题关键词, 第二层就是在用户所提供的主题关键词的基础上

4、,进行学习所得到的辅助关键 词,第二层就是为第一层服务,提供更高的准确度。第二层的辅助关键词是通过 以下的方法得到的:先将用户所提供的主题关键词作为搜索页面(如 Baidu、Bing、 Google 等,选择其中的两个)的关键词,进行搜索。然后将搜索得到的前 20 个 网页页面爬取下来。在之后对 20*2 的网页作为与用户所提供的主题相关的训练 页面,将这些页面进行训练,做分词、去非相关词以及词频统计等相关处理。提 取出非用户所提供的主题关键词中出现频率较高的词/句,将这些词/句提取出来, 就是第二层所要得到的辅助关键词。在这两层主题关键词的帮助下,就可以使得 特定主题网络爬行器的爬行效果更为

5、精确。 在爬取的过程中,设定一个权值,这个值是用来影响爬行器爬取的网页的先 后顺序的,这个权值是根据一个网页所包含是否有用户提供的主题关键词或者经 过训练得出的辅助关键词来赋予的。于是,就用权值的高低来对主题相关度不一 的网页进行排序。然后爬行器依次进行爬取。 1.2、聚类定义 人类能够很容易的将对象或模式分组,从而区分它们,但是在网络 时代,处理数据的执行者是计算机,在搜索时,将出现的海量数据分组 是很困难的。聚类就是在没有任何参考的状态下,自动将目标对象分成 不同组的方法。通过把相似的对象归类组成的组合就是类或者簇,也就 是簇就是相似的对象堆积在一起的一个集合14。Everitt15作了关

6、于概念 说明如下: (1)簇由有相似点的对象组合而成,所以,簇不同,里面的对象也 不类似; (2)簇是采集中点的聚集,只要在一个簇中,任何两点的距离都比, 点与簇外的点的距离小; (3)簇同样可以是不同维度空间的对象的连通,点的密集度也十分 高,它可以用一个交低的点密度空间隔开这些高密度区域。 如果会被聚的对象由一些特征表现,并产生 d 维的特征向量,那么 聚类分析就会由以下几步构成14: (1)特征表现:用适当的模式来象征对象,既要全面包括信息,又 要避免不必要信息的包含。通过提取和选择特征,不仅可以使运算的速 度特别快,还可以达到可见的效果; 9 (2)进行模块类似性的测试,进行测试的方法

7、和工具极其重要,通 常状况下进行距离的量定比较常见; (3)对聚类进行不同的分组归类:也就是选择适合的方法来运算和 显示数据对象的结构; (4)选择性地抽取数据:通过不同的聚类,梳理归纳不同紧密度的 描述; (5) 对最后的结果评估。 如上的叙述,聚类的含义主要是对对象进行组合分类,而这些数据 对象具有一定的相似性,这个过程就是聚类。由聚类形成的集合也叫做 簇,因此簇中的对象有共性,不同的簇的对象就没有共性。进行聚类的 分析也是进行群分析,是一种进行分类的手段和方式。它的方式是同一 空间的向量,又或者是不同空间中对象点的聚合,这些模式较聚类分析。 它的起源于分类学,同时,也不是简单的做分类,两

8、者之间的最大差别 就是,聚类的类别不确定,同时会牵涉到各个层面,比较常见的聚类方 式有,图论,系统,动态等聚类法。 1.3、TDT的任务定义和划分体系生,当时由美国的国防部提出的要开 发的一种新技术。该项技术的目的就是能够无人工干预地、自动地发现新闻媒体 信息流中热点新闻主题。在这里简单解释下”话题”,一个话题一般由一个种子 事件以及与其直接相关的事件组成。换而言之,对于一篇新闻资讯,如果描述的 内容与某个种子事件有着较大的相似性,那么这篇新闻资讯就与该话题相关。例 如”马航坠机事件”,凡是报道马航坠机的相关新闻报道都是这个主题相关的; 又例如”外滩踩踏事件”等等。 美国国家标准技术研究所(N

9、IST)从1998年开始,每年都会举办相关的学 术会议,同时会进行相应的系统测评。起初,TDT包含了五项基础性的研宄任务: 报道切分任务、话题跟踪任务、话题检测任务、首次报道检测任务、关联检测任 16 第2章相关工作概述 务。随着TDT的发展,相关的任务也得到了不断的补充和发展,TDT2004会议 上,又提出了两个新的概念:有指导的自适应话题跟踪检测和层次话题检测。完 整的TDT研宄体系如图2.2所示。需要注意的是,各项任务之间都不是孤立存 在的,相互之间是依赖和辅助的关系,另外各个任务都需要涉及相应的跨语言1.4、”地理块”的概念 地理空间中固定的一块区域,姑且称之为”地理块”。采用数学方法

10、对 地理空间进行划分,可以产生多个地理块,地理块之间相互连接,能够组成 整个地理区域。因此,地理块可以理解为地理空间的基本组成单元,固定的 地理空间可以表示成一组地理块的集合。 每一地理块中都有地形、地貌信息,可能还包含道路、河流、建筑物、 人工设施等要素,在 GIS 中,这些分别对应空间数据中的栅格数据或 TIN 数 据、矢量数据、三维模型数据等,如图 3-3 所示。 DEM 栅格数据 地理块DOM 矢量数据 点数据 三维模型 行政区划注记 标志性地物 设施点 控制点 面数据线数据 地名点 建筑物 人工设施 行政区划 境界 分布范围 河流 建筑物底面 道路 图 3-3 地理块中的空间数据 F

11、ig 3-3 The spatial data in geographical block 从上图可以看出,地理块中的 GIS 空间数据有明显的层次结构,这种层 次结构如图 3-4 所示。 25 第 3 章 面向文档的空间数据组织 地理块 栅格数据 DEM DOM 矢量数据 点数据 控制点 设施点 地名点 线数据 河流 道路 境界 面数据 行政区划 建筑地面 园林绿地 三维模型 建筑物模型 人工设施模型 图 3-4 地理块中空间数据层次结构示意图 Fig 3-4 The spatial data hierarchy diagram in geographical block 对比文档的结构,不

12、难看出,地理块与文档在内部结构上有很大的相似 性,这说明可以用文档来表示和存储地理块的层次结构以及空间数据。 1.5、空间自组织网络的概念表述 在空间任务需求和地面技术推动的双重背景下,从上世纪末开始,不少机构 和空间技术人员就开始了先进空间通信结构的研究。 NASA(美国航天局)早期在开展地球环境监测技术研究时就提出 sensor-web 构想8,即由小型卫星群、天基和低级设备互联构成有机统一的信息系统; Chien-Chung Shen 将这一构想推广到了星际探测通信体系结构中,提出了 Ad Hoc Space Network9的概念;Brown指出,分离模块航天器系统应当是一个由各模块节

13、 点构成的自主、自形成(self-forming)10网络,各模块能够以”即插即用” 的方 式连入网络;Orndorff 在星簇结构中提出了称为 Space-based LAN11(Local Area Network,局域网)的网络系统,该网络系统能为星簇内部所有航天器成员提供通 信服务。此后,又涌现了 satellite sensor network12、space-based WSN13(Wireless Sensor Network,无线传感器网络)等一系列新概念。 以上提到的这些关于空间通信体制的新概念虽然表述有别、名称各异,但它 们在网络结构、功能上存在很多的共性,本文将他们统称为

14、空间自组织网络。空 间自组织网络的概念可表述为:多个独立的空间信息单元以无线(射频或光)通 信方式构建的具有自发现、自配置和自运行功能的信息共享系统。所谓空间信息 单元,是指具有信息的交互、存储和运算处理能力的空间元素。空间自组织网络 的特征主要体现在以下三个方面: 自发现空间自组织网络节点具有自主检测网络标识信号的能力; 自配置多个孤立网络节点之间能够自主建立通信连接,自主形成网络拓 扑; 自运行空间自组织网络能够提供稳定高效的数据通信服务,并能自主适 应各种网络运行状态的随机变化,如通信连接关系的变化、路由信息的变更、网 络节点的损毁、节点动态加入和退出等。 1.6、明确概念 1.3.1

15、民间公益组织1.3.1 民间公益组织 查阅现代汉语词典,关于民间的表述有人民之间和非官方的这两种概念,民间的英 文表达可以是 voluntary,folk 等,翻译为平民自愿的意思5,本文所论述的民间指的是 非官方的公民自发的形式。对于组织的界定,就是指人们为实现一定的目标,互相协作 结合而成的集体或团体6,本文论述的组织包括有明确组织目标的、公民自发的、多人 组成的团体,例如爱心传递基金会蒲公英乡村图书馆,公益小书房等。与民间公益组织 相近的概念有非营利机构,慈善公益组织,NGO(非政府组织)等。每一个概念所侧重 的方向不同。非营利机构英文缩写为 NPO(Nonprofit Organiza

16、tion),指具有稳定的组织 形式和固定的成员,超出政府机构和私人企业而独立运作,发挥特定社会功能,不以获 取利润为目的,而以推进社会公益为宗旨的民间团体7。非政府组织英文 Non-Governmental Organizations 的意译,英文缩写 NGO,人们习惯用 NGO 来代替非政 府组织,是相对于政府组织的概念,依照法定程序建立,在组织结构和职能方面相对独 立的民间组织,更加强调与政府机构的对立8。慈善公益组织与公益组织类似,从事的 工作涉及环保、扶贫、妇女儿童权益、动物保护等方方面面,更加注重爱心的捐助和扶 2 第 1 章 绪 论 贫开发,注重社会公平、人与人之间友好和谐的相处,因为中国的特殊情况,最大的慈 善公益组织都是有政府背景的9。 非营利机构强调机构是非营利的目的,慈善公益组织更强调扶贫救济类的慈善爱心 事业,NGO(非政府组织)强调机构性质是非政府的。笔者综合研究主旨和各个相关概 念,认为选用民间公益组织

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号