计算机专业外文翻译关于研究NutchLucene的互操作性

上传人:M****1 文档编号:430761619 上传时间:2023-08-21 格式:DOC 页数:8 大小:179.51KB
返回 下载 相关 举报
计算机专业外文翻译关于研究NutchLucene的互操作性_第1页
第1页 / 共8页
计算机专业外文翻译关于研究NutchLucene的互操作性_第2页
第2页 / 共8页
计算机专业外文翻译关于研究NutchLucene的互操作性_第3页
第3页 / 共8页
计算机专业外文翻译关于研究NutchLucene的互操作性_第4页
第4页 / 共8页
计算机专业外文翻译关于研究NutchLucene的互操作性_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《计算机专业外文翻译关于研究NutchLucene的互操作性》由会员分享,可在线阅读,更多相关《计算机专业外文翻译关于研究NutchLucene的互操作性(8页珍藏版)》请在金锄头文库上搜索。

1、 Scale-up x Scale-out: A Case Study using Nutch/LuceneMaged Michael, Jos E. Moreira, Doron Shiloach, Robert W. WisniewskiIBM Thomas J. Watson Research CenterYorktown Heights, NY 10598-0218 向上向外扩展:关于研究Nutch/Lucene的互操作性 摘要在过去几年中,多处理系统提高运行能力的解决方案一直困扰着主流的商业计算。主要的服务器供应商继续提供越来越强悍的机器,而近期,向外扩展的解决方案,规模较小的机器集

2、群的形式,更加被商业计算所接受。向外扩展的解决方案是以网络为中心高吞吐量的特别有效的应用。在本文中,我们调查了向上扩展和向外扩展这两种相对的方法在一个新兴的搜索应用程序中并行的情况。我们的结论表明,向外扩展的策略即使在向上扩展的机器中依然可以表现良好。此外,向外扩展的解决方案提供更好的价格/性能比,虽然增加了管理的复杂性。1 简介 在过去10年里的商业计算中,我们目睹了计算机系统单处理器到多处理器的全面换代。80年代初期引发的计算机行业的科技革命导致它占领了90年代商业计算大部分的市场。我们可以根据不同的做法,将采用多处理器系统的运算(包括商业和技术/科学)分为两个大组:向上扩展:大型共享存储

3、服务器的部署应用(多处理系统)。向外扩展:多个小相互服务器应用程序的部署(网络集群)。 在第一阶段的商业计算革命中,向上扩展的优势是显而易见的。多处理系统规模的增加,处理器时钟速率的提高,提供更高的计算能力来处理事物的需要,即使是目前最大的公司也面临这些问题. 对称多处理系统是目前的主流商业计算。IBM 、惠普和Sun这样的公司每一代人都投入巨资以建设更大、更好多处理系统。 最近,针对于商业计算的向外扩展越来越被关注。对于许多新的以网络产品为主的企业(例如谷歌、雅虎、eBay、亚马逊),使用向外扩展是是解决必要计算能力唯一的办法。另外,计算机制造商更容易部署基于机架最佳化和刀片服务器的向外扩展

4、解决方案。向外扩展在过去好多年一直是大规模科学计算的唯一可行方案,我们可以观察世界500强系统的发展。在此论文中,我们研究的是一个新兴的商业应用,非结构化数据的检索,根据两个不同的系统:一个是以向上扩展为基础的超线程酷睿POWER5处理器。另一种是基于IBMBlade Center刀片服务器向外扩展系统。这两个系统配置价格差不多(约20万美元),从而可以公平的进行性价比的比较。其中一个重要的结论,我们的工作是一个“纯粹”的向上扩展的方案而不是很有效的利用所有的处理器在一个大型的对称多处理。在纯粹的向上扩展中,我们只有一个实例运行的应用程序中的SMP,并使用该实例的所有可用资源(处理器)。我们更

5、擅长于开发Power5的对称多处理与“基于abox向外扩展”的方案。在这种情况下,多个实例方法同时运行在一个单操作系统下。后一种做法显著提高性能,同时又能保持单一系统形象,是一个很具优势的对称多处理系统。我们的另外一个结论是,同样的价格尺度系统的情况下,向外扩展的系统能够实现4倍的性能。在我们的应用案例中,这一业绩的衡量精确到了秒。向外扩展系统需要使用多个系统的图像,因此,可以有效方便的降低管理成本。不同情况下,这点或许能改善性能。其余部分本文安排如下.Section 2叙述了向上扩展系统和向外扩展系统荣在我们的研究中的配置。第3节介绍了Nutch / Lucene在我们的系统中运行的工作量。

6、第4节介绍我们的结论。2 向上和向外扩展系统 在IBM的产品线,系统z,p和i全部建立在具有跨度范围广泛的计算能力的多处理系统上。我们选择了Power5的p5 575机器作为代表着目前技术水平的系统。这个8位或16位系统已经由于其低成本,高性能,小型化(2U或3.5英寸的高24英寸机架)已经吸引了不少客户。POWER5的p5 575是图片如图1所示。我们所用的特殊p5 575测试系统拥有16个8位酷睿单元和32GB(1G= 1,073 , 741824字节)的主存。每个核心是双线程,因此这个操作系统相当于一个32位的SMP。处理器速度是1.5G赫兹。另外,p5 575connects有两个Gi

7、gabit/s以太网接口。它也有自己的专用DS4100存储控制器。(见下面的说明DS4100)向外扩展系统有许多不同的形状和形式,但它们一般包括多个相互关联的节点,每一个节点代表一个独立的操作系统。我们选择的BladeCenter作为我们的向外扩展平台。这是这个平台基于向外扩展方向的一个自然选择。第一种在商业计算成为流行的向外扩展系统是机架式集群。IBM BladeCenter,解决方案(和类似的系统公司,如惠普和戴尔)引领着下一步机架式集群向外扩展系统的商业计算。BladeCenter的刀片服务器使用和机架式集群服务器相似的能力: 4处理器的配置, 16-32培养基的最大内存,内置以太网,并

8、扩展卡两种光纤通道,Infiniband的, Myrinet的,或10Gbit/s以太网。同时还提供有多达8个处理器的双宽叶片配置和额外的内存。BladeCenter-H是最新的IBM BladeCenter机架。与之前的BladeCenter 1机架相比,它有14个刀片插槽的刀片服务器。它也有多达两个管理单元, 4个交换机模块,四桥模块和四个高速交换机模块的空间。(在机架上交换机模块3与4和桥梁模块3与4均共享相同的插槽。)我们在每个机架配备两个1-Gbit/s以太网交换机模块和2个光纤通道交换机模块。三种不同叶片中使用了我们的集群:JS21( PowerPC处理器),HS21 (英特尔Wo

9、odcrest处理器)和LS21( AMD Opteron处理器)。每一个刀片(JS21, HS21,或LS21)既有本地磁盘驱动器(73 GB的容量)也有双光纤通道的网络适配器。在光纤通道适配器,两个用于连接的刀片光纤通道交换机,都被插入机架。大约一半的集群(4底盘)组成JS21刀片。这是四处理器(双插槽,双核心)的PowerPC 970片,运行在2.5 GHz。每一个刀片有8GiB的内存。在本文中的结论报告中,我们着重关注这些JS21刀片。DS4100存储子系统包括双存储控制器,每一个都配有2Gb/s的光纤通道接口,并且在主要抽屉中容纳了14个SATA驱动器。尽管每个DS4100是搭配一个

10、专门的BladeCenter-H机架,但由于我们运行的光纤通道网络,集群中的任何刀片都可以可以查看到存储系统的每个逻辑单元。3 Nutch / Lucene的工作量 Nutch / Lucene是一种执行搜索应用的框架。这是基于非结构化数据(网页)搜索的应用程序日益增多的表现。我们已经习惯了谷歌和雅虎这样开放互联网运作的搜索引擎。然而,搜索也是公司局域网、内部网络的一个重要的运作。Nutch / Lucene完全是基于Java和其代码的开源性。Nutch / Lucene,作为一个典型的搜寻工作,有三个主要部分组成:(1)检索,(2)索引,和(3)查询。在本文中,我们列出查询结果的组成部分。为

11、了完整性,我们简要介绍了其他组成部分。抓取操作是浏览和检索信息的网页,然后输入将要搜索的文本信息。这一套文件在搜索术语称为语料库。爬行可以同时在内部网络(内联网)以及外部网络(因特网)内执行。检索,尤其是在互联网,是一个复杂的工作。无论是有意还是无意,总有许多的网站难以检索到。检索的性能通常是被检索系统和被检索系统之间的网络带宽给制约着。在Nutch / Lucene的搜索框架包含一个使用MapReduce编程模型的并行索引操作书面。MapReduce提供了一个方便的方式处理一个重要的(尽管有限)类,通过程序员在现实生活中的商业应用并行和容错性问题让他们关注问题域。MapReduce在2004

12、年出版了谷歌网站,并迅速成为这类工作量分析的标准。MapReduce模式的并行索引操作如下。首先,将要建立的数据分割成大致相同大小的部分。每一部分,按照既定的方式进行处理,生成(键,值),其中KEY是查询索引关键字,value是包含关键字的一整套文档(和储存关键字的文档)。这相当于在地图阶段,用MapReduce 。在下一阶段,在减少的阶段,每一个减速任务收集所有对某一特定的关键字,从而产生一个单一的指数表的关键字。当所有的按键都处理后,我们有完整的关键字集作为整个数据集。在大多数的搜索应用程序中,查询绝大多数代表着运算能力。执行查询功能的时候,索引格式被提交给搜索引擎,然后检索文件,得到最符

13、合要求的结果。Nutch / Lucene的并行查询引擎的总体结构如图3所示。查询引擎部分包含一个或多个前台,一个或多个后台。每个后台都包含该分类完整的数据集。驱动作为外围用户的代表也是衡量查询性能的一个关键点,每秒查询(qps)。查询操作的方式如下:驱动程序提交特定查询(索引格式)的任意一个前台。前台紧接着分派查询任务给所有的后台。每个后台负责执行对数据段的查询并返回最符合查询要求的结果文件列表(通常是10个)。每个文件返回一个百分数值,以此量化查询匹配度。前台收集所有后台的回复两端产生一个单一的顶端文件列表(通常是10条最佳匹配结果)。一旦前台产生了该列表,它会练习后台根据索引目录检索文章

14、的片段。只有顶端文件的片段会被检索。前台一次只能与一个后台建立联系,从后台数据段对应的文档中回复片段。4 总结 我们的工作的第一个结论是,相对于向上扩展来说,向外扩展的解决方案在检索工作量方面毋庸置疑有着很高的性价比优势。高度并行性的工作量,再加上在处理器、网络和存储的可扩展性方面的可预测性,使得向外扩展成为搜索方面的完美候选。 此外,即使在向上扩展系统中,在处理器利用效率方面采取“在单位空间内向外扩展”的方法比单纯的向上扩展效果要好的多。这与目前已有的大型共享存储系统的科技计算已经没有太大的差别。这些机器中,在机器中运行MPI(向外扩展)应用往往比依赖于共享内存(向上扩展)编程更加有效。 向

15、外扩展的系统在系统管理方面仍然不如向上扩展。使用传统的管理观念消耗的镜像成本成比例的增加,很明显,向外扩展的解决方案比向上扩展要耗费更高的管理成本。外文文献原文:AbstractScale-up solutions in the form of large SMPs have represented the mainstream of commercial computing for the past several years. The major server vendors continue to provide increasingly larger and more powerful

16、 machines. More recently, scale-out solutions,in the form of clusters of smaller machines, have gained increased acceptance for commercial computing. Scale-out solutions are particularly effective in high-throughput web-centric applications.In this paper, we investigate the behavior of two competing approaches to parallelism, scale-up and scale-out, in an

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号