文档详情

Hadoop性能测试

ni****g
实名认证
店铺
PDF
205.21KB
约5页
文档ID:574216842
Hadoop性能测试_第1页
1/5

Hadoop性能测试一. 引言 ApacheHadoop 是对Google 的GFS(Google File System)BigTable 的一个开源实现,具有高扩展性、高效性、高容错性、低成本以及易于虚拟化等特性,是目前行业事实的应用标准大数据基准测试作用1)它能提升大数据领域的技术、理论和算法, 并挖掘出大数据的潜在价值和知识 2) 它能帮助系统开发人员设计系统功能、调优系统性能、提升部署方法 [5] 3) 它容许用户比较不同系统的性能, 帮助选购产品二. 大数据基准测试标准化现状和测试工具2014 年, TPC发布了基准测试标准TPCx-HS和配套的测试工具,测试重点主要是性能验证、性价比、功耗和可用性三. 性能测试内容 HDFS读写,MapReduce 执行情况和 NoSQL 数据库能力 TestDFSIO基准测试:进行大文件读写,衡量指标为单个文件吞吐量和执行时间; Yarn 基准测试:( 1)使用 Wordcount 统计输入数据中每个单词的出现次数,输入数据使用Hadoop RandomWriter 产生随机数据,衡量指标为执行时间,(2)使用 Sort 对大数据进行排 序,输入数据使用Hadoop RandomTextWriter 生成,衡量标准为执行时间,(3)使用 Terasort对大数据进行排序, 输入数据由 Hadoop TeraGen 产生,衡量标准是时间;Hive 基准测试:对表进行简单查询操作、连接操作、插入操作、分组操作和map连接操作,衡量标准是执行时间。

d 四. 性能测试工具 1. 自带工具 TestDFSIO主要用于HDFS基准性能测试,Sort工具用于MapReduce负载测试, PerformanceEvaluation工具主要用于Hbase性能测试, MRbench检验小型作业的快速响应能力,NNBench测试Namenode 硬件加载过程, Gridmix 可以通过模拟 Hadoop Cluster 中的实际负载来评测Hadoop性能2. HiBench包括 HDFS 、MapReduce 、SQL 、网页搜索、数据分析以及机器学习等性能测试3. YCSB适用于 Hbase 等 NoSQL 组件 4. TPCx-HS Kit包含四个模块: HSGen 数据生成器; HSDateCheck检查数据集和副本的符合性; HSSort 数据排序; HSValidate 排序后的数据校验主要进行吞吐量、性价比、可用性和代表功率的测试5. Bigbench第一个端到端的大数据分析测试工具,含有丰富的查询集合, 包含了 30 个查询负载四. 测试一般过程测试过程主要包括版本部署、运行状态检查、数据准备、测试脚本运行、数据收集展示和环境清理。

通过Node.js 模拟浏览器操作、Shell脚本进行数据准备和运行、Nmon工具来监控主机CPU等、Grafana 展示结果数据数据生成,一般对真实的数据进行建模,保持其特征进行扩展,但是需要解决两方面问题, 一方面是应用特征的保持, 另一方面的问题是数据生成的速度和代价负载选择,按照系统资源消耗可以分为: 计算密集型(信息查询),I/O 密集型(机器学习模型迭代)和混合密集型pagerank集群规模,测试与实际集群规模相差较大, 规模和复杂性都较小软件兼容性,各种各样的商业变式出现 参考文献[1] 姜春宇 , 孟苗苗 . 大数据基准测试流程与测试工具[J]. 信息通信技术,2014,(06):43-46+51.[1] 陈凯, 魏凯, 周晓敏 . 大数据平台基准测试标准化思考[J]. 电信网技术 ,2015,(02):14-17.[1] 尤元建 , 吴洪学 . Hadoop性能测试自动化研究[J]. 软件导刊,2016,(12):16-18.[2] 揣立武. Hadoop 平台基准性能测试工具的设计与实现[D]. 哈尔滨工业大学 ,2015.[3] 张新玲 , 颜秉珩 . Hadoop平台基准性能测试研究[J]. 软件导刊,2015,(01):30-32. 。

下载提示
相似文档
正为您匹配相似的精品文档