Hibench 中sparkbench 安装及使用
概述:
Hibench 是 Intel 开源的大数据基准测试工具,可以评估不同大数据框架的速度,吞吐量和系统资源利用率。包括 Sort, WordCount, TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight 和 enhanced DFSIO等,还支持流任务的基准测试,例如 Spark Streaming, Flink, Storm 和 Gearpump。
它支持的框架有:hadoopbench、sparkbench、stormbench、flinkbench、gearpumpbench。
环境准备:
HiBench需要java环境,以及Maven管理。
安装java运行环境以及maven,添加环境变量(此处简单那省略。。。)
下载HiBench:
Github地址:https://github.com/intel-hadoop/HiBench
注意事项:1、Python 2.x(>=2.6) is required.
2、bc is required to generate the HiBench report.(如没有bc工具,执行yum install bc)
3、Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP
4、Build HiBench according to build HiBench.
5、Start HDFS, Yarn in the cluster.
git clone https://github.com/intel-hadoop/HiBench.git比较慢,建议直接网页下载zip包,然后解压到理想的目录下。
安装Hibench:
进入到Hibench目录下执行编译操作:
以安装hadoop框架下用于测试sql的模块为例:
mvn -Phadoopbench -Dmodules -Psql -Dscala=2.11 clean package
或者直接执行
mvn clean package
更多安装命令可见https://github.com/intel-hadoop/HiBench/blob/master/docs/build-hibench.md。
(我这边因为使用的是sparkbench框架,所以选择第二种,在编译是老是会出现问题,多编译几次就好了,直到显示成功)
安装 bc 用于生成 report 信息:
yum install bc
配置Hibench:
1.配置conf/spark.conf
2.配置conf/hadoop.conf
3.配置conf/hibench.conf
4.自定义数据量大小:
/home/hadoop/package/HiBench/conf/workloads/micro/terasort.conf
运行测试:
1.生成数据
bin/workloads/micro/terasort/prepare/prepare.sh
2.处理数据:
bin/workloads/micro/terasort/spark/run.sh
查看数据:
至此,就全部完成,踩踩坑:
1.尽量在一个用户下进行操作
2.在编译期间会报很多问题,尽量保持耐心,多编译几次就会成功
3.在配置参数时注意虚拟机内存的大小