Hibench 中sparkbench 安装及使用

概述:

Hibench 是 Intel 开源的大数据基准测试工具,可以评估不同大数据框架的速度,吞吐量和系统资源利用率。包括 Sort, WordCount, TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight 和 enhanced DFSIO等,还支持流任务的基准测试,例如 Spark Streaming, Flink, Storm 和 Gearpump。

它支持的框架有:hadoopbench、sparkbench、stormbench、flinkbench、gearpumpbench。

环境准备:

HiBench需要java环境,以及Maven管理。

安装java运行环境以及maven,添加环境变量(此处简单那省略。。。)

下载HiBench:

Github地址:https://github.com/intel-hadoop/HiBench

注意事项:1、Python 2.x(>=2.6) is required.
                 2、bc is required to generate the HiBench report.(如没有bc工具,执行yum install bc)
                 3、Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP
                 4、Build HiBench according to build HiBench.
                 5、Start HDFS, Yarn in the cluster.

git clone https://github.com/intel-hadoop/HiBench.git比较慢,建议直接网页下载zip包,然后解压到理想的目录下。

安装Hibench:

进入到Hibench目录下执行编译操作:

以安装hadoop框架下用于测试sql的模块为例:

mvn -Phadoopbench -Dmodules -Psql -Dscala=2.11 clean package 
或者直接执行

mvn clean package
更多安装命令可见https://github.com/intel-hadoop/HiBench/blob/master/docs/build-hibench.md。

(我这边因为使用的是sparkbench框架,所以选择第二种,在编译是老是会出现问题,多编译几次就好了,直到显示成功)

Hibench 中sparkbench 安装及使用

 安装 bc 用于生成 report 信息:

      yum install bc

配置Hibench:

1.配置conf/spark.conf

Hibench 中sparkbench 安装及使用

2.配置conf/hadoop.conf

Hibench 中sparkbench 安装及使用

3.配置conf/hibench.conf 

Hibench 中sparkbench 安装及使用

4.自定义数据量大小:

/home/hadoop/package/HiBench/conf/workloads/micro/terasort.conf

Hibench 中sparkbench 安装及使用

 

运行测试:

1.生成数据

bin/workloads/micro/terasort/prepare/prepare.sh

 2.处理数据:

bin/workloads/micro/terasort/spark/run.sh

 查看数据:

Hibench 中sparkbench 安装及使用

至此,就全部完成,踩踩坑:

1.尽量在一个用户下进行操作

2.在编译期间会报很多问题,尽量保持耐心,多编译几次就会成功

3.在配置参数时注意虚拟机内存的大小