hadoop2.7+mahout0.13.0在数据集synthetic_control.data具体操作

hadoop 2.7+mahout0.13.0

运行环境:Ubuntu16.04

master节点:1

slave节点:2

数据集地址:http://archive.ics.uci.edu/ml/databases/synthetic_control

安装hadoop(略)

安装mahout

在官网下载mahout0.13.0版本地址:http://www-eu.apache.org/dist/mahout/

使用tar -zvxf  文件名,进行解压。看好解压路经因为后边要配置环境变量。

环境变量配置如下:

vim /etc/profile编辑

在profile中添加

export MAHOUT_HOME=/opt/apache-mahout-distribution-0.13.0
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf

在PATH上添加MAHOUT_HOME和 MAHOUT_CONF_DIR

export PATH=$JAVA_HOME/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin:$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

然后执行source /etc/profile

然后在执行mahout --help没有错误,则mahout安装成功。

hadoop2.7+mahout0.13.0在数据集synthetic_control.data具体操作

然后上传synthetic_control.data到hdfs,这里路经为user/spark/testdata。笔者也不知道为啥是testdata,放在其他位置报找不到路经的错误。

执行mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

hadoop2.7+mahout0.13.0在数据集synthetic_control.data具体操作

查看hadoop上边运行情况

hadoop2.7+mahout0.13.0在数据集synthetic_control.data具体操作

查看hadoop的hdfs

hadoop2.7+mahout0.13.0在数据集synthetic_control.data具体操作

可以看到分了10个类别。一个简单的流程就是这样子,还在学习。