hadoop2.7+mahout0.13.0在数据集synthetic_control.data具体操作

hadoop 2.7+mahout0.13.0

运行环境：Ubuntu16.04

master节点:1

slave节点:2

数据集地址：http://archive.ics.uci.edu/ml/databases/synthetic_control

安装hadoop（略）

安装mahout

在官网下载mahout0.13.0版本地址：http://www-eu.apache.org/dist/mahout/

使用tar -zvxf 文件名，进行解压。看好解压路经因为后边要配置环境变量。

环境变量配置如下：

vim /etc/profile编辑

在profile中添加

export MAHOUT_HOME=/opt/apache-mahout-distribution-0.13.0
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf

在PATH上添加MAHOUT_HOME和 MAHOUT_CONF_DIR

export PATH=$JAVA_HOME/bin:$SCALA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin:$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH

然后执行source /etc/profile

然后在执行mahout --help没有错误，则mahout安装成功。

然后上传synthetic_control.data到hdfs，这里路经为user/spark/testdata。笔者也不知道为啥是testdata，放在其他位置报找不到路经的错误。

执行mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

查看hadoop上边运行情况

查看hadoop的hdfs

可以看到分了10个类别。一个简单的流程就是这样子，还在学习。