Mahout的安装部署和算法实现

  1. Mahout的安装及配置 

1-1、首先下载安装包 

https://archive.apache.org/dist/mahout/ 

1-2、解压并重命名: 

Mahout的安装部署和算法实现

mv apache-mahout-distribution-0.12.2 mahout-0.12.2 

1-3、配置环境变量: 

export MAHOUT_HOME=/Users/zhangchenguang/software/mahout-0.12.2 

export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf 

export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH 

 

Mahout 是依赖于hadoop的哦,不管怎么说,需要把hadoop给装上。 

hadoop配置环境变量: 

export HADOOP_HOME=/Users/zhangchenguang/software/hadoop-2.7.3 

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop  

export PATH=$PATH:$HADOOP_HOME/bin 

export HADOOP_HOME_WARN_SUPPRESS=not_null 

1-4、查询是否安装成功: 

mahout 

安装成功如下: 

Mahout的安装部署和算法实现

  1. Mahout中的kmeans聚类算法的使用 

2-1、kmeans聚类算法 

K-MEANS算法是输入聚类个数k,以及包含 n个数据对象的数据库,输出满足方差最小标准k个聚类的一种算法。k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 

2-2、下载测试数据 

wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data 

2-3、将测试数据上传到hdfs 

hadoop fs -mkdir -p ./testdata 

hadoop fs -put synthetic_control.data ./testdata 

2-4、查看数据文件是否上传成功 

hadoop fs -ls 

hadoop fs -ls ./testdata 

2-5、Mahout中的kmeans聚类算法的使用 

mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job 

Mahout的安装部署和算法实现

经过多个job运行以后得出结果: 

Mahout的安装部署和算法实现

Mahout的安装部署和算法实现

2-7、查看输出 

hadoop fs -ls ./output 

Mahout的安装部署和算法实现

2-8、查看数据 

mahout vectordump -i ./output/data/part-m-00000 

Mahout的安装部署和算法实现