mahout0.8jar包是为mahout环境配置设计的一款文件包,提供多种算法实例,包括聚类、分类、推荐过滤、频繁子项挖掘等,方便快捷的创建智能应用程序,小编还带来了详细的配置教程,需要的朋友可以来本站下载!
Mahout环境的安装和配置教程
在安装运行mahout之前,需要配置好hadoop。我的hadoop是vmware8.0+ubuntu12.04+ubuntu12.04.两台虚拟机搭建的集群。网上资料很多。这里主要介绍mahout的安装和运行。
1、首先在下载mahout0.8.我选择是的mahout-examples-0.8-job.jar。(如果你在windows下运行,可以下载zip)
2、下载完毕,我们拷贝到虚拟机ubuntu系统桌面上中,然后把它拷贝到本地目录下cd Desktop/cp mahout-examples-0.8-job.jar/home/sun/(把mahout安装包拷贝到用户sun的目录下)
然后解压 tar zxvf mahout-examples-0.8-job.jar。
解压之后 ls -l 。可以看到解压之后的文件
如果想修改文件名可以使用mv。google 百度之...
3、配置文件
找到etc/profile 进行编辑。
sudo gedit /etc/profile
提示你输入密码,输入密码之后就进入了profile文件里面,在最下面可以看到
修改完毕之后,一定要运行source /etc/profile命令,使其生效。
4、在mahout安装目录下的bin文件内找到mahot 文件
比如这个路径:/home/sun/mahout-examples-0.8-job.jar/bin,在mahout文件里添加hadoop路径,必须要添加的,否则运行出错。打开之后,在#!/bin/bash的下面添加hadoop的安装路径和配置路径 (不要直接复制粘贴,请参照你的安装路径)
# HADOOP_HOME=/home/sun/hadoop-2.2.0
# HADOOP_CONF_DIR=$HADOOP_HOME/conf
添加这两行,保存退出!
5、安装完毕。下面我们可以测试是否安装成功。
退回根目录下,运行mahout。如实看到下面两行则表示成功。等待片刻(时间有点长,大概1分钟左右),会列出所包含有的算法。
6、启动hadoop-- 。 ./sbin/start-dfs.sh和./sbin/start-yarn.sh。
运行jps.可以看到
6331 jar
7555 SecondaryNameNode
8308 RunJar
7288 NameNode
5045 FsShell
2906 RunJar
8402 Jps
4733 RunJar
表示已经成功!!!
7、接下来就是测试阶段了。
下载测试文件synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下。(这个好像是必须,我放到其他目录下,运行时会出错!!!不知why)
然后把synthetic_control.data拷贝到hdfs文件系统下面。新建一个testdata(名字必须为testdata).
hdfs dfs -mkdir testdata
然后拷贝
hdfs dfs -put $MAHOUT_HOME/synthetic_control.data testdata/
我们只用kmeans算法。输入例子为hadoop jar /home/hadoop/mahout-distribution-0.8/mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
然后就开始运行了。需要一段时间。因为内容比较多。