在Ubuntu下编译各种项目总会遇到不少的问题,尤其是缺少各种依赖,好友都推荐用CentOS。不过个人对Ubuntu这个品牌以及背后的Canonical公司比较喜欢,加之用过其桌面版多年,算是熟悉了。这里记录下编译和部署Hadoop 2.2的一些过程,以供快速参考。
0、虚拟机环境准备
宿主机器配置i7 8g内存,我这里用VMware虚拟了4台Ubuntu Server 64bit,每台机器分配1g内存。主机名分别为h0,h1,h2,h3,配置好每台机器的/etc/hosts,将各主机名映射到私有ip。
127.0.0.1 localhost 192.168.10.33 h0 192.168.10.176 h1 192.168.10.207 h2 192.168.10.90 h3
配置免密码ssh登录,这里只将h0作为namenode和secondarynamenode,h1~3作为datanode,应此只需要配置h0到h1~3的免密码登录,以及各虚拟机自己的免密码登录。
ssh-keygen -t rsa cat id_rsa.pub >> authorized_keys scp authorized_keys ubuntu@h1:~/.ssh/authorized_keys_from_h0 scp authorized_keys ubuntu@h2:~/.ssh/authorized_keys_from_h0 scp authorized_keys ubuntu@h3:~/.ssh/authorized_keys_from_h0
1、安装编译环境
由于Hadoop官方提供的只有32位环境,所以需要自己编译64位的,以下步骤仅在h0上操作。首先准备编译需要的组件,这里随系统决定所需。当然Java运行环境也是必须的,apt-get安装OpenJDK即可。
sudo apt-get install subversion maven cmake libssl-dev
2、签出Hadoop 2.2源代码
svn checkout http://svn.apache.org/repos/asf/hadoop/common/tags/release-2.2.0/
3、添加jetty-util依赖
编辑vim hadoop-common-project/hadoop-auth/pom.xml,添加:
<dependency> <groupId>org.mortbay.jetty</groupId> <artifactId>jetty-util</artifactId> <scope>test</scope> </dependency>
4、编译安装protobuf 2.5
wget https://protobuf.googlecode.com/files/protobuf-2.5.0.tar.bz2 tar jxvf protobuf-2.5.0.tar.bz2 cd protobuf-2.5.0/ ./configure make sudo make install
添加环境变量,或者重启一次
export LD_LIBRARY_PATH=/usr/local/lib/
5、执行编译
首次执行:
mvn package -Pdist,native -DskipTests -Dtar
如果有错误,根据错误原因处理,一般都是缺少依赖。装好后重复执行即可,也可以添加-e -X参数,打印更多的日志来帮助查找错误。成功后可以看到以下的输出:
[INFO] ------------------------------------------------------------------------ [INFO] BUILD SUCCESS [INFO] ------------------------------------------------------------------------ [INFO] Total time: 46:40.307s [INFO] Finished at: Fri Jan 17 17:32:23 CST 2014 [INFO] Final Memory: 66M/188M [INFO] ------------------------------------------------------------------------
6、安装配置
建立以下文件夹:
~/hadoop/dfs/data ~/hadoop/dfs/name ~/hadoop/temp
编译好的Hadoop可以在release-2.2.0/hadoop-dist/target/hadoop-2.2.0/找到,我这里将其复制到~/hadoop下,切换到目录:
cd ~/hadoop/hadoop-2.2.0/etc/hadoop/
配置以下几个文件,如果没有的,可以在复制改名对应的template。
hadoop-env.sh
修改JAVA_HOME 为系统Java Home环境,apt-get安装的OpenJDK一般是这个路径。
export JAVA_HOME=/usr/lib/jvm/default-java
core-site.xml
ubuntu为运行Hadoop的用户。
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://h0:9000</value> </property> <property> <name>io.file.buffer.size</name> <value>131072</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/ubuntu/hadoop/temp</value> <description>Abase for other temporary directories.</description> </property> <property> <name>hadoop.proxyuser.ubuntu.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.ubuntu.groups</name> <value>*</value> </property> </configuration>
hdfs-site.xml
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>h0:9001</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/ubuntu/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/ubuntu/hadoop/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
mapred-site.xml
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>h0:9001</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/ubuntu/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/ubuntu/hadoop/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> </configuration>
yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>h0:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>h0:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>h0:8031</value> </property> <property> <name>yarn.resourcemanager.admin.address</name> <value>h0:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>h0:8088</value> </property> </configuration>
slaves
定义节点的主机名:
h1 h2 h3
至此,配置就算完成了,将Hadoop目录复制到另外三台机器上,放相同的目录下。
scp -r hadoop-2.2.0/ h1:~/hadoop/ scp -r hadoop-2.2.0/ h2:~/hadoop/ scp -r hadoop-2.2.0/ h3:~/hadoop/
7、启动Hadoop
在h0上执行:
./sbin/start-dfs.sh ./sbin/start-yarn.sh
用jps可以查看Java进程所对应的服务。
ubuntu@h0:~/hadoop/hadoop-2.2.0$ jps 1902 NameNode 1604 SecondaryNameNode 2076 ResourceManager ubuntu@h1:~$ jps 1354 DataNode 1123 NodeManager ubuntu@h2:~$ jps 1146 DataNode 1378 NodeManager ubuntu@h3:~$ jps 1139 DataNode 1371 NodeManager
到此,namenode和datanode都启动完毕。