大数据技术之Hadoop 基础认识
大数据技术之Hadoop-----> 未完,待续
到官网下载 hadoop-2.5.2.tar.gz ,解压到没有中文的路径下
配置环境变量 HADOOP_HOME
配置Path 路径 %HADOOP_HOME%/bin ;%HADOOP_HOME%/sbin
1.对hdfs的操作方式:hadoop fs xxx
hadoop fs -ls / 查看hdfs的根目录下的内容的
hadoop fs -lsr / 递归查看hdfs的根目录下的内容的
hadoop fs -mkdir /d1 在hdfs上创建文件夹d1
hadoop fs -put <linux source> <hdfs destination> 把数据从linux上传到hdfs的特定路径中
hadoop fs -get <hdfs source> <linux destination> 把数据从hdfs下载到linux的特定路径下
hadoop fs -text <hdfs文件> 查看hdfs中的文件
hadoop fs -rm 删除hdfs中文件
hadoop fs -rmr 删除hdfs中的文件夹
hadoop fs -ls hdfs://hadoop0:9000/
2.HDFS的datanode在存储数据时,如果原始文件大小>64MB,按照64MB大小切分;如果<64MB,只有一个block,占用磁盘空间是源文件实际大小。
3.RPC(remote procedure call)
不同java进程间的对象方法的调用。
一方称作服务端(server),一方称作客户端(client)。
server端提供对象,供客户端调用的,被调用的对象的方法的执行发生在server端。
RPC是hadoop框架运行的基础。
4.通过rpc小例子获得的认识?
4.1 服务端提供的对象必须是一个接口,接口extends VersioinedProtocal
4.2 客户端能够的对象中的方法必须位于对象的接口中。
5. hadoop 上运行jar 包的方式和注意事情
hadoop jar x.jar ×××.MainClassName inputPath outputPath
同时解释一下:
x.jar为包的名称,包括路径,直接写包名称,则为默认路径
×××.MainClassName为运行的类名称
inputPath为输入路径
outputPath为输出路径。
这里需要注意的是:
输入路径和输出路径,一定要对应。
比如
输入路径
hdfs://192.168.1.100:9000/user/hadoop/filetest/word.txt
输出路径:
hdfs://192.168.1.100:9000/user/hadoop/output
二者就不一致,output后面需要加入文件名,二者对应起来。
hdfs://192.168.1.100:9000/user/hadoop/output/word