大数据概述及linux部分常用命令

大数据计算模式
 批处理计算：针对大规模数据的批量处理，如Mapreduce，spark
 流计算：针对流数据的实时计算，如storm，flume，streams
 图计算：针对大数据图结构数据的处理，如pregal，GarphX
 查询分析计算：大规模数据的存储管理和查询分析，如hive，impala，cassandra等

大数据技术
 从hadoop+storm架构转向spark架构
大数据概述及linux部分常用命令

Spark优势：一套API，一站式的，spark没有存储的，只进行计算
Spark不足：实时数据处理；伪实时处理
Storm：毫秒实时处理
Hadoop核心不包含流计算

大数据并行计算
Hadoop：一个用于大规模数据处理的开源框架

Yarn:资源分配管理系统

Hadoop v2包含四个模块
 Hadoop common：这是其他hadoop模块所依赖的java库和工具，这些库提供了文件系统和os级的抽象，并包含用来启动hadoop所需的java文件和脚本
 Hadoop yarn：用于作业调度和集群资源管理的框架
 Hdfs：hadoop分布式文件系统，提供对应用程序数据高吞吐量的访问
 Hadoop mapreduce：基于yarn的系统，用于大数据集的并行计算

Linux中两个特殊符合
. 当前目录
… 上一层目录

大数据概述及linux部分常用命令

Linux:
Linux系统的目录结构是分层的树形结构，都是挂载在根文件系统“/”下；使用命令“ls”可查看linux系统的目录结构。
/:代表根目录

常用文本编辑器
Vi – 系统自带；功能较少
vim – 需要单独安装
nano – 需要单独安装
gedit(只能在桌面系统下使用)
Linux的文件系统
Linux的常用操作命令
ls – list
pwd: 当前目录所在位置

drwxrwxr-x
d rwxrwxr-x: 类型和权限

d: directory代表文件夹
-: 代表文件
rwx rwx r-x: 第一组代表当前用户权限；第二组代表当前用户组的权限；第三组代表其他用户的权限
rwx: 读写和执行的权限
r-x：读和执行的权限，无写的权限

bin: 存放二进制的可执行程序
etc: 存放系统的配置文件
home: 存放所有用户文件的根目录
lost-found: 存放一些系统检查结果，发现不合法文件或数据都存放在这里，通常为空，除非硬盘遭受明显损坏
tmp: 存放各种临时文件

大数据概述及linux部分常用命令

相关推荐