大数据概述及linux部分常用命令

大数据计算模式
 批处理计算:针对大规模数据的批量处理,如Mapreduce,spark
 流计算:针对流数据的实时计算,如storm,flume,streams
 图计算:针对大数据图结构数据的处理,如pregal,GarphX
 查询分析计算:大规模数据的存储管理和查询分析,如hive,impala,cassandra等

大数据技术
 从hadoop+storm架构转向spark架构
大数据概述及linux部分常用命令

Spark优势:一套API,一站式的,spark没有存储的,只进行计算
Spark不足:实时数据处理;伪实时处理
Storm:毫秒实时处理
Hadoop核心不包含流计算

大数据并行计算
Hadoop:一个用于大规模数据处理的开源框架

Yarn:资源分配管理系统

Hadoop v2包含四个模块
 Hadoop common:这是其他hadoop模块所依赖的java库和工具,这些库提供了文件系统和os级的抽象,并包含用来启动hadoop所需的java文件和脚本
 Hadoop yarn:用于作业调度和集群资源管理的框架
 Hdfs:hadoop分布式文件系统,提供对应用程序数据高吞吐量的访问
 Hadoop mapreduce:基于yarn的系统,用于大数据集的并行计算

Linux中两个特殊符合
. 当前目录
… 上一层目录

大数据概述及linux部分常用命令

Linux:
Linux系统的目录结构是分层的树形结构,都是挂载在根文件系统“/”下;使用命令“ls”可查看linux系统的目录结构。
/:代表根目录

  1. 常用文本编辑器
    Vi – 系统自带;功能较少
    vim – 需要单独安装
    nano – 需要单独安装
    gedit(只能在桌面系统下使用)

  2. Linux的文件系统

  3. Linux的常用操作命令
    ls – list
    pwd: 当前目录所在位置
    大数据概述及linux部分常用命令

drwxrwxr-x
d rwxrwxr-x: 类型和权限

d: directory代表文件夹
-: 代表文件
rwx rwx r-x: 第一组代表当前用户权限;第二组代表当前用户组的权限;第三组代表其他用户的权限
rwx: 读写和执行的权限
r-x:读和执行的权限,无写的权限

bin: 存放二进制的可执行程序
etc: 存放系统的配置文件
home: 存放所有用户文件的根目录
lost-found: 存放一些系统检查结果,发现不合法文件或数据都存放在这里,通常为空,除非硬盘遭受明显损坏
tmp: 存放各种临时文件