【大数据】大数据运维学习前必须知道的几个常识
前言
学习任何技术或者技能都需要了解与这个技能相关的一些理论,任何技术都需要理论的支撑;同样的任何技术或者技能都需要了解他的历史。
今天我们来看几个与大数据相关的理论
CAP理论
CAP 理论指的是任何一个分布式计算系统都不能同时保证如下三点:
- Consistency(一致性):所有节点上的数据时刻保持同步。
- Availability(可用性):每个请求都能接收到一个响应,无论响应成功或失败。
- Partition tolerance(分区容错性):系统应该能持续提供服务,无论网络中的任何分区失效。
敲黑板:
一个分布式系统不可能同时满足一致性,可用性,和分区容忍性这三个需求,最多同时满足两个。
强一致性: 任何时刻,任何用户都能读取到最近一次更新的数据
单调一致性: 任何时刻,任何用户一旦读到某个数据在某次更新后的值,那么就不会再读到比这个值更旧的值
会话一致性: 任何用户在某次会话中,一旦读到某个数据在某次更新后的值,那么本次会话中就不会再读到比这个值更旧的值。
弱一致性: 用户无法在确定时间内读到最新更新的值
如果我们选择了强一致性,又要满足分区容错性,就势必会牺牲一部分可用性。
注意:
- CAP理论只适用于分布式系统
CAP理论的典型分布式系统
选择CP: HBASE
选择 AP: zookeeper,HDFS
选择CA: elasticsearch
大数据技术栈
- 数据采集和传输层: flume. logstash, sqoop,kafka,pulsar,HUE
- 数据存储层: HBase,Kudu, HDFS,
- 数据分析层: Spark,flink,Storm, MapReduce,HIVE,Tez,pig,mahout,phoenix
- OLAP引擎: Druid , Kylin,lmpala, presto
- 资源管理层: yarn,kubernetes, mesos
- 工作调度器: Oozie , Azkaban
- 监测管理: openTSDB ,Ambari,ganglia
- 其他: zookeeper,chubby
- 文档存储: mongoDB, CouchDB
大数据:注重海量数据存储与处理,基本处于PaaS ,平台即服务
云计算:侧重于硬件资源虚拟化,基本处于LaaS ,基础设施即服务
不过现在的阿里云,亚马逊云等公有云,以及不单单是卖虚拟化的计算资源了,也会涉及到大数据,图像识别,数据库,云安全等,所以现在的云计算已经涵盖了laaS,PaaS,SaaS等方方面面。
除了按照这种技术栈来区分之外,有时候还会按照数据的实时处理程度分为: 批量计算和实时在线技术。
批量计算就是我们常说的离线计算。一次性处理大量数据,吞吐量大,但延时较高。适合数据ETL等场景。
大数据的适用场景
最近跟一家公司对接,他们做的就是大数据的河海农业数据分析。比如展示某一个地区的2010-2020年,10年的降水量。
最近炒得比较火的是交通大数据,实时采集交通信号灯,二氧化碳传感器,汽车位置和速度传感器,以及来自网上的社交媒体的数据,来进行分析。 帮助乘客重新规划路线,节省时间。
金融行业的智慧金融,可以分析客户的数据,来给用户精准提供贷款或者推荐商品。
人工智能,最火的例子就是google的AlphaGo, 人工智能可以进行自主学习,不断完善。 当然除了下棋,还有人脸识别,语音识别,机器翻译,无人驾驶,智能机器人等领域都有很大的威力。
大数据小故事
某比萨店的电话铃响了,客服人员拿起电话。
客服:XXX比萨店。您好,请问有什么需要我为您服务 ?
顾客:你好,我想要一份披萨
客服:先生,烦请先把您的会员卡号告诉我。
顾客:16846146***。
客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?
顾客:你为什么知道我所有的电话号码?
客服:陈先生,因为我们联机到CRM系统。
顾客:我想要一个海鲜比萨……
客服:陈先生,海鲜比萨不适合您。
顾客:为什么?
客服:根据您的医疗记录,你的血压和胆固醇都偏高。
顾客:那你们有什么可以推荐的?
客服:您可以试试我们的低脂健康比萨。
顾客:你怎么知道我会喜欢吃这种的?
客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。
顾客:好。那我要一个家庭特大号比萨,要付多少钱?
客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。
顾客:那可以刷卡吗?
客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。
顾客:那我先去附近的提款机提款。
客服:陈先生,根据您的记录,您已经超过今日提款限额。
顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?
客服:大约30分钟。如果您不想等,可以自己骑车来。
顾客:为什么?
客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。
顾客当即晕倒。。
总结
本节主要了解CAP理论和大数据的应用场景,让自己对大数据有个初始的概念。后面我们会按照步骤进行依次学习。