大数据笔记——简介
大数据简介
4V
模性(Volume),高速性(Velocity),多样性(Variety),价值性(Value)
大数据
大数据就是指常用软件获取、管理和处理数据所耗时间超过可容忍时间的数据集
应用场景
推荐系统、人物画像、舆情分析、医疗、信用评估、风险预测、系统运维等
数据格式
计算跟着存储走
可分割(Splittable)
XML,JSON文件(不可分割)
CSV,JSON记录,Avro,Parquet
可块压缩(Block Compressable)
CSV,JSON记录(不可块压缩)
Avro,Parquet
注意:需要看业务场景,不要死板,例如与传统数据库交互,可能用到CSV
大数据主要产品及流程架构
云计算与大数据
大数据的趋势:云化、开源
自动化运维
- 一键部署
- API调用:方便程序调用
- 定时器
- Auto Scaling:弹性伸缩(本质上也是调用API)
弹性、敏捷、灵活
- 纵向、横向伸缩
- 分钟级别