大数据笔记——简介

大数据简介

4V

模性(Volume),高速性(Velocity),多样性(Variety),价值性(Value)

大数据

大数据就是指常用软件获取、管理和处理数据所耗时间超过可容忍时间的数据集

应用场景

推荐系统、人物画像、舆情分析、医疗、信用评估、风险预测、系统运维等

数据格式

计算跟着存储走

可分割(Splittable)

XML,JSON文件(不可分割)

CSV,JSON记录,Avro,Parquet

可块压缩(Block Compressable)

CSV,JSON记录(不可块压缩)

Avro,Parquet

注意:需要看业务场景,不要死板,例如与传统数据库交互,可能用到CSV

大数据主要产品及流程架构

大数据笔记——简介

云计算与大数据

大数据的趋势:云化、开源

自动化运维

  • 一键部署
  • API调用:方便程序调用
  • 定时器
  • Auto Scaling:弹性伸缩(本质上也是调用API)

弹性、敏捷、灵活

  • 纵向、横向伸缩
  • 分钟级别

稳定、高性能与安全