一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档
初识Spark
Spark是基于内存计算的大数据并行计算框架,因为它基于内存计算,所以提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
第1章 Spark简介
- 初识Spark
- Spark生态系统BDA
- Spark架构与运行逻辑
- 弹性分布式数据集
- RDD简介
- RDD算子分类
由于文档内容过多,只截取了部分知识点,每个知识点都有更细化的内容!!
文档资料免费获取方式:关注我 + 转发文章,后台私信【资料】即可免费获取
第2章Spark开发与环境配置
- Spark 应用开发环境配置
- 使用 Inelij开发Spark
- 使用SparkShell进行交互式
- 远程调试Spark程序
- Spark 编译
- 配置Spark源码阅读环境
第3章 BDAS 简介
- SQL on Spark
- 为什么使用 Spark
- Spark SQL架构分析
- Spark Streaming
- Spark Streaming简介
- Spark Streaming架构
- Spark Streaming原理剖析
- GraphX
- GrnphX 简介
- GrnphX 的使用简介
- GraphX 体系结构
- MLlib
- MLib 简介
- MLlib 中的聚类和分类
第4章 Lamda架构日志分析
- 日志分析概述
- 日 志分析指标
- Lamda架构
- 构建日志分析数据流水线
- 用Flume进行日志采集
- 用Kafka将日志汇总
- 用Spark Streaming进行实时
- 日志分
- Spark SQL离线日志分析
- 用Flask 将日志KPI
- 可视化
第5章基于云平台和用户日志的推荐系统
第6章Twitter 情感分析
第7章热点新闻分析系统
- 新闻数据分析
- 系统架构
- 爬 虫抓取网络信息
- Scrapy 简介
- 创建基于 Scrapy的新闻
- 爬虫
- 爬虫分 布式化
- 新闻文本 数据预处理
- 新闻聚类
- 数据转换为向量 (向量
- 空间模型VSM)
- 新闻聚类
- 词向量同 义词查询
- 实时热点新闻分析
- Spark Elastic Search构建
- 全文检索引擎
- 部署 Elastic Search
- 用Elastic Search索引
- MongoDB数据:
- 通过Elastic Search检索
- 数据
第8章 构建分布式的协同过滤推荐系统
- 协同过滤介绍
- 基于用户的协同过滤算法
- 基于项目的协同过滤算法
- 基于模型的协同过滤推荐
- 基于 Spark的矩阵运算实现
- 协同过滤算法
- Spark 中的矩阵类型
- Spark 中的矩阵运算
- 实现User-based协同过滤的
- 实现ltem-based协同过滤的
- 基于奇异值分解实现
- based协同过滤的示例
- 基于Spark的MLlib实现
- 协同过滤算法
- MLIib 的推荐算法工具
- MLib 协同过滤推荐示例..
- 案例: 使用MLlib协同过滤
- 实现电影推荐
- MovieLens 数据集
- 确定最佳的协同过滤模型
第9章基于Spark的社交网络分析
第10章基于Spark的大规模新闻主题分析
第11章构建分布式的搜索引擎
- 引擎简介
- 搜索排序概述
- 查询无关模型PageRank ....
- 基于Spark的分布式PageRank
- PageRank 的MapReduce
- Spark 的分布式图模型
- 基于GraphX的PagcRank
- 案例: GoogleWeb Graph的
- PageRank计算
- 查询相关模型
- Ranking SVM
- Spark中支持向量机的
- Spark 中的支持向量机
- 使用Spark测试数据演示
- 支持向量机的训练
- 案例:基于MSLR数据集的
- 查询排序
- 数据集介绍
- 基于 Spurk的Ranking
- SVM实现
最后
由于文档内容过多,只截取了部分知识点,每个知识点都有更细化的内容!!
小编可以把这份“Spark大数据分析实战文档”免费分享给大家。
文档资料免费获取方式:关注我 + 转发文章,后台私信【资料】即可免费获取