初识Spark

Spark是基于内存计算的大数据并行计算框架，因为它基于内存计算，所以提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

第1章 Spark简介

初识Spark
Spark生态系统BDA
Spark架构与运行逻辑
弹性分布式数据集
RDD简介
RDD算子分类

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

由于文档内容过多，只截取了部分知识点，每个知识点都有更细化的内容！！

文档资料免费获取方式：关注我 + 转发文章，后台私信【资料】即可免费获取

第2章Spark开发与环境配置

Spark 应用开发环境配置
使用 Inelij开发Spark
使用SparkShell进行交互式
远程调试Spark程序
Spark 编译
配置Spark源码阅读环境

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

第3章 BDAS 简介

SQL on Spark
为什么使用 Spark
Spark SQL架构分析
Spark Streaming
Spark Streaming简介
Spark Streaming架构
Spark Streaming原理剖析
GraphX
GrnphX 简介
GrnphX 的使用简介
GraphX 体系结构
MLlib
MLib 简介
MLlib 中的聚类和分类

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

第4章 Lamda架构日志分析

日志分析概述
日志分析指标
Lamda架构
构建日志分析数据流水线
用Flume进行日志采集
用Kafka将日志汇总
用Spark Streaming进行实时
日志分
Spark SQL离线日志分析
用Flask 将日志KPI
可视化

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

第5章基于云平台和用户日志的推荐系统

第6章Twitter 情感分析

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

第7章热点新闻分析系统

新闻数据分析
系统架构
爬虫抓取网络信息
Scrapy 简介
创建基于 Scrapy的新闻
爬虫
爬虫分布式化
新闻文本数据预处理
新闻聚类
数据转换为向量 (向量
空间模型VSM)
新闻聚类
词向量同义词查询
实时热点新闻分析
Spark Elastic Search构建
全文检索引擎
部署 Elastic Search
用Elastic Search索引
MongoDB数据:
通过Elastic Search检索
数据

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

第8章构建分布式的协同过滤推荐系统

协同过滤介绍
基于用户的协同过滤算法
基于项目的协同过滤算法
基于模型的协同过滤推荐
基于 Spark的矩阵运算实现
协同过滤算法
Spark 中的矩阵类型
Spark 中的矩阵运算
实现User-based协同过滤的
实现ltem-based协同过滤的
基于奇异值分解实现
based协同过滤的示例
基于Spark的MLlib实现
协同过滤算法
MLIib 的推荐算法工具
MLib 协同过滤推荐示例..
案例: 使用MLlib协同过滤
实现电影推荐
MovieLens 数据集
确定最佳的协同过滤模型

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

第9章基于Spark的社交网络分析

第10章基于Spark的大规模新闻主题分析

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

第11章构建分布式的搜索引擎

引擎简介
搜索排序概述
查询无关模型PageRank ....
基于Spark的分布式PageRank
PageRank 的MapReduce
Spark 的分布式图模型
基于GraphX的PagcRank
案例: GoogleWeb Graph的
PageRank计算
查询相关模型
Ranking SVM
Spark中支持向量机的
Spark 中的支持向量机
使用Spark测试数据演示
支持向量机的训练
案例:基于MSLR数据集的
查询排序
数据集介绍
基于 Spurk的Ranking
SVM实现

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

最后

由于文档内容过多，只截取了部分知识点，每个知识点都有更细化的内容！！

小编可以把这份“Spark大数据分析实战文档”免费分享给大家。

文档资料免费获取方式：关注我 + 转发文章，后台私信【资料】即可免费获取

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

一份阿里、百度等一线互联网大厂都用的Spark大数据分析实战文档

初识Spark

第1章 Spark简介

第2章Spark开发与环境配置

第3章 BDAS 简介

第4章 Lamda架构日志分析

第5章基于云平台和用户日志的推荐系统

第6章Twitter 情感分析

第7章热点新闻分析系统

第8章 构建分布式的协同过滤推荐系统

第9章基于Spark的社交网络分析

第10章基于Spark的大规模新闻主题分析

第11章构建分布式的搜索引擎

最后

相关推荐

第8章构建分布式的协同过滤推荐系统