【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图、计算描述性统计的跨平台的Scala数据聚合基元——Histogrammar package,并分享了非结构化数据处理、高效访问的数据存储格式以及大规模图处理等问题。


【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道