数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!

0x00 前言

问题

哪一本数据相关的书曾让你最受益?可以跟我介绍一下吗

话题整理者:橘子,本科学的是金融和商业分析,目前是数据和运筹优化方向研究生,定位有点迷茫,日常在业务和技术的边缘反复横跳,希望能和大家共同学习和进步,一起用数据创造更多的价值。

问题描述

数据从业者,最近有些书荒了,想问问大家都有什么好书推荐,技术类和数据思维类的都可以。想请大家多多推荐觉得好的书,如果背后还有些小故事就更好了。不限于数据仓库_数据结构_数据分析_数据挖掘_数据运营,之后我也会把大家推荐的书分门别类地归纳起来,供大家一起参考学习。

0x01 讨论内容

以下内容根据大家本次推荐分类整理,分别为:数据分析类(4本)、大数据&数仓类(4本)、算法类(2本),大家可以按需食用~

讨论1:数据分析类

  1. 《精益数据分析》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!
1

推荐理由:本书的讨论偏向基础数据分析,如果有想转数据分析或对数据分析不是很了解的同学,可以从看这本书开始进入数据分析世界。

  • 一句话说亮点: 每个人都知道需要指标,但是找出那些特别、可衡量、可操作、相关且及时的指标,是一个巨大的挑战。这本书向我们展示了如何使用数据和指标来看透新业务和新产品的不确定性。

  • 这本书的主要脉络:第一部分聚焦于精益创业的基本分析、技术以及思维方式,提出了专注于数据分析的框架;第二部分展示如何讲精益分析用于创业公司中,讨论了六种商业模式创业公司的五个发展阶段,以及如何找出业务的第一指标;第三部分对指标的正常范围进行审视,如何画出指标底线、设置目标;第四部分展示如何将精益分析用于你所在的组织。

  1. 《硅谷增长黑客实战笔记》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!
2

推荐理由:作为奋斗在硅谷”增长“第一线的从业人员,作者用亲身经历总结出增长黑客必备的套路、内力和兵法。这是一本有趣又有实践操作价值的书,尤其是其中从零开始搭建增长团队、如何打响第一炮获取其他部门的重视和信任部分写的很好,并且这本书还提供了很多可以直接拿来用的模版。

  • 一句话说亮点:增长的精髓是一套体系和方法:它以数据为指引,以实验的方式,系统性地在用户生命周期的各个阶段,寻找当下性价比最高的机会,通过快速迭代实验的方式达到目标。这套体系的结果可以衡量、方法可以重复,与传统的市场营销相比,效果和效率的提升是实实在在的。

  • 这本书的主要脉络: 第一部分作者通过故事分享了个人做增长的实践经验,引出增长黑客的概念,教大家在行动之前制定作战计划;第二部分从AARRR不同阶段探讨了增长技巧和实战案例;第三部分教读者如何从头开始组建增长团队并打造增长流程;第四部分是中外9位增长专家的采访,以及增长的入门路径和职业发展。

  1. 《金字塔原理》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!

推荐理由:这是一本讲解写作逻辑和思维逻辑的读物。多年前读过本书,但是当时应用没有体会到很大,但开始工作以后,重新读起来,发现对分析思维用处较大。大家在解决问题、管理手下、交流成果、汇报工作时不妨多用该原理思考,提高效率。

  • 一句话说亮点:金字塔原理的基本结构:结论先行+三种逻辑(归纳、演绎、前言结构)。先说中心思想,先重要后次要,先总结后具体,先框架后细节,先结论后原因,先结果后过程,先论点后论据。对每一层的支撑论据,有个极高的要求:MECE,即不重不漏。

  • 这本书的主要脉络:第一部分主要对金字塔原理的概念进行了解释,使读者理解和运用文书的写作技巧;第二部分介绍了如何把握思维的环节,以保证使用的语句能够真实地反映希望表达的思想要点;第三部分主要针对需要写研究分析报告的人士;第四部分介绍了一些演示技巧。

  1. 《数据驱动:从方法到实践》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!
4

推荐理由:百度大神桑文锋出的书,现在是神策数据创始人兼CEO。这本书内容很棒,个人感觉主要是从数据分析的视野来讲解整个数据体系,基本把数据相关的方法论讲了一遍,适合所有从事数据工作的童鞋。书中列出来很多实际工作中会遇到的坑,也都给出了一定的解决思路。总之,该书一直在公司放着,没事就会翻一下。

  • 一句话说亮点:这本书还原了作者构建百度行为大数据处理平台的经历,从采集与埋点、建模、分析方法、指标体系这四个数据驱动环节讲述了不同行业的企业如何将数据驱动方案落地。

  • 这本书的主要脉络:作者从在百度大数据工作的经历谈起,先对大数据的定义和本质等进行了阐述,接着对数据采集、建模、分析、指标依次进行讲解,然后对数据驱动决策的AARRR法进行介绍,最后一部分作者认为数据驱动决策只能发挥数据20%的价值,将目标瞄准了数据驱动产品智能。此外,这本书通过互联网金融、电商、企业服务、零售四个行业,展示从需求梳理、指标设计、数据接入、实际运用这四大阶段进行数据分析的全过程。

讨论2:大数据&数据仓库类

  1. 《数据仓库工具箱(第3版):维度建模权威指南》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!
5

推荐理由:维度建模是大师 Ralph Kimball 所倡导的, 这本书是数据仓库经典书籍,特别是维度建模相关的内容非常权威,目前市面上能买到的书,很少有比这个更权威的了。不过也因为是经典书籍,还是有一些抽象的概念,零基础来读,可能要花点时间。

  • 一句话说亮点:这本书梳理了数据仓库体系结构和建模过程和技巧,总结了数据仓库体系结构、维度建模的四个步骤、数据仓库总线结构、一致性维度;维度表建模技巧;事实表建模技术。实践性较强,基本所有的概念都有例子说明,语言通俗易懂。

  • 这本书的主要脉络:首先介绍了维度建模的基本知识,然后逐个讨论具体实例内容(如零售营销、库存、订单管理、交通、电子商务等),最后进行综合总体分析,在内容和结构上很有特色,从不同角度体现了数据仓库的各个方面,有助于完整学习与掌握数据仓库知识。

  1. 《大数据日知录》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!
6

推荐理由:推荐这本书的原因就在于现在大部分互联网公司的数据仓库都是基于这一套大数据框架来的,更准确的来讲,大家其实都是先工程,后理论,因此这本书可以作为对大数据生态的一览。

  • 一句话说亮点:这本书主要偏向于各种大数据系统的原理,是居士翻的最多的一本技术书了,基本上把现在流行的大数据组件都介绍了一遍,深度和广度都有,每章内容后面也都有相应的论文推荐。

  • 这本书的主要脉络:这是一本简明扼要的百科全书,从架构与算法角度全面梳理了大数据存储与处理的相关技术,包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。

  1. 《大数据之路:阿里巴巴大数据实践》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!
7

推荐理由:阿里的大数据最佳实践,基本上讲了阿里在大数据实践上的方方面面,特别是数据模型的设计和实践,理论和实践结合的比较好,是我目前看到最好的一本书。

  • 一句话说亮点:该书可作为整个数据体系建设的参考书,从数据平台到数据仓库到数据应用,都有比较不错的讲解。另外,本书的很多论述可以用作方案设计、老板汇报、晋升答辩等,值得反复看。

  • 这本书的主要脉络:第一部分为数据技术篇,包含:日志采集、数据同步、离线数据开发、实时技术、数据服务、数据挖掘;第二部分为数据模型篇,包括:数据模型、阿里巴巴数据整合及管理体系、维度设计、事实表设计;第三部分为数据管理篇,包括:元数据、计算管理、存储和成本管理、数据质量;第四部分为数据应用篇,包括生意参谋和商家应用实践。

  1. 《Apache Kafka实战》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!
8

推荐理由:胡夕的Apache Kafka实战写得不错。之前虽然对很多开源工具都很感兴趣,总喜欢去翻“xxxx权威指南”,但基本没法啃下来。大数据之路加深了我对国产书的好感,于是决定买这本。这本书对我的影响是,以后尽量优先买PMC写的书,他们会比较有大局观,对工具的优缺点,历史沿革和未来发展都有深入的认识。掌握代码细节,又不囿于细节,读下来很有收获。

一句话说亮点:这是涵盖Apache Kafka各方面的具有实践指导意义的工具书和参考书。作者结合典型的使用场景,对Kafka整个技术体系进行了较为全面的讲解,以便读者能够举一反三,直接应用于实践。

这本书的主要脉络:第1章全面介绍消息引擎系统以及Kafka的基本概念与特性,快速带领读者走进Kafka的世界;第2章简要回顾了Apache KafkaKafka的发展历史;第3章详细介绍了Kafka集群环境的搭建;第4、5章深入探讨了Kafka客户端的使用方法;第6章带领读者一览Kafka内部设计原理;第7~9章以实例的方式讲解了Kafka集群的管理、监控与调优;第10章介绍了Kafka新引入的流式处理组件。

讨论3:算法类:

  1. 《美团机器学习实践》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!
9

推荐理由:美团的技术公众号近段时间经常会更新一些干货文章,本书风格也是如此,相当干货,因此本书刚一面世就让美团的朋友送了一本。本书前面几部分包含了特征工程和用户画像的内容,特别是用户画像体系设计可以参考本书。

  • 一句话说亮点:这本书主要是关于机器学习实践的书,可读性很强,都是一些实际案例的讲解,个人认为本书和阿里的大数据之路很类似,都是实战性很强干货十足的书。

  • 这本书的主要脉络:第一部分为通用流程:问题建模、特征工程、常用模型、模型融合。第二部分为数据挖掘:用户画像、POI实体连接、评价挖掘;第三部分为搜索和推荐:O2O场景下的查询以及排序。第四部分为计算广告。第五部分为深度学习。第六部分为算法工程。

  1. 《百面机器学习》

数据百问系列:数据相关必读书有哪些?来看一下小伙伴们的推荐吧!
10

推荐理由:机器学习面试常见问题,收录了超过100道机器学习算法工程师的面试题目和解答,其中大部分源于Hulu算法研究岗位的基本知识。

  • 一句话说亮点:向要找工作的同学强烈推荐。每一章就是一个领域的常见面试问题,有判断题、证明题、核心思想题、优缺点题等等,并且附上了难度等级,很适合即将面试的同学作查漏补缺用。

  • 这本书的主要脉络:特征工程、模型评估、经典算法、降维、非监督学习、概率图模型、优化算法、采样、向前神经网络、循环神经网络、继承学习、生成式对抗网络、人工智能的热门应用。

0xFF 总结

本期还有许多大家推荐的其他书,限于篇幅原因没能一一列举,如果大家觉得本期荐书有帮助的话,欢迎大家继续推荐,未来我们可以继续整理更多好书~