模块一 数据分析应用领域简介
模块一 数据分析应用领域简介
1. 互联网
1.1 互联网领域数据分析师日常工作
1.2 互联网领域数据分析师需掌握的工具
- Awk:轻量级文本处理语言
- Python:脚本语言,有丰富的第三方工具库
- Hdfs:大数据存储平台,可处理TB级别的数据
- Spark:TB级数据计算与挖掘,使用集群的内存进行存储
- Excel:使用内置的公式与图表进行快速处理
1.3 互联网领域数据分析的特点
- 数据规模更大,可能每天产生亿级数据量
- 产品更新速度快,比传统软件开发速度快很多倍,所以数据经常变化
- 经常需要与产品逻辑的迭代、运营活动等进行紧密结合
- 数据来源广泛,用户的行为会直接在终端产生数据,而非通过问卷与调研产生
1.4 互联网领域数据分析的独特方法论
结论:
- 互联网领域数据分析,倾向于分析这个过程中的“健康指标”,为产品决策提供指导与参考。
- 常见的分析对象有流量,活跃用户数,用户留存率,付费渗透率,arpu值等。
2. 金融
2.1 金融领域数据分析职能的划分
(1)策略分析师
- 准备数据:从wind、标普、路透等拿数据
- 了解行业需求:全面了解行业数据,根据场景数据维度的不同,去看如何获取、匹配、分析
- 输出投资策略:高低、买入卖出
(2)量化分析师
- 准备数据:从wind、标普、路透、数据库等拿数据
- 数据的准备和清洗:运用多种数据分析工具对数据进行处理
- 搭建模型:运用数学或者统计学中的模型,来对实际的金融数据进行建模,对数据进行定量分析
(3)行业研究人员/基金经理(宏观决策)
- 提取数据:对接到wind的某个数据源,根据业务需求提取数据;采集标准化数据,难度不高,覆盖面广,要大而全
- 数据整合:理解数据源的数据;用标准的数据源,进行一系列的数据整合
- 制作统计和可视化的报表和报告
2.2 金融领域数据分析师需掌握的技能
(1)策略分析师
- 掌握Python, SAS等建模工具
- 并对数据处理有一定的经验
(2)量化分析师
- 掌握Python、Excel、SQL、SAS等建模工具
- 如果参与高频交易模型的编写,则还需要对C/C++等编程语言较为熟悉
(3)行业研究人员/基金经理
- 运用可视化工具对数Wind、路透、彭博等终端机进行数据采集和整合据趋势做出判断。
- 需要掌握Excel、PPT等工具的使用,并对采用SQL进行数据处理和BI工具具备一定的经验
2.3 金融领域数据的特点
-
数据非常丰富多样、跟金融投资相关的领域较多
-
标准化数据和非标准化数据都有
-
Tips
金融领域的非标准化数据非常多,非常杂,做过的领域多,对职业发展会更有帮助
2.4 金融领域数据分析的指导性原则
-
数据敏感度要高
这决定你的数据是否有意义 -
始终对新类型的数据保持好奇心
持续不断了解新的数据源会对发展很有帮助 -
做的所有数据分析,必须有严格的可解释性
金融模型和投资决策直接挂钩,要求所有的内容严肃可解释
(所以一般采用经典的统计学模型,而非机器学习模型)
3. 咨询
3.1 咨询领域数据分析职能的划分
- 数据分析师
- 数据工程师
- 数据科学家
3.2 咨询领域数据分析师日常工作
3.3 咨询领域数据分析主要服务的方面
咨询公司服务宗旨是帮助客户解决商业问题并最大化商业价值
所以咨询行业的数据分析需要:
- 快速将商业问题做深度的剖析,并利用数据快速找到服务对象的诉求痛点
- 结合商业假设和数据方法,快速找到帮助企业实现商业价值最大化的方法
- 归纳总结问题的共性,设计出普适性的方法能适用于多个行业
3.4 咨询领域数据分析师需掌握的工具
(1)数据分析师
- Excel、可视化工具、Python、R的基本分析
- 用的最多的是Excel和可视化工具
(2)数据工程师
- 以用数据库的工具为主,比如数据的整合、清理,需要了解数据库平台的关系,关系型数据库SQL,非关系型数据库;
- 可视化工具(用可视化工具做检查和质量的鉴别)
- Alteryx,用什么库取决于客户的需求
(3)数据科学家
- Python、R 、SAS,具体使用什么工具进行分析,取决于客户的需要
- 数据库知识、SQL,爬虫等,都需要掌握,但不常用
3.5 咨询领域数据分析的特点
3.6 咨询领域数据分析的独特方法论
3.7 咨询领域数据分析的现状
咨询公司从组织架构上已经对数据分析足够重视