如何快速学习大数据挖掘分析(个人观点)
本文梳理了学习大数据挖掘分析的思路和步骤,为大家提供了一些参考,希望能对大家有所帮助。
最近,很多人都咨询过,想学大数据,但不知道怎么开始,在哪里开始学习,需要学什么东西?对于初学者来说,学习大数据挖掘分析的逻辑是什么?本文从0开始梳理如何学习大数据挖掘分析和学习步骤,并给出一个学习建议。
希望可以帮助到大家
很多人认为数据挖掘需要掌握复杂、深刻的算法,掌握数据挖掘技术和分析技术是很有必要的。如果你钻研复杂的算法和技术开发,你只会让自己发疯,而且会越来越难。在公司的实际工作中,最好的大数据挖掘工程师必须是最熟悉和理解的人。对于大数据挖掘的学习,笔者认为学习数据挖掘必须结合实际的业务背景和案例背景进行研究,这是一种面向问题的学习方法。因此,一般来说,大数据挖掘分析的经典案例如下:
预测用户在下一段时间内是否会丢失或丢失。
该公司做了一个促销活动来预测活动的效果以及用户如何接受它。
评估用户的信用度。
细分现有客户市场,哪些客户是目标客户?
产品投放市场后,用户转换率和哪种运营策略最有效?
运营已经做了大量的工作,公司资源也投入了很多,如何提高产品投入产出比;
有些用户购买大量商品,哪些商品同时购买。
预测产品在未来一年的销售额和收入。
大数据挖掘需要将上述类似的业务运作问题转化为数据挖掘问题。
首先,如何将业务运营问题转化为大数据挖掘问题。
所以,问题是,我们应该如何将上述业务操作转化为数据挖掘问题?我们可以将数据挖掘问题细分为四类:分类、聚类、关联和预测。
1、分类问题
用户的流失率、促销活动的响应和用户度的评价属于数据挖掘的分类问题。我们需要掌握分类的特点,知道什么是监督学习,掌握常用的分类方法:决策树、拜厄斯、KNN、支持向量机、神经网络和Logistic回归。
2,聚类问题
细分市场和客户群细分属于数据挖掘的聚类问题。我们需要掌握聚类的特点,了解无监督学习,理解常用的聚类算法,如分区聚类、层次聚类、密度聚类、网格聚类、模型聚类等。
三。相关问题
交叉销售与相关问题相关,关联分析也被称为购物篮分析。我们需要掌握常用的关联分析算法:Aprior算法、CARMA算法、序列算法等。
4、预测问题
我们应该掌握简单的线性回归分析、多元线性回归分析、时间序列等。
二。你用什么工具做大数据挖掘?
有很多工具和方法来实现数据挖掘,如SPSS、SAS、Python、R等等,但是我们需要掌握什么或掌握什么来学习数据挖掘?这取决于你在做什么,你想去哪里。
第一层次:达到理解水平
理解统计和数据库。
二级:达到初级职场应用水平
数据库+统计+ SPSS(也可以是SPSS而不是软件)。
第三级:达到中层应用水平
SAS或R
第四级:达到数据挖掘的划分层次
SAS或R+Python(或其他编程语言)
三。如何使用Python学习大数据挖掘
只要我们能解决实际问题,我们用什么工具来学习数据挖掘并不重要。Python是这里首先要做的事情。如何使用Python来学习数据挖掘?关于Python你需要知道什么?
1大熊猫图书馆的运作
熊猫是一个非常重要的数据分析数据库。我们要掌握以下三点:
熊猫分组计算;
大熊猫指数和多重指数;
这个索引很难,但是很重要。
熊猫多桌经营与PivotTable
2元数值计算
数据计算是数据挖掘的主要应用,对于未来的机器学习、深入的学习来说,这也是一个必须掌握的库,我们必须掌握以下几点:
麻木阵列的理解;
数组索引操作;
数组计算;
广播(线性代数知识)
三。数据可视化- MatPultLIB和海运
Mat普罗蒂布文法
Python最基本的可视化工具是Matplotlib。让我们看看MatMattLIB有点像MatLabb。我们需要弄清楚两者之间的关系,这样就更容易学了。
海运的使用
Seabn是一个非常漂亮的可视化工具。
熊猫绘图功能
正如我之前所说的,熊猫正在做数据分析,但它也提供了一些绘图的API。
4。数据挖掘导论
这部分是最困难和最有趣的部分。我们应该掌握以下几个部分:
机器学习的定义
数据挖掘并没有什么区别。
成本函数的定义
培训/测试/验证
过拟合的定义与避免
5。数据挖掘算法
随着数据挖掘的发展,有很多算法。接下来,我们需要掌握最简单、最核心和最常用的算法。
最小二乘算法;
梯度下降;
矢量化;
极大似然估计;
逻辑回归;
决策树;
RandomForesr;
XGBoost;
6、数据挖掘实战
通过机器学习,最著名的图书馆SCIKIT学习了解模型。
以上是大数据挖掘的学习逻辑的逻辑。然而,这仅仅是个开始,在数据挖掘和数据科学家的道路上,我们必须学习文本处理和自然语言知识、Linux和火花知识、深入的学习知识等等,并且我们需要对数据挖掘保持持续的兴趣。