机器学习学习小结(1)

 

1. 廖雪峰的网站

博客网址:

https://www.liaoxuefeng.com/

如何学习机器学习网址:

https://www.liaoxuefeng.com/discuss/001409195742008d822b26cf3de46aea14f2b7378a1ba91000/001533286342441c4da9d8faeba4c1db70a5142872e4087000

2. 机器学习常用框架

1)scikit-learn(基于Python);

2)Mahout(Hadoop生态圈,基于MapReduce,基于Java);

3)Spark MLib(MLib是Spark的机器学习库,基于scala)。

3. 常见的判别式模型(Discriminative Model:直接对条件概率进行建模,如线性回归、决策树、支持向量机、K近邻、神经网络等。关注数据的差异性,寻找分类面。

    常见的生成式模型(Discriminative Model:对联合分布概率进行建模,如隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型、LDA等。关注数据是如何产生的,寻找数据分类模型。

    由生成式模型可以生成判别式模型,反之不行。

4. 机器学习问题分类:分类,聚类,回归,关联规则。

机器学习学习小结(1)

5. 机器学习的开发流程:

1)数据收集;2)数据预处理(清洗与转换);3)构建模型;

4)模型测试评估;5)投入使用(模型部署与整合);6)迭代优化。

其中2)用到Python中的Numpy,Pandas等,缺失值、异常值的处理等。经常是1)和2)是一个小团队,对数据进行处理。

机器学习学习小结(1)

6. 数据收集与存储

机器学习学习小结(1)

公开数据集(比赛有Kaggle和天池大赛)

机器学习学习小结(1)

7. 特征工程

即数据清洗与转换。有

机器学习学习小结(1)

1和2常用:

机器学习学习小结(1)

将介绍1 of k 哑编码(避免认为A、B、C没有差异):

机器学习学习小结(1)