机器学习学习小结(1)
1. 廖雪峰的网站
博客网址:
如何学习机器学习网址:
2. 机器学习常用框架
1)scikit-learn(基于Python);
2)Mahout(Hadoop生态圈,基于MapReduce,基于Java);
3)Spark MLib(MLib是Spark的机器学习库,基于scala)。
3. 常见的判别式模型(Discriminative Model:直接对条件概率进行建模,如线性回归、决策树、支持向量机、K近邻、神经网络等。关注数据的差异性,寻找分类面。
常见的生成式模型(Discriminative Model:对联合分布概率进行建模,如隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型、LDA等。关注数据是如何产生的,寻找数据分类模型。
由生成式模型可以生成判别式模型,反之不行。
4. 机器学习问题分类:分类,聚类,回归,关联规则。
5. 机器学习的开发流程:
1)数据收集;2)数据预处理(清洗与转换);3)构建模型;
4)模型测试评估;5)投入使用(模型部署与整合);6)迭代优化。
其中2)用到Python中的Numpy,Pandas等,缺失值、异常值的处理等。经常是1)和2)是一个小团队,对数据进行处理。
6. 数据收集与存储
公开数据集(比赛有Kaggle和天池大赛)
7. 特征工程
即数据清洗与转换。有
1和2常用:
将介绍1 of k 哑编码(避免认为A、B、C没有差异):