scikit-learn构建模型

  • scikit-learn(简称sklearn)库整合了多种机器学习的算法,可以帮助使用者在数据分析过程中快速建立模型,且模型接口统一,使用起来非常方便。
  • 同时,sklearn拥有优秀的官方文档(http://scikit-learn.org/stable/),知识点详尽,内容丰富。

机器学习的认识

  • 从实践的角度出发,机器学习要做的工作就是在已有的一个数据集上建立一个或者多个模型,然后对模型进行优化和评估。 scikit-learn构建模型
    scikit-learn构建模型
    sklearn库官方文档结构
    scikit-learn构建模型
  • Tutorials:是一个官方教程,可以理解快速上手教程
  • User guide(用户指南):对每一个算法的详细介绍
  • API:库调用的方法
  • FAQ:常见问题
  • contributing:贡献,还介绍最新的一些代码、功能
  • 总结:一般的做法是API里面找到你要调用的方法,然后可以查看方法参数的情况和使用情况。也可以在指南里面找到具体的解释。
    scikit-learn构建模型
    机器学习主要步骤中sklearn库应用
  1. 数据集:面对自己的任务肯定有自己的数据集,但是对于初学者来说,sklearn提供了一些数据
    • 小规模数据集:数据包含在 datasets 里(datasets.load_*())
    • 大规模数据集:需要从网络上下载(datasets.fetch_*())
    • 本地生成数据集(datasets.make_*())
  2. 数据预处理:数据预处理包括:降维、数据归一化、特征提取和特征转换(one-hot)等,sklearn里有很多方法,具体查看API。
  3. 选择模型并训练: sklearn里面有很多的机器学习方法,可以查看API找到你需要的方法,sklearn统一了所有模型调用的API,使用起来比较简单。
  4. 模型评分
  5. 模型的保存与恢复