您的位置: 首页 > 文章 > 机器学习入门篇（1）

机器学习入门篇（1）

分类: 文章 • 2024-02-09 14:08:34

这里写自定义目录标题

机器学习的介绍

机器学习--定义
机器学习--应用
机器学习--分类
机器学习--步骤

机器学习的介绍

基于《scikit-leaen机器学习常用算法原理及编程实战》（黄永昌，机械工业出版社）做的一些学习笔记，方便未来使用时快速查找知识点和代码。

机器学习–定义

即为一个计算机程序，针对某个特定的任务，从经验中学习，并且越做越好。机器学习入门篇（1）

机器学习–应用

语音识别。类似于Siri中“speak-to-text”等，有基于模式识别的算法演变为基于统计模型的算法，从而大大提高了语音识别的准确率。
自然语言的处理。类似于在Siri把语音转化为文字之后，让计算机理解文字的语义并给出准确地回答。
推荐系统。类似于网易云的日推，计算机不断学习用户的使用习惯，从而刻画用户画像，再根据用户画像推荐用户感兴趣的商品和文章。
人脸识别。一般应用于地铁、门禁和校园等场景，关键技术包括：人脸检测、特征提取、人脸比对等等。

机器学习–分类

机器学习入门篇（1）

有监督学习。通过大量已知的输入和输出相配队的数据，让计算机从中学习规律，并针对一个新的输入作出合理的输出预测。
无监督学习。通过大量的无标记数据，分析数据本身的内在特点和结构。
强化学习。开发系统或代理，通过它们与环境的交互来提高预测性能。
具体分类解析可参照：一文看懂机器学习3种类型的概念、根本差别及应用

机器学习–步骤

机器学习入门篇（1）

数据采集。包括训练样本（数据集）、特征，特征越全，数据越多，模型效果越佳，预测越准确。
当搜集的数据的数据与真实数据出现偏差时，可以进行数据标记，包括：人工标记、自动标记。比如垃圾邮件的过滤系统。
数据清洗包括：单位统一、去掉重复或噪声数据，让数据具备结构化特征，方便计算机识别。
特征选择包括：人工选择、模型筛选（PCA算法等）。
一般会按照8:2或7:3将数据集划分为训练集和测试集，以测试模型的准确性。注：更合理的是把数据集分为3类：训练集、测试集、交叉验证集。
模型评估包括：训练时长、数据集是否足够、模型准确性、应用性能是否满足要求等等。