《深度学习》-学习笔记-1-机器学习基础
AI维恩图
下图展示AI、机器学习、表示学习、深度学习四者关系:
AI流程图
下图展示不同AI系统的流程图:
机器学习基础概述
深度学习是机器学习的一个特定分支,因此我们需要对机器学习的基本原理要有深刻的理解。
机器学习算法是一种能够从数据中学习的算法,这里所谓的“学习”定义:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。“
基本概念
任务
从“任务”的相对正式的定义上说,学习过程本身不算是任务。学习是我们所谓的获取完成任务的能力。通常机器学习任务定义为机器学习系统应如何处理样本(example)。样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合。
机器学习可以解决很多类型的任务,主要分为以下几大类:
分类:图片分类。
输入缺失分类:医疗诊断。
回归:预测投保人的索赔金额(用于设置保险费),或者预测证券未来的价格。
转录:根据文本图片返回文字序列。
机器翻译:英语翻译成中文。
异常检测:检测信用卡是有被盗用。
结构化输出:为图片添加标题。
合成和采样:语音合成。
缺失值填补:根据样本对某些元素进行缺失值填补。
去噪:根据损坏后的样本预测干净的样本。
密度估计或概率质量函数估计:通过密度估计得到了概率分布,可以用该分布解决缺失值填补任务。
性能度量
为了评估机器学习算法的能力,必须设计其性能的定量度量。
准确率:是指模型输出正确结果的样本比率。
错误率:是指模型输出错误结果的样本比率。
算法分类
机器学习算法可以大致分为以下两大类:
-
无监督学习算法:训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。
-
监督学习算法:训练还有很多特征的数据集,不过数据集中的样本都有一个标签和目标。
算法效果表现
泛化:在先前未观测到的输入上表现的能力被称为泛化。
以下是决定机器学习算法效果是否好的因素:
-
降低训练误差。
-
缩小训练误差和测试误差的差距。
这两个因素对应机器学习的两个主要挑战:欠拟合和过拟合。
欠拟合是指模型不能在训练集上获得足够低的误差,而过拟合是指训练误差和测试误差之间的差距太大。
通过调整模型的容量,可以控制模型是否偏向于过拟合或者欠拟合。
模型的容量是指其拟合各种函数的能力,容量低的模型可能很难拟合训练集,容量高的模型可能会过拟合,因为记住了不适用于测试集的训练集性质。
模型的表示容量:模型规定了调整参数降低训练目标时,学习算法可以从哪些函数族中选择函数,这被称为模型的表示容量。
正则化:正则化是指修改学习算法,使其降低泛化误差而非训练误差。
超参数
超参数是在开始学习过程之前设置值的参数。 相反,其他参数的值通过训练得出。超参数:
-
定义关于模型的更高层次的概念,如复杂性或学习能力。
-
不能直接从标准模型培训过程中的数据中学习,需要预先定义。
-
可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定
只要自己有时间,都尽量写写文章,与大家交流分享。
本人公众号:
CSDN博客地址:https://blog.csdn.net/ispeasant
个人博客地址:http://www.ispeasant.com/