林轩田机器学习基石笔记(第6节)

第5节主要介绍了机器学习与统计学之间的关系,不用做太多了解,所以也可以跳过,直接进入本节。

今天主要学习的问题就是如何让机器解决是非题,仍然以银行发信用卡为例,就是根据客户提交的资料去判断要不要给该客户发放信用卡。

本节目标

第4节我们提到过,机器学习的过程是我们需要一个f,但我们不知道f长什么样,这时候我们就需要从数据{xn,yn}中学习,但是机器学习往往得到的结果很我们所期望的有些误差,其实机器学习得到的结果会是一个函数集合,而不是只得到一个函数,我们把这个函数集合叫做假设集(hypothesis),然后我们再从这个函数集合中找到一个g,使得gf 。这就是机器学习的目标。过程如下:
林轩田机器学习基石笔记(第6节)

其中 gH 的关系如右边:gH={hK},但是现在问题来了,我们并不知道假设集H长啥样子,所以这也是本节课要讨论的内容,那就是找出H的样子。

具体讲解

依然是信用卡发放的例子,在这个例子里我们把每一个参考因素作为一个集合X,即X=(X1,X2...Xd),其中X1,X2...Xd就是具体的参考因素(例如性别、年龄、收入等)。然后,我们为每一个因素设置权重w,把权重值与该参数相乘,并把乘积全部加起来,再减去门槛值threshold(门槛值其实就是我们设定的最低标准,超过该标准的都可以发放信用卡),数学表达如下:
林轩田机器学习基石笔记(第6节)
为了进一步用数学来描述,变成一个是非题,我们把上面的式子变为如下:
林轩田机器学习基石笔记(第6节)
重点内容*h(x)的计算结果是 +1* 则表示发放信用卡,计算结果是 -1 则不发放。h(x)也叫做感知器Perceptron,也叫做神经元。

这里涉及到一个数学概念符号函数sign,假设 y=sign(x) 当x>0,y=+1;当x=0,y=0;x<0,y=-1.

上面的公式,我们进一步进行简化成下面的样子:
林轩田机器学习基石笔记(第6节)
简化过程是把门槛值 -threshold 看成一个权重值W0然后乘以+1,并把+1看成X0然后整个式子就可以缩成sign(i=0dWiXi)下标 i 从0开始(之前从1开始)。还可以进一步,我们再把i=0dWiXi个看成一个整体,最后变成sign(WTX)

那么上面的函数 h(x) 在几何中是长什么样子的呢?

根据上一节的定义{Xn,Yn}Xn表示发放信用卡所需要考虑的维度集(Xn其实是一个集合,里还有很多小x,表示性别、年龄、收入等),Yn表示+1或-1,用圈圈表示+1,叉叉表示-1。而W+W1X1+W2X2其实是二元一次方程,即表示一条直线,这条直线把不同Xn对应的不同Yn(如下图中的圈圈叉叉)分在不同的两边,如图:
林轩田机器学习基石笔记(第6节)

本节就学到这里,下节继续。

===========================懵逼分割线===========================

欢迎大家加入Q群讨论:463255841

===========================懵逼分割线===========================