神经网络相关之基础概念(1)

人工神经网络需要一定的数学基础,但是一般来说比较简单,简单的高数基础即可,这里整理了一些所需要的最基础的概念的理解,对于神经网络的入门,非常基础和重要,而且理解了之后,会发现介绍不需要在看,磨刀不误砍柴工,强烈建议理解清楚之后在去使用诸如tensorflow这样的利器。

自变量/因变量/函数

因为E文文档的阅读时不可避免的接触这些内容,一般将英文也列出来,尽量记住,阅读时会大大提高速度。

概念 英文 说明
自变量 Independent variable y=f(x)=2x + 3中的x
因变量 dependent variable y=f(x)=2x + 3中的y,也称函数值
二元函数 function of two variables 假设有变量x1,x2和y,如果当变量x1,x2在某一给定的二元有序实数对D内任取一对值(x1,x2)时,变量y按照一定的规律,总有唯一确定的值与之相对应,则变量y叫做变量x1,x2的二元函数,记住y=f(x1,x2)
n元函数 function of several variables 由二元函数定义,推二及n,u=f(x1,x2,x3,…,xn),变量u为变量x1,x2,…,xn的n元函数

导数

作为高数最为基础的导数概念,这里不在赘述,简单烈一下内容能够大体理解即可, 借用一张图形来进行解释:
神经网络相关之基础概念(1)
 

概念 说明
Δx x的变化量;
dx x的变化量Δx趋于0时,记作微元dx;
Δy Δy=f(x0+Δx)-f(x0),函数增量;
dy dy=f’(x0)dx,切线的增量;

基本概念

导数/偏导数/方向导数/梯度,这四个概念无比重要,无比理解,简单整理如下,比如在理解BP算法有所困难时请以此四概念为中心重新学习相关部分高数内容。

概念 英文 说明
导数 Derivative 一元函数y=f(x)中,函数y=f(x)沿x轴的变化率,导数即微商,代表了函数在某店的变化率。
偏导数 Partial derivative 指的是多元函数沿坐标轴的变化率。由于一元函数中只有一个自变量,所以一元函数没有偏导数。从导数到偏导,也是从曲线到曲面的转变。曲线某点对应的是切线只有一条,而曲面的某点则会有很多条
方向导数 Directional derivative 偏导数表现的是沿坐标轴的变化率,如果需要考虑到多元函数在任意方向上的变化率,则需要引入方向导数的概念。
梯度 Gradient 某一点上最大的方向导数,沿梯度方向有最大的变化率,在此基础上理解梯度下降算法。

为何线性分类模型无法处理异或问题

异或是计算机中非常简单的操作,而诸如感知机这样的线性模型则无法解决异或问题的分类。严格的证明可以参看Minsky的文章。
简单地来看,根据结果进行分类,可以分为两类(0/1),但是如果显示在一个平面上,你会发现无法找到一条直线将这两类结果直接分开,所以可以直观地看出是线性分类模型连异或这种简单的分类都无法解决。
而这个悲伤的观点,早在1969年Minsky就曾经在著名的Perceptron中已经被详细地证明了,从而带来了后来人工智能长达10年左右的冰冻期。这个问题并非无解,使用两层的感知机即可解决这种问题,但是Minsky认为,这将会带来巨大的计算量而且没有有效的学习算法,直到诸如BP等算法的出现。1986年,Rumelhart,Geoffrey Hinton和Ronald Williams所发表的Learning representations by back-propagating errors一文中引入了BP算法到神经网络模型之中,通过在神经网络中添加隐含层,同时将误差进行反向传播,将纠错的运算量下降到仅和神经元数目成正比的程度,解决了感知机的异或分类问题,同时为多层感知机的模型提供了学习算法。

回归分析

在算法的入门时会学习使用线性回归和逻辑回归等,所以需要对回归分析有一定的了解。回归分析研究的是因变量和自变量之间的关系,在预测模型中被广泛地应用。自变量的个数/因变量的类型/回归线的形状都是需要考虑的,常见的回归分析方式如下:

  • Linear Regression:线性回归
  • Logistic Regression:逻辑回归
  • Polynomial Regression:多项式回归
  • Lasso Regression:套索回归
  • ElasticNet Regression:ElasticNet回归

详细可参看:
https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/

总结

时至今日,1986年所提出的应用与多层神经网络的误差反向传播的BP算法仍在活跃,虽然人工智能非常火热,但是冷饭热炒的嫌疑仍然存在。在1969年Minsky先生随手提出的线性感知机模型无法解决异或分类以及多层模型所需要的巨大计算量的问题在将近五十年的时间才有了一点突破。