凸函数、凹函数与非凸非凹函数

在学习机器学习的时候,经常会遇到数据集或者算法中的函数有着凸和非凸的区别,那么到底什么样的函数是凸函数,什么样的函数是非凸函数。

凸集

在点拓扑学和欧几里得空间中,凸集(Convex set)是一个点集合,其中每两点之间的直线点都落在该点集合中。如下图所示:

凸函数、凹函数与非凸非凹函数

很明显,上图中绿色区域中的任意两点的连线点都还是在绿色区域中

凸函数

假设一个实值函数凸函数、凹函数与非凸非凹函数,其可行域是某个空间向量的凸子集凸函数、凹函数与非凸非凹函数(区间):对其定义域凸函数、凹函数与非凸非凹函数上的任意两点凸函数、凹函数与非凸非凹函数,总有:

凸函数、凹函数与非凸非凹函数

凸函数、凹函数与非凸非凹函数

同时,我们也可以看到在可行域C中,任意两点之间的连线点还是落在C中。 并且如果:

凸函数、凹函数与非凸非凹函数

 那么凸函数、凹函数与非凸非凹函数是严格凸的

凸函数、凹函数与非凸非凹函数

如上图,所以我们可以知道当且仅当可行域绿色区是一个凸集,蓝线代表的函数才是凸函数。

如果对于任意的凸函数、凹函数与非凸非凹函数,其中凸函数、凹函数与非凸非凹函数,都有凸函数、凹函数与非凸非凹函数,则称函数f是几乎凸的。

凹函数

在数学中,凹函数和凸函数是相对的函数。

我们称一个有实值函数f在某区间(或者某个向量空间中的凹集)上是凹的,如果对任意该区间内不相等的xy和[0,1]中的任意t

凸函数、凹函数与非凸非凹函数

 

凸函数、凹函数与非凸非凹函数

一个在C的连续函数是凹的当且仅当对于任意属于C的x和y,有

凸函数、凹函数与非凸非凹函数

 如果凸函数(也就是向上开口的)有一个“底”,在底的任意点就是它的极小值。如果凹函数有一个“顶点”,那么那个顶点就是函数的极大值。

非凸非凹函数

即不属于凹函数也不属于凸函数的那就是非凹也非凸的函数,如下图所示:

凸函数、凹函数与非凸非凹函数

那么这些个这样的函数和机器学习有什么关系?

我们在训练一个算法模型的时候,经常是说无法得到全局最优,只能得到局部最优,特别是在我们的神经网络模型中,该模型的损失函数更加趋于非凸非凹函数,所以很容易陷入局部最优,而我们更喜欢的是凸函数,这样我们更容易获得全局最小值。 

凸函数、凹函数与非凸非凹函数