MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

Concept learning: 学习一个概念(如学习一个词的含义),等价于一个二分类问题,这里注意通常的二分类问题都是要有正负样本,而在Bayesian Concept Learning中只需要有正样本就可以了,如教小孩子认识狗,只需要告诉他什么是狗,而不需要说什么不是狗。

例子(Number Game):给一个数学概念C(如“素数”或“0到100之间的数”)和这个概念下的正样本D,然后拿一个新样本下x, 问x是不是属于C,也就是对x进行分类。

Posterior Predictive Distribution: p(x|D),在给定数据集D的条件下x属于C的概率。例如:假设只在0到100之间做实验,给出一个数据集D={16},在一个实验中人们对0到100的每个数中判断是否和16属于同一类(正例),给出的Posterior Predictive Distribution如下图:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

若D={8,2,64}:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

若D={16,23,19,20}:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

Hypothesis Space of Concepts:一堆数学概念(如:“1到100间的数“,'2的n次方"等)。

Version Space: Hypothesis Space中和数据D一致的子集。

3.2.1 Likelihood

给定一个数据集D={16,8,2,64}, 我们为什么倾向于选h1="powers of two"而不是h2="even numbers"呢?

Suspicious coincidences: 如果真实的概念是h2,怎么能这么巧出的数都是power of two呢?

Extension of a concept: 属于这个concept的所有数组成的集合,如:h2的extension{2,4,6,...98,100};

Strong sampling assumption:样本是从extension of concept中随机等概率抽样出来的;公式如下:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

Size principle: 模型喜欢和数据一致的最简单(最小的)的假设。从上面的公式可以看出,假设最小对应分母越小,因此概率越大;例如:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

3.2.2 Prior

对于D = {16,8,2,64}来说,根据likelihood, h' = "powers of two except 32"比 h = "powers of two"更有可能,但是从直觉上来看这有些"conceptually unnatural", 因此在Bayes Reasoning里会把"不太自然"(unnatural)的概念(hypothesis)较低的先验概率(prior).

这样会带来主观的问题(比如一个孩子和一个数学家对概念的先验会不同),这也是存在争议的地方。

虽然存在争议,但是引入先验还是比较有用的,没有先验,rapid learning(从小数据中学习)就变得不可能了。

3.2.3 Posterior

后验概率(Posterior): 就是先验概率(prior)乘以似然(Likelihood)然后再进行normalize,如下:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

MAP estimate: 当有足够多的数据后,后验概率(posterior)就变成了MAP estimate(当数据足够多以后,后验概率就会在某一个概念h上peak), MAP estimate的表达式如下:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

MLE estimate: 由于prior(logp(h))是个常数,因此MAP estimate是指数依赖于N(样本数)的,当N越来越大的时候,MAP就收敛于MAP了,从上式可以看出,logp(D|h)越来越大。也就是说data overwhelms the prior。

Consistent estimator: 如果真正的假设在假设空间里,那么MAP/MLE 就会收敛于这个假设,就说Bayes inference是consistent estimator, 假设空间是identifiable in the limit(指在无穷多数据的情况下,我们能够发现真相)。

3.2.4  Posterior predictive distribution

Posterior predictive distribution: 每个假设预测的加权求和,公式为:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

PPD例子

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

这个图最上边的分布对应PPD的公式,含义是当D={16}是正例的时候,对应左边坐标轴那些假设,分布刻画了

其他的例子(0到100间的数)也是正例的概率分布(和16是同一个概念下的例子)。这里并不是指某个假设(因为确定不了哪个假设是真正的概念),而是所有可能假设的加权平均,就是无论在什么情况下,4和64都是很有可能是正例的。

Plug-in Approximation to the predictive density:当数据量很少的时候,PPD(上图的分布)分布很广,当数据量大了以后,后验就变成了一个以MAP estimate为z中心的delta函数了,这种情况下,PPD变成了如下的形式:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

这个就叫Plug-in Approximation to the predictive density, 感觉可以理解为是在数据量大的时候对PPD的近似(这有些under-represent our uncertainty了,感觉是只有一个假设是对的,其他假设的可能性为0了)。

尽管MAP比较简单,但是它不能解释从similarity-based reasoning(with uncertain posteriors对应BMA)到rule-based reasoning(with certain posteriors对应Plug-in approximation)的渐变。当随着数据增加时,BMA对应的PPD是从宽变窄,而Plug-in approximation对应的PPD是从窄变宽。因此在小数据时,它们的差别较大,但是在大数据时是收敛于同一个答案的。例如:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning