MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

Concept learning: 学习一个概念（如学习一个词的含义），等价于一个二分类问题，这里注意通常的二分类问题都是要有正负样本，而在Bayesian Concept Learning中只需要有正样本就可以了，如教小孩子认识狗，只需要告诉他什么是狗，而不需要说什么不是狗。

例子(Number Game):给一个数学概念C（如“素数”或“0到100之间的数”）和这个概念下的正样本D，然后拿一个新样本下x, 问x是不是属于C，也就是对x进行分类。

Posterior Predictive Distribution: p(x|D),在给定数据集D的条件下x属于C的概率。例如：假设只在0到100之间做实验，给出一个数据集D={16}，在一个实验中人们对0到100的每个数中判断是否和16属于同一类(正例)，给出的Posterior Predictive Distribution如下图：

若D={8,2,64}：

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

若D={16,23,19,20}:

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

Hypothesis Space of Concepts:一堆数学概念（如：“1到100间的数“，'2的n次方"等)。

Version Space: Hypothesis Space中和数据D一致的子集。

3.2.1 Likelihood

给定一个数据集D={16,8,2,64}, 我们为什么倾向于选h1="powers of two"而不是h2="even numbers"呢？

Suspicious coincidences: 如果真实的概念是h2,怎么能这么巧出的数都是power of two呢？

Extension of a concept: 属于这个concept的所有数组成的集合，如：h2的extension{2,4,6,...98,100};

Strong sampling assumption:样本是从extension of concept中随机等概率抽样出来的；公式如下：

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

Size principle: 模型喜欢和数据一致的最简单(最小的)的假设。从上面的公式可以看出，假设最小对应分母越小，因此概率越大；例如：

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

3.2.2 Prior

对于D = {16,8,2,64}来说，根据likelihood, h' = "powers of two except 32"比 h = "powers of two"更有可能，但是从直觉上来看这有些"conceptually unnatural", 因此在Bayes Reasoning里会把"不太自然"(unnatural)的概念(hypothesis)较低的先验概率(prior).

这样会带来主观的问题(比如一个孩子和一个数学家对概念的先验会不同)，这也是存在争议的地方。

虽然存在争议，但是引入先验还是比较有用的，没有先验，rapid learning(从小数据中学习)就变得不可能了。

3.2.3 Posterior

后验概率(Posterior): 就是先验概率(prior)乘以似然(Likelihood)然后再进行normalize,如下：

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

MAP estimate: 当有足够多的数据后，后验概率(posterior)就变成了MAP estimate(当数据足够多以后，后验概率就会在某一个概念h上peak), MAP estimate的表达式如下：

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

MLE estimate: 由于prior(logp(h))是个常数，因此MAP estimate是指数依赖于N(样本数)的，当N越来越大的时候，MAP就收敛于MAP了，从上式可以看出，logp(D|h)越来越大。也就是说data overwhelms the prior。

Consistent estimator: 如果真正的假设在假设空间里，那么MAP/MLE 就会收敛于这个假设，就说Bayes inference是consistent estimator, 假设空间是identifiable in the limit(指在无穷多数据的情况下，我们能够发现真相)。

3.2.4 Posterior predictive distribution

Posterior predictive distribution: 每个假设预测的加权求和，公式为：

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

PPD例子：

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

这个图最上边的分布对应PPD的公式，含义是当D={16}是正例的时候，对应左边坐标轴那些假设，分布刻画了

其他的例子(0到100间的数)也是正例的概率分布(和16是同一个概念下的例子)。这里并不是指某个假设(因为确定不了哪个假设是真正的概念)，而是所有可能假设的加权平均，就是无论在什么情况下，4和64都是很有可能是正例的。

Plug-in Approximation to the predictive density:当数据量很少的时候，PPD(上图的分布)分布很广，当数据量大了以后，后验就变成了一个以MAP estimate为z中心的delta函数了，这种情况下，PPD变成了如下的形式：

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

这个就叫Plug-in Approximation to the predictive density, 感觉可以理解为是在数据量大的时候对PPD的近似(这有些under-represent our uncertainty了，感觉是只有一个假设是对的，其他假设的可能性为0了)。

尽管MAP比较简单，但是它不能解释从similarity-based reasoning(with uncertain posteriors对应BMA)到rule-based reasoning(with certain posteriors对应Plug-in approximation)的渐变。当随着数据增加时，BMA对应的PPD是从宽变窄，而Plug-in approximation对应的PPD是从窄变宽。因此在小数据时，它们的差别较大，但是在大数据时是收敛于同一个答案的。例如：

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

MLAPP读书笔记--3.1 and 3.2 Bayesian Concept Learning

3.2.1 Likelihood

3.2.2 Prior

3.2.3 Posterior

3.2.4 Posterior predictive distribution

相关推荐