李宏毅老师Structured Learning课堂笔记以及在自然语言句法分析上的应用

每次写博客，都是我最开心的时候，因为每次决定写博客都是我觉得学到了非常重要的知识点。这篇博客，我会来谈论一下Structured Learning 以及在句法分析上的应用，Structured Learning 应用很广泛，只要掌握了这一思想，我们自然就会去应用它，我们的毕业论文方向是信息检索，我也会用你Structured Learning 方法来看一下效果会怎样。
在这篇博客中，我们会深入探讨Structured Learning 的各个细节，如果仅仅是想应用它的话，可以把中间探讨过程略过，但是如果可以，还是耐心看完，因为我都是从初学者角度去解释它，针对自己踩过的坑重点讲解。在这里，我用的资料都是来自李宏毅老师的PPT。
在大多数机器学习教材里面，你会发现很少讲Structured Learning的，我也是在看cs224d课程的时候，在recursive neural network中提到句法树学习里看Structured Learning 一脸懵逼，到处找资料才学习到Structured Learning 。我们就通过一个问题来引出接下来我们要学习的内容。
我们都都知道在分类问题中，我们会给一个训练数据，标记好了类。如果让你用一个模型来解决它，你会怎么做？ so easy,有很多方法，knn,svm朴素贝叶斯，决策树等等哪个不行啊，这个问题我们可以看到，它的输出可能是数（每个类都用数字来标识）。现在我们再来问一个问题，我们知道在自然语言里面有句法树分析这样的一个重要任务，给定了一组训练数据，让你来判断学习这个树结构，这个时候你会用什么方法呢？这个问题，就是属于Structured Learning 的范畴。

首先我们来看看关于Structured Learning 的框架
李宏毅老师Structured Learning课堂笔记以及在自然语言句法分析上的应用
如图所说，我们给一函数F,对于输入X和标记Y,我们都会输出出一个实数R，这里的Y是一个抽象的概念，对应到我们句法分析上代表树的结构。输出的实数R就是代表我们的X和Y有多匹配，匹配度越高，R的值就越大。然后我们测试集上就是寻找一个能F(X,Y)的输出值最大的Y.
写到这里，有的人可能会觉得F(X,Y)的表达很奇怪，而且整个式子有一种似曾相识的感觉，是不是很像机器学习里的朴素贝叶斯学习方法？我们只要把F(X,Y)换成P(X,Y)就可以了。这样做其实是可以的，我们之所以用F(X,Y)，因为它是更一般的表达式，P(X,Y)是F(X,Y)的一种形式，我们之所以用F(X,Y)是因为，不是在任何情况下都一个用P(X,Y)来表达。我们就用F(X,Y)抽象的表示X和Y匹配的程度，具体的表达形式，还是需要根据你要处理的具体任务来定，这个我们会在后面讲到句法分析的时候讲解。
我们学习的Structured Learning 的时候，我们主要要解决这三个问题。
李宏毅老师Structured Learning课堂笔记以及在自然语言句法分析上的应用

现在我们来看看第一个问题，F(x,y)是什么东西
李宏毅老师Structured Learning课堂笔记以及在自然语言句法分析上的应用
那个和w相称的函数叫特征函数，这个在传统方法里是人工标注的，现在一般都是用深度学习来表征。（对于这个，我不想详细解释了，如果有问题可以私信，或者自己看看条件随机场，和最大熵模型，里面也都有关于特征函数概念），可以举一个例子就是，在我们自然语言里面，可以用向量表示词，而这个词的各个维度权重就是对应某个特长函数的值（就解释这么多吧，这些都是基本概念了）。
再来看看第二个问题，我们怎么来找到最大值对应的y，其实F(x,y)的表达已经知道了，用穷举的办法就可以找到啊，所以寻找方法还是基于已经知道F(x,y)的表达的基础上，所以为了方便理解，你可以想想朴素贝叶斯里面是怎么寻找最大y了。在这里，我们就假定我们已经知道了最大的值。
第三个问题是我们要重点展开讨论的，我们怎么去学习F(x,y)，其实就是学习里面的参数w.
李宏毅老师Structured Learning课堂笔记以及在自然语言句法分析上的应用
用语言来直白描述就是，我们希望学习这么一些参数w，使得用参数w乘以正确的正确标记样本的特征函数，他们的值要大过于参数w诚意错误标记样本的特征函数。下面举例李宏毅老师在课上讲的例子
李宏毅老师Structured Learning课堂笔记以及在自然语言句法分析上的应用
这个是关于人脸识别的task，不同的人脸识别位置会对应不同的特征函数，我们希望正确的人脸识别乘以w,可以获得更高的分数。
解释到这里，这种方法我们是不是很熟悉的呢？像不像SVM的精神，有征服样本，学习一些参数w,使正样本和负样本分隔开来。其实跟道理都是一样的，所以这种方法有一个统一的名称叫max margin method，我么们也会在后面看到，我们在structured learning 里面，最终是把它的推导方式转化到svm的问题。

李宏毅老师Structured Learning课堂笔记以及在自然语言句法分析上的应用
这个是我们的更新参数w的算法，至于这个算法为什么会收敛，会在后面证明。

具体的算法举例如下图
李宏毅老师Structured Learning课堂笔记以及在自然语言句法分析上的应用
图中的w向量是我们最终要学习的向量（在这里w向量是二维，这个只是我们为了方便可视化做的假设，在我们实际应用中，我们的w向量维度往往很大）。