Deep code comment generation with hybrid lexical and syntactical

deepcode的扩展版本

在DeepCom中，直接从遍历的AST序列生成注释。在Hybrid-DeepCom中，将源代码和遍历的AST序列组合在一起以生成注释。
在DeepCom中，我们使用节点“type”来表示out-of-vocabulary的标记。在Hybrid-DeepCom中，我们根据驼峰命名将标识符分成多个单词。
在DeepCom中，注释是逐词生成的，而在Hybrid-DeepCom中，我们在生成代码注释时利用了beam search。

包含三个阶段：数据处理，模型训练和在线测试

Deep code comment generation with hybrid lexical and syntactical 笔记

Deep code comment generation with hybrid lexical and syntactical 笔记

encoder

使用了两个encoder来对源代码以及AST序列进行编码。一个encoder学习源代码中的词汇信息，而另一个encoder学习AST序列中的结构信息。

code encoder

结构为GRU,对java的token进行编码，学习其中的词法信息。在每个时间步t，它读取序列的一个token xt，然后更新并记录当前的隐藏状态st，即 $s_t = f (x_t, s_{t−1})$

ast encoder

结构为GRU，在每个时间步t，它读取ast的一个节点 xt，然后更新并记录当前的隐藏状态st，

attention

值得注意的是，这里使用了两个encoder，需要对这两个同时进行注意力的权值分配

decoder

beam search
Deep code comment generation with hybrid lexical and syntactical 笔记

Beam Search扩展了贪婪搜索，并返回最可能的输出序列的列表。

它一步一步地搜索在每个步骤中产生的注释标记。在每个时间步长，选择成本最低的k个token，其中k是beam width。然后，它会修剪掉其余的分支，并继续选择可能的token，直到遇到序列结束符号（即End）为止。

最后，Hybrid-DeepCom为每个Java方法产生k条注释。在beam search过程中，我们根据生成的注释的平均概率对它们进行排序。在本文中，我们选择top1 评论作为最终结果。

不需要带上value，道理很简单，因为在code encoder中已经对value进行了编码，只需要带上其type信息来编码其结构就ok。

将标识符分成几个单词，以减少源代码中的out of vocabulary token。