论文阅读：Learning Human-Object Interactions by Graph Parsing Neural Networks

GPNN(ECCV2018)

文章
用来检测human-object interaction。Paper说提出GPNN的目的是为了在HOI任务中显式地对空间、时间（视频）以及human-object关系进行利用。
论文阅读：Learning Human-Object Interactions by Graph Parsing Neural Networks
complete HOI指的是所有的node之间都有link，node包括human和object，假设node特征为d_V维，edge的特征为d_E维（从两个box的union box提取得到的），且complete HOI一共有N个node，那么特征矩阵F则为NxNx(2d_V+d_E)，也就是每两个node及其之间的边都要按顺序组合一次。然后用1x1的卷积计算出一个邻接矩阵。邻接矩阵可以用来表示两个node的某种相关性

论文阅读：Learning Human-Object Interactions by Graph Parsing Neural Networks

上面的公式为每个node的状态h的更新过程，A是邻接矩阵，M是计算message的函数，U是利用当前状态h和新的信息m计算更新状态h的函数。然后这样不断地迭代：

计算特征矩阵F –> 计算邻接矩阵A –> 计算message –> 更新node隐藏状态 –> 计算特征矩阵F…

迭代一定次数后，graph收敛？得到每个node的一个综合了context的隐藏状态，然后使用一个readout函数，得到每个node的输出：

关于具体的网络结构：

关于每对HOI的分数，则是由对应的human和object的readout的score相乘得到的。

论文阅读：Learning Human-Object Interactions by Graph Parsing Neural Networks

GPNN(ECCV2018)

相关推荐