论文阅读:Learning Human-Object Interactions by Graph Parsing Neural Networks

GPNN(ECCV2018)

文章
  用来检测human-object interaction。Paper说提出GPNN的目的是为了在HOI任务中显式地对空间、时间(视频)以及human-object关系进行利用。
论文阅读:Learning Human-Object Interactions by Graph Parsing Neural Networks
  complete HOI指的是所有的node之间都有link,node包括human和object,假设node特征为d_V维,edge的特征为d_E维(从两个box的union box提取得到的),且complete HOI一共有N个node,那么特征矩阵F则为NxNx(2d_V+d_E),也就是每两个node及其之间的边都要按顺序组合一次。然后用1x1的卷积计算出一个邻接矩阵。邻接矩阵可以用来表示两个node的某种相关性

论文阅读:Learning Human-Object Interactions by Graph Parsing Neural Networks

  上面的公式为每个node的状态h的更新过程,A是邻接矩阵,M是计算message的函数,U是利用当前状态h和新的信息m计算更新状态h的函数。然后这样不断地迭代:

计算特征矩阵F –> 计算邻接矩阵A –> 计算message –> 更新node隐藏状态 –> 计算特征矩阵F…

  迭代一定次数后,graph收敛?得到每个node的一个综合了context的隐藏状态,然后使用一个readout函数,得到每个node的输出:

论文阅读:Learning Human-Object Interactions by Graph Parsing Neural Networks

关于具体的网络结构:


论文阅读:Learning Human-Object Interactions by Graph Parsing Neural Networks
论文阅读:Learning Human-Object Interactions by Graph Parsing Neural Networks
论文阅读:Learning Human-Object Interactions by Graph Parsing Neural Networks
论文阅读:Learning Human-Object Interactions by Graph Parsing Neural Networks

  关于每对HOI的分数,则是由对应的human和object的readout的score相乘得到的。