对《Deep Two-path Semi-supervised Learning for Fake News Detection》解读

对《Deep Two-path Semi-supervised Learning for Fake News Detection》

这篇是我看到第一篇用半监督学习做的虚假新闻检测任务的论文。笔者对半监督学习并没了解多少,这篇论文不好评价, 还请见谅。

Abstract

本文通过半监督学习方法来进行虚假新闻检测。 在这个模型中有两条路径,一个通过监督学习方法, 另一个用无监督学习方法进行检测。 它们都用卷积神经网络来构造模块并通过联合优化的方式加强检测效果, 另又共享卷积神经网络来提取低层次的特征。

Introduction

本文的贡献为:
对《Deep Two-path Semi-supervised Learning for Fake News Detection》解读
贡献中说明了半监督学习方法的好处, 如果在训练集和测试集的分布不相同时, 此模型可以表现得更好。 这也恰恰说明了模型在训练集上不会出现过拟合现象, 有很好的泛化能力。

Method

模型架构:

对《Deep Two-path Semi-supervised Learning for Fake News Detection》解读
方法:
对《Deep Two-path Semi-supervised Learning for Fake News Detection》解读

上面两章图片是本篇论文介绍的模型架构和算法。在这里对模型进行剖析下。

模型分为两条路径:

  1. supervised method: 含有shared CNN , supervised CNN
  2. unsupervised method: 含有shared CNN, unsupervised CNN

两条路径都含有share CNN 此模块用于提取文本信息的共有特征。

不管对于监督学习方法, 还是无监督学习方法, 模型架构都需要输入。 在本文中, 输入是经过word embedding 后的向量矩阵, 行(row)为每个单词embedding 后的向量, 行数为此虚假信息含有的单词数。经过shared CNN 提取特征后, 变成supervised CNN 和 unsupervised CNN 共有输入。

在 supervised方法这条路径上, 由于它是采用监督学习方法,故需要标签文本来求得损失。 相反对于unsupervised 方法, 它并不需要标签数据进行训练, 它的损失是由两条路径上CNN提取的特征的差异性来得到的。最终通过两个损失加权求和作为总损失来共同训练总体网络架构。公式如下:

对《Deep Two-path Semi-supervised Learning for Fake News Detection》解读
式中B为batch_size, w(t) 是跟随时间变化的高斯曲线。 在上图的方法中, w(t)是跟随回合次数改变。

Experiment

Datasets

PHEME

Results

对《Deep Two-path Semi-supervised Learning for Fake News Detection》解读
结果可以看到, baseline 的效果比提出的模型差, 有三个原因:

  1. 特征向量采用 tf-idf 方式太稀疏了

  2. 数据集一些数据两个类别分布不均匀

  3. 训练数据和测试数据的分布不相似