A Sociolinguistic Route to the Characterization and Detection of the Credibility of Events on Twitter（Twitter上表征和检测事件可信度的社会语言学途径）

摘要

介绍

前置知识

可信度的定义和在文中的使用

贡献和主要结果

摘要

Twitter是实时新闻的主要来源之一，用户充当媒介来更新来自全球各地的内容，但是通过Twitter传播的谣言正日益成为令人担忧的问题，并且已造成了重大破坏。
作者基于推文的语言结构提出一种可信度分析方法，不仅描述Twitter事件的特征，而且通过深度学习框架预测它们在感知上的可信度。
使用CREDBANK数据集进行实验。
发现：标准的LIWC类别：‘negate’, ‘discrep’, ‘cogmech’, ‘swear’（“否定”，“不同意”，“齿轮”，“发誓/咒骂”）；Empath类别： ‘hate’, ‘poor’, ‘government’, ‘worship’ and ‘swearing-terms’ （“讨厌”，“贫穷”，“政府”，“崇拜”和“宣誓条款“）的相关性与事件的可信度负相关。
实验某些结果与早期文献一致，而其他结果则代表了对“虚假”和“真实”Twitter事件的新颖见解。
使用上述观察结果和当前的深度学习架构，最终以0.54的准确度预测事件的可信度（四分类问题），从而提高了最著名的技术水平（当前的准确度为0.43）〜26％。
一个有趣的观察结果是，即使通过查看事件的前几条推文，也可以使预测几乎与观察到整个推文的情况一样准确。

介绍

前置知识

信息生成的过程

一些用户通过将他们目睹的现象或相关知识引入社交媒体来生成信息。其他用户对这些信息进行解释（获取信息）或者二次创作（转发）

缺点

此过程可以非常迅速地生成，收集，过滤和传播信息，但是与传统的新闻媒体不同，没有真实性的把关和监督。

人们可以很快地受到垃圾邮件内容，隐形广告以及谣言或错误信息的干扰。

如何解决

为了解决这些漏洞，需要一种自动系统，该系统可以衡量人们在社交媒体平台上讨论的不同主题的可信度或“感知的可信度”。

通常，这些主题被称为社交媒体事件。这些是在特定时间通过社交媒体报告的现实世界事件，即每个事件都与按时间顺序排列的社交媒体推文流相关联，一个事件有很多相关的推文。

换句话说：对于每一个事件，需要评估它的可信度，每一个事件与之相关的都有很多按照事件顺序排列的推文（推文在后续会成为用来检测该事件是否真实的指标）如果类比于传统的机器学习，那么事件相关的推文的是特征值，而事件的可信度是目标值。

之前的一些研究发现

研究中的发现语言特征是可信度的良好指标，例如，焦虑，不确定性等的表达被认为是可信度的良好信号。

新的语料库：CREDBANK

提供了一个从宏观层面上学习事件可信度的”机会“

最新模型：parsimonious language model

是在CREDBANK语料库上的最新模型

他们发现，数以百万计的人在社交媒体上使用的语言具有有关事件可信度的大量信息。不太可信的社交媒体事件受到更多质疑，并被视为可疑事件，因为它们缺乏强有力的证据来支持它们。在这种情况下，来自其他用户的帖子带有“难以置信”，“但是”，“也许”等怀疑态度，并带有焦虑感。另一方面，高度可信的事件表现出更积极的情绪表达，例如“哇”，“太好了！”等，以及可以通过“我同意”，“令人信服”等表达方式观察到，因为该信息通常有强有力的证据支持或来自可靠的来源。

可信度的定义和在文中的使用

可信度定义

采用了Mitra等人给出的可信度定义

他们将事件的可信度表示为两个维度之间的相互作用，即极性和确定性程度，极性用来区分“准确”，“不准确”和“不确定”，确定性程度则有“确定”，“可能”不同和“不确定”三种，两两组合后，构成元组<degree, polarity>，元组有以下5种可能：

(<certainly accurate>, <probably accurate>, <uncertain>, <probably inaccurate><certainly inaccurate>)

换句话说，可信度评估也可以用一个范围表示，范围从[-2]表示“肯定不准确”到[+2]表示“肯定准确”。

论文中对可信度的四分类

CREDBANK数据集中共有1377个媒体事件和相关的6600万条推文

作者遵循在线LDA方法从6600万条推文中实时检测事件。具体来说，他们为每百万个流推文集迭代地运行在线LDA模型。LDA将经过预处理步骤的单个推文的词袋表示作为输入，该模型将一组潜在主题表示作为输出，这些潜在主题表示为一组倾向于在相似推文中同时出现的相关单词。

每个CREDBANK事件是分析的基本单位。事件可信度的量化是基于将事件评为“肯定准确”的注释总数的一部分的比例：（也就是标注为”肯定正确“所占全部标注的比例）

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

Eca是事件E的“肯定准确”评分的数量，Etotal是该事件可用的评分的总数。根据P的值，可以划分为四个类别：

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

贡献和主要结果

Contributions

对CREDBANK数据集中存在的Twitter事件进行深入的语言分析。
不同可信度级别相关的推文的社会语言结构存在很大差异。因此，我们提出了一种具有社会语言学特征的分层注意力网络模型，用于预测社交媒体事件的可信度。（这个模型通常是用于文本分类的，论文中将他们用于事件可信度的预测）
基于用户按照事件顺序排列的推文的语言结构，建立分类模型来预测用户的可信度。（代码开源：https://github.com/pushpendra-1104/Credibility_Detection）

key results

标准LIWC类别（ ‘negate’, ‘discrep’, ‘cogmech’,‘social’ , ‘swear’ ）和Empath类别（ ‘hate’,‘confusion’, ‘poor’ ）与事件的可信度负相关。
不太可信的事件的社会语言特性与可信的事件完全不同。
利用2的结论，在加上标准的HAN（网络的名称）达到了0.54的预测准确度，从而将最著名的最新技术（即parsimonious language model，当前准确度0.43）提高了约26％，并且随机猜测模型的准确率（准确率0.25）是原来的112%。
仅事件中的前几条推文就足以准确预测该事件的可信度。

数据集：CREDBANK corpus

这个庞大的数据集是通过使用Twitter的流API迭代跟踪数百万条公共推文而构建的，该语料库包含超过6600万条推文，涵盖2014年10月至2015年2月在Twitter上报道的1377个事件。每个事件的可信度由Amazon Mechanical Turkers（AMT）进行注释，范围从“一定不准确[−2]”到“一定准确[+2]”。为了确保获得的注释与专家水平的评估具有相同的标准，在最终确定获得高质量注释的最佳策略之前，进行了几次对照试验。

Twitter Stream API: https://developer.twitter.com/en/docs/tutorials/consuming-streaming-data.html

事件的语言结构

可信度类别的划分

对于事件数据分析，我们调查了与具有不同可信度级别的不同事件中发布的推文相关的各种语言特性。根据Pca范围，将1377个事件仅分类为四个可信度类别之一（不同于在这些事件中发布的用户可以属于多个类别），也就是说，事件只能属于4个分类之一，而发布推文的用户可以属于多分类。（文中并没有怎么体现“用户” 的可信度）

数据预处理

删除停用词
用“ URL”替换URLs
用“ @user”替换用户提及的内容
从主题标签的前面删除＃号

对于推文的语言分析，使用了LIWC工具和Empath工具，已经发现它们是理解大规模文本中主题信号的有效工具。

研究可信度和LIWC / Empath类别的关系

第一步：

计算每个事件相关的推文中出现的“每个LIWC / Empath类别中的单词”的分数，并基于该分数对1377个事件进行排名。同时，我们还会根据可信度（即Pca值）对这些事件进行排名。然后，我们计算两个排名之间的Spearman排名相关性（Spearman’s rank correlation），结果如下：

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

整数代表正相关，负数代表负相关。需要注意的是，有一些词没有放在表中，因为数值较低，跟表中出现的不是一个量级的。

第二步：

我们还报告了某些LIWC / Empath类别在不同可信度级别中所占的比例。在某些类别中，例如“discrep”和“hate”，随着从最可信的类别到最不可信的类别的变化，单词的比例单调增加。另一方面，某些类别（例如“health”和“achievement”）随着从最可信的类别到最不可信的类别的变化，单词的分数单调减少。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

一些额外的发现

单词的选择可能会对用户或一组用户在与特定可信度级别相对应的事件中发布推文的“个人品牌”产生重大影响。（简而言之，用户的用词习惯会影响可信度的评估）。通常认为使用亵渎性词语（脏话，仇恨言论）的消息不那么可信，这一点在前人的研究中证实了。

在语言性质上，研究也发现了假新闻和真新闻的用词差异：

phony news：Cogmech, discrep, social,religion and positive emotion etc.

legitimate materials：achievement, competition etc.

（当然举例的这些词不是全部，挑选了属于LIWC / Empath类别的）

前人的许多研究报告了类似的结果，其中发现这些LIWC类别是检测富含媒体的假新闻的有用工具。

实验和模型结构

在本节中，我们设定目标以预测事件的可信度。正如我们在上一节中所看到的，在不同可信度级别的事件中发布的推文的社会语言结构是完全不同的（指的就是所包含的词的类别不同），我们广泛利用这些功能来提高我们提出的预测模型的整体准确性。

预测事件的可信度

由于我们的数据量很小，即仅1377个事件，因此限制了使用基于transformer的体系结构（transformer通常需要较大的样本量才能有效执行）

使用分层五折交叉验证计算所有实验的性能指标

几种Baselines模型

Baselines：

the current state-of-the-art parsimonious language model（ first baseline）

text classification neural architectures

Parsimonious language model

作为第一条基线，文中使用了与该基准相同的数据集。该模型的作者已将事件可信度预测问题视为有序逻辑回归问题。回归模型将通过事件推文计算出的语言特征作为输入，并预测表1所示的有序可信度之一作为输出（即那个四分类）。作者使用了三种特征– lexicon based, non-lexicon based and control features。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

基于特征空间足够大（超过9000个），样本量很小（1377个事件）的情况，作者使用惩罚性的逻辑回归模型来处理多重共线性和稀疏性。作者已经进行了广泛的实验，以分析每个特征的解释能力。模型中包含第一个控制特征以了解其解释力，修复这些特征后，其他特征随后包含在模型中。（我的理解是对于特征情况Control features，Feature name不是随便组合的，而是在大量实验的基础上，采用类似一种控制变量的方式，确定某一个特征对结果有正向作用，才把特征作用于模型）

回归技术具有参数α（其中0≤α≤1），该参数确定权重在预测变量之间的分布。当α= 0时，所有相关特征都包括彼此相对缩小的系数权重，而α= 1每个相关簇仅包含一个代表性特征，其他系数设置为0。作者发现该模型在α= 1时表现最佳。

Deep pyramid CNN (DPCNN)

我们使用词级DPCNN模型体系结构（该体系结构先前被提出作为一种有效的文本分类方法）作为基准。我们使用了15个隐藏层，因为它在6个基准数据集上的情感分类和主题分类性能优于以前的浅层方法。我们将其他超参数与先前研究相对应的最佳模型中的参数保持不变。

Character-CNN

我们使用char-CNN模型（该模型先前被提出为一种有效的文本分类方法）作为另一个基准。在基准数据集上，该方法优于许多传统的深度神经网络模型。我们按照原始论文的定义，对超参数进行了最佳组合。

提出的模型

第一步，我们想了解前面几节分析的社会语言特征（LIWC / Empath）对于我们的预测任务是否完全有效。接下来，我们采用现代的深度学习架构，即分层注意力网络（HAN）对事件进行分类。事件分类（每个事件都是推文的集合）与分层分类问题以及选择非常相似。可以认为其预测任务类似于推文质量/可信度预测任务（文中的任务），我们还将HAN与社会语言功能混合在一起，以获得更高的精确率。

基于语言特征的分类器：在这种方法中，我们考虑了表4中描述的所有社会语言功能以及所有LIWC和Empath功能。我们进行了一系列实验，从将各种语言类别中的单个单词视为特征，到将语言类别本身作为两种策略混合的特征开始，在我们所有的实验中，特征值都是根据事件相关推文按事件进行计算的。对于将语言类别视为特征的实验，特征的计算方法与事件数据分析4.2中所述类似（也就是将类别作为特征输入，然后观察类别和可信度之间使正相关还是负相关）。但是，在将类别中的各个单词视为特征的实验中，我们将事件推文中的频率（单词出现的频率）视为特征值。

具体的特征设计见“实验结果”中的“Proposed linguistic feature based models”

用于事件分类的分层注意力网络（HAN）模型：杨等介绍了HAN作为文档分类的方法。它的表现优于许多强大的基准，包括线性方法，SVM ，基于word-CNN，char-CNN，LSTM，conv-GRNN和LSTM- GRNN。HAN的总体架构如图3所示。在我们的研究中，我们将事件分类问题映射为文档分类问题，我们将每个事件作为文档投影，将事件中的每个推文投影为文档中的句子。文档/事件的基本结构是相同的，即单词。HAN有四个模块：(i) word encoder, (ii) word attention,(iii) tweet/sentence encoder and (iv) tweet/sentence attention。HAN的编码器模块是基于GRU的序列编码器，GRU使用门控机制来跟踪序列状态，而无需使用单独的存储单元。门有两种类型：重置门和更新门，它们共同控制在每种状态下更新信息的方式，HAN的总体架构如图3所示。出于我们的目的，我们使用正确标签的负对数可能性作为训练损失（对数似然损失），即：

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

其中j是事件k的标签。我们使用五折交叉验证进行所有实验。我们使用 Glove vectors作为输入词的嵌入。我们将向量的大小保持为300，我们已经微调了其他超参数以获得最佳结果。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

具有社会语言特征的分层注意力网络（HAN-SL）：在此模型中，我们使用本节开始时讨论的社会语言学特征来扩充HAN的最终事件向量。我们提出的系统的体系结构如图4所示。首先为每个事件计算社会语言特征，然后通过密集层获得隐藏的表示形式。假设s是事件的社会语言向量：

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

其中，hs是s的隐藏表示。然后将隐藏的向量hs与从HAN模型获得的事件向量v串联，并通过另一个密集层。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

最后一层hf的结果通过softmax层获得可信度标签。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

在训练过程中学习所有的权重。我们使用Glove向量作为我们的输入词嵌入，向量的维度是300.每个新引入的稠密层的尺寸大小保持在50。在下一节我们讨论结果的地方将报告超参数。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

评估

引入了两种不同形式的评估：保守评估和自由评估。同样，我们将这两种技术都用于评估。下面简要描述了这些方法。请注意，如果我们将问题重现为回归任务而不是分类任务，则可以使用其他形式的评估方式，例如NDCG。但是，由于除非我们还对最先进的基准框架进行彻底检查，否则这是不可能的，因此我们避免使用这些评估方式。

Conservative evaluation:该评估策略忽略了可信度类别之间存在的部分排序，基于事件的预测可信度标签是否与正确标签完全匹配来测量模型性能。

Liberal evaluation:如果将错误分类分为一个级别，则此评估策略将奖励0.5分的部分贡献，如果将错误分类分为两个级别，则将获得0.25分的部分贡献。例如，如果事件实际的真实性类别ID为1，并且模型预测类别ID为2，则对于这种误分类的准确性的贡献不是0，而是0.5。同样，如果事件实际的真实性类别ID为1，并且模型预测类别ID为3，则对这种错误分类的准确性的贡献不是0，而是0.25。（也就是比较宽松的一种预测，只要不是太离谱，就给一定的分数）

Performance measurement:准确性的计算基于混淆矩阵，在混淆矩阵中，实际和预测的事件类别分别与行和列一起映射。然后根据实际事件类别和预测事件类别之间的一致和不一致程度来计算准确性。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

其中Xa，r是第a个实际类的事件数，预测为第r个类，n是分类的事件总数，Wa，r是正确/错误分类的权重参数，如前所述，将根据保守或自由评估策略分配贡献分数（自由评估比较宽松，所以权重值较大，得出的准确率较高）。除了准确性，我们还报告了最佳性能模型的精确率，召回率和F1分数，以进行公平比较。

实验结果

Baselines:表6显示了在本研究中被视为基准的不同模型的保守和自由精度值。从表中可以清楚地看出，在这些基准中，简约语言模型（PLM）胜过其他所有技术。

在这里，我们介绍从深度模型获得的结果。在表6中没有记录注意模型的GRU中，我们考虑了相同的HAN架构（图3），但是从单词和推文级别都删除了注意层。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

Proposed linguistic feature based models:

表5显示了不同特征构造上各种分类器的保守值和自由值。我们考虑以下各种特征类型。

LIWC cat:单个LIWC类别被视为特征。

Empath cat: 单个Empath类别视为特征。

LIWC cat + Empath cat:LIWC和Empath类别共同被视为特征。

LIWC lex：将LIWC类别中的各个单词视为特征。

Empath lex：将Empath类别中的各个单词视为特征。

LIWC lex + Empath lex：将LIWC和Empath类别中的单个单词视为特征。

LIWC cat + Empath cat + OthLing Cat + Non-lexicon + Control: 将所有LIWC和Empath类别以及表4中提到的non-lexicon,control, and other lexicon categories视为要素。

LIWC lex + Empath lex + OthLing lex + Non-lexicon + Control:将所有LIWC和Empath类别单词以及在表4提到的the other lexicon, non-lexicon, control attributes视为特征。

LIWC cat + Empath cat + OthLing lex + Non-lexicon + Control:将所有LIWC和Empath类别以及在表4提到的the other lexicon,non-lexicon and control attributes视为特征。

我们还为分类任务使用了各种类型的分类器。使用了逻辑回归（LR），随机森林（RF），Extratree，K邻居和朴素贝叶斯。我们选择这些分类器是因为它们具有多样性，因为众所周知它们能够解决各种不同类型的分类问题。这些分类器中的每一个都代表不同的思想流派，并具有自己的优势和优势。(...省略了这些算法的优势)

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

在表中最后一项有一个最佳的组合，我们将使用此组合指代本文后面的“社交语言特性”。但是分类器用的不是“最好效果” 的ExtraTree，而是采用下面的深度学习模型。

Proposed neural models:

从表6中可以看出，HAN-SL模型的表现最佳。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

各种模型的精确率，召回率，F1分数等，有趣的是，观察到的神经模型仅比基于语言特征的模型略胜一筹。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

在微调了最佳的超参数集之后，我们在表7中记录了这些神经模型。报告的所有结果都是针对这种超参数的选择。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

根据表9，可以观察到在三者模型下，分析一个事件相关的一部分推文的效果就跟分析很多推文的效果区别不大了，也证实了上文的叙述。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

总结

研究的意义：

计算事实检查近年来已成为研究的趋势，比如新闻媒体有着从社交媒体平台收集的新闻摘要/快照的需求，根据可信度级别自动标记每个推文十分重要。

关于特征设计的思考：

有人可能会争辩说，包含非文本特征，特别是时间特征，可以使我们的预测更加准确。但是必须等待足够长的时间才能累积这种纵向数据。作者的方法可以及早做出预测。这可能非常重要，因为某些低可信度的事件（例如强烈的仇恨，完全伪造的事件）可能会通过引发社区暴动或真实战斗而造成严重破坏。尽早分析出可信度结果十分重要。

总结：

在这项研究中，我们对推文的特定语言特征进行了详细的语言描述，这些推文与具有一定可信度的事件相对应。我们发现标准的LIWC类别和Empath类别与可信度级别相关。利用这些社会语言功能以及现代深度学习机制，我们提出了检测事件可信度的模型。与性能最佳的基准相比，我们的准确性总体上提高了26％。甚至通过查看事件的前几个推文，我们得到的令人兴奋的结果是，可以使预测几乎与观察到整个推文的情况一样准确。通过这项工作，我们希望向研究社区表明，具有社会语言学特征的深度学习架构是对事件可信度进行分类的有效途径。从我们的工作中激发灵感的人可以尝试类似的方法来完成这一领域中的其他任务，也可以尝试使用基于transformer的最新嵌入技术来获得新的技术水平。

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Event on Twitter

A Sociolinguistic Route to the Characterization and Detection of the Credibility of Events on Twitter（Twitter上表征和检测事件可信度的社会语言学途径）

摘要

介绍

前置知识

可信度的定义和在文中的使用

贡献和主要结果

相关工作

数据集：CREDBANK corpus

事件的语言结构

可信度类别的划分

数据预处理

研究可信度和LIWC / Empath类别的关系

一些额外的发现

实验和模型结构

预测事件的可信度

几种Baselines模型

提出的模型

评估

实验结果

总结

相关推荐