论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

摘要:社会网络中用户之间存在情感链接(sentimentlinks)。在个人广告和公众舆论分析等许多领域,预测情感链接的迹象是一项基本任务。前人研究仅关注文本,还有用户资料和社会关系等却未被考虑。本文研究了如何在异构信息存在的情况下预测可能存在的sentiment links.


introduction:在在线社交网络中对便宜、电影明星、政要等发表感想,形成用户间的sentiment links(不单单局限于follow的关系,是用户发出的语义暗示(sign),positive negative)。

情感分析不能捕获没有任何先验内容信息但可能存在的sentimentlinks。那么该怎么预测?(这类问题广泛应用在在线服务中,如个性化广告、新朋友推荐、公众意见分析、民意调查)挑战:缺乏标签、情绪复杂、稀疏。已有Network embedding 的研究,只适用于具有正加权的网络和、单一类型网络。

本文首先(利用最先进的实体层次情感提取方法)建立微博有标签的异构情感数据集(用户情感关系、社会关系、用户资料),然后增加社会关系和用户及名人画像描述。(社交网络的结构信息可以影响用户对在线项目的偏好,来自知识库的信息可以提高推荐的性能。) 提出的SHINE(signed heterogeneousInformation network embedding)框架能够学习用户表示(自编码器),并能预测异构网络的情感链接SHINE预测,灵活的增加或删除side information.(section 5) 实验任务:链接预测、节点推荐;还利用Side information解决了冷启动问题


Section 2 Related work

2.1 signed link prediction

       涉及signed social networks(信任传播、光谱分析、社交媒体挖掘)参考文献【14,31 ,21】


2.2 Network embedding

 DeepWalk,LINE,Node2vec SDNE等都只适用于无符号的同构网络。2,32研究异构网络,10研究属性网络或2933研究有符号的网络。但只适用于特定类型的网络,不适用于sentiment 网络中的prediction。


Section 3  Data collection

       用(中文文本分割工具)JieBa标记推文的每个词的词性(POS, Part of speech,POS tagging 有person name)  ,估计每个推文中针对某个名人的的情感值(-1 ~ +1) 并却出高情感值的推文。最后的数据集是三元组(a,b,s)的集合。a:user b:celebrity s:value .具体怎么估计的看后面。

Social Relation: 微博的社会关系,用二元组(a,b)表示a follow b。

Profile of Ordinary User:提取性别gender 和位置location 作为概要信息。属性值用one-hot vector来表示。

Profile of Celebrities: 微软Satori3知识库来提取名人的简介.名人属性(离散值):出生地、出生日期、种族、国籍、专业、性别、身高、体重和星座。表示为one-hotvector.

3.2 情感抽取 

     生成情感词典, 包括词汇和情绪导向值(SO)。还有表情-情感映射文件。如([kiss], positive)。可能某个词用的是反义,因此不一定成对应关系。定义对每个词的SO为 【归一化到-1~1之间】论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》



Ti:( ri , θi)  是在LTP生成的语法依赖图中c和ti之间距离的倒数。θi = SO(ti ) *π.

则 SO(ti)>0在上方,<0在下方。因此,对名人c的总体情感是近似于所有词的几何中心。我们将y轴上的几何中心的投影作为最终的情感价值指向名人。并验证了数据集精度为95..2%

Section 4 问题定义


Sentiment network & socialnetwork  & Profile network

(1) Gs: Sentiment network  (V,S):有向图。 +1 -1 0 分别表示 positive negative unobserved

(2) Gr :Social network :  (V,R)有向图,表示follow的关系。

(3) Gp:Profile network:( V,U,P) 无向图。 U是每种属性的每种值的集合(K种属性,K(L)种值,求和)P是links,Pij, i属于V j属于U  

论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

Sentiment linksPrediction:定义如下:给定Gs Gr Gp,,预测Gs中未观测到的用户之间的links

Section 5 有符号的HINembedding (SHINE)


5.1 Framework


论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

5.2   Sentiment network embedding

       用向量xi表示sentiment network 中所有的入边和出边。自编码器是一个无监督的神经网络模型,可以处理高非线性网络结构,有两部分组成:encoder 和deconder.

论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

输入 Xi,  论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》


最后的输出层为xi’ = xi(Ks)

损失:论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

其中:论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》是情感重建权重向量,

论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

5.3 social networkembedding

与 Sentiment network embedding类似。

输入论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》 其中论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

5.4 Profile network embedding

  论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》 U:属性 V 用户

  论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》维度是所有属性值的个数

论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

5.5 表示的聚合和情感预测

对于user i ,将xiyi zi聚合成ei 函数为 g(*,*,*) 可用的g():

论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

看framework中的图,两个用户 ei   ej  预测 sij 函数为f(i,j)   如:

论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

5.6 优化

完整的目标函数:论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

最后一项是正则化项:论文阅读《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》

用AdaGrad 算法优化

5.7 讨论

(1)非对称性:f()选择非对称函数 或  将e1 e2分开用不同的自编码器提取源和目的节点的表示。

(2)冷启动:加入了Sideinformation(另外两个网络)到target 网络(sentimentnetwork)中,因此对于新的没有sentiment link的节点,可以利用side information解决冷启动的问题。

(3)灵活性:可以加入或删除其他的属性作为side information(Gp网络中)、可以选择不同的聚合函数、近似度量函数。

Section 6 实验

6.1 数据集 Weibo-STC& Wiki-RfA(只验证sentiment autoencoder 的效率)

6.2 baseline: LINE + node2vec+SDNE embedding的结果连接起来。

FXG:在weibo-stc数据集上跑,只利用sentiment network作为输入,然后做链接预测。


6.3 参数设置

       Ks=4     g()为concatenation;  f()为 innerproduct ;


 6.4 link prediction

       Node recommendation:  为每个已存在用户提供一个用户集合,已存在的用户没有对用户集合中的成员表达过态度。计算每个用户对其他用户的情感值,选择最大的K个值作为推荐(包括like 和dislike,即:positive & negative)

度量:positive and negative [email protected] and [email protected]



