SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

Finding Camouflaged Needle in a Haystack? Pornographic Products Detection via Berrypicking Tree Model

Guoxiu He, Yangyang Kang, Zhe Gao, Zhuoren Jiang, Changlong Sun, Xiaozhong Liu, Wei Lu, Qiong Zhang, Luo Si

Wuhan University, Alibaba Group, Sun Yat-sen University, Indiana University Bloomington

http://47.96.153.156/pubs/2019/09/17/ab7b85fb-8717-4204-9f70-ba2150f48fb2.pdf

http://delivery.acm.org/10.1145/3340000/3331197/p365-he.pdf

http://sigir.org/sigir2019/slides/10.1145-3331184.3331197.pdf

 

 

对于电商服务(如eBay, eBid 和淘宝)来说,检测非法产品既重要又紧迫。但是,该项任务具有一定的挑战性,因为一些卖家可能会利用和更改伪装文本来欺骗检测算法。

 

这篇文章旨在解决如何从大量产品中动态定位色情产品。先前有些论文将关注点放在基于文本信息进行产品分类,而这篇文章所提出的模型BerryPIcking TRee MoDel(BIRD)利用产品的文本内容和买方的搜索行为信息作为采莓树。

 

具体而言即为,BIRD在整个搜索过程中,将所有分支序列的语义信息和整体潜在的购买者意图进行编码。

 

大量实验表明本文方法相对其他方法的优势。

 

 

电子商务中的检测系统图示如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

采莓模型简短的解释如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

BerryPicking Tree图示如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

这篇文章所提出的模型及亮点在于

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

本文主要贡献如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

问题描述如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

 

BIRD整体结构图示如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

pooling及注意力机制的用途如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

所有分支合并的策略如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

这篇文章还提出了BPTRU

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

一些表达式形式如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

考虑双向以及均值pooling之后可以得到以下结果

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

剪枝策略如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

最终输出利用两层mlp来实现

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

数据集来源如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

数据集信息统计如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

参与对比的几种方法如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

几种不同的特征组合如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

几种基准模型描述如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

衡量指标如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

参数设置如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

两种类别中,产品内容单词的分布差异对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

对应的kl散度为

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

其中几个缩写对应的解释为

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

一个session内查询次数及记录数对比,购买次数对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

几种方法的分类效果对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

其中SWEM对应的论文为

Baseline needs more love: On simple word-embedding-based models and associated pooling mechanisms, ACL 2018

代码地址

https://github.com/dinghanshen/SWEM

 

Transformer对应的论文为

Attention is all you need, NIPS 2017

代码地址

https://github.com/jadore801120/attention-is-all-you-need-pytorch

https://github.com/Lsdefine/attention-is-all-you-need-keras

https://github.com/Kyubyong/transformer

https://github.com/tensorflow/models/tree/master/official/transformer

 

 

DPCNN对应的论文为

Deep pyramid convolutional neural networks for text categorization, ACL 2017

代码地址

https://github.com/Cheneng/DPCNN

 

 

BiGRUCNN对应的论文为

A hybrid framework for text modeling with convolutional RNN, SIGKDD 2017

代码地址

https://github.com/castorini/castor/tree/master/conv_rnn

 

CNNLSTM对应的论文为

A C-LSTM neural network for text classification

代码地址

https://github.com/bicepjai/Deep-Survey-Text-Classification/tree/master/deep_models/paper_14_clstm

 

BiLSTM对应的论文为

LSTMbased deep learning models for non-factoid answer selection, ICLR 2016

代码地址

https://github.com/sachinbiradar9/Question-Answer-Selection


SimpleCNN对应的论文为

Convolutional neural networks for sentence classification, EMNLP 2014

代码地址

https://github.com/yoonkim/CNN_sentence

 

 

不同特征组合的效果对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

 

本文方法跟其他几种方法的效果对比如下

SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

 

其中BPTRU为

Berrypicking Tree Recurrent Unit

 

 

代码地址

https://github.com/GuoxiuHe/BIRD