多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)

13年-基于层级标签的社会标注模型研究-大连理工

摘要

多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)
多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)
如何应对系统伴随数据规模的扩大而来的功能和效率性的不足和下降。

这种问题的根本原因在于,目前各类标注系统主要采用基于扁平标签的社会标注模型,该模型特点是无结构的离散标注,并产生扁平无结构的标签集

该文提出一种基于层级标签的社会标注模型,鼓励用户在标注动作时就以层级标签形式表达和保存标签之间的简单语义关系。
多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)
4/5在讲评价,唯一的一章在讲方法,还讲的不清楚。
果断放弃这篇。


18年-层次多标签分类算法研究与应用-南邮

1.摘要

多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)
多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)
第一种算法光看摘要不太容易理解。
多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)
第二种神经网络算法就是为层次标签树的每一层都训练一个模型,
然后把多个模型链接在一起,拼接各层神经网络的输出作为最终输出。(常见操作)

2.相关工作

先讲多标签分类算法相关工作和往常的一样(多分类问题转二分类类和算法适应类),但没有提及神经网络方法。

再讲层次多标签分类相关工作
主要分为两类:
一种是局部方法,将层次多标签分类问题转化为在层次结构上的多个预测问题。(类似层次结构的每一层均训练一个模型,或每个节点均训练模型)
另一种是全局方法,对预测输出空间建立单一模型来预测所有输出。
(当标签层次结构非常庞大时,功能基因组中的分层结构可能有数千个标签节点,在这种情况下,每个标签节点学习模型在单机环境下是不可行的,需要借助大数据环境进行并行化来提高模型训练效率)
(我的评价:这里对于大规模标签集的想法是,大数据并行方法,对于标签层次结构较大的数据集,每一层均训练模型的复杂度必定非常高,这也是AttenionXML等等方法的劣势,这些方法仅能适用于个别数据集,非普世方法)

相关工作最后也指出该文提出两个算法对应上述相关工作的本质区别,基于路径选择的层次多标签分类属于局部方法,每一个父节点训练一个多类分类器,并通过在预测阶段对层次标签树剪枝来实现预测的路径未达到叶子节点即终止的情况。使用Spark分布式框架来对数量较多的多类分类器进行优化。(评价:终究不是个治本的方法)
该文提出的神经网络方法是每一层都训练个神经网络模型。

3.一些知识点

该文只关注树形结构的层次关系。
和有向无环图的区别在于,树形每个子节点只对应一个父节点,而有向无环图每个子节点是可以对应一个或多个父节点的(同咱知乎有向无环图数据集特性)
多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)
层次多标签分类相关算法:
多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)
(评价:该文指出,基于决策树的方法在层次多标签分类中较为普遍,类别层次往往以树形结构呈现-那么其实我们在知乎数据集上的处理是面向有向无环图的,这也是我们的一个优势,即我们如何处理子节点包含多个父节点的情况)

预测聚类树:
(我所知道的是probabilistic label tree (PLT))
这里却是预测聚类树(predictive clustering trees,PCTs)

树的root节点对应包含所有数据的一个聚类,树越向下,则将数据递归划分为更小的聚类。
可被用于解决多标签和层次多标签分类问题。

4.基于路径选择的层次多标签分类

和决策树流程一模一样,其实主体思路就是选择基分类器然后构建树,然后剪枝。
多标签分类-两篇硕士论文解读(创新点一般,但第二篇相关工作条理很好)
基分类器选用SVM等等。
评价指标使用匹配度、准确率、F1值。。(与大家论文里用的不太一样,不多介绍)

使用Spark分布式计算框架(算是特色吧。。)

5.基于神经网络的层次多标签分类

就是全连接网络和深一点的全连接网络。。
(评价:没有什么创新点,仍是每一层训练个模型)

(整体评价:论文前半部分的介绍很有条理,相关工作准备充足,第一个方法的描述如果举例子的方式来讲述,会更清晰,特色个人感觉是结合了大数据;第二个神经网络方法中规中矩吧)

还是得看顶会论文。。

以上内容来自天科大AI学院NLP组组会。