Joint Embedding Learning and Low-Rank Approximation: A Framework for Incomplete Multiview Learning (TCYB2019)

论文链接：https://ieeexplore.ieee.org/abstract/document/8920218

1 论文主要贡献

提出了一种用于不完整多视图学习的框架：Joint Embedding Learning and Low-Rank Approximation (JELLA)，是目前比较流行的不完整多视图学习方法的一般形式，同时利用 JELLA 可以快速将一些多视图学习方法转化为不完整多视图学习方法，有种自适应的思想；此外在 JELLA 下，为不完整多视图学习(IML)提出了一种 block-diagonal 表示方法。

2 论文主要内容

2.1 Introduction

Multi-view 中两种数据缺失的情况：
• missing-view setting：某些视图整个缺失；
• missing variables setting：某些视图中部分变量缺失。
Missing-view setting 与 missing variables setting 共同构成了 incomplete-view setting.
在传统的多视图学习算法中，通常有两种方法来处理不完整的多视图数据：
• 一种方法是丢弃不完整的示例，这会导致丢失可用信息；
• 另一种方法是用可用样本的平均值填充缺失样本，并通过传统的矩阵完成算法补充缺失变量。这样可以保存一些有用的信息，但是仍然会产生误差
为了处理缺少视图的多视图数据，近年来提出了以下的方法(2.2 中详细介绍)：
• Partial multiview clustering (PVC)：仅针对 missing-view 的情况，通过 NMF 学习完整表达；
• Multiview learning with incomplete views (MVL-IVs)：基于子空间学习的思想，通过 multiview matrix completion 方法恢复不完整样本；
• Incomplete multimodality grouping (IMG)：将几何信息合并到表示中，并设计了 IMG 方法。具体来说，IMG 在公共表示上强加带有自动学习图的流形正则化，以增强分组可辨性。
• Doubly aligned incomplete multiview clustering (DAIMC)：基于加权半 NMF，开发了 DAIMC 算法，同时对齐了样本和基础矩阵。
基于以上四种方法的相似之处，本文提出 JELLA 框架，引入一组低秩矩阵来近似不完整表示。如果没有丢失，则近似矩阵的项将被约束为等于原始数据矩阵的对应项。然后，采用映射函数（例如，线性变换）的概念来从多个视图中学习完整和通用的嵌入。即，通过使用多个视图的兼容和互补信息，将近似数据矩阵映射到公共表示矩阵。
JELLA 优点：
• 将 PVC、MVL-IVs、IMG、DAIMC 统一到一个框架中；
• 在此框架的指导下，为完整的多视图数据开发的某些先前的多视图算法可以直接适用于 IML.

2.2 JELLA

Joint Embedding Learning and Low-Rank Approximation: A Framework for Incomplete Multiview Learning
其中， $X^{(v)}\in \mathbb{R}^{d^{(v)}×n}$ 为第 $v$ 个视图的原始数据矩阵； $Z^{(v)}\in \mathbb{R}^{d^{(v)}×n}$ 为第 $v$ 个视图补全后的数据矩阵(秩为 $r$ )； $U^{(v)}\in \mathbb{R}^{d^{(v)}×r}$ 为第 $v$ 个视图的转换矩阵(可以理解为映射函数)； $W\in \mathbb{R}^{r×n}$ 为统一表达矩阵； $\Gamma ^{(v)}\in \mathbb{R}^{d^{(v)}×n}$ 为第 $v$ 个视图的样本索引矩阵，即 $X^{(v)}_{ij}$ 不缺失对应 $\Gamma ^{(v)}_{ij}=1$ ，否则为 $0$ ； $f^{(v)}(.)$ 为loss function； $\mathcal{R}_1(U^{(v)})$ 和 $\mathcal{R}_2(W)$ 分别为 $U^{(v)}$ 与 $W$ 的正则项。第一个约束条件保证当数据不缺失时， $Z$ 与 $X$ 的对应项相等； $\mathcal{C}^{(v)}_1,\mathcal{C}_2$ 分别为 $U^{(v)}$ 与 $W$ 的约束。
如果原始矩阵 $X$ 是完整的，那么就不用学习低秩矩阵 $Z$ 了，此时 JELLA 退化为 complete multiview model. JELLA 框架能够灵活地处理不完整 or 完整多视图学习，缩小完整的多视图学习与 IML 之间的差距。
Multiview learning 统一到 JELLA 框架中，如下图所示：
Joint Embedding Learning and Low-Rank Approximation: A Framework for Incomplete Multiview Learning
Optimization Strategy ：交替优化即可

2.3 IML-BDR

BDR: Block Diagonal Regularizer. 最近的一项研究表明，具有块对角性质的方法促进正确的子空间聚类。为了提高学习的嵌入矩阵 $W$ 的可分辨性，本文引入 k-BDR 矩阵 $B\in\R^{n×n}$ 来自我表达 $W$ ，即 $W = WB$ (note: B 不是单位阵)。
Deﬁnition 1 (k-Block Diagonal Regularizer): Given a similarity matrix $B\in\R^{n×n}$ , the k block-diagonal regularizer is deﬁned as the sum of the $k$ smallest eigenvalues of $L_B$ , that is,
Joint Embedding Learning and Low-Rank Approximation: A Framework for Incomplete Multiview Learning
$L_B$ 是 $B$ 的拉普拉斯矩阵， $\sigma_i(L_B)$ 是 $L_B$ 的第 $i$ 小的特征值；若对 $L_B$ 施加秩约束，则图结构中的连通分量个数等于 $L_B$ 特征值中 $0$ 的个数。
IML-BDR 的目标函数:
Joint Embedding Learning and Low-Rank Approximation: A Framework for Incomplete Multiview Learning
引入矩阵 $P$ 保证了 $P$ 和 $B$ 的子问题为强凸，当 $\beta$ 足够大时，Eq(3)第二项等同于 $\alpha||W-WB||^2$ ； $B=\left\{B|diag(B)=0,B=B^T,B\ge0\right\}$ .
Optimization Strategy ：先借助对角矩阵分解，把 k-Block Diagonal Regularize 项转化成凸优化，然后交替优化，直接偏导置 $0$ 即可。
Joint Embedding Learning and Low-Rank Approximation: A Framework for Incomplete Multiview Learning

2.4 实验设置

Data sets

MSRC-v1: 240 images belonging to 8 classes, 选择其中 210 幅，7 类图像；采用 SIFT(200 维)，LBP(256 维)；
Yale: 165 grayscale face images of 15 individuals, 采用 SIFT (50 维), GIST (512 维) 和 LBP (256 维)； Corel5k: 4999 images from 50 categories, 采用 GIST (512 维), DenseSIFT (1000 维)和 DenseHue (100 维)；
Caltech101: 101 kinds of objects, 选择其中 441 幅，7 类图像；采用 SIFT (200 维), SURF (200 维)和 LBP (256 维)；
Trecvid: 1078 video shots belonging to 5 categories, 采用 the text feature (1894 维)和 the HSV color histogram (165 维)；
PIE: 11554 samples belonging to 68 categories, 采用 SIFT (50 维)和 LBP (256 维)。
Missing-view setting：随机选择 $m$ 个百分比（10％到 50％）的示例，并从每个示例中随机丢弃一个视图；
Incomplete-view setting：第一步与 missing-view setting 相同，即随机选择 $m％$ （10％至 50％）的示例，并为每个示例删除一个随机视图。然后，在每个视图上，从其余示例形成的矩阵中随机删除 $m％$ （10％到 50％）的项。

Baseline

PVC, MVL-IV, IMG, DAIMC;
MIC (Multiple incomplete views clustering via weighted non-negative matrix factorization with $L_{2,1}$ regularization);
iRMKMC (Multi-view K-means clustering on big data).

Evaluation

RMSE ( $↓$ ): root-mean-square error;
NMI ( $↑$ ): normalized mutual information;
AdjRI ( $↑$ ): adjusted rand index.

Joint Embedding Learning and Low-Rank Approximation: A Framework for Incomplete Multiview Learning