Computational Optimal Transport笔记——第二章(2)

符号说明
耦合矩阵 coupling matrix: PR+n×mP \in R^{n \times m}_{+},其中Pi,jP_{i,j}代表从 bin ii 移动到 bin jj(或者在离散情况下从xix_i移动到yjy_j)的质量。
Admissible coupling:
Computational Optimal Transport笔记——第二章(2)
(行和为aa向量,列和为bb向量的矩阵)
Lc(α,β)\mathcal{L_c}(\alpha, \beta) :在离散测度下的 Kantorovich problem。
Computational Optimal Transport笔记——第二章(2)
在任意测度下的 Kantorovich problem
Computational Optimal Transport笔记——第二章(2)
p-Wasserstein distance:
Computational Optimal Transport笔记——第二章(2)
在任意测度中的 p-Wasserstein distance:
Computational Optimal Transport笔记——第二章(2)

2. 理论基础

2.3 Kantorovich Relaxation

Kantorovich
Kantorovich 的核心思想是放松交通的确定性,即一个源点xix_i只能被分配到另一个点或位置yσiy_{\sigma_i}或者T(xi)T(x_i)。Kantorovich 建议 在任何地点的质量有可能被分配到几个地点。即Kantorovich 不再认为质量运输应该是确定性的,而是考虑一种概率运输,这种概率运输允许质量从一个源头分裂到几个目标。
不是使用排列σ\sigma或者 map TT,而是使用 coupling matixPR+n×mP \in R^{n \times m}_{+},其中Pi,jP_{i,j}代表从 bin ii 移动到 bin jj(或者在离散情况下从xix_i移动到yjy_j)的质量。
Admissible coupling的特征有:
Computational Optimal Transport笔记——第二章(2)
Computational Optimal Transport笔记——第二章(2)
【行和为aa向量,列和为bb向量】
可以看出,矩阵集合U(a,b)U(a,b)n+mn+m个等式约束,是一个凸多面体。

Kantorovich 的对称性
Kantorovich’s relaxed formulation是对称的,即耦合矩阵PPU(a,b)U(a,b)中当且仅当PTP^{T}U(b,a)U(b,a)中。

Kantorovich’s optimal transport problem
Kantorovich’s optimal transport problem是
Computational Optimal Transport笔记——第二章(2)
这是一个线性规划问题,与此类程序的通常情况一样,它的最佳解决方案不一定是惟一的。

Remark 2.10 (矿山和工厂)略

Permutation matrices as couplings 对于排列σPerm(n)\sigma \in Perm(n),我们将对应的排列矩阵PσP_{\sigma}写为
Computational Optimal Transport笔记——第二章(2)
此时有
Computational Optimal Transport笔记——第二章(2)
这表明assigment problem可以写为Kantorovich problem,当PP的约束为排列矩阵:
Computational Optimal Transport笔记——第二章(2)
可以计算得,PσU(1nn,1nn)P_{\sigma} \in U(\frac{1_n}{n}, \frac{1_n}{n}),但是不是在 U(1nn,1nn)U(\frac{1_n}{n}, \frac{1_n}{n})中所有的矩阵都是排列矩阵,例如1n1nT/n21_n 1_n^{T}/n^2。因此<C,P><C,P>更小
Computational Optimal Transport笔记——第二章(2)
接下来的定理说明两个问题有相同的最小值,也就是说可以找到一个permutation matrix最小化当a=b=1n/na=b=1_n/n 下 Kantorovich problem。
Computational Optimal Transport笔记——第二章(2)

Remark 2.11(在离散测度下的 Kantorovich problem)对于离散测度α,β\alpha,\beta,将于α,β\alpha, \beta的支撑集中的点两两之间的cost记入矩阵CCCi,j=def.c(xi,yj)C_{i,j}\xlongequal{def.} c(x_i,y_j),定义
Computational Optimal Transport笔记——第二章(2)
a,ba,b是支撑集中的概率权重向量。

Remark 2.12(使用 optimal assigments and couplings)OT问题的应用。
可作为阅读文献

Remark 2.13(任意测度下的 Kantorovich problem)在乘积空间上的联合分布中考虑 couplings
Computational Optimal Transport笔记——第二章(2)
在离散测度下
Computational Optimal Transport笔记——第二章(2)
在一般情况下,mass conservation constraint可以被写为联合概率分布下的 marginal constraint
Computational Optimal Transport笔记——第二章(2)
定义投影
Computational Optimal Transport笔记——第二章(2)
KaTeX parse error: Expected '}', got '#' at position 14: P_{\mathcal{X#̲}}KaTeX parse error: Expected '}', got '#' at position 14: P_{\mathcal{Y#̲}} 是投影的 push-forward。
这些 marginal constraints等价于
Computational Optimal Transport笔记——第二章(2)
Kantorovich问题(2.11)可以一般化为
Computational Optimal Transport笔记——第二章(2)
这是一个在测度空间上的无限维的线性规划问题。如果(X,Y)(\mathcal{X,Y})是紧空间,cc是连续函数,这个问题总是有解。
Computational Optimal Transport笔记——第二章(2)

Computational Optimal Transport笔记——第二章(2)

Remark 2.14(概率解释)Kantorovich’s problem可以通过随机变量解释,问题(2.15)可以等价为
Computational Optimal Transport笔记——第二章(2)
其中(X,Y)(X,Y)是在X×Y\mathcal{X \times Y}上的随机变量,并且X α\mathcal{X}~\alpha, Y β\mathcal{Y}~\beta
Computational Optimal Transport笔记——第二章(2)

2.4 Optimal Transport 的度量性质

实际上,OT可以被理解为一种将点与点之间的地面距离提升到直方图或度量值之间距离的标准方法。我们考虑这种情况 “ground metric” matrix CC 是固定的,代表 bins 之间的可替换 cost,并且在我们希望比较的 histogram 间共享。接下来的 Proposition 说明 OT 提供了在 bins 支撑下的 histogram 之间的合理距离。

Proposition 2.2 我们假设 n=mn=m,对于一些 p1p \geq 1C=Dp=(Di,jp)i,jRn×nC=D^p=(D_{i,j}^p)_{i,j} \in R^{n \times n},其中DR+n×nD \in R^{n \times n}_{+}[n][n] 上的距离,即
Computational Optimal Transport笔记——第二章(2)

Computational Optimal Transport笔记——第二章(2)
定义了在Σn\Sigma_n上的 p-Wasserstein distance。可证明WpW_p是对称、正定、满足三角不等式
Computational Optimal Transport笔记——第二章(2)

Remark 2.15(在0<p10<p \leq 1的情况)注意到如果0<p10<p \leq 1DpD^{p}是 itself distance。

根据 Proposition 2.2 和 Remark 2.15,当p1p \geq 1 时,Wp(a,b)W_{p}(a,b)是单纯形a,ba,b之间的距离。当p1p \leq 1时,Wp(a,b)pW_p(a,b)^p是纯形a,ba,b之间的距离。

Remark 2.16(Wasserstein distance 的应用)

Remark 2.17(在测度间的 Wasserstein distance)Proposition 2.2 可以被一般化为处理任意测度。
Proposition 2.3 假设X=Y,p1,c(x,y)=d(x,y)p\mathcal{X=Y}, p\geq 1, c(x,y)=d(x,y)^{p},其中ddX\mathcal{X}上的距离,即
Computational Optimal Transport笔记——第二章(2)
则在 X\mathcal{X} 上的 p- Wasserstrin distance 可以表示为
Computational Optimal Transport笔记——第二章(2)
可证明WpW_p具有对称、非负和三角不等式
Computational Optimal Transport笔记——第二章(2)

Remark 2.18(几何直觉和弱收敛)Wasserstein距离最重要的一个性质就是它是一个弱距离,即它允许比较支撑集不重叠的奇异分布(例如,离散分布)并量化两个分布之间的空间位移。
在经典的距离(或收敛)不会在离散分布中定义(L2范数只能应用于相对于基础测度具有密度的连续测度,而离散L2范数要求位置(xi, yj)取预先确定的离散集中的值才能正常工作)。
鲜明对比的是,对于任何p>0p>0Wpp(δx,δy)=d(x,y)\mathcal{W_{p}^{p}}(\delta_{x},\delta_{y})=d(x,y)
注意到 U(δx,δy)={δx,y}\mathcal{U}(\delta_x,\delta_y)=\{\delta_{x,y}\},因此Kantorovich问题有唯一可行解,Wpp(δx,δy)\mathcal{W_{p}^{p}}(\delta_{x},\delta_{y}),
(d(x,y)p)1p=d(x,y)(d(x,y)^{p})^{\frac{1}{p}}=d(x,y)。这说明如果xyx\to y , Wp(δx,δy)0\mathcal{W_{p}}(\delta_{x},\delta_{y}) \to 0。这说明Wp\mathcal{W_p}是一种弱收敛的方式。
定义 2.2(弱收敛)X\mathcal{X}为紧区域,在M+1(X)\mathcal{M_{+}^{1}(X)}(αk)k(\alpha_k)_{k}弱收敛于α\alpha当且仅当对于任何连续函数gC(X)g \in \mathcal{C(X)}XgdαkXgdα\int_{\mathcal{X}} g d\alpha_k \to \int _{\mathcal{X}} g d\alpha
记为αkα\alpha_k \rightharpoonup \alpha
如果对于非紧区域,需要对gg加上另外的条件。这个弱收敛的概念对应于随机向量法则中的收敛。
可以证明弱收敛和Wp(αk,α)0\mathcal{W_p}(\alpha_k, \alpha) \to 0是等价的。(对于*度量空间,将矩收敛到p阶。)

Remark 2.19(平移)在欧几里得空间 X=Rd\mathcal{X}=R^d,ground cost c(x,y)=xy2c(x,y)=\Vert x-y \Vert^2 的 Wasserstein distance的特征是解析为平移,即Tτ:xxτT_{\tau}: x \mapsto x-\tau为平移算子,有
W2(Tτ#α,Tτ#β)2=W2(α,β)22<ττ,mαmβ>+ττ\mathcal{W}_2(T_{\tau \#}\alpha,T_{\tau' \#}\beta)^2=\mathcal{W_2}(\alpha, \beta)^2-2<\tau-\tau', m_{\alpha}- m_{\beta}>+\Vert \tau-\tau' \Vert
其中mα=def.Xxdα(x)Rdm_{\alpha} \xlongequal{def.} \int_{\mathcal{X}} x d\alpha(x) \in R^dα\alpha的均值。特别,这个距离可以分解为
W2(α,β)2=W2(αˉ,βˉ)2+mαmβ2 \mathcal{W_2}(\alpha, \beta)^2= \mathcal{W_2}(\bar{\alpha}, \bar{\beta})^2+\Vert m_{\alpha}-m_{\beta} \Vert^2
其中(αˉ,βˉ)(\bar{\alpha},\bar{\beta})是“居中的”零平均度量 αˉ=Tmα#α\bar{\alpha}=T_{m_{\alpha}\#}\alpha

Remark 2.20(当p=+p=+\infty的情况)当p+p \to +\inftyWpp\mathcal{W}_p^pComputational Optimal Transport笔记——第二章(2)
相比于p<+p<+\infty的情况,这是一个非凸优化问题,难于数值求解和理论研究。W\mathcal{W}_{\infty}距离与在(α,β)(\alpha, \beta)支撑下的Hausdorff距离有关。

Computational Optimal Transport笔记——第二章(2)