Abstract

典型相关分析（Canonical Correlation analysis）是研究两组变量（每组变量中都可能有多个指标）之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系

提示：这里将涉及到多元统计的知识，在学过了主成分分析模型后再过来看比较合适

一引入

1.1 举个栗子

数模学习（六）---典型相关分析

1.1.1 发现问题

通过上表我们来探究观众和业内人士对一些电视节目的观点之间存在着什么关系，其中观众评分来自低学历（led）、高学历（hed）和网络（net）调查三种，他们形成第一组变量；而业内人士评分来自包括演员和导演在内的艺术家（art）、发行（com）与业内各部门主管（man）三种，形成第二组变量
我们直接对这些变量的相关进行两两分析，很难得到关于这两组变量（观众和业内人士）之间关系的一个清楚的印象

1.1.2 解决思路

因此，我们需要把多个变量与多个变量之间的相关化为两个具有代表性的变量之间的相关

1.1.3 选出代表

代表:能较为综合、全面的衡量所在组的内在规律
一组变量最简单的综合形式就是该组变量的线性组合

二典型相关分析

2.1 典型相关分析的定义

典型相关分析的基本思想和主成分分析十分相似
它按以下步骤进行分析：

首先在每组变量中找出这些变量的线性组合，使得两组的线性组合之间具有很大的相关系数
然后选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一堆
如此继续下去，直到两组变量之间的相关性被提取完毕为止
被选出的线性组合配对称为典型变量，它们的相关系数被称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度

2.2 典型相关分析的思路

假设两组变量分别为： $X^{1}=(X_{1}^{1}、X_{2}^{1}...X_{p}^{1})，X^{2}=(X_{1}^{2}、X_{2}^{2}...X_{q}^{2})$
分别在两组变量中选取若干有代表性的综合变量 $U_{i}、V_{i}$ ,
使得每一个综合变量是原变量的线性组合，即
$U_{i} = a_{1}^{(i)}X_{1}^{(1)}+a_{2}^{(i)}X_{2}^{(1)}+...+a_{p}^{(i)}X_{p}^{(1)} \equiv \boldsymbol {a^{(i')}X^{(1)}} \\ V_{i} = b_{1}^{(i)}X_{1}^{(2)}+b_{2}^{(i)}X_{2}^{(2)}+...+b_{q}^{(i)}X_{q}^{(2)} \equiv \boldsymbol {b^{(i')}X^{(2)}} \\$
注意：综合变量的组数是不确定的，如果第一组就能代表原样本数据大部分的信息，那么一组就足够了。假设第一组反应的信息不够，我们才需要找第二组了。
并且为了让第二组的信息更有效，需要保证两组信息不相关
$不相关：cov(U_{1},U_{2})=cov(V_{1},V_{2})=0$
**第一组要满足的条件：**在 $var(U_{1})=var(V_{1})=1$ 满足的条件下，找到 $a^{1}$ 和 $b^{1}$ 两组系数，使得 $\rho(U_{1},V_{1})$ 最大
为什么要固定这个条件呢？
因为相关系数与量纲无关： $\rho(U_{1},V_{1})=\rho(aU_{1},bV_{1})$

2.3典型相关分析关键步骤¹

数据的分布有假设：两组数据服从联合正态分布
在实际分析应用中，总体的协差阵通常是未知的，往往需要从研究的总体中随机抽取一个样本，根据样本估计出总体的协差阵，并在此基础上进行典型相关分析
首先要对两组变量的相关性进行检验（构造似然比统计量），p值小于0.05（0.1）表示在95%（90%）的置信水平下拒绝原假设，即认为两组变量有关
在利用样本进行两组变量的典型相关分析时，应该就两组变量的相关性进行检验。这是因为，如果两个随机变量 $X^{1}、X^{2}$ 互不相关，则两组变量协差阵 $Cov(X^{(1)},X^{(2)})=0$ .但是有可能得到的两组变量的样本协差阵不为0.
因此，在用样本数据进行典型相关分析的时候应该就两组变量的协差阵是否为0进行检验。即检验假设
$H_{0}:\sum_{12}=0, \qquad H_{1}:\sum_{12}\neq 0$
根据随机向量的检验理论可知，用于检验的似然比统计量为
$\Lambda_{0}=\frac{\vert \hat{\sum} \vert}{\vert \hat{\sum}_{11}\vert \vert\hat{\sum}_{22}\vert}=\mathop\Pi\limits_{i=1}^{r}(1-\hat{\lambda}^{2})$
确定典型相关变量的个数（直接看典型相关系数对应的P值即可）
如果总体典型相关系数 $\lambda_{k}=0$ ,则相应的典型变量 $U_{k},V_{k}$ 之间无相关关系，因此对于分析 $X^{(1)}$ 对 $X^{(2)}$ 的影响不起作用，这样的典型变量可以不予考虑，于是提出如何根据样本资料来判断总体典型相关系数是否为零，以便确定应该取几个典型变量的问题。
巴特莱特（Bartlett）提出了一个根据样本数据检验总体典型相关系数 $\lambda_{1}、\lambda_{2}、...、\lambda_{r}$ 是否等于零的方法。检验假设为：
$H_{0}:\lambda_{k+1}=\lambda_{k+2}=...=\lambda_{r}=0 \\ H_{1}:\lambda_{k+1}\neq 0 \\ 用于检验的似然比统计量为:\\ \Lambda_{k} = \mathop\Pi\limits_{i=k+1}^{r}(1-\hat{\lambda_{i}^{2}})$
利用标准化后的典型相关变量分析问题
进行典型载荷分析

以上结果说明了生理指标的第一典型变量与体重的相关系数为**-0.621**，与腰围的相关系数为**-0.925**，与脉搏的相关系数为0.333，这个从另一方面说明了生理指标的第一对典型变量与体重、腰围负相关，而与脉搏正相关。其中与腰围的相关性最强，因此第一对典型变量主要反映了体形的胖瘦
计算前r个典型变量对样本总方差的贡献
由上图计算得
$第一典型变量解释的方差比例：\\ (0.621^2 + 0.925^2 + 0.333^2)/3 = 0.451\\ 第二典型变量解释的方差比例：\\ (0.772^2 + 0.377^2 + 0.041^2)/3 = 0.246\\ 第三典型变量解释的方差比例：\\ (0.135^2 + 0.031^2 + 0.942^2)/3 = 0.302\\$

三 SPSS操作步骤

Spss至少需要24版本。低版本不能直接进行典型相关分析的操作，需要编程
第一步：导入数据
数模学习（六）---典型相关分析
第二步：检验数据的类型

第三步：点击菜单功能

第四步：将数据移动到对应的集合

第五步：导出分析结果

第六步：对结果进行分析

这里表格最后一列表示检验统计量所对应的p值，要通过它确定典型相关系数的个数，过关的只有第一对，将它对应的集合的相关系数表示为：数模学习（六）---典型相关分析
典型变量每个分量前面的系数代表重要程度，可以结合典型相关系数进行分析
之后选择性的分析典型载荷和方差解释程度