BARRA USE4翻译 part4
4. 因子协方差阵
4.1 模型构建
因子协方差阵预测了因子的波动性和相关性,因此代表了两个构建高质量风险模型的关键因素。USE4因子协方差阵的构建建立在Barra全球权益模型,GEM2方法的基础上,在 Menchero, Morozov,and Shepard (2008)中有描述。本节中,我们简要回顾了这些方法,方法的创新和加强在4.2,4.3节中展开。
估计USE4因子协方差阵通过若干步骤完成。第一步是通过日收益率计算因子相关矩阵,我们使用指数加权平均的方法,通过因子相关性半衰期系数。这种方法对近期的观测更高的权重,是处理不平稳数据的一种有效方法。
确定半衰期时必须十分小心,为了得到一个好的相关系数矩阵,半衰期必须足够长使得有效观测数T大于因子数K。一个病态的因子协方差阵在组合优化中可能会出问题,如果积极投资组合中使用了虚假的低因子风险。另一方面,如果半衰期过长,会在时间很远的样本上设置不恰当的权重,这些样本跟当前市场状态关系很小。因此,在这两种限制中找到一种平衡对于得到一个可信的相关矩阵非常重要。
USE4模型的估计范围是一个月,但因子相关矩阵是由日收益率数据估计得到的,因此我们必须考虑因子收益序列相关的可能性,因为这可能长期影响风险预测。
USE4中,我们使用Newey-West方法(1987)控制序列相关的影响。使用这种方法,有一个重要参数:滞后期数,这个参数表示了自相关的最大天数,例如, 表明任何因子的收益与任何其他因子的收益在两天的维度上有相关性。
估计因子相关矩阵的另一个难题源于因子收益的缺失,在全球模型中,国家法定节假日可能导致因子收益的缺失,在单一国家模型中,缺失因子收益可能是由于使用了不同长度的数据。例如,互联网因子只在截面回归的开始日期之后才有。
再有因子缺失的情况下,我们使用EM算法(Dempster 1977)估计相关系数矩阵,这种算法通过迭代程序估计相关系数矩阵,在确保相关系数矩阵半正定的条件下,EM算法还能提高相关系预测的精度。
得到相关系数矩阵之后,下一步是计算因子波动率,我们使用半衰期 指数加权平均的方法。估计因子波动率的时候,考虑到因子收益 阶自相关,我们也使用了Newey-West方法。随后,我们得到了初始的协方差阵,其中,因子i和因子j直接的协方差为
其中,和是因子波动率,是他们的相关系数。
寻找恰当的波动率半衰期对于建立模型非常重要,一方面需要考虑在模型的精确性和响应性之间做权衡,另一方面也涉及模型的稳定性。如果半衰期过长,模型会给时间很早的数据不恰当的权重,虽然他们与现在市场相关性不高。这样会得到一个稳定的风险预测,但是会减少模型精度。相反,半衰期很短使得模型响应性很高,加强了风险预测, 但是也增加了结果的灵敏性。
总的来说,波动性半衰期应该比相关性半衰期短,因为矩阵对角元的样本误差对于协方差阵的影响很小,但非对角元的影响会很大。当然,波动性半衰期不能任意小,如果太小,样本误差非常影响结果,使得风险预测既不稳定也不精确。
表4.1中展示了模型USE4S和USE4L中使用的参数。VRA半衰期在4.3中叙述。
4.2特征因子风险调整
1952年,马科维茨提出了构建有效投资组合的均值方差模型,模型的输入变量包括各项资产的收益及资产协方差阵,输出为给定风险水平下,最大化组合期望收益的最优投资组合,这一框架奠定了现代投资组合理论的基础,开创了学术界的先河,并在量化投资领域有广泛应用。
鉴于均值方差模型的吸引力,很难想象从提出到经验证明模型有低估最优组合的风险的倾向过去了40多年(Muller 1993),再往后,Shepard(1993)推导出一个解析结果证明了模型存在巨大偏差,在正态性,平稳性,多资产组合假设(N很大)下,有
其中,是最优投资组合的真实波动率,是模型预测的结果,K是因子个数,T是用来计算协方差阵的有效观测样本数,偏差的主要来源是估计误差。总的来说,在样本内很好对冲风险的股票在对冲样本外风险时不那么有效。
USE4模型的一个重要创新之处是找出了能有效确定偏差的投资组合,为了与因子协方差阵建立联系,本节给出了这一方法的高度总结,其他细节在附录B中列出,更多分析讨论参见Menchero,Wang,Orr(2011)。
最优投资组合风险的低估与特征因子紧密相连,数学上讲,特诊因子是因子协方差阵的特征向量,金融上看,他们代表了互不相关的纯因子组合。
图4.1中我们报告了用方程4.1算出的协方差阵的特征因子偏差统计量,如附录A中所述,偏差统计量表示了真实风险占预测风险的比例。因子收益通过USE4模型得出,计算的参数与USE4S模型的参数相同,在表4.1中列出。我们将特征因子标准化后从低波动率到高波动率排序。图4.1展示了偏差统计量和特征因子及特征因子数间稳健直接地联系。更确切的说,波动率最低的特征因子的真实波动率比预测波动率高40%,超出95%置信区间(水平虚线),相反,随着特征因子增大,大部分都落入置信区间内。
尽管这些结论是有趣的,量化投资经理对最优投资组合更感兴趣。为了研究这方面,我们在因子层面从标准正态分布中生成了100个随机的信号,每个信号不随时间变化,但在每月初被中心化以确保市值加权为0。随后,我们构建最小化风险因子投资组合,约束条件为。图4.2中,我们画出了最优投资组合的偏差统计量,我们发现100个偏差统计量都落在置信区间外,这是最优投资组合风险被低估的经典例子。
如附录B中所述,我们可以通过蒙特卡洛模拟估计特征因子的偏差大小,尽管我们不能直接观测到真实的因子协方差阵,我们可以假设在某种时刻样本协差阵代表了真实的协差阵。我们随后通过以样本协差阵导出的多元正态分布模拟了因子的历史收益(例如,使用 Cholesky 分解)。对于每一个历史,我们计算了模拟的因子协方差阵,通过比较模拟特征因子的波动率和“真实”波动率(使用样本协方差阵),我们可以确定模拟波动率偏差大小。
图4.3中我们画出了整个样本周期上的平均模拟波动率偏差,定量地讲,图4.3与图4.1非常相似,表明模拟可以有效获取偏差。但是,可以看出真实偏差与模拟偏差有数量级上的差异,真实偏差更大。考虑到模拟是基于正态性和平稳性假设,这都与现实条件相悖。如附录B中所述,要消除特征因子的偏差,需要进行较大的调整。我们将其称为比例调整,定义由附录B中方程B8给出。相比之下,图4.3通过方程B7获得,我们将其称为模拟调整。
由因子样本协方差阵和因子模拟协差阵估计量相同,我们假设他们偏差相同,之后对因子样本协方差阵进行调整,最终,如附录B中所述,把它旋转到最初的纯因子。
图4.4中,我们展示了通过特征调整协方差阵计算的偏差统计量,结果根据附录中方程B8计算得到,可以看出,现在大部分样本落在执行区间内,表明预测风险是无偏的。此外,偏差统计量和特征因子数量的关系现在接近水平,跟图4.1中差异巨大。
再次重申,尽管结果看上去很好,但量化投资经理的兴趣点并不在于特征因子,而是最优投资组合。图4.5中我们报告了与图4.2相同的alpha信号得到的最优投资组合的偏差统计量,结果通过方程B8调整得到,结果表明特征调整协方差阵也基本上消除了最优投资组合的偏差。
如Menchero, Wang, and Orr (2011)中所述,特征因子风险调整可能使纯因子由微小偏差,尤其是波动率最小的因子(比如风格因子),它们的波动率会略微增大。
为了减轻这种影响,USE4模型中,我们使用方程B7这种较温和的模拟调整方法,我们发现这种方法可以显著减小最优组合的预测误差,同时也保证了风格因子的偏差统计量均落在95%置信区间内。
4.3 波动率调整
传统方法中,估计因子波动率时认为每个因子是独立的,即对一个特定因子的波动率估计仅仅以因子自身的实际序列为基础。
USE4模型中的另一显著创新是使用截面样本得到更及时更精确的因子波动率估计。这种方法的基本思路是其他因子的收益和风险预测对于波动率估计的修正提供了额外信息。特别是当截面样本显示模型风险在最近一段时间内总是过拟合或欠拟合时,可以通过所有因子的波动率来消除偏差。
具体来说,令 表示因子k在第t谈的收益率,令为因子在每天开始时的波动率一日预测值,因子的标准收益可表示为,并且在风险预测精确的情况下,它的标准差应该接近1。如附录A中所述,我们计算了时间序列的标准差去验证单因子是否在整段时间内都是无偏的。
我们也可以计算截面标准差以验证是否因子波动率预测在某一给定时间点上是无偏的,我们定义因子截面偏差统计量为
其中K为因子总数,这个量表示了因子的瞬时偏差测度,例如,如果某天的风险预测太小,则,通过观察整个时间段上的截面偏差统计量,可以确定波动率预测需要被调整的幅度,从而消除偏差。
定义因子波动率乘子为指数加权平均:
其中为半衰期为的波动率调整的指数权重,整个参数是影响因子风险响应的决定性因素。波动率调整公式如下:
这等价于对整个因子协差阵乘以一个数字,。从而波动率调整对于因子相关性没有任何影响。我们定义第t天的因子截面波动率(CSV)为:
图44.6中,我们画出了因子CSV和因子波动率乘子,结果通过USE4S模型的参数计算得出(表4.1)。
分析因子CSV水平与因子波动率乘子有一定指导性意义。可以看出,从1995-1998,因子CSV逐渐从60bps上升到80bps每天,同样时间段内,波动率乘子只是略微大于1。表明传统的时间序列方法确实能很好预测因子波动率,仅需要一点向上调整。
俄罗斯在1998年夏天的违约标志着样本期内的第一次重大危机。在很短的样本期内,可以看到因子CSV从70bps飙升到大约100bps每天。随着迅速增加到1.4左右,因子波动率调整迅速检测到了波动率水平的上升。在随后的一年中,因子CSV稳定在每天100-110bps范围内。这段时间内,传统时间序列方法被调整到了新的波动率水平,直到1999年才降到1。
另一个有趣的区间为2005-2007,这段时间内因子CSV稳定在70bps,并且传统方法效果良好,我们再次看到波动率乘子非常接近1。然而,随着金融危机爆发,从2007年8月到2008年底,因子CSV急剧增加到每天180bps的水平。在整个金融危机期间,波动率乘子都显著大于1,在2008年末到达峰值1.45。2009年,随着金融危机消退,因子CSV下降到危机前的水平,波动率调整方法再次监测到波动率的突然下降,开始下降,到2009年末下降到0.7,从而相对传统方法得到的波动率预测降低了30%。我们已经看到因子波动率乘子对于市场波动的冲击响应迅速灵敏。为了评估波动率调整的表现,我们计算了因子在整个时间段内偏差统计量的12个月移动平均,并与相对应的波动率调整结果对比,结果在图4.7中可见。在绝大多数样时间里,波动率调整的偏差统计量均值接近1。在市场处于极端压力下时,表现甚至更好。例如,在2008年金融危机最严重的部分,波动率调整的偏差统计量均值非常接近1。相比之下,不进行调整会显著低估风险。同样,在金融危机过后,波动率调整偏差统计量均值更接近于1,如果不进行调整我们会在很长时间内显著高估风险。
总之,如果不进行波动率调整,我们观察到在危机期间风险被低估而危机过后风险被高估的现象,波动率调整大大减少了这些非平稳性偏差。
最重要的部分之一翻译完了,为了翻译还看了很多研报和知乎,保证自己理解不出太大问题,等全部翻译完了,再整体过一遍写点体会吧,现在只做文字的搬运工,加油!!!