深度学习---花书总结



深度学习---花书总结本文总结均是在花书(Deep Learning)的中文版页码标记。

1.列举常见的一些范数及其应用场景,如L0,L1,L2,L∞,Frobenius范数

答:p24 ;还有p139regularization的应用

2.简单介绍一下贝叶斯概率与频率派概率,以及在统计中对于真实参数的假设。

答:p30

3.概率密度的万能近似器

答:p43:3.10上面那一段

4.简单介绍一下sigmoid,relu,softplus,tanh,RBF及其应用场景

答:sigmoid和softplus在p43页;全部的在p119

5.Jacobian,Hessian矩阵及其在深度学习中的重要性

答:p53

6.KL散度在信息论中度量的是那个直观量

答:p47

7.数值计算中的计算上溢与下溢问题,如softmax中的处理方式

答:p52

8.与矩阵的特征值相关联的条件数(病态条件)指什么,与梯度爆炸与梯度弥散的关系

答:p53;p173

9.在基于梯度的优化问题中,如何判断一个梯度为0的零界点为局部极大值/全局极小值还是鞍点,Hessian矩阵的条件数与梯度下降法的关系

答:p53

10.KTT方法与约束优化问题,活跃约束的定义

答:p60

11.模型容量,表示容量,有效容量,最优容量概念

答:p70

12.正则化中的权重衰减与加入先验知识在某些条件下的等价性

答:p74

13.高斯分布的广泛应用的缘由

答:p40

14.最大似然估计中最小化KL散度与最小化分布之间的交叉熵的关系

答:p82

15.在线性回归问题,具有高斯先验权重的MAP贝叶斯推断与权重衰减的关系,与正则化的关系

答:p85

16.稀疏表示,低维表示,独立表示

答:p92

17.列举一些无法基于地图(梯度?)的优化来最小化的代价函数及其具有的特点

答:p99 最顶一段

18.在深度神经网络中,引入了隐藏层,放弃了训练问题的凸性,其意义何在

答:p122

19.函数在某个区间的饱和与平滑性对基于梯度的学习的影响

答:p99

20.梯度爆炸的一些解决办法

答:p185

21.MLP的万能近似性质

答:p126

22.在前馈网络中,深度与宽度的关系及表示能力的差异

答:p126

23.为什么交叉熵损失可以提高具有sigmoid和softmax输出的模型的性能,而使用均方误差损失则会存在很多问题。分段线性隐藏层代替sigmoid的利弊

答:p139

24.表示学习的发展的初衷?并介绍其典型例子:自编码器

答:p1

25.在做正则化过程中,为什么只对权重做正则惩罚,而不对偏置做权重惩罚

答:p141

26.在深度学习神经网络中,所有的层中考虑使用相同的权重衰减的利弊

答:p141

27.正则化过程中,权重衰减与Hessian矩阵中特征值的一些关系,以及与梯度弥散,梯度爆炸的关系

答:p141

28.L1/L2正则化与高斯先验/对数先验的MAP贝叶斯推断的关系

答:p145

29.什么是欠约束,为什么大多数的正则化可以使欠约束下的欠定问题在迭代过程中收敛

答:p147

30.为什么考虑在模型训练时对输入(隐藏单元/权重)添加方差较小的噪声,与正则化的关系

答:p148-p149

31.共享参数的概念及在深度学习中的广泛影响

答:p150;p157

32.Dropout与Bagging集成方法的关系,以及Dropout带来的意义与其强大的原因

答:p258-p268

33.批量梯度下降法更新过程中,批量的大小与各种更新的稳定性关系

答:p279

34.如何避免深度学习中的病态,鞍点,梯度爆炸,梯度弥散

答:p158-p167

35.SGD以及学习率的选择方法,带动量的SGD对于Hessian矩阵病态条件及随机梯度方差的影响

答:p180;p183

36.初始化权重过程中,权重大小在各种网络结构中的影响,以及一些初始化的方法;偏置的初始化

答:初始化权重:p184;偏置初始化:p184

37.自适应学习率算法:AdaGrad,RMSProp,Adam等算法的做法

答:187

38.二阶近似方法:牛顿法,共轭梯度,BFGS等的做法

答:牛顿法:p190; 共轭梯度:p191BFGS:p193

39.Hessian的标准化对于高阶优化算法的意义

答:p194

40.卷积网络中的平移等变性的原因,常见的一些卷积形式

答:平移等变性:p204;常见的一些卷积形式:p210-218

41.pooling的做法的意义

答:p207-210

42.循环神经网络常见的一些依赖循环关系,常见的一些输入输出,以及对应的应用场景

答:p228-p239

43.seq2seq,gru,lstm等相关的原理

答:seq2seq:p239-p397; gru:p248; lstm:p248

44.采样在深度学习中的意义

答:p279

45.自编码器与线性因子模型,PCA,ICA等的关系

答:自编码器与线性因子模型:p297;PCA:p298;ICA:p298

46.自编码器在深度学习中的意义,以及一些常见的变形与应用

答:意义:p304; 常见变形:p304-p309;p307-p310; p314应用:p311-p317;p317

47.受限玻尔兹曼机广泛应用的原因

答:p278:想特别了解的人注意这句话: See Mohamed et al. (2012b) for an analysis of reasons for the successof these models.

48.稳定分布与马尔可夫链

答:p360

49.Gibbs采样的原理

答:p365

50.配分函数通常难以计算的解决方案

答:p365

51.几种参数估计的联系与区别:MLE/MAP/贝叶斯

答:P82-P88

52.半监督的思想以及在深度学习中的应用

答:p329

53.举例CNN中的channel在不同数据源中的含义

答:p219

54.深度学习在NLP,语音,图像等领域的应用及常用的一些模型

答:p274

55.word2vec与glove的比较

答:How is GloVe different from word2vec? ; GloVe以及Word2vec能称为deep learning么?这俩模型的层次其实很浅的 ;http://clic.cimec.unitn.it/marco/publications/acl2014/baroni-etal-countpredict-acl2014.pdf 这个问题没找到答案,我去找了quora和知乎上的相关问题以及quora一个回答提及的论文。 (若有人在书中找到,请批评指正)

56.注意力机制在深度学习的某些场景中为何会被大量使用,其几种不同的情形

答:p290

57.wide&deep模型中的wide和deep介绍

答:https://arxiv.org/pdf/1606.07792.pdf 此问题答案未在书中找到,为此我去找了原论文,论文图1有详细的介绍。 (若有人在书中找到,请批评指正)

58.核回归与RBF网络的关系

答:p88

59.LSTM结构推导,为什么比RNN好?

答:p245-p250

60.过拟合在深度学习中的常见的一些解决方案或结构设计

答:p141;包括:ParameterNorm Penalties( 参数范数惩罚); Dataset Augmentation (数据集增强); Early Stopping(提前终止); Parameter Tying andParameter Sharing (参数绑定与参数共享); Bagging and OtherEnsemble Methods(Bagging 和其他集成方法);Dropout. 另外还有Batch Normalization。

61.怎么理解贝叶斯模型的有效参数数据会根据数据集的规模自动调整

答:关于非参数模型:p70 ;非参数模型不依赖于特定的概率模型,它的参数是无穷维的,数据集的规模的大小影响着模型使用更多或者更少的参数来对其进行建模。(并未在书中找到准确的答案,若有更好的回答,请联系我改正)