1. 前言

行百里者半于九十。此言末路之难也。

2. 习题

2.1 习题1（支持度）

考虑如下数据集，其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮，计算项集{e}, {b, d}, {b, d, e}的支持度:

A.s({e}) =0.8s({b, d})= 0.2s({b, d, e})= 0.2

B.s({e}) =0.7s({b, d})= 0.3s({b, d, e})= 0.3

C.s({e}) =0.6s({b, d})= 0.4s({b, d, e})= 0.3

D.s({e}) =0.8s({b, d})= 0.1s({b, d, e})= 0.1

正确答案：A

解析：可以看到题目的意思是将每个事务id看成一个购物篮，因此，我们计算的值为s({e}) =810，s({b, d})=210，s({b, d, e})=210。

2.2 习题2（隐马尔可夫模型）

解决隐马模型中预测问题的算法是?

A.前向算法

B.后向算法

C.Baum-Welch算法

D.维特比算法

正确答案：D

解析：

A、B：前向、后向算法解决的是一个评估问题，即给定一个模型，求某特定观测序列的概率，用于评估该序列最匹配的模型。

C：Baum-Welch算法解决的是一个模型训练问题，即参数估计，是一种无监督的训练方法，主要通过EM迭代实现；

D：维特比算法解决的是给定一个模型和某个特定的输出序列，求最可能产生这个输出的状态序列。如通过海藻变化（输出序列）来观测天气（状态序列），是预测问题，通信中的解码问题。

2.3 习题3（K近邻算法）

一般，k-NN最近邻方法在( )的情况下效果较好

A.样本较多但典型性不好

B.样本较少但典型性好

C.样本呈团状分布

D.样本呈链状分布

正确答案：B

解析：K近邻算法主要依靠的是周围的点，因此如果样本过多，那肯定是区分不出来的。因此应当选择B

样本呈团状颇有迷惑性，这里应该指的是整个样本都是呈团状分布，这样kNN就发挥不出其求近邻的优势了，整体样本应该具有典型性好，样本较少，比较适宜。

2.4 习题4（降维）

下列方法中，可以用于特征降维的方法包括（）

A.主成分分析PCA

B.线性判别分析LDA

C.深度学习SparseAutoEncoder

D.矩阵奇异值分解SVD

E.最小二乘法LeastSquares

正确答案：ABCD

解析：降维的3种常见方法ABD，都是线性的。深度学习是降维的方法这个就比较新鲜了，事实上，细细想来，也是降维的一种方法，因为如果隐藏层中的神经元数目要小于输入层，那就达到了降维，但如果隐藏层中的神经元如果多余输入层，那就不是降维了。

最小二乘法是线性回归的一种解决方法，其实也是投影，但是并没有进行降维。

2.5 习题5（核方法）

下面哪些是基于核的机器学习算法?()

A.Expectation Maximization（EM）（最大期望算法）

B.Radial Basis Function（RBF）（径向基核函数）

C.Linear Discrimimate Analysis（LDA）（主成分分析法）

D.Support Vector Machine（SVM）（支持向量机）

正确答案：BCD

解析：径向基核函数是非常常用的核函数，而主成分分析法的常规方法是线性的，但是当遇到非线性的时候，同样可以使用核方法使得非线性问题转化为线性问题。支持向量机处理非线性的问题的时候，核函数也是非常重要的。

3. 小结

本章中我们主要学习了支持度、隐马尔可夫模型、K近邻算法、降维和核方法的相关知识。

机器学习习题（10）