4.6 大数据集-机器学习笔记-斯坦福吴恩达教授

大数据集

在机器学习领域,流传着这样一句话:

It’s not who has the best algorithm that wins. It’s who has the most data.

所以商业社会中,互联网公司都不遗余力地先收集一波大数据再说,没有数据,再多的手段也是空谈。下图中,是一个区分容易混淆单词的机器学习案例,所采用的几种算法在训练样本提供的样本越来越多时,都表现得越来越优异:
4.6 大数据集-机器学习笔记-斯坦福吴恩达教授
什么时候采用大规模的数据集呢,一定要保证模型拥有足够的参数(线索),对于线性回归/逻辑回归来说,就是具备足够多的特征,而对于神经网络来说,就是更多的隐层单元。这样,足够多的特征避免了高偏差(欠拟合)问题,而足够大数据集避免了多特征容易引起的高方差(过拟合)问题。