【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

摘要：本文给出了数据科学应用中的十项统计学习知识点，相信会对数据科学家有一定的帮助。

无论你是不是一名数据科学家，都不能忽视数据的重要性。数据科学家的职责就是分析、组织并利用这些数据。随着机器学习技术的广泛应用，深度学习吸引着大量的研究人员和工程师，数据科学家也将继续站在技术革命的浪潮之巅。

虽然编程能力对于数据科学家而言非常重要，但是数据科学家不完全是软件工程师，他应该是编程、统计和批判性思维三者的结合体。而许多软件工程师通过机器学习框架转型为数据科学家时，没有深刻地思考并理解这些框架背后的统计理论，所以统计学习理论成为了机器学习的理论框架。

为什么学习统计学习？理解不同技术背后的想法是非常重要的，只有真正理解了这些才能知道何时何地使用这些技术。首先必须理解简单的方法，以便掌握更复杂的方法。精确评估一个方法的性能，并且知道它工作情况的好坏显得非常重要。此外，这是一个令人兴奋的研究领域，在科学、工业和金融等方面具有重要的应用。最后，统计学习是培养现代数据科学家的一个基本素材。统计学习问题的例子包括以下几个部分：

确定前列腺癌的风险因素；
根据对数周期图分类记录的音素；
根据人口统计学、饮食和临床测量预测其是否有心脏病；
自定义垃圾电子邮件检测系统；
识别手写邮政编码中的数字；
将组织样本分类为对应的癌症；
建立人口调查数据中的工资与人口变量的关系；

此外，作者对数据挖掘进行了一定的研究，推荐 Intro to Statistical Learning (Hastie, Tibshirani, Witten, James)、Doing Bayesian Data Analysis (Kruschke)和 Time Series Analysis and Applications (Shumway, Stoffer)三本书，这里面有许多有价值的内容。在进入正题之前，想区分一下机器学习和统计学习，主要有以下几点区别：

机器学习是人工智能的一个分支；
统计学习是统计领域的一个分支；
机器学习更侧重于大规模应用和精度预测；
统计学习强调模型及其解释性、精度和不确定性；
但是这种区别变得越来越模糊，而且有大量相互交流；
机器学习在市场营销中占优势；

下面分享10项统计技术，任何数据科学家都应该学习，使得能够更高效地处理大数据集。

1.线性回归

在统计学中，线性回归是一种通过拟合因变量和自变量之间的最佳线性关系来预测目标变量的方法。线性回归主要分为简单线性回归和多元线性回归。简单线性回归使用一个自变量，通过拟合一个最佳线性关系来预测因变量；而多元线性回归使用一个以上的自变量来预测因变量。

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

2.分类

分类是一种数据挖掘技术，被用来将一个整体数据集分成几个类别，以为了更准确的预测和分析。分类技术中典型的代表是逻辑回归分析和判别分析。逻辑回归是一种预测分析，在用于描述数据时，解释一个二进制因变量与一个或多个序数、区间等变量之间的关系。逻辑回归可以检验的问题类型有：

每增加一磅体重或一天抽一包香烟对肺癌的概率有变化吗？（是/不是）
体重、卡路里与脂肪摄入量、参与者年龄对心脏病发作有影响？（是/不是）

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

在判别分析中，在每个响应类中分别对预测因子X的分布进行建模，然后利用贝叶斯定理将这些变量翻转到给定X值的响应类别的概率估计中。这样的模型可以是线性的也可以是二次型的。

线性判别分析计算每个观察的判别分数来分类它所处的响应变量类别，这些分数是通过寻找独立变量的线性组合得到，预测变量的协方差在响应变量Y的所有k级上都是相同的。
二次判别分析提供了另一种方法，预测变量不假设Y的k级上有共同的方差。

3.重采样方法

重采样是从原始数据样本中反复抽样的方法，是一种非参数统计推断方法。重采样在实际数据的基础上生成唯一的抽样分布，下面介绍两种最常用的重采样方法拔靴法（bootstrap）和交叉验证（cross-validation）：

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

拔靴法在许多情况下是一种有用的技术，如验证预测模型的性能、集成方法等。它的工作原理是通过从原始数据中重置采样，并将“未选择”的数据点作为测试用例，反复操作几次后，计算平均得分并作为模型性能的估计；
交叉验证将训练数据分割成k个部分，将k-1个部分作为训练集，使用剩余部分作为测试集，重复试验k次后，计算平均分并作为模型的性能估计；

4.子集选择

这种方法确定了我们认为与反应有关的P预测因子的一个子集，然后使用子集特征的最小二乘拟合模型。

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

最佳子集选择：对P个预测变量的所有可能组合分别使用最小二乘法进行拟合，最后在所有可能模型(2P)选择一个最优模型；
向前逐步选择：以一个不包含任何预测变量的零模型开始，依次向模型中添加一个变量，妹子只将能够最大限度地提升模型效果的变量加入模型中，直到所有的预测变量都包含在模型中；
向后逐步选择：以半酣所有P个预测变量的模型开始，每次移除一个最有用的预测变量；
混合方法：该方法遵循向前逐步选择步骤，但是在加入新变量的同时，也移除了不能提升模型拟合效果的变量；

5.特征缩减技术

通过对损失函数加入正则项，使得训练求解参数过程中将影响较小的特征的系数衰减到0，只保留重要的特征。最常用的两种方法分别是岭回归（ridge regression）和lasso：

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

Ridge regression与最小二乘法相似，只是在平方误差的基础上增加了正则项，它损失了无偏性，来换取高的数值稳定性，从而得到较高的计算精度；
Ridge regression的一个缺点是无法使得预测因子完全为零，只是逼近零，这使得模型无法很好地解释结果；而Lasso克服了这一缺点，能够迫使某些系数为零；

6.降维

降维是将估计P+1个系数减少为M+1个系数，其中M<P。这是通过计算M个不同的线性组合或变量的投影来实现的，然后利用M个投影作为预测因子，使用最小二乘法拟合线性回归模型。常用的两种降维方法是主成分回归和偏最小二乘法：

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

可以将主成分回归描述为从一组大的变量中导出低纬度特征集的方法。其思想是从中选择排在前面的几个主成分，然后利用从数据中抽出的主成分进行回归，达到降维的目的。
主成分回归面临的一个问题是不能保证提取的主成分完全很好地代表原始特征，偏最小二乘法是主成分回归的有监督替代方法，也是一种降维方法。它首先识别出一组小的特征集合，然后通过对新的M个特征最小二乘拟合成线性模型。与主成分回归不同的是偏最小二乘法利用响应变量识别新特性。

7.非线性模型

在统计学中，非线性回归是回归分析的一种形式，在这种分析中，观测数据是通过模型参数和因变量的非线性组合函数建模，数据用逐次逼近法进行拟合。下面是几个处理非线性模型的重要技术：

阶跃函数：如果实数域上的某个函数可以用半开区间上的指示函数的有限次线性组合来表示，那么这个函数就是阶跃函数，即阶跃函数是有限段分段常数函数的组合。
分段函数：在定义域内不同部分上，有不同的解析表达式。
样条函数：样条是一种特殊的函数，是由多项式分段定义。在计算机图形学中，样条通常是指分段定义的多项式参数曲线，并且其结构简单、拟合准确，并能近似曲线拟合和交互式曲线设计中复杂的形状，受到广泛应用。
广义加性模型：是一种广义线性模型，其中线性预测器依赖于预测变量的未知光滑函数，专注于这些光滑函数的推理。

8.树形方法

树形方法可以用于回归和分类问题，这些涉及将预测空间分层或分段为一些简单的区域。由于分割预测空间的分裂规则可以用树形总结，所以这类方法也被称为决策树方法。以下方法是将多个树合并，然后得到一个单一的一致性预测：

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

Bagging是通过原始数据训练额外的数据来减少预测的方差的方法。通过增加训练集的大小，虽然不能改善模型的预测能力，但是能减少方差，将预测调整到预期结果；
Boosting是一种用几种不同的模型计算输出的方法，然后使用加权平均算法计算出结果的平均值，通过调节权重可以模型能为更广泛的输入数据提供良好的预测力；
Random forest算法类似于Bagging，区别在于还需要绘制用于训练单个树的随机子集的特征。由于随机特征选择，这使得树更加独立，从而导致更好的预测性能；

9.支持向量机

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

支持向量机（SVM）是一种分类技术，简单地说，就是寻找一个超平面能最好地将两类点与最大边界区分开。本质上来说，它是一个有约束的优化问题，其中边界最大化受到数据点分布的约束。图中的数据点“支持”着超平面，超平面的两端上的训练样本就是支持向量。如果两类数据线性不可分时，可以将其投影到高维特征空间，使其线性可分。

10.无监督学习

上述内容只讨论了有监督学习技术，而这类技术运用的前提是需要有类别信息。而无监督学习就是在无类别信息情况下，寻找到好的特征。

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

常用的无监督学习算法有：

主成分分析（Principal Component Analysis）是通过识别一组具有最大方差切互不相关的特征的线性组合并作为研究的特征空间，从而产生低维表示的数据集；
K-均值聚类(k-Mean clustering)是根据聚类中心的距离将数据划分为k个不同的簇；
层次聚类(Hierarchical clustering)是通过计算不同类别数据点间的相似度来创建一颗有层次的嵌套聚类树；

洞察背后的理论知识，能够便于今后的实际操作，希望这份基础数据科学统计指南能帮助到你。

原文：

https://www.linkedin.com/pulse/10-statistical-techniques-data-scientists-need-master-james-le/？spm=5176.100239.blogcont231699.11.iZZzDc&lipi=urn%3Ali%3Apage%3Ad_flagship3_profile_view_base%3BNoM6XDfWS1awiZ0M6Spb0g%3D%3D

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新

评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开

发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临

较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”。

点击“阅读原文”，访问AI-CPS OS官网

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

【数学科学家】数据科学家需要掌握的10项统计技术，快来测一测吧

相关推荐