《统计学:从数据到结论》学习笔记(part1)--统计学是收集、分析、展示和解释数据的科学

学习笔记
学习书籍:《统计学:从数据到结论》-吴喜之;
参考书目:《统计学》-贾俊平


一些统计学的基本概念


啥是统计学?

按照不列颠百科全书关于统计学的定义,统计学是"收集、分析、展示和解释数据的科学"。其研究方法是:观测世界或进行试验,得到数据,提出可以解释这些观测的假说或理论,试图尽可能地接近现实世界的规律,当出现理论或假说无法解释的现象(数据)时,就有可能需要对原有的理论进行修正或者代之以新理论。统计学的假说或理论通常称之为模型。统计学的模型仅仅是对现实的近似,没有任何模型是"正确"的,也无法证明任何模型是正确的。只能说,在某些可能有争议的准则下,某些模型比另一些要更合适。在数学逻辑中存在的准确性在统计中完全不成立。针对于不同学科问题而发展的统计学中的数学完全不成为一个完整封闭的体系,也没有必要成为一个数学体系。能否解决实际问题是评价统计方法的最终准则。

啥是变量?

变量是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化。比如说,一个班上注册的学生有50人,这是一个固定的数目,我们称之为常数常量。但如果猜测明天这个班有多少人来上课,这就具有了随机性,可能会有人逃课,可能会有人请病假,这样,要来上课的人数就是个变量。变量也分为:分类变量、顺序变量、数值型变量。

变量间的关系

现实世界的问题都是相互联系的,不讨论变量之间的关系,就无从谈起任何有深度的应用,没有应用,统计的基本概念就仅仅是摆设而已。这里有必要说明,日常用语中的"关系"一词是没有严格统计定义的,统计术语"相关"试图用统计语言来描述一些关系,但目前的统计相关仅仅描述了日常所说的关系的很小一部分,这就好像宇宙是无穷的,而人类的科学理论或假说只能覆盖一小部分一样。

因果关系

我们来观察一下,图中的x和y是否有关系:

《统计学:从数据到结论》学习笔记(part1)--统计学是收集、分析、展示和解释数据的科学

看起来,它们是有关系的。y随着x的增加而增加。那么是否可以说x和y存在因果关系呢?

这个问题可能永远不能得到准确答案,实际上,y 的增加可能是多个因素的影响,而不仅仅是x的影响,比如x为广告投入,y为财政收入,财政收入的增加不仅仅是受到广告投入增加的影响,而且可能是由于成本的降低、国家经济环境改善等等原因的共同结果; 更何况可能x根本起不到多大作用,这种关系仅仅是巧合而已,比如x为我近几年的发际线高度,y为国家经济增长,我不能说是由于与我的发际线增高了,国家经济发展就增加了。所以说,变量之间有关系这个事实并不代表一定存在着因果关系。

统计、计算机与统计软件

统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏,只要你输入数据,点几下鼠标,做几个选项,就会得到让人惊叹的结果。这时,人们可能会问,是否傻瓜式统计软件的使用可以替代统计课程了?当然不是!数据的整理与识别,方法的选用,计算机的输出结果的理解都不像使用傻瓜相机那样简单。更何况统计软件输出结果太多,即使是相同的方法,不同的软件输出的内容还不大一样,这就使使用者大伤脑筋,即使是统计学家也不一定能理解所有输出结果。

现代应用统计离不开计算机,对于非统计工作者来说,顺手的使用统计软件十分重要,同时也要清醒的认识到,计算机是人类的助手,但代替不了人的思维