关于置信区间、置信度的理解

关于置信区间和置信度的理解，在网上找了两个相关的观点感觉讲的很好，恍然大悟。

简单概括。

参数只有一个是固定的不会变。我们用局部估计整体。

参数95%的置信度在区间A的意思是：

正确：采样100次计算95%置信度的置信区间，有95次计算所得的区间包含真实值。

错误：采样100次，有95次真实值落在置信区间。

真实值不会变，变得是置信区间。

下面是两个引用：

http://bbs.pinggu.org/thread-3037010-1-1.html

https://www.zhihu.com/question/2018

要说置信度，首先老师肯定会在此前已经介绍过了点估计了，那么引入这个概念的目的自然是为了配合一个叫做区间估计，估算置信区间。通常都是用点估计（点估计一般就是用概率论导出的一个估计值）算出来的数据加上一个变动幅度形成一个区间。在这个变动幅度里，涉及到一个参数就是置信度。

首先我们要问为什么要用区间估计？

咱来看个例子：你打枪打10次，你可以得到一个平均值，比如是8.那么我问你，总体的期望是不是就是8呢？你要说是，那就太草率了吧，因为你再打10次可能就是7了，那么总体的期望就变成7了嘛？当然不是，总体的期望是客观存在不会变的。实际上均值等于期望的概率是0啊，所以说，以点估点是不准确的。但是既然样本是从总体中抽出来的，那么样本的均值和总体的期望应该差的不远吧？你射击的均值是8，总体的期望总不能是1吧？所以，你若换句话说打枪的平均环数是[6,8]，那么相信的人就会很多了。可见，虽然扩大了总体均值的取值范围，但是可信度明显高了。

当然你不能简单无限度扩大区间范围，毕竟统计也要讲究一定的精度。所以咱就有了置信度，也就是说，你测得的均值，和总体真实情况的差距小于这个给定的值的概率，说你测得的均值就是总体期望是很草率的，但是说，我有95%的把握认为我测得的均值，非常接近总体的期望了，听起来就靠谱的多。

平时我们常说的95%置信度到底是什么意思呢？

要理解置信度，就要理解好置信区间。要理解置信区间，就要从统计学最基本最核心的思想去思考，那就是用样本估计总体。在统计学中，非常容易把概念模糊化，很容易把95%置信区间理解成为在这个区间内有95%的概率包含真值。
但是这里有两个容易混淆的地方
1.真值指得是样本参数还是总体参数？这个问题的答案是总体参数，我们取的数据是样本数据，点估计是样本参数的真实值，我们要估计总体参数。
2.95%的概率，变动的是谁？这里95%的概率，变动的是置信区间。

错误理解：假如有100个考生，100个学生中有95个考分落在（70,80）这个区间内。这就是95%置信度。
这是非常错误的理解，样本与总体的关系没有思考清楚。置信区间是估测总体参数的真值，这个值只有一个，且不会变动。
那正确的应该怎么理解呢？
样本数目不变的情况下，做一百次试验，有95个置信区间包含了总体真值。置信度为95%。换言之，若扩大样本容量，考100次试，这100名学生的成绩组成改的区间有95次包含了总体真正的均值，那这才是95%置信度。说白了，我们有95%的把握说总体的真值在这个区间内。

那么还有一个问题，是不是置信度越高越好？

这个问题就要看你需要统计的是什么？经济效益是什么？通常情况下，95%被作为常用的置信度，原理就在于3西格玛控制（在一些严格的领域甚至会用到6西格玛），此时已经有很高的置信度了，那在往上去，随着置信度的上升，置信区间的跨度也就越大，对参数估计的精度必定降低。点估计就一个值，精度高，但置信度则低，精度与置信度相互的取舍则要全由分析者自行选择了。

楼主tips:置信度这个问题，其实核心问题就是要理解我们的核心思想是用样本估计总体，保证的是总体参数的精确度，这个区间是为总体设计的即可。

--------------------------------------------============================================================================================

====================================================================================================================

要理解置信度，就要理解好置信区间。
要理解置信区间，就要从统计学最基本最核心的思想去思考，那就是
用样本估计总体。
在统计学中，非常容易把概念模糊化，很容易把95%置信区间理解成为在这个区间内有95%的概率包含真值。
但是这里有两个容易混淆的地方
1.真值只得是样本参数还是总体参数？
这个问题的答案是总体参数，我们取的数据是样本数据，点估计是样本参数的真实值，我们要估计总体参数。
2.95%的概率，变动的是谁？
在以后不常温习的情况下，这个问题容易造成困扰。这里95%的概率，变动的是置信区间。非常难以理解，用图来阐述一下：
&amp;lt;img data-rawheight="3508" data-rawwidth="2480" src="https://pic3.zhimg.com/50/ad6b8118232d8e702c28ed52b68f0776_hd.jpg" class="origin_image zh-lightbox-thumb" width="2480" data-original="https://pic3.zhimg.com/ad6b8118232d8e702c28ed52b68f0776_r.jpg"&amp;gt; 关于置信区间、置信度的理解

错误理解：上图浅色的虚的竖直线代表样本参数真值，横的两端有端点的代表95%置信度的置信区间，100条竖直线里有95条左右落入这个区间内。
这是非常错误的理解，样本与总体的关系没有思考清楚。置信区间是估测总体参数的真值，这个值只有一个，且不会变动。

下图为正确理解：
&amp;lt;img data-rawheight="3508" data-rawwidth="2480" src="https://pic1.zhimg.com/50/eab7e81a9a00080c6658d0ff2ac2e7ac_hd.jpg" class="origin_image zh-lightbox-thumb" width="2480" data-original="https://pic1.zhimg.com/eab7e81a9a00080c6658d0ff2ac2e7ac_r.jpg"&amp;gt; 关于置信区间、置信度的理解

样本数目不变的情况下，做一百次试验，有95个置信区间包含了总体真值。置信度为95%
其中大虚线表示总体参数真值，是我们所不知道的想要估计的值。正因为在100个置信区间里有95个置信区间包括了真实值，所以当我们只做了一次置信区间时，我们也认为这个区间是可信的，是包含了总体参数真实值的。

这样应该就能很好地理解了，遇到统计上的困惑时，多思考用样本估计总体这个核心思想，很多就能迎刃而解。

关于置信区间、置信度的理解

相关推荐