006 《统计数据会说谎》读书笔记
数据不会说谎,但是统计数据会说谎。
采集数据,人有时候会无意识的根据个人喜好或者主观判断去筛取;手中数据,还利用更利于自己的方向去展示给大众,含混不清中展示自己看似强有力的根据。想起这段时间leader一直给自己灌输的思想——怀疑一切,去看数据的源。从源头出发,很多事情才能看的更加透彻。源头出了问题,后续的过程,无论怎么出彩,都是白费心思。
统计的神秘面纱,远远不止于此书。作为一名分析师,希望自己不要走着走着,就忘记了最初的出发点。不由得想起——不忘初心,方得始终,从一而终贯彻到底真的很难。就如长年去坚持一个习惯,信誓旦旦的人很多,坚持下来又有几人呢。想起罗胖要坚持十年每日十分钟分享一本书, 现在已经做了七年;做20年的“时间的朋友”,现在做了五期。自己立了2020 百本书,百次跑步,好像简单,也好像不简单,行动说话!!!
《统计数据会说谎》 达莱尔·哈父 著 摘记:
一、带有偏差的样本
各种各样的结论就是从这些要么带有偏差,要么过于微小或二者兼而有之的样本中获得的,而我们却并不知道自己所读到的这些结论或自以为清楚的这些结论来自这样的样本。
二、精挑细选的平均数
哪一种平均数——均值、中位数还是众数?
未加限定的平均数其实是毫无意义的
三、没有透露的小小数据
只有试验的样本数目足够庞大时,平均数定律才会是一个有用的描述或猜测。
怎样做才能不被毫无意义的结论愚弄
如果你的信息来源能将显著性水平告知与你,你就会更清楚自己的立场。这个显著性水平就是我们最常说的“概率”
这个数据能根据已给出的平均数告知我们误差的范围
对某事一无所知往往要好过知道错误信息,只知道个皮毛也许会十分危险。
四、无事瞎忙
五、惊人的图形
六、一维图形
七、看似相关的数据
如果你无法证明自己想要证明的东西,那就展示一些其他东西,并假装它们是一样的。如今统计数据让人眼花缭乱,几乎没人会注意到其中的差别。使用“看似相关的数据”绝对有用,这种手段向来有效
八、因果颠倒
谬误:如果B事件发生在A事件之后,那么,就是A事件引起了B事件”
九、如何操纵统计
十、如何反驳统计数据
1. 是谁这么说 ——要找的第一样东西是偏差
- 要找有意识的偏差。这种偏差可以体现为直接的错误陈述或是含糊不清的措辞
- 更要注意那些无意识的偏差,因为它的危害更大
2. 他怎么知道?
3. 漏掉了什么?
- 要留心那些未加说明的平均数,因为无论在什么时候,均值和中位数都有着本质的差别
4. 有人偷换了概念吗?
5. 这是否合乎情理?