被体检结果吓得半死,只因为不懂统计学
前段时间单位组织体检,体检报告出来之后把我吓得不轻:居然有一项癌症筛查指标偏高!一阵恐慌之后,发现居然好几个同事这项指标偏高。难道一个公司这么多人得癌症?是不是医院搞错了呢?果然,我们去复查之后,指标又正常了,医生表示没有任何问题。确定自己没得癌症,悬着的心放了下来,但还是有点郁闷:医院的检测也太不靠谱了吧?
不过,最近我在读《简单统计学:如何轻松识破一本正经的胡说八道》一书的时候发现:不是医院不靠谱,是我不懂统计学。
这话怎么说呢?先让我们一起来玩个小测试:假设某病的发病率为0.1%,而针对这个病的检测手段准确率是99%。现在小王去医院体检,检查结果为阳性,也就是“有病”。问题来了,小王真“有病”的几率有多大?
在往下看之前,建议你先在心里估算一个数字。
正确答案是:9%。是不是很吃惊?如果你有兴趣,可以看看分析过程(略烧脑,想看结论的可以跳过):
现在假设有10万人去医院做检测,其中100人是病人(发病率0.1%),检测结果是这样的:
检测呈阳性 | 检测呈阴性 | 总计 | |
---|---|---|---|
病人 | 99 | 1 | 100 |
健康人 | 999 | 98901 | 99900 |
总计 | 1098 | 98902 | 100000 |
第一行:有100个是病人,其中99个检测出阳性,准确率99%,这个没问题。
第二行:有99900个是健康人,其中有999个被检测出呈阳性(假阳性),准确率99%(或者说错误率1%),这个也没问题。
关键点在第一列里面:在所有1098个检测呈阳性的人中,有999个是健康人,99个是病人,也就是说,如果小王被检测出阳性,他真的是病人的几率是99÷1098*100%≈9.0164%。
如果把这个问题改一下:小王的检测结果是阴性,他是健康人的几率是多大呢?答案是99.999%(98901÷98902≈99.999%)。
你看,如果检查结果显示小王没病,小王极有可能是真的没病;如果检查结果显示小王有病,小王极有可能还是没病。
上面这个分析方法是我在《简单统计学:如何轻松识破一本正经的胡说八道》一书中学到的,其中第6章关于大麻检测的案例就是用的这个方法。你也可以试着自己玩一下这个游戏,改变一下发病率和检测的准确率,你会得到很多有趣的结果。
不夸张地说,《简单统计学:如何轻松识破一本正经的胡说八道》这本书彻底改变了我对统计学“高深莫测”的印象。书中通过丰富的案例,深入浅出地解析了大量由于不懂统计学造成的认知错误,小到买彩票,大到国家政策的制定,每一个都让人拍案叫绝。
这本书的作者加里·史密斯曾在耶鲁大学任教7年,他的统计学课程非常接地气,跟日常生活紧密相关,在耶鲁大学特别受欢迎。他的书也延续了课堂的风格:没有让人望而生畏的数学和图表,只有有趣的案例和深入浅出的解析,即便是从没接触过统计学的读者,也可以轻松愉快的读完这本书,并从中收获真知灼见。
本书的英文版已经引起了广泛关注,连诺贝尔经济学奖得主罗伯特·希勒都大加赞赏:“这是本非常有趣的书,却揭示了非常严重的问题。”
为什么罗伯特希勒说这本书“揭示了非常严重的问题”呢?
实际上,统计学已经席卷了几乎所有的科学领域,从医学到物理,从经济学到心理学,没有哪个学科能在不使用统计学方法的情况下开展科学研究。问题在于,统计学是一门关于数据处理的科学,而人类的大脑生来并不擅长处理数据。即便那些最聪明的人,也会因为不懂统计学或错用统计学而闹笑话,甚至引起灾难性的后果。
1、超级畅销书错在哪里?
在一本超级畅销书《从优秀到卓越》中,吉姆·柯林斯及其团队花了5年时间,考察了1435家公司40年的历史,发现了股价表现优于平均水平的11家公司,并对这些公司进行了详细研究。他们发现了这些公司的一些共同特点。柯林斯认为,“只要认真使用我们发现的思想框架,几乎任何组织都可以极大提高自身的境界和表现,甚至成为一家卓越的组织”。
柯林斯说的对吗?我以前读这本书的时候,真的没发现有什么不妥。但是加里·史密斯在《简单统计学:如何轻松识破一本正经的胡说八道》一书中指出了其中的严重错误:这是一项存在幸存者偏差的回溯性研究。
如果你不知道什么是幸存者偏差和回溯性研究,没关系,你只要思考以下这个简单的问题:“所有妈妈都是女人”,是否意味着“所有女人都是妈妈”?
显然,不是。
那么,“全部11家伟大公司都具有某些特点”,是否意味着“具有这些特点的都是伟大公司”?
显然,也不是。
现在,你已经知道问题出在哪里了。
根据事后的结果去做“预测”是不对的,因为你研究的是“幸存者”,还有很多符合标准却已经倒闭的“非幸存者”,都被遗漏了。从所有公司中选出表现最优的11家,再去制定符合这11家公司的标准,无异于一个毫无射击技能的人对着墙狂射一气,然后在弹孔最密集的地方画上靶心。使用这种方法,人人都能成为神枪手。
其实研究企业的成功和研究个人的成功,本质上是一样的。网络上流传的“成功人士都具有这些特点”的文章,总是能让人趋之若鹜,其隐含的意思无非就是“只要你也具备这样的特点,就能成功”。但是是学了统计学,你可以淡定地反问一句,有这些特点的都是成功人士吗?
很可能,这些成功人士都只是“幸存者”而已。
2、造成数百万人失业的经济学研究
错信了畅销书的后果还不算最严重的,错误的研究导致错误的政府决策,才是真正的灾难。
2010年,两位哈佛教授卡门·莱茵哈特和肯·罗戈夫发表了一篇论文,认为当联邦政府债务相对于国内生产总值的比例超过90%时,国家的经济增长就会受到拖累。
过高的债务率会拖累经济,这听上去似乎很合理。确实,人们接受了这两位哈佛教授的观点。虽然许多经济学家不同意这个观点,但是他们都没有找出严重的错误。一些欧洲政府也接受了这样的观点,试图通过削减开支和提高税收来减少财政赤字。
欧洲的紧缩政策带来的后果是灾难性的:欧洲平均失业率从2011年的10%,上升到2012年的11%,再上升到2013年的12%。失业率每年增加1%意味着什么呢?考虑到欧洲超过7亿的人口基数,1%的失业率意味着每年有超过700万人失业!可见,这一政策造成的经济损失是无法估量的。
那两位哈佛教授关于“90%债务临界点”的研究到底出了什么问题呢?2012年,马萨诸塞大学安姆斯特分校的一名研究生托马斯·赫恩登和他的两名指导教授对原始数据进行了研究,发现了问题所在:两位哈佛教授对数据进行了人为的筛选,使之符合他们的理论!
他们有时排除了某些国家的数据,有时排除了某些年份的数据,有时使用了不同寻常、前后矛盾的计算方法,但是这些“调整”没有任何合理的原因。唯一的解释是:这些“调整”使得计算出来的增长率为负数,以符合他们的理论。
根据赫恩登和他的指导教授的重新计算,如果不做任何“调整”,计算出来的增长率是正的,也就是说,结论跟两位哈佛教授完全相反。
可惜,发现得太晚了。
3、普通人能从统计学里学到什么
如果你觉得前面的案例都太“高大上”,不如看看下面这个小例子。
你买双色球彩票时,会不会买“1,2,3,4,5+6”这样的组合?相信几乎没人会这样买,因为人人都知道,这个概率太低了!不过你别忘了,任何一个组合出现的概率,其实是一样的。
下次产生买彩票的冲动时,不如提醒一下自己,你想买的那注彩票,中奖概率跟“1,2,3,4,5+6”一样大。或者说,一样小。
读这本《简单统计学:如何轻松识破一本正经的胡说八道》,我有两个感想。
第一个感想是:每个人都该学点简单统计学,因为统计学实在太有用了。
第二个感想是:人类实在太容易犯错了,哪怕是那些最聪明的人也在劫难逃。还是苏格拉底说得对啊,世界上最有智慧的人,恰恰是知道自己无知的那个人。
好书,记下了!
回头我也买一本看看。