当前位置: 首页 > 新闻 > 信息荟萃
编号:1516
赤裸裸的统计学网盘.pdf
http://www.100md.com 2020年1月10日
第1页
第5页
第19页
第22页
第42页
第164页

    参见附件(3106KB,215页)。

     赤裸裸的统计学是作家查尔斯惠伦写的长篇统计学理论,作者借助了很多的生活例子,详细的数据图表,以及幽默的写作风格,向读者展开统计学相关知识。

    赤裸裸的统计学内容提要

    本书用生活有趣的案例、直观的图表揭开了统计学、大数据和数字的“神秘面纱”,让读者知道权威期刊、媒体新闻、民意调研中公布的数字从何而来,轻松掌握判断这些统计数字“是否在撒谎”的秘籍。《赤裸裸的统计学》一书的作者查尔斯?惠伦“扒光”了统计学“沉闷的外衣”,用生活中有趣的案例、直观的图表、生动诙谐的语言风格,彻底揭开了统计学、大数据和数字的“神秘面纱”,让我们知道权威期刊、媒体新闻、民意调研中公布的数字从何而来,轻松掌握判断这些统计数字“是否在撒谎”的秘籍。同时,作者还将统计学的工具带入日常生活中,告诉我们为什么不要买彩票,为什么你家附近的商场会知道你怀孕的消息并给你寄来纸尿裤的优惠券,等等。

    赤裸裸的统计学作者简介

    查尔斯惠伦(Charles Wheelan),于1997~2002年间担任《经济学人》杂志驻美国中西部地区的记者,还为《芝加哥部报》、《纽约时报》和《华尔街日报》撰稿,现任芝加哥公共电台WBEZ节目财经记者。其所著《赤裸裸的经济学》已由中信出版社于2010年出版。

    赤裸裸的统计学章节预览

    第1章 统计学是大数据时代最炙手可热的学问/1

    基尼系数是否是衡量社会分配公平程度最完美的指标?视频网站是如何知道你喜欢的电影类型的?祈祷真的能让病人的术后康复状况改善吗?是什么导致自闭症发病率一直走高?哪些人最有可能成为恐怖分子?

    第2章 描述统计学/19

    你一直想买的一条连衣裙,商场售价为4 999元,先降价25%后再提价25%,你能算出这条连衣裙的最终售价是多少吗?

    第3章 统计数字会撒谎/43

    1950年人们的平均时薪是1美元,2012年人们的平均时薪是5美元,你觉得我们的工资水平涨了吗?

    第4章 相关性与相关系数/69

    视频网站根本不知道我是谁,但它又是怎么知道我喜欢看人物纪录片而不是电视连续剧、动作片或科幻片的?

    第5章 概率与期望值/81

    买福利彩票,去赌场豪赌、投资股票或期货,哪种方式让你跻身《福布斯》富豪排行榜的可能性更大?

    第6章 蒙提?霍尔悖论/105

    在《让我们做个交易》节目中,主持人打开的3号门后面是一头羊,在剩下的1号门和2号门中必定有一扇门后面是汽车,你应该如何选择才能中大奖?

    第7章 黑天鹅事件/113

    1%的小概率风险如何在2008年成为击垮美国华尔街的“黑天鹅”,并毁了全球金融体系。

    第8章 数据与偏见/131

    2012年,《科学》杂志刊登了一项惊人的发现:在求偶期多次遭受雌性果蝇冷落的雄性果蝇会“借酒消愁”。那么,这些果蝇是如何一醉方休的?

    第9章 中心极限定理/151

    一辆坐满肥胖乘客的抛锚客车停在你家附近的路上,你推断一下,它的目的地是马拉松比赛场地,还是国际香肠节展厅?

    第10章 统计推断与假设检验/169

    垃圾邮件过滤、癌症筛查、恐怖分子追捕,我们最不能容忍哪件事情出错,又有哪件事情是可以“睁一只眼闭一只眼”的?

    第11章 民意测验与误差幅度/197

    民调结果显示,有89%的美国人不相信政府会做正确的事,有46%的美国人认可奥巴马的工作表现。这个结果可以代表美国人的真实想法吗?

    第12章 回归分析与线性关系/215

    你认为什么样的工作压力更容易使职场人士猝死,是“缺乏控制力和话语权”的工作,还是“权力大,责任也大”的工作?

    第13章 致命的回归错误/243

    世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中有1/3 后来都被推翻了,所以,“尽量不要用你的回归分析研究杀人”。

    第14章 项目评估与“反现实”/259

    哈佛大学等世界顶尖大学的毕业生进入社会后,其收入往往高于一般大学的毕业生,让他们获得高收入的究竟是常春藤大学的教育优势,还是他们本身就很出色?

    结束语 统计学能够帮忙解决的5个问题/277

    赤裸裸的统计学截图

    在大数据时代,“赤裸裸的统计学”是一个恰当的题目。作者剥开了数

    据超级沉闷、枯燥的外衣,并以每个人都喜闻乐见的形式呈现出统计学

    之美 .

    哈尔 ? 瓦里安

    谷歌公司 首席经济学家

    关于掌握统计学知识的重要性,我认为怎么强调都不过分,因为统计学

    是我们在大数据时代读懂、听懂和看懂一切事实真相的基础。这本书给

    了读者一条通往统计学知识的“阳光大道”,所以关于这本书的重要

    性,我也认为怎么强调都不过分。对运动、政治、商业等领域感兴趣的

    几乎每一个人,都可以从这本可读性强、一针见血和重要的书籍中受

    益。

    弗兰克 ? 纽 波特

    盖洛普民意调查主编

    你是害怕统计学的人吗?别再害怕了!这本书以一种轻松、亲切的语言

    解释了藏在各种各样统计学概念背后的直觉力。

    拉古拉迈 ? 拉詹

    《断层线》作者

    人们往往不会把“统计学”和“快乐时光”这两个词联系到一起,但这

    本书做到了,它有力地解释了统计学如何能够帮助我们过好每一天的生

    活。

    奥斯坦 ? 古尔斯比

    芝加哥大学经济学教授美国经济顾问委员会主席

    这本书充满了魅力,一是因为作者拥有喜剧演员般天生的幽默感,使得

    这本书极具可读性;二是因为作者列举了现实世界中形形色色的案例,旨在告诉读者为什么我们的生活离不开统计学,以及我们为什么一定要掌握一些统计学知识。

    《纽约时报》

    本书将是你遇到过的最好的“数学老师”。本书装满了具有现实意义

    的“课程”,比如如何判断民意测验的可靠性,还有为什么你不应该买

    彩票。

    《旧金山纪苏报》

    图书在版编目 (CIP) 数据

    赤裸裸的统计学 ( 美 ) 惠伦著 ;曹槟 译 . —北京:中信出版社, 2013.11

    书名原文: Naked Statistics

    ISBN978-7-5086-4215-4

    Ⅰ . 赤 ... Ⅱ . ①惠…Ⅲ . ①经济统计学 - 通俗读物Ⅳ . ① F22249

    中国版本图书馆 CIP 数据核字 (2013) 第 215055 号

    Copyright ? 2013 by Charles Wheelam

    All rights reserved including the rights of reproduction in whole or in part in any form.

    Simplified Chinese translation copyright ? 2013 by China C1TIC Press ALL RIGHTS RESERVED

    本书仅限中国大陆地区发行销售

    赤裸裸的统计学

    著 者: [ 美 ] 查尔斯·惠伦

    译 者:曹槟

    策划推广:中信出版社 (China CITIC Press)

    出版发行:中信出版 集团股份有限公司

    ( 北京市朝阳区惠新东街甲 4 号富盛大厦 2 座 邮编 100029)

    (CITIC Publishing Group)

    承 印 者:北京诚信伟业印刷有限公司

    开 本: 787mmx1092mm 1 16印 张: 19.25 字 数: 240 千字

    版 次: 2013 年 11 月第 1 版

    印 次: 2013 年 11 月第 1 次印刷

    京权图 字: 01-2013-1461 广告经营许可证:京朝工商 广字第 8087 号

    书 号: ISBN978-7-5086-4215-4F ? 3002

    定 价: 42.00 元

    版权所有 · 侵权必究

    凡购本社 图书,如有缺页、倒页、脱页,由发行公司负责退换。服务热线: 010-84849555 服务

    传真: 010-84849000

    投稿邮箱: author@citicpub.com引言 我为什么憎恶微积分却偏爱统计学?

    我天生就很排斥数学。我对数字本身没有任何好感,对那些在现实

    世界中毫无用处的骗人公式也没有什么好印象。我尤其不喜欢高中的微

    积分课,原因很简单,因为从来就没有人告诉过我学习这门课的意义是

    什么——有谁会在乎抛物线下方的区域代表什么?

    而事实上就在高中三年级的时候,我迎来了人生中的一个重要时

    刻,那时我正在准备第一学期微积分课程的期末考试,虽然那几天我也

    算用功学习了,但总体来说还是以偷懒为主,因为几个星期前我就申请

    到了理想的大学,当然随之而来的是我对这门课本来就少得可怜的学习

    动力也消失殆尽。考试那天我盯着试卷上的题目,发现它们竟是如此陌

    生。这已经不是会不会答的问题了,而是根本就搞不清楚题目问的是什

    么。我对“裸考”其实

    并不陌生,借用美国国防部前部长唐纳德 ? 拉姆斯菲尔德的话说就

    是,我总是知道我有不知道的东西。但这次考试比以往的题目都难,我

    草草地翻了一下试卷,几乎没有会答的题。我走到教室前面,来到监考

    老师——我们的微积分老师卡罗 ? 史密斯的面前,“史密斯夫人我

    说,”“试卷上的很多东西我都不认识。”

    相比起我对史密斯夫人的“喜爱”,她对我的“不喜爱”要更甚。

    是的,现在我承认作为学生会主席的我,有时会动用手中有限的权力来

    安排一些全校性的集会,这样史密斯夫人的微积分课就被迫取消了。我

    和朋友们也曾以“一位神秘的仰慕者”的名义派人在课堂上给她送花,然后看她尴尬地环顾四周,而我们则在教室后面得意地窃笑。是的,在

    我得知自己被大学录取之后,我就真的再也没有做过任何作业了。

    所以,当我走到史密斯夫人的面前,告诉她那些题目看上去很陌生

    的时候,她并没有流露出一丝的同情。“查尔斯”,她大声说——表面

    上是对我说,但她的脸却朝着全班同学,以确保教室里的每一个人都能

    听到——“如果你用功了,这些题目看上去就会熟悉得多。”这一点确

    实很有说服力,所以我只得溜回座位。几分钟以后,我们班这门课

    的“尖子生”布莱 恩 ? 阿尔贝特尔走到教室前面,和史密斯夫人耳语了

    几句,史密斯夫人也轻声地回了几句,之后,一件十分离奇的事情发生了。“同学们,请注意一下,”史密斯夫人宣布,“我误把下学期的试

    题发给你们了。”当时考试已经进行了一段时间,所以这次考试不得不

    取消择日重考。我当时的欣喜之情无以言表。

    在我之后的人生中,我娶了一位漂亮的妻子,育有 3 个健康的孩子。

    我出版了几本书,游览过泰姬陵和吴哥窟这样 的名胜。但是,那天微

    积分老师得到“因果报应”的一幕,依旧是我人生中最难忘的 5 个时刻

    之一。 ( 事实上,在之后的补考中我差点儿没及格,但这一点儿都没有

    使这一美妙的人生经历褪色丝毫。 )

    微积分考试的小插曲极大地说明了我和数学之间的关系,但这并不

    是事实的全部。有趣的是,尽管物理课也需要进行像微积分课那样 令

    人厌烦的演算,但我在高中时却十分喜欢物理课。这又是为什么?因为

    物理课有一个明确的目的。我清楚地记得在世界职业棒球大赛期间,我

    们的物理老师教我们如何运用加速度的基本公式来预测一个本金打能打

    多远。这简直酷毙了——这个公式在生活中也有很多重要的应用。

    上大学之后,我彻底沉醉于概率学之中,因为它同样为我在洞察现

    实生活中的一些有趣场景提供了解释。回想过往,我意识到让我痛恨微

    积分课的不是数学,而是从来就没有人想到要告诉我数学的意义是什

    么。如果你没有被“高雅”的公式本身所吸引——反正我是一点儿都不

    觉得有什么“高雅”的——那么,你面对的只会是繁冗而机械的公式,至少我的老师当初就是这样把它们教给我的。

    也正是因为这一点,我与统计学结了缘 ( 本书所指的统计学包括概率

    学在内 ) 。我爱统计学。生活中的一切一切 ,从脱氧核糖核酸 (DNA) 检

    测到买彩票的白痴行为,统计学通通都能做出解释。统计学能帮助我们

    识别诱发某些疾病的因素,比如说癌症和心脏病;统计学还能帮助我们

    在标准化考试中甄别作弊行为;统计学甚至能帮助你在电视游戏节目中

    获胜。在我的孩童时代有一档非常出名的节目,叫作 《让我们作个交

    易》,由当时极受欢迎的蒙提 ? 霍尔主持。在每天节目快要结束时,胜

    出的选手和蒙提都会站在 3 扇大门的前面,蒙提 · 霍尔会告诉观众和选

    手,在其中一扇大门的门后会有一项大奖,如一辆小轿车,而另外两扇

    门的门后则各站着一头山羊。玩法很简单:选手选择一扇门,然后就会

    得到这扇门后面的奖品。

    当选手和蒙提 ? 霍尔站在这 3 扇门的前面时,这位选手中大奖的概率

    为 13 。但是,这档节目却有其微妙之处,这让统计学家们欣喜万分 ( 却

    也使其他人困惑不已 ) 。在选手选择了其中一扇门之后,蒙提 ? 霍尔会先打开剩下的两扇门中的一扇,而打开的这扇门后面站着的永远是一头山

    羊。举个例子来说,假设选手选择了 1 号门,那么蒙提会先打开 3 号门,它的后面站着一头山羊,此时 1 号门和 2 号门依然 紧闭。如果大奖就在

    号门后面,则选手 获胜;如果大奖在 2 号门后面,则选手 失败。但节

    目进行到这里的时候,会变得更加有戏剧性:蒙提会转向选手,问其是

    否更改之前的决定 ( 在这个例子中就是把 1 号门改为 2 号门 ) 。需要注意的

    是,此时剩下的两扇门依然 是关着的,而选手 得到的唯一的新信息,就是他之前没选的那两扇门中,有一扇门的后面经证实是一头山羊。

    那么,这位选手是否应该更改之前的选择?

    答案是肯定的。为什么呢?本书之后的内容会做出解释。

    统计学的悖论就在于,从棒球比赛的击球成功率到美国总统大选的

    民意调查,它几乎无处不在,但是这个学科本身却因为乏味无趣和难以

    理解而“臭名昭著 ' 许多统计学方面的书籍和课程也都过多地充斥着数

    学和术语。相信我,技术细节十分重要 ( 也十分有趣 ) ,但是如果你不知

    道它们的出发点是什么,那么摆在你面前的将会是一堆天书般的符号。

    如果连你自己都不相信学习统计学是一件有意义的事情,那么你或许根

    本不会去关心所谓的出发点。本书中的每一章都旨在回答我向尚中微积

    分老师提出的那个基本问题:学习统计学的意义是什么?

    这是一本有关直觉的书。书中很少出现计算、公式和图表,当用到

    它们的时候,我保证它们都存在一个清晰和富有启发性的目的。与此同

    时,书中常常会出现很多例子,目的就是让你相信,学习统计学是很有

    必要的。统计学真的可以非常有趣,而且其中绝大部分的内容也没有那

    么难。

    在学习过史密斯夫人讲授的微积分课程后不久,我就萌发了写这本

    书的想法。那段“不堪回首”的经历就发生在我读研究生期间,那时我

    学的是经济学与公共政策专业。在开始学习这门课之前,我和班上的大

    部分同学都毫无意外地被指派到了一个“数学营”进行集训,为接下来

    的“数学轰炸”作准备 。在 3 周的集训时间里,我们整天待在一间没有窗户的地下室里学数学——真的一点儿都不

    夸张。

    就在其中的某一天,我离顿悟仅有毫厘之差。那时,负责集训的老

    师正在费劲地教我们在某些情况下能够从一个无穷级数求得一个有限

    数。请不要跳过这一段内容,因为这一概念马上就会清晰起来 ( 现在,你可以想象我在那个没有窗户的教室里是什么感受了吧 ) 。无穷级数指

    的是一个可以无限地写下去的数字组合,如 1+12+14+18 ……最后的省

    略号表示这个算式还将无限地继续下去。

    到了这一步,我们基本上已经开始感到困惑了。老师试图通过一些

    我早已遗忘的定理向我们证明,一个无穷尽的算式依然可以通过求和得

    到一个 ( 大概 ) 确定的数值。尽管有很多令人信服的数学证明,但班上的

    威尔同学却死活不能接受这一结论 ( 老实讲,我自己对此也心存疑惑 ) 。

    无限的东西经过叠加怎么可能得到一个有限的结果呢?

    突然我灵光一现,更准确地说,是我的直觉让我想通了老师要表达

    的意思。我对威尔说了我的头脑里刚刚闪现出来的想法:想象自己站在

    离一堵墙正好两英尺 ( 约 0.6 米 ) 的地方。

    现在朝墙壁的方向移动 12 的距离 ( 即 1 英尺 ) ,这样你离墙壁就只剩下

    1 英尺的距离了。

    再面向墙壁的方向移动 12 的距离 ( 即 6 英寸或 12 英尺 ) ,继续重复相

    同的动作 ( 即移动 3 英寸或 14 英尺 ) ,再移动剩下距离中的 12( 即 1.5 英寸

    或 18 英尺 ) ,不断重复。

    最终你将十分贴近墙壁,假设现在你离墙壁只剩下 11024 英寸,然

    后你还需要朝墙壁的方向移动 12 的距离,即 12048 英寸,但你永远都

    不会撞到墙壁,因为理论上你所移动的每一步都只有剩余距离的 12 。

    也就是说,你将无限接近墙壁但永远碰不到墙壁,如果我们统一用英尺

    作为计量单位,那么你所移动的距离就可以表示为 1+12+14+18 ……

    问题的核心就是:即使你正在不停地靠近墙壁,而且每一步都是剩

    余距离的 12, 但你所走过的总距离永远都不可能超过两英尺,也就是一

    开始你与墙壁之间的距离。出于计算的目的,你所走路程的总长度可以

    简单地估算为两英尺,但数学家会说 1+12+14+18 ……最终收敛于 2 ,这也是那天老师想要教给我们的。

    关键在于我说服了威尔,也说服了自己。虽然我不记得这道题的数

    学推理论证过程,但我总是可以在网上寻找答案,而且当我找到答案的

    时候,我或许还能看出一点儿门道来。以我的经验来看,直觉会让数学

    和其他技术细节更加容易理解,但是反过来就不一定说得通了。

    本书的目的就在于使重要的统计学概念变得更加直观和便于理解,不仅让我们这些被迫在没有窗户的教室里苦学过的人,更可以让任何对

    数字和数据的惊人力量感兴趣的人都爱上统计学。 刚刚我还在说统计学的核心并没有那么的直观和好理解,现在我却

    要提出一个貌似自相矛盾的观点:统计学可以变得非常好理解,任何人

    只要拥有数据和一台电脑,就可以通过简单地敲击几下键盘来完成复杂

    的统计流程。问题是如果数据不足,又或者统计方法错误,那么得出的

    结论将会谬以千里,甚至还会有潜在的危险。就比如下面的这条虚构的

    网上新闻快讯:工作时小憩的人更易死于癌症。假如你在上网时这个标

    题突然从页面弹出呈现在你眼前,你会怎么想?一项基于 3.6 万名办公

    室白领 ( 多大的数据组啊! ) 的调查显示,那些表示会在工作期间偶尔离

    开办公室休息 10 分钟的员工在未来 5 年内身患癌症的概率要比那些从不

    离开办公室的同事高 41% 。显然我们需要为此做点什么,比如在全美国

    范围内掀起一股抵制办公期间小憩的热潮。

    或许,我们只需要对员工在休息的 10 分钟里干了什么事情作些思

    考。我的工作经验告诉我,这些离开办公室休息的员工中有很多人都聚

    在办公楼的入口处吸烟 ( 其他人如果要进入或走出大楼都必须一头扎进

    他们吞吐的“云雾”之中 ) 。那么,我会进一步推断是香烟而非小憩引

    发了癌症。我举的这个例子当然十分荒谬,但现实生活中有许多统计学

    结论在经过解构之后,也产生了类似荒谬的效果。

    统计学就像是一种高智商武器:正确地使用它能够帮助我们,但错

    误地使用它也会产生灾难性的后果。本书不会将你变成一个统计学专

    家,但会让你对这个领域保持谨慎和尊重,不至于酿成大祸。

    如果这是一本统计学教科书,那么各种概念和方法都会罗列其中,而不管普通读者是否能够消化。不过,本书的创作初衷就是介绍那些与

    日常生活联系最为紧密的统计学概念。科学家们是如何总结癌症诱因

    的?民意调查是如何发挥作用的 ( 哪些方面又会出问题 )? 哪些人设计

    了“统计陷阱”,这些人又是如何做到的?你的信用卡公司是如何根据

    你的消费数据,来判断你是否会错过还款期限的 ( 别笑,它们真的做得

    到 ) ?

    如果你想要理解新闻中出现的数字背后的含义,并见识到“数

    据”的巨大力量,统计学就是你的不 二法宝。最后,我还想与大家分

    享瑞典数学家、作家安德烈斯的一句话:用数据说谎容易,但是用数据

    说出真相却很难。读罢此书,我希望你们也能感同身受。

    除此之外,我还有一个更加宏伟的目标,那就是让作为读者的你真

    正地喜欢上统计学。这是一门充满乐趣且与我们的生活息息相关的学

    科,关键在于如何将学习过程中涉及的技术细节与那些重要的理念剥离开来,这就是赤裸裸的统计学。

    目录

    我为什么憎恶微积分却偏爱统计学? V 统计学是大数据时代最炙手

    可热的学问 !

    基尼系数是否是衡量社会分配公平程度最完美的指标?视频网站是

    如何知道你喜欢的电影类型的?祈祷真的能让痼 人的术后康复状况改

    善吗?是什么导致自闭症发病率一直走高?哪些人最有可能成为恐怖分

    子?

    描述统计学 19

    你一直想买的一条连本裙,商场售价为 4999 无,先降价 25% 后再提

    价 25%, 你能算 dj 这条连求裙的最终售价是多少吗?

    统计数字会撤谎 ?

    mo 年人们的平均时薪是 7 美元, 20;2 年人们的早均时 薪是 5 美元,你觉得我们的工资水平涨了吗?

    相关性与相关系数 69

    视频网站根本不知道我是谁,但它又是怎么知道我喜欢看人物纪录

    并而不是电视连续剧、动作片或科幻片的?

    概率与期望值 A

    买福利彩票,去赌场豪赌、投资股票或期货,哪种方式让你跻身

    《福布斯》富豪排行榜的可能性更大?

    第 6 章蒙提 ? 霍尔俘论 105

    在《让我们做个交易》节目中,主待人打开的 3 号门后面是一头羊,在剩下的 7 号门和 2 号门中必定有一肩门后面是汽车,你应该如何选择才

    能中大奖?

    第 7 章黑天鹅 事件 叫

    视的小概率风座如何 在 2008 年成为击垮美国华尔街的“黑天鹅 , 并

    毁了全球金融体系 ?

    第没章数据 与偏见 卬

    20?2 年 ,《科学》杂志刊登了一项惊人的发现:在求俏期多次遭

    受雌性果蝇冷落的雄性果蝇会“借酒消憝”。那么,这些杲 蝇是 ;^ 何一醉方体的?

    第 9 章中心极限定理 I5I

    一辋 坐满肥胖乘客的抛锚客车停在你家 W 近的路上,你推断一下,它的目的地是马拉松比赛场地,还是国标香肠节展厅?

    细章统计推断 与假设检验 咖

    垃圾邮件过滤、癌症筛查 . 恐怖分子追捕,我们最不能容忍哪件事惰

    出错,又有哪件事情是可 ? “睁一只眼闭一只眼”的?

    第 章民意测验与误差幅度 197

    民调结果显示,有 89% 的羑国人不相信政府会做正确的事,有 46% 的

    美国人认可奥巴马的工作表现。这个结杲 可以代表美国人的真实想法

    吗?

    第章回归分析 与线性关系 巧

    你认为什么样的工作压力更容易使职场人士胖 死,是 缺乏控制力

    和话语权” 的工作,还是“权力大,责任也大”的工作?

    第 A3 章致命的回归错误 143

    世界上 3 本最有声望的医学期刊上刊登的 49 篇学术研究论文中有! 3

    后来都被推翻了,所以, 尽量不要用你的回归分祈 研究杀人” 。

    第 4 章项百 评估与“反现实” Z 巧 9

    哈佛大学等世界顶尖大学的毕业生进入杜会后,其收入往往高干一

    般大学的毕业生,让他们获得高收入的究竞是常春藤大学的教育优势,还是他们本身就很出色?

    结束语统计学能够帮忙解决的 5 个问题 Z77

    致谢 2.93第 1 章 统计学是大数据时代最炙手可热的学问

    基尼系数是否是衡量社会分配公平程度最完美的指标?视频网站是

    如何知道你喜欢的电影类型的?祈祷真的能让病人的术后康复状况改

    善吗?是什么导致自闭症发病率一直走高?哪些人最有可能成为恐怖

    分子?

    我注意到一个有趣的现象。学生们在课堂上常常抱怨统计学课程有

    多么难学和无关紧要;可一离开教室,他们又会在午饭时开心地讨论某

    位球星的击球成功率 ( 夏天 ) 或寒冷指数 ( 冬天 ) ,又或者彼此成绩的平均分

    数 ( 永恒的话题 ) 。他们会指出美国职业橄榄球联盟 (NFL) 采用“传球效绩

    指数”用以将一个四分卫的场上表现浓缩为一个数字的不当之处,认为

    以此作为评价球员的依据略显武断,但可以通过调整其中所包含数据 (

    完成率、平均过球码 数、触地得分率、截球率等 ) 的权重比例重新计

    算,以得出一个与原来不同,但同样可信的球员表现指数。但只要是看

    过橄榄球比赛的人都会觉得,没有比用一个单一数字来衡量四分卫的表

    现更加方便的了。

    关于四分卫表现 的这个评价指数是完美的吗?当然不是,无论是什

    么问题 , 统计学都极少提供唯一的“正确”方法。但是,这个指数是否

    以一种易于理解的方式提供了一些有意义的信息呢?那是肯定的,如果

    想快速地对某场比赛的两名四分卫的表现做出比较,那么这个指数会是

    一个不错的工具。我是芝加哥熊队的粉丝,在 2011 年季后赛期间,熊队

    与芝加哥包装工队进行了一场比赛,以后者的胜利告终。我可以通过很

    多种方式来描述那场比赛,包括长篇累牍的分析和令人眼花缭乱的原始

    数据,但这里我为大家提供了一种更加简洁的分析方法。芝加哥熊队的

    四分卫杰 ? 卡特勒的传球效绩指数 为 31.8, 与此同时,格林湾队的四分卫

    亚伦 ? 罗杰斯的传球效绩指数 为 55.4 。同样的,我们可以将杰 · 卡特勒与

    他之前跟格林湾队比赛时的表现进行对比,在那场比赛中他的传球效绩

    指数 高达 85.6 。两者相比较,我想大家就不难理解为什么熊队在常规

    赛时击败了包装工队,但在季后赛时却输给了包装工队。

    这对于概括场上进行的比赛非常有用。传球效绩指数 是否起到了简

    化问题的作用?是的,但这同时也反映了描述统计学的优势和劣势。仅

    凭一个数字,你就可以知道杰 · 卡特勒在与格林湾的那场比赛中败给了亚伦 ? 罗杰斯;但你却无法从这个数字中读出运动员在比赛中的运气是

    好是坏;不知道他是否传出了一个漂亮的过人球却被愚蠢的队友错过

    了,导致这个球最终被对方截获;不知道他是否在比赛的某些关键时刻

    顶住压力发挥出色 ( 因为每一次的成功发球在统计时都被同等对待,不

    论是决定性的三次触地还是比赛接近尾声时那些毫无意义的发球 ) ;不

    知道那一场的防守是否糟糕透顶……读不出来的信息还有很多。

    令人好奇的是,同样一群人,在谈论体育、天气或成绩的时候提到

    数据时还是兴高采烈的,但是当研究人员开始向他们解释基尼系数时,他们的手心却出汗了。基尼系数是衡量收入不均的标准经济学工具,我

    在之后的内容中将对其做出解释,但是现在我要说的最重要的事情是,基尼系数实质上与传球效绩指数 没有多大区别,都是将一系列复杂数

    据浓缩成一个单一数字的便捷工具。正因如此,基尼系数也拥有描述统

    计学的大多数优势,如果你想比较两个国家或某个国家不同时期的收入

    分配情况,该系数就为你提供了一个简单易行的方式。

    基尼系数用于衡量一个国家的财富 ( 或收入 ) 分配的公平程度,最小为

    0, 最大为 1 。计算基尼系数可以看总资产,也可以看年收入,可以以个

    人为计算和比较单位,也可以以家庭为单位。所有这些数据都是紧密联

    系的,但不会完全相同。就像传球效绩指数 一样,基尼系数只是一个

    用作比较的工具,其数字本身并无实质意义。在一个家庭财富均等的国

    家里,基尼系数为 0; 与此相反,如果一个国家的所有财富都集中在一个

    家庭里,那么这个国家的基尼系数等于 1 。或许你已经猜到了,一个国

    家的基尼系数越接近于 1 ,那么这个国家的财富分配就越不公平。根据

    美国中情局提供的数据 ( 顺便说一句,这可是一个巨大的数据收集机构 )

    ,美国的基尼系数为 0.45 。那又怎么样?

    如果将这一数字放到实际情况中,我们就可以得到许多信息。例

    如,瑞典的基尼系数为 0.23, 加拿大为 0.32 ,中国为 0.42, 巴西为 0.54 ,南

    非为 0.65 。

    [ ① ]

    纵观这些数字,我们能够感觉到美国在收入的公平分配

    方面相对落后,情况比许多国家都要糟糕。我们同样可以对不同时期的

    收入分配的公平情况进行比较, 1997 年美国的基尼系数为 0.41, 但在接下

    来的 10 年内,基尼系数就上升到了 0.45( 最近一次来自美国中情局的数据

    是在 2007 年 ) ,这就客观地告诉我们在这 10 年的时间里,美国虽然变得

    更加富裕,但财富的分配也变得更加不公平。现在我们再来看一下其他

    国家在这一时期内基尼系数的变化情况,加拿大在过去 10 年中的收入分

    配情况基本上保持不变,瑞典经济虽然在过去 20 年的时间里得到了长足发展,但其基尼系数却从 1992 年的 0.25 降到了 2005 年的 0.23, 也就是说瑞

    典不但变得更为富裕,其社会也变得更加公平。

    基尼系数是否就是社会分配公平程度最完美的衡量指标呢?绝对不

    是,正如传球效绩指数 也不是衡量四分卫比赛 表现的完美指标一样。

    不过,基尼系数确实以一种便捷易懂的形式为我们提供了一个重要社会

    现象的一些宝贵信息。

    我们慢慢地又回到了前文中所提出的那个问题:学习统计学的意义

    是什么?统计学能够帮助我们处理数据,而数据只不过是包裹着华丽外

    衣的信息。在很多时候、很多事情上,数据不仅琐碎而且并非那么重

    要,比如比赛数据统计;但有的时候数据却能为你打开一扇洞察人类存

    在本质的窗户,比如基尼系数。

    但是,正如所有信息宣传片都会指出的:这不是所有情况!谷歌首

    席 经济学家范瑞安在接受《纽约时报》采访时曾说,在未来 10 年内统

    计学家将会成为“性感的职业”。对此我不得不承认,经济学家有的时

    候对“性感”的理解确实非同寻常。但我们还是来看看下面这些彼此不

    相干的问题:

    我们如何确认那些在统考中作弊的学校?

    网飞 (Netflix) 是如何知道你喜欢的电影类型的?

    既然不能对人体进行癌症诱发试验,那我们如何才能得知哪些物质

    或行为会诱发癌症?

    祈祷真的能让手术病人的状况改善吗?

    从顶尖高校毕业是否就意味着更高的经济收入?

    是什么推高了自闭症的发病率?

    统计学能够帮助我们回答这些问题 ( 至少也会加快我们解决这些问题

    的步伐 ) 。这个世界正在制造出越来越多的数据,而且速度越来越快。

    但是正如《纽约时报》所指出的,“数据只不过是知识的原材料”。无

    论是在寻找被低估的棒球运动员,还是在更公平地分配教师工资的问题

    上,统计学都是我们分析信息获得有意义结果的最有力工具。下面,我

    们就来快速了解一下统计学是如何赋予原始数据以意义的。

    描述性数据——击球率与大学学分

    保龄球的得分是一个描述性的数据,棒球的击球率也是。对于绝大

    多数美国的体育迷来说,从 5 岁开始,他们就已经精通这些赛场上的描述统计学了。在体育以及生活中的其他领域,我们使用数字来总结信

    息。棒球运动员米奇·曼托到底有多棒?他的击球率高达 0.298 。对于

    一个棒球迷来说,这就是一个极有意义的陈述、一个非常耀眼的成就,这个数字囊括了他长达 18 个赛季的棒球职业生涯 ( 但我却觉得有那么一

    点儿沮丧,一个伟大运动员一生的奋斗到头来不过就是一个数字 ) 。当

    然,棒球迷们也承认,像击球率这类描述性数据在总结一个运动员的价

    值时,具有其他衡量标准不可比拟的优势。

    在美国,衡量一个学生的高中和大学学业表现的方法是计算平均成

    绩点数 (GPA), 通俗点儿说就是学生在校的平均成绩。如果一门课的成绩

    为 A ,那么就可以获得 4 点, B 是 3 点, C 是 2 点,以此类推。当高中毕业生

    申请大学、大学毕业生找工作时, GPA 就是评价他们学术潜力的一个方

    便快捷的指标。一个 GPA 为 3.7 的学生显然要比另一个 GPA 只有 2_5 的学生

    的实力强,这就使得 GPA 成为一个受人欢迎的描述性数据,不仅计算容

    易、理解容易,而且对不同学生进行比较也很容易。

    但这一衡量指标并不完美。 GPA 没有反映不同学生所选课程的难易

    程度,假设一个 GPA 为 3.4 的学生选的都是相对没有挑战性的课,而另一

    名 GPA 只有 2.9 的学生的课程表里尽是微积分、物理这类难学的课,我们

    能一口判定孰优孰劣吗?我以前所在的高中就试图解决这一问题,学校

    规定比较难学的课程会有额外的加分 , 这些课程如果期末成绩为 A, 那么就

    会有 5 点的奖励,而非原来的 4 点。但这也带来了新的问题,我的母亲很

    快就反应过来,在新的 GPA 计算方法下,对于一个选了很多加分课程的

    学生来说 ( 比如说我 ) ,其他普通课程就算做到最好,也就是拿到了 A, 最

    终的平均分也会被拉下来。因此,我的家长不准我在高中选修驾驶课,因为即使我做到完美,也有可能会因为这门课而错失进入顶尖大学的机

    会,进而断送了我成为畅销书作家的美好前程。但不学开车也是不行

    的,于是父母自己掏钱送我去一家私人驾驶学校学开车,那个暑假的晚

    上我基本都是在车里度过的。

    很疯狂吧?但本书的主题之一就是,对于描述统计学的过分依赖会

    带来误导性的结论或导致不良行为。上一句话我原先用的短语是“过分

    简化的描述统计学”,可后来我把“过分简化”给删掉了,因为这个形

    容词是多余的,描述统计学存在的意义就是简化,因此不可避免地会丢

    失一些内容和细节,任何一个数字工作者对此都要心知肚明。

    用抽样数据来解决大问题

    有多少无家可归的人在芝加哥街头流浪?已婚人士多久过一次性生活?这些问题看上去风马牛不相及,但事实上它们都可以通过对基本统

    计工具的运用予以解答 ( 虽然答案并非那么完美 ) 。统计学的一个核心功

    能就是使用手中已有的数据进行合理推测,以回答那些我们还未掌握所

    有信息的“大”问题。简言之,我们能够使用“已知世界”的数据来

    对“未知世界”进行推断。

    那么,我们就从“流浪者”这个问题开始。对于一个大都市来说,要把生活在其中的无家可归者一个一个都数出来,不仅成本高昂,而且

    在实际操作中也困难重重。但这又是一个非常重要的数据,能够为当地

    政府开展社会救济、向州和联邦政府争取拨款以及在美国国会上获得支

    持提供依据。一种重要的统计学做法就是抽样,也就是在一小片区域内

    进行数据收集,比如 10 多个街区,然后再根据得到的数据进行推断,对

    整个城市的流浪人口作一个明智的判断。抽样所需的资源要比全城计数

    少得多,如果使用得当,同样可以获得准确的结果。

    民意调查也是抽样的一种形式。由一定数量的家庭组成的样本能够

    代表所属全体人口的观点,舆情研究机构会与这些家庭取得联系,针对

    某一个特定事件或候选人的情况询问家庭成员的看法。显然,这要比联

    系整个州或美国所有家庭要简单。盖洛普民意调查和研究机构认为,一

    个符合统计学方法、包含 1000 个家庭的样本能够代表整个美国的所有家

    庭,两者的调查结果基本能够保持一致。

    通过这种方式,我们统计出了美国人性生活的频率、对象和方式。

    20 世纪 90 年代中期,芝加哥大学的国家民意研究中心 (NORC) 针对美国人

    性行为开展了一项非常雄心勃勃的研究,其选取了大量具有代表性的美

    国成年人作为样本,调查结果就是基于这些人面对各类问题时所做出的

    反应和回答得出的。如果你继续读下去,保证会在第 10 章找到这项研究

    的结论。说真的,现在有几本统计学的著作能够向你承诺这些?

    概率、风险与考试作弊

    从长远看,赌场总是能够挣到钱,而且无一例外。这并不是说赌场

    每时每刻都在赚钱,每当赌场里的钟声和口哨声响起时,就代表某位幸

    运的赌客刚刚赢走了几千美元。整个博彩事业是建立在机遇游戏之上

    的,也就是说任何一次骰子的投掷和扑克牌的翻牌都是不确定的。但与

    此同时,相关事件的潜在概率又是已知的,比如“黑杰克”抽中 21 点

    或“轮盘赌”转到红色的概率是固定的。当这些游戏的概率对赌场有利

    时 ( 赌场当然不会亏钱 ) ,不管场内的钟声和口哨声有多热闹,或者赌客

    手里的赌注积累得有多大,赌场永远都是最终的赢家。 这一统计现象在生活中所产生的影响远比在赌场里大得多。许多公

    司会对某些最不愿意遇到的风险进行概率评估,公司的管理层都知道想

    要完全避免这些风险是不可能的,就像赌场没法保证赌客们每一手牌都

    会输一样。但是,任何一家面对不确定因素的公司都可以通过商业流程

    的设计来管理这些风险,将从环境灾难到不合格产品等一系列不利因素

    的出现概率降至可接受的范围内。华尔街各大公司经常会对它们的投资

    组合进行风险评估,充分考虑不同情景的出现概率以设计出合理的应对

    方案。 2008 年金融危机爆发的部分原因,就是一系列之前被认为是极不

    可能发生的市场事件都成为现实,就好像赌场里的每一位赌客在某一晚

    同时抽中大奖一样。我会在之后的章节里向大家解释,其实华尔街的投

    资模型都存在缺陷,这些公司用来评估风险的数据也过于局限,但此时

    此刻,我想说的是,任何一个风险评估模型都必须以概率作为基础。

    面对难以接受的风险,如果个人和企业无法规避,就会通过其他方

    式寻求保护。保险业应运而生,通过收取保费,保险公司为其客户在遭

    遇如车祸、火灾等不良事件后提供保护。保险公司并不是通过消除这些

    不良事件来挣钱,因为车祸和火灾每天都会发生,甚至汽车有可能会一

    下子撞进房子里引起火灾。保险公司收取高额的保费,用于支付车祸、火灾等意料之中的风险的赔偿金,然后往往还会有大量盈余。 ( 保险公

    司还可以通过宣传安全驾驶、在游泳池周围装设围栏、为每个卧室安装

    烟雾探测器等方式来减少预期的损失赔偿。 )

    概率在有些情况下甚至可以被用来判断考试作弊。一家由美国学术

    能力评估考试 (SAT) 的一位开发者创办的考试安全公司,专注于提供“数

    据取证”服务,为客户寻找考试作弊的蛛丝马迹。举个例子,在学校或

    考点进行的考试,多名考生以同样的答案答错同一道题的情况是极少见

    的,通常发生的概率只有不到百万分之一,如果有类似的情况出现,该

    公司就会予以标记。其数学逻辑源自一个事实,即当大部分考生对某道

    题都给出了正确答案时,我们并不会感到大惊小怪,因为这是他们应该

    做的事情。这些考生有作弊的可能,但他们凭一己之力做对 题的可能

    性更大。但是当这一群考生答错题的时候,他们的错误答案不应该是完

    全一样的,如果错误答案完全一样,那么他们就有可能是相互抄袭 ( 或

    者通过短信息分享答案 ) 。此外,还有几种情况会引起该公司的注意,比如在一场考试中,考生在难题上的正确率大大高于容易的题 ( 这意味

    着他们有可能提前就知道答案 ) ;又或者在一场考试中,收上来的答题

    卡上“错改对”的涂改痕迹要明显多于“对改错” ( 这意味着有可能是

    老师或监考人员在考试结束后对答题卡动了 手脚 ) 。 当然,你也不难看出概率也有其局限性。一大群考生在某道题上出

    现相同的错误答案的情况完全有可能是巧合,事实上,如果参与评估的

    学校越多,我们就越有可能认为这类情况实属巧合。并不是说我们一旦

    在统计时发现异常情况,就马上认定考试存在作弊现象。来自亚特兰大

    的德尔玛 ? 金尼在 2008 年中了价值 100 万美元的彩票,谁知到了 2011 年又

    中了价值 100 万美元的彩票。这种同一个人连续两次中大奖的概率只有

    25 万亿分之一,可我们不能仅凭概率几乎为零就以 诈骗罪将金尼先生

    关进大牢 ( 但我们或许可以调查一下,他是否有亲戚在彩票公司工作 ) 。

    概率就像是武器库里的一件武器,需要使用者有较强的判断力。

    哪些人最有可能成为恐怖分子?

    吸烟会诱发癌症吗?虽然现在我们已经有了答案,但得出这个答案

    的过程却要比大多数人想象中的复杂许多。如果要求证一个科学假设,科学方法要求我们必须进行控制实验,也就是要有一个对照组,除了要

    求证的变量以外 ( 如吸烟 ) ,实验组和对照组之间不能有任何不同。如果

    我们在这两组的观察结果中发现了明显的不同 ( 如肺癌 ) ,那么我们就能

    完全推断这个变量是引起不同结果的原因。但是,我们不能以人为实验

    对象。如果我们的假设是吸烟能诱发癌症,那么就不能随便指定两组大

    学毕业生,将其分为吸烟组和不吸烟组,然后在 20 年后的同学聚会上打

    听谁得了癌症——这是不道德的。 ( 如果我们的假设是某种新研制的药

    品或疗法或许能够改善人类健康,那么我们可以在人身上进行控制实

    验。我们不能在明知可能会带来不良后果的前提下以人为实验对象。 )

    [

    ② ]

    现在你或许会说,我们完全没有必要在一开始的时候就进行这项可

    能会违背伦理的实验。想观察吸烟所带来的影响?很简单,跳过这套令

    人头晕目眩的方法论,直接前往那群毕业生的 20 周年毕业聚会,去看看

    参加聚会的人数有多少就可以了。

    不行。吸烟者和不吸烟者除了吸烟与否方面的不同,在生活的很多

    习惯方面都会有差异。比如,吸烟的人经常会有更多的嗜好,如酗酒和

    暴饮暴食,后两者也会给健康造成损害。就算在 20 周年聚会上那些吸烟

    者的健康状况尤其糟糕,我们也不能说这些都是吸烟造成的,也有可能

    是他们的其他坏习惯带来的。而且在数据的采集上我们也会遇到麻烦,要知道数据是我们作分析的依据,但那些吸烟的校友如果患上了严重的

    癌症,极有可能会缺席 20 周年聚会 ( 已经离世的吸烟者就更不可能在聚

    会上露面了 ) 。因此,由于那些健康状况良好的校友是最有可能出现在聚会上的,任何基于出席者健康状况的分析和推断 ( 吸烟或其他变量 ) 都

    会是有缺陷的,而且距离毕业的时间越长,比如 40 年或 50 年,这种缺陷

    就越严重。

    我们不能像对待实验室里的小白鼠那样对待同胞,因此,统计学更

    像是侦探们做的事。数据里隐藏着线索和模型,沿着这些线索和模型,我们最终能够得到有意义的结论。就像那些让人印象深刻的罪案调查类

    美剧,如《犯罪现场调查:纽约篇》,剧中展现有魅力的警探和取证专

    家不放过丝毫细微的证据——烟蒂上的 DNA 、苹果上的咬痕、车座脚垫

    上的一 根纤维,然后再根据这些证据顺藤摸瓜地抓住凶残的罪犯。这

    部剧最吸引人的地方就在于,里面的专家们并不是通过那些常规的证

    据,如目击证人、监控录像等来抓坏人的,而是借助了科技手段。统计

    学基本上也是干这些事情,凌乱无章的数据就像是犯罪现场,统计分析

    员就是警探,通过对原始数据进行分析和加工得到有意义的结论。

    在读完本书第 11 章的内容之后,我希望你会对《犯罪现场调查:回

    归分析》产生兴趣,因为这部“美剧”与其他类似的动作警匪剧有一点

    儿不同。回归分析是研究者用来分割某两个变量之间关系的工具,如吸

    烟和癌症,但同时又要保证其他重要因素及其影响不变,如饮食、运

    动、体重等。如果你在报纸上读到每天吃一个麸皮饼 可以减少结肠癌

    的发病概率,你完全不需要杞人忧天地想象着有一群不幸的人被关在联

    邦实验室的某个地下室,每天被强迫着吃下麸皮饼,而在隔壁大楼里的

    控制组则可以享用到培根和煎蛋。事实上,实验人员会对数以千计的人

    进行详尽的信息收集,包括他们吃麸皮饼的频率,然后用回归分析的方

    法来完成两个关键步骤: (1) 量化吃麸皮饼和患结肠癌之间的关系 ( 例

    如,在其他影响癌症发病率的因素完全相同的情况下,吃麸皮饼的人患

    结肠癌的发病率要比不吃麸皮饼的人低 9%),(2) 量化吃麸皮饼和结肠癌发

    病率下降之间的关系只是巧合的概率 ( 如果真的成立,则否定了上述关

    于饮食和健康之间关系的发现,这对于该实验来说无疑是一个逆转 ) 。

    当然,《犯罪现场调查:回归分析》里的主演们都是俊男美女,比

    现实生活中处理这些数据的学者们要赏心悦目得多。这些俊男美女 ( 所

    有人看上去都只有二十三四岁,但都惊人地获得了博士学位 ) 会对大量

    数据进行分析,通过使用最先进的统计学工具来回答重要的社会问题:

    什么是打击暴力犯罪最有效的武器?

    哪些人最有可能成为恐怖分子?在本书随后的内容里,将会为大家

    介绍一个概念——“具有统计学意义的”发现,也就是说,通过分析发现某两个变量之间的联系并不只是单纯的巧合。对于学术研究人员来

    说,这类发现在统计学上就代表“确凿的证据”。在那部美剧中,我看

    到一名研究人员在计算机实验室里“挑灯夜战” ( 因为白天的她作为沙

    滩排球队的队员代表美国队参加奥运会 ) ,在这名研究员把统计分析结

    果打印出来之后,她终于找到了一直以来孜孜以求的结论: . 在她的数

    据集合里,有一个她认为可能会是非常重要的变量与自闭症之间有

    着“具有统计学意义的”联系。她必须马上与同事们分享这一重大突

    破!

    这位研究人员拿着那页纸飞奔到大厅,但由于她穿着高跟鞋和一件

    过于紧身的黑色短裙,所以速度稍微受到影响。她跑到了她的男朋友的

    面前 —— 一个身材健硕、皮肤晒得黝黑的帅哥,对于一个需要在地下实

    验室里每天工作 14 个小时的人来说,他是怎么做到如此健康的呢?这名

    研究人员把统计结果拿给她的男友看,他轻轻捋了捋下巴上修剪得整整

    齐齐的山羊胡,从抽屉里拿出一把格洛 克 18 型全自动手枪,插人位于

    腋下的手枪套里,理了理身上价值 5000 美元的波士西装 ( 我又忍不住想

    问一句,对于一个起始年薪才 3.8 万美元的年轻人来说,这身西服是不

    是贵了一些? ) 。随后,这两位回归分析专家迅速走近他们的上司 —— 一

    位刚刚经历了失败婚姻和戒酒的年迈老兵……

    好吧,有这么精彩的情节铺垫,难怪大家能意识到上述统计研究的

    重要性,但其实就算没有电视剧编剧的努力,统计研究本身也应该是精

    彩万分的。所有我们关心的社会挑战都少不了对大量数据集合的系统性

    分析 ( 在很多时候,相关数据的收集是非常耗费财力和时间的工作,但

    在分析的过程中又起到了非常关键的作用,有关这一点会在第 7 章的内

    容中讲到 ) 。刚刚关于《犯罪现场调查:回归分析》这部美剧的 描述,我或许会对剧中的人物有所修饰,但对他们所要面对的那些问题的重要

    性,我是一点儿都不夸张的。有一篇学术文献就是以恐怖分子和“人肉

    炸弹”为主题的,而这类课题要是直接以人 ( 或实验室老鼠 ) 作为研究对

    象,是很难获得有用的结论的。我所在研究生院的一位统计学教授写了

    一本书,叫作 《恐怖分子从何而来?》,该书对全球的恐怖主义袭击

    进行了数据统计,得出的结论之一是:恐怖分子不是极端贫困的人,受

    教育程度也不低。这位普林斯顿大学的经济学家阿兰 · 克鲁格总结

    道:“恐怖分子通常来自受过良好教育的中产阶级或高收入家庭。”

    这是为什么呢?好吧,这暴露了回归分析的一个局限所在。我们可

    以通过统计分析来确定两个变量之间的强烈联系,但却无法解释为什么

    存在着这样的联系,在某些情况下,我们也无法确定这种联系是否为因果关系,也就是说,不知道其中一个变量的变化是否真的能引起另一个

    变量的变化。在恐怖主义的例子中,克鲁格教授推测,由于恐怖分子的

    行动一般都带有政治目的,所以只有受过高等教育和家境殷实的人才有

    最大的动力去改变社会,这些人尤其忍受不了某些政府部门对自由的压

    制,从而走向恐怖主义。根据克鲁格教授的研究,在其他因素相同的前

    提下,恐怖活动频繁出现的国家往往是那些实行高压政策的国家。

    以上的这个讨论又把我们带回了那个问题:学习统计学的意义是什

    么?意义并不是要去做数学计算题,或在朋友和同事面前炫耀你学到的

    高级统计技巧,而是通过学习知识来认清我们的生活。

    统计数字背后的谎言与真相

    即使是在最理想的情况下,统计分析也很少告诉我们“真相”。我

    们通常所能做的,只是用并不完美的数据来就事论事,因此,我们总会

    看到有一些态度严谨的学术爱好者不同意某些统计结果或推论,而最为

    基本的就是对需要解答的问题本身产生质疑。体育爱好者们对于谁

    是“史上最佳的棒球运动员”这一问题似乎永远都达不成共识,因为对

    于“最佳”二字从来就没有一个客观的定义。令人眼花缭乱的描述性数

    据可以从某些角度对这个问题进行回答,但总是无法给出一个令所有人

    都信服的最终答案。正如本书下一章即将 讲到的,还有很多具有深刻

    社会意义的问题都成为上述挑战的牺牲品。美国中产阶级的经济健康到

    底出了什么问题?问题的答案取决于我们如何定义“中产阶级”和“经

    济健康”。

    我们所能收集的数据以及所能进行的实验的种类总归是有限的。阿

    兰 · 克鲁格对于恐怖分子的研究也没有夸张到用几十年的时间对几千名

    年轻人进行跟踪,从而确定他们中的哪些人最后变成了恐怖分子,因为

    这根本就是不可能实现的。我们同样也不能创造出两个完全相同的国

    家,其中一个国家在政治上实行高压管制,而另一个没有高压政策,然

    后比较发生在这两个国家的自杀式爆炸数量的多少。即使允许我们在人

    身上进行大量的控制实验,想要成功也不是一件容易的事,况且哪来那

    么多的资金?针对我们之前所提出的那个有关祈祷是否能减少术后并发

    症的问题,研究人员专门对此进行了大规模的调查分析,在这个过程中

    耗费了整整 24 万美元 ( 至于结果如何,请你耐心读到第 13 章就知道了 ) 。

    美国国防部前部长唐纳德 ? 拉姆斯菲尔德有一句名言:“战争是为了

    与真实存在的敌人作战,而不是与假想敌作战。”不论你如何看待拉姆

    斯菲尔德的这句话 ( 以及他对伊拉克战争的解读 ) ,我们在研究领域同样用得上这句话。我们运用最好的数据、理论和资源来进行统计分析,但

    这一过程并不等同于加法或除法,正确的技术不一定能够得到“正确

    的”答案,电脑也不一定比人脑更加准确和无懈可击,统计分析更像是

    完成一个警探所要干的工作 ( 我可没有为《犯罪现场调查:回归分析》

    打广告的意思 ) 。数据总是想要告诉我们一些信息,但是面对这些信

    息,聪明又诚实的人经常有不同的看法。

    但谁告诉过你,只要是使用统计学的人就一定是聪明又诚实的呢?

    正如之前所述,本书是向 1954 年发行、销量超过百万的经典作品《统计

    数字会撒谎》致敬的。现实就是,你既可以用统计数字撒谎,也有可能

    因为统计数字而不小心犯错。无论是哪种情况,统计分析所包含的数学

    精度都会被亵渎。本书将会带你认识那些最常见的统计学方面的错误和

    曲解,这样你就不至于犯了错还被蒙在鼓里。

    那么,让我们再次回到本章中反复出现的那个问题:学习统计学的

    意义是什么?

    总结大量的数据。

    做出正确的决定。

    回答重要的社会问题。

    认识并运用那些能够改善我们日常做法的模型,卖更多的尿片、抓

    更多 的罪犯……

    识别作弊者,让作恶者受到法律的审判。

    评价政策、项目、药品、医疗程序和其他创新的有效性。

    揪出那些运用相同的统计学手段干坏事的败类。

    如果你在做这些事情的同时,还能得体地穿着波士西装或黑色紧身

    短裙散发魅力,那么你将会成为《犯罪现场调查:回归分析》的下一位

    明星。第 2 章 描述统计学

    你一直想买的一条连本裙,商场售价为 4999 元,先降价 25% 后再

    提价 25%, 你能算出这条连衣裙的最终售价是多少吗?

    让我们先来思考两个看上去毫不相干的问题: (1) 美国中产阶级的经

    济健康状况出了什么问题? (2) 谁是有史以来最伟大的棒球运动员?

    第一个问题极为重要,几乎构成了每次美国总统选举和社会运动的

    核心。中产阶级是美国的心脏,这一群体的经济状况是整个国家经济运

    行健康与否的关键性指标。相比之下,第二个问题就显得微不足道了,但棒球爱好者或许会持有不同的意见。这两个问题的共同之处就在于,当谈到运用数字和数字运算来总结原始数据的描述统计学时,它们都能

    用来说明其优点和局限所在。

    如果我想证明德瑞克 ? 基特是 一位多么伟大的棒球手,我可以先让你

    坐下,然后向你娓娓道来基特在每场职业联盟比赛中的每一次击球,这

    就是原始数据,而且你需要花很长一段时间来消化,因为基特为纽约洋

    基队效力了 17 个赛季,上场击球的次数累计达到了 9868 次。

    或许我也可以告诉你,在 2011 赛季结束的时候,德瑞克 · 基特的击球

    率为 0.313, 这是一个描述性数据,即一个“统计量”。

    显而易见,击球率是对基特参加的所有 17 个赛季的简化统计,不仅

    易于理解 , 而且简单,但所能传达的信息却十分有限。棒球运动专家们

    的手中还有很多在他们看来比击球率更有价值的描述性数据。史蒂夫 ·

    莫耶是一家为客户提供大量原始数据的棒球信息解决方案公司的老总,之前我与他通了电话,特地向他咨询了几个问题: (1) 哪些是评价棒球天

    才最重要的数据? (2) 谁是史上最伟大的棒球手?在介绍完背景 之后,我会向大家公布莫耶的答案。

    现在让我们回到那个更加重要的问题上来,谈谈美国中产阶级的经

    济健康状况。当然如果我们能够找到类似于击球率这样 言简意赅的,甚至更好的经济衡量指标,那是最理想的,我们需要一个简单且准确的

    数字,来说明一个典型的美国工人最近几年的经济状况,那些我们称之

    为“中产阶级”的人到底是更富了、更穷了,还是在原地踏步?一个合

    理的答案——肯定不会有“正确”的答案——就是,计算一代美国人 (大约为 30 年 ) 的人均收入,观察其变化趋势。人均收入是一个简单的平

    均数:总收入除以人口数,这样得出的结果就是美国的人均年收入从

    1980 年的 7787 美元上升到 2010 年的 26487 美元。你看,真是一个值得庆

    祝的成就!

    但只有一个小问题,我的计算方法在技术上是正确的,但是对于我

    一开始提出的那个问题来说,却是完全错误的。首先,上面的数据没有

    考虑通货膨胀因素, 1980 年的 7787 美元相当于 2010 年的约 19600 美元。

    但仅进行通货膨胀因素的处理还不够,更大的问题是,我们需要知道的

    是普通美国人的收入,而不是泛泛的人均收入,这两者有本质上的区

    别。

    人均收入仅仅是将整个国家所有人的收入加起来再除以总人口数,我们无法从这个计算结果中得知各阶级收入所占的比例,无论是 1980 年

    还是 2010 年。正如“占领华尔街”运动的示威者所指出的,处于收入排

    行榜顶端的那 1% 的人,他们收入的爆炸性增长能够显着地拉动人均收

    入水平的整体提升,但同时不需要往剩下的那 99% 的人的口袋里多放一

    分钱。也就是说,在普通美国人的生活陷入水深

    火热的同时,美国的人均收入依然能够节节攀升。

    与之前有关棒球的问题一样,这次我又请教了专家,咨询我们应该

    如何看待美国中产阶级的经济问题。我找到了两位知名的劳动经济专

    家,其中包括美国总统奥巴马的高级经济顾问,询问他们会采用哪些描

    述性数据来评价一个典型美国人的经济状况是否良好。是的,作为读

    者,你也会读到他们的答案,不过在那之前,我们还是要对描述统计学

    有一个大体的认识,这样才能更好地理解专家的观点。

    从棒球到收入,对大量信息进行归纳是处理数据时最基本的任务。

    美国有 3.3 亿名居民,一张记录每位美国人的姓名和收入的电子表格包

    含了我们衡量这个国家经济健康状况所需的所有信息,但这张信息过量

    的表格其实相当于什么都没有告诉我们。这就是让人觉得讽刺的地方:

    经常是数据越多,事实越模糊。因此,我们需要简化,将一系列复杂的

    数据序列减少为几个能够起到描述作用的数字,正如奥运会体操比赛

    中,我们将一套多难度组合的复杂动作浓缩为一个得分: 9.8 。

    好消息是,这些描述性数据为我们提供了一个针对某一现象的可操

    作、有意义的概括,这也是本章所要讲的。但坏消息是,任何一种简化

    都会面临被滥用的危险。描述性数据就像是在线交友网站上的档案:虽

    然每一条都是准确的,但同时也相当具有误导性。 假设你在上班,此刻正无所事事地浏览网站,无意间你浏览了一篇

    报道,是关于美国娱乐界名媛金 · 卡戴珊和职业棒球手克里 斯 ? 亨弗里斯

    的感情生活的,这篇报道里详细记录了他们两个人 72 天“短命”婚姻的

    点点滴滴。你正津津有味地看到他们结婚第 7 天的生活时,你的老板手

    里拿着两份厚厚的文件出现在你的办公桌前。其中一份文件包含了你所

    在公司前一年售出的 57334 台激光打印机的保修信息 ( 每售出一台打印

    机,文件中都会记录下这台打印机保修期内的质量问题和返修次数 ) ;

    另一份文件记录了公司最主要的竞争对手在前一年售出的 994773 台激光

    打印机的保修信息。老板想让你对两家公司的打印机质量作一个对比。

    幸运的是,你用来阅读卡戴珊婚姻生活报道的这台电脑里恰好安装

    了基本统计软件包,但应该从哪里入手呢?听从直觉的召唤一般来说总

    是没错的:描述任务的第一步通常是估量某套数据的“中间位置”,也

    就是统计学家所说的“集中趋势”。在比较的过程中,你所在公司打印

    机的质量体验总体如何?对于数据分布的“中间位置”,最基本的估量

    方法就是求平均数,具体到这个案例,我们需要知道你的公司和竞争对

    手公司平均每台打印机的质量问题分别有多少个。简单来说,你先数出

    保修期内所有记录在案的质量问题,再除以打印机的销售总数就可以了

    ( 相同的一台打印机在保修期内可能会出现多个质量问题 ) 。之后再算出

    另一家公司的数据,这样就能得出一个重要的描述性数据:已售打印机

    的平均质量问题数。

    假设竞争对手售出的打印机在保修期内平均每台反馈的质量问题数

    为 2.8 个,而你的公司所售打印机的平均质量问题数为 9.1 个,这样说够

    直白了吧?通过计算,两家公司共计 100 多万台打印机的信息就被你提

    炼浓缩为问题的核心所在:你公司的打印机经常出现问题。现在你就可

    以给你的老板发一封简短的邮件,用数据告诉他两家公司打印机的质量

    差距,然后点开之前 的网页继续看那位名媛金 ? 卡戴珊婚后第 8 天的生

    活。

    或者,你也可以等会儿再浏览网页。刚才谈到数据分布的“中间位

    置”时我并没有展开,其实所谓的平均数、平均值在这里是有一些问题

    的,即它们容易受到远离中心区域的“异常值”的干扰而出现失真。为

    了能够让大家更好地理解,我来举个例子,在西雅图的一家中档酒吧的

    吧台前,坐着 10 个人,他们每年的平均收入都是 3.5 万美元,也就是

    说,这组人的人均年收入为 3.5 万美元。这时候,比尔 ? 盖茨 走进了这家

    酒吧,肩膀上立着一只会说话的鹦鹉 ( 其实这只鹦鹉与这个事例一点儿关系都没有,之所以要提一下鹦鹉是想给这个案例增加点儿乐趣 ) ,假

    设他在这个案例中的年收入为 10 亿美元。当比尔 · 盖茨在吧台前的第 11

    把発子上坐下后,这组人的平均年收入便迅速上升到了将近 9100 万美

    元。很显然,之前的那 10 个人丝毫没有变得更富有 ( 尽管比尔 ? 盖茨很有

    可能会帮他们付一两次酒账,但仅此而已 ) 。如果我说吧台前的这群人

    平均年收入为 9100 万美元,这句话在数据上是正确的,但同时也相当具

    有误导性。这里不是一个亿万富翁会经常光顾的酒吧,只不过正好有一

    群收入不高的普通人坐在了比尔 ? 盖茨和他的会说话的鹦鹉旁边。平均

    数必须对“异常值”有足够的敏感性,这也是为什么我们不应该用人均

    收入来衡量美国中产阶级的经济健康状况。因为在收入分配的顶端,有

    着一群收入暴涨的美国人——公司高管、对冲基金经理,以及像德瑞克

    · 基特这样的运动员,普通美国人的收入会被这些巨富们的光环掩盖,就像一群失意的普通人坐在比尔 · 盖茨身边一样。

    出于这个原因,我们还有一个数据可以用来表示分配的“中间位

    置”,但与平均数有所不同,这个中间位置就是中位数。中位数正好将

    一组数字一分为二, 12 位于中位数之前,另外 12 位于中位数之后 ( 如果

    遇上一组数字的数量为偶数,那么中位数就是中间两个数的平均值 ) 。

    回到刚刚酒吧的那个例子,原先坐 在吧台前的 10 个人的年均收入中位

    数为 3.5 万美元,当比尔 ? 盖茨和他的鹦鹉入座之后,这 11 个人的年收入

    中位数依然为 3.5 万美元。如果你将他们按照收入多少来排座的话,那

    么坐在第 6 把発子上的人的收入就代表了整组人收入的中位数。假如此

    时沃伦 ? 巴菲特走了 进来并坐在了比尔 · 盖茨的身边,他们的中位数还是

    不会改变。

    [ ③ ]

    如果一组数据分布中没有特别离谱的异常值,那么它们的中位数和

    平均数将会是差不多的。下图中,我模拟了一张对手公司打印机质量数

    据的统计图,需要特别注意的是,我列出了“频数分布”的数据。每台

    打印机出现质量问题的次数被依次排列在 X 轴上,每根柱子的高度代表

    售出的这批打印机中出现相应数量质量问题的打印机占总数的百分比,即 Y 轴上的频数,例如,在保修期内, 36% 的打印机出现过两次质量问

    题。这一数据分布涵盖了所有可能出现的质量问题的数量,包括零故

    障,因此所有频数相加的结果肯定等于 1( 或 100%) 。每台打印机的质量问题

    图 2-1 对手公司打印机质量问题频数分布

    由于上图的数据分布情况基本上是对称的,因此平均数和中位数两

    者相对接近。坐标轴的右边还有一小部分故障数量较多的打印机,这些

    异常值将会拉高平均数,但是对中位数没有影响。假如在你准备将质量

    统计结果发给老板之前,你决定对两家公司打印机的质量问题求一下

    中位数,在敲击几下键盘之后,你得出了结果。对手公司的质量投诉中

    位数为 2, 而你所在公司的这一数字则为 1 。

    你瞧怎么样?你所在公司每台打印机的质量问题的中位数实际上要

    小于对手公司。此时,由于卡戴珊的婚姻生活已经开始变得枯燥乏味,而且你也深深地被你刚才的发现所吸引,于是你忍不住为自己公司的质

    量问题画了一张频数分布图。

    每台打印机质量问题

    图 2-2 你所在公司打印机质量问题频数分布

    从图中可以清楚地看到,你所在公司的产品并不存在一个普遍的质

    量问题 , 但却有一个棘手的麻烦:一些数量不多的打印机存在大量的质

    量问题。这些异常值抬髙了质量问题的平均数,但没有对其中位数造成影响。从生产的角度看,更为重要的一点是,公司无须更新或重组整个

    生产流程或生产设备,唯一需要做的就是调查这批问题很多的劣质打印

    机,找出源头并予以解决。

    无论是中位数还是平均数,要求出它们并不难,关键在于根据具体

    情况确定哪一个“中间位置”能够更准确地反映问题的实质。与此同

    时,中位数还有一些有用的“亲戚”,正如我们之前已经讨论过的,中

    位数将一组数据从中间分为两部分,这组数据其实还可以继续分为 4 部

    分,我们称之为“四分位数”。第一四分位数由处于底部的 25% 的数据

    构成,往后的 25% 的数据构成了第二四分位数,以此类推。同样的,收

    入分配数据还可以分为“十分位数”,每组包含 10% 的数据。如果你的

    收入属于美国人均收入分配顶层的那 10% ,那么这意味着你要比 90% 的

    美国人挣得都多。我们还可以细分下去,将收入数据分为 100 份,也就

    是“百分位数”,每个百分位数都代表 1% 的数据,也就是说,第一百

    分位数表示位于底部的 1% 的人的收入,第 99 百 分位数代表收入分配数

    据中收入最高的那 1% 的人。

    这类描述性数字的好处在于,它们描述了某个具体的值在与其他数

    据进行比较时所处的位置。如果我告诉你,你的孩子在阅读考试中的成

    绩处于班级的第三百分位数 ( 有 97% 的孩子的分数比你的孩子高 ) ,你该

    即刻意识到全家人应该在学习方面多辅导孩子。你没必要知道任何有关

    考试本身的内容,以及你的孩子在考试中答对了多少道题目。一个以百

    分位数显示的成绩就已经告诉你,你的孩子的得分在所有考生中的排

    名。如果考试题目比较简单,那么大多数考生都会获得一个高分,而你

    的孩子答对的题目数量还是少于其他同学;如果考试题目特别难,那么

    所有考生的正确率都不会高,而你的孩子的答题正确率比其他孩子要更

    低一些。

    现在我来穿插介绍几个有用的统计术语。一个“绝对”分数、号码

    或数字具有一些与生俱来的意义,比如,我在一场 18 洞高尔夫球比赛中

    打出了 83 杆,这就是一个绝对分数;或许那天的气温正好是 14 摄氏度,这也是一个绝对数字。通常来说,在没有任何背景或额外信息的前提

    下,绝对数字依然能被理解。当我告诉你我在 18 洞高尔夫球比赛中的成

    绩是 83 杆的时候,你不需要知道其他高尔夫球球员取得的成绩,就可以

    对我的表现给出一个评价 ( 除非那天的环境极为恶劣,又或者场地条件

    有所限制 ) 。又比如,在一场高尔夫球锦标赛中我的排名是第 9 位,这是

    一个相对数据。一个“相对”值或数字只有在比较或处于一个更大的背

    景中时才有意义,比如说有 8 位球手在比赛中发挥得比我出色。绝大多数的标准化考试给出的结果都只具有相对意义,如果我告诉你伊利诺伊

    州某小学的一个三年级学生在满分为 60 分的州考数学 考试中的成绩是

    43 分,这一绝对分数并没有太多的意义。但是,当我将其转换为一个百

    分位数,也就是将这一原始分数代入全伊利诺伊州所有三年级学生的数

    学成绩中作对比,那么含义将会得到大大的丰富。如果 43 分的成绩处于

    第 83 百 分位数,就代表这个学生的成绩要优于全州大部分的同龄人。如

    果他处于第 8 百 分位数的位置,那么他真的要加点儿油了。在这个例子

    中,百分位数 ( 相对分数 ) 比答对题目的数量 ( 绝对分数 ) 要更有意义。

    标准差也是一个能够帮助我们在一大堆杂乱无章的数字中发现真理

    的统计数值,我们用它来衡量数据相对于平均值的分散程度。根据标准

    差,我们可以知道所观察数值的分散情况。如果我要收集某班飞往波士

    顿的航班上的 250 名乘客的体重数据,还有 250 名有资格参加波士顿马拉

    松比赛的运动员的体重,假设这两组人的平均体重差不多都是 155 磅 ( 约

    为 70.3 千克 ) 。任何一个曾经在拥挤不堪的飞机里费劲地挤进自己座位和

    争抢扶手的人都清楚,一架典型的商用客机上有许多人的体重都超过

    155 磅,但同时你或许也能回忆起在这些乱哄哄、人挤人的航班上还有

    不少啼哭的婴儿和不听话的孩子,他们的肺活量不小,但是体重就很轻

    了。在计算航班上乘客的平均体重时,尽管坐在你身边的足球运动员有

    高达 320 磅的体重,但平均体重仍有可能被前排正在尖叫的婴儿和后排

    正在踢你座椅靠背的 6 岁小孩的体重拉低。

    目前为止,用我们所学的描述统计学的工具来看,航班乘客和马拉

    松运动员的体重几乎是相等的,但事实并非如此。是的,两组人的体重

    有着相差无几的平均数,但是航班乘客的体重距离平均数的标准差要远

    大于马拉松运动员,也就是说前者的体重分布要更加分散。连我 8 岁大

    的儿子都会说,马拉松运动员们的体重看上去都差不多,但飞机上的乘

    客就很难说了,有抱在怀里的婴儿,也有胖得离谱儿的人。航班乘客们

    的体重“更加分散”,这是在形容两组人的体重时需要提到的一个重要

    特征。标准差这一描述性数据能够让我们用一个独立的数字来表示距离

    平均数的离散程度。用于计算标准差和方差 ( 另一个由标准差推导而来

    的用于衡量离散程度的指标 ) 的公式在本章后面的内容中可以找到。现

    在,首先让我们来谈谈衡量离散程度的重要性。

    我们再来作一个情景假设。自从被提拔为北美地区打印机产品的质

    量总监后,你就一直倍感疲惫,于是你决定去看医生。医生给你验了

    血,几天后他的助手在你的电话答录机上留言,告知你的 HCb2 值 ( 一个

    虚构的血液指标 ) 为 134 。你立刻打开电脑,搜索你这个年纪的人的 HCb2平均值是多少,结果网页上显示是 122( 而且中位数也几乎是这个值 ) 。我

    的天!如果换作我,我可能就要开始写遗嘱了,然后噙满泪水地给我的

    父母、爱人、孩子和挚友们写告别信。做完这些之后,我会想想自己还

    有什么未完成的心愿。我要去跳一次伞,还要用我余下的时间写一部小

    说。最后,我还要写一封令人声泪俱下的控诉信给我的老板,用恶狠狠

    的措辞把这几年在他那里受的气都发泄出来——而且从头到尾都要用大

    写的英文!

    然而,上面这些事情中没有一件是必要的 ( 那封发给老板的信带来的

    后果可能会很严重 ) 。当你回拨医生的电话,打算安排你的临终事宜

    时,他的助理告诉你,你的指标在正常范围内。但这怎么可能呢?“我

    的 HCb2 值比平均值足足高出 12! ”你不断地跟电话那头的人重复着这句

    话。

    “ HCb2 值的标准差是 18 。”对方淡淡地说了一句。

    这又是什么?

    HCb2 值与其他大多数生理现象 ( 如身高 ) 一样,都存在天然差异。尽

    管这一虚构指标的平均值为 122 ,但大多数健康的人体检时得到的结果

    都会有高有低,只有在 HCb2 值特别 高或特别低时才会对健康构成威

    胁。那么,对于 HCb2 值来说,上下浮动多少才算是数值异常呢?正如我

    们之前提到的,标准差是衡量离散的指标,反映了分散在平均值周围的

    数据的聚合程度。对于许多典型的数据分布来说 , 有很大比例的数值都

    位于它们的平均数的某个标准差范围以内,也就是说,这些数值有的比

    平均值大,有的比平均值小,但都是在一个正常范围之内的。举个简单

    的例子,美国成年男性的平均身高为 70 英寸 (1.778 米 ) ,标准差约为 3 英

    寸 (0.0762 米 ) ,这意味着有很大一部分美国成年男性的身高在 67 英寸 ( 约

    1.7 米 ) 到 73 英寸 ( 约 1.85 米 ) 之间。

    换言之,任何一个身高介于上述区间内的美国成年男性都不会被认

    为身高异常。让我们再回到刚刚那个困扰你的 HCb2 的问题上。是的,你

    的指标是比平均值高了 12 个数值,但还没有超过标准差范围,这就好比

    你的身高为 72 英寸一样——这没有什么好奇怪的。当然,距离平均值两

    个标准差的数值会减少, 3~4 个标准差的数值就更少了。以身高为例,如果一个美国成年男性高于平均身高 3 个标准差,那么他的身高至少为

    79 英寸 ( 约 2 米多 ) 。

    不同群体对象的数据分布的离散情况是不同的。可以这么说,航班

    上 250 名乘客体重的标准差要比 250 名马拉松运动员的大,如果将两组人的体重数据画成频数分布图的话,前者肯定要比后者更“胖” ( 分散 ) 。

    对于任何一组数据来说,只要知道了平均数和标准差,我们就能进行简

    单的统计学分析,得出一些可以信赖的结论。比如,我告诉你美国 SAT

    数学考试的平均分为 500 分,标准差为 100 ,与身高的例子一样,大部分

    参加考试的学生的成绩都会在一个标准差范围内浮动,比如 400 ? 600

    分。那么,你觉得又有多少名学生的成绩会高于 720 分呢?估计不会有

    很多,因为这比平均分髙出两个标准差还要多。

    事实上,我们能做的不仅只是“学生人数不会有很多”这样的回

    答。现在就向大家隆重介绍统计学里最重要、最有用、最常见的分布之

    一:正态分布。数据的分布一般来说都是对称的,以平均数为中轴呈现

    类似于“钟”的形状,我想大家对此应该不会感到陌生。

    正态分布可用于描述许多常见的现象。如果我们要给爆米花的“爆

    炸”过程画一张频数分布图,那么分布图的情况应该是:一开始的时候

    只有少量玉米粒爆开,每秒可能只有一两颗玉米粒爆开;在 10~15 秒之

    后,玉米粒就进入了疯狂“爆炸”的阶段,然后慢慢地,每秒爆开的玉

    米粒的数量又变少了,重新回到了一开始每秒只有一两颗玉米粒爆炸的

    状态。美国成年男性的身高分布也是对称的,要么比 70 英寸的平均身高

    略高,要么略低,而且越接近平均身高,人数越多。每一次 SAT 考试都

    经过精心设计,以得到一个平均分为 500 分、标准差为 100 的成绩的正态

    分布。根据《华尔街日报》的报道,美国人甚至连在购物商场停车都呈

    现出正态分布,正对着商场人口的地方停车数量最多,也就是正态曲线

    的“峰值”,在人口左右两侧的停车数量逐渐变少,即曲线两端下滑

    的“尾巴”。

    正态分布的“美”好比迈克尔 · 乔丹在球场上的力量、灵巧和优雅,它来自于一个事实,那就是我们通过定义就能够清楚地知道,有多少数

    值位于平均值一个标准差的范围之内 (68.2%), 有多少数值位于两个标准

    差的范围以内 (95.4%) ,还有多少数值位于 3 个标准差的范围以内 (99.7%)

    ,以此类推。这听上去似乎挺傻的,但事实上这就是统计学的基础之

    一。本书将会在之后的篇章中谈到更深层次的问题时再对正态分布展开

    讨论。图 2-3 正态分布

    中间的那条线代表平均值,通常由希腊字母μ表示;标准差通常由希腊字母σ表示;每条色带

    均代表一个标准差。

    描述统计学经常会比较两个数据或数量。例如,我比我的哥哥高 1 英

    寸,今天的气温比历史平均值高 9 摄氏度等。这些比较之所以易于理

    解,是因为我们大部分人都对其中所包含的数量单位并不陌生。当形容

    身高时, 1 英寸并不是很多,因此你可以推测我和我的哥哥的身高看上

    去其实差不多;相反的,无论是在一年中的哪个季节哪个时刻, 9 摄氏

    度都是一个非常引人注目的温差,因此我们可以说那一天比平时要热很

    多。但如果我告诉你,某品牌麦片中 A 配方的钠含量要比 B 配方高 31 毫

    克,除非你恰好懂得很多关于钠的知识 ( 以及该品牌麦片的食用分量 ) ,否则上面这句话并不能给你带来特别具体的信息。又或者我对你说,我

    的外甥阿尔在 2013 年比 2012 年少挣了 5.3 万美元,我是不是应该对他表

    示担心呢?阿尔也许是一位对冲基金经理, 5.3 万美元只不过是他年薪

    的一个零头。

    在钠含量 和收入这两个例子里,我们都缺少背景资料。赋予这些比

    较型数据意义的最简单的方法就是使用百分比。如果我跟你说,某品牌

    麦片 A 配方的钠含量比 B 配方高了 50%, 我的外甥阿尔在 2013 年的收入与

    2012 年相比减少了 47%, 是不是就更容易理解了?用百分比来表示变化,可以让我们有一种用刻度测量的感觉。

    或许你在小学四年级的时候就已经学会如何计算百分比了,所以如

    果你想跳过接下来的几段文字,我表示理解,但在此之前,请帮我做一

    道简单的练习题。假设某家百货商场正在出售一款连衣裙,售价为每条

    100 美元,随后该商场的副经理将所有商品的价格都下调了 25% 。但这位副经理很快就被解雇了,原因就是有人举报他在一家酒吧里跟比尔 ?

    盖茨喝酒。新来的副经理将所有商品的价格又上调了 25% 。那么那一款

    连衣裙最终的售价为多少?如果你说 ( 或想说 )100 美元的话,那我建议你

    还是不要跳过接下来的任何一段话了。

    连衣裙的最终售价应该是 93.75 美元。这不只是一个在鸡尾酒派对上

    用来逗乐和炫耀学问的把戏。百分数是一个非常有用的工具,但同时也

    容易产生混淆,甚至具有欺骗性。计算百分数差 ( 或变化 ) 的公式是这样

    的: ( 新数据 - 原数据 ) 原数据。分子 ( 分数的上半部分 ) 就是变化的绝对

    值,分母 ( 分数的下半部分 ) 的作用是将这一变化与原数据进行比较,也

    就是为变化添加背景。我们可以用这个简洁明了的公式解答刚刚提出的

    那个问题。前任副经理将每条价格为 100 美元的连衣裙的价格下调 25%,那么原价 100 美元的 25% 就是 25 美元,这一折扣导致连衣裙的售价降为

    75 美元。将这些数字带人公式也可以得到相同的结果: (100 美元 -75 美元)100 美元 =0.25=25% 。

    当连衣裙的价格为 75 美元时,新来的副经理将价格上调 25% ,这里

    就是许多人容易犯错的地方。上浮的 25% 参照的是连衣裙的新价格,而

    非最开始的价格,所以上涨的价格应该是 25%x75 美元 =18.75 美元,最后

    的售价为 75 美元 +18.75 美元 =93.75 美元 ( 而不是很多人认为的 100 美元

    这个例子的关键在于,百分数变动表示的是某个数字相对于其他事物的

    变化值,因此我们最好先弄清楚其他事物到底是什么。

    我曾投资过大学室友开的一家公司。由于这是一家私营公司,因此

    在向股东披露信息方面并没有什么硬性要求。转眼几年过去了,我的这

    笔投资的命运如何,我毫不知情,我的这位前室友对于这个话题也是只

    字不提。最后,我终于收到了一封信,信上说公司的利润相比前一年提

    高了 46% 。但到底提高了多少美元,信上没写,也就是说我还是完全不

    知道自己的投资到底表现如何。假设上一年公司赢利 27 美分——基本等

    同于没有,那么这一年公司的赢利就为 39 美分——还是基本等同于零,但就从 27 美分到 39 美分来说,公司的利润的确上涨了 46% ,这一点没有

    问题。如果告诉你公司两年的累计赢利还不够买一杯星巴克 咖啡,那

    么收到这样的股东信件可真够晦气的。

    但是,我的室友是这样的人吗?显然不是。他最终把公司卖掉了,换回了数亿美元的资金,我的那份投资的回报率也高达 100% 。但你还

    是不知道我最后赚了多少钱,因为我并没有告诉你我最初投了多少钱,这不是更加能证明我的观点吗?读到这里,你是不是对什么是“其他事物”有点儿感觉了?

    需要注意的是,百分差和百分率是不同的,我们千万不能混为一

    谈。比率通常会以百分数的形式体现,例如伊利诺伊州的消费税率为

    6.75%, 我出书所得版税的 15% 要支付给我的代理商,诸如此类的比率都

    是基于某个定量来计算的,如所得税就是基于收入来征收的。可见百分

    率可以上浮,也可以下调,但百分差的描述方式就完全不同了,虽然两

    者的表述形式十分接近。最近就有一个绝佳的例子:伊利诺伊州的个人

    所得税税率由原来的 3% 上调到了 5% 。我们看到有两种不一样的说法来

    描述这一税率的变化,而且这两者在技术上都是正确的。主张并促成这

    次个税改革的民主党 ( 正确无误地 ) 指出,伊利诺伊州的个人所得税税率

    上升了两个百分点,从 3% 上涨到 5%, 共和党 ( 同样正确无误地 ) 指出,该

    州的所得税税率上升了 67%, 我们可以用刚刚学会的公式验证一下, (5-

    3)3=23, 即 67% 。

    美国民主党将重点放在了税率的绝对变化上,而共和党则更关注税

    率的百分差。如刚才所说,两党在技术上都是正确的,但我可能会觉得

    共和党的描述更加准确地传达了税率变化所带来的影响,因为我以后要

    缴纳给政府的个人所得税 —— 一笔我真的会在乎的钱——正如共和党所

    说的那样,确确实实上涨了 67% 。

    许多现象都无法用一个数据来完美描述。就比如橄榄球比赛四分卫

    亚伦 ? 罗杰斯的传球距离为 365 码,但没有触地得分;而另一个四分卫佩

    顿 ? 曼 宁的传球距离仅为 127 码,却完成了 3 次触地得分。曼宁创造 了

    更多的得分,但按照常理 , 罗杰斯的长传球让他的队友得以突破对方球

    员的防守、在场上跑得更远。这两位四分卫谁的 表现更好?在第 1 章

    中,我介绍了美国职业橄榄球联盟釆用“传球效绩指数”来解决这一统

    计难题,它是一个描述性数据,而且是由许多其他描述性数据构成的。

    我们将这些从不同角度对比赛进行评价的数据浓缩成一个数字,并用这

    个数字进行比较,得出四分卫在某个比赛日中的排名,甚至整个职业生

    涯的四分卫排名等结论。如果棒球比赛也有一个类似的指数,那么本章

    一开始提出的历史上最伟大的棒球手是谁的问题是不是就有答案了?

    将一系列复杂的信息浓缩成一个数字,这是所有指数都具备的优

    点。我们可以因此对原先无法展开简单比较的事物进行排名,从四分卫

    的表现到大学的优劣,再到选美比赛。在美国小姐选美比赛中,所有胜

    出者的成绩都是由 5 个部分的成绩组成的:个人面试、泳装展示、晚礼

    服展示、才艺表演和现场问答 ( “亲善小姐”称号的评选则单独由参赛者们相互评选产生 ) 。

    同时,将一系列复杂的信息浓缩成一个数字,这也是所有指数的缺

    点所在。我们有各种各样的方式来浓缩信息,每种方式都有可能导致一

    个不同的结果。马尔科姆 ? 格雷德威尔在《纽约客》上发表了一篇批评

    性文章,用睿智的语言犀利地指出我们对排名的狂热 ( 他尤其对大学排

    名嗤之以鼻 ) 。格雷德威尔以《名车志》杂志对 3 款跑车的排名为例,这

    3 款跑车分别是保时捷卡曼、雪佛兰科尔维特和莲花路特 斯。《名车

    志》设计了一个计算公式,其中包含了 21 项评价指标,最终保时捷卡曼

    跑车拔得头筹。但格雷德威尔却指出,“外观”项在公式中的分量仅占

    到了 4%, 这一指标对于评价跑车来说简直低得离谱儿。如果将跑车外观

    的权重上调到 25%, 那么莲花路特 斯跑车将会是第一名。

    接下来,格雷德威尔还指出,跑车标价的分量在《名车志》的评价

    过程中相对来说也被低估了,如果上调标价比率 ( 这样就能保证价格、外观和性能这三项指标在评价时各分秋色 ) ,那么雪佛兰科尔维特就将

    成为新的“跑车之王”。

    所有指数均取决于其构成的描述性数据以及它们的权重,任何一点

    儿微小的变化都有可能引起结果的改变,因此,即使是最终得到的那个

    指数,可能是一种情况不完美但有现实意义的,也可能是完全不合理

    的。举一个前一种情况的例子——联合国的人类发展指数 (HDI), 这是一

    个比单纯的收入更加广泛的经济健康衡量指数。人类发展指数将收入作

    为评价的组成部分之一,同时还考虑到了寿命和受教育程度。美国在人

    均经济产出方面位居世界第 11 位 ( 排在卡塔尔、文莱、科威特等几个石

    油国家之后 ) ,但在人类发展方面跃居全球第 4 名。的确,如果人类发展

    指数里的组成指标发生变化的话,最终的排名也会不一样,但可以肯定

    的是,只要是符合常理的调整,无论如何都不会出现津巴布韦超越挪威

    的结果。当我们想要了解全世界各地人民生活水平的差异时,人类发展

    指数为我们提供了一个简单方便且相对准确的排名。

    描述统计学为我们所关心的现象打开了一扇窗,让我们更加接近事

    实的真相。好了,现在我们终于可以回到本章一开始提出的那些问题

    了。谁是史上最伟大的棒球运动员?结合本章所讲的主要内容,我们首

    先会问:哪些描述性数据最能帮助我们回答上述问题?根据棒球信息解

    决方案公司总裁史蒂夫 ? 莫耶的说法,评价任何一个非投手运动员的 3 个

    最有价值的数据 ( 除了年龄 ) 是:

    1. 上垒率 (OBP 或 OBA) ,就是球员上垒的概率,包括保送上垒在内 (这一点是不包含在击球率的计算内的 ) 。

    2. 长打率 (SLG), 就是衡量球员的长打得分能力的指标。一垒记 1 分,二垒记2 分 ,三垒记3 分 ,本垒记 4 分。也就是说,如果一个球员在 5

    次打数中,打出了一个一垒和一个三垒,则其长打率为 (1+3)5=80% 。

    3. 打数 (AB), 构成上垒率和 长打率的比较背景。球技不佳的球员也

    会有发挥超常的时候,但仅限于某几场比赛。只有通过打数的积累,将

    成千上万次的击打表现综合起来,我们才能认定谁是真正的超级球员。

    在莫耶看来,最伟大的棒球运动员非贝比 · 鲁斯莫属,因为贝比拥有

    无可比拟的击球和投球能力。直到今天,贝比 · 鲁斯创下的 69% 的长打率

    依然是大联盟球员难以撼动的生涯纪录。

    那么,美国中产阶级的经济健康状况又是如何呢?我再一次将问题

    抛给了专家。我给杰夫 · 戈洛格 ( 我在芝加哥大学的同事 ) 和阿兰 ? 克鲁格

    研究恐怖分子的普林斯顿大学经济学家、美国总统奥巴马的高级经济顾

    问 ) 发送了一封邮件,他们基本上给出了相同的答案,只有一些细节上

    的区别。要评价美国“中间阶级”的经济状况,我们需要了解 ( 通货膨

    胀调整后的 ) 工资中位数在过去几十年中的变化,他们还建议我留意一

    下处于第 25 百 分位数和第 75 百 分位数人群的工资变化,因为这两拨人

    通常被认为是中产阶级中的高收入和低收入人群。

    还有一组必须分清楚的概念就是,在评价经济状况的过程中,不能

    将收入和工资等同起来。这两者是不同的,工资是我们付出的固定份额

    的劳动所得,如时薪或周薪;收入是全部所得的总和,来源有多种。如

    果一个工人找了一份兼职,或者加班很多个小时,那么这个人的收入会

    增多,但工资却没有发生变化。这就说明,即使一个人的工资下降,他

    的收入依然有可能上升,如果他加班足够多的话。但如果这些人不得不

    付出更多的劳动来取得更多的收入,那么我们很难评价他们的整体生活

    质量到底是更好还是更糟。因此,相比于收入来说,工资是评价美国人

    劳动收益的一个更加直观的指标,工资越高,工人们每工作 1 小时能领

    到的钱也就越多。说了那么多,下面我们来看一幅过去 30 年美国人工资

    水平的变化图,在图中

    我还加入了第 90 百 分位数人群的数据,以此对比相同时间内中产阶

    级工人和 10% 最富裕人群的工资增长水平。

    ( 单位:美元 )图 2-4 不同收入群体的周薪变化

    资料来源:《 1979 ? 2009 年美国工人时薪分配变化》,美国国会预

    算办公室, 2011 年 2 月 16 日。图中具体数据参见

    http:www.cbo.govsitesdefaultfilescbofilesftpdocs120xxdoc1205102-

    16-wagedispersion.pdf

    从这些数据中,我们可以得出有关中产阶级经济状况的各种结论,但都不会共同指向一个唯一“正确”的答案。从中我们能看到,典型的

    美国工人挣着中位数工资,在原地踏步了将近 30 年;但处于第 90 百 分位

    数的富人们就好多了。幸好有描述统计学,我们终于在这个问题上构建

    出了一个框架,如果还要接着往下做点什么的话,那就是其他理论家和

    政治家的事情了。

    本章补充知识点

    表 2-1 打印机质量问题统计表

    方差和标准差的运算公式

    方差和标准差是测量和描述数据分布的离散情况最常用的统计学技

    巧。方差通常用符号 σ2 表示,体现各个数值距离它们的平均值的距离远近。但要注意的是,在计算时需要对具体数值和平均值之差进行平方,然后再用平方数之和除以数值的个数。

    举例说明:

    假设有一组数量为 n 的数字 X

    1

    、 X

    2

    、 X

    3…… X

    n

    ,它们的平均值为

    μ。

    它们的方差

    σ 2=[( X

    1 - μ )2+( X

    2 - μ )2+( X

    3 - μ )2+ …… +( Xn - μ )2]n 。

    由于在计算方差时对每个数值和平均值之差都进行了平方,因此那

    些远离平均值的数值即异常值就会被放大,下面以学生身高为例。

    表 2-2 身高统计

    与平均值之差的绝对值表示两个数值之间的距离,不考虑方向 ( 正负 ) 因素,因此绝对值总

    是为正。这里的绝对值表示的是每个人的身高与平均身高之间相差的英寸数。

    两组学生的平均身高都是 70 英寸,每一组学生个体与平均值的差异

    之和也都是 14, 到目前为止,这两组学生身高的离散程度是完全相同

    的。但是,第二组学生身高的方差要大些,这是因为萨 哈和纳西索两

    个学生的身高数值距离平均值比其他学生都要远,从而导致了方差计算

    公式中的分子值变大。 在描述统计学中,方差很少被直接用于结论当中,往往是作为计算

    标准差的中间环节,而标准差才是一个更为直观的描述性数据。

    标准差就是方差的平方根,计算公式如下:

    假设有一组数量为 n 的数字 X

    1

    、 X

    2

    、 X

    3…… X

    n

    ,它们的平均值为

    μ。

    它们的标准差 :第 3 章 统计数字会撒谎

    1950 年人们的平均时薪是 7 美元, 2012 年人们的平均时薪是 5 美

    元,你觉得我们的工资水平涨了吗?

    对于任何一个约会过的人来说,通常会对“他这人还不错”这类表

    述引起警惕,不是因为这句描述一定是错误的,而是因为这句话中还有

    其他潜台词,诸如其实这个人曾经坐过牢,或者他的离婚手续“还没完

    全办妥”等。我们丝毫不怀疑他的人品不错,只不过担心这么一句看似

    正确的陈述,其用意可能在于掩饰或淡化其他信息,从而误导听者 ( 我

    想不会有人愿意与一个还没离婚或有重罪案底的人约会吧 ) 。这类陈述

    严格来讲并不能被称作谎言,哪怕你跟人说了也不会被判伪证罪,但由

    于其准确性实在不敢恭维,所以最好不要相信。

    统计学也是如此。虽然统计学是扎根于数学土壤里的,而且数学又

    是一门以准确着 称的学科,但使用统计学来描述复杂现象的这一过程

    并不是精确无误的,这就为掩盖真相创造了大量的空间。马克 ? 吐温有

    一句名言是这样说的,“谎言有三种:谎言、该死的谎言,以及统计

    学”。正如前一章所讲的,我们关心的大多数现象都可以用多种方式进

    行描述。如果对某一事物的描述存在多种方式 ( 如“他人不错”或“他

    曾经因证券欺诈罪被判入狱” ) ,那么我们所选择使用 ( 或回避 ) 的描述性

    数据就会影响别人对此事的印象。一些别有用心的人甚至会用光鲜的事

    实和数据来支持真假存疑或完全不成立的结论。

    首先,我们应该弄明白“精确”和“准确”这两个词之间至关重要

    的区别。这两个词不可以相互替代。“精确”反映的是我们描述事物的

    精度,比如在描述你从家到公司的距离时,“ 41.6 英里”就比“大约 40

    英里”更精确,当然比“相当长的一段路”更精确一些。如果你问我最

    近的加油站在哪里,我会告诉你往东 1.265 英里,这就是一个精确的回

    答。但问题也随之而来:如果加油站在西边,那么这样的一个回答就是

    完全不准确的。也就是说,如果我告诉你:驾车大约 10 分钟,当你看到

    一家热狗售卖摊点时,加油站就在你的车右前方几百码的地方,如果你

    经过猫头鹰餐厅,就说明你的车开过了。这样的一个回答虽然没有“往

    东 1.265 英里”那么精确,但显然更好,因为我为你指明了前往加油站

    的正确方向。一个数据的准确与否表明了其与真相是否一致,因此将“精确”和“准确”混为一谈是要付出代价的。如果一个答案是准确

    的,那么在这个基础上当然是越精确越好;但如果答案从一开始就是不

    准确的,那么再精确也毫无意义。

    让我意识到“精确”和“准确”的区别的,是一件发生在某个圣诞

    节的事情。那一天,我的妻子给我买了一个高尔夫测距仪,以便让我测

    量高尔夫球到球洞之间的距离。这个设备是通过某些激光原理进行工作

    的,我站在高尔夫球旁,然后将测距仪对准远处草地上的球洞杆,之后

    仪器上就会显示我应该击球的精确距离。相比起原始的标准码数标记来

    说,这个设备在性能方面有了很大的提升,因为原先我们只能通过看场

    上的标记来估算出测量位置与球场中心的距离 ( 因此,测距仪让高尔夫

    球这项运动变得更加精确,但却更加不准确 ) 。通过这个高尔夫测距

    仪,我终于知道了我的球离球洞还有 147.2 码。我期待这一先进的技术

    能够助我提升球技,但事实是,我打得越来越差。

    这里有两个问题。第一,在我用了这个设备 3 个月的时间之后,我才

    猛然意识到计量单位是“米”而非“码”,因此,每一次看似准确的测

    量 (147.2) 都是错误的。第二,有些时候我会不小心地将激光束对准球场

    后面的树干,而非球洞杆,因此我的“完美”击球就会导致“完美”的

    结果——在空中划出一道漂亮的弧线,然后越过整个球场落入森林里。

    这个例子告诉我,即使是最为精确的计算或测量都应该检查一下是否符

    合常识。这一点适用于所有的统计分析。

    再举一个严肃一点儿的例子。在 2008 年金融危机爆发之前,华尔街

    的许多风险管理模型都非常精确,“风险值”的概念让这些公司得以将

    其在不同情况下可能损失的资产进行精确量化,但问题是,这些超级复

    杂的模型就好比是将我的高尔夫测距仪的长度单位设置成“米”而不

    是“码”。数学运算极为复杂和晦涩,得出的结果精确到几乎没有人会

    怀疑其真实性。但嵌入这些模型中的有关全球市场可能会发生的风险假

    设其实是错误的,因而精确计算所得出的结论从根本上说就是不准确

    的,这不仅坑苦了华尔街,更是把全球经济都“拖下水”。

    即使是最为精确和精密的描述性数据,都有可能面临一个根本性的

    问题:缺乏清晰度,不知道我们到底要定义、描述或解释什么。统计参

    数与失败的婚姻有着许多共同点,争论双方往往都说服不了对方。思考

    一个重要的经济问题:美国的制造业有多健康?人们经常能够听到,美

    国的制造业正在失去大量的工作机会,这些工作岗位源源不断地流向中

    国、印度以及其他低工资国家。人们还能够听到,美国的高科技制造业依然坚挺,美国依然是世界上最大的商品出口国之一。到底哪个说法才

    是对的?这就涉及统计学的另一个方面:对优质数据的合理分析能够有

    效地调和对立的观点。美国的制造业是有利可图且在国际上有竞争力,还是面临激烈的外国竞争正处于萎缩的过程之中?

    答案是两者兼有。英国新闻杂志《经济学人》通过下面的曲线图将

    看上去似乎矛盾的两个观点融合在了一起,为我们展现出一幅关于美国

    制造业的趋势图。

    图 3-1 “铁锈地带”的复苏

    这一对看似矛盾的观点取决于我们如何定义美国制造业的“健康状

    况”。从生产和所售商品的总价值——产出来看,美国的制造业自 2000

    年以来一直保持稳定增长,直到 2008 年的经济大衰退才遭受重创,而此

    后又出现了强劲反弹。这一点与美国中情局的《世界概况》里的数据相

    吻合,美国是世界上第三大制造业出口国,排在中国和德国之后。如

    今,美国依然是一个制造业大国。

    但《经济学人》杂志刊登的曲线图上还有一条曲线,展示了美国制

    造业的就业状况。美国制造部门的岗位数量一直处于下降之中,在过去

    10 年时间里有差不多 600 万人丢了饭碗。这两个故事 ~ 加的产出和减少的

    工作岗位——共同组成了关于美国制造业的一个完整的故事。美国制造

    业的生产力在不断提升,也就是说,工厂可以通过雇用更少的工人来完

    成更多的产出。这一点从国际竞争的角度来说是有利的,因为美国制造

    的商品相比低工资国家来说更具市场竞争力 ( 与一家仅能支付时薪两美

    元的公司抗衡的方式之一,就是提高生产效率,让自己的公司在支付时薪 40 美元的同时,将工人的生产效率提高到对手公司的 20 倍 ) 。如果这

    样的

    话,制造行业所需的岗位就会大大减少,这对于那些亟须这点儿工

    资养家糊口的失业工人来说是一个巨大的打击。

    既然本书讲的是关于统计学而非制造业的知识,那么就让我们言归

    正传,来谈谈美国制造业的“健康状况”。如何评价一个行业是否健

    康,这一点量化起来似乎并不难,就看我们如何选择了,是选择以产出

    量还是就业率为衡量标准?在这个例子 ( 以及许许多多其他的例子 ) 中,最完整的故事往往都会包含两方面,《经济学人》在上图中就作了明智

    的示范。

    即使我们对成功的衡量标准达成了某个共识,比如说学生的考试分

    数,仅此一项统计还是会有充裕的欺骗空间。举个例子,下面的两个陈

    述句都可以说是正确的,但看看你是否能够将这两者调和在一起。

    政客甲 ( 挑战者 ) :“我们的教育水平正变得越来越糟! 2013 年有 6

    学校的考试成绩低于 2012 年。

    政客乙 ( 在任者 ) :“我们的教育水平正变得越来越好! 2013 年有 8

    学生的考试成绩高于 2012 年。”

    给大家一点提示:并不是所有学校的学生人数都是一样的。如果我

    们回过头来再看这两句似乎相互矛盾的陈述,你会发现政客甲将学校当

    作其分析单位 ( “有 6 成学校……” ) ,而政客乙则是将学生作为其分析单

    位 ( “有 8 成学生……” ) 。在统计学中,分析单位是作为比较或描述的对

    象而存在的——其中一位政客选择了学校的表现,而另一位政客选择了

    学生的表现。如果成绩上升的学生正好来自办学规模非常大的学校,那

    么大部分学生在学业上有所进步而大部分学校的成绩正在退步,这两者

    是完全有可能同时发生的。为了让这个例子更加直观,我们可以用美国

    各州的经济情况进行说明。

    政客甲 ( 平民主义者 ) :“我们的经济一塌糊涂! 2012 年有 30 个州的

    收入都出现了下滑。”

    政客乙 ( 更接近精英派 ) :“我们的经济走势一片光明。 2012 年有 70%

    的美国人的收入都增加了。”

    从这两句话中,我能读出的信息是:诸如纽约、加利福尼亚、得克

    萨斯、伊利诺伊等州的经济形势最好,而收入下滑的那 30 个州更有可能

    是规模比较小的州,如佛蒙特、北达科他、罗德岛等。由于各个州的面积大小不同,大部分州的经济下滑和大部分美国人的收入上升是完全有

    可能同时存在的。关键就在于分清分析单位,描述的对象到底是谁 ( 或

    什么 ) ,以及不同的人口中的谁 ( 或什么 ) 是不是存在差异?刚刚举了两个

    虚构的例子,而接下来的这个例子是一个真实且至关重要的统计学问

    题:世界各地人民的收入不均衡因为全球化的到来是改善了,还是恶化

    了?一种理解是,全球化只是加剧了现有的收入不均状况, 1980 年时的

    富裕国家 ( 以人均国内生产总值为参考 ) 在之后的 20 年间的增长速度超过

    了贫困国家。富国会变得更富,这说明贸易、外包、外国投资以及其他

    全球化的组成部分沦为了发达国家扩大经济霸权的工具。

    如果换一种分析单位,同样的数据也可以 ( 也应该 ) 以一种完全不同的

    方式来解读。我们不关心穷国,我们只关心穷人。恰巧世界上有绝对比

    例的穷人生活在中国和印度,这两个国家都是人口大国 ( 人口数量均超

    过 10 亿 ) ,而且在 1980 年的时候这两个国家都处于相对贫穷的发展阶

    段。但是,在过去的几十年时间里,中国和印度的经济都经历了高速发

    展,这在很大程度上要归功于它们与世界上其他国家日益加深的经济一

    体化。《经济学人》这样评价中国和印度:“它们都是‘迅速的全球化

    者’。”考虑到我们的目的是改善人类本身的穷困,因而在衡量全球化

    给全世界穷人带来的影响时,将中国 (13 亿人口 ) 和毛里求斯 (130 万人口

    当成是比重相同的两个国家来看待是不合理的。

    上述例子的分析对象应该是人,而不是国家。 1980 ? 2000 年这 20 年

    的时间到底发生了什么?回想一下刚刚那个虚构的学校例子。世界上的

    大部分穷人恰好都生活在两个大国里,而这两个大国在融入全球化的过

    程中都经历了经济的飞速发展。正确的分析得出了一个截然不同的结

    论:全球化有利于全世界的穷人。《经济学人》杂志指出:“如果你考

    虑的是人而不是国家,那么全球不平等现象正在迅速减少。”

    美国的两家电信业巨头美国电话电报公司和威瑞 森电信最近卷入了

    一场广告之争,说白了也是因为模棱两可的描述所引发的。这两家公司

    都提供移动通信服务,对于绝大多数的手机用户来说,他们最关心的问

    题无非就是服务网络的覆盖范围和通话质量,最不愿看见的就是在需要

    拨打或者接听电话时却没有信号。因此,从逻辑上讲,要比较这两家公

    司孰好孰坏,只要看它们各自通信网络的规模和质量就行了。为了迎合

    消费者对于更大、更好的网络覆盖的需求,两家公司在衡量这一看不

    见、摸不着的需求时采取了不同的分析指标。威瑞森 电信公司发动了

    一场声势浩大的广告战略,四处兜售其无所不在的网络覆盖,给消费者

    留下这样一个印象:在辽阔的美国国土上,威瑞森 电信公司的基站几乎遍布全美国的各个角落,而与之形成对比的,是美国电话电报公司的

    相对零碎的地理覆盖。威瑞森 电信公司所选择的分析单位是网络覆盖

    的地理范围,这是因为这家公司的确在这方面要强一些。

    与此同时,美国电话电报公司也发动了反击战,选择了另一个分析

    单位。在其巨大的广告牌上赫然写着“美国电话电报公司能够满足 97%

    的美国人的通信需求”,注意这里的用词是“美国人”,而不是“美

    国”。美国电话电报公司所强调的重点在于,绝大多数的美国人并不住

    在蒙大拿州的偏远乡村或是亚利桑那州的沙漠之中,既然美国的人口在

    地理上来说并不是平均分布的。这则广告的言下之意就是,一个好的通

    信

    服务网络的关键就在于,将服务重点放在那些手机用户真正生活和

    工作的区域,而不是他们偶尔才会去野炊的地方。但由于我经常要回新

    罕布什尔的乡下,因此在这个问题上,我可能还是会选择威瑞森 电信

    公司作为我的移动电话服务商。

    我们的“老朋友”平均数和中位数同样会被心术不正的人利用。在

    上一章的内容中我们介绍了这两个概念,希望大家还能回忆起来,无论

    是平均数还是中位数,都是衡量一组数据的“中间位置”或“中心趋

    势”。平均数就是所有数据求和之后再除以个数 (3 、 4 、 5 、 6 、 102 的平

    均数是 24) 。中位数就是一组数据最中间的那个点,有一半数据位于这

    个点之前,有一半数据位于这个点之后 (3 、 4 、 5 、 6 、 102 的中位数是。现在,聪明的读者一定会注意到 24 和 5 之间存在着巨大的差异。所

    以,如果出于某种考虑,想要让这组数据在描述时显得数值大一些,那

    么我会选择求它们的平均数;但如果我想让数值看上去小一些,我肯定

    会将关注点放在中位数上。

    现在,我们来看一下这在现实生活中是怎么操作的。以美国前总统

    小布什的减税政策为例,根据小布什政府的说法,这一政策将惠及绝大

    多数的美国家庭。相关政府官员指出,在这项政策推行之后,将会有

    9200 万美国人享受减税待遇,人均减税额超过 1000 美元 ( 具体数字应该

    是 1083 美元 ) 。但这个关于减税政策的概括准确吗?《纽约时报》评价

    说:“数据本身并没有撒谎,只不过有些数据没有发出声音罢了。”

    是不是会有 9200 万美国人将享受减税待遇?答案是肯定的。

    那么,这些人中的大部分人都可以少缴纳约 1000 美元的税款吗?不

    是的。因为减税额的中位数还不足 100 美元。 只有数量相对少的巨富们才有资格享受大额减税,而正是这些人拉

    高了平均值,让人均 减税额看起来比绝大多数美国人真正享受到的要

    高。中位数对异常值并不敏感,因此在这个例子中,如果要看小布什政

    府的减税政策对普通家庭的影响,中位数可能会是一个更为准确的描述

    性数据。

    当然,也正是因为中位数对异常值不敏感,所以在某些情况下中位

    数同样会掩盖事实真相。假设你患上了某种不治之症,好消息是有一种

    新药刚刚研发出来,可能会对你的病产生积极疗效,坏消息是这种药的

    价格非常昂贵,而且副作用有很多。“真的有效吗?”你会对这种药充

    满 疑惑。医生告诉你这种新药能够延长患此疾病的病人的“半数预期

    寿命” ( 也就是这些病人寿命的中位数 ) 达两周。这根本就算不上是什么

    好消息,相比起那么贵的药价和不良反应,这两周的寿命不要也罢。同

    时,你的保险公司也拒绝为这项治疗承担费用。这是一个基于半数预期

    寿命的典型案例。

    但在这个例子中,中位数或许会成为一个相当有误的数据。假设有

    许多病人对这种新药完全没反应,但同时也有相当数量 (30%~40%) 的病

    人完全治愈了。然而,后者的成功并不能在中位数中得到体现 ( 虽然接

    受新药治疗的病人的平均寿命看上去非常令人振奋 ) 。对你而言,与你

    自己高度相关、真正影响你决定的反而是那些接受了新药治疗并活了很

    多年的病人,也就是统计学里的异常值。而且,这并不是一个虚构的例

    子。进化生物学家史蒂芬·杰·古尔德曾经被诊断出患有某种癌症,他

    的半数预期寿命只有区区 8 个月。但 20 年过去了,古尔德死于另一种不

    相关的癌症。古尔德生前写过一篇非常有名的文章,题目为“中位数不

    等于真信息”,他在文章里指出了他只能活 8 个月是一个错误结论,并

    表示是他头脑里积累的统计学科学知识将他从错误的结论中拯救了出

    来。中位数的定义告诉我们有 12 的病人活不到 8 个月,但另外 12 的病

    人至少可以活 8 个月,或者比 8 个月

    的时间更长 ( 甚至是活到老 ) ,其死亡分布是“右偏”的。因此,如果

    你恰好患上了这种病,这一数据的意义要比一个单纯的技术术语丰富得

    多。

    上述例子表明,中位数的决定性特征——不考虑数据距离中间位置

    有多远或是多 近,而是关注它们是高于中间位置还是低于中间位置

    ——反而成为它的弱点。与之相反,平均数恰恰是由数据分布决定的。

    从准确性的角度来看,平均数和中位数孰取孰舍,关键就在于这个数据分布里的异常值对事实的真相是起到扭曲的作用,还是其重要的组成部

    分。再次强调,判断比数学更重要。当然,没有人强制你一定得选中位

    数或平均数,任何一个复杂综合的数据分析都会包含这两个数据。所

    以,当只有其中一个数据出现的时候,你就要注意了,有可能只是出于

    言简意赅的考虑,但也有可能是某些人别有用心地想用数据“说

    服”你。

    上了一定年纪的人或许会记得一部《疯狂高尔夫》的电影,里面的

    两位主演分别是塞维 ? 蔡斯和泰德 ? 奈特,他们在高尔夫球场的更衣室里

    有过这么一段对话:

    泰德:刚刚打得怎样?

    塞维:啊,我没记数。

    泰德:那你用什么跟别人比啊?

    塞维:身高。

    我引用这段电影台词的目的不是想说明它有多幽默,而是想说其实

    统计学里也有很多这类“苹果和橙子”作比较的把戏。如果你想比较伦

    敦和巴黎的酒店房间价格,可能会让你 6 岁大的孩子登录网站搜索——

    电脑方面你永远不是孩子的对手,然后你的孩子向你汇报巴黎的房价更

    贵一些,每晚的价格约为 180 欧元,而相同档次的房间在伦敦每晚只需

    要 150 英镑。

    此时,或许你会滔滔不绝地向孩子解释英镑和欧元之间的区别,然

    后让他回去重新查找这两种货币之间的汇率,这样你就能对两个城市的

    房价作一个有意义的比较。这个例子其实在现实中也挺常见,我的女儿

    看见我在印度用 100 卢比买了一壶茶,于是她就问我为什么在印度无论

    买什么东西都那么贵。显然,在我们将不同国家的货币转换成同一种货

    币单位之前,比较这些货币上印着的数字是没有意义的。英镑和欧元的

    汇率是多少?美元和卢比的汇率又是多少?

    这似乎是一节痛苦的启蒙课,虽然事实很明显,但却经常被忽略,尤其是政客和好莱坞制片商。这些人当然知道欧元和英镑之间 的差

    别,但就好比苹果和橙子的例子,他们反而会忽略一个更为细微的因

    素:通货膨胀。今天的 1 美元和 60 年前的 1 美元的价值是不一样的:今天

    的 1 美元能买到的东西更少。由于通货膨胀的存在, 1950 年花 1 美元能买

    到的东西在 2011 年可能要花 9.37 美元。因此,在没有考虑通货膨胀因素

    的情况下,任何有关 1950 年与 2011 年的金钱比较都是不准确的,而且比欧元与英镑的比较更加离谱儿,因为欧元和英镑的价差比 1950 年的美元

    与 2011 年的美元的价差还小。

    经济学家甚至为这一重要的现象冠以专业术语,以表示相关数据是

    否考虑了通货膨胀因素。名义数据就是没有就通货膨胀做出调整的数

    字,比较 1970 年某项政府项目的名义花费与 2011 年政府在相同项目上的

    名义花费,实际上看的仅仅是政府财政部在这两年所开出的支票的票面

    金额,并没有考虑 1970 年的 1 美元能买的东西比 2011 年买到的东西多。

    假设政府在 1970 年时为老兵的住房补助项目投入了 1000 万美元,到了

    2011 年,政府在此项目上投人了 4000 万美元,联邦政

    府在这个项目上的努力实际上是退步了。花费的金钱在名义上的确

    是增多了,但这并没有反映出美元价值的变化。 1970 年的 1 美元相当于

    2011 年的 5.83 美元,也就是说’ 政府 2011 年需要在老兵的住房补助项

    目上投入 5830 万美元才是与 1970 年的 1000 万美元持平。

    实际数据是考虑了通货膨胀因素并做出调整的数字。最常见的方法

    就是将所有数据统一换算成一个相同的单位,如 2011 年的美元,这样就

    可以将“苹果与橙子”之间的比较变为“苹果与苹果”的比较。包括美

    国劳工统计局在内的许多网站,都提供简易的通胀计算器,供我们对不

    同时期的美元价值进行比较。下面是一张美国政府最低工资图,上面标

    出了最低工资的名义值及其实际购买力 ( 都换算成 2011 年的美元 ) 。通过

    这张图,我们不难发现考虑了通货膨胀因素并做出调整的数据会产生非

    常不一样的效果。图 3-2 美国政府最低工资图

    资料来源: http:oregonstate.eduinstruetanth484minwage.htrnl

    美国最低工资标准是由美国国会制定的。如果你在美国工作,你就

    会在办公室的某个偏僻角落的公告板上看到最低工资标准。当前的最低

    工资标准为每小时 7.25 美元,这是一个名义值。你的上司才不会理会现

    在的 7.25 美元能买到的东西是不是和两年前一样多,他只需要保证能够

    支付给你的时薪不少于 7.25 美元。上司只跟你谈支票上的数字,而非

    该数字背后的购买力。

    随着时间的推移,通货膨胀会逐渐削弱最低工资的购买力 ( 以及其他

    名义工资的购买力,这也是为什么工会代表在与雇主谈判时总会谈

    到“生活成本调整”的问题 ) 。如果商品价格的上涨速度快于美国国会

    调高最低工资的速度,那么每小时能够获得的最低工资的实际价值就会

    缩水。最低工资标准的支持者们应该关注这一工资的实际价值,因为这

    项法律出台的初衷就是为了保护低收入工人的利益,保证他们每小时的

    劳动所获得的报酬能够换来一定水平的购买力以维持生活,而不是让他

    们在付出劳动后却得到一张什么都买不起的大额支票。如果这 ?5 不能保

    证,那就相当于给这些低收入工人支付的是卢比,而非美元。

    好莱坞在比较不同年份的电影票房时,总是会对通胀因素视而不

    见,或许是因为无知,但更有可能是出于对利益的考虑。截止到 2011年,史上最卖座的 5 部电影依次为:

    1. 《阿凡达》 (2009) 。

    2. 《泰坦尼克号》 (1997) 。

    3. 《蝙蝠侠前传 II: 暗黑骑士》 (2008) 。

    4. 《星球大战 IV 》 (1977) 。

    5. 《怪物史莱克 II 》 (2004) 。

    这个排名看上去是不是有点奇怪?的确,里面绝大部分的电影都堪

    称经典,但是,《怪物史莱克 II 》应该列入其中吗?这部电影真的在票

    房成绩上要好过《乱世佳人》、《教父》、《大白鲨》吗?当然不是这

    样的。好莱坞最常做的事就是让最新的大片看上去比上一部的场面更

    大、更加成功。为达到这个目的,一种方法就是用印度卢比来计算票房

    成绩,以此来成就令人振奋的报纸头条,如“《哈利 ? 波特》周末票房

    破 1.3 万亿 卢比,打破票房纪录”。但即使是对金钱最不敏感的某些影

    迷,也能识破这类用购买力较差的货币统计的“注水”票房成绩。事实

    上,好莱坞 ( 以及负责媒体电影报道版块 的记者 ) 很少用名义数据,因为

    这一做法会让现在的电影在票房上很轻易地超过 10 年、 20 年或者是 50 年

    前的电影——谁都知道现在的票价比以前贵多了 ( 当《乱世佳人》在

    1939 年上映的时候,那时美国某地的一张电影票售价只有 0.5 美元 ) 。比

    较不同时期电影的商业成功最准确的方法就是,考虑了通货膨胀因素后

    做出调整的票房成绩。 1939 年 1 亿美元的票房可比 2011 年 5 亿美元的票房

    壮观多了。这样来看,将通货膨胀考虑在内,美国史上最卖座的 5 部电

    影到底是哪些?

    1. 《乱世佳人》 (1939) 。

    2. 《星球大战 IV 》 (1977) 。

    3. 《音乐之声》 (1965) 。

    4. 《外星人 E ? T 》 (1982) 。

    5. 《十诫》 (1956) 。

    以剔除通胀因素的实际票房成绩来看,《阿凡达》只排到了第 14

    位,《怪物史莱克 II 》则落到了第 31 位。

    有的时候即使是拿苹果与苹果进行比较,也可以毫不费力地欺骗他

    人。上一章的内容里曾经讲过,统计学的一个重要角色就是描述数量随着时间推移所发生的变化。我们缴的税是不是越来越多?与 2012 年相

    比, 2013 年的汉堡销量如何?饮用水中的砷含量到底降低了多少?我们

    经常使用百分率来描述这些变化,因为百分率能够让我们相对直观地有

    一个比例和背景的感受。很多人会理解饮用水中的砷含量降低了 22% 是

    什么意思,但能感知每一单位水中减少 I 微克砷 ( 绝对减少量 ) 到底是多是

    少的人就没几个了。百分率不会撒谎,但它们会夸大其辞。让增长 出

    现“爆炸”的方法之一就是与一个非常低的起点进行百分率比较。我住

    在伊利诺伊州的库克郡,一天我得知我缴纳的税款中用于支持库克郡郊

    区肺结核疗养院的比例上升了 527%! 我着实吃了一惊。愤怒的我马上开

    始筹划一场大型的抗税集会,而就在此时,我才知道这一变化给我增加

    的负担还不够一个火鸡三文治的钱。肺结核疗养院每年接收的病人才

    100 多例,并不是一个规模庞大或昂贵的机构。据《芝加哥太阳报》报

    道,对于一个普通家庭来说,其支付的税额仅仅是从 1.15 美元上升到了

    6 美元。研究人员有时候会特别指出某项增长数据是由“一个较低的基

    数”得出的,哪怕是很小的一点儿增长在进行百分率比较时,看上去都

    会很可观。

    除此之外,百分率的另一面也是很可怕的,那就是一个庞大数额的

    微小比例也会是一个很大的数字。如果美国国防部部长说, 2013 年的军

    费开支仅增长 4% —这看上去可是一条好消息啊!作为纳税人的我们,是不是应该庆祝?其实并不尽然,因为美国的国防预算是在 7000 亿美元

    左右, 4% 的比例就是 280 亿美元,这笔钱能买多少个火鸡三文治啊!事

    实上,区区 4% 的军费开支就已经超过了美国国家航空航天局 (NASA) 的全

    部预算,相当于美国劳工部和财政部预算的总和。

    同样的,想象一下你有一个菩萨心肠的老板,出于公平的考虑,他

    决定 2013 年为公司的每一位员工加薪 10% ——多么慷慨的决定啊!只不

    过有一点,老板的年薪是 100 万美元,而你每年只挣 5 万美元,老板将会

    得到 10 万美元的加薪,而你只有 0.5 万美元的加薪。“ 2013 年每个人都

    将获得 10% 的加薪”听上去要比“我的加薪是你的 20 倍”好受太多了

    ——虽然这两句话都没错。

    只要是对一段时间内的数字变化进行比较,就肯定离不开一个起点

    和一个终点,但我们有时候能通过操纵这些点来影响信息的表达。曾经

    有一个教我的教授,他对美国共和党和民主党操纵数据的伎俩十分清

    楚,尤其是在军费开支的问题上,他指出就算是面对完全相同的数据,不同的分析方法也能够产生不同的效果,既可以用来取悦民主党的支持

    者,也不会让共和党的拥护者失望。因此,在准备课件时他会做两个版本的幻灯片,当为共和党人上课时,就拿出“共和党版”的课件,为民

    主党人上课时,自然就会换成“民主党版”的课件,但里面的数据是完

    全相同的,不同的只是组织数据的方式。就比如今天的这节课他的听众

    主要是共和党人,他的幻灯片上就会出现下面有关罗纳德 ? 里根( 共和

    党人) 总统执政期间的军费开支统计图。大家都清楚里根为美国赢得了

    冷战,对国防安全做出了卓越贡献。在看着这些数字的时候,无人不为

    里根总统处理政务时所表现出的钢铁般的决心击掌喝彩。

    图 3-3 美国军费开支, 1981~1988 年

    面对美国民主党人时,我的这位教授还是用相同的 ( 名义 ) 数据,但在

    时间跨度上稍长一些。他对这群听众指出,吉米 · 卡特 ( 民主党人 ) 总统是

    开启国防建设的当之无愧的先驱。正如下面的这张“民主党版”的幻灯

    片所示,卡特掌权的 1977 ? 1980 年间,美国的军费增长趋势与继任的里

    根总统大同小异,感谢上帝让来自安纳波利斯的前海军军官吉米·卡特

    带领美国走上了军事自强之路!图3-4 美国军费开支,1977~1988 年

    资料来源: http:www.usgovernmentspending.comspend.php?

    span=usgs302year=1988view=lexpand=30expandC=units=bfy=fyl2Iocal=sstate=USpie=usgs302

    虽然统计学的要点在于为我们所关心的事物描绘一幅有意义的画

    面,但是在许多时候我们同样希望能够为这些数字做些什么。美国职业

    橄榄球联盟的球队希望获得四分卫成绩 的简单统计,这样他们就能在

    众多大学生中寻找到天才球员,企业通过考核指标来提拔那些有价值的

    员工 . 开除那些纯粹混日子的人。在商界流传着一句至理名言:“你无

    法管理你无法衡量的事物”。这句话千真万确,但你最好要保证你所衡

    量的,正是你努力想去管理的。

    谈到学校的质量,这是一个必须予以衡量的关键问题,因为我们都

    希望奖励并效仿“好”学校,惩罚或整顿“差”学校 ( 具体到学校内

    部,我们在衡量教师的教学水平问题上也面临类似的难题 ) 。考核学校

    和教师最常用的方法就是看学生的考试分数,统考结束后,学生的优异

    成绩就是教师和学校最好的金字招牌;与之相反的,糟糕的成绩无疑会

    释放出一个清晰的信号:相关教师应该被辞退,而且越早辞退越好。这

    样看来,仅凭考试分数我们就能彻底改善公共教育系统了,对吗?

    错。在评价教师和学校时,如果只看考试分数是会铸成大错的。不

    同学校的学生,他们的背景和能力是很不一样的,比如说,学生父母的

    教育程度和收入会对孩子的成绩产生不可忽视的影响,不论孩子上的是哪所学校。在这里,我们所缺少的那个数据恰好就是解答这个问题唯一

    需要的:学生的学业表现有好有差,但其中有多少比例要归功或归咎于

    学校 ( 或所在的班级 ) 呢?

    从小就生活在衣食无忧、书香门第家庭里的孩子,一般来说从进入

    幼儿园的第一天起就有可能会比别的孩子的成绩好。相反的情况同样成

    立,有些学校的学生天资平平,虽然教师教得很好,但是学生的成绩还

    是处在一个低水平上,如果没有这些老师的付出,那些学生的成绩会更

    加惨不忍睹。所以,我们需要在学校,甚至班级层面上将一些“附加

    值”纳入考核。学生成绩的绝对水平对于解答我们的问题没有意义,我

    们想知道的是这些学生的表现中有多少是受到了学校和教师的影响,我

    们想要评估的其实是这些教学因素。

    有人会说这并不难,只需要在开学时给学生安排一场摸底考试即

    可,再将这次考试的成绩与入学之后的考试成绩进行对比,就能够判断

    学生的学业是进步了还是退步了,并由此对其所在的学校或班级进行评

    价。

    但这种方法还是错误的。不同能力或背景的学生在学习上的进步程

    度也是不同的。一些学生在领会知识点方面就是比其他学生快,而这与

    老师的教学质量没有关系。假如让优质学校 A 的学生和各方面都稍差的

    学校 B 的学生同时开始学习相同难度的代数课,一年以后, A 校学生的代

    数成绩更理想,原因可能是 A 校的教师教学能力更强,也可能是 A 校学生

    的学习能力更强,还有可能二者兼有。研究人员正在致力于开发一套针

    对不同能力和背景的学生的教学质量统计评价方法,在此期间,我们所

    有关于寻找“最佳”学校的努力都有可能适得其反,误导大众。

    每年秋天,芝加哥的几家当地报纸和杂志都会对该区域内的高中进

    行一次排名,其主要参考依据通常是州考成绩 。从统计学的角度看,这些排名难免会有一些让人捧腹的地方,比如常年位居榜单前几位的都

    是一些选择性招生的学校,意思是说学生要进入这些高中,就必须提出

    申请,申请者中只有很小一部分的人能够如愿,而这些学校在挑选学生

    时最重要的参考依据就是学生的统考成绩。我们就这个问题作个小结:

    (1) 这些学校因其学生在州考中的出色发挥而被认为是“优质”学校;

    (2) 要进入这些学校学习,首先学生要有非常高的考试分数。这一逻辑就

    好比是给一支篮球队颁奖,理由是这支篮球队的训练在促进学生长高方

    面贡献卓著。

    面对你想要衡量和管理的对象,就算你找到了一个有效的评价指标,挑战也并未结束。好消息是“用统计学进行管理”能够让相关 个

    人或组织的潜在行为往好的方向改变。如果能够计算出一条生产线上生

    产出的产品的不合格率,而且这些不合格产品是由组装工人自身的原因

    造成的,那么对那些生产出的产品不合格率低的工人给予某些奖励,能

    够在一定程度上激励全厂工人积极工作的态度,这就是一个统计学优化

    工作的例子。无论是谁,都不会对激励措施 ( 哪怕仅仅是几句赞扬或一

    个地段好一点的停车位 ) 无动于衷的。统计学帮我们得到重要的结果,激励措施给我们改善结果的理由。

    坏消息则是,在某些时候,统计学的功能仅仅是让数据看上去更顺

    眼。

    如果某个高中是根据其毕业生占所在学区毕业学生总数的比例来评

    估校领导的能力,甚至是奖金分配方案,那么这些领导们的工作重心肯

    定会放在提高学生的毕业人数方面。当然,他们或许也会抽出一点精力

    放在提升本校学生的毕业率,但归根结底毕业人数和毕业率并不是一回

    事。例如,还没毕业就离校的学生可以被归类为“转校”而不是“缀学”。这不是一个虚构的例子,美国教育部前部长罗德 · 佩奇就是因为这

    个问题而备受指责。美国前总统小布什之所以提名佩奇掌管美国教育

    部,就是因为他成功地降低了休斯敦地区的学生缀学 率、提高了学生

    的考试分数。

    如果你一直默默地记下我引用的为数不多的商业警句,那么请在笔

    记本上写下这么一句话:“当《 60 分钟》电视新闻杂志栏目剧组敲你家

    门的时候,肯定没有什么好事。”之前丹 · 拉瑟和《 60 分钟》栏目组专

    门去了一趟休斯敦,发现教育部对统计数据的操纵远远超过了教育水平

    的提升。将缀学 的学生归类为转学、出国或攻读一般同等学力 (GED) 文

    凭,在当地高中是一个极为普遍的现象,在官方的统计数据中,这些学

    生都不会被统计到缀学 率中。休斯敦市公布的缀学 率为 1.5%, 而《 60

    分钟》栏目组暗访计算出的实际缀学 率为 25%~50% 。

    在考试分数的统计过程中,也出现了同样恶劣的作弊现象。在休斯

    敦 ( 或是其他任何一个城市 ) ,提高考试成绩的方式之一就是改善教学质

    量,这样学生就能学到更多的知识,并且在考试中取得进步,改善教学

    质量确实是较好的方法。而比较差的方法则是想办法让那些成绩最差的

    学生“远离”考场,即使剩余参加考试的学生的成绩没有任何长进,最

    终考试的平均成绩也会有所提升。在得克萨斯州, 10 年级学生需要参加

    全州统考,有证据表明休斯敦的中学有意让学习能力较差的学生留级,不让他们升为 10 年级生。休斯敦曾曝出过一个令人震惊的事情:一个学

    生连续 3 年当 9 年级生,然后直接升到了 11 年级——通过这样一种狡猾的

    运作,既能让一个成绩较差的学生免于在 10 年级统考中使总体分数下

    滑,又不至于让他因辍学而影响到升学率。

    罗德 ? 佩奇到底有没有在他的任期内参与策划这些操纵统计数字阴

    谋,我们并不清楚,但有一点是肯定的,他曾颁布了一个严格的问责政

    策,用以奖励那些达到升学率目标和考试分数目标的学校校长,同时对

    那些没能达标的校长予以解聘或降职处理。可想而知,整个休斯敦的校

    长们必然会积极响应,在这堂“课”上他们可不愿落后。但我们必须清

    醒地认识到,要想在评估报告上大放异彩,这些校长必须时刻将目标放

    在心中,任何与其有冲突的管理方法都不会有好下场。

    纽约州就因为类似的统计陷阱而栽了大跟头,付出了惨痛的代价。

    州政府之前出台了“记分卡”制度,对接受心脏搭桥手术的病人的死亡

    率进行统计,以便让公众在选择心脏科医生时有一个 参考。这似乎是

    一个完全合情合理,而且有所帮助的描述统计学在政策制定过程中的应

    用。心脏搭桥手术是治疗心脏病最常用和有效的方法,心脏病人在搭桥

    手术过程中的死亡比例当然是一个非常重要的数据,而作为个人根本没

    有办法了解到确切数据,因此政府出面收集并向公众公开这一数据是合

    乎情理的。但就是这么一个“好”政策,却导致了更多病人的死亡。

    心脏科医生肯定会在意他们的“记分卡”。但是对于一个外科医生

    来说,降低病人死亡率最简单的方法并不是降低病患死亡人数,因为大

    部分医生在救死扶伤方面已经竭尽全力了。降低死亡率最简单易行的方

    法是拒绝为那些病况最严重的病人动手术。罗彻斯特大学医学与牙医学

    院的一项调查表明,以服务病人为初衷的记分卡,到头来反而会给病人

    造成伤害:在参与调查的心脏科医生中,有 83% 的医生表示正是由于公

    开了死亡率数据,一些本来可以从搭桥手术中获益的病人最终没能被安

    排进行手术; 79% 的医生表示收集并公开死亡率数据或多或少地影响了

    他们的治疗决策。这一看似有用的描述性数据存在一个可悲的矛盾,而

    心脏科医生也只能理性地接受并釆取自己的对策,就是让那些最需要心

    脏搭桥的病人远离手术台。

    作为一个统计指标,不仅时常会“携带”其他描述性数据可能存在

    的陷阱,而且就其自身而言,将许多指标数据融合为一个单一的数字,这多少都会对现实和真相产生扭曲。从定义来看,任何一个指数对其构

    成都是十分敏感的;无论是所采用的指标数据的变化,还是各个数据的权重变化,都会对指数的最终呈现产生影响。举例而言,为什么美国国

    家美式橄榄球大联盟 (NFL) 在计算传球效绩指数 时不将第三次触地完成

    率考虑在内?在计算某个国家的人类发展指数时,识字率和人均收入两

    者的权重该如何确定?最终,我们必须面对的重要问题就是,如果计算

    过程的不 准确性无法克服,那么花那么大气力将众多数据压缩成一个

    数字就只是为了简单和易于使用,这一切是否值得?有些时候,这样做

    的确不值得,就比如 ( 我们之前提到的 ) 《美国新闻与世界报道》的大学

    排名。

    这份排名动用了 16 个统计指标为美国的学院、大学和专业院校打

    分、排名。以 2010 年为例,在为综合性大学和文理学院排名的过程

    中,“录取新生”占 15% 。基于大学录取率的“录取新生”指标,是指

    所录取学生中成绩占其所在高中年级前 10% 的学生的比例,以及录取学

    生的 SAT 和 ACT( 美国大学录取考试 ) 的平均分。《美国新闻与世界报道》

    刊登大学排名的好处在于,这份榜单以一种简单易懂的方式囊括了全美

    几千所大学的海量信息,就连其批评者们也承认,其中收集的有关美国

    大学的很多信息都是有价值的。许多有远见的学生都会想要知道心仪大

    学的毕业率和班级平均规模。

    当然,提供有意义的信息与将这些信息浓缩成一个权威排名完全是

    两码事。在批评家的眼里,这份排名设计粗糙、误人子弟、对高中毕业

    生的长远发展有百害而无一利。“问题之一就在于将教育机构以数字顺

    序进行排名,而原始数据本身并不支持如此精确的操作。”明尼苏达州

    麦卡利斯特学院前校长迈克尔 ? 麦弗 逊说。凭什么“校友捐赠”要占学

    校综合得分的 5%? 如果这项指标真的很重要,那么为什么不干脆占 10%

    的比例?

    按照《美国新闻与世界报道》的说法,“每一项指标都存在一个权

    重 ( 表现为百分比的形式 ) ,我们会根据这些指标的重要程度来判断不同

    指标的权重大小。”可是,有时候判断和专断的界线就是那么模糊。在

    这个美国高等院校的排名系统中,权重最大的指标是“学术名誉”,该

    指标是基于其他院校的负责人所填写的一份“同行评估调查”以及高中

    升学指导员的调查统计得出的。马尔科姆 · 格雷德威尔向来对排名持怀

    疑的态度,大学排名更是他猛烈抨击的对象,特别是同行评估法,在他

    看来就是一个笑话。马尔科姆 ? 格雷德威尔举了一个例子,密歇根最高

    法院的一位已经退休的大法官曾经向 100 多位律师寄发了一份问卷,让

    他们选出心目中最好的 10 所法学院。宾夕法尼亚州州立大学法学院的名字也出现这份问卷上,其最后的统计排名结果是宾夕法尼亚州州立大学

    法学院的教学质量居中等偏下。但问题出现了,在那个时候,宾夕法尼

    亚州州立大学法学院还没有成立。

    面对《美国新闻与世界报道》收集的所有数据,我们不知道这些排

    名到底是想给那些即将跨入大学校门的高中毕业生们哪方面的指导。站

    在学生的立场,最值得关注的方面应该是学业本身:如果我申请了这所

    大学,我能在学业上获得怎样的帮助?橄榄球迷聚在一起时经常会抱怨

    传球效绩指数 的构成,但却没有人否认其组成部分——完成率、码

    数、触地得分和截球——同样是评估一名四分卫的整体表现不可或缺的

    重要参考。但回到大学排名上来,情况就完全不同了。《美国新闻与世

    界报道》过于强调“输人” ( 例如,录取了哪些学生、教职员工的薪资

    待遇、全职教授所占的比例等 ) ,反而忽略了教学“输出”,除了仅有

    的两个例外——新生留级率和毕业率,但实际上就连这两个指标也不是

    衡量教学质量的。正如迈克尔 · 麦弗逊所指出的:“从这份排名中,我

    们无从知晓进入某所大学经过 4 年的学习之后,学生的能力是否提高

    了,他们的知识是否增长了。”

    虽然大学排名看上去是一些无伤大雅的统计数据,但事实上,它会

    导致一些对学生或高等教育无益的行为。举例说明,用以计算排名的数

    据之一就是每个学生能够获得的资助,可这些钱花得值不值得,排名中

    却没有一个相应的衡量数据。那些花更少的钱却给予学生更好的教育 (

    因此学费也会低很多 ) 的大学,却在排名中体现不出优势。此外,高等

    院校都希望申请本校的学生人数越多越好,包括那些根本没有任何希望

    的学生,因为这可以让它们变得非常热门,有助于提升自己的排名。但

    提高排名无论对学校还是对学生都是一种浪费,学校方面要花大量精力

    来吸引学生,而大部分学生到最后发现自己做的也是无用功。

    鉴于下一章的内容与概率有关,因此我不妨在此打一个赌:《美国

    新闻与世界报道》的大学排名时日不多了。巴德学院的院长利昂 ? 波特

    斯坦说得很精辟:“人们喜欢看到简单的答案。什么是最好的?当然是

    第一名。”

    本章内容一直在强调,统计陷阱与数学能力的关系不大。哪怕是令

    人叹为观止的精确计算也会混淆视听,甚至成为不良动机的掩护。有时

    候哪怕你准确无误地计算出平均数,也无法改变中位数在对真相的描述

    中更加准确这样一个事实。判断和正直成为关键所在,就好比一个人非

    常懂法也不能阻止其犯下罪行一样。渊博的统计学知识无法遏制不道德的行为,无论是统计学还是法律,坏人总是清楚地知道自己在做什么!第 4 章 相关性与相关系数

    视频网站根本不知道我是谁,但它又是怎么知道我喜欢看人物纪录

    片而不是电视连续剧、动作片或科幻片的?

    有一段时间,每当我打开网飞 视频的页面,总是会弹出一条收看提

    示,建议我观看纪录片《布托》 —— 一部关于巴基斯坦前总理贝娜齐尔

    布托的生平与悲

    惨遭遇的“富有深度与煽动性”的电影。我对这部电影的印象不

    错,而且也把《布托》加入到了我的观看列表中。最神奇的是,在那些

    网飞推荐 给我的影片中,如果是我之前看过的影片,那么毫无疑问这

    些影片都是我非常喜爱的。

    网飞公司 是如何做到这一点的?在其公司总部是不是有一大群实习

    生,整天在谷歌网站 上搜索有关我的信息,并综合了我的家人和朋友

    的观影兴趣,得出我可能会对一位巴基斯坦前总理的纪录片感兴趣的结

    论?当然不可能。网飞公司 只不过是掌握了一些非常复杂、精密的统

    计学手段。网飞公司 甚至根本不知道我是谁,但却知道我过去喜欢看

    什么类型的电影 ( 因为我曾经在网站上为这些电影打过分 ) 。基于这一信

    息,再加上其他用户的评分以及一台强大的电脑,网飞公司 对于我的

    电影品位的预测精准得令人震惊。

    我将会告诉大家网飞公司 做出这些预测的具体算法,现在最重要的

    一点是:这所有的一切都基于相关性。网飞向 我推荐的电影与我喜欢

    的其他影片类似,此外,该网站还向我推荐得到某些网友高度评价的影

    片,而这些网友的打分恰恰与我的打分非常接近,可以说这些网友是一

    群与我“臭味相投”的观影者。纪录片《布托》之所以会出现在我的网

    页上,是因为我给另外两部纪录片打了满分五颗星,这两部影片分别是

    《屋内聪明人》和《战争之雾》。

    相关性体现的是两个现象之间相互关联的程度例如在夏天,温度的

    高低与冰淇淋的销量就存在相关性,当温度升高时,冰淇淋的销量也会

    相应提高。如果其中一个变量的改变引发另一个变量朝着相同的方向变

    化,那么我们说这两个变量存在正相关性,就比如身高与体重之间的关

    系, ( 一般来说 ) 个子高的人体重会重些 , 个子矮的人体重会轻些。如果一个变量的改变引发另一个变量朝着相反的方向变化,那么这两个变量就

    存在负相关性,比如锻炼与体重。

    凡事都没有那么简单,有些时候也会出现与上述相关性相违背的现

    象。有些个子矮的人就是比个子高的人重一些,有些从来不运动的人甚

    至比运动爱好者苗条,但无论怎样,身高与体重、锻炼与体重之间总是

    存在着有意义的关联。

    如果对美国成年人的身高、体重进行随机取样,我们会得到如下一

    幅散 点分布图:

    图 4-1 身高与体重散点分布图

    如果我们要绘制一幅关于锻炼 ( 每周进行剧烈运动的分钟数 ) 和体重的

    散点分布图,就会看到一个相反的趋势,即运动量越大体重越轻。但

    是,这样一张完全由分散的点构成的图怎么 看都不像是一个简便易行

    的统计工具。设想一下,如果网飞公司 是以这种方式向我推荐影片

    的,那么公司总部估计早已被数百万名用户的评分散点淹没了。与之相

    反,相关性作为一个统计工具的魅力就在于将两个变量的关联精炼成一

    个描述性数据:相关系数。

    相关系数拥有两个无与伦比的优势。第一个优势体现在数学表达

    上,从本章后面的内容中我们能够发现,相关系数是一个区间为 -1 到 1

    的常数。如果相关系数为 1 ,即完全相关,表示一个变量的任何改变都

    会导致另一个变量朝着相同方向发生等量的改变。如果相关系数为 -1 ,即完全负相关,代表一个变量的任何变化都将会引发另一个变量朝着相

    反方向发生等量的改变。

    相关系数越接近 1 或 -1, 变量间的关联性就越强。如果相关系数为零 (

    或者接近零 ) ,则意味着变量之间不存在有意义的联系,就比如一个人

    的鞋码和高考成绩之间的关系。

    第二个吸引人的优势在于,相关系数不受变量单位的限制。我们可

    以计算身高和体重之间的关联性,哪怕身高和体重的单位分别是英寸和

    磅 。我们甚至还可以计算出高中生家里的电视机数量和他们的考试成

    绩之间的关联性,而且我敢保证是正相关 ( 之后的内容中我会给出解释 )。这就是相关系数能够为我们完成的一件非常神奇的事情:将大量芜杂

    无序、单位不统一的复杂数据 ( 就比如上面的身高、体重散点分布 ) 加工

    成一个简洁、优雅的描述性数据。

    实现过程是怎样的?

    跟之前 一样,我已经在本章后面的内容添加了一个常用的相关系数

    计算公式。相关系数通常不是一个徒手计算出来的统计参数,而是需要

    借助微软 Excel 办公软件或其他办公软件,你只需要输入数据,软件就会

    自动求得两个变量之间的相关系数。整个过程理解起来并不是很难,相

    关系数的计算过程如下:

    1. 计算出两个变量的平均数和标准差。还是以身高和体重为例,我

    们会得出样本人群的平均身高和平均体重,以及它们的标准差。

    2. 对所有数据进行转换,表现为距离 ( 也就是标准差 ) 的形式。请紧

    跟我的讲述,这一步并没有你想的那么复杂。假设样本的平均身高为 66

    英寸 ( 标准差为 5 英寸 ) ,平均体重为 177 磅 ( 标准差为 10 磅 ) 。如果你的身

    高为 72 英寸,体重为 168 磅,就表明你高于平均身高 1.2 个标准差,用公

    式来表述即为 [(72-66)5]=1.2, 轻于平均体重 0.9 个标准差 , 即 [(168-

    177)10]=-0.9 。的确,如果你的身高高于平均身高,体重却轻于平均体

    重,我们可以用“异常”来形容,但是既然你花钱买了我的书,那我就

    不能不手下留情——暂且说你又高又苗条吧。注意了,在此之前你的身

    高和体重数据后面还紧跟着单位——“英寸”和“磅”,现在却被转换

    成了简简单单的 1.2 和 -0.9 ,单位神奇地消失了。

    3. 到了这一步,我只需要,让电脑来完成剩下的工作。通过公式,电脑会整合样本里所有人的身高和体重的标准差数据,并最终为我们揭

    示身高和体重之间的关系。假如样本中有些人的身高高于平均值 1.5 或 2个标准差,那么他们的体重相对于平均值来说会呈现一种什么状况?那

    些身高接近平均值的人,他们的体重又会有什么变化?

    如果一个变量和平均值之间的距离与另一个变量和平均值之间的距

    离在相同方向上高度吻合 ( 例如,身高特别高或矮的人的体重一般也会

    特别重或轻 ) ,那么我们就可以断言这两个变量之间存在着强烈的正相

    关关系。

    如果一个变量和平均值之间的距离与另一个变量和平均值之间的距

    离在相反方向上高度吻合 ( 例如,锻炼时长大大 高于平均值的人,他们

    的体重也大大低于平均值 ) ,那么我们就可以断言这两个变量之间存在

    着强烈的负相关关系。

    如果两个变量无论在什么分析模式下都无法呈现出规律 ( 例如鞋的尺

    码和锻炼时长 ) ,那么这两个变量之间就不存在或基本不存在相关性。

    上述的内容让大家受苦了,好消息是我们马上就要谈到轻松的付费

    电影话题了。但在此之前,我们先来聊聊生活中另一个与相关性息息相

    关的事物: SAT 考试。是的,就是大名鼎鼎的美国学术能力测试,也叫

    SAT 推理测验。这一标准化考试由 3 部分组成:数学、阅读和写作。或许

    你曾经参加过 SAT 考试,或者很快你将参加这项考试,但是你很有可能

    从来没有想过参加这个考试到底有什么意义。该测试的目的在于,检验

    学生的学术能力,并预测他们进入大学后的表现。当然,有人会问 ( 尤

    其是那些不喜欢标准化考试的人 ) :这难道不是高中应该做的事吗?难

    道在大学招生老师的眼里,一场历时 4 个小时的考试难道比高中 4 年的成

    绩都重要?这些问题的答案其实都隐藏在第 1 章和第 2 章的内容里。高中

    时期的成绩是一个有缺陷的描述性数据。一个选修了数学、科学等挑战

    性较大的课程的学生,可能期末成绩很一般,但其学术能力和潜力可能

    要优于那些虽然成绩很好但选的课程都较为简单的同校同学。如果将多

    个学校进行横向比较,那么这类差异就会更大了。美国大学委员会负责

    SAT 测试的出题和管理,据委员会成员介绍, SAT 测试的初衷就在于“让

    每位学生在申请大学时都能得到公平的对待”。说得对! SAT 将学生能

    力进行了标准化加工,让大学在录取学生时有了一个简单明了的参考标

    准。但 SAT 测试究竟是不是一个好的能力评价标准呢?想要找一个评价

    学生的统一标准并不难,我们可以让所有的高中毕业生来一个百米测

    试,也能分出优劣,而且比 SAT 花费少和易于操作。不过有一个问题,百米短跑的成绩与大学表现可以说毫不相关,这是两个不相关的变量,虽说数据收集并不费劲,但它也不会告诉我们有意义的情况。 那么, SAT 在这方面的表现如何?我有一个不幸的消息要告诉未来的

    高中毕业生, SAT 成绩在预测大学一年级学生的成绩方面表现得相当不

    错。美国大学委员会定期会发布相关性报告。零代表毫不相关, 1 代表

    完全相关,学生的高中平均成绩与大学第一年的平均成绩之间的相关系

    数为 0.56( 为了让大家有一个直观的比较,我为大家提一个数据,那就是

    美国成年男子身高和体重之间的相关系数大约为 0.4), 而 SAT 综合成绩 ( 阅

    读、数学和写作 ) 与大学第一年的平均成绩之间的相关系数同样为 0.56 。

    既然 SAT 测试在预测学生大学表现方面并没有比高中的平均成绩更优

    秀,那为什么还要设立这样一个考试呢?事实上,如果将 SAT 成绩和高

    中平均成绩综合起来,就能得到一个相关系数为 0.64 的最佳预测指数。

    所以,亲爱的同学,我只能说抱歉了,乖乖地准备 SAT 考试吧。

    在本章的讨论过程中,我们必须牢记一点,那就是相关关系并不等

    于因果关系。两个变量存在正相关或负相关的关系,这并不代表其中一

    个变量的改变是由另一个变量的变化引起的。举个例子,之前我提了一

    句,学生的 SAT 成绩和其家里的电视机数量呈正相关关系,但这句话的

    意思并不是说望子成龙的家长多买 5 台电视机摆在家里,孩子的成绩就

    能提高了,也不是说,学生在家多看电视有助于提高学业成绩。

    对这样一个相关性最符合逻辑的解释应该是,受过良好教育的家长

    既能买得起多台电视机,也能很好地辅导孩子的学习,使其在考试中发

    挥出色。电视机的数

    量和考试分数很可能都是由第三个变量——家长的受教育程度决定

    的。我无法证明家中拥有电视机的数量和孩子的 SAT 分数之间的相关性 (

    因为教育委员会并没有提供这方面的数据 ) ,但我能证明家境殷实的孩

    子的 SAT 分数要普遍高于家庭生活条件相对困难的学生。美国教育委员

    会提供的数据显示,家庭年收入超过 20 万美元的学生,他们的 SAT 数学

    平均分为 586; 而家庭年收入低于两万美元的学生,他们的 SAT 数学平均

    分仅为 460 。与此同时,年收入高于 20 万美元的家庭也极有可能 ( 在多个

    房产内 ) 拥有多台电视机,电视机数量势必要多于年收入低于两万美元

    的家庭。

    几天前,我开始了本章内容的创作,也借此机会观看了纪录片电影

    《布托》。太精彩了!这是一部关于一个伟大家庭的伟大电影。详细的

    影像资料,从 1947 年印度和巴基斯坦分治一直到 2007 年贝 ? 布托遇刺,让人看来荡气回肠。布托的演讲和采访原音穿插全片,贯穿她的一生。

    观毕此片,我毫不吝啬地打了 5 颗星,完全符合网飞 的预测。 归根结底,网飞运用 的还是相关性的概念。我在网站上给以前看过

    的电影评分,网飞将 我的评分与其他用户进行比较,从中筛选出与我

    相关性最高的用户,这些人的电影品位可以说与我是最接近的。数据库

    一旦建立,网飞就 会向我推荐那些与我品位相同的用户打了高分,而

    我又恰好没有看过的电影。

    当然,这只是简略的介绍,真正的方法要比这个复杂得多。 2006

    年,网飞公司 发起了一场比赛,邀请公众参与设计影片推荐机制,以

    帮助网飞在 现有的推荐方案上提高至少 10% 的准确率 ( 即用户在观看完

    推荐影片后给出的评分正好对应网站之前的预测 ) ,比赛赢家可以获得

    100 万美元的奖励。

    报名参赛的个人或团队都会收到一套“训练数据”,包含了 48 万名

    网飞注册 用户对 1.8 万部电影共计 1 亿多次的评分,但其中有 280 万个评

    分是“保密”的,即只有网飞公司 知道评分的具体结果,参赛者是不

    知道的。参赛者需要通过自己的算法和程序,来预测出这些“保密”评

    分的内容,网飞公司 会根据每位参赛者所提交的内容来判断其准确程

    度。在超过 3 年的时间里,有来自 180 多个国家的团队提交了改进方案,但在参评之前他们必须满足两个条件:第一,获胜者必须将算法程序授

    权给网飞公司 ;第二,获胜者必须“向全世界描述你是如何做到

    的”。

    2009 年网飞公司 终于宣布了比赛的最终结果:获胜者为一个 7 人

    团队,由统计学家和计算机专家组成,他们分别来自美国、奥地利、加

    拿大和以色列。遗憾的是,我无法在这里向各位介绍他们的获胜系统,就算本章的补充知识点对此 也没有提及,因为他们的成果介绍长达 92

    页纸。网飞影片 推荐系统的品质毋庸置疑,但无论包装如何精美,说

    到底还是一件十分普通的事,甚至早在电影工业初期就已经出现了:找

    几个跟你有相同趣味的人并让他们向你推荐一些电影。 ......

您现在查看是摘要介绍页, 详见PDF附件(3106KB,215页)