AI极简经济学.pdf
http://www.100md.com
2020年1月8日
![]() |
| 第1页 |
![]() |
| 第10页 |
![]() |
| 第14页 |
![]() |
| 第28页 |
![]() |
| 第48页 |
![]() |
| 第135页 |
参见附件(2156KB,137页)。
AI极简经济学,这是一本关于AI人工智能的书籍,由三位作者共同编写完成,在书中为读者概括了人工智能未来对企业的发展帮助,值得一读。

AI极简经济学内容提要
人工智能正在以不可阻挡的态势席卷。无论是iPhone的神经网络引擎、AlphaGo的围棋算法,还是无人驾驶、深度学习……毫无疑问,人工智能正在改写行业形态。如同此前个人电脑、互联网、大数据的风行一般,技术创新又一次极大地改变了我们的工作与生活。那么,究竟应该如何看待人工智能?在《AI极简经济学》一书中,三位深耕人工智能和决策领域的经济学家给出了清晰的答案。他们以坚实的经济学理论剖析动态,把握本质,将人工智能领域变化多端的表象总结为不断提高的机器预测能力。
AI极简经济学作者简介
阿杰伊·阿格拉沃尔(AjayAgrawal)颠覆性创新实验室创始人,多伦多大学罗特曼管理学院策略管理教授,美国全国经济研究所研究员,“未来人工智能”(NextAI)组织的共同创始人。
乔舒亚·甘斯(JoshuaGans)颠覆性创新实验室首席经济学家,多伦多大学罗特曼管理学院策略管理教授,《纽约时报》《哈佛商业评论》《福布斯》等多家媒体撰稿人。
阿维·戈德法布(AviGoldfarb)颠覆性创新实验室首席数据科学家,多伦多大学罗特曼管理学院营销学教授,美国全国经济研究所研究员。
AI极简经济学特色亮点
1.直击人工智能痛点,未来已来的时代,我们都需要重新定位,解决“何为人工智能,它有什么用,我们该怎么办”的经济学书籍。
2.三位作者深耕AI商业化、规模化领域,帮助AI初创企业找到自身的定位。在本书中,借由经典的经济学模型,他们将AI视为预测能力,而非宣传中铺天盖地的智能,从而找到了一条破除AI技术迷雾的道路。
3.面对AI,无论你是需要做出决策的企业家,还是尚且在规划职业生涯的普通人,或是面对剧烈社会变动的思考者,都能从这本书中获得重要启发。
AI极简经济学截图


籍。任何对本书籍的修改、加工、传播自负法律后果。
ISBN:9787535799647本书仅供个人学习之用,请勿用于商业用途。如对本书有兴趣,请购买正版书
出版时间:2018年12月
出版社:湖南科学技术出版社·博集天卷
作者:【加】阿杰伊·阿格拉沃尔;乔舒亚·甘斯;阿维·戈德法布
书名:AI极简经济学
C O P Y R I G H T
献给:
我们的家人、同事、学生,以及初创企业,是他们启发我们冷静、深入地思考人工智能。第1章
导言
下面的场景就算眼下听上去不太耳熟,也很快会变成生活中的常态。一个小孩正独自在房间写作业。
突然,房里传来:“特拉华州的首府是哪里?”家长开始琢磨。巴尔的摩……显然不对……威尔明顿……不
是首府。家长还没想完,一台名叫“Alexa”的机器就给出了正确答案:“特拉华州的首府是多佛。”Alexa是亚
马逊的人工智能(Artificial Intelligence,简称AI)语音助手,能够理解自然语言,并以闪电般的速度回答问
题。Alexa将取代父母,成为孩子眼里全知全能的信息来源。
人工智能无处不在。它在手机、汽车里,在我们购物、相亲的过程中,它甚至遍布医院、银行和媒体。难怪公司董事、首席执行官、高级副总裁、经理、团队领导、企业家、投资人、教练和决策者都在这场
了解人工智能的竞赛中感到焦虑:他们意识到,人工智能即将从根本上改变他们的行业。
我们三人站在了一个有利于观察人工智能进步的独特位置。我们都是经济学家,因为研究上一轮伟大
的技术革命——互联网而奠定了职业发展的方向。经过多年的研究,我们学会了透过铺天盖地的宣传,把
目光聚焦于技术对于决策者的意义上。
我们还创立了颠覆性创新实验室(Creative Destruction Lab,简称CDL)。这是一个尚处于种子阶段的
项目,旨在提高科学型初创企业的创业成功率。起初,该实验室对所有类型的初创企业开放,但到2015年
,许多激动人心的投资结果都是来自人工智能方向的公司。据我们所知,截至2017年9月,颠覆性创新实验
室已连续三年成为全球最密集的人工智能初创企业的聚集地。
出于这个原因,该领域的许多领导者定期前往多伦多参加颠覆性创新实验室的活动。例如,在整个项
目研发期间,为亚马逊的Alexa发明人工智能动力引擎的主要人物之一威廉·滕斯托尔-佩多(William Tunstal
l-Pedoe),每隔八周就从英国剑桥飞到多伦多与我们碰头。旧金山的巴尼·佩尔(Barney Pell)也是如此,此前,他曾领导美国国家航空航天局旗下一支85人的团队,把第一代人工智能发射上了浩瀚太空。
颠覆性创新实验室在这一领域获得主导地位,一部分原因是我们恰好位于加拿大的多伦多。近年来,机器学习推动了人们对人工智能的研究兴趣,而多伦多又孕育了很多机器学习领域的核心发明。实际上,当今已经产业化的世界顶级人工智能团队,包括Facebook、苹果公司和埃隆·马斯克(Elon Musk)的Open A
I在内,其领头专家都有多伦多大学计算机科学系的背景。
与如此多人工智能的应用近距离接触后,我们不得不思考这一技术给企业战略带来了何种影响。我们
的解释是,人工智能是一种预测技术,预测是决策的输入端,而经济学又为任何决策所包含的权衡取舍提
供了一套完美的解释框架。所以,一半靠运气,一半靠策划,我们发现自己在恰当的时间和地点为技术专
家和商界从业者架起了一座桥梁,结果便是这本书。
我们的第一个重要发现是,人工智能新浪潮实际上并没有给我们带来智能,它带来的是智能的一个关
键组成部分——预测。在上面的场景中,小孩提出问题时,Alexa做的是,收录听到的声音,预测小孩说出
的单词,再预测这些单词要查找的信息。Alexa并不“知道”特拉华州的首府,但可以预测:当人们提出这样
一个问题时,他们寻找的就是一个特定的答案——多佛。颠覆性创新实验室的每一家初创企业都建立在更准确的预测带来的好处上。Deep Genomics(深度学习
基因公司)通过预测DNA改变时细胞发生的变化来改进其医学实践。Knote公司通过预测文档的哪些部分应
该编辑来改进法律实践。Validere公司通过预测输入原油的含水量来提高炼油厂的效率。这些应用之道,就
是大多数企业不久的将来发展方向的缩影。
如果你想弄明白人工智能对自己意味着什么,却又一头雾水,那么这里有我们带来的好消息。哪怕你
从未涉足卷积神经网络的编程工作,也从未研究过贝叶斯统计学,我们也能帮你理解人工智能的含义,领
略这一技术的进步。
如果你是公司领导,我们可以帮助你了解人工智能对管理和决策的影响。如果你是学生,或者刚毕业
,我们能为你提供一套框架,思考就业的演变和未来的职业发展。如果你是金融分析师或风险投资人,我
们将为你提供可构建个人投资主张的结构。如果你是一位政治决策者,我们将为你提供指导,帮助你理解
人工智能将怎样改变社会,政策又该如何塑造这些变化,让它们朝着好的方向前进。
经济学为理解不确定性,以及不确定性对决策的意义,提供了坚实的基础。更准确的预测可以降低不
确定性,我们用经济学告诉你,人工智能对你在运营企业的过程中即将做出的决策意味着什么。反过来说
,凭借这些认识,你将更加明白,对于企业内部的工作流程来说,哪些人工智能工具可能给你带来最高的
投资回报率。由此,你将构建起一套设计企业战略的框架,比如怎样重新思考企业的规模和经营范围,以
便利用基于廉价预测的全新经济现实。最后,我们还罗列了与人工智能相关的重要权衡:就业、企业权力
的集中度、隐私和地缘政治。
什么样的预测对你的公司最为重要?人工智能的进一步发展,会怎样改变你赖以为重的预测?随着个
人电脑和互联网的兴起,各行各业重新配置了就业岗位,为响应预测技术的进步,你所在的行业将怎样对
就业岗位进行重新配置?人工智能是全新的技术,目前人们对其缺乏了解,但我们所应用的经济学坚实可
靠;我们所举的案例当然会随着时代前进而被淘汰,但本书所介绍的框架却不然。哪怕随着技术进步,预
测更加精确化和复杂化,我们的这些见解仍将适用。
但《AI极简经济学》并非你在人工智能经济时代取得成功的制胜法宝。身为经济学家,我们强调权衡
与取舍。数据越多,意味着隐私越少。速度越快,意味着准确度越低。自主性越强,意味着控制力越弱。
我们无法为你的企业开出最佳战略的处方。那是你的任务。最适合你所在公司或所属职业的战略应该取决
于你在每一次权衡时怎样拿捏各方要素的权重。本书提供的是一种结构,让你锁定关键的权衡,评估利弊
,以做出最适合你的决策。当然,就算你手里有了我们的框架,情况也在迅速变化。这意味着,你需要在
无法充分掌握信息的条件下做出决定,但即便如此,这也比无所作为好。
本章要点
※人工智能当前的进步浪潮给我们带来的其实不是智能,而是智能的一个关键组成部分——预测。
※预测是决策的核心输入。经济学有着成熟完备的框架可解释决策的产生。预测技术的进步带来的潜
在意义还很新,人们也缺乏足够理解,但它与经济学中历史悠久且为人熟知的决策理论的逻辑结合起来时
,可带来一系列洞见,指导你所在的组织走向通往人工智能的道路。
※什么是最好的人工智能战略,什么是最出色的人工智能工具,往往并无固定答案,因为人工智能关
乎权衡:速度越快,准确度就越低;自主性越强,控制权就越弱;数据越多,隐私就越少。我们为你提供了一种方法,这一方法可以识别出各种人工智能决策的相关权衡,让你可以根据自己组织的使命和目标,评估交易的两面性,最终做出最适合自己的决策。第2章
廉价改变一切
所有人都已经,或者即将迎来自己的人工智能顿悟时刻。我们习惯了媒体上充斥着“新技术即将改变生
活”的报道。虽然我们中有些人是技术爱好者,欢庆着未来的无尽可能,另一些人是技术恐惧者,哀悼逝去
的美好时光,但几乎所有人,都太习惯技术新闻不断敲响的鼓点了,以至于近乎麻木地念叨着,“唯一不变
的就是变化本身”。直到我们迎来自己的人工智能顿悟时刻。然后,我们意识到这次的技术有些不一样了。
2012年,一些计算机科学家经历了他们的人工智能顿悟时刻。当时,多伦多大学的一支学生团队在可
视物体识别大赛ImageNet(ImageNet是按照WordNet架构组织的大规模带标签图像数据集。)中以优异的成
绩胜出,第二年,所有的决赛队伍都采用了当时还很新颖的“深度学习”法参与竞争。物体识别不仅仅是一
场比赛——它能让机器“看见”。
2014年1月,一些技术公司的首席执行官经历了他们的人工智能顿悟时刻。他们看到头条新闻上说,谷
歌刚刚花了6亿多美元买下了英国初创公司DeepMind。尽管相较收购价格,这家初创公司创造的收入微不足
道,但它展示了人工智能在独立自主且未安装预设程序的情况下学会了玩雅达利电子游戏,并且获得高于
人类的成绩。
那年晚些时候,一些普通人经历了他们的人工智能顿悟时刻。他们听到著名物理学家斯蒂芬·霍金(Ste
phen Hawking)着重解释道:“……文明能提供的一切,都是人类智慧的产物……人工智能的成功发明将成
为人类历史上的最大事件。”
还有些人在第一次乘坐高速行驶的特斯拉时,经历了自己的人工智能顿悟时刻。他们将手从方向盘上
松开,让汽车依靠自动驾驶仪(Autopilot AI)在车流里穿梭。
中国政府经历了人工智能顿悟时刻:全国上下目睹了DeepMind公司开发的人工智能围棋软件AlphaGo
(阿尔法狗)在2016年击败韩国围棋选手李世石,并于次年击败全球排名第一的中国棋手柯洁。《纽约时
报》将这次比赛形容为中国的“斯普特尼克时刻(Sputnik moment)”。正如苏联发射人造卫星“斯普特尼克
号”使得美国大力投资科研,中国对这一事件做出了类似反应,制定了到2030年占据人工智能世界领先地位
的国家政策,并对此给予了财政支持。
2012年,我们自己也经历了人工智能顿悟时刻:当时我们观察到,采用最先进的机器学习技术、向颠
覆性创新实验室提出申请的人工智能初创公司的数量,已经从涓涓细流变成了一股激流。这些公司涉及多
个行业——药物开发、客户服务、制造、质保、零售和医疗器械。这项技术十分强大且通用性极强,在范
围极广的应用领域中创造了重要价值。我们着手研究,试图从经济角度理解它的意义。我们知道,与其他
技术一样,人工智能受制于同一种经济环境。
简而言之,技术本身让人惊叹。早些时候,著名风险投资家史蒂夫·尤尔韦特松(Steve Jurvetson)打趣
说:“几乎可以肯定的是,你在未来5年体验到的任何像变戏法一样的产品,都建立在这些算法之上。”史蒂
夫说人工智能就像是“变戏法”,跟《2001太空漫游》《星球大战》《银翼杀手》,以及更近的《她》和《
机械姬》等电影里的描述相呼应。我们理解史蒂夫对人工智能应用的描述(“变戏法”),也对此感同身受,但身为经济学家,我们的任务是把这些扑朔迷离的设想变得简单、清晰且实用。
戳穿噱头
经济学家对世界有着与众不同的看法。我们会从供求关系、生产与消费、价格与成本的框架来思考一
切问题。虽然经济学家们之间经常意见不一,但我们立足于一套共同的框架。我们对假设和阐释存在争议
,但我们对基本的概念,如稀缺性和价格竞争所扮演的角色意见一致。这种观察世界的方法带给我们一个
独特且有利的视角。从消极的一面来说,我们的视角可能会显得很枯燥,无法让我们成为晚宴上受欢迎的
客人。从积极的一面来说,它有利于为商业决策提供清晰的信息。
我们从最基础的价格着手。如果某样东西的价格下降,那么我们会更多地使用它——这就是简单的经
济学。这种情况正出现在人工智能行业。人工智能变得随处可见了。它挤满了你手机的应用程序,它正在
优化你的电网,它正在取代你的股票投资组合经纪人。用不了多久,它说不定就会载着你到处走,或者给
你配送快递了。
如果说经济学家擅长做某件事的话,那就是“戳穿噱头”。当其他人看到的是改头换面的新发明时,我
们只看到价格下跌。但不仅如此,要了解人工智能如何影响了你所在的机构,你必须清楚地知道哪些东西
的价格发生了变化,以及这种变化将如何蔓延至更广阔的经济领域。此时,你才能制定应对之策。经济发
展的历史告诉我们,对重大发明带来的冲击感受最深的通常是人们意想不到的领域。让我们回想一下1995
年商业互联网的故事。在大多数人看着《宋飞正传》时,微软发布了自家第一套多任务操作系统Windows 9
5。同年,美国政府解除了在互联网上承载商业流量的最后限制,网景公司迎来了商业互联网上第一次重大
的首次公开募股(IPO)。互联网从“新奇好玩的技术”变成一股席卷所有行业和政府的商业浪潮,那一年是
转折点。
网景公司的首次公开募股获得了30亿美元的估值,哪怕它一分钱也没赚过。风险投资家对初创公司动
辄给予数百万美元的估价,即便它们还处在用一个新词描述即“前收入”(pre-revenue)的阶段。刚毕业的工
商管理硕士(MBA)毕业生拒绝了收入诱人的投资银行和咨询工作,打算到网上去搏一搏运气。随着互联
网的影响逐渐扩散至各行各业,遍及价值链上下,技术倡导者们不再把互联网称为新技术,而开始把它称
作“新经济”。这个词流行开来。互联网超越了技术,从基础层面渗透到了人类活动的方方面面。政治家、企业高管、投资人、企业家和主要新闻机构开始使用这个词。每个人都开始畅谈“新经济”。
每个人,我的意思是,除了经济学家之外的每个人。我们没有看到新的经济,或者新的经济学。对于
经济学家来说,它看起来就是寻常的旧经济。诚然,发生了一些重要的变化。商品和服务可以数字化流通
了。交流变得更容易。想要查找信息,点击搜索按钮就行了。但所有这些事情,从前都能做到。只不过,它们现在可以以低廉的成本做到了。换句话说,互联网的兴起意味着分销、通信和搜索成本的下降。从由
贵转贱、由稀缺变富足的思维来重新阐释这种技术进步,有利于思考它对你的事业会产生何种影响。例如
,如果要你回想第一次使用谷歌搜索的体验,你会记起它魔术般呈现信息的能力。而以经济学家的角度看
,谷歌只是让搜索变得更廉价了。当搜索变得廉价时,那些通过别的方式提供信息检索并以此赚钱的企业
(如黄页、旅行社、分类广告等)感到了严重的危机。与此同时,那些仰赖被人发现的职业(如自助出版
作品的作家、稀有收藏品卖家、本土电影制作人等)得到了蓬勃发展。
没错,特定活动相对成本的这种变化,极大地影响了部分企业的商业模式,甚至也影响了部分行业的结构体系。然而,经济规律并未发生改变。一切仍然可以从供求的角度来理解。我们仍然可以利用现成的
经济学原理,制定策略、为政策提供信息、预测未来。
廉价意味着随处可见
当某种基础产品的价格大幅下跌时,整个世界都可能发生变化。以照明为例。你很可能是在人工光源
下阅读这本书的。而且你兴许从来没想过,为了读书而打开灯是否值得的问题。照明太廉价了,任你使用。但经济学家威廉·诺德豪斯(William Nordhaus)曾做过细致的考察,要在19世纪初获得等量的照明,你的
花销是如今的400倍。在这样的价格下,你不可能不注意到成本。要不要使用人工照明工具来阅读本书,会
让你反复掂量。照明价格此后的下跌点亮了整个世界。它不仅把夜晚变成了白昼,而且让人得以在自然光
线无法穿透的大型建筑物里工作和生活。要不是人工照明的成本跌到几近于无,我们今天拥有的一切几乎
都无法实现。
技术变革让原本昂贵的东西变得廉价。照明成本的急剧下降,使我们的行为发生了转变,从先前需要
决定是否开灯,到现在毫不迟疑地打开电灯开关。这种下降给了我们机会去做原先无法做到的事情;它把“
不可能”变成了“可能”。所以,像照明这样的基本生产资料的价格大规模下跌将带来什么样的影响,经济学
家毫无例外会对此着迷。
廉价照明带来的一些影响很容易想象,另一些却不那么明显。当新技术(不管是人工照明、蒸汽动力
、汽车,还是计算机)令得某种东西变得廉价,到底什么会受到影响,并不总是一目了然的。
蒂姆·布雷斯纳汉(Tim Bresnahan)是斯坦福的经济学家,也是我们的导师之一。他指出,计算机运行
算法,仅此而已。计算机的出现和商业化让算法变得廉价了。(这属于运算的整体成本逐渐减少这一漫长
趋势的一部分。)一旦算法变得廉价,我们不仅在传统领域内需要运算的地方更加频繁地应用它,也会把
这种新近变得廉价的运算能力应用到一些此前与运算无关的领域,例如音乐。
被誉为第一位程序员的埃达·洛夫莱斯(Ada Lovelace)看到了这种潜力。在19世纪初昂贵的照明条件
下,她撰写了最早的录制程序,在查尔斯·巴比奇(Charles Babbage)设计的一台尚处理论阶段的“计算机”
上,计算出了一连串数字(“伯努利数”)。这里,有必要提一笔巴比奇,因为他也是一位经济学家。我们
在本书中会看到,这不是经济学和计算机科学唯一的交叉点。但理解运算能够“扩大规模”(这是现代初创
公司的术语)和实现更多功能的人是洛夫莱斯。她意识到,计算机的应用并不局限于数学运算。“比如,假
设和声科学和音乐作品里音调的基本关系可以用数学方式来表达,那么,这台引擎就能创作出精致而又科
学的作品,再复杂的作品都没问题。”当时计算机并未问世,但洛夫莱斯却预见到,音乐(按照定义,它是
一种充满艺术和人性的形式)可以存储在运算机器里,并反复播放。
日后发生的情况正是如此。一个半世纪之后,运算的成本变得足够低,继而产生了大多数人做梦都不
曾料到的成千上万种应用方式。由于算法对于许多事情都是一种重要的输入要素,在它变得廉价之后,与
此前照明上发生的事情一样,它改变了世界。以净成本之类的术语来描述某种最新的伟大技术,能够戳穿
噱头,尽管这么做不能让这一技术看上去那么令人兴奋。你永远不会见到史蒂夫·乔布斯发布“一台全新的加
法机”,尽管这就是他做的全部事情。通过减少某些重要部分的成本,乔布斯的全新加法机改变了世界。
现在,让我们来看看人工智能。人工智能在经济上的重要意义,正是因为它会让重要的东西变得廉价。此刻,你或许正思考这东西会是智能、推理或思想本身。你也许想象着,机器人或那种没有血肉之躯的“生命”已经无处不在,就像《星际迷航》里友好的机器人,它们让你不需要再费心思考。洛夫莱斯也想到了
同样的内容,但她很快打消了这个念头。她写道,至少考虑到计算机本身,“它没有创造的野心。它可以做
任何我们吩咐它去执行的事情。它可以按照分析去做,但它不具备预知需要解析的关系或真相的能力”。
尽管伴随人工智能的概念出现了各种噱头和信仰,但阿兰·图灵(Alan Turing)日后所称的这一“洛夫莱
斯夫人的异议”始终屹立不倒。计算机依然无法思考,所以思考还不会变得廉价。相反,会变得廉价的是某
种非常普遍的东西,就跟运算一样,你甚至都意识不到它会变得何等常见,以及其价格下跌将对我们的生
活和经济产生何等庞大的影响。
新的人工智能技术会让什么东西变得廉价呢?预测。故此,经济学显示,我们不仅会大量运用预测,还将看到它应用于出人意料的新领域。
廉价创造价值
预测是填补缺失信息的过程。预测将运用你现在掌握的信息(通常称为“数据”),生成你尚未掌握的
信息。大部分有关人工智能的讨论强调的是花样繁多的预测技术,而这些技术有着愈发艰涩模糊的名称和
标签:分类、聚类、回归、决策树、贝叶斯估计、神经网络、拓扑数据分析、深度学习、强化学习、深度
强化学习等。对有志于将人工智能应用于解决具体预测问题的技术人员而言,这些技术都非常重要。
本书会替各位读者略过这些方法背后的数学细节。我们强调的是,这里的每一种方法都与预测有关:
用你已有的信息生成你尚未掌握的信息。我们的重点是帮助你找出预测会在哪些环境下体现出价值,以及
怎样尽量多地从预测中受益。
预测更廉价,意味着预测会变得更多。这是简单的经济学:某件事情的成本下降,我们就会更多地做
这件事。例如,20世纪60年代,运算成本开始迅速下降,我们就在需要的地方使用了更多的运算,比如人
口普查局、国防部和美国国家航空航天局(电影《隐藏人物》中曾出现过)。更有趣的是,后来,我们还
开始在非传统运算问题的地方运用全新的廉价运算,例如摄影。我们过去用化学方法来解决摄影问题,但
当运算变得足够廉价后,我们便改用基于运算的解决方法:数码相机。一张数码照片不过是能通过算法变
成可观看图像的一连串0和1的组合而已。
预测也一样。预测被应用于传统事务,例如存货管理和需求预测。更为重要的是,由于预测变得廉价
,它也逐渐被用来解决一些非传统预测领域的问题。集合人工智能(Integrate.ai)公司的凯瑟琳·豪(Kathry
n Howe)把那种将传统问题重组为预测问题的能力称为“人工智能洞见(AI Insight)”。时至今日,全世界
的工程师都在学习这种能力。自动驾驶汽车已经在受控的环境下存在了20多年。然而,它们只能在有着详
细平面图的场所活动,比如工厂、仓库等。有了平面图意味着工程师可以设计机器人按基本的“如果-那么(
if-then)”逻辑来运行:如果有人在车辆前面行走,那么就停下;如果货架是空的,那么就转向下一排。但
这些车辆永远无法进入普通的城市街道。普通大街上会发生的事情太多了,不可能一一对应地编写成“如果-
那么”的代码。
自动驾驶车辆无法在高度可预测、可控制的环境之外运行,直到工程师们重新从预测的角度对问题做
了框定。工程师们意识到,不必告诉机器在每一种场合下要做什么,只要把焦点放在一个预测问题上即可
——“人类会怎么做”,依靠足够廉价的预测,我们把驾驶变成了预测问题。如今,企业投入数十亿美元训
练机器在非受控环境下,甚至在城市的街道和高速公路上自动驾驶。试想一下一个人工智能机器人和人类驾驶员一起坐在汽车里的情景。人类驾驶员开车行驶过数百万英
里,他通过眼睛和耳朵接收环境数据,用大脑处理这些数据,再根据传入的数据采取相应的行动:直行或
转弯,刹车或加速。工程师们给人工智能安装了各种传感器(如摄像机、雷达、激光定位器等),让它有
了自己的眼睛和耳朵。所以,人类驾驶员开车的时候,人工智能观测传入的数据,同时观察人的行为。当
特定的环境数据传入时,人类驾驶员会右转、刹车,还是加速?人工智能对人类驾驶员观察得越多,就能
越好地预测驾驶员在接收到特定环境数据时将要采取的具体行动。通过预测人类驾驶员在特定路况下怎么
做,人工智能学会了驾驶。
关键在于,当预测等生产资料变得廉价时,另一些东西的价值会随之提高。经济学家称之为“互补品”。一如咖啡成本的下降会提高糖和奶油的价值,对自动驾驶汽车而言,预测成本的下降会提高捕捉车辆周
边数据的传感器的价值。这里举一个例子说明这些互补品的价值:2017年,英特尔拿出150多亿美元收购以
色列初创公司Mobileye。这主要是为了得到后者的数据采集技术,该技术可让车辆有效地“看到”物体(停车
标志、行人等)和标识(车道线、道路)。
一旦预测变得廉价,就会出现更多的预测,更多的预测互补品。这两种简单的经济力量推动了预测机
器创造的新机遇。从初级层面看,预测机器可以代替人完成预测任务,节省成本。随着预测机器开始运转
,预测有可能发生变化,并提高决策的质量。但等到了某个时间点,预测机器变得十分精确且可靠,以至
足以改变组织运作的方式。换句话说,一些人工智能对企业的经济效益产生了巨大的影响,它们不光可以
提高策略执行过程中的生产力,还将改变策略本身。
从廉价到战略
企业高管们最常问我们的一个问题便是:“人工智能对企业战略有怎样的影响?”以下是我们用来回答
这个问题所做的思想实验。大多数人都熟悉怎样在亚马逊网站上购物。跟大部分在线零售商一样,你访问
网站,选购商品,将商品放进“购物车”里,付款,接着亚马逊把商品寄给你。目前,亚马逊的商业模式是
先购物再发货。
在购物过程中,亚马逊的人工智能预测你想要买什么,然后提供相应的推荐。考虑到眼下亚马逊有数
百万种商品在售,人工智能的工作算是合理。但它远远不够完美。就我们自己而言,对我们想要购买的东
西,人工智能能准确预测5%。换句话说,它每推荐20种商品,我们实际上会购买一件。这样的成绩还不赖
嘛!
设想一下,亚马逊的人工智能收集了我们更多的信息,并使用这些数据来改进它的预测。照我们的想
法,这种改进就像是调高扬声器的音量旋钮。只不过,它们调高的不是音量,而是人工智能预测的准确性。
它们转动旋钮到了某个点,人工智能预测的准确度跨越了某个临界值,以至于改变了亚马逊的商业模
式。这种预测准确到,直接把它预测你想要购买的商品寄送给你(甚至不用等到你下订单)。这样能让亚
马逊赚更多钱!
有了它,你再也不需要到其他零售商那里去了,而且商品还没买就寄送到手,这有可能促使你购买更
多其他的东西。亚马逊能从你的钱包里捞到更多钱。很显然,这对亚马逊来说很棒,但对你来说同样很棒。倘若一切进展顺利,亚马逊还没等你选购就把商品送上了门,让你免于购物之苦。预测的旋钮调得足够高,使亚马逊的商业模式从“先买后寄”变成了“先寄后买”。
当然,退回所有自己不想要的东西,这样的麻烦事消费者可不愿承担。因此,亚马逊将投资产品退换
方面的基础设施,比如一支负责配送的车队,每周做一轮巡检,轻松地回收顾客不想要的东西。(亚马逊
已经在着手解决潜在的安全隐患。2017年,它推出了Amazon Key,这套系统允许配送人员打开你家的大门
,将包裹放在室内,监控摄像头将录制其间的一切情况,确保一切顺利进行。)
如果这是一种更好的商业模式,为什么亚马逊还没有这么做呢?因为如果现在执行它,收集和处理退
货商品的成本将远远超出从顾客那里多赚到的钱。比方说,如今我们要退掉寄来的95%的商品。这对我们
来说会很烦人,对亚马逊来说也代价高昂。这样的预测,对亚马逊而言还不够好。
我们不难想到,亚马逊会在这项技术精确到能够为其带来利润之前,就抢先采用这一战略,因为亚马
逊已预见,只要预测精确到一定程度,它必会带来利润。早人一步推行,亚马逊的人工智能将更快地获得
更多数据,进而更迅速地改进。亚马逊意识到,开始得越早,竞争对手就越难赶上。好的预测会吸引更多
的购物者,更多的购物者会产生更多的数据来训练人工智能,更多的数据会带来更好的预测,如此周而复
始,实现良性循环。太早采用新战略可能代价高昂,但出手太晚,对公司而言恐怕是致命的。(有趣的是
,一些初创公司已经在这么考虑了。Stitch Fix公司使用机器学习来预测客户想要什么样的衣服,并邮递包
裹给他们。客户不想要的话,就把衣服退还给公司。2017年,Stitch Fix基于这一模式成功进行了首次公开
募股——这或许是第一家高举“人工智能优先”大旗成功上市的初创公司。)
我们的观点不是亚马逊会这样做或者应该这么做,虽说我们也有个消息想告诉心存疑虑的读者们:早
在2013年,亚马逊就在美国拿到了一项“预测性购物”的专利。我们主要想指出,上调预测旋钮对战略很明
显有着重大影响。从这个例子来看,它将亚马逊的商业模式从先买后寄变成了先寄后买,激发了将产品退
货服务(包括组建卡车车队)垂直整合到运营当中的动力,使得投资时机更为紧迫。所有这一切,完全是
因为预测机器的旋钮上调了。
这对战略来说意味着什么呢?首先,针对你所在的行业和你对人工智能的应用,预测机器的旋钮上调
的速度有多快,程度有多高,你必须进行投资,以收集相关方面的情报。其次,你还需要对旋钮上调后带
来的战略选择进行投资,以发展出一套相关理论。
为开展这一“科幻小说式”的练习,请闭上眼睛,想象一下把自己的手指放到预测机器的旋钮上,默念
电影《摇滚万万岁》(This is Spinal Tap)里那句不朽的台词:把它转到11。(按照电影里的表现,吉他手
自豪地向同伴们展示了一台放大器,音量旋钮上的记号是0到11,而不是通常的从0到10。这里指:本质上
相同的东西,随着数量的累积,从量变进入了质变。——译注)
本书计划
预测机器对你所在的组织有什么样的战略意义?在这一切豁然开朗之前,你必须先打好基础。而这就
是我们这本书的结构,从地基开始打造一座金字塔。
我们在第一部分打基础,解释机器学习如何使预测变得更好。接着,我们将解释为什么这些新的进步
,与你在学校里学过的统计学以及你的分析师所做的统计工作不一样。然而,我们要考虑预测的一项关键
互补品,即数据,尤其是做出准确预测所需要的那种数据,以及怎样判断自己是否拥有此类数据。最后,我们深入探索预测机器的表现在哪些方面会变得比人类更优秀,而哪些方面机器和人一同工作可能会获得更准确的预测。
在第二部分,我们把预测的角色阐述为决策的输入端,并解释了另一要素——判断的重要性。人工智
能界迄今为止尚未给予这一要素足够的重视。预测通过减少不确定性使人们做出决策更加便利,而判断的
作用则在于分配价值。用经济学家的话来说,判断是一种用来确定损益(payoff)(payoff在博弈论中常被
译作“支付”或“收益”,但该词本身就有正负两义,故此译为“损益”较合适。——译注)、效用、回报或利润
的技能。预测机器最重要的影响是它提高了判断的价值。
第三部分着眼于实际问题。人工智能工具让预测机器变得有用,同时它也是预测机器执行特定任务的
实现手段。我们概述了三个步骤,帮助读者们了解什么时候开发(或购买)人工智能工具获得的投资回报
最高。有时候,这些工具能完美地跟现有工作流程相结合;另一些时候,它们促进了对工作流程的重新设
计。在这个过程中,我们会引入一种重要的辅助手段,以明确某个人工智能工具的关键特征。这一辅助手
段便是人工智能画布。
我们在第四部分转向战略。正如我们在亚马逊思想实验中所介绍,有一些人工智能将对任务的经济特
性产生深远影响,以至能够彻底改变相关的企业或行业。等到了那个时候,人工智能就将成为一个组织的
战略基石。一旦人工智能对战略产生影响,关注人工智能的人就会从产品经理和维运工程师变成豪华办公
室里的企业高层。有时候,人们很难提前判断一种工具能否产生如此强大的效果。比方说,人们第一次使
用谷歌的搜索工具时,几乎没有人预料到,它竟然彻底改变了媒体行业,并且成为这个全球最有价值的公
司的业务基础。
除了这些正面的机遇,人工智能也会带来系统性风险,除非你抢先行动,否则,它会冲击你的业务。
大众最近的讨论似乎着眼于人工智能对人性的危胁,而人工智能对组织造成的危害,人们给予的关注就少
得多。比方说,一些在人类生成的数据的基础上训练的预测机器已经“学会”了危险的偏见和刻板印象。
我们将在本书结束的第五部分拿出经济学家的工具包,探索对社会影响更为宽泛的若干问题,考查五
个最常见的人工智能议题:
1. 未来还存在工作岗位吗?当然。
2. 这会造成更多的不平等吗?有可能。
3. 少数大公司会控制一切吗?要看情况。
4. 各国是否会采用逐底竞争的方式制定政策,放弃人们的隐私和安全,好让本国企业获得竞争优势?
有些国家的确会这么做。
5. 世界末日会到来吗?不管它什么时候来,各位读者都还有足够时间从本书获益。
本章要点
※经济学为廉价预测的商业意义提供了清晰的观点。预测机器将被用来完成传统的预测任务(库存和
需求预测),以及解决新的问题(如导航和翻译)。预测成本的下降将影响其他东西的价值:提高互补品
(数据、判断和行动)的价值,降低替代品(人类预测)的价值。
※组织可以采用人工智能工具来协助执行当前战略,通过这种方式应用预测机器。当这些工具越来越
强大之后,它们就可能促进战略本身的转变。比方说,如果亚马逊可以预测购物者想买什么,就有可能从
如今的先买后寄模式变为先寄后买模式——顾客订购前就把商品送到家。这一转变也将让组织发生天翻地覆的变化。
※当各种机构致力于利用人工智能时,这些新战略带来的结果是,我们将面临一系列与人工智能对社
会的重大影响相关的新权衡。我们的选择将取决于人的需求和偏好,在不同的国家和文化中,这些选择定
然有所不同。我们将本书分为五部分,以反映人工智能在五个不同层面上的影响,从预测的基础一路上升
至社会的权衡:(1)预测,(2)决策,(3)工具,(4)战略,(5)社会。第一部分
预测第3章
预测机器的魔力
哈利·波特、白雪公主和麦克白这三个人物有什么共同点吗?他们都被预言或者预测所驱动。就连《黑
客帝国》这部看似讲智能机器的电影里,人类对预测的信念也是剧情的推力。不管是宗教还是童话,有关
未来的知识都会产生重大结果。预测影响行为。预测影响决策。
古希腊人敬奉的许多神谕宣示所都有着了不起的预言能力。有时候,这些预言中的谜语会捉弄提问人。举个例子,吕底亚国王克罗伊斯打算冒险攻打波斯帝国。国王不信任何特定的神谕,于是决定在寻求攻
打波斯的建议之前逐一检验这些神谕。他向每一座神谕宣示所派去了使者。在第100天,信使们被派去询问
克罗伊斯此刻正在做什么。来自德尔斐的神谕最为准确,于是国王请它降示有关攻打波斯的预言,并对此
深信不疑。(为提醒读者们注意到谨慎阐释预测的重要性,我们需要指出:德尔斐的神谕是,如果国王发
动攻击,一个大的帝国将被毁灭。于是,国王大胆地攻打了波斯,可令他震惊的是,被毁灭的竟是他自己
的吕底亚帝国。从技术上说,预言说得没错,只是遭到了误读。)
跟克罗伊斯的例子一样,预测可以是关于当下的。我们预测当前的信用卡交易是合法还是欺诈,医学
影像中的肿瘤是恶性还是良性,以及出现在苹果手机摄像头里的是不是它的主人。尽管“预测”的拉丁语词
源“praedicere”的意思是“事先知道”,但我们对预测的文化解读强调的是看到本来看不见的信息,不管这信
息是来自过去、现在还是未来。水晶球也许是人们最熟悉的魔法预言的象征了。我们常把水晶球跟“算命师
预测某人将来的财运或爱情”联系起来,但在《绿野仙踪》里,水晶球让多萝西看到了当下的爱姆婶婶。这
给我们带来了预测的定义:
预测是填补缺失信息的过程。
预测将运用你现在掌握的信息(通常称为“数据”),来生成你尚未掌握的信息。
预测的魔力
几年前,阿维(本书作者之一)注意到自己的信用卡在拉斯维加斯赌场产生了一笔大得异乎寻常的交
易。他本人并不在拉斯维加斯。他只去过那儿一次,而且是很久以前;赌博注定要输,以他的经济学家世
界观而言,这毫无吸引力。他跟信用卡服务商展开了漫长而艰难的拉锯式对话,终于,服务商取消了交易
,给他换了卡。
最近,又出现了一次类似的情形。有人用阿维的信用卡买了东西。但这一次,阿维没有在对账单里看
到这笔交易,也没大费口舌地跟礼貌但立场坚定的客户代表解释。相反,他接到了服务商事后主动打来的
电话,对方说他的卡遭到盗用,新卡片已经在寄来的路上了。
信用卡服务商根据阿维的消费习惯和其他大量数据准确地推断出涉事交易属于欺诈。信用卡公司很有
信心,调查期间甚至没有冻结他的信用卡。而且,就像变戏法一样,他用不着做任何事,公司就为他发放了替换的卡。当然,信用卡服务商并没有水晶球。它拥有的是数据和良好的预测模型——一台预测机器。
万事达信用卡公司的企业风险和安全部门总裁阿杰伊·巴拉(Ajay Bhalla)表示,更好的预测可以减少盗刷
,“解决消费者遭到误拒的重大痛点”。
商业应用场景完全符合我们对预测的定义,即填补缺失信息的过程。信用卡网络发现,(要判断盗刷)了解前一笔信用卡交易是否盗刷是很有用的。信用卡网络运用过去盗刷(和非盗刷)交易的信息来预测
最近一笔交易是不是盗刷。如果的确是盗刷,那么,信用卡服务商可以冻结该卡之后的交易,如果预测来
得足够及时,甚至当前这一笔交易也可以冻结。
这一概念(将一种信息转化为另一种信息)是人工智能近期取得的一大进步——翻译的核心。翻译语
音是遍布于所有人类文明的一个目标,连流传了数千年的巴别塔故事里也有它的身影。从古至今,要实现
自动化翻译语言就得雇用一位语言学家(精通语言规则的专家)来解析规则,并将其转换成可编程的形式。比方说一条西班牙短语,除了逐字替换,你还需要理解如何调整名词和形容词的顺序,这样才能让它成
为能被读懂的英文句子。
然而,人工智能的最新进展使我们可以把翻译问题转换为预测问题。我们可以从谷歌翻译质量的突飞
猛进中看到预测应用于翻译领域后体现出的神奇特质。欧内斯特·海明威的《乞力马扎罗的雪》(The Snow
s of Kilimanjaro)一文的开头十分优美:
乞力马扎罗是一座海拔19710英尺、常年积雪的高山,据说它是非洲最高的一座山。(Kilimanjaro is a
snow-covered mountain 19,710 feet high,and is said to be the highest mountain in Africa.)
2016年11月的一天,东京大学计算机科学系教授历本纯一(Jun Rekimoto)通过谷歌把海明威这篇经典
小说的日文版翻译成英文,内容如下:
乞力马扎罗是19710英尺山被雪覆盖的,据说是非洲最高山。(Kilimanjaro is 19,710 feet of the mo
untain covered with snow,and it is said that the highest mountain in Africa.)
第二天,谷歌的译文变成了:
乞力马扎罗是一座19710英尺的山,常年积雪,据说是非洲最高的山。(Kilimanjaro is a mountain of
19,710 feet covered with snow and is said to be the highest mountain in Africa.)
差异很明显。一夜之间,谷歌的译文就从一看就知道是机器翻译的笨拙文本,变成了一句连贯的话,如同一个人前一天还只能拿着字典磕磕巴巴地讲话,第二天就能流利地运用两种语言了。
诚然,谷歌的译文并未达到海明威的高度,但进步也很了不起。巴别塔仿佛重新建起来了。而且,这
一改变不是出于偶然或者碰运气。谷歌利用我们这里重点介绍的人工智能的最新进步,更新了自家翻译产
品背后的引擎。具体而言,谷歌的翻译服务现在依靠深度学习来提高预测效率。
把英语翻译成日语,其实就是要预测日语里哪些词汇和短语与英语相匹配。有待预测的缺失信息是,日语单词的集合及其正确的顺序。从一门外语获取数据,然后按照你熟悉的语言中的正确顺序来预测单词
的集合,这样你就能够理解另一门语言了。要是整个过程做得足够好,你兴许根本就意识不到这是翻译过来的话。
企业马不停蹄地将这一神奇的技术付诸商业用途。例如,中国已有五亿多人使用科大讯飞开发的深度
学习服务,使用自然语言进行翻译、转录和交流。房东用它跟使用其他语言的租客沟通,医院的患者用它
跟机器人沟通以寻求指示,医生用它指导患者服药,司机用它跟其他车辆联络。人工智能被用得越多,收
集的数据也越多,学习得越多,它的效果也就越好。有了如此多的用户,人工智能将突飞猛进。
预测比过去好了多少
谷歌翻译的变化说明了机器学习(深度学习是其子领域)怎样显著降低了质量调整的预测成本。从运
算能力的角度来看,谷歌现在可以用相同的成本提供更高质量的翻译。生成相同质量的预测所需的成本大
幅下降。
预测技术的创新正对传统的预测领域产生影响,比如盗刷检测。信用卡盗刷检测已经得到了很大改善
,在用户注意到问题之前,信用卡公司就检测并解决盗刷了。不过,这种改善仍然是渐进式的。20世纪90
年代后期,当时最先进的方法能抓住大约80%的盗刷交易。(请注意,这些比较并不完全对等,因为它们
使用的是不同的训练数据。不过,人们对准确率的宽泛看法是站得住脚的。)这一比值在2000年提高到了9
0%~95%,如今提高到了98%~99.9%。最后一步跨越来自机器学习,从98%到99.9%的变化意味着天翻地
覆的转变。
从98%到99.9%的变化看似渐进,但如果犯错代价高昂,哪怕是小小的变化也有重要意义。准确率从85
%提高到90%,意味着失误率降低了13。从98%提高到99.9%,意味着失误率降到了从前的120。20倍的改
进似乎已经不算是渐进式的了。
预测成本的下降让人类的许多活动发生了巨大的变化。正如人们将第一批运算首先应用于解决普查表
、弹道表等熟悉的数学问题上,在机器学习带来的廉价预测上,其第一批应用中有不少被用来解决经典的
预测问题。除了盗刷检测,还包括信用评级、健康保险和库存管理。信用评级涉及预测某人偿还贷款的可
能性。健康保险涉及预测某人会花多少钱在医疗保健上。库存管理涉及预测仓库在某一天存有多少物品。
最近,一类全新的预测问题浮出水面。在智能机器技术取得最新的进展前,许多事几乎不可能做到,包括物体识别、翻译和药物研发。例如,ImageNet挑战赛是一项高度曝光的年度赛事,比赛内容是让机器
预测图像中物体的名称。哪怕是人类,预测图像中的物体也并非易事。ImageNet的数据包含了1000个类别
的物体,其中包括各种狗及其他外形相似的图像。有时候很难辨别藏獒与伯恩山犬,或保险柜与密码锁之
间的区别,哪怕是人类,犯错的概率也在5%左右。从2010年赛事举办的第一年到2017年的最后一场竞赛,预测以极快的速度进步。图3-1显示了每年比赛
获胜者的准确率。纵轴衡量的是错误率,因此数值越低的表现越好。2010年,最出色的预测机器也会有28
%的犯错率。2012年,参赛者首次使用了深度学习,错误率降至16%。如普林斯顿大学的教授兼计算机学家
奥尔加·鲁萨科夫斯基(Olga Russakovsky)所言:“2012年实际上是准确率实现重大突破的一年,但它同时
也对已经出现数十年的深度学习模型的概念做了证明。”算法继续迅速改进。到2015年,一支参赛队伍首次
超越了人类。到2017年,38支队伍里的绝大多数表现都比人类好了,而且最优秀的队伍犯错率还不到人类
的一半。机器能够比人类更好地识别这类图像了。
廉价预测带来的结果
目前这一代人工智能与科幻小说里的智能机器相去甚远。预测并没有带给我们《2001太空漫游》里的
哈尔、《终结者》里的天网或是《星球大战》里的C-3PO。如果现代人工智能仅仅是预测,为什么人们还这
么大惊小怪呢?原因在于,预测是一项十分基本的生产资料。你兴许并未意识到,但预测是无所不在的。
我们的商业活动和个人生活里充满了预测。我们的预测往往化身为决策的输入条件。更好的预测意味着更
好的信息,更好的信息意味着更好的决策。
用谍报活动的层面来表达,预测即情报(情报一词原文为intelligence,也有“智能”的意思,这里是一语
双关。——译注),即“得到有用的信息”。机器预测就是人工生成有用信息。智能(情报)很重要,我们
用信用卡盗刷的例子说明更好的预测会带来更好的结果。随着预测成本的不断下降,我们发现它对更大范
围的额外活动大有用处。在这个过程中,它使各种各样从前难以想象的事情成为可能,比如机器翻译。
本章要点
※预测是填补缺失信息的过程。预测将运用你现在掌握的信息(通常称为“数据”),生成你尚未掌
握的信息。除了生成关于未来的信息,预测还可以生成关于现在和过去的信息。比如,将信用卡交易归为盗刷,将医学影像中的肿瘤分类为恶性,或是判断握着苹果手机的人是不是机主,这些都是预测的用武之
地。
※预测准确度的小幅提高带来的影响,可能具有迷惑性。例如,准确度从85%提高到90%,其幅度乍看
起来是从98%提高到99.9%的两倍(前者提高了五个百分点,后者只提高了两个百分点不到)。然而,前者意
味着错误率从15%降到了10%(降到了从前的23),后者意味着错误率从2%降到了0.1%(降到了从前的120)。在某些情况下,错误率降到了从前的120意味着发生了天翻地覆的变化。
※填补缺失信息,表面上看起来是一个平淡无奇的过程,却让预测机器变得神奇起来。这在机器视觉
(物体识别)、导航(无人驾驶)和翻译领域已经得到实现。第4章
为什么叫它智能
1956年,一群学者在新罕布什尔州达特茅斯学院会面,开辟了一条人工智能研究的路径。他们想看看
能不能为计算机编写程序,使之参与认知思维,做玩游戏、证明数学定理一类的事。他们还仔细思考了计
算机能使用什么样的语言和知识来描述事物。他们的努力包括给计算机不同选项,让它们选出其中的最优
者。研究人员对人工智能的可能性持乐观态度。他们向洛克菲勒基金会募资时这样写道:
我们将致力于探索,怎样让机器使用语言,组织抽象的表达和概念,解决如今只有人类才能解决的各
种问题,并自我改进。我们认为,一群精心挑选出来的科学家于某个夏天聚在一起携手合作,便可以在一
个或多个上述问题上取得可观进展。
事实证明,这一议程与其说切实可行,不如说是对未来的展望。毕竟,20世纪50年代的计算机速度还
不够快,无法实现学者们的设想。
在最初的研究声明发表之后,人工智能在翻译方面表现出了初步进展,但进展速度很慢。适用于特定
环境(例如,有人尝试设计人造治疗师)的人工智能成果无法推而广之。20世纪80年代早期,工程师们希
望通过精心编程设计的专家系统来复制医学诊断等高技能,他们虽然取得了一些进展,但此类系统的开发
费用极高,而且用起来十分烦琐,无法应对各种各样的例外和可能,因此,人们便进入了所谓的“人工智能
寒冬”。
然而,冬天似乎已经结束了。更多的数据、更好的模型和更强大的计算机促成了机器学习最近的发展
,改善了预测。大数据收集和存储的进步为新的机器学习算法提供了素材。相较从前的统计学,新的机器
学习借力于与之更适配的处理器,明显变得更加灵活,能生成更好的预测——好到有人忍不住把计算机科
学的这一分支称作“人工智能”。
预测客户流失
更好的数据、模型和计算机是预测取得进步的核心。为了理解它们的价值,让我们来思考一个古已有
之的预测问题:预测营销人员口里的“客户流失”。对许多企业来说,获取客户是代价很高的一件事,故此
,客户流失带来的损失很大。一旦获得了客户,企业就会通过减少流失率来充分利用获取成本。在保险、金融、电信等服务行业,控制客户流失大概也是最重要的营销活动。减少客户流失的第一步是识别有着流
失风险的客户。公司可以使用预测技术来做到这一点。
历史上,预测客户流失的核心方法是一种被称为“回归”的统计技术。有一些研究聚焦于改进回归技术。研究人员在学术期刊和实践中提出并检验了数百种不同的回归方法。
回归是做什么的?它根据过去发生事件的平均值来寻找一种预测。举例来说,如果你手里只有上周每
天的天气情况,但要判断明天会不会下雨,那么,你最好有一个平均值。如果过去七天里有两天下了雨,你兴许会猜测,明天下雨的概率大约是27或者29%。过去,我们对预测的大部分知识都来自构建的模型,这些模型可纳入关于环境的更多数据,更好地算出平均值。
我们的做法是使用所谓的“条件均值”。比如,如果你住在加利福尼亚州北部,你大概已经知道,下不
下雨取决于季节:夏天的可能性低,冬天的可能性高。如果你观察到此地冬天里任何一天降雨的概率是25
%,夏天是5%,那么,你不会以为明天下雨的概率是两者的平均值,即15%。为什么呢?因为你知道明天
属于冬季还是夏季,故此,你会根据条件来做出评估。
根据季节调整预测只是我们根据条件对平均值进行调整的方法之一(不过,这是最受零售业欢迎的一
种方法)。我们可以根据当天的时间、污染情况、云量、海洋温度或任何其他可用信息来计算平均值。
我们甚至有可能要同时根据多个条件进行调整:如果今天下了雨,今天属于冬季,西边200英里外在下
雨,南边100英里外是晴天,地面很湿,北冰洋气温很低,风正从西南方吹过来,风速是每小时15英里——
那么,明天会下雨吗?这样的运算很快就会变得难以处理。光是计算这七类信息的平均值,就会带来128种
不同的组合。添加更多类型的信息,组合数量也会随之呈指数倍增加。
在机器学习之前,多元回归提供了一种处理多种条件的有效方法,而且无须计算数十、数百或数千种
不同条件下的平均值。回归将运用数据,并尝试找到那个将预测失误最小化、“拟合优度”最大化的结果。
谢天谢地,这个术语在数学上比在词句上表达得更精确。回归将预测的平均失误控制到了最低限度,对待大失误比对待小失误更加严厉。这是一种强大的方法,尤其是当数据集相对较小,同时它能很好地感
知什么因素对数据有用的时候。例如,有线电视订阅用户的流失有可能取决于人们看电视的频率;如果他
们不再看电视了,他们很可能就会停止订阅有线电视服务。
除此之外,回归模型渴望产生无偏差的结果,所以,要是预测得足够多,这些预测就平均概率而言是
完全正确的。虽然我们喜欢无偏差的预测多过有偏差的预测(比如系统性地高估或低估一个值),但无偏
差的预测也并非完美。我们可以用一个古老的统计学笑话来说明这一点:
一位物理学家、一位工程师和一位统计学家外出狩猎。他们走进森林,发现空地上有一头鹿。
物理学家计算了目标的距离、子弹的速度和落点,调整,开火——结果,他朝左打偏了5英尺,错过了
目标。
工程师一脸沮丧。“你忘记算上风了。我来试试。”他舔了舔手指,判断了风速和方向,一把夺过步
枪并开了火——结果,他朝右打偏了5英尺,再次错过了目标。
突然,一枪未开的统计学家欢呼道:“噢耶!我们打中了!”
准确无比的平均值可能在实际中每次都出错。回归有可能一直导致要么左偏几英尺,要么右偏几英尺。它意味着,就算取平均值后得出了正解,实际也可能一次都没打中。
与回归不同,机器学习的预测可能平均起来是错误的,但当预测失误的时候,它并不会失误太多。按
统计学家的说法,允许偏差,以求减少方差。(以牺牲平均数的准确,来换取单次预测的准确。——译注)
机器学习和回归分析之间一个重要的区别是新技术的开发方式。发明一种新的机器学习方法时还需证
明它在实践中能运作得更好。相反,发明一种新的回归方法,首先要证明它在理论上是有效的。强调实践
效果,给了机器学习创新者更多的实验空间,哪怕他们的方法生成的估计结果平均来看不正确或存在偏差。在这种自由实验的推动下,机器学习借助过去十年的丰富数据和高速计算机实现了快速的进步。
从20世纪90年代末期到21世纪初期,那些利用机器学习预测顾客流失的实验仅取得了有限的成功。虽
然机器学习的方法有了稳定的进步,但回归的方法依然表现得更好。数据仍然不够丰富,计算机的速度也
不够快,无法使其利用机器学习可以做到的事情。
例如,2004年,杜克大学的天睿中心(Teradata Center)举办了预测客户流失的数据科学比赛。当时,这样的比赛很不寻常。任何人都可以提交作品,一旦获奖,即可获得现金奖励。获奖作品使用的是回归模
型。一些机器学习的方法表现很好,但日后推动人工智能革命的神经网络方法却表现不佳。到2016年,一
切都改变了。使用机器学习和(神经网络)深度学习来预测流失的模型整体比其他所有方法表现得都好。
是什么发生了改变呢?首先,数据和计算机终于足够好,让机器学习占了上风。20世纪90年代,建立
足够大的数据库很难。比方说,一套经典的流失预测研究只使用了650个客户的数据,不到30个变量。
到2004年,计算机的处理和存储都有了进步。在杜克竞赛中,用来训练的数据集包含了数万客户的数
百个变量的信息。有了这么多的变量和客户,机器学习方法逐渐能跟回归一较高下了。
如今,研究人员根据数千个变量和数百万客户展开流失预测。计算能力的提高意味着可以处理大量的
数据,除了数字,还包括文本和图像。例如,在移动电话流失模型中,研究人员除了使用标准变量(如账
单额度大小和支付准时性)之外,还调用了通话记录数据(以小时为单位)。
利用可用数据,机器学习方法也变得更好了。在杜克大学的比赛中,成功的关键因素是,如何从数百
个可用变量中进行选择,以及选择使用哪一种统计模型。当时最好的方法,不管是机器学习还是经典的回
归,都通过结合直觉与统计检定来选择变量和模型。现在,机器学习方法(尤其是深度学习方法)允许模
型具备灵活性,这意味着变量彼此之间可以按照意想不到的方式相结合。在开始计费的月初就积累了大量
通话时间、高额电话账单的人比到月末才累积大量通话时间的人流失的可能性更低。此外,周末异地通话
、付费时间迟,还爱发大量短信的人尤其容易流失。这样的结合难以预料,但对预测有极大的帮助。由于
难以预料,建模人员在使用标准的回归模型进行预测时无法将这些结合后的信息包含在内。机器学习把哪
一些结合与交汇事关重要的选择权交给了机器,而不是程序员。
机器学习(具体而言也是深度学习)方法的改进,意味着可以有效地将可用数据转化为对客户流失的
准确预测。现在,机器学习方法明显优于回归和其他各种技术。
超越客户流失
除了客户流失领域,机器学习还改善了大量其他环境下(从金融市场到天气)的预测。
2008年的金融危机是回归式预测方法的惊人失败。对担保债务凭证(collateralized debt obligation,简称
CDO)违约率的预测部分地推动了金融危机。2007年,标准普尔评级机构预测,AAA级CDO五年内无法履
约的概率不到1800。五年后,14以上的CDO未能履约。哪怕有着丰富的历史违约数据,最初的预测仍然错
得离谱。
失败的原因不是数据不足,而是分析师怎样使用这些数据来生成预测。评级机构的预测是基于多个回
归模型,这些模型假定不同市场的房价相互之间无关联。事实证明,这样的假设是错的,不仅2007年是这
样,从前也一样。一旦将多个住房市场同时遭到冲击的可能性包含进去,你在CDO上亏损的可能性也会一
路升高——哪怕你的房产分布在美国多个城市。分析师们根据自己认为重要的假设(以及它们为什么重要)来构建回归模型——这些看法对机器学习
来说都没有存在的必要。机器学习模型尤其擅长确定哪些可能的变量效果最好,识别出哪些(出人意料的)事情重要,哪些事情不重要。如今,分析师的直觉和假设没那么重要了。通过这种方式,机器学习可以
根据无法预知的相关要素进行预测,包括拉斯维加斯、菲尼克斯和迈阿密的房价可能会同时出现涨落。
如果仅仅是预测,为什么叫它“智能”
机器学习的最新进展让我们利用统计学进行预测的方式发生了彻底的转变。把人工智能和机器学习的
最新发展视为“传统统计学的加强版”是很诱人的想法。如果最终的目标是生成预测以填补缺失的信息,它
们从某种意义上说的确如此。除此之外,机器学习的过程还涉及寻找一种最小化失误的解决方案。
那么,是什么令机器学习成为一种配得上“人工智能”这一标签的变革型计算技术呢?在某些情况下,预测的效果好到我们可以直接运用它,而不需要应用基于规则的逻辑。
有效的预测改变了计算机编程的方式。传统的统计方法和“如果-那么”语句的算法都无法很好地在复杂
环境下运行。想识别一组照片中的一只猫?猫有各种各样的颜色和纹理。它们可能是站着、坐着、躺着、跳跃,或看起来一脸不悦。它们可能在室内,也可能在室外。情况很快变得复杂起来,无法限定条件。因
此,哪怕仅仅想达到看得过去的识别效果,也需要大量谨慎的考量。这还仅仅是识别一只猫,如果我们想
要用一种方法来描述照片中的所有物体呢?我们需要为每一物体单独加以限定。
支撑近年来进步的技术基石叫作“深度学习”,它依靠一种“反向传播”的方法。它采用与大脑极为类似的
方式,通过例子来学习(而能否用人工神经元模拟真实神经元不过是这项有用技术的有趣旁枝),避免了
各种限定条件带来的麻烦。如果你想让孩子知道哪个单词对应着“猫”,那么,每当你看见一只猫,你就说
出这个单词。机器学习基本上也一样。你给它馈进大量带有“猫”标签的猫照片,以及大量没有猫也不带“猫”
标签的照片,机器就会学习怎样识别与“猫”这一标签相关的像素图案。
如果你有一系列猫和狗的照片,猫和四足物体之间的关联会强化,但与狗的关联也会强化。无须详细
说明,只要你馈进数百万张有着不同图案和标签的照片(包括画面里没有狗的照片),机器都会发展出诸
多联想,并学会区分猫和狗。
许多问题已经从算法问题(“猫有什么特点?”)转变成了预测问题(“这一缺失了标签的图像是否跟我
从前见过的猫有着相同特点?”)。机器学习使用概率模型来解决问题。
那么,为什么很多技术人员将机器学习称为“人工智能”呢?因为机器学习的输出(即预测)是智能的
一个关键组成部分,预测的准确性会随着学习而改进,而较高的准确性能让机器执行现今与人类智能相关
的任务(如物体识别)。
杰夫·霍金斯(Jeff Hawkins)在《人工智能的未来》(On Intelligence)一书中率先提出预测是人类智
慧的基础。这一理论的实质是,作为创造力和生产力增长的核心,人类的智慧是靠大脑使用记忆进行预测
来实现的:“我们在各个感官之间,进行连续的低级别预测,但这还不是全部。我想提出的是一个更有力的
命题,预测不仅仅是大脑在做的某一件事情,它是大脑皮层的主要功能,也是智能的基础。皮层是预测的
器官。”
霍金斯认为,我们的大脑不断地预测我们即将体验到的事情——我们会看到什么,感受到什么,听到
什么。随着我们的成长和成熟,大脑的预测越来越准确,预测往往会变成真的。然而,要是预测未能准确地昭示未来,我们会注意到异常,并将这一信息反馈到大脑,让大脑更新算法,进行学习,对模型做更进
一步的优化。
霍金斯的研究存在争议。他的观点在心理学界引发了争论,他强调皮层是预测机器的模型,许多计算
机科学家对此断然否定。最严格意义上的“人工智能通过图灵测试”的概念(一台机器能骗过人,让人相信
机器其实是人类)仍然离现实很远。目前的人工智能算法还不能进行推理,人们也很难理解人工智能预测
的来源。
无论他的基础模型是否合适,霍金斯将预测视为智能的基础,这对理解人工智能近年来的变化带来的
冲击很有用处。这里,我们强调的是预测技术的巨大进步带来的结果。1956年,达特茅斯会议上学者们提
出的许多愿望如今马上就要实现了。通过各种方式,预测机器能够“使用语言,组织抽象的表达和概念,解
决如今(1955年)只有人类才能解决的各种问题,并自我改进”了。
我们并不想贸然揣测这一进步是否预示着通用人工智能、“奇点”或天网的降临。不过,如你所见,即
便只是聚焦于预测,未来几年仍能出现了不起的变化。一如计算机促成的廉价运算有力地带来了商业和个
人生活的巨大变化,廉价预测也将带来同样深远的转变。
总而言之,不管它是不是智能,计算机从确定性编程到概率性编程的进步都是一项重要的阶梯函数式
的转变(尽管它跟社会科学和物理科学取得的进步是一致的)。哲学家伊恩·哈金(Ian Hacking)在《驯服
偶然》(The Taming of Chance)一书中说,19世纪之前,概率属于赌徒的行当。但到了19世纪,政府人口
普查数据的兴起将新兴的概率数学应用到了社会科学。20世纪,我们对物理世界的理解出现了根本性的重
组,从牛顿式世界观的确定性转向量子力学的不确定性。也许,21世纪计算机科学最重要的进步与社会科
学和物理科学过去的进步是互相呼应的,即人们意识到,以数据为基础、从概率意义上建立起结构的算法
效果最好。
本章要点
※机器学习这一科学跟统计学的目标不同。统计学强调的是平均值的正确性,机器学习却对此并无要
求,相反,它的目标是操作的有效性。预测可能会出现偏差,但只要够好就行(在运算力强大的计算机中
可以实现)。这使得科学家们可以利用过去十年的丰富数据和高速计算机自由地进行尝试,以快速推动改
进。
※传统的统计方法需要阐述假设,或至少阐述人对模型规范的直觉。机器学习不仅不需要事先指定进
入模型的内容,还能够适应更加复杂、有着更多互动变量的模型。
※机器学习的最新进步通常被称为人工智能的进步,因为:(1)以这一技术为基础的系统会随着时间
的推移不断学习和改进;(2)这些系统在某些条件下可产生比其他方法产生的更准确的预测,一些专家认
为预测是智能的核心;(3)这些系统提高了预测的准确性后,它们便能够执行从前被认为专属于人类智能
领域的任务,如翻译和导航。对预测和智能之间的联系,我们仍然持不可知的态度。预测的进步是否代表
了智能的进步,我们对这一问题并无特定立场,我们的结论也不依赖于这样的立场。我们关注的是预测成
本下降(而非智能成本下降)带来的结果。第5章
数据就是新一代的石油
2013年,谷歌的首席经济学家哈尔·瓦里安(Hal Varian)开导可口可乐公司的罗伯特·戈伊苏埃塔(Rob
ert Goizueta)说:“10亿小时之前,现代智人出现了。10亿分钟之前,基督教诞生了。10亿秒钟前,IBM的
个人电脑上市了。10亿次谷歌搜索之前……是今天早上。”谷歌并不是唯一一家拥有海量数据的公司。从Fa
cebook、微软等大型公司到地方政府甚至初创公司,数据收集都变得比以往更廉价、更容易了。这些数据
具有价值。数十亿的搜索量意味着,谷歌有了数十亿条可供改善服务的数据线索。有些人把数据称为“新一
代的石油”。
预测机器依赖数据。越来越好的数据带来越来越好的预测。从经济角度来说,数据是预测的关键互补
品。随着预测变得愈发廉价,它的价值水涨船高。
数据在人工智能中扮演着三种角色。首先是输入数据,它被馈进算法,用于生成预测。其次是训练数
据,它被用来生成最初的算法。训练数据用于训练人工智能,让后者得以在现实环境下进行良好的预测。
最后一种是反馈数据,通过经验来改进算法的表现。在某些情况下,这三种角色存在大量重合,同一批数
据甚至能身兼三职。
但获取数据的成本可能很高。因此,投资时有必要权衡的是以下两者:更多数据带来的好处与获取更
多数据所付出的成本。为了做出正确的数据投资决策,你必须理解预测机器是怎样使用数据的。
预测需要数据
在新近的人工智能热潮兴起之前,有过一轮大数据热。过去20年,数据的种类、数量和质量均有大幅
提升。图像和文本如今都是数字形式了,机器可以对其进行分析。传感器无处不在。大数据热的基础是,人们希望数据能够帮助减少不确定性,以及对正在发生的事情拥有更多了解。
以检测人类心率变化的传感器的进步为例。多家有着“医学味”十足名字的公司和非营利组织(比如Aliv
eCor(2011年成立的一家医疗设备和人工智能的公司,向消费者销售移动设备端的硬件和软件,提供心电
图实时检测等功能。——译注)和Cardiio(Cardiio可通过前置摄像头检测使用者的心率。——译注))都
在开发使用心率数据的产品。初创公司Cardiogram(其开发的软件通过可穿戴设备和智能手机收集的睡眠和
运动数据预测用户的健康状况。——译注)设计了一款苹果手机应用程序,使用苹果手表的心率数据生成
了大量信息:使用该款程序,用户可按秒测量心率。用户可以查看一天当中,自己的心率什么时候会达到
巅峰,又或者一年内(甚至十年内),心率是否有所加快或放缓。
但这些产品的潜在力量来自大量数据与预测机器的结合。学术界和工业界的研究人员都指出,智能手
机可以预测不规则的心律(医学上叫作“心房颤动”)。因此,依靠各自的预测机器,Cardiogram、AliveCor
、Cardiio和其他公司正在开发利用心率数据辅助诊断心脏疾病的功能。一般的方法是,使用心率数据预测
如下未知信息:特定用户是否心律异常。
没受过医学专业训练的消费者从原始数据里是看不到心率数据与心律异常之间的关联的。而Cardiogram可以运用深层神经网络探测到心律异常,准确率高达97%。大约有14的中风是心律异常导致的。有了更好
的预测,医生便可提供更好的治疗。某些特定药物可用来预防中风。
为此,每个消费者必须提供自己的心率数据。没有个人数据,机器无法预估当事人的风险。预测机器
与个人数据相结合便可预测此人心律异常的概率。
机器怎样从数据中学习
当前这一代的人工智能技术被称为“机器学习”是有原因的。机器从数据中学习。就心率监测仪而言,根据心率数据预测心律异常(以及中风概率提高的可能性),预测机器要先学习数据跟心律异常的实际发
病率有着怎样的相关性。为此,预测机器需要将来自苹果手表的输入数据(统计学家称之为“自变量”)与
心律异常信息(“因变量”)结合起来。
要让预测机器学习,心律异常信息必须来自同一个向苹果手表提供心率数据的群体。因此,预测机器
需要多个心律异常者的数据,以及他们的心率数据。重要的是,它还需要许多心律无异常人士的数据,及
其心率数据。接着,预测机器比较心律正常者和异常者的心率图。有了这样的比较,就可以进行预测。如
果新患者的心率图与心律异常者提供的“训练”样本更为接近,那么,机器就会预测这一患者有着心律异常
的问题。
像不少医疗应用一样,Cardiogram与学术研究人员进行了合作,后者通过在研究中监测6000名用户的心
率收集到了数据。在6000名用户里,约有两百人被确诊患有心律不齐。故此,Cardiogram所做的就是收集来
自苹果手表的心率图数据并与研究数据进行对比。
此类产品在上市之后仍会继续改进预测的准确度。预测机器需要有关预测是否准确的反馈数据。因此
,它需要用户中心律异常的发病率的数据。该机器将这些数据与心脏检测的输入数据相结合,生成反馈,并不断提高预测的准确度。
不过,获取训练数据也可能是件很棘手的事情。为了预测同一组项目(如本例中的心脏病患者),你
除了需要目标结果的信息(心律异常),还需要有助于在新条件下预测该结果的信息(心率监控)。
若要预测未来事件,就更具有挑战性了。你只能把想要预测之时已知的信息馈进预测机器。比方说,假设你正想购买明年自己最心爱运动队的季票。在多伦多,大多数人会购买多伦多枫叶冰球队的季票。你
显然希望自己去观看比赛的时候,球队获胜,而不是输掉。你认为,球队至少要能赢半数以上的比赛,购
买季票才划算。为了做出这个决定,你需要预测球队获胜的次数。
就冰球而言,进球最多的球队获胜。所以,你认为进球多的球队能赢,进球少的球队往往会输。你决
定为预测机器提供过往赛季的数据,包括每支球队的进球数,每支球队对手的进球数,以及每支球队的获
胜次数。你将这些数据提供给预测机器,发现这的确是预测获胜次数的绝佳指标。于是,你打算使用这些
信息来预测明年球队的获胜次数。
很可惜,你做不到。你一筹莫展,你没有明年球队进球数的信息,所以,你没法用这些数据来预测球
队的获胜次数。你确实拥有去年的进球数据,但它没用,因为你的训练模式是让预测机器从当前年份的数
据中进行学习的。
为了做出这一预测,你需要掌握做出预测那一刻手头将会拥有的数据。你也可以使用前一年的进球数
来重新训练预测机器,让它预测今年的胜算。你还可以使用其他信息,比如前一年的获胜次数,球员的年龄,他们在冰上的过往表现。
许多商业人工智能应用程序都具有这种结构:将输入数据和结果指标结合起来创建预测机器,接着使
用来自新情况的输入数据来预测该情况下的结果。如果你能获得实际结果的数据,那么你的预测机器就能
通过反馈不断学习。
关于数据的决策
数据的获取成本往往很高,但没有它预测机器便无法运行。预测机器需要数据来创造、运行和改进。
因此,你必须对所需数据的规模和范围做出决定。你需要多少不同类型的数据?为对机器进行训练,你需要多少种不同的对象?需要多长时间收集一次数据?类型多,对象多,频率高,意味着成本更高,但
也可能带来更高的收益。斟酌这一决定时,你必须仔细判断你想要预测的是什么。特定的预测问题能告诉
你到底需要些什么。
Cardiogram想要预测的是中风。它使用心律异常(这是经过医学验证的)作为指标。(我们不知道Card
iogram这款软件能否成功。但我们可以肯定,智能手机和其他传感器将进一步应用到医学诊断上。)一旦
设定了这个预测目标,它需要的就无非是每个使用这款应用程序的人的心率数据。它或许还可以使用睡眠
、身体活动、家庭病史和年龄等相关信息。提出一些问题来收集年龄和其他信息之后,它只需要一台能够
准确地测量心率的设备。
Cardiogram还需要训练数据:它的训练数据涵盖了6000人,其中一小部分人心律异常。尽管有各式各样
的传感器以及关于用户的具体信息可供使用,但Cardiogram只需要收集大多数用户的极少量信息。它只需要
得到用户心律异常的信息就可以训练自家的人工智能。这样一来,变量的数量就相对少了。
为了做出好的预测,机器的训练数据必须涵盖足够多的用户(或分析单位)。所需用户的数量取决于
两个因素:首先,“信号”相较“噪声”有多可靠;其次,预测的准确度必须达到多高才具备可用性。换句话说
,所需用户的数量取决于我们是否期望心率能准确地预测心律异常,以及一旦出错,代价有多大。如果心
率是一个强预测指标,而且出了错也没什么大不了的,那么我们只需要几个人就够了。如果心率是一个弱
预测指标,又或者,每一次错误都有可能把用户置于危险境地,那么,我们就需要成千甚至数百万的用户
数。Cardiogram在初步研究中使用了6000人的数据,其中有200人心律异常。随着时间的推移,它通过软件
用户是否出现心律异常的反馈来进一步收集数据。
这6000人从哪里来?考虑到对预测的可靠性和准确性的要求,数据科学家有绝佳的工具可评估所需数
据量。这些工具叫作“功效计算”(power calculations),它们能告诉你需要分析多少个单元才能生成有用的
预测。(对这类研究而言,6000是个相对较小的数据单位。主要是出于这个原因,研究被列为“初级”。这
一数据足以支持Cardiogram最开始的目的,因为它是一项初级研究,意在进行概念验证。它不会危及生命。
要让结果适用于临床,恐怕还需要多得多的数据。)需要加以管理的要点是,你必须有所权衡:更准确的
预测需要更多的单元以供研究,而且更多的单元有可能代价不菲。
Cardiogram需要高频率的数据收集。它的技术以苹果手表逐秒收集的心率数据为基础。它需要这么高的
频率,因为心率在一天当中不同时间会有所不同,而且正确的测量需要反复评估,以判断所测得心率是不
是所研究用户的真实值。为发挥作用,Cardiogram的算法运用的是可穿戴设备提供的稳定测量流,而不是患
者只能在医生诊室里进行测量得到的那一个结果。收集这些数据需要一笔昂贵的投资。患者必须随时佩戴着一个设备,因此它会介入患者的日常行为(
尤其是对那些没有苹果手表的人来说)。因为它事关健康数据,存在隐私问题,因此Cardiogram设计的系统
改善了隐私功能,但代价是提高了开发成本,降低了机器根据反馈改进预测的能力。它通过应用程序来收
集预测中使用的数据;数据本身始终在手表上。
接下来,我们将讨论,在对待需要收集多少数据的问题上,统计思维和经济思维有怎样的区别。(我
们会在第四部分讨论策略时思考隐私相关的问题。)
规模经济
数据的增多改进了预测。但你需要多少数据呢?信息增加(不管是单位数量更多、变量类型更多还是
频率更高)带来的,对于现有数据量来说,既可能是利益的增加,也有可能是利益的减少。用经济学家的
话来说,数据既可能增加规模报酬,也可能减少规模报酬。
从纯粹的统计学角度来看,数据的规模报酬是递减的。你从第三次观察中所得的有用信息比第一百次
要多,而你从第一百次观察中所得的有用信息又比第一百万次要多。当你将观察结果加入训练数据的时候
,它对改进预测的帮助越来越小。
每一次观察都是一段有助于预测的额外数据片段。就Cardiogram而言,一次观察就是所记录的每两次心
跳之间相隔的时间。我们说数据收益递减时,意思是前100次心跳可以让你很好地了解该用户是否心律异常
,每一次额外的心跳在改进预测方面都不如前一次重要。
以你去机场要花多长时间为例。如果你从未去过机场,那么,第一次能带来很多有用的信息。第二次
和第三次也能让你对“去机场通常要多久”有个准确的认识。可到了第100次,你对去机场要花多长时间就不
太可能获得更多的信息了。从这个角度来说,数据的规模报酬是递减的:你获得的数据越多,每一段额外
的数据片段的价值就越低。
从经济的角度来看情况可能并非如此,其着眼点不在于数据如何改进预测,而在于数据如何提高你从
预测中所获得的价值。有时候,预测和结果是同步的,因此,统计学上观察到的报酬递减暗含了你所在意
的那些结果的报酬递减。然而,这两者不是一回事。
举个例子,消费者可以选择使用你的产品,也可以选择使用你竞争对手的产品。如果你的产品始终跟
对手的产品一样好甚至更好,他们就只用你的产品。可很多时候,只要有现成可用的数据,所有的竞争者
都能表现得一样好。例如,大多数搜索引擎对常见搜索都可提供类似的结果。不管你使用的是谷歌还是必
应,搜索“贾斯汀·比伯”所得的结果都差不多。如果能为非常见的搜索提供更好的结果,这种能力越强,搜
索引擎的价值就越高。试试在谷歌和必应里输入“破坏(disruption)”一词。在撰写本书期间,谷歌既显示
了字典里的定义,也显示了与克莱·M.克里斯坦森(Clay Christensen)“颠覆性创新(disruption innovation)”
的概念相关的结果。必应的前九个结果均只给出了字典里的定义。谷歌搜索结果更好的一个关键原因在于
,要弄清此类非常见搜索中搜索者的需求就要有这类搜索的相关数据。不管是进行非常见搜索还是常见搜
索,大多数人都会使用谷歌。就算搜索引擎只比对手好一点,也可能在市场份额和收入上造成巨大差异。
因此,尽管从技术角度而言,数据的规模报酬是递减的(第十亿次搜索对搜索引擎的改进不如第一次
大),但站在业务角度讲,如果你比竞争对手拥有更多更好的数据,数据就是最有价值的东西。有人甚至
认为,拥有越多与独一无二的因素相关的数据,就越能在市场上获得不成比例的回报。(谷歌认为,必应已经大到足以收获其搜索规模带来的好处了。)增加数据能在市场上带来不成比例的回报。因此,从经济
的角度来看,此种情况下的数据有可能带来规模报酬递增。
本章要点
※预测机器利用3种类型的数据:(1)训练数据,用于训练人工智能;(2)输入数据,用于预测;(
3)反馈数据,用于提高预测的准确度。
※收集数据很昂贵,这是一笔投资。其成本取决于你需要多少数据,以及收集程序对用户日常行为的
介入程度如何。平衡好获取数据的成本与提高预测的准确度能收获的好处,这一点非常重要。要确定最佳
方法,需要估算每类数据的投资回报率:需要多高的成本才能获得这些数据,以及相关预测的准确度提高
后将带来多大的价值。
※统计学上和经济学上的原因决定了拥有更多数据能否产生更高的价值。从统计角度来看,数据的收
益递减。每增加一个数据单元对预测起到的改善作用,都比前一个数据单元要小;第十次观测比第一千次
观测对预测的提升要大得多。从经济的角度来看,两者的关系并不明确。往大量现有数据库存里增加更多
数据或许比往小库存里加入更多数据的效果更好;比方说,加入额外的数据能让预测机器的表现跨越阈值
,从没法用变成可以用,或是从低于监管预测机器性能的阈值变得高于这一阈值,从比对手表现差变得比
对手表现好,那么这种增加就物有所值。因此,一个组织需要理解增加更多数据、提高预测的准确性、提
高创造的价值这三者之间的关系。第6章
新的劳动分工
每一次你更改电子文档,你的改动都是可以记录下来的。这对我们大多数人来说,无非是一种跟踪修
订的有用方式,但对罗恩·格洛兹曼(Ron Glozman)来说,这是个利用人工智能根据数据来预测修订的机
会。2015年,格洛兹曼成立了一家名为齐塞尔(Chisel)的初创公司,该公司的第一个产品就是利用法律文
件来预测哪些信息属于保密范畴。这一产品对律师事务所很有价值,因为碰到有必要披露的文件时,律师
必须涂黑或修改保密信息。过去,修改工作由人来完成,也就是让人阅读文件,然后涂黑保密信息。格洛
兹曼的产品有望节省他们的时间和精力。
机器修订有用,但不够完善。有时,机器会错误地修改本应披露的信息。还有时候,它没有选中该保
密的内容。为了达到法律标准,人类必须给予帮助。在测试阶段,齐塞尔公司的机器会提供哪些部分要修
改的建议,人类拒绝或接受机器的建议。从实际效果来看,人和机器的合作节省了大量时间,而且达到了
比仅靠人类修订更低的错误率。这种人机分工的模式能发挥作用,是因为它既克服了人类在速度和注意力
方面的缺陷,也克服了机器在阐释文本方面的缺陷。
人类和机器都有缺点。不知道这些缺点分别是什么,我们就无法评估机器和人类应该怎样合作来生成
预测。为什么呢?因为这个设想可以追溯到亚当·斯密(Adam Smith)在18世纪提出的有关劳动分工的经济
思想,即根据相对优势来分配任务。这里的劳动分工指的是生成预测领域的人类和机器的分工。要理解这
一劳动分工,我们不妨先来看看预测的哪些方面由人类完成效果最好,又有哪些方面由机器完成效果最好。这就能让我们明确各自的任务。
人类在哪些地方预测能力较差
有一项古老的心理学实验是,给受试者看随机序列的X和O,请他们预测下一个出现的字母是什么。例
如,他们可能会看到:
OXXOXOXOXOXXOOXXOXOXXXOXX
对于这样的一个序列,大多数人会意识到,X的数量比O多一些——如果你数过的话,你会发现60%是
X,40%是O,所以,他们多数时候会猜X,但偶尔也说几次O,以保持该平衡。然而,要是你想使预测正确
的概率最大,你应该始终选择X。这样的话,你的正确率会是60%。如果你按四六开的比例随机选择(大多
数参与者会这么做),你预测正确的概率仅有52%,只比你丝毫不考虑X和O的出现频率而随便乱猜(此时
准确率是50%)好一点点。(60%的时候你选择X,你有60%的概率是对的;40%的时候你选择O,只有40%
的概率正确。平均而言,这就是0.62+0.42=0.52。)
这些实验告诉我们,哪怕在评估概率时表现得不算太差,人类仍然是蹩脚的统计员。没有哪台预测机
器会犯下这样的错误。不过也可能是人类没有认真地对待这些任务,因为他们兴许感觉这是在玩游戏。可
要是后果影响重大,绝非儿戏,他们还会犯类似的错误吗?心理学家丹尼尔·卡尼曼(Daniel Kahneman)和阿莫斯·特韦尔斯基(Amos Tversky)在许多实验中做
了示范:确实还会。他们请人们考虑如下情况:有两家医院,一家每天接生45个孩子,另一家每天接生15
个孩子,请问一天中接生的孩子有60%或以上是男孩的情况,更容易出现在哪家医院?给出正确答案的人
很少——是规模小的那家医院。之所以是小医院,是因为活动(本例中是孩子的出生)重复的次数越多,每一天的结果就越趋近平均值(本例中为50%)。为了理解这是怎么回事,想象你在投掷硬币。如果你只
投掷5次硬币,那么,你有更大的可能碰到次次都是人头的情况,而投掷50次的话,这种情况出现的概率就
很低了。故此,小医院接生的孩子少,所以更有可能出现偏离平均值的较为极端的结果。
关于此类启发法(指依据有限的知识(或“不完整的信息”)在短时间内找到问题解决方案的一种方式。——译注)和偏差,已经有好几本书做过专门论述。许多人认为,根据合理的统计原则进行预测是很棘
手的,正因为如此,必须让专家介入。遗憾的是,专家在做决策时,对待统计数据有可能遇到同样的偏差
和困难。这些偏差折磨着医学、法律、体育和商业等多个领域。特韦尔斯基和哈佛医学院的研究人员向医
生们展示了治疗肺癌的两种方法:放疗或手术。从五年存活率(用来计算特定疾病的预后情况,通常是从
确诊开始进行计算。——译注)来看,手术更有优势。在介绍手术(比放疗的风险大)的短期存活率信息
时,研究人员设计了两种方式,并分别拿给两组参与者看。一组人听到的是,“首月存活率是90%”,此时,84%的医生选择手术;另一组人听到的是,“首月死亡率是10%”,此时,选择手术的医生降到了50%。两种
措辞方式说的是同一种情况,但研究人员对信息的框定方式,给人们的决定带去了巨大的变化。一台机器
则不会出现这样的结果。
卡尼曼还指出了专家面对复杂信息时无法很好地进行预测的其他许多情况。资深放射科医生在评估X光
片时有15的概率前后矛盾。审计师、病理学家、心理学家和管理人员也都表现出类似的不一致。卡尼曼得
出结论,如果有一种预测方法是依靠公式而不是人来进行判断的,那也应该认真对待该公式。
专家的预测结果很糟糕,这是迈克尔·刘易斯(Michael Lewis)在《点球成金》(Moneyball)一书中想
要表达的中心思想。奥克兰运动家棒球队碰到了一个问题:队里最优秀的3名球员离开之后,球队没有足够
的资金招募替补球员。领队比利·比恩(在同名电影中由布拉德·皮特扮演)采用了比尔·詹姆斯开发的一套
统计系统来预测球员的成绩。依靠这套“棒球统计学”系统,比恩和分析师拒绝了球探的建议,而选择按数
据组建队伍。尽管预算有限,但奥克兰运动家棒球队在2002年的世界大赛里一路领先对手。新方法的核心
是把从前认为重要的指标(如盗垒数和打击率)转到其他指标(如上垒率和长打率)上。这一举动也避免
了球探靠偶尔的灵机一动来挑选球员的常规做法。比如,电影里的一名球探会这么评价某个球员:“他女朋
友长得丑。找个长得丑的女朋友意味着他没有信心。”鉴于这种决策型的算法,以数据为驱动的预测常常在
棒球领域超越人类也就不足为奇了。
奥克兰运动家队的新指标强调的是球员对整个球队成绩的贡献。新的预测机器使奥克兰运动家队能够
挖掘出那些在传统评估体系中得分较低,但从对球队成绩贡献的角度看性价比更高的球员。没有预测,这
些球员很可能遭到其他球队的低估。运动家队利用了这些偏差。(当然,《点球成金》以传统统计学为基
础,这不足为奇,但现在球队希望用机器学习的方法来执行这一功能,并在此过程中收集更多的数据。)
最能清楚说明人类(哪怕是经验最丰富、能力最强的专家)在预测上遭遇困难的例子来自一项对美国
法官保释决定的研究。美国每年要做出一千万个此类决定。某人能否得到保释对其家庭、工作和其他个人
问题有着重大影响,与政府在监狱上的支出也有着极大的关系。法官不能光看被告人是否会被最终定罪,必须根据此人是否会逃跑、会不会再犯下其他罪行来做决定。决策标准清晰且合理。
研究使用了机器学习来开发一种算法,用于预测特定被告人在保释期间再次犯罪或逃跑的概率。培训
机器的数据非常庞大:在2008年至2013年期间,纽约市有75万人拿到了保释。这些信息包括前科记录、被
告人被指控的罪行,以及人口统计上的数据。
机器比人类法官做出了更好的预测。例如,被机器划分为极端危险的那1%的被告人中有62%的人会在
保释期间犯罪。人类法官(这些人并未接触过机器预测)选择释放其中近一半的人。机器的预测相当准确
,机器识别的高危犯人真的有63%在保释期间犯了罪,并且,下一次开庭时有一半以上的人并未出现。被
机器识别为高危的被告人有5%在保释期间犯下了强奸罪或谋杀罪。(研究还显示,算法有望弥合种族差异。)
这是怎么回事呢?为什么法官的评估与预测机器有这么大的不同?其中一种可能是,法官做判决时考
虑进了算法用不到的信息,比如被告人出庭时的外表和举止。这些信息可能有用,也可能具有欺骗性。鉴
于这些得到释放的被告人犯罪率很高,得出后一结论不算不合情理。法官的预测相当糟糕。该项研究提供
了大量额外的证据来支持这一令人遗憾的结论。
由于可用于解释犯罪率的因素很多也很复杂,事实证明,人类在此情况下很难做出预测。在考虑不同
指标之间复杂的相互作用时,预测机器比人类的表现好得多。出于这个原因,你可能以为,过往的犯罪记
录可能意味着被告人有更大的潜逃风险,可机器说不定会发现,只有当被告人失业了一段时间后才是这样。换句话说,相互作用效应兴许最为重要,而随着此类相互作用的范围越来越大,人类做出准确预测的能
力一路下降。
这些偏差不仅出现在医学、棒球和法律领域,更是专业工作里持续出现的特点。经济学家发现,管理
人员和工人常常满怀信心地进行预测,但却丝毫未察觉自己预测得很糟糕。米切尔·霍夫曼(Mitchell Hoffm
an)、莉萨·卡恩(Lisa Kahn)和达尼埃尔·李(Danielle Li)对15家低技能服务公司的招聘事宜做了研究,发现公司使用客观、可核验的测试搭配常规面试来招聘时,招聘到的员工的在职时间会比只使用面试招聘
的高出15%。对此类低技能工作岗位,管理人员招聘工人的要求就是在职时间尽量长。
测试本身的覆盖面很广,包括认知能力和岗位契合指标。此外,如果招聘经理的自由裁定权受到限制
(以免经理罔顾不佳的考试分数直接招聘),应聘员工的在职时间会更长,辞职率也会下降。因此,哪怕
被要求以招聘在职时间更长的员工为目的,哪怕招聘经验丰富,哪怕有人提供相当准确的机器预测结果,管理人员仍会做出糟糕的预测。
机器在哪些地方预测糟糕
前国防部长唐纳德·拉姆斯菲尔德(Donald Rumsfeld)曾经说过:
世上存在“已知的已知”,有些事,我们知道自己知道;我们也知道存在“已知的未知”,也就是说
,有些事,我们现在知道自己不知道。但是也存在“未知的未知”,即有些事我们不知道我们不知道。放
眼我国和其他自由国家的历史,最后一类事情,往往是最棘手的。
这为我们理解预测机器失效的条件提供了有用的框架。首先,“已知的已知”指的是我们拥有丰富的数
据,我们知道自己能够做出良好的预测。第二,“已知的未知”指的是数据太少,我们知道预测会很困难。第三,“未知的未知”指的是过去的经验或当前数据未曾涵盖却仍可能出现的事情,所以,预测很困难,我
们甚至都没意识到。还有一类情况,拉姆斯菲尔德未曾指出,那就是“未知的已知”,即过去看似强烈的某
种联系其实是某个未知或未观测到的因素导致的结果,但这一因素会随着时间而改变,使那些我们以为自
己能够做出的预测看起来并不可靠。基于统计学里这些广为人知的限制条件,预测机器确实会在上述难以
预测的地方失效。
已知的已知
有了丰富的数据,机器预测可以良好运行。从提供好的预测的层面来说,机器对情况更了解。而且,我们知道这些预测很好。这是当代机器智能的甜蜜点(原指棒球的最佳击球点,此处引申为“最佳时机”。
——译注)。盗刷判断、医疗诊断、挑选棒球选手和保释决定都属于这一类别。
已知的未知
哪怕是当今(以及不远的将来)最优秀的预测模型也需要大量的数据,这意味着,我们知道,在没有
太多数据的情况下,预测会相对糟糕。我们知道自己不知道,这就是已知的未知。
没有太多数据,可能是因为事情发生得很少,所以预测很棘手。美国总统选举每4年举行一次,候选人
和政治环境随时都在变化。预测几年后总统选举的结果几乎做不到。2016年的选举表明,就算只提前几天
甚至在选举当天预测结果也很困难。大地震发生得也很少(谢天谢地),所以,迄今为止,要预测它什么
时候发生,在哪里发生,规模有多大,都是说不准的。(没错,地震学家正着手研究。)
与机器相反,人类有时非常擅长在数据极少的情况下进行预测。我们只看过一两次就能识别出一张脸
,哪怕是从不同的角度看的。我们能在40年之后认出自己小学四年级时的同学,虽说他的外表已经有了无
数的变化。从很小的年纪起,我们就能猜测球飞来的轨迹(尽管我们不见得能手脚协调到抓住它)。我们
还擅长用类比来思考新的情况,能找到其他类似的条件,并迁移到新的环境下。比方说,数十年来,科学
家们就把原子想象成微型太阳系,而且,许多学校至今都是这么教的。
尽管计算机科学家正努力减少机器的数据需求,开发此类“一次性学习”的技术(例如机器“见过”物体一
次之后就学会预测),但当前的预测机器尚不足以胜任此类工作。(虽然机器在这类情况下的表现越来越
好,但概率定律意味着,样本小的时候,总是存在一定的不确定性。因此,如果数据不足,机器预测存在
某种已知的不准确性。机器能够大致判断自己预测的准确性如何。一如我们在第八章所讨论的,这使得人
类要做出判断,怎样基于不准确的预测来采取行动。)因为这些属于“已知的未知”,又因为人类面对“已知
的未知”时更擅长做出决定,所以,管理机器的人需要知晓此类情况有可能出现,事先对机器编程,(在情
况出现时)让机器寻求人类的帮助。
未知的未知
为了能够预测,得有人告诉机器什么才值得预测。如果某件事情从未发生过,机器就无法预测。(至
少,不借助人类谨慎的判断所提供的有用类比,机器是无法使用其他信息进行预测的。)
纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)在《黑天鹅》(The Black Swan)一书里强调了未知
的未知。他强调,我们无法从旧数据中预测出真实的新事件。书名指的是欧洲人在澳大利亚发现的一种天
鹅新品种。对18世纪的欧洲人来说,天鹅是白色的。抵达澳大利亚后,他们看到了一种全新的、不可预知的东西:黑天鹅。他们从未见过黑天鹅,因此没有任何信息能够预测这种天鹅的存在。(在阿西莫夫的基
地系列科幻小说里,预测变得非常强大,以至能预见银河帝国的毁灭,以及各种愈演愈烈的社会剧变(这
是故事的重点)。不过,对故事线最为重要的是,这些预测无法预见“变异者”的崛起。预测无法预见意外
事件。)塔勒布认为,和黑天鹅的出现不同(它们的存在对欧洲或澳大利亚社会的发展走向没有太大有意
义的影响),另一些未知的未知有着严重的后果。
例如,20世纪90年代是音乐产业的好时代。唱片销量增长,收益稳步提升。前途看似一片光明。接着
,到了1999年,18岁的肖恩·范宁(Shawn Fanning)开发出Napster,有了这款程序,人们就能通过互联网免
费分享音乐文件。很快,人们就下载了数百万此类文件,音乐行业的收入开始下降。整个产业至今都没能
恢复元气。
范宁就是个“未知的未知”因素。机器无法预测他的出现。诚然,一如塔勒布和其他人所强调的,相比
之下,人类在预测“未知的未知”方面同样糟糕。面对未知的未知,人类和机器都会失败。
未知的已知
预测机器最大的弱点或许在于,它们有时会怀着十足的信心给出错误的答案。我们上面说过,面对已
知的未知,人类会理解预测的不准确性。人给出预测时信心不足,暗示了预测得不够准确。面对未知的未
知,人类认为自己没有答案。与此相反,对于未知的已知,预测机器似乎会给出一个非常准确的答案,但
它却可能错得离谱。
这是怎么发生的呢?因为,虽然数据能为决策提供信息,但数据也可能是从决策而来的。如果机器不
理解生成数据的决策过程,那么,它的预测就有可能失败。举例来说,假设你有意预测自己是否会在组织
里使用预测机器,你有了个不错的开局。那么,阅读本书几乎可以充当一个很好的预测因素:你是一位将
会使用预测机器的管理者。
为什么呢?至少有三个可能的原因。首先,也是最为直接的一点,本书中的观点将被证明是有效的,因此,阅读本书这一行为显然能帮助你了解预测机器,并将这些工具有效地引入自己的企业。
其次是所谓的“反向因果关系”。你阅读本书是因为你已经在使用预测机器了,或有明确的计划要在不
远的将来这么做。这本书并未驱使你采用这项技术;相反,(有可能尚未开始的)技术采用促使你阅读了
这本书。
最后一个原因是所谓的“遗漏变量”。你对技术趋势和管理都很感兴趣。于是,你决定读这本书。你也
会在工作中使用预测机器等新技术。在这种情况下,你对技术和管理的潜在偏好不仅促使你阅读了本书,还会让你使用预测机器。
有时候,这种区别无关紧要。如果你只想知道阅读这本书的人是否会采用预测机器,那么,导致采用
的原因不重要。如果你看到有人在阅读这本书,你便可以做出一个理性的预测:这样的人会在工作中采用
预测机器。
有时候这种区别很重要。比如你正考虑将这本书推荐给朋友,那么,如果本书让你在预测机器方面成
为更好的管理者,你便会这么做。你想要知道些什么呢?你会首先从“自己阅读了这本书”的事实入手。接
着,你希望一窥未来,观察自己在管理人工智能方面做得怎么样。假设,你完美地看到了未来。你在管理
预测机器方面取得了惊人的成功,它成为你所在机构的核心,你和机构取得了你之前想都不敢想的成功。此时,你会不会说是阅读这本书带来了成功呢?
不会。
为弄清读这本书是否发挥了作用,你还需要知道,如果你没读过这本书,事情会变成什么样。可这样
的数据你没有。你需要观察经济学家和统计学家所称的“反事实条件”,也就是说,如果你采取不同的行动
,会发生些什么。判断行动是否导致结果要求进行两种预测:第一,采取行动后会发生什么结果;第二,如果采取了不同的行动,会发生什么结果。但那是不可能的,你永远得不到未采取行动的数据。
这是机器预测经常出现的一个问题。在《深度思考》(Deep Thinking)一书中,国际象棋特级大师加
里·卡斯帕罗夫(Garry Kasporov)用一种关于国际象棋的早期机器学习算法讨论了一个类似的问题:
20世纪80年代初,米基和几个同事写了一款实验性的基于数据的机器学习国际象棋程序,得到了一个
有趣的结果。他们从特级大师的比赛里挑出数十万个棋局馈进机器里,希望它能够弄清楚哪些有效,哪些
没有。起初,机器似乎挺管用。它对棋局的评估比传统程序更准确。等他们让它真正下一盘棋的时候,问
题来了。程序布好了棋子,发动了一轮攻击,然后立刻牺牲了“后”!由于几乎无条件地弃了“后”,它
才下几步就输了。它为什么要这样做呢?原来,特级大师们牺牲“后”的那一步棋差不多总是机智且具有
决定性的一击。而对这款接受了一大堆特级大师棋局训练的机器来说,放弃“后”显然是成功的关键!
机器颠倒了因果顺序。特级大师只会在牺牲“后”并创造出一条通往胜利的捷径时才会这么做,如果机
器不理解这一点,就会以为牺牲“后”很快就会出现胜利。故此,牺牲“后”看起来像是取胜的方式,只不过这
是错的。虽然机器预测中的这个特定问题如今已经解决,但对预测机器来说,反向因果关系仍然是个挑战。
这个问题也经常出现在商业中。在许多行业里,低价格与低销售量是相关的。比如,在酒店行业,旅
游旺季之外的价格很低,而需求最高且酒店已客满时,价格也很高。考虑到这样的数据,天真的预测新手
或许会提出,提高价格能售出更多的房间。而人(至少是受过一定经济学训练的人)则明白,价格变化可
能是需求高引起的——而不是相反,所以提价不太可能带动销量。接下来,这个人可以跟机器合作,以识
别出正确的数据(如个人基于价格对酒店房型做出的选择)和恰当的模型(考虑到季节和其他供需因素)
,这样能更好地预测不同价格区间内的房间入住的情况。因此,对于机器来说,这是一个“未知的已知”,但理解价格由什么决定的人,只要能够对价格决策进行合理建模,便可将之视为已知的未知甚至已知的已
知。
假若还存在其他人的策略性行为,未知的已知和因果推断问题就更为重要了。谷歌的搜索结果来自一
种机密算法。该算法在很大程度上取决于那些能预测某人可能点击哪些链接的预测机器。对于网站管理员
来说,更高的排名意味着更多的网站访客和更大的销量。大多数网站管理员注意到了这一点,且会针对搜
索引擎进行优化:他们调整网站,努力提高它在谷歌搜索结果里的排名。这些调整大多是与算法的特质进
行博弈,故此,随着时间的推移,搜索引擎里会充斥着垃圾,这些链接并非搜索者真正想要寻找的东西,而是网站管理人员利用算法缺陷所得的结果。
就预测人们点击的内容而言,预测机器短期内做得很好。但过了几周或几个月,足够多的网站管理员
会找到方法来愚弄系统,使谷歌不得不大幅度地更改预测模型。正是因为预测机器有可能遭到愚弄,才会出现搜索引擎和垃圾信息发送者之间的这种往来角力。尽管谷歌试图创造出一种能让此类操纵无利可图的
系统,但它也意识到,完全依赖预测机器是有弱点的,因此,此类垃圾信息出现时,它会借助人类的判断
来重新对机器进行优化。Instagram也在不断地跟垃圾信息发送者展开博弈,定期更新算法,以过滤垃圾信
息和引起不适的内容。(在策略行动者面前使用预测机器所面临的挑战是一个历史悠久的难题。1976年,经济学家罗伯特·卢卡斯(Robert Lucas)就通货膨胀和其他经济指标的宏观经济政策进行分析时就提出了这
一观点。如果人们在政策调整后改变自身行为,然后境况变得更好了,他们就会改变自己的行为。卢卡斯
强调,虽说通货膨胀率高的时候就业率往往也高,可如果中央银行改变政策以提高通货膨胀率,人们就会
预料到这一通货膨胀,前述的关系便不再成立了。故此,他认为,政策不光要考察过往数据,还要理解人
类行为的潜在推动因素。这便是著名的“卢卡斯批判”。经济学家蒂姆·哈福德(Tim Harford)对此做了一番
不同的描述:诺克斯堡从未遭到过抢劫,应该花多少钱来保护诺克斯堡?由于它从未遭到过抢劫,安保支
出并未减少抢劫。预测机器或许会推荐分文不花。毕竟安保并未减少抢劫,那何必要花这个钱呢?)更普
遍地说,一旦人类发现了这些问题,它们就不再是未知的已知。要么,人找到解决办法生成良好的预测,这样,问题会变成需要人和机器一同合作的“已知的已知”,要么,人无法找到解决办法,问题变成“已知的
未知”。
机器预测的功能非常强大,但也有局限性。在数据有限的情况下,它表现不佳。受过良好训练的人可
以识别出这些局限性(不管是罕见事件导致的还是因果推断的问题导致的),进而改进机器的预测。要做
到这一点,这些人必须理解机器。
合作带来更好的预测
有时候,人类和机器的组合能对彼此的弱点进行互补,生成最好的预测。2016年,哈佛大学与麻省理
工学院的人工智能研究团队赢得了Camelyon挑战赛(Camelyon挑战赛是诊断图像分析组织(DIAG)和荷兰
拉德堡德大学医学中心病理研究所联合发起的病理切片机器诊断国际大赛。——译注),这是一项依据活
检组织切片来检测转移性乳腺癌的计算机竞赛。与人类病理学家96.6%的准确率相比,该团队设计的深度学
习算法的正确率是92.5%。表面上看是人类赢了,但研究人员更进一步,将算法和病理学家的预测结合起来
,结果实现了99.5%的准确率。也就是说,人类的错误率从3.4%降到了0.5%,减少了85%的错误率。
这是典型的劳动分工,只不过不是亚当·斯密描述的体力劳动分工。它是经济学家和计算机先驱查尔斯·
巴比奇在19世纪首次描述的认知分工。“机械和心智过程中的劳动分工,使我们得以按数量需求准确地购买
和应用相关技能与知识。”
人和机器各自擅长不同方面的预测。判断癌症的时候,人类病理学家通常是对的。人类说有癌症然后
发现弄错了,这是很少见的情况。反过来说,人工智能可以更准确地判断没有癌症的情况。人和机器犯的
是不同类型的错误。辨识出这些不同的能力,人机结合便克服了这些弱点,因而能极大地降低错误率。
这种合作将怎样转化到商业环境呢?机器预测可以通过两种宽泛的途径来提高人类预测的生产力。首
先,提供初步预测,而且人类可以用这些预测跟自己的评估相结合。其次,在事后提供第二种意见,发挥
监控作用。这样,老板就可确保人类正在努力工作,而且将精力投入了预测。如果没有这种监控,人类兴
许会不够努力。理论认为,只有当人类投入了额外的精力,确保自己有足够的信心,才能回答出为什么自
己的预测跟客观算法有所不同,进而推翻机器的意见。检验这种互动的绝妙场所是与贷款申请人的信誉度相关的预测。丹尼尔·帕拉维西尼(Daniel Paravisini)和安托瓦妮特·施科阿(Antoinette Schoar)引入了一种新的信贷评分体系,检验哥伦比亚一家银行对小企
业贷款申请人的评估。计算机化的评分体系获取了申请人的各种信息,并将其汇总为一套风险预测指标。
接着,由银行员工构成的贷款委员会使用该得分和他们自己的流程来批准、拒绝,或将贷款申请移转地区
经理决定。
研究人员使用随机对照试验(而不是让管理层下达命令)来决定是在银行放贷之前还是之后引入申请
人的信贷评分。因此,要科学地评估评分对放贷决定的影响,这就是个合适的地方。一组员工在开会讨论
之前看到了申请人的信贷评分。这可以类比为与机器协作的第一种方式,即机器预测为人类的决定提供信
息。另一组员工在初步评估之后才看到申请人的信贷评分。这可以类比为与机器协作的第二种方式,即让
机器的预测来帮忙监督人类决策的质量。第一种和第二种方法的区别在于,信贷评分是否为人类决策者提
供了信息。
在这两种情况下,评分都有帮助,但提前给出评分时,决策能得到最大的改善。此时,委员会做出了
更好的决定,也更少向经理求助。这些预测提供了信息,使较低级别的管理人员获得更大的权力。在另一
种情况下,委员会事后得到信贷评分,决策同样会得到改善。这是因为,预测帮助更高级别的管理人员对
委员会做了监督。它激励了委员会保障决策质量。
为了生成更好的预测,人机协同预测的组合必须理解人类与机器各自的局限性。就贷款申请委员会一
例而言,人类有可能做出带偏差的预测,又或者没有付出足够的努力。机器兴许会缺少重要信息。我们虽
然经常在人类协作中强调团队合作和共同努力,但说不定不会把人机组合视为团队。人类想要让机器预测
变得更好,或是机器想让人类预测变得更好,就必须理解人类与机器双方的弱点,并将双方结合起来克服
这些缺陷。
例外预测
预测机器的一个主要优点是,它们可以按人类做不到的方式进行扩展。但它们还有一个缺点,那就是
很难在异常情况下进行预测,因为异常条件缺乏足够的历史数据。两相结合意味着许多人机协作都将采取“
例外预测”的形式。
我们已经讨论过,用预测机器处理较为常规、频繁发生的状况时,只要数据足够丰富,它就能够学习。此时,预测机器无须人类搭档给予过多关注就可运行。然而,一旦发生例外(即非常规情况),它就会
通知人类,接着人类会付出更多的努力改进、校验预测。哥伦比亚银行贷款委员会就恰好属于这种“例外预
测”的情况。
例外预测的设想来自管理术中的“例外管理”(management by exception)的概念。而在预测领域,从很
多方面看,人类就是预测机器的主管。人类主管有许多困难的任务;为节约人类的时间,双方的工作关系
是,只在真正需要的时候才调动人类的关注。这种不频繁的需要,意味着人能够轻易利用预测机器在常规
预测上的优势。
例外预测是齐塞尔公司初代产品的运行模式中必不可少的一环。我们在本章开头介绍过该公司的第一
款产品,它根据各种文件来确认、修改机密信息。很多法律情况都涉及文件的部分信息需要在加密或删除
后才能向另一方披露或公开披露,这一流程本来十分烦琐。齐塞尔的编改软件会依靠例外预测先把任务跑一遍,生成第一稿。(这种“第一稿”的劳动分工,可见
于许多公司对预测机器的部署上。《华盛顿邮报》有一套内部用的人工智能,它于2016年发表了850篇报道
,只不过每一篇文章在刊出前都要经过人工审核。全球第一家人工智能律师公司ROSS Intelligence也部署了
类似的流程,解析上千份法律文书,将之转为简短的备忘录。)用户还可将编改软件的模式设为“严格”或“
宽松”。在“严格”模式下,编改软件的加密标准比“宽松”模式更高。比方说,如果你担心泄露本应该保密的
信息,你应该选择“严格”模式。但如果你担心披露太少,就应该选择“宽松”模式。齐塞尔的界面简单易用,人可以轻松地检查修改的部分,接受或拒绝。换句话说,每一项编改都只是建议,而非最终决定。最终的
决定权仍然保留在人类手里。
齐塞尔公司的产品将人类与机器相结合,以克服各自的弱点。机器的工作速度比人类快,在编改文档
时可采用一致的标准。而当机器没有足够的数据做出良好预测时,人类可进行干预。
本章要点
※人类(包括专业人士)在某些条件下会做出糟糕的预测。人类大多会过分看重突显的信息,对统计
特点考虑不周。许多科学研究记录了各种职业中存在的此类缺陷。电影《点球成金》里也出现过这一现象。
※就预测而言,机器和人类有着各自的优势和劣势。随着预测机器的改进,企业必须调整人与机器的
劳动分工来应对。在考虑不同指标之间复杂的相互作用时,预测机器比人类表面看来要好,尤其是在数据
丰富的环境中。随着这种相互作用的范围不断扩大,相较机器而言,人类做出精确预测的能力随之减弱。
然而,理解数据的生成过程可带来预测优势,且在数据较为单薄的时候,人类往往比机器表现更好。我们
对预测环境做了分类(即已知的已知,已知的未知,未知的已知,未知的未知),它有助于我们理解人机
之间的恰当分工。
※预测机器可进行规模化扩展。每次预测的单位成本随着应用频率的增加而下降。人类预测却无法按
这种方式扩展。然而,人类拥有关于世界怎样运作的认知模型,故可根据少量数据进行预测。因此,照我
们预计,人类的例外预测会出现增长,机器则生成大部分的常规预测。(因为机器主要是根据惯例中的常
规数据做出的预测。)可一旦发生罕见事件,机器发现自己无法生成有把握的预测结果时,便可要求人类
的协助。人类可提供例外预测。第二部分
决策第7章
拆解决策
我们通常将决策与“重大决定”联系在一起:我应该买这套房子吗?我应该上这所学校吗?我应该跟这
个人结婚吗?毫无疑问,这些改变生活的决定虽然少见,却非常重要。
但我们也随时随地在做着琐碎的决定:我应该继续坐在这把椅子上吗?我应该继续走这条街吗?我应
该继续支付这个月度账单吗?此外,一如加拿大著名摇滚乐队Rush歌唱自由意志的妙语所言:“如果你选择
不做决定,你仍然做了选择。”我们会像依靠定速巡航那样处理许多小事,比如接受默认设定,选择把所有
的注意力都放到更重大的决策上。但是,决定不做决定,这仍然是个决定。
在大多数职业当中,决策都处在核心位置。学校教师决定怎样教育有着不同个性和学习风格的学生。
经理们决定为团队招募什么人,晋升什么人。看门人决定怎样应对意外事件,如煤气泄漏和安全隐患。卡
车司机决定怎样应对道路封闭和交通事故。警察决定如何处理可疑人员和潜在的危险情况。医生决定使用
何种药物,什么时候进行昂贵的化验。家长决定孩子该花多长时间在电子设备上。
像这样的决定大多发生在不确定的条件下。老师并不确定用这种教学方法还是那种教学方法能让某个
孩子学得更好。经理并不确定求职者是否会表现良好。医生并不确定是否有必要进行昂贵的化验。他们每
个人都必须预测。
但预测不是决定。做出决定需要对预测进行判断,接着采取行动。在机器智能近年来取得进展之前,只有学术界才对这种区别感兴趣,因为人类始终是把预测和判断放到一起进行的。而现在,机器预测的进
步意味着我们必须对决定进行一番剖析。
决策剖析
预测机器在决策层面上会产生最直接的影响。但决策还有其他6个关键要素(见图7-1)。当某人(或
事物)做出决定时,他们从世界上获取能生成预测的输入数据。不同类型的数据之间有什么关系,哪些数
据与特定情况关系最为紧密,人接受过相关的训练,预测因此才是可行的。把预测与判断(什么最重要)
结合起来,决策者就能选择行为了。行为导致结果(而结果与奖励或损益相关)。于是,这个结果,就成
了决定带来的后果。该结果是呈现完整图景所必需的。它还可以提供反馈,帮忙改进下一次预测。假设,你因为腿疼去看医生。医生开始诊断你,他做了X光检查,验了血,并询问了几个问题,得到了
输入数据。利用这一输入,并根据多年来医学院所学和其他诸多相似患者的情况(这就是训练与反馈),医生做出了预测:“你最有可能患的是肌肉痉挛,不过有很小的概率是血栓。”
伴随这一评估出现了判断。医生的判断会考虑其他数据(包括直觉和经验)。如果是肌肉痉挛,那么
休息就好。如果是血栓,那就要用一种没有长期副作用的药物来治疗,但它对许多人会造成轻微不适。如
果医生错误地用治疗血栓的办法来治疗肌肉痉挛,那么,你短期内会感到不适。如果医生错误地用休息来
治疗血栓,那么,你就可能出现严重的并发症,甚至可能死亡。做判断涉及确定与每一个可能的结果相关
的相对损益,这就包括,与“正确”决定相关的回报,以及与错误决定相关的损失。(本例中,损益与痊愈
、轻微不适、严重并发症相关。)确定所有可能结果的损益是做出以下决定的必要步骤:什么时候选择药
物治疗(即选择让患者感到轻微不适和减少严重并发症的风险),什么时候选择休息。故此,将判断应用
于预测,医生做出了决定(或许还参考了你的年龄和风险偏好):你应该接受肌肉痉挛的治疗,尽管你有
极小的概率得的是血栓。
最后是给予治疗、观察结果的行为:你腿上的疼痛消失了吗?出现其他并发症了吗?医生可以用这一观察结果作为反馈,为下一次预测提供信息。
通过将决策分解为不同的元素,我们可以清楚地进行思考:随着机器预测能力的增强,人类活动的哪
些部分将贬值,哪些将增值。最清楚的是,对预测本身而言,预测机器整体上是人类预测的一个更好的替
代。随着机器预测越来越多地取代人类预测,人类预测的价值将降低。但更重要的一点是,虽然预测是一
切决定的关键组成部分,但它并不是唯一的组成部分。目前,决策的其他元素(判断、数据和行动)仍牢
牢地被人类握在手中。它们是预测的互补品,也就是说,随着预测变得廉价,它们的价值会提高。例如,由于预测机器现在提供了更好、更快和更廉价的预测,我们或许可将做判断的努力用到从前决定不做决定
的地方(例如接受默认设定)。此时,人类判断的需求将会增加。
“知识”没了
伦敦的司机为获得驾驶著名的黑色出租车的资格,必须参加名为“知识大全”(“The Knowledge”)的考
试。考试内容包括知晓城市周边数千个景点和街道的位置,以及预测一天中任何时段任意两点之间最短或
最快的路线——这是更难的部分。哪怕只是一座普通城市,相关信息量也非常惊人,何况伦敦并不普通。
它从前是若干独立的乡村和城镇,在两千年的时间里逐渐发展成了一座全球化大都市。为了通过考试,申
请人必须得到一个接近完美的分数。平均要花三年时间才能通过考试也不足为奇了。他们不光要花时间背
地图,还要骑着机动车在城里跑,以便将记忆落到实处。但一旦通过考试,申请人就可获得绿色的荣誉胸
章,象征他们已接受了知识的洗礼。
你知道这个故事接下来会怎么发展。十年前,伦敦出租车司机拥有的知识是他们的竞争优势。没有人
能提供相同等级的服务。本来可以步行到某处的人会钻进出租车,完全是因为出租车司机知道路该怎么走。可仅仅过了五年,一套简单的移动GPS(卫星导航系统)就可以为驾驶员提供一度被出租车司机垄断的
数据和预测。今天,大多数手机都可免费使用相同的“超级武器”。人们再也不会迷路了。人们知道最快的
路线。而且,如今的手机已经更进一步了,因为它会实时更新交通信息。
投入了三年时间学习“知识大全”的司机们并不知道自己有一天竟然要跟预测机器竞争。多年来,他们
把地图上传到自己的记忆里,检测路线,并用常识填补空白。如今,导航程序可以访问相同的地图数据,还能结合算法和预测性训练,利用出租车司机无法掌握的实时交通数据,以便在任何时候找到最佳路线。
但是伦敦出租车司机的命运不仅有赖于导航软件预测“知识大全”的能力,还有赖于帮助他们选择从A点
到B点之间最优路线的其他关键要素。首先,出租车司机要能控制机动车辆。其次,他们身上“装载着传感
器”(眼睛和耳朵最为重要),能将背景信息馈进大脑,确保自己将知识应用于实践。但其他人也能这样做。有了导航软件,伦敦出租车司机的工作并不会变得更糟糕。相反,出租车司机以外的数以百万计的人的
出行却便捷多了。出租车司机的知识已不再是稀缺商品,这为优步等共享驾驶平台带来了与之竞争的机会。
其他司机能够借助手机上的“知识大全”来预测最快的路线,这意味着他们可以提供同样的服务。当高
质量的机器预测变得廉价时,人类预测的价值便下降,出租车司机的境遇就会每况愈下。伦敦黑色出租车
的乘坐人数下降了,因为有其他人可提供相同的服务。这些人同样拥有驾驶技能,具备人类传感器。随着
预测变得廉价,互补性资产的价值上升。
当然,自动驾驶汽车本身有可能替代这些技巧和感官,但这一点我们稍后再来讨论。我们在这里想要说明的是,一如决策剖析部分所描述的那样,要理解机器预测带来的冲击就需要理解决策的各个方面。
应该带上伞吗
到现在为止,判断到底是什么,我们对此还有些不确定。为了解释它,我们引入一种决策工具:决策
树。(更详细的解释见Joshua S. Gans, Core Economics for Managers(Australia:Cengage,2005)。)当你
拿不准做出特定选择后会发生什么的时候,它尤为有用。
让我们举一个你可能熟悉的选择作为例子。你应该带着伞出门散步吗?你也许认为,伞是一种能让人
避免被雨淋湿的工具,没错。不过,在本例中,伞也是一种针对下雨可能性的保险。故此,以下框架适用
于任何降低风险的类保险决策。
显然,如果你知道不会下雨,就会把伞留在家里。另一方面,如果你知道会下雨,那么一定会随身带
伞。在图7-2中,我们使用树状图来表示它。树根分出两条支线,代表你可以做的选择:“不带伞”或“带伞”。它们又各自分出两条支线,代表你不确定的事情:“下雨”和“天晴”。没有准确的天气预报,你并不知道到
底会怎样。你也许知道,在这一年的这个季节,天晴的概率是下雨的三倍。故此,你有34的机会碰上出太
阳,有14的机会碰上下雨。这是你的预测。最后,在分支的末端是后果。如果你没带伞而碰上了下雨,你
就会被淋湿,以此类推。假设你喜欢不带伞同时不淋雨(用10分制打分的话,你认为这是10分)甚于带了伞没淋雨(8分),又
甚于淋了雨(大大的0分)。(见图7-3)这些判断足以让你采取行动了。凭借下雨概率是14的预测,以及
对淋湿和带伞损益的判断,你可以结算出带伞与不带伞的平均损益。据此,你带上伞(平均收益8分)比不
带伞(平均收益7.5分)好。(原因是这样:“带伞”的平均收益=(34)(带了伞,没下雨)+(14)(带
了伞,挡了雨)=(34)8+(14)8=8“不带伞”的平均收益=(34)(没带伞,也没下雨)+(14)(被雨
淋湿了)=(34)10+(14)0=7.5)如果你真的很讨厌带伞(6分),你的偏好判断也可以据此进行调整。在这种情况下,出门不带伞的平
均损益不变(7.5分),而带伞的损益变成了6分。所以,这些讨厌伞的人会把伞留在家里。
这个例子很琐碎。讨厌带伞甚于讨厌被雨淋湿的人显然会把伞留在家里。但对那些并不琐碎的决定,决策树仍然是一种厘清损益的有用工具,这也正是判断的核心。这里,行动是带伞,预测是下雨还是晴天
,结果是会不会淋湿,判断是预期你从淋湿、没淋湿、带伞还是不带伞中所感受到的开心(“损益”)。随
着预测变得更好、更快、更廉价,我们将更多地利用它来做出更多的决定,所以,我们将需要更多的人为
判断,而人为判断的价值也将随之提升。
本章要点
※预测机器非常有价值,因为(1)它们常常可以比人类更好、更快、更廉价地生成预测;(2)预测
是在不确定条件下做出决策的关键因素;(3)决策在整个经济和社会生活中无处不在。然而,预测并不是
决策——它只是决策的组成部分。其他的组成部分包括判断、行动、结果,以及三类数据(输入、训练和
反馈)。※把决策分解成不同的组成部分,可以帮助我们理解预测机器对人类及其他资产价值带来的影响。预
测机器替代品(即人类预测)的价值将会下降。然而,互补品(如与数据收集、判断和行动相关的人类技
能)的价值会变得更宝贵。对于每个投入了3年时间学习“知识大全”(即学习预测一天中特定时间从a到b
的最快路线)的伦敦出租车司机来说,预测机器并不会让他们中任何一个人的境况变得更糟糕。反而,借
助预测机器,其他众多驾驶者在选择最佳路线上的表现变得更好了。出租车司机的预测技能不再是稀缺商
品。非出租车司机不仅掌握驾驶技能,还具备人类传感器(眼睛和耳朵),依靠预测机器得到了有效提升
,得以与出租车司机展开竞争。
※判断涉及确定与每一可能结果(包括“正确”决策带来的结果,以及错误决策带来的结果)相关的
相对损益。判断要求你明确自己实际追求的目标,这是决策的一个必要步骤。随着预测机器让预测变得更
好、更快、更廉价,人为判断的价值将会增加,因为我们对它的需求更高了。我们可能更愿意将精力放在
我们之前选择不做决定(接受默认设定)的决定上。第8章
判断的价值
更好的预测提高了判断的价值。毕竟,如果你不知道自己是喜欢不淋雨,还是讨厌随身带伞,光知道
下雨的概率是没什么用处的。
预测机器不提供判断。只有人类才会进行判断,因为只有人类可以表达不同行动带来的相对回报。随
着人工智能接管预测,人类会减少在决策中扮演预测加判断的综合角色,而更多地专注于发挥判断的作用。这将促使机器预测与人类判断之间形成互动,就跟你用电子表格或数据库执行多种查询差不多。
有了更好的预测,人们将获得更多的机会,思考不同行为带来的回报。总而言之,也就是有了更多判
断的机会。而这意味着,更好、更快、更廉价的预测会让我们有更多的决定要做。
判断盗刷
诸如万事达卡、维萨卡和美国运通卡等信用卡机构随时都在进行预测和判断。它们必须预测信用卡申
请人是否符合信用标准。如果申请人不合资格,公司就会拒绝他们的申请。你可能认为这是纯粹的预测,但其实这里头牵涉重要的判断元素。信用标准是浮动的,面对不同的利率和违约风险,信用卡公司必须判
断自己的承担意愿分别是多大。这些决定带来了明显不同的商业模式——相当于美国运通卡中的高端白金
卡和大学生入门级卡的区别。
公司还需要预测任意一笔交易是否合规。一如你是否带伞的决定,公司必须权衡4种不同的结果(见图
8-1)。公司必须预测一笔支出款项是盗刷还是合规,进而决定是授权还是拒绝该交易,接着评估每一结果。(拒付了盗刷支出是好的,拒付了客户本人的合规交易是糟糕的。)如果信用卡公司能够完美预测盗刷
,那就一切顺利。可惜并非如此。例如,乔舒亚(本书作者之一)购买跑鞋时经常遭到信用卡公司拒付,因为他往往一年只买一次跑鞋
,大多还是度假时在外地的购物中心。多年来,他不得不打电话给信用卡公司,请求解除信用卡的限制。
信用卡盗刷常常发生在商场,头几笔盗刷交易没准是鞋和服装。(容易变现,作为同一盗窃链上不同
分支的报酬。)由于乔舒亚没有定期购买衣服和鞋的习惯,因此很少去购物中心,信用卡公司才会判断该
卡可能出现了盗刷。这种猜测很合理。
预测信用卡是否遭到盗刷,部分影响因素是通用的(交易类型,如购买跑鞋),另一些因素则是特定
的(本例中,是年龄和频率)。这些因素互相组合,意味着标记该交易的最终算法会很复杂。
人工智能的承诺是,它可以让预测变得更精确,特别是在通用和个性化信息交杂的情况下。例如,根
据乔舒亚多年交易的数据,预测机器可以了解这些交易的模式,包括他每年在同一时段前后购买跑鞋的事
实。它不会将这种购买归为异常事件,而可能将其归类为这个人的寻常事件。预测机器可能会注意到其他
相关因素,例如,某人购物需要多长时间,进而算出在两家不同商店的交易时间是否太过接近。随着预测
机器能够更精确地标记交易,信用卡机构得以更自信地锁定信用卡,甚至主动与消费者联系。如今的情况
正是如此。乔舒亚最近一次在购物中心买跑鞋,就买得很顺利。
但在预测机器能够完美预测盗刷之前,信用卡公司不得不计算失误的成本,这需要进行判断。假设预
测不完美,并且有10%的概率不正确。接着,如果公司对这些交易拒绝付款,它们有90%的概率判断正确,节省与盗刷交易相关的补偿成本。但它们也有10%的概率拒付了合规交易,惹恼客户。为了制订出正确的行动方案,信用卡公司必须平衡发现盗刷的相关成本与客户不满相关的成本。这一权衡的正确答案,信用
卡公司没法自动得知,它们必须算出来。所谓判断就是这么做的。
其实这就是雨伞一例的重复,只不过,这一回要权衡的不是带不带伞、淋雨还是不淋雨,而是盗刷费
用和客户满意度。本例中,由于涉事交易是盗刷的概率比合规交易要大9倍,公司会拒绝承担费用,除非客
户满意度比可能的损失重要9倍。
对于信用卡盗刷来说,上述损益,有不少都很容易判断。盗刷的补偿成本很有可能有着信用卡公司可
辨别的显要的金钱价值。假设,一笔100美元的交易,补偿成本是20美元。如果顾客不满的成本低于180美
元,那么拒绝交易是合理的。(180美元的10%是18美元,与20美元的90%相同。)对很多客户来说,一笔
交易遭到拒付,并不会带来相当于180美元的不满。
信用卡机构还必须评估,这种拒付符不符合特定客户的情况。例如,持有白金卡的高净值用户可能还
有其他机构的信用卡可用,如果遭到拒付,此人有可能不再使用这张卡。而此人有可能正在度豪华假期,于是,发卡机构说不定就损失了该用户在这趟旅行中的所有支出。
信用卡盗刷是一个定义明确的决策过程,出于这个原因,我们反复以其为例,但它仍然很复杂。相比
之下,其他很多决策,不光潜在行为更加复杂(不仅仅是简单的接受或拒付),潜在的情况(或状态)也
有所不同。要做出判断,就要理解每一组行为与对应情况的奖励。信用卡一例只有4种结果。(就算你对高
净值客户和普通客户做区分,也只有8种。)但假设你有10种行为可供选择、外加20种可能出现的情况,你
就要对200个结果做判断。随着事情变得更加复杂,回报的数量可能难以计算。
判断的认知成本
研究过决策的人一般都把回报当成既定的——它们的存在不需要理由。你也许喜欢巧克力冰激凌,而
你的朋友可能喜欢杧果冰激凌。你们俩怎样得出各自的观点并无太大意义。同样,我们假设大多数企业追
求的是利润或股东价值的最大化。经济学家考察过企业为自己的产品设定某个价格的原因,发现事先接受
上述目标是有用的。
损益很少一目了然,而理解损益的过程有可能耗时长久且昂贵。然而,预测机器的崛起为理解损益价
值的逻辑和动机带来了更多的收益。
从经济角度来看,计算损益的成本主要是时间。以你判断损益的一条特定途径为例:审议和思考。要
想清楚你真正想要实现什么目的,或是客户不满带来了什么代价,兴许要付出时间思考、反省,甚至向别
人寻求意见。又或者,你要花时间研究,才能更好地理解损益。
对信用卡盗刷检测而言,弄清楚客户满意和不满带来的损益,以及允许盗刷交易进行的代价是必要的
第一步。但高净值客户带来的不同损益需要进行更多思考。评估这些损益会不会在高净值客户度假时发生
变化就需要更多的考虑了。此外,普通客户度假时会怎么样?此时的损益是否有什么不同?要不要把出差
和度假区分开来?又或者,要不要把去大峡谷和去罗马区分开来?
在每一种情况下,判断损益都需要付出时间和精力:更多的结果,意味着要进行更多的判断,也就意
味着要花更多的时间和精力。判断是一个较慢的决策过程,对人类来说,这就是判断带来的认知成本。所
有人都必须在弄清楚损益和延迟决定需付出的代价之间进行权衡。对看似不太可能出现的情形,有些人会
选择不去研究它的损益。信用卡机构兴许发现,区分出差和度假是值得的,但区分到大峡谷度假和到罗马度假就没那么值得了。
在此类出现可能性不大的情况下,发卡机构可以猜到正确的决定,而把事情划分到一起,或是选择较
为安全的默认设定。但对于更频繁的决策(如整体而言的旅行),或看似更重要的决定(如高净值客户)
,许多机构会花时间更加仔细地审议并尝试弄清损益。不过,尝试的时间越长,你做出决定以及执行所需
要的时间也就越长。
弄清损益还有点像品尝新食物:吃一口,看看会发生什么。或者说,用现代商业的说法:实验。在相
同的情况下,不同的人可能会采取不同的行动,并且了解奖励到底是什么。人是通过行动学到损益是什么
的,而不是事前深思得来。当然,做实验肯定意味着你要做一些日后认为是错误的事情,故此,实验也有
成本。你会吃到自己不喜欢的食物。如果你为了找到理想的食物不断尝试新口味,你会错过许多美好的就
餐体验。无论是通过思考还是尝试来做判断,它始终是有代价的。
知道你做某事是为什么
预测是自动驾驶汽车和优步、Lyft(来福车)等平台兴起的核心,它们都是在出发点和目的地之间选择
一条路线。汽车导航设备已经出现了一二十年,有些是车内装载,有些是独立设备。但互联网移动设备的
激增改变了导航软件供应商收到的数据。例如,以色列初创公司Waze(“位智”,后为谷歌收购)跟踪司机
选择的路线,生成准确的交通流量图。然后,它利用这些信息进行有效的优化,既考虑到驾驶员提供的信
息,也考虑了对流量的实时监控,然后找到两点之间最快的路径。如果你想出行至更远的地方,它还可以
预测交通状况可能怎样发展,并能在条件改变后提供更快捷的新路线。
像Waze这类应用的用户不会总是按照软件的指示走。他们并非对预测本身有不同意见,而是其最终目
标或许并不是仅仅着眼于速度,还包括更多的元素。例如,软件并不知道汽车的汽油是不是快用完了,是
否需要去加油站。但知道需要给车加油的人类驾驶员可以否定程序的建议,选择另外一条路线。
当然,像Waze这样的应用程序能够,也必将变得更好。比方说,在依靠电力行驶的特斯拉汽车里,导
航会考虑到充电的需求和充电站的位置。应用程序可能会询问你是否需要加油,或者,在不远的将来,它
甚至能直接从你的汽车里获取数据。这似乎是一个可以解决的问题,就像你可以调整导航软件的设置,避
开收费的公路那样。
你的个人偏好中的其他方面更难编程。例如,在漫长的车程里,你可能希望在合适的地方停下来休息
、吃饭。或者,程序推荐的最快路线说不定只能节省一两分钟,但开起来却极为费劲,如一些窄路。又或
者,你不喜欢走曲折的道路。应用程序有可能了解这些行为,但在某个特定时间,某些因素不一定会纳入
编码的预测里以自动产生行动结果。在预测你的偏好时,机器能学到的东西存在根本上的局限性。
从更宽泛的层面上来说,人做决定的时候,其对象很少只在一个维度上。人类对自己为什么做某事有
一套独有的认识(有些认识是显露的,有些认识是隐含的),这使他们得以进行个性化且主观的权衡。
固然机器可以预测有可能发生些什么,人类仍然会根据自己对目标的理解来决定采取何种行动。在很
多情况下,机器(比如Waze软件)会给人类一个预测,这一预测暗示了某一维度上(如速度)的特定结果;而人类会决定是否推翻机器推荐的行动。根据预测机器的复杂程度,人可能会要求它按照新的限制条件
做出另一种预测。(“Waze,提供一个附近的加油站。”)对判断硬编码
初创公司Ada Support正使用人工智能预测技术对技术支持问题进行区分——简单的和困难的。人工智
能回答简单的问题,并将困难的问题发送给人。对典型的移动电话服务供应商而言,消费者打来电话要求
获得技术支持的时候,他们问的绝大多数问题已经有其他人问过,输入答案的操作很简单。挑战在于预测
消费者想要知道什么,以及判断该给出哪一个答案。
Ada的做法不是把人们引到传统的“常见问题”页面,而是立刻识别并回答这些常见问题。它可以匹配消
费者的个人特征(如对技术能力的过往知识,他们呼入时使用的是什么类型的电话,或过去进行的通话)
,以改进对问题的评估。在此过程中,人工智能减少了顾客的挫败感,更重要的是,它还可以迅速处理更
多的互动,而无须转接更为昂贵的人工客服。人类只需处理少见的、更困难的问题,简单的问题则交由机
器处理。
随着机器预测的进步,很多情况下,提前明确判断越来越有必要。一如我们能向他人解释自己的想法
那样,我们也可以向机器解释自己的想法——只不过是以软件代码的形式。如果我们预知会收到(针对该
问题的)精确预测,我们就可以在机器进行预测之前将这种判断写入程序之中。Ada对简单的问题采用了这
种做法。要不然,可能出现的情况太多,提前具体指定每一种情况下该怎么做太耗时耗力了。所以,对于
难题,Ada会请求人类进行判断。
有时候,经验可以帮助人们将判断编入代码中。大多数经验是无形的,无法被轻易地编写下来或表达
出来。安德鲁·麦卡菲(Andrew McAfee)和埃里克·布莱恩约弗森(Erik Brynjolfsson)写道:“(用计算机
替代人类)是有局限性的,因为有很多任务,人能够毫不费力地理解,但不管是计算机程序员还是其他任
何人,都无法明确阐明这些任务的‘规则’或流程。”不过,并非所有的任务都是这样。对一部分决定来说,你可以清晰地阐明必要的判断,并用代码来表达。毕竟,我们常常向别人解释自己的想法。实际上,如果
判断可被编码,就意味着你能够补完“如果-那么”语句里“那么”后面的部分。只要能做到这一点,判断就能
够确定并编写为程序。
麻烦的地方在于,就算你可以对判断进行编程,接替人的角色,机器接收的预测也必须相当精准才行。如果可能出现的情况很多,那么你就必须花费大量的时间提前指定每一种情况下要做什么。如果可能发
生的情况很明显,你便可以轻松地编程,让机器采取特定行动;然而,只要还存在不确定性,那么,指导
机器时就必须十分谨慎地权衡犯错的代价。不确定性意味着,不光在预测结果正确时你需要判断,预测结
果错误时,你同样需要判断。换句话说,不确定性会增加特定决定带来的损益所需要的判断成本。
信用卡机构已经采用新的机器学习技术进行盗刷检测。预测机器让它们得以更加自信地编程,让机器
决定是否阻止一笔信用卡交易。随着盗刷预测变得更加准确,把合规交易错误地识别为盗刷的概率下降了。如果信用卡公司不怕在预测中犯错,就可以对机器的决定进行编程,而无须判断拒付一笔交易、惹怒特
定客户带来的代价。这样一来,做决定就容易多了:如果是盗刷,那么就拒付;如果不是,那么就接受交
易。
回报函数工程
随着预测机器带来更好更廉价的预测,我们必须弄清怎样才能最好地运用这些预测。不管我们能不能
提前明晰判断,总需要有人来确定判断。这就是需要回报函数工程的地方,它根据人工智能所做的预测,确定不同动作的回报。做好这项工作,需要了解组织的需求和机器的性能。
有时,回报函数工程牵涉到对判断做硬编码:在预测之前就对回报进行编程,以求实现行为的自动化。自动驾驶车辆就是这种硬编码回报的例子之一。一旦做出预测,动作就立刻执行。但把回报设定正确也
很重要。回报函数工程必须考虑到人工智能对一项成功指标做过度优化的可能性(此时,动作跟组织的更
大目标会不一致)。在自动驾驶汽车领域,有一大堆委员会在做这方面的努力;不过,还有许多新的决策
也需要进行此类分析。
还有些情况,可能的预测结果太多了,提前判断所有可能出现的损益成本过高。人类需要等到预测出
现,接着评估损益,这接近如今大部分决策的运行方式(不管其中是否包含机器生成的预测)。我们将在
下一章中看到,在这些地方,机器也逐渐深入。有些环境下,预测机器可以通过观察过去的决策来预测人
类的判断。
整合
我们大多数人其实已经在做一些回报函数工程了,只不过对象是人类而非机器。父母教孩子价值观。
导师指导新员工系统怎样运作。管理人员为员工提供目标,接着对目标进行调整,以获得更好的绩效。每
一天,我们都会做出决策,评判回报。但当我们为人类做这件事的时候,预测和判断是集中在一起的,回
报函数工程的作用并不明显。随着机器越来越擅长预测,回报函数工程的作用就变得越来越重要了。
为了说明实践中的回报函数工程,让我们以在线岗位发布网站ZipRecruiter的定价决策为例。公司付钱
给ZipRecruiter,为自己希望填补的空缺职位寻找合格的候选人。ZipRecruiter的核心产品是一种大范围的高
效匹配算法,也就是传统猎头公司匹配求职者与公司的升级版。
ZipRecruiter并不清楚该向公司收取多少服务费。收费太少,赚的钱也少;收费太高,客户就会投入竞
争对手的怀抱。为了弄清楚定价,ZipRecruiter请来两位专家——芝加哥大学商学院的经济学家J.P.迪贝(J.P
.Dubé)和桑乔戈·米斯拉(Sanjog Misra),让两人设计实验来确定最佳价格。他们随机分配不同的价格给
不同的潜在客户,判断每一个小组购买的可能性。这样一来,他们就能够确定不同客户对不同的价格有什
么样的反应。
棘手的是要弄清楚“最佳”意味着什么。公司该力争短期收入的最大化吗?为此,它可以选择高价格。
但是高价格意味着客户较少(哪怕从每个客户身上赚到了更多的钱)。这也意味着较少的口碑。另外,如
果发布的职位较少,使用ZipRecruiter找工作的人数恐怕会下降。最后,面对高价格,客户或许会开始寻找
替代品。虽然它们没准会在短期内支付高价格,但长期而言,会转投竞争对手门下。ZipRecruiter应该怎样
权衡这些因素呢?它应该追求哪方面的回报最大化?
价格上涨的短期后果相对容易衡量。专家们发现,针对某类新客户的提价能让日常利润增加50%以上。但是,ZipRecruiter并未立即采取行动。它意识到长期风险的存在,想等一等,观察付了更高价格的客户
会不会离开。4个月后,它发现,提价所带来的收益仍然很高(哪怕提价后有可能带来前述不良后果)。Zi
pRecruiter不愿再放弃较高的利润,并判断4个月的时间足以执行价格变动了。
弄清楚这些不同的动作带来的回报(这是判断的关键步骤)就是回报函数工程,这是人类决策过程中
的根本环节。预测机器是为人类设计的工具。只要还需要人类来权衡结果并进行判断,那么,随着预测机
器的进步,人类还将扮演关键的角色。本章要点
※预测机器提高了判断的价值,因为它们通过降低预测的成本,提高了理解行动相关回报的价值。然
而,判断也有其代价。弄清不同情况下不同行为的相对回报需要付出时间、努力,并进行实验。
※许多决定发生在不确定的条件下。我们以为会下雨,所以决定出门带伞,但我们有可能是错的。我
们认为一笔交易是合规的,决定认可它,但我们有可能是错的。在不确定条件下,我们不光需要判断按正
确决定采取行动时可能带来的回报,也要确定按错误决定采取行动的代价。因此,不确定性会增加指定决
策回报的判断成本。
※如果与决策相关联的动作-情境组合的数量可控,我们便可以把判断交给预测机器(这就是“回报函
数工程”),这样,一旦机器生成预测,它便可以自行做出决定。这就促成了决策自动化。然而,很多时
候,动作-情境的组合太多,提前将每一组合(尤其是极为罕见的组合)相关的损益进行编码的成本太高。
此时,在预测机器做出预测之后,让人来进行判断更为高效。第9章
预测判断
谷歌子公司Waymo(一家研发自动驾驶汽车的公司。——译注)等企业已经成功地测试了在两地之间
用无人驾驶汽车运送乘客了。但这只是开发自动驾驶汽车的一部分。驾驶对车内乘客同样有影响,只是更
难观察。然而,人类驾驶员的确会考虑到车内的其他人。踩刹车时要按车内其他人舒服的方式来踩,就属
于新司机要学习的头等大事之一。故此,Waymo的技术人员必须教旗下的汽车避免紧急制动,而是平缓地
停下。
涉及驾驶的决定有数千个。让人类把对每一可能情况的判断进行编码未免不切实际。所以,我们另辟
蹊径,给自动驾驶系统展示许多例子,训练它们,让它们学习预测人类的判断——“在这种情况下,人类会
怎么做?”驾驶并非特例。凡是人类会一次次做决定的环境,我们都能够收集有关人类接收信息并做出反应
的数据,通过给预测机器提供回报来使之生成预测(“人类会怎么做呢?”),从而自动得出决策。
至少对人类来说,一个根本的问题是,人工智能能否依据人类此前的判断发挥预测能力,并且在此过
程中完全不需要人类的干预。
破解人类
许多决定非常复杂,并且要根据并不容易进行编码的判断进行预测。但这并不能保证人类还能在这些
决定里保持核心地位。相反,一如自动驾驶汽车,机器可以通过观察大量的例子来学习怎样预测人类的判
断。要预测的问题变成:“给定输入数据后,人类会做什么?”
Grammarly公司(一家提供英语语法纠错以及句式优化功能的教育科技公司。——译注)提供了一个例
子。2009年,亚历克斯·舍夫琴科(Alex Shevchenko)和马克斯·利特温(Max Lytvyn)创办了Grammarly,率先使用机器学习来修改正式的书面材料。它的主要重点是改进句子中的语法和拼写。(此处原文为:It's
main focus is on improving grammer and spelling in sentences.——译注)例如,把这句话的英文原文放进Gram
marly软件,它会告诉你,“It’s”应该是“Its”,而且“grammer”拼写错了(应为“grammar”)。它还会告诉你,“main”这个单词容易滥用。
Grammarly软件能做出这些修正,既是靠着一套由资深编辑修正过的庞大语料库来学习的,也靠着从用
户接受或拒绝这些修订建议的反馈来学习的。Grammarly通过这两种方式来预测人类编辑会怎么做。它远远
不只是机械地运用语法规则,而是还会评估人类读者是否偏爱不那么完美的语法。
人类能对人工智能进行训练,这一设想可以扩展到各种各样的情况。旅游人工智能初创公司Lola试图
对预订旅行的流程进行自动化,它以人工智能为核心,从寻找优秀的酒店入手。但正如《纽约时报》的报
道:
(它)跟有着多年经验的人类中介的专业技能没法相提并论。假设,人类中介有着多年预订迪斯尼世
界合家欢业务的经验。人可以更加灵活,比如,他会知道,要是度假的一家人想在灰姑娘城堡前拍一张没有旁人的照片,则应该在开门之前预订公园里的早餐服务。
这个例子表明,一台机器很容易将判断应用到能描述出来的地方(例如,能否预订,价格多少),但
无法理解人类微妙的偏好。然而,Lola软件可以学习预测有着丰富经验和想法的人会怎么做。对Lola而言,问题是这样:为了让预测机器获得足够的反馈,了解其他相关标准,它需要观察多少个预订去奥兰多度假
的样本?Lola公司发现,尽管自己旗下的人工智能在某些标准上很为难,却能够揭示人类中介自己无法提
前描述的决策,比如某些客人偏好时髦的酒店,或是偏好坐落在街角的酒店。
人类训练员帮助人工智能变得足够好,这样,一桩任务中的许多方面就不再需要人类了。人工智能可
以几乎不出错地自动完成某一流程,这一点尤其重要。人可以监督人工智能,纠正错误。随着时间的推移
,人工智能会从错误中学习,直到不再需要人类的纠正。
还有一个例子来自智能助手初创公司X.ai,它专门提供助理服务,为你安排会议,将它新建到日历上。
它通过电子邮件或数字私人助理(“埃米”还是“安德鲁”,随你喜欢),跟用户及用户想要会面的人进行互动。例如,你可以发送一封电子邮件给安德鲁,请它下周四安排你和H先生开会。接着,X.ai访问你的日历,并发送电子邮件给H先生安排会议。H先生恐怕猜不到安德鲁竟然不是人类。重点在于,跟H先生或他的助
理(最好是另一个“埃米”或“安德鲁”)沟通的任务,你算是卸下来了。
显然,如果日程安排出错,或是自动助理冒犯了潜在的受邀者,大难就会来临。多年来,X.ai聘用人类
训练员。他们复查人工智能的反应,考察其准确度,并进行校验。每当训练员进行调整,人工智能就会学
到更好的应对方案。人类训练员的作用,不仅仅是确保礼貌,他们还会应付人类给人工智能助理制造障碍
的不良行为。直到本文写下之时,这种对判断进行预测的方法到底能在多大的程度上实现自动化,仍然未
有定数。
人类会被挤出局吗
如果机器能够学会预测人类的行为,它们会把人类完全挤出局吗?从目前预测机器的发展轨迹看,我
们不这么认为。人类是一种资源,简单的经济学表明,他们仍有事要处理。问题主要在于,对人类来说,这些“事”是价值高还是价值低,极具吸引力还是缺乏吸引力。你所在组织中的人类应该做些什么?你在招
聘新员工时应寻找什么特质?
预测依赖于数据。这意味着,人类相较机器有两点优势。我们知道一些机器(还)不知道的东西,更
重要的是,我们更擅长在数据不足的情况下决定该做什么。
人类拥有机器没有的三类数据。首先,人的感官极为强大。在很多方面,人的眼睛、耳朵、鼻子和皮
肤仍然超过机器的性能。其次,人类是自己偏好的最佳仲裁者。消费者数据非常有价值,因为它向预测机
器提供了有关这些偏好的数据。杂货店为使用会员卡的消费者提供折扣,获取其行为数据。商店出钱请消
费者说明个人偏好。谷歌、Facebook和其他公司提供免费服务,以换取它们能在其他环境中精准投放广告
的数据。第三,隐私担忧限制了机器可用的数据。只要有足够多的人不愿公开自己的性行为、财务状况、心理健康状况和种种惹人反感的念头,预测机器就没有足够的数据来预测许多类型的行为。缺乏足够优质
的数据,我们对人类的认识能为判断这项技能保留一席用武之地,这是预测机器无法学会的。
用极少的数据预测预测机器缺乏数据还可能是因为有些事情极为罕见。如果一台机器无法观察到足够多的人类决策,就
无法预测这些决定暗含的判断。
第6章我们讨论了“已知的未知”,即因缺乏数据而难以预测的罕见事件,比如总统选举和地震。有些情
况下,人类善于用很少的数据进行预测,比方说,就算对方逐渐老去,我们也可以识别对方的脸。我们还
讨论了,按照定义,“未知的未知”为什么难以预测或应对。如果人类从来没有面对过类似的情况,人工智
能是无法预测人类会怎么做的。从这个意义上来说,人工智能无法预测一家公司在面对互联网、生物工程
甚至人工智能本身等新技术时会提出怎样的战略方向。人类能够进行类比,辨别出不同背景下有用的相似
之处。
最终,预测机器在类比上或许会变得更好。尽管如此,我们的观点仍将站得住脚:预测机器不擅长预
测罕见事件。在可预见的将来,出现异常情况时,人类的预测和判断仍有用武之地。
在第6章中,我们还强调了“未知的已知”。例如,我们讨论了这样的情况:哪怕你将来在管理人工智能
方面取得了巨大成功,决定要不要对朋友推荐本书仍然颇具挑战性。挑战在于,假如你没有读过本书,结
果会怎样,这方面的数据你永远得不到。如果你想弄清楚什么是因,什么是果,你便需要观察在跟事实相
反的情况下会发生些什么。
人类主要用两种方法来解决这一问题:实验和建模。如果这一情况经常发生,你可以进行随机对照实
验。以特定的方式对待一部分人(要求他们阅读本书,或至少把书给他们,接着进行相关内容的考试),让另一些人作为对照(要求他们不得阅读本书,或至少不向他们做宣传)。接下来,等上一段时间,收集
他们在工作中应用人工智能的程度。将两组人进行比较。实验组与对照组的区别,就是阅读本书带来的结
果。
这类实验作用极大。没有它们,新的治疗方法将得不到通过。从谷歌到Capital One(第一资本金融公
司)等,数据驱动型公司的许多决策也受它们的推动。机器也可以进行实验。只要情况出现得足够多,进
行实验的能力并非人类独有。机器可以进行实验,然后通过学习来预测是什么导致了什么,就跟人类一样。如今,机器在许多电子游戏上的表现都超过了人类,实验就是这其中的关键因素之一。
除了实验,你还可以选择建模。建模涉及深入了解所测数据生成的情况和过程。在无法进行实验(情
况出现得不够多,或是进行实验的代价太高)的时候,它尤其有用。
我们前一章介绍过在线岗位发布网站ZipRecruiter决定最佳价格的策略,它包括了两部分。首先,它需
要弄清楚“最佳”意味着什么:是短期收入,还是较长期的东西?是更多的求职者、更多的广告商,还是更
高的价格?其次,它需要选择一个具体的价格。为了解决第二个问题,它进行了实验。专家设计了实验,但原则上,随着人工智能的进步,只要拥有足够的广告商和足够的时间, ......
ISBN:9787535799647本书仅供个人学习之用,请勿用于商业用途。如对本书有兴趣,请购买正版书
出版时间:2018年12月
出版社:湖南科学技术出版社·博集天卷
作者:【加】阿杰伊·阿格拉沃尔;乔舒亚·甘斯;阿维·戈德法布
书名:AI极简经济学
C O P Y R I G H T
献给:
我们的家人、同事、学生,以及初创企业,是他们启发我们冷静、深入地思考人工智能。第1章
导言
下面的场景就算眼下听上去不太耳熟,也很快会变成生活中的常态。一个小孩正独自在房间写作业。
突然,房里传来:“特拉华州的首府是哪里?”家长开始琢磨。巴尔的摩……显然不对……威尔明顿……不
是首府。家长还没想完,一台名叫“Alexa”的机器就给出了正确答案:“特拉华州的首府是多佛。”Alexa是亚
马逊的人工智能(Artificial Intelligence,简称AI)语音助手,能够理解自然语言,并以闪电般的速度回答问
题。Alexa将取代父母,成为孩子眼里全知全能的信息来源。
人工智能无处不在。它在手机、汽车里,在我们购物、相亲的过程中,它甚至遍布医院、银行和媒体。难怪公司董事、首席执行官、高级副总裁、经理、团队领导、企业家、投资人、教练和决策者都在这场
了解人工智能的竞赛中感到焦虑:他们意识到,人工智能即将从根本上改变他们的行业。
我们三人站在了一个有利于观察人工智能进步的独特位置。我们都是经济学家,因为研究上一轮伟大
的技术革命——互联网而奠定了职业发展的方向。经过多年的研究,我们学会了透过铺天盖地的宣传,把
目光聚焦于技术对于决策者的意义上。
我们还创立了颠覆性创新实验室(Creative Destruction Lab,简称CDL)。这是一个尚处于种子阶段的
项目,旨在提高科学型初创企业的创业成功率。起初,该实验室对所有类型的初创企业开放,但到2015年
,许多激动人心的投资结果都是来自人工智能方向的公司。据我们所知,截至2017年9月,颠覆性创新实验
室已连续三年成为全球最密集的人工智能初创企业的聚集地。
出于这个原因,该领域的许多领导者定期前往多伦多参加颠覆性创新实验室的活动。例如,在整个项
目研发期间,为亚马逊的Alexa发明人工智能动力引擎的主要人物之一威廉·滕斯托尔-佩多(William Tunstal
l-Pedoe),每隔八周就从英国剑桥飞到多伦多与我们碰头。旧金山的巴尼·佩尔(Barney Pell)也是如此,此前,他曾领导美国国家航空航天局旗下一支85人的团队,把第一代人工智能发射上了浩瀚太空。
颠覆性创新实验室在这一领域获得主导地位,一部分原因是我们恰好位于加拿大的多伦多。近年来,机器学习推动了人们对人工智能的研究兴趣,而多伦多又孕育了很多机器学习领域的核心发明。实际上,当今已经产业化的世界顶级人工智能团队,包括Facebook、苹果公司和埃隆·马斯克(Elon Musk)的Open A
I在内,其领头专家都有多伦多大学计算机科学系的背景。
与如此多人工智能的应用近距离接触后,我们不得不思考这一技术给企业战略带来了何种影响。我们
的解释是,人工智能是一种预测技术,预测是决策的输入端,而经济学又为任何决策所包含的权衡取舍提
供了一套完美的解释框架。所以,一半靠运气,一半靠策划,我们发现自己在恰当的时间和地点为技术专
家和商界从业者架起了一座桥梁,结果便是这本书。
我们的第一个重要发现是,人工智能新浪潮实际上并没有给我们带来智能,它带来的是智能的一个关
键组成部分——预测。在上面的场景中,小孩提出问题时,Alexa做的是,收录听到的声音,预测小孩说出
的单词,再预测这些单词要查找的信息。Alexa并不“知道”特拉华州的首府,但可以预测:当人们提出这样
一个问题时,他们寻找的就是一个特定的答案——多佛。颠覆性创新实验室的每一家初创企业都建立在更准确的预测带来的好处上。Deep Genomics(深度学习
基因公司)通过预测DNA改变时细胞发生的变化来改进其医学实践。Knote公司通过预测文档的哪些部分应
该编辑来改进法律实践。Validere公司通过预测输入原油的含水量来提高炼油厂的效率。这些应用之道,就
是大多数企业不久的将来发展方向的缩影。
如果你想弄明白人工智能对自己意味着什么,却又一头雾水,那么这里有我们带来的好消息。哪怕你
从未涉足卷积神经网络的编程工作,也从未研究过贝叶斯统计学,我们也能帮你理解人工智能的含义,领
略这一技术的进步。
如果你是公司领导,我们可以帮助你了解人工智能对管理和决策的影响。如果你是学生,或者刚毕业
,我们能为你提供一套框架,思考就业的演变和未来的职业发展。如果你是金融分析师或风险投资人,我
们将为你提供可构建个人投资主张的结构。如果你是一位政治决策者,我们将为你提供指导,帮助你理解
人工智能将怎样改变社会,政策又该如何塑造这些变化,让它们朝着好的方向前进。
经济学为理解不确定性,以及不确定性对决策的意义,提供了坚实的基础。更准确的预测可以降低不
确定性,我们用经济学告诉你,人工智能对你在运营企业的过程中即将做出的决策意味着什么。反过来说
,凭借这些认识,你将更加明白,对于企业内部的工作流程来说,哪些人工智能工具可能给你带来最高的
投资回报率。由此,你将构建起一套设计企业战略的框架,比如怎样重新思考企业的规模和经营范围,以
便利用基于廉价预测的全新经济现实。最后,我们还罗列了与人工智能相关的重要权衡:就业、企业权力
的集中度、隐私和地缘政治。
什么样的预测对你的公司最为重要?人工智能的进一步发展,会怎样改变你赖以为重的预测?随着个
人电脑和互联网的兴起,各行各业重新配置了就业岗位,为响应预测技术的进步,你所在的行业将怎样对
就业岗位进行重新配置?人工智能是全新的技术,目前人们对其缺乏了解,但我们所应用的经济学坚实可
靠;我们所举的案例当然会随着时代前进而被淘汰,但本书所介绍的框架却不然。哪怕随着技术进步,预
测更加精确化和复杂化,我们的这些见解仍将适用。
但《AI极简经济学》并非你在人工智能经济时代取得成功的制胜法宝。身为经济学家,我们强调权衡
与取舍。数据越多,意味着隐私越少。速度越快,意味着准确度越低。自主性越强,意味着控制力越弱。
我们无法为你的企业开出最佳战略的处方。那是你的任务。最适合你所在公司或所属职业的战略应该取决
于你在每一次权衡时怎样拿捏各方要素的权重。本书提供的是一种结构,让你锁定关键的权衡,评估利弊
,以做出最适合你的决策。当然,就算你手里有了我们的框架,情况也在迅速变化。这意味着,你需要在
无法充分掌握信息的条件下做出决定,但即便如此,这也比无所作为好。
本章要点
※人工智能当前的进步浪潮给我们带来的其实不是智能,而是智能的一个关键组成部分——预测。
※预测是决策的核心输入。经济学有着成熟完备的框架可解释决策的产生。预测技术的进步带来的潜
在意义还很新,人们也缺乏足够理解,但它与经济学中历史悠久且为人熟知的决策理论的逻辑结合起来时
,可带来一系列洞见,指导你所在的组织走向通往人工智能的道路。
※什么是最好的人工智能战略,什么是最出色的人工智能工具,往往并无固定答案,因为人工智能关
乎权衡:速度越快,准确度就越低;自主性越强,控制权就越弱;数据越多,隐私就越少。我们为你提供了一种方法,这一方法可以识别出各种人工智能决策的相关权衡,让你可以根据自己组织的使命和目标,评估交易的两面性,最终做出最适合自己的决策。第2章
廉价改变一切
所有人都已经,或者即将迎来自己的人工智能顿悟时刻。我们习惯了媒体上充斥着“新技术即将改变生
活”的报道。虽然我们中有些人是技术爱好者,欢庆着未来的无尽可能,另一些人是技术恐惧者,哀悼逝去
的美好时光,但几乎所有人,都太习惯技术新闻不断敲响的鼓点了,以至于近乎麻木地念叨着,“唯一不变
的就是变化本身”。直到我们迎来自己的人工智能顿悟时刻。然后,我们意识到这次的技术有些不一样了。
2012年,一些计算机科学家经历了他们的人工智能顿悟时刻。当时,多伦多大学的一支学生团队在可
视物体识别大赛ImageNet(ImageNet是按照WordNet架构组织的大规模带标签图像数据集。)中以优异的成
绩胜出,第二年,所有的决赛队伍都采用了当时还很新颖的“深度学习”法参与竞争。物体识别不仅仅是一
场比赛——它能让机器“看见”。
2014年1月,一些技术公司的首席执行官经历了他们的人工智能顿悟时刻。他们看到头条新闻上说,谷
歌刚刚花了6亿多美元买下了英国初创公司DeepMind。尽管相较收购价格,这家初创公司创造的收入微不足
道,但它展示了人工智能在独立自主且未安装预设程序的情况下学会了玩雅达利电子游戏,并且获得高于
人类的成绩。
那年晚些时候,一些普通人经历了他们的人工智能顿悟时刻。他们听到著名物理学家斯蒂芬·霍金(Ste
phen Hawking)着重解释道:“……文明能提供的一切,都是人类智慧的产物……人工智能的成功发明将成
为人类历史上的最大事件。”
还有些人在第一次乘坐高速行驶的特斯拉时,经历了自己的人工智能顿悟时刻。他们将手从方向盘上
松开,让汽车依靠自动驾驶仪(Autopilot AI)在车流里穿梭。
中国政府经历了人工智能顿悟时刻:全国上下目睹了DeepMind公司开发的人工智能围棋软件AlphaGo
(阿尔法狗)在2016年击败韩国围棋选手李世石,并于次年击败全球排名第一的中国棋手柯洁。《纽约时
报》将这次比赛形容为中国的“斯普特尼克时刻(Sputnik moment)”。正如苏联发射人造卫星“斯普特尼克
号”使得美国大力投资科研,中国对这一事件做出了类似反应,制定了到2030年占据人工智能世界领先地位
的国家政策,并对此给予了财政支持。
2012年,我们自己也经历了人工智能顿悟时刻:当时我们观察到,采用最先进的机器学习技术、向颠
覆性创新实验室提出申请的人工智能初创公司的数量,已经从涓涓细流变成了一股激流。这些公司涉及多
个行业——药物开发、客户服务、制造、质保、零售和医疗器械。这项技术十分强大且通用性极强,在范
围极广的应用领域中创造了重要价值。我们着手研究,试图从经济角度理解它的意义。我们知道,与其他
技术一样,人工智能受制于同一种经济环境。
简而言之,技术本身让人惊叹。早些时候,著名风险投资家史蒂夫·尤尔韦特松(Steve Jurvetson)打趣
说:“几乎可以肯定的是,你在未来5年体验到的任何像变戏法一样的产品,都建立在这些算法之上。”史蒂
夫说人工智能就像是“变戏法”,跟《2001太空漫游》《星球大战》《银翼杀手》,以及更近的《她》和《
机械姬》等电影里的描述相呼应。我们理解史蒂夫对人工智能应用的描述(“变戏法”),也对此感同身受,但身为经济学家,我们的任务是把这些扑朔迷离的设想变得简单、清晰且实用。
戳穿噱头
经济学家对世界有着与众不同的看法。我们会从供求关系、生产与消费、价格与成本的框架来思考一
切问题。虽然经济学家们之间经常意见不一,但我们立足于一套共同的框架。我们对假设和阐释存在争议
,但我们对基本的概念,如稀缺性和价格竞争所扮演的角色意见一致。这种观察世界的方法带给我们一个
独特且有利的视角。从消极的一面来说,我们的视角可能会显得很枯燥,无法让我们成为晚宴上受欢迎的
客人。从积极的一面来说,它有利于为商业决策提供清晰的信息。
我们从最基础的价格着手。如果某样东西的价格下降,那么我们会更多地使用它——这就是简单的经
济学。这种情况正出现在人工智能行业。人工智能变得随处可见了。它挤满了你手机的应用程序,它正在
优化你的电网,它正在取代你的股票投资组合经纪人。用不了多久,它说不定就会载着你到处走,或者给
你配送快递了。
如果说经济学家擅长做某件事的话,那就是“戳穿噱头”。当其他人看到的是改头换面的新发明时,我
们只看到价格下跌。但不仅如此,要了解人工智能如何影响了你所在的机构,你必须清楚地知道哪些东西
的价格发生了变化,以及这种变化将如何蔓延至更广阔的经济领域。此时,你才能制定应对之策。经济发
展的历史告诉我们,对重大发明带来的冲击感受最深的通常是人们意想不到的领域。让我们回想一下1995
年商业互联网的故事。在大多数人看着《宋飞正传》时,微软发布了自家第一套多任务操作系统Windows 9
5。同年,美国政府解除了在互联网上承载商业流量的最后限制,网景公司迎来了商业互联网上第一次重大
的首次公开募股(IPO)。互联网从“新奇好玩的技术”变成一股席卷所有行业和政府的商业浪潮,那一年是
转折点。
网景公司的首次公开募股获得了30亿美元的估值,哪怕它一分钱也没赚过。风险投资家对初创公司动
辄给予数百万美元的估价,即便它们还处在用一个新词描述即“前收入”(pre-revenue)的阶段。刚毕业的工
商管理硕士(MBA)毕业生拒绝了收入诱人的投资银行和咨询工作,打算到网上去搏一搏运气。随着互联
网的影响逐渐扩散至各行各业,遍及价值链上下,技术倡导者们不再把互联网称为新技术,而开始把它称
作“新经济”。这个词流行开来。互联网超越了技术,从基础层面渗透到了人类活动的方方面面。政治家、企业高管、投资人、企业家和主要新闻机构开始使用这个词。每个人都开始畅谈“新经济”。
每个人,我的意思是,除了经济学家之外的每个人。我们没有看到新的经济,或者新的经济学。对于
经济学家来说,它看起来就是寻常的旧经济。诚然,发生了一些重要的变化。商品和服务可以数字化流通
了。交流变得更容易。想要查找信息,点击搜索按钮就行了。但所有这些事情,从前都能做到。只不过,它们现在可以以低廉的成本做到了。换句话说,互联网的兴起意味着分销、通信和搜索成本的下降。从由
贵转贱、由稀缺变富足的思维来重新阐释这种技术进步,有利于思考它对你的事业会产生何种影响。例如
,如果要你回想第一次使用谷歌搜索的体验,你会记起它魔术般呈现信息的能力。而以经济学家的角度看
,谷歌只是让搜索变得更廉价了。当搜索变得廉价时,那些通过别的方式提供信息检索并以此赚钱的企业
(如黄页、旅行社、分类广告等)感到了严重的危机。与此同时,那些仰赖被人发现的职业(如自助出版
作品的作家、稀有收藏品卖家、本土电影制作人等)得到了蓬勃发展。
没错,特定活动相对成本的这种变化,极大地影响了部分企业的商业模式,甚至也影响了部分行业的结构体系。然而,经济规律并未发生改变。一切仍然可以从供求的角度来理解。我们仍然可以利用现成的
经济学原理,制定策略、为政策提供信息、预测未来。
廉价意味着随处可见
当某种基础产品的价格大幅下跌时,整个世界都可能发生变化。以照明为例。你很可能是在人工光源
下阅读这本书的。而且你兴许从来没想过,为了读书而打开灯是否值得的问题。照明太廉价了,任你使用。但经济学家威廉·诺德豪斯(William Nordhaus)曾做过细致的考察,要在19世纪初获得等量的照明,你的
花销是如今的400倍。在这样的价格下,你不可能不注意到成本。要不要使用人工照明工具来阅读本书,会
让你反复掂量。照明价格此后的下跌点亮了整个世界。它不仅把夜晚变成了白昼,而且让人得以在自然光
线无法穿透的大型建筑物里工作和生活。要不是人工照明的成本跌到几近于无,我们今天拥有的一切几乎
都无法实现。
技术变革让原本昂贵的东西变得廉价。照明成本的急剧下降,使我们的行为发生了转变,从先前需要
决定是否开灯,到现在毫不迟疑地打开电灯开关。这种下降给了我们机会去做原先无法做到的事情;它把“
不可能”变成了“可能”。所以,像照明这样的基本生产资料的价格大规模下跌将带来什么样的影响,经济学
家毫无例外会对此着迷。
廉价照明带来的一些影响很容易想象,另一些却不那么明显。当新技术(不管是人工照明、蒸汽动力
、汽车,还是计算机)令得某种东西变得廉价,到底什么会受到影响,并不总是一目了然的。
蒂姆·布雷斯纳汉(Tim Bresnahan)是斯坦福的经济学家,也是我们的导师之一。他指出,计算机运行
算法,仅此而已。计算机的出现和商业化让算法变得廉价了。(这属于运算的整体成本逐渐减少这一漫长
趋势的一部分。)一旦算法变得廉价,我们不仅在传统领域内需要运算的地方更加频繁地应用它,也会把
这种新近变得廉价的运算能力应用到一些此前与运算无关的领域,例如音乐。
被誉为第一位程序员的埃达·洛夫莱斯(Ada Lovelace)看到了这种潜力。在19世纪初昂贵的照明条件
下,她撰写了最早的录制程序,在查尔斯·巴比奇(Charles Babbage)设计的一台尚处理论阶段的“计算机”
上,计算出了一连串数字(“伯努利数”)。这里,有必要提一笔巴比奇,因为他也是一位经济学家。我们
在本书中会看到,这不是经济学和计算机科学唯一的交叉点。但理解运算能够“扩大规模”(这是现代初创
公司的术语)和实现更多功能的人是洛夫莱斯。她意识到,计算机的应用并不局限于数学运算。“比如,假
设和声科学和音乐作品里音调的基本关系可以用数学方式来表达,那么,这台引擎就能创作出精致而又科
学的作品,再复杂的作品都没问题。”当时计算机并未问世,但洛夫莱斯却预见到,音乐(按照定义,它是
一种充满艺术和人性的形式)可以存储在运算机器里,并反复播放。
日后发生的情况正是如此。一个半世纪之后,运算的成本变得足够低,继而产生了大多数人做梦都不
曾料到的成千上万种应用方式。由于算法对于许多事情都是一种重要的输入要素,在它变得廉价之后,与
此前照明上发生的事情一样,它改变了世界。以净成本之类的术语来描述某种最新的伟大技术,能够戳穿
噱头,尽管这么做不能让这一技术看上去那么令人兴奋。你永远不会见到史蒂夫·乔布斯发布“一台全新的加
法机”,尽管这就是他做的全部事情。通过减少某些重要部分的成本,乔布斯的全新加法机改变了世界。
现在,让我们来看看人工智能。人工智能在经济上的重要意义,正是因为它会让重要的东西变得廉价。此刻,你或许正思考这东西会是智能、推理或思想本身。你也许想象着,机器人或那种没有血肉之躯的“生命”已经无处不在,就像《星际迷航》里友好的机器人,它们让你不需要再费心思考。洛夫莱斯也想到了
同样的内容,但她很快打消了这个念头。她写道,至少考虑到计算机本身,“它没有创造的野心。它可以做
任何我们吩咐它去执行的事情。它可以按照分析去做,但它不具备预知需要解析的关系或真相的能力”。
尽管伴随人工智能的概念出现了各种噱头和信仰,但阿兰·图灵(Alan Turing)日后所称的这一“洛夫莱
斯夫人的异议”始终屹立不倒。计算机依然无法思考,所以思考还不会变得廉价。相反,会变得廉价的是某
种非常普遍的东西,就跟运算一样,你甚至都意识不到它会变得何等常见,以及其价格下跌将对我们的生
活和经济产生何等庞大的影响。
新的人工智能技术会让什么东西变得廉价呢?预测。故此,经济学显示,我们不仅会大量运用预测,还将看到它应用于出人意料的新领域。
廉价创造价值
预测是填补缺失信息的过程。预测将运用你现在掌握的信息(通常称为“数据”),生成你尚未掌握的
信息。大部分有关人工智能的讨论强调的是花样繁多的预测技术,而这些技术有着愈发艰涩模糊的名称和
标签:分类、聚类、回归、决策树、贝叶斯估计、神经网络、拓扑数据分析、深度学习、强化学习、深度
强化学习等。对有志于将人工智能应用于解决具体预测问题的技术人员而言,这些技术都非常重要。
本书会替各位读者略过这些方法背后的数学细节。我们强调的是,这里的每一种方法都与预测有关:
用你已有的信息生成你尚未掌握的信息。我们的重点是帮助你找出预测会在哪些环境下体现出价值,以及
怎样尽量多地从预测中受益。
预测更廉价,意味着预测会变得更多。这是简单的经济学:某件事情的成本下降,我们就会更多地做
这件事。例如,20世纪60年代,运算成本开始迅速下降,我们就在需要的地方使用了更多的运算,比如人
口普查局、国防部和美国国家航空航天局(电影《隐藏人物》中曾出现过)。更有趣的是,后来,我们还
开始在非传统运算问题的地方运用全新的廉价运算,例如摄影。我们过去用化学方法来解决摄影问题,但
当运算变得足够廉价后,我们便改用基于运算的解决方法:数码相机。一张数码照片不过是能通过算法变
成可观看图像的一连串0和1的组合而已。
预测也一样。预测被应用于传统事务,例如存货管理和需求预测。更为重要的是,由于预测变得廉价
,它也逐渐被用来解决一些非传统预测领域的问题。集合人工智能(Integrate.ai)公司的凯瑟琳·豪(Kathry
n Howe)把那种将传统问题重组为预测问题的能力称为“人工智能洞见(AI Insight)”。时至今日,全世界
的工程师都在学习这种能力。自动驾驶汽车已经在受控的环境下存在了20多年。然而,它们只能在有着详
细平面图的场所活动,比如工厂、仓库等。有了平面图意味着工程师可以设计机器人按基本的“如果-那么(
if-then)”逻辑来运行:如果有人在车辆前面行走,那么就停下;如果货架是空的,那么就转向下一排。但
这些车辆永远无法进入普通的城市街道。普通大街上会发生的事情太多了,不可能一一对应地编写成“如果-
那么”的代码。
自动驾驶车辆无法在高度可预测、可控制的环境之外运行,直到工程师们重新从预测的角度对问题做
了框定。工程师们意识到,不必告诉机器在每一种场合下要做什么,只要把焦点放在一个预测问题上即可
——“人类会怎么做”,依靠足够廉价的预测,我们把驾驶变成了预测问题。如今,企业投入数十亿美元训
练机器在非受控环境下,甚至在城市的街道和高速公路上自动驾驶。试想一下一个人工智能机器人和人类驾驶员一起坐在汽车里的情景。人类驾驶员开车行驶过数百万英
里,他通过眼睛和耳朵接收环境数据,用大脑处理这些数据,再根据传入的数据采取相应的行动:直行或
转弯,刹车或加速。工程师们给人工智能安装了各种传感器(如摄像机、雷达、激光定位器等),让它有
了自己的眼睛和耳朵。所以,人类驾驶员开车的时候,人工智能观测传入的数据,同时观察人的行为。当
特定的环境数据传入时,人类驾驶员会右转、刹车,还是加速?人工智能对人类驾驶员观察得越多,就能
越好地预测驾驶员在接收到特定环境数据时将要采取的具体行动。通过预测人类驾驶员在特定路况下怎么
做,人工智能学会了驾驶。
关键在于,当预测等生产资料变得廉价时,另一些东西的价值会随之提高。经济学家称之为“互补品”。一如咖啡成本的下降会提高糖和奶油的价值,对自动驾驶汽车而言,预测成本的下降会提高捕捉车辆周
边数据的传感器的价值。这里举一个例子说明这些互补品的价值:2017年,英特尔拿出150多亿美元收购以
色列初创公司Mobileye。这主要是为了得到后者的数据采集技术,该技术可让车辆有效地“看到”物体(停车
标志、行人等)和标识(车道线、道路)。
一旦预测变得廉价,就会出现更多的预测,更多的预测互补品。这两种简单的经济力量推动了预测机
器创造的新机遇。从初级层面看,预测机器可以代替人完成预测任务,节省成本。随着预测机器开始运转
,预测有可能发生变化,并提高决策的质量。但等到了某个时间点,预测机器变得十分精确且可靠,以至
足以改变组织运作的方式。换句话说,一些人工智能对企业的经济效益产生了巨大的影响,它们不光可以
提高策略执行过程中的生产力,还将改变策略本身。
从廉价到战略
企业高管们最常问我们的一个问题便是:“人工智能对企业战略有怎样的影响?”以下是我们用来回答
这个问题所做的思想实验。大多数人都熟悉怎样在亚马逊网站上购物。跟大部分在线零售商一样,你访问
网站,选购商品,将商品放进“购物车”里,付款,接着亚马逊把商品寄给你。目前,亚马逊的商业模式是
先购物再发货。
在购物过程中,亚马逊的人工智能预测你想要买什么,然后提供相应的推荐。考虑到眼下亚马逊有数
百万种商品在售,人工智能的工作算是合理。但它远远不够完美。就我们自己而言,对我们想要购买的东
西,人工智能能准确预测5%。换句话说,它每推荐20种商品,我们实际上会购买一件。这样的成绩还不赖
嘛!
设想一下,亚马逊的人工智能收集了我们更多的信息,并使用这些数据来改进它的预测。照我们的想
法,这种改进就像是调高扬声器的音量旋钮。只不过,它们调高的不是音量,而是人工智能预测的准确性。
它们转动旋钮到了某个点,人工智能预测的准确度跨越了某个临界值,以至于改变了亚马逊的商业模
式。这种预测准确到,直接把它预测你想要购买的商品寄送给你(甚至不用等到你下订单)。这样能让亚
马逊赚更多钱!
有了它,你再也不需要到其他零售商那里去了,而且商品还没买就寄送到手,这有可能促使你购买更
多其他的东西。亚马逊能从你的钱包里捞到更多钱。很显然,这对亚马逊来说很棒,但对你来说同样很棒。倘若一切进展顺利,亚马逊还没等你选购就把商品送上了门,让你免于购物之苦。预测的旋钮调得足够高,使亚马逊的商业模式从“先买后寄”变成了“先寄后买”。
当然,退回所有自己不想要的东西,这样的麻烦事消费者可不愿承担。因此,亚马逊将投资产品退换
方面的基础设施,比如一支负责配送的车队,每周做一轮巡检,轻松地回收顾客不想要的东西。(亚马逊
已经在着手解决潜在的安全隐患。2017年,它推出了Amazon Key,这套系统允许配送人员打开你家的大门
,将包裹放在室内,监控摄像头将录制其间的一切情况,确保一切顺利进行。)
如果这是一种更好的商业模式,为什么亚马逊还没有这么做呢?因为如果现在执行它,收集和处理退
货商品的成本将远远超出从顾客那里多赚到的钱。比方说,如今我们要退掉寄来的95%的商品。这对我们
来说会很烦人,对亚马逊来说也代价高昂。这样的预测,对亚马逊而言还不够好。
我们不难想到,亚马逊会在这项技术精确到能够为其带来利润之前,就抢先采用这一战略,因为亚马
逊已预见,只要预测精确到一定程度,它必会带来利润。早人一步推行,亚马逊的人工智能将更快地获得
更多数据,进而更迅速地改进。亚马逊意识到,开始得越早,竞争对手就越难赶上。好的预测会吸引更多
的购物者,更多的购物者会产生更多的数据来训练人工智能,更多的数据会带来更好的预测,如此周而复
始,实现良性循环。太早采用新战略可能代价高昂,但出手太晚,对公司而言恐怕是致命的。(有趣的是
,一些初创公司已经在这么考虑了。Stitch Fix公司使用机器学习来预测客户想要什么样的衣服,并邮递包
裹给他们。客户不想要的话,就把衣服退还给公司。2017年,Stitch Fix基于这一模式成功进行了首次公开
募股——这或许是第一家高举“人工智能优先”大旗成功上市的初创公司。)
我们的观点不是亚马逊会这样做或者应该这么做,虽说我们也有个消息想告诉心存疑虑的读者们:早
在2013年,亚马逊就在美国拿到了一项“预测性购物”的专利。我们主要想指出,上调预测旋钮对战略很明
显有着重大影响。从这个例子来看,它将亚马逊的商业模式从先买后寄变成了先寄后买,激发了将产品退
货服务(包括组建卡车车队)垂直整合到运营当中的动力,使得投资时机更为紧迫。所有这一切,完全是
因为预测机器的旋钮上调了。
这对战略来说意味着什么呢?首先,针对你所在的行业和你对人工智能的应用,预测机器的旋钮上调
的速度有多快,程度有多高,你必须进行投资,以收集相关方面的情报。其次,你还需要对旋钮上调后带
来的战略选择进行投资,以发展出一套相关理论。
为开展这一“科幻小说式”的练习,请闭上眼睛,想象一下把自己的手指放到预测机器的旋钮上,默念
电影《摇滚万万岁》(This is Spinal Tap)里那句不朽的台词:把它转到11。(按照电影里的表现,吉他手
自豪地向同伴们展示了一台放大器,音量旋钮上的记号是0到11,而不是通常的从0到10。这里指:本质上
相同的东西,随着数量的累积,从量变进入了质变。——译注)
本书计划
预测机器对你所在的组织有什么样的战略意义?在这一切豁然开朗之前,你必须先打好基础。而这就
是我们这本书的结构,从地基开始打造一座金字塔。
我们在第一部分打基础,解释机器学习如何使预测变得更好。接着,我们将解释为什么这些新的进步
,与你在学校里学过的统计学以及你的分析师所做的统计工作不一样。然而,我们要考虑预测的一项关键
互补品,即数据,尤其是做出准确预测所需要的那种数据,以及怎样判断自己是否拥有此类数据。最后,我们深入探索预测机器的表现在哪些方面会变得比人类更优秀,而哪些方面机器和人一同工作可能会获得更准确的预测。
在第二部分,我们把预测的角色阐述为决策的输入端,并解释了另一要素——判断的重要性。人工智
能界迄今为止尚未给予这一要素足够的重视。预测通过减少不确定性使人们做出决策更加便利,而判断的
作用则在于分配价值。用经济学家的话来说,判断是一种用来确定损益(payoff)(payoff在博弈论中常被
译作“支付”或“收益”,但该词本身就有正负两义,故此译为“损益”较合适。——译注)、效用、回报或利润
的技能。预测机器最重要的影响是它提高了判断的价值。
第三部分着眼于实际问题。人工智能工具让预测机器变得有用,同时它也是预测机器执行特定任务的
实现手段。我们概述了三个步骤,帮助读者们了解什么时候开发(或购买)人工智能工具获得的投资回报
最高。有时候,这些工具能完美地跟现有工作流程相结合;另一些时候,它们促进了对工作流程的重新设
计。在这个过程中,我们会引入一种重要的辅助手段,以明确某个人工智能工具的关键特征。这一辅助手
段便是人工智能画布。
我们在第四部分转向战略。正如我们在亚马逊思想实验中所介绍,有一些人工智能将对任务的经济特
性产生深远影响,以至能够彻底改变相关的企业或行业。等到了那个时候,人工智能就将成为一个组织的
战略基石。一旦人工智能对战略产生影响,关注人工智能的人就会从产品经理和维运工程师变成豪华办公
室里的企业高层。有时候,人们很难提前判断一种工具能否产生如此强大的效果。比方说,人们第一次使
用谷歌的搜索工具时,几乎没有人预料到,它竟然彻底改变了媒体行业,并且成为这个全球最有价值的公
司的业务基础。
除了这些正面的机遇,人工智能也会带来系统性风险,除非你抢先行动,否则,它会冲击你的业务。
大众最近的讨论似乎着眼于人工智能对人性的危胁,而人工智能对组织造成的危害,人们给予的关注就少
得多。比方说,一些在人类生成的数据的基础上训练的预测机器已经“学会”了危险的偏见和刻板印象。
我们将在本书结束的第五部分拿出经济学家的工具包,探索对社会影响更为宽泛的若干问题,考查五
个最常见的人工智能议题:
1. 未来还存在工作岗位吗?当然。
2. 这会造成更多的不平等吗?有可能。
3. 少数大公司会控制一切吗?要看情况。
4. 各国是否会采用逐底竞争的方式制定政策,放弃人们的隐私和安全,好让本国企业获得竞争优势?
有些国家的确会这么做。
5. 世界末日会到来吗?不管它什么时候来,各位读者都还有足够时间从本书获益。
本章要点
※经济学为廉价预测的商业意义提供了清晰的观点。预测机器将被用来完成传统的预测任务(库存和
需求预测),以及解决新的问题(如导航和翻译)。预测成本的下降将影响其他东西的价值:提高互补品
(数据、判断和行动)的价值,降低替代品(人类预测)的价值。
※组织可以采用人工智能工具来协助执行当前战略,通过这种方式应用预测机器。当这些工具越来越
强大之后,它们就可能促进战略本身的转变。比方说,如果亚马逊可以预测购物者想买什么,就有可能从
如今的先买后寄模式变为先寄后买模式——顾客订购前就把商品送到家。这一转变也将让组织发生天翻地覆的变化。
※当各种机构致力于利用人工智能时,这些新战略带来的结果是,我们将面临一系列与人工智能对社
会的重大影响相关的新权衡。我们的选择将取决于人的需求和偏好,在不同的国家和文化中,这些选择定
然有所不同。我们将本书分为五部分,以反映人工智能在五个不同层面上的影响,从预测的基础一路上升
至社会的权衡:(1)预测,(2)决策,(3)工具,(4)战略,(5)社会。第一部分
预测第3章
预测机器的魔力
哈利·波特、白雪公主和麦克白这三个人物有什么共同点吗?他们都被预言或者预测所驱动。就连《黑
客帝国》这部看似讲智能机器的电影里,人类对预测的信念也是剧情的推力。不管是宗教还是童话,有关
未来的知识都会产生重大结果。预测影响行为。预测影响决策。
古希腊人敬奉的许多神谕宣示所都有着了不起的预言能力。有时候,这些预言中的谜语会捉弄提问人。举个例子,吕底亚国王克罗伊斯打算冒险攻打波斯帝国。国王不信任何特定的神谕,于是决定在寻求攻
打波斯的建议之前逐一检验这些神谕。他向每一座神谕宣示所派去了使者。在第100天,信使们被派去询问
克罗伊斯此刻正在做什么。来自德尔斐的神谕最为准确,于是国王请它降示有关攻打波斯的预言,并对此
深信不疑。(为提醒读者们注意到谨慎阐释预测的重要性,我们需要指出:德尔斐的神谕是,如果国王发
动攻击,一个大的帝国将被毁灭。于是,国王大胆地攻打了波斯,可令他震惊的是,被毁灭的竟是他自己
的吕底亚帝国。从技术上说,预言说得没错,只是遭到了误读。)
跟克罗伊斯的例子一样,预测可以是关于当下的。我们预测当前的信用卡交易是合法还是欺诈,医学
影像中的肿瘤是恶性还是良性,以及出现在苹果手机摄像头里的是不是它的主人。尽管“预测”的拉丁语词
源“praedicere”的意思是“事先知道”,但我们对预测的文化解读强调的是看到本来看不见的信息,不管这信
息是来自过去、现在还是未来。水晶球也许是人们最熟悉的魔法预言的象征了。我们常把水晶球跟“算命师
预测某人将来的财运或爱情”联系起来,但在《绿野仙踪》里,水晶球让多萝西看到了当下的爱姆婶婶。这
给我们带来了预测的定义:
预测是填补缺失信息的过程。
预测将运用你现在掌握的信息(通常称为“数据”),来生成你尚未掌握的信息。
预测的魔力
几年前,阿维(本书作者之一)注意到自己的信用卡在拉斯维加斯赌场产生了一笔大得异乎寻常的交
易。他本人并不在拉斯维加斯。他只去过那儿一次,而且是很久以前;赌博注定要输,以他的经济学家世
界观而言,这毫无吸引力。他跟信用卡服务商展开了漫长而艰难的拉锯式对话,终于,服务商取消了交易
,给他换了卡。
最近,又出现了一次类似的情形。有人用阿维的信用卡买了东西。但这一次,阿维没有在对账单里看
到这笔交易,也没大费口舌地跟礼貌但立场坚定的客户代表解释。相反,他接到了服务商事后主动打来的
电话,对方说他的卡遭到盗用,新卡片已经在寄来的路上了。
信用卡服务商根据阿维的消费习惯和其他大量数据准确地推断出涉事交易属于欺诈。信用卡公司很有
信心,调查期间甚至没有冻结他的信用卡。而且,就像变戏法一样,他用不着做任何事,公司就为他发放了替换的卡。当然,信用卡服务商并没有水晶球。它拥有的是数据和良好的预测模型——一台预测机器。
万事达信用卡公司的企业风险和安全部门总裁阿杰伊·巴拉(Ajay Bhalla)表示,更好的预测可以减少盗刷
,“解决消费者遭到误拒的重大痛点”。
商业应用场景完全符合我们对预测的定义,即填补缺失信息的过程。信用卡网络发现,(要判断盗刷)了解前一笔信用卡交易是否盗刷是很有用的。信用卡网络运用过去盗刷(和非盗刷)交易的信息来预测
最近一笔交易是不是盗刷。如果的确是盗刷,那么,信用卡服务商可以冻结该卡之后的交易,如果预测来
得足够及时,甚至当前这一笔交易也可以冻结。
这一概念(将一种信息转化为另一种信息)是人工智能近期取得的一大进步——翻译的核心。翻译语
音是遍布于所有人类文明的一个目标,连流传了数千年的巴别塔故事里也有它的身影。从古至今,要实现
自动化翻译语言就得雇用一位语言学家(精通语言规则的专家)来解析规则,并将其转换成可编程的形式。比方说一条西班牙短语,除了逐字替换,你还需要理解如何调整名词和形容词的顺序,这样才能让它成
为能被读懂的英文句子。
然而,人工智能的最新进展使我们可以把翻译问题转换为预测问题。我们可以从谷歌翻译质量的突飞
猛进中看到预测应用于翻译领域后体现出的神奇特质。欧内斯特·海明威的《乞力马扎罗的雪》(The Snow
s of Kilimanjaro)一文的开头十分优美:
乞力马扎罗是一座海拔19710英尺、常年积雪的高山,据说它是非洲最高的一座山。(Kilimanjaro is a
snow-covered mountain 19,710 feet high,and is said to be the highest mountain in Africa.)
2016年11月的一天,东京大学计算机科学系教授历本纯一(Jun Rekimoto)通过谷歌把海明威这篇经典
小说的日文版翻译成英文,内容如下:
乞力马扎罗是19710英尺山被雪覆盖的,据说是非洲最高山。(Kilimanjaro is 19,710 feet of the mo
untain covered with snow,and it is said that the highest mountain in Africa.)
第二天,谷歌的译文变成了:
乞力马扎罗是一座19710英尺的山,常年积雪,据说是非洲最高的山。(Kilimanjaro is a mountain of
19,710 feet covered with snow and is said to be the highest mountain in Africa.)
差异很明显。一夜之间,谷歌的译文就从一看就知道是机器翻译的笨拙文本,变成了一句连贯的话,如同一个人前一天还只能拿着字典磕磕巴巴地讲话,第二天就能流利地运用两种语言了。
诚然,谷歌的译文并未达到海明威的高度,但进步也很了不起。巴别塔仿佛重新建起来了。而且,这
一改变不是出于偶然或者碰运气。谷歌利用我们这里重点介绍的人工智能的最新进步,更新了自家翻译产
品背后的引擎。具体而言,谷歌的翻译服务现在依靠深度学习来提高预测效率。
把英语翻译成日语,其实就是要预测日语里哪些词汇和短语与英语相匹配。有待预测的缺失信息是,日语单词的集合及其正确的顺序。从一门外语获取数据,然后按照你熟悉的语言中的正确顺序来预测单词
的集合,这样你就能够理解另一门语言了。要是整个过程做得足够好,你兴许根本就意识不到这是翻译过来的话。
企业马不停蹄地将这一神奇的技术付诸商业用途。例如,中国已有五亿多人使用科大讯飞开发的深度
学习服务,使用自然语言进行翻译、转录和交流。房东用它跟使用其他语言的租客沟通,医院的患者用它
跟机器人沟通以寻求指示,医生用它指导患者服药,司机用它跟其他车辆联络。人工智能被用得越多,收
集的数据也越多,学习得越多,它的效果也就越好。有了如此多的用户,人工智能将突飞猛进。
预测比过去好了多少
谷歌翻译的变化说明了机器学习(深度学习是其子领域)怎样显著降低了质量调整的预测成本。从运
算能力的角度来看,谷歌现在可以用相同的成本提供更高质量的翻译。生成相同质量的预测所需的成本大
幅下降。
预测技术的创新正对传统的预测领域产生影响,比如盗刷检测。信用卡盗刷检测已经得到了很大改善
,在用户注意到问题之前,信用卡公司就检测并解决盗刷了。不过,这种改善仍然是渐进式的。20世纪90
年代后期,当时最先进的方法能抓住大约80%的盗刷交易。(请注意,这些比较并不完全对等,因为它们
使用的是不同的训练数据。不过,人们对准确率的宽泛看法是站得住脚的。)这一比值在2000年提高到了9
0%~95%,如今提高到了98%~99.9%。最后一步跨越来自机器学习,从98%到99.9%的变化意味着天翻地
覆的转变。
从98%到99.9%的变化看似渐进,但如果犯错代价高昂,哪怕是小小的变化也有重要意义。准确率从85
%提高到90%,意味着失误率降低了13。从98%提高到99.9%,意味着失误率降到了从前的120。20倍的改
进似乎已经不算是渐进式的了。
预测成本的下降让人类的许多活动发生了巨大的变化。正如人们将第一批运算首先应用于解决普查表
、弹道表等熟悉的数学问题上,在机器学习带来的廉价预测上,其第一批应用中有不少被用来解决经典的
预测问题。除了盗刷检测,还包括信用评级、健康保险和库存管理。信用评级涉及预测某人偿还贷款的可
能性。健康保险涉及预测某人会花多少钱在医疗保健上。库存管理涉及预测仓库在某一天存有多少物品。
最近,一类全新的预测问题浮出水面。在智能机器技术取得最新的进展前,许多事几乎不可能做到,包括物体识别、翻译和药物研发。例如,ImageNet挑战赛是一项高度曝光的年度赛事,比赛内容是让机器
预测图像中物体的名称。哪怕是人类,预测图像中的物体也并非易事。ImageNet的数据包含了1000个类别
的物体,其中包括各种狗及其他外形相似的图像。有时候很难辨别藏獒与伯恩山犬,或保险柜与密码锁之
间的区别,哪怕是人类,犯错的概率也在5%左右。从2010年赛事举办的第一年到2017年的最后一场竞赛,预测以极快的速度进步。图3-1显示了每年比赛
获胜者的准确率。纵轴衡量的是错误率,因此数值越低的表现越好。2010年,最出色的预测机器也会有28
%的犯错率。2012年,参赛者首次使用了深度学习,错误率降至16%。如普林斯顿大学的教授兼计算机学家
奥尔加·鲁萨科夫斯基(Olga Russakovsky)所言:“2012年实际上是准确率实现重大突破的一年,但它同时
也对已经出现数十年的深度学习模型的概念做了证明。”算法继续迅速改进。到2015年,一支参赛队伍首次
超越了人类。到2017年,38支队伍里的绝大多数表现都比人类好了,而且最优秀的队伍犯错率还不到人类
的一半。机器能够比人类更好地识别这类图像了。
廉价预测带来的结果
目前这一代人工智能与科幻小说里的智能机器相去甚远。预测并没有带给我们《2001太空漫游》里的
哈尔、《终结者》里的天网或是《星球大战》里的C-3PO。如果现代人工智能仅仅是预测,为什么人们还这
么大惊小怪呢?原因在于,预测是一项十分基本的生产资料。你兴许并未意识到,但预测是无所不在的。
我们的商业活动和个人生活里充满了预测。我们的预测往往化身为决策的输入条件。更好的预测意味着更
好的信息,更好的信息意味着更好的决策。
用谍报活动的层面来表达,预测即情报(情报一词原文为intelligence,也有“智能”的意思,这里是一语
双关。——译注),即“得到有用的信息”。机器预测就是人工生成有用信息。智能(情报)很重要,我们
用信用卡盗刷的例子说明更好的预测会带来更好的结果。随着预测成本的不断下降,我们发现它对更大范
围的额外活动大有用处。在这个过程中,它使各种各样从前难以想象的事情成为可能,比如机器翻译。
本章要点
※预测是填补缺失信息的过程。预测将运用你现在掌握的信息(通常称为“数据”),生成你尚未掌
握的信息。除了生成关于未来的信息,预测还可以生成关于现在和过去的信息。比如,将信用卡交易归为盗刷,将医学影像中的肿瘤分类为恶性,或是判断握着苹果手机的人是不是机主,这些都是预测的用武之
地。
※预测准确度的小幅提高带来的影响,可能具有迷惑性。例如,准确度从85%提高到90%,其幅度乍看
起来是从98%提高到99.9%的两倍(前者提高了五个百分点,后者只提高了两个百分点不到)。然而,前者意
味着错误率从15%降到了10%(降到了从前的23),后者意味着错误率从2%降到了0.1%(降到了从前的120)。在某些情况下,错误率降到了从前的120意味着发生了天翻地覆的变化。
※填补缺失信息,表面上看起来是一个平淡无奇的过程,却让预测机器变得神奇起来。这在机器视觉
(物体识别)、导航(无人驾驶)和翻译领域已经得到实现。第4章
为什么叫它智能
1956年,一群学者在新罕布什尔州达特茅斯学院会面,开辟了一条人工智能研究的路径。他们想看看
能不能为计算机编写程序,使之参与认知思维,做玩游戏、证明数学定理一类的事。他们还仔细思考了计
算机能使用什么样的语言和知识来描述事物。他们的努力包括给计算机不同选项,让它们选出其中的最优
者。研究人员对人工智能的可能性持乐观态度。他们向洛克菲勒基金会募资时这样写道:
我们将致力于探索,怎样让机器使用语言,组织抽象的表达和概念,解决如今只有人类才能解决的各
种问题,并自我改进。我们认为,一群精心挑选出来的科学家于某个夏天聚在一起携手合作,便可以在一
个或多个上述问题上取得可观进展。
事实证明,这一议程与其说切实可行,不如说是对未来的展望。毕竟,20世纪50年代的计算机速度还
不够快,无法实现学者们的设想。
在最初的研究声明发表之后,人工智能在翻译方面表现出了初步进展,但进展速度很慢。适用于特定
环境(例如,有人尝试设计人造治疗师)的人工智能成果无法推而广之。20世纪80年代早期,工程师们希
望通过精心编程设计的专家系统来复制医学诊断等高技能,他们虽然取得了一些进展,但此类系统的开发
费用极高,而且用起来十分烦琐,无法应对各种各样的例外和可能,因此,人们便进入了所谓的“人工智能
寒冬”。
然而,冬天似乎已经结束了。更多的数据、更好的模型和更强大的计算机促成了机器学习最近的发展
,改善了预测。大数据收集和存储的进步为新的机器学习算法提供了素材。相较从前的统计学,新的机器
学习借力于与之更适配的处理器,明显变得更加灵活,能生成更好的预测——好到有人忍不住把计算机科
学的这一分支称作“人工智能”。
预测客户流失
更好的数据、模型和计算机是预测取得进步的核心。为了理解它们的价值,让我们来思考一个古已有
之的预测问题:预测营销人员口里的“客户流失”。对许多企业来说,获取客户是代价很高的一件事,故此
,客户流失带来的损失很大。一旦获得了客户,企业就会通过减少流失率来充分利用获取成本。在保险、金融、电信等服务行业,控制客户流失大概也是最重要的营销活动。减少客户流失的第一步是识别有着流
失风险的客户。公司可以使用预测技术来做到这一点。
历史上,预测客户流失的核心方法是一种被称为“回归”的统计技术。有一些研究聚焦于改进回归技术。研究人员在学术期刊和实践中提出并检验了数百种不同的回归方法。
回归是做什么的?它根据过去发生事件的平均值来寻找一种预测。举例来说,如果你手里只有上周每
天的天气情况,但要判断明天会不会下雨,那么,你最好有一个平均值。如果过去七天里有两天下了雨,你兴许会猜测,明天下雨的概率大约是27或者29%。过去,我们对预测的大部分知识都来自构建的模型,这些模型可纳入关于环境的更多数据,更好地算出平均值。
我们的做法是使用所谓的“条件均值”。比如,如果你住在加利福尼亚州北部,你大概已经知道,下不
下雨取决于季节:夏天的可能性低,冬天的可能性高。如果你观察到此地冬天里任何一天降雨的概率是25
%,夏天是5%,那么,你不会以为明天下雨的概率是两者的平均值,即15%。为什么呢?因为你知道明天
属于冬季还是夏季,故此,你会根据条件来做出评估。
根据季节调整预测只是我们根据条件对平均值进行调整的方法之一(不过,这是最受零售业欢迎的一
种方法)。我们可以根据当天的时间、污染情况、云量、海洋温度或任何其他可用信息来计算平均值。
我们甚至有可能要同时根据多个条件进行调整:如果今天下了雨,今天属于冬季,西边200英里外在下
雨,南边100英里外是晴天,地面很湿,北冰洋气温很低,风正从西南方吹过来,风速是每小时15英里——
那么,明天会下雨吗?这样的运算很快就会变得难以处理。光是计算这七类信息的平均值,就会带来128种
不同的组合。添加更多类型的信息,组合数量也会随之呈指数倍增加。
在机器学习之前,多元回归提供了一种处理多种条件的有效方法,而且无须计算数十、数百或数千种
不同条件下的平均值。回归将运用数据,并尝试找到那个将预测失误最小化、“拟合优度”最大化的结果。
谢天谢地,这个术语在数学上比在词句上表达得更精确。回归将预测的平均失误控制到了最低限度,对待大失误比对待小失误更加严厉。这是一种强大的方法,尤其是当数据集相对较小,同时它能很好地感
知什么因素对数据有用的时候。例如,有线电视订阅用户的流失有可能取决于人们看电视的频率;如果他
们不再看电视了,他们很可能就会停止订阅有线电视服务。
除此之外,回归模型渴望产生无偏差的结果,所以,要是预测得足够多,这些预测就平均概率而言是
完全正确的。虽然我们喜欢无偏差的预测多过有偏差的预测(比如系统性地高估或低估一个值),但无偏
差的预测也并非完美。我们可以用一个古老的统计学笑话来说明这一点:
一位物理学家、一位工程师和一位统计学家外出狩猎。他们走进森林,发现空地上有一头鹿。
物理学家计算了目标的距离、子弹的速度和落点,调整,开火——结果,他朝左打偏了5英尺,错过了
目标。
工程师一脸沮丧。“你忘记算上风了。我来试试。”他舔了舔手指,判断了风速和方向,一把夺过步
枪并开了火——结果,他朝右打偏了5英尺,再次错过了目标。
突然,一枪未开的统计学家欢呼道:“噢耶!我们打中了!”
准确无比的平均值可能在实际中每次都出错。回归有可能一直导致要么左偏几英尺,要么右偏几英尺。它意味着,就算取平均值后得出了正解,实际也可能一次都没打中。
与回归不同,机器学习的预测可能平均起来是错误的,但当预测失误的时候,它并不会失误太多。按
统计学家的说法,允许偏差,以求减少方差。(以牺牲平均数的准确,来换取单次预测的准确。——译注)
机器学习和回归分析之间一个重要的区别是新技术的开发方式。发明一种新的机器学习方法时还需证
明它在实践中能运作得更好。相反,发明一种新的回归方法,首先要证明它在理论上是有效的。强调实践
效果,给了机器学习创新者更多的实验空间,哪怕他们的方法生成的估计结果平均来看不正确或存在偏差。在这种自由实验的推动下,机器学习借助过去十年的丰富数据和高速计算机实现了快速的进步。
从20世纪90年代末期到21世纪初期,那些利用机器学习预测顾客流失的实验仅取得了有限的成功。虽
然机器学习的方法有了稳定的进步,但回归的方法依然表现得更好。数据仍然不够丰富,计算机的速度也
不够快,无法使其利用机器学习可以做到的事情。
例如,2004年,杜克大学的天睿中心(Teradata Center)举办了预测客户流失的数据科学比赛。当时,这样的比赛很不寻常。任何人都可以提交作品,一旦获奖,即可获得现金奖励。获奖作品使用的是回归模
型。一些机器学习的方法表现很好,但日后推动人工智能革命的神经网络方法却表现不佳。到2016年,一
切都改变了。使用机器学习和(神经网络)深度学习来预测流失的模型整体比其他所有方法表现得都好。
是什么发生了改变呢?首先,数据和计算机终于足够好,让机器学习占了上风。20世纪90年代,建立
足够大的数据库很难。比方说,一套经典的流失预测研究只使用了650个客户的数据,不到30个变量。
到2004年,计算机的处理和存储都有了进步。在杜克竞赛中,用来训练的数据集包含了数万客户的数
百个变量的信息。有了这么多的变量和客户,机器学习方法逐渐能跟回归一较高下了。
如今,研究人员根据数千个变量和数百万客户展开流失预测。计算能力的提高意味着可以处理大量的
数据,除了数字,还包括文本和图像。例如,在移动电话流失模型中,研究人员除了使用标准变量(如账
单额度大小和支付准时性)之外,还调用了通话记录数据(以小时为单位)。
利用可用数据,机器学习方法也变得更好了。在杜克大学的比赛中,成功的关键因素是,如何从数百
个可用变量中进行选择,以及选择使用哪一种统计模型。当时最好的方法,不管是机器学习还是经典的回
归,都通过结合直觉与统计检定来选择变量和模型。现在,机器学习方法(尤其是深度学习方法)允许模
型具备灵活性,这意味着变量彼此之间可以按照意想不到的方式相结合。在开始计费的月初就积累了大量
通话时间、高额电话账单的人比到月末才累积大量通话时间的人流失的可能性更低。此外,周末异地通话
、付费时间迟,还爱发大量短信的人尤其容易流失。这样的结合难以预料,但对预测有极大的帮助。由于
难以预料,建模人员在使用标准的回归模型进行预测时无法将这些结合后的信息包含在内。机器学习把哪
一些结合与交汇事关重要的选择权交给了机器,而不是程序员。
机器学习(具体而言也是深度学习)方法的改进,意味着可以有效地将可用数据转化为对客户流失的
准确预测。现在,机器学习方法明显优于回归和其他各种技术。
超越客户流失
除了客户流失领域,机器学习还改善了大量其他环境下(从金融市场到天气)的预测。
2008年的金融危机是回归式预测方法的惊人失败。对担保债务凭证(collateralized debt obligation,简称
CDO)违约率的预测部分地推动了金融危机。2007年,标准普尔评级机构预测,AAA级CDO五年内无法履
约的概率不到1800。五年后,14以上的CDO未能履约。哪怕有着丰富的历史违约数据,最初的预测仍然错
得离谱。
失败的原因不是数据不足,而是分析师怎样使用这些数据来生成预测。评级机构的预测是基于多个回
归模型,这些模型假定不同市场的房价相互之间无关联。事实证明,这样的假设是错的,不仅2007年是这
样,从前也一样。一旦将多个住房市场同时遭到冲击的可能性包含进去,你在CDO上亏损的可能性也会一
路升高——哪怕你的房产分布在美国多个城市。分析师们根据自己认为重要的假设(以及它们为什么重要)来构建回归模型——这些看法对机器学习
来说都没有存在的必要。机器学习模型尤其擅长确定哪些可能的变量效果最好,识别出哪些(出人意料的)事情重要,哪些事情不重要。如今,分析师的直觉和假设没那么重要了。通过这种方式,机器学习可以
根据无法预知的相关要素进行预测,包括拉斯维加斯、菲尼克斯和迈阿密的房价可能会同时出现涨落。
如果仅仅是预测,为什么叫它“智能”
机器学习的最新进展让我们利用统计学进行预测的方式发生了彻底的转变。把人工智能和机器学习的
最新发展视为“传统统计学的加强版”是很诱人的想法。如果最终的目标是生成预测以填补缺失的信息,它
们从某种意义上说的确如此。除此之外,机器学习的过程还涉及寻找一种最小化失误的解决方案。
那么,是什么令机器学习成为一种配得上“人工智能”这一标签的变革型计算技术呢?在某些情况下,预测的效果好到我们可以直接运用它,而不需要应用基于规则的逻辑。
有效的预测改变了计算机编程的方式。传统的统计方法和“如果-那么”语句的算法都无法很好地在复杂
环境下运行。想识别一组照片中的一只猫?猫有各种各样的颜色和纹理。它们可能是站着、坐着、躺着、跳跃,或看起来一脸不悦。它们可能在室内,也可能在室外。情况很快变得复杂起来,无法限定条件。因
此,哪怕仅仅想达到看得过去的识别效果,也需要大量谨慎的考量。这还仅仅是识别一只猫,如果我们想
要用一种方法来描述照片中的所有物体呢?我们需要为每一物体单独加以限定。
支撑近年来进步的技术基石叫作“深度学习”,它依靠一种“反向传播”的方法。它采用与大脑极为类似的
方式,通过例子来学习(而能否用人工神经元模拟真实神经元不过是这项有用技术的有趣旁枝),避免了
各种限定条件带来的麻烦。如果你想让孩子知道哪个单词对应着“猫”,那么,每当你看见一只猫,你就说
出这个单词。机器学习基本上也一样。你给它馈进大量带有“猫”标签的猫照片,以及大量没有猫也不带“猫”
标签的照片,机器就会学习怎样识别与“猫”这一标签相关的像素图案。
如果你有一系列猫和狗的照片,猫和四足物体之间的关联会强化,但与狗的关联也会强化。无须详细
说明,只要你馈进数百万张有着不同图案和标签的照片(包括画面里没有狗的照片),机器都会发展出诸
多联想,并学会区分猫和狗。
许多问题已经从算法问题(“猫有什么特点?”)转变成了预测问题(“这一缺失了标签的图像是否跟我
从前见过的猫有着相同特点?”)。机器学习使用概率模型来解决问题。
那么,为什么很多技术人员将机器学习称为“人工智能”呢?因为机器学习的输出(即预测)是智能的
一个关键组成部分,预测的准确性会随着学习而改进,而较高的准确性能让机器执行现今与人类智能相关
的任务(如物体识别)。
杰夫·霍金斯(Jeff Hawkins)在《人工智能的未来》(On Intelligence)一书中率先提出预测是人类智
慧的基础。这一理论的实质是,作为创造力和生产力增长的核心,人类的智慧是靠大脑使用记忆进行预测
来实现的:“我们在各个感官之间,进行连续的低级别预测,但这还不是全部。我想提出的是一个更有力的
命题,预测不仅仅是大脑在做的某一件事情,它是大脑皮层的主要功能,也是智能的基础。皮层是预测的
器官。”
霍金斯认为,我们的大脑不断地预测我们即将体验到的事情——我们会看到什么,感受到什么,听到
什么。随着我们的成长和成熟,大脑的预测越来越准确,预测往往会变成真的。然而,要是预测未能准确地昭示未来,我们会注意到异常,并将这一信息反馈到大脑,让大脑更新算法,进行学习,对模型做更进
一步的优化。
霍金斯的研究存在争议。他的观点在心理学界引发了争论,他强调皮层是预测机器的模型,许多计算
机科学家对此断然否定。最严格意义上的“人工智能通过图灵测试”的概念(一台机器能骗过人,让人相信
机器其实是人类)仍然离现实很远。目前的人工智能算法还不能进行推理,人们也很难理解人工智能预测
的来源。
无论他的基础模型是否合适,霍金斯将预测视为智能的基础,这对理解人工智能近年来的变化带来的
冲击很有用处。这里,我们强调的是预测技术的巨大进步带来的结果。1956年,达特茅斯会议上学者们提
出的许多愿望如今马上就要实现了。通过各种方式,预测机器能够“使用语言,组织抽象的表达和概念,解
决如今(1955年)只有人类才能解决的各种问题,并自我改进”了。
我们并不想贸然揣测这一进步是否预示着通用人工智能、“奇点”或天网的降临。不过,如你所见,即
便只是聚焦于预测,未来几年仍能出现了不起的变化。一如计算机促成的廉价运算有力地带来了商业和个
人生活的巨大变化,廉价预测也将带来同样深远的转变。
总而言之,不管它是不是智能,计算机从确定性编程到概率性编程的进步都是一项重要的阶梯函数式
的转变(尽管它跟社会科学和物理科学取得的进步是一致的)。哲学家伊恩·哈金(Ian Hacking)在《驯服
偶然》(The Taming of Chance)一书中说,19世纪之前,概率属于赌徒的行当。但到了19世纪,政府人口
普查数据的兴起将新兴的概率数学应用到了社会科学。20世纪,我们对物理世界的理解出现了根本性的重
组,从牛顿式世界观的确定性转向量子力学的不确定性。也许,21世纪计算机科学最重要的进步与社会科
学和物理科学过去的进步是互相呼应的,即人们意识到,以数据为基础、从概率意义上建立起结构的算法
效果最好。
本章要点
※机器学习这一科学跟统计学的目标不同。统计学强调的是平均值的正确性,机器学习却对此并无要
求,相反,它的目标是操作的有效性。预测可能会出现偏差,但只要够好就行(在运算力强大的计算机中
可以实现)。这使得科学家们可以利用过去十年的丰富数据和高速计算机自由地进行尝试,以快速推动改
进。
※传统的统计方法需要阐述假设,或至少阐述人对模型规范的直觉。机器学习不仅不需要事先指定进
入模型的内容,还能够适应更加复杂、有着更多互动变量的模型。
※机器学习的最新进步通常被称为人工智能的进步,因为:(1)以这一技术为基础的系统会随着时间
的推移不断学习和改进;(2)这些系统在某些条件下可产生比其他方法产生的更准确的预测,一些专家认
为预测是智能的核心;(3)这些系统提高了预测的准确性后,它们便能够执行从前被认为专属于人类智能
领域的任务,如翻译和导航。对预测和智能之间的联系,我们仍然持不可知的态度。预测的进步是否代表
了智能的进步,我们对这一问题并无特定立场,我们的结论也不依赖于这样的立场。我们关注的是预测成
本下降(而非智能成本下降)带来的结果。第5章
数据就是新一代的石油
2013年,谷歌的首席经济学家哈尔·瓦里安(Hal Varian)开导可口可乐公司的罗伯特·戈伊苏埃塔(Rob
ert Goizueta)说:“10亿小时之前,现代智人出现了。10亿分钟之前,基督教诞生了。10亿秒钟前,IBM的
个人电脑上市了。10亿次谷歌搜索之前……是今天早上。”谷歌并不是唯一一家拥有海量数据的公司。从Fa
cebook、微软等大型公司到地方政府甚至初创公司,数据收集都变得比以往更廉价、更容易了。这些数据
具有价值。数十亿的搜索量意味着,谷歌有了数十亿条可供改善服务的数据线索。有些人把数据称为“新一
代的石油”。
预测机器依赖数据。越来越好的数据带来越来越好的预测。从经济角度来说,数据是预测的关键互补
品。随着预测变得愈发廉价,它的价值水涨船高。
数据在人工智能中扮演着三种角色。首先是输入数据,它被馈进算法,用于生成预测。其次是训练数
据,它被用来生成最初的算法。训练数据用于训练人工智能,让后者得以在现实环境下进行良好的预测。
最后一种是反馈数据,通过经验来改进算法的表现。在某些情况下,这三种角色存在大量重合,同一批数
据甚至能身兼三职。
但获取数据的成本可能很高。因此,投资时有必要权衡的是以下两者:更多数据带来的好处与获取更
多数据所付出的成本。为了做出正确的数据投资决策,你必须理解预测机器是怎样使用数据的。
预测需要数据
在新近的人工智能热潮兴起之前,有过一轮大数据热。过去20年,数据的种类、数量和质量均有大幅
提升。图像和文本如今都是数字形式了,机器可以对其进行分析。传感器无处不在。大数据热的基础是,人们希望数据能够帮助减少不确定性,以及对正在发生的事情拥有更多了解。
以检测人类心率变化的传感器的进步为例。多家有着“医学味”十足名字的公司和非营利组织(比如Aliv
eCor(2011年成立的一家医疗设备和人工智能的公司,向消费者销售移动设备端的硬件和软件,提供心电
图实时检测等功能。——译注)和Cardiio(Cardiio可通过前置摄像头检测使用者的心率。——译注))都
在开发使用心率数据的产品。初创公司Cardiogram(其开发的软件通过可穿戴设备和智能手机收集的睡眠和
运动数据预测用户的健康状况。——译注)设计了一款苹果手机应用程序,使用苹果手表的心率数据生成
了大量信息:使用该款程序,用户可按秒测量心率。用户可以查看一天当中,自己的心率什么时候会达到
巅峰,又或者一年内(甚至十年内),心率是否有所加快或放缓。
但这些产品的潜在力量来自大量数据与预测机器的结合。学术界和工业界的研究人员都指出,智能手
机可以预测不规则的心律(医学上叫作“心房颤动”)。因此,依靠各自的预测机器,Cardiogram、AliveCor
、Cardiio和其他公司正在开发利用心率数据辅助诊断心脏疾病的功能。一般的方法是,使用心率数据预测
如下未知信息:特定用户是否心律异常。
没受过医学专业训练的消费者从原始数据里是看不到心率数据与心律异常之间的关联的。而Cardiogram可以运用深层神经网络探测到心律异常,准确率高达97%。大约有14的中风是心律异常导致的。有了更好
的预测,医生便可提供更好的治疗。某些特定药物可用来预防中风。
为此,每个消费者必须提供自己的心率数据。没有个人数据,机器无法预估当事人的风险。预测机器
与个人数据相结合便可预测此人心律异常的概率。
机器怎样从数据中学习
当前这一代的人工智能技术被称为“机器学习”是有原因的。机器从数据中学习。就心率监测仪而言,根据心率数据预测心律异常(以及中风概率提高的可能性),预测机器要先学习数据跟心律异常的实际发
病率有着怎样的相关性。为此,预测机器需要将来自苹果手表的输入数据(统计学家称之为“自变量”)与
心律异常信息(“因变量”)结合起来。
要让预测机器学习,心律异常信息必须来自同一个向苹果手表提供心率数据的群体。因此,预测机器
需要多个心律异常者的数据,以及他们的心率数据。重要的是,它还需要许多心律无异常人士的数据,及
其心率数据。接着,预测机器比较心律正常者和异常者的心率图。有了这样的比较,就可以进行预测。如
果新患者的心率图与心律异常者提供的“训练”样本更为接近,那么,机器就会预测这一患者有着心律异常
的问题。
像不少医疗应用一样,Cardiogram与学术研究人员进行了合作,后者通过在研究中监测6000名用户的心
率收集到了数据。在6000名用户里,约有两百人被确诊患有心律不齐。故此,Cardiogram所做的就是收集来
自苹果手表的心率图数据并与研究数据进行对比。
此类产品在上市之后仍会继续改进预测的准确度。预测机器需要有关预测是否准确的反馈数据。因此
,它需要用户中心律异常的发病率的数据。该机器将这些数据与心脏检测的输入数据相结合,生成反馈,并不断提高预测的准确度。
不过,获取训练数据也可能是件很棘手的事情。为了预测同一组项目(如本例中的心脏病患者),你
除了需要目标结果的信息(心律异常),还需要有助于在新条件下预测该结果的信息(心率监控)。
若要预测未来事件,就更具有挑战性了。你只能把想要预测之时已知的信息馈进预测机器。比方说,假设你正想购买明年自己最心爱运动队的季票。在多伦多,大多数人会购买多伦多枫叶冰球队的季票。你
显然希望自己去观看比赛的时候,球队获胜,而不是输掉。你认为,球队至少要能赢半数以上的比赛,购
买季票才划算。为了做出这个决定,你需要预测球队获胜的次数。
就冰球而言,进球最多的球队获胜。所以,你认为进球多的球队能赢,进球少的球队往往会输。你决
定为预测机器提供过往赛季的数据,包括每支球队的进球数,每支球队对手的进球数,以及每支球队的获
胜次数。你将这些数据提供给预测机器,发现这的确是预测获胜次数的绝佳指标。于是,你打算使用这些
信息来预测明年球队的获胜次数。
很可惜,你做不到。你一筹莫展,你没有明年球队进球数的信息,所以,你没法用这些数据来预测球
队的获胜次数。你确实拥有去年的进球数据,但它没用,因为你的训练模式是让预测机器从当前年份的数
据中进行学习的。
为了做出这一预测,你需要掌握做出预测那一刻手头将会拥有的数据。你也可以使用前一年的进球数
来重新训练预测机器,让它预测今年的胜算。你还可以使用其他信息,比如前一年的获胜次数,球员的年龄,他们在冰上的过往表现。
许多商业人工智能应用程序都具有这种结构:将输入数据和结果指标结合起来创建预测机器,接着使
用来自新情况的输入数据来预测该情况下的结果。如果你能获得实际结果的数据,那么你的预测机器就能
通过反馈不断学习。
关于数据的决策
数据的获取成本往往很高,但没有它预测机器便无法运行。预测机器需要数据来创造、运行和改进。
因此,你必须对所需数据的规模和范围做出决定。你需要多少不同类型的数据?为对机器进行训练,你需要多少种不同的对象?需要多长时间收集一次数据?类型多,对象多,频率高,意味着成本更高,但
也可能带来更高的收益。斟酌这一决定时,你必须仔细判断你想要预测的是什么。特定的预测问题能告诉
你到底需要些什么。
Cardiogram想要预测的是中风。它使用心律异常(这是经过医学验证的)作为指标。(我们不知道Card
iogram这款软件能否成功。但我们可以肯定,智能手机和其他传感器将进一步应用到医学诊断上。)一旦
设定了这个预测目标,它需要的就无非是每个使用这款应用程序的人的心率数据。它或许还可以使用睡眠
、身体活动、家庭病史和年龄等相关信息。提出一些问题来收集年龄和其他信息之后,它只需要一台能够
准确地测量心率的设备。
Cardiogram还需要训练数据:它的训练数据涵盖了6000人,其中一小部分人心律异常。尽管有各式各样
的传感器以及关于用户的具体信息可供使用,但Cardiogram只需要收集大多数用户的极少量信息。它只需要
得到用户心律异常的信息就可以训练自家的人工智能。这样一来,变量的数量就相对少了。
为了做出好的预测,机器的训练数据必须涵盖足够多的用户(或分析单位)。所需用户的数量取决于
两个因素:首先,“信号”相较“噪声”有多可靠;其次,预测的准确度必须达到多高才具备可用性。换句话说
,所需用户的数量取决于我们是否期望心率能准确地预测心律异常,以及一旦出错,代价有多大。如果心
率是一个强预测指标,而且出了错也没什么大不了的,那么我们只需要几个人就够了。如果心率是一个弱
预测指标,又或者,每一次错误都有可能把用户置于危险境地,那么,我们就需要成千甚至数百万的用户
数。Cardiogram在初步研究中使用了6000人的数据,其中有200人心律异常。随着时间的推移,它通过软件
用户是否出现心律异常的反馈来进一步收集数据。
这6000人从哪里来?考虑到对预测的可靠性和准确性的要求,数据科学家有绝佳的工具可评估所需数
据量。这些工具叫作“功效计算”(power calculations),它们能告诉你需要分析多少个单元才能生成有用的
预测。(对这类研究而言,6000是个相对较小的数据单位。主要是出于这个原因,研究被列为“初级”。这
一数据足以支持Cardiogram最开始的目的,因为它是一项初级研究,意在进行概念验证。它不会危及生命。
要让结果适用于临床,恐怕还需要多得多的数据。)需要加以管理的要点是,你必须有所权衡:更准确的
预测需要更多的单元以供研究,而且更多的单元有可能代价不菲。
Cardiogram需要高频率的数据收集。它的技术以苹果手表逐秒收集的心率数据为基础。它需要这么高的
频率,因为心率在一天当中不同时间会有所不同,而且正确的测量需要反复评估,以判断所测得心率是不
是所研究用户的真实值。为发挥作用,Cardiogram的算法运用的是可穿戴设备提供的稳定测量流,而不是患
者只能在医生诊室里进行测量得到的那一个结果。收集这些数据需要一笔昂贵的投资。患者必须随时佩戴着一个设备,因此它会介入患者的日常行为(
尤其是对那些没有苹果手表的人来说)。因为它事关健康数据,存在隐私问题,因此Cardiogram设计的系统
改善了隐私功能,但代价是提高了开发成本,降低了机器根据反馈改进预测的能力。它通过应用程序来收
集预测中使用的数据;数据本身始终在手表上。
接下来,我们将讨论,在对待需要收集多少数据的问题上,统计思维和经济思维有怎样的区别。(我
们会在第四部分讨论策略时思考隐私相关的问题。)
规模经济
数据的增多改进了预测。但你需要多少数据呢?信息增加(不管是单位数量更多、变量类型更多还是
频率更高)带来的,对于现有数据量来说,既可能是利益的增加,也有可能是利益的减少。用经济学家的
话来说,数据既可能增加规模报酬,也可能减少规模报酬。
从纯粹的统计学角度来看,数据的规模报酬是递减的。你从第三次观察中所得的有用信息比第一百次
要多,而你从第一百次观察中所得的有用信息又比第一百万次要多。当你将观察结果加入训练数据的时候
,它对改进预测的帮助越来越小。
每一次观察都是一段有助于预测的额外数据片段。就Cardiogram而言,一次观察就是所记录的每两次心
跳之间相隔的时间。我们说数据收益递减时,意思是前100次心跳可以让你很好地了解该用户是否心律异常
,每一次额外的心跳在改进预测方面都不如前一次重要。
以你去机场要花多长时间为例。如果你从未去过机场,那么,第一次能带来很多有用的信息。第二次
和第三次也能让你对“去机场通常要多久”有个准确的认识。可到了第100次,你对去机场要花多长时间就不
太可能获得更多的信息了。从这个角度来说,数据的规模报酬是递减的:你获得的数据越多,每一段额外
的数据片段的价值就越低。
从经济的角度来看情况可能并非如此,其着眼点不在于数据如何改进预测,而在于数据如何提高你从
预测中所获得的价值。有时候,预测和结果是同步的,因此,统计学上观察到的报酬递减暗含了你所在意
的那些结果的报酬递减。然而,这两者不是一回事。
举个例子,消费者可以选择使用你的产品,也可以选择使用你竞争对手的产品。如果你的产品始终跟
对手的产品一样好甚至更好,他们就只用你的产品。可很多时候,只要有现成可用的数据,所有的竞争者
都能表现得一样好。例如,大多数搜索引擎对常见搜索都可提供类似的结果。不管你使用的是谷歌还是必
应,搜索“贾斯汀·比伯”所得的结果都差不多。如果能为非常见的搜索提供更好的结果,这种能力越强,搜
索引擎的价值就越高。试试在谷歌和必应里输入“破坏(disruption)”一词。在撰写本书期间,谷歌既显示
了字典里的定义,也显示了与克莱·M.克里斯坦森(Clay Christensen)“颠覆性创新(disruption innovation)”
的概念相关的结果。必应的前九个结果均只给出了字典里的定义。谷歌搜索结果更好的一个关键原因在于
,要弄清此类非常见搜索中搜索者的需求就要有这类搜索的相关数据。不管是进行非常见搜索还是常见搜
索,大多数人都会使用谷歌。就算搜索引擎只比对手好一点,也可能在市场份额和收入上造成巨大差异。
因此,尽管从技术角度而言,数据的规模报酬是递减的(第十亿次搜索对搜索引擎的改进不如第一次
大),但站在业务角度讲,如果你比竞争对手拥有更多更好的数据,数据就是最有价值的东西。有人甚至
认为,拥有越多与独一无二的因素相关的数据,就越能在市场上获得不成比例的回报。(谷歌认为,必应已经大到足以收获其搜索规模带来的好处了。)增加数据能在市场上带来不成比例的回报。因此,从经济
的角度来看,此种情况下的数据有可能带来规模报酬递增。
本章要点
※预测机器利用3种类型的数据:(1)训练数据,用于训练人工智能;(2)输入数据,用于预测;(
3)反馈数据,用于提高预测的准确度。
※收集数据很昂贵,这是一笔投资。其成本取决于你需要多少数据,以及收集程序对用户日常行为的
介入程度如何。平衡好获取数据的成本与提高预测的准确度能收获的好处,这一点非常重要。要确定最佳
方法,需要估算每类数据的投资回报率:需要多高的成本才能获得这些数据,以及相关预测的准确度提高
后将带来多大的价值。
※统计学上和经济学上的原因决定了拥有更多数据能否产生更高的价值。从统计角度来看,数据的收
益递减。每增加一个数据单元对预测起到的改善作用,都比前一个数据单元要小;第十次观测比第一千次
观测对预测的提升要大得多。从经济的角度来看,两者的关系并不明确。往大量现有数据库存里增加更多
数据或许比往小库存里加入更多数据的效果更好;比方说,加入额外的数据能让预测机器的表现跨越阈值
,从没法用变成可以用,或是从低于监管预测机器性能的阈值变得高于这一阈值,从比对手表现差变得比
对手表现好,那么这种增加就物有所值。因此,一个组织需要理解增加更多数据、提高预测的准确性、提
高创造的价值这三者之间的关系。第6章
新的劳动分工
每一次你更改电子文档,你的改动都是可以记录下来的。这对我们大多数人来说,无非是一种跟踪修
订的有用方式,但对罗恩·格洛兹曼(Ron Glozman)来说,这是个利用人工智能根据数据来预测修订的机
会。2015年,格洛兹曼成立了一家名为齐塞尔(Chisel)的初创公司,该公司的第一个产品就是利用法律文
件来预测哪些信息属于保密范畴。这一产品对律师事务所很有价值,因为碰到有必要披露的文件时,律师
必须涂黑或修改保密信息。过去,修改工作由人来完成,也就是让人阅读文件,然后涂黑保密信息。格洛
兹曼的产品有望节省他们的时间和精力。
机器修订有用,但不够完善。有时,机器会错误地修改本应披露的信息。还有时候,它没有选中该保
密的内容。为了达到法律标准,人类必须给予帮助。在测试阶段,齐塞尔公司的机器会提供哪些部分要修
改的建议,人类拒绝或接受机器的建议。从实际效果来看,人和机器的合作节省了大量时间,而且达到了
比仅靠人类修订更低的错误率。这种人机分工的模式能发挥作用,是因为它既克服了人类在速度和注意力
方面的缺陷,也克服了机器在阐释文本方面的缺陷。
人类和机器都有缺点。不知道这些缺点分别是什么,我们就无法评估机器和人类应该怎样合作来生成
预测。为什么呢?因为这个设想可以追溯到亚当·斯密(Adam Smith)在18世纪提出的有关劳动分工的经济
思想,即根据相对优势来分配任务。这里的劳动分工指的是生成预测领域的人类和机器的分工。要理解这
一劳动分工,我们不妨先来看看预测的哪些方面由人类完成效果最好,又有哪些方面由机器完成效果最好。这就能让我们明确各自的任务。
人类在哪些地方预测能力较差
有一项古老的心理学实验是,给受试者看随机序列的X和O,请他们预测下一个出现的字母是什么。例
如,他们可能会看到:
OXXOXOXOXOXXOOXXOXOXXXOXX
对于这样的一个序列,大多数人会意识到,X的数量比O多一些——如果你数过的话,你会发现60%是
X,40%是O,所以,他们多数时候会猜X,但偶尔也说几次O,以保持该平衡。然而,要是你想使预测正确
的概率最大,你应该始终选择X。这样的话,你的正确率会是60%。如果你按四六开的比例随机选择(大多
数参与者会这么做),你预测正确的概率仅有52%,只比你丝毫不考虑X和O的出现频率而随便乱猜(此时
准确率是50%)好一点点。(60%的时候你选择X,你有60%的概率是对的;40%的时候你选择O,只有40%
的概率正确。平均而言,这就是0.62+0.42=0.52。)
这些实验告诉我们,哪怕在评估概率时表现得不算太差,人类仍然是蹩脚的统计员。没有哪台预测机
器会犯下这样的错误。不过也可能是人类没有认真地对待这些任务,因为他们兴许感觉这是在玩游戏。可
要是后果影响重大,绝非儿戏,他们还会犯类似的错误吗?心理学家丹尼尔·卡尼曼(Daniel Kahneman)和阿莫斯·特韦尔斯基(Amos Tversky)在许多实验中做
了示范:确实还会。他们请人们考虑如下情况:有两家医院,一家每天接生45个孩子,另一家每天接生15
个孩子,请问一天中接生的孩子有60%或以上是男孩的情况,更容易出现在哪家医院?给出正确答案的人
很少——是规模小的那家医院。之所以是小医院,是因为活动(本例中是孩子的出生)重复的次数越多,每一天的结果就越趋近平均值(本例中为50%)。为了理解这是怎么回事,想象你在投掷硬币。如果你只
投掷5次硬币,那么,你有更大的可能碰到次次都是人头的情况,而投掷50次的话,这种情况出现的概率就
很低了。故此,小医院接生的孩子少,所以更有可能出现偏离平均值的较为极端的结果。
关于此类启发法(指依据有限的知识(或“不完整的信息”)在短时间内找到问题解决方案的一种方式。——译注)和偏差,已经有好几本书做过专门论述。许多人认为,根据合理的统计原则进行预测是很棘
手的,正因为如此,必须让专家介入。遗憾的是,专家在做决策时,对待统计数据有可能遇到同样的偏差
和困难。这些偏差折磨着医学、法律、体育和商业等多个领域。特韦尔斯基和哈佛医学院的研究人员向医
生们展示了治疗肺癌的两种方法:放疗或手术。从五年存活率(用来计算特定疾病的预后情况,通常是从
确诊开始进行计算。——译注)来看,手术更有优势。在介绍手术(比放疗的风险大)的短期存活率信息
时,研究人员设计了两种方式,并分别拿给两组参与者看。一组人听到的是,“首月存活率是90%”,此时,84%的医生选择手术;另一组人听到的是,“首月死亡率是10%”,此时,选择手术的医生降到了50%。两种
措辞方式说的是同一种情况,但研究人员对信息的框定方式,给人们的决定带去了巨大的变化。一台机器
则不会出现这样的结果。
卡尼曼还指出了专家面对复杂信息时无法很好地进行预测的其他许多情况。资深放射科医生在评估X光
片时有15的概率前后矛盾。审计师、病理学家、心理学家和管理人员也都表现出类似的不一致。卡尼曼得
出结论,如果有一种预测方法是依靠公式而不是人来进行判断的,那也应该认真对待该公式。
专家的预测结果很糟糕,这是迈克尔·刘易斯(Michael Lewis)在《点球成金》(Moneyball)一书中想
要表达的中心思想。奥克兰运动家棒球队碰到了一个问题:队里最优秀的3名球员离开之后,球队没有足够
的资金招募替补球员。领队比利·比恩(在同名电影中由布拉德·皮特扮演)采用了比尔·詹姆斯开发的一套
统计系统来预测球员的成绩。依靠这套“棒球统计学”系统,比恩和分析师拒绝了球探的建议,而选择按数
据组建队伍。尽管预算有限,但奥克兰运动家棒球队在2002年的世界大赛里一路领先对手。新方法的核心
是把从前认为重要的指标(如盗垒数和打击率)转到其他指标(如上垒率和长打率)上。这一举动也避免
了球探靠偶尔的灵机一动来挑选球员的常规做法。比如,电影里的一名球探会这么评价某个球员:“他女朋
友长得丑。找个长得丑的女朋友意味着他没有信心。”鉴于这种决策型的算法,以数据为驱动的预测常常在
棒球领域超越人类也就不足为奇了。
奥克兰运动家队的新指标强调的是球员对整个球队成绩的贡献。新的预测机器使奥克兰运动家队能够
挖掘出那些在传统评估体系中得分较低,但从对球队成绩贡献的角度看性价比更高的球员。没有预测,这
些球员很可能遭到其他球队的低估。运动家队利用了这些偏差。(当然,《点球成金》以传统统计学为基
础,这不足为奇,但现在球队希望用机器学习的方法来执行这一功能,并在此过程中收集更多的数据。)
最能清楚说明人类(哪怕是经验最丰富、能力最强的专家)在预测上遭遇困难的例子来自一项对美国
法官保释决定的研究。美国每年要做出一千万个此类决定。某人能否得到保释对其家庭、工作和其他个人
问题有着重大影响,与政府在监狱上的支出也有着极大的关系。法官不能光看被告人是否会被最终定罪,必须根据此人是否会逃跑、会不会再犯下其他罪行来做决定。决策标准清晰且合理。
研究使用了机器学习来开发一种算法,用于预测特定被告人在保释期间再次犯罪或逃跑的概率。培训
机器的数据非常庞大:在2008年至2013年期间,纽约市有75万人拿到了保释。这些信息包括前科记录、被
告人被指控的罪行,以及人口统计上的数据。
机器比人类法官做出了更好的预测。例如,被机器划分为极端危险的那1%的被告人中有62%的人会在
保释期间犯罪。人类法官(这些人并未接触过机器预测)选择释放其中近一半的人。机器的预测相当准确
,机器识别的高危犯人真的有63%在保释期间犯了罪,并且,下一次开庭时有一半以上的人并未出现。被
机器识别为高危的被告人有5%在保释期间犯下了强奸罪或谋杀罪。(研究还显示,算法有望弥合种族差异。)
这是怎么回事呢?为什么法官的评估与预测机器有这么大的不同?其中一种可能是,法官做判决时考
虑进了算法用不到的信息,比如被告人出庭时的外表和举止。这些信息可能有用,也可能具有欺骗性。鉴
于这些得到释放的被告人犯罪率很高,得出后一结论不算不合情理。法官的预测相当糟糕。该项研究提供
了大量额外的证据来支持这一令人遗憾的结论。
由于可用于解释犯罪率的因素很多也很复杂,事实证明,人类在此情况下很难做出预测。在考虑不同
指标之间复杂的相互作用时,预测机器比人类的表现好得多。出于这个原因,你可能以为,过往的犯罪记
录可能意味着被告人有更大的潜逃风险,可机器说不定会发现,只有当被告人失业了一段时间后才是这样。换句话说,相互作用效应兴许最为重要,而随着此类相互作用的范围越来越大,人类做出准确预测的能
力一路下降。
这些偏差不仅出现在医学、棒球和法律领域,更是专业工作里持续出现的特点。经济学家发现,管理
人员和工人常常满怀信心地进行预测,但却丝毫未察觉自己预测得很糟糕。米切尔·霍夫曼(Mitchell Hoffm
an)、莉萨·卡恩(Lisa Kahn)和达尼埃尔·李(Danielle Li)对15家低技能服务公司的招聘事宜做了研究,发现公司使用客观、可核验的测试搭配常规面试来招聘时,招聘到的员工的在职时间会比只使用面试招聘
的高出15%。对此类低技能工作岗位,管理人员招聘工人的要求就是在职时间尽量长。
测试本身的覆盖面很广,包括认知能力和岗位契合指标。此外,如果招聘经理的自由裁定权受到限制
(以免经理罔顾不佳的考试分数直接招聘),应聘员工的在职时间会更长,辞职率也会下降。因此,哪怕
被要求以招聘在职时间更长的员工为目的,哪怕招聘经验丰富,哪怕有人提供相当准确的机器预测结果,管理人员仍会做出糟糕的预测。
机器在哪些地方预测糟糕
前国防部长唐纳德·拉姆斯菲尔德(Donald Rumsfeld)曾经说过:
世上存在“已知的已知”,有些事,我们知道自己知道;我们也知道存在“已知的未知”,也就是说
,有些事,我们现在知道自己不知道。但是也存在“未知的未知”,即有些事我们不知道我们不知道。放
眼我国和其他自由国家的历史,最后一类事情,往往是最棘手的。
这为我们理解预测机器失效的条件提供了有用的框架。首先,“已知的已知”指的是我们拥有丰富的数
据,我们知道自己能够做出良好的预测。第二,“已知的未知”指的是数据太少,我们知道预测会很困难。第三,“未知的未知”指的是过去的经验或当前数据未曾涵盖却仍可能出现的事情,所以,预测很困难,我
们甚至都没意识到。还有一类情况,拉姆斯菲尔德未曾指出,那就是“未知的已知”,即过去看似强烈的某
种联系其实是某个未知或未观测到的因素导致的结果,但这一因素会随着时间而改变,使那些我们以为自
己能够做出的预测看起来并不可靠。基于统计学里这些广为人知的限制条件,预测机器确实会在上述难以
预测的地方失效。
已知的已知
有了丰富的数据,机器预测可以良好运行。从提供好的预测的层面来说,机器对情况更了解。而且,我们知道这些预测很好。这是当代机器智能的甜蜜点(原指棒球的最佳击球点,此处引申为“最佳时机”。
——译注)。盗刷判断、医疗诊断、挑选棒球选手和保释决定都属于这一类别。
已知的未知
哪怕是当今(以及不远的将来)最优秀的预测模型也需要大量的数据,这意味着,我们知道,在没有
太多数据的情况下,预测会相对糟糕。我们知道自己不知道,这就是已知的未知。
没有太多数据,可能是因为事情发生得很少,所以预测很棘手。美国总统选举每4年举行一次,候选人
和政治环境随时都在变化。预测几年后总统选举的结果几乎做不到。2016年的选举表明,就算只提前几天
甚至在选举当天预测结果也很困难。大地震发生得也很少(谢天谢地),所以,迄今为止,要预测它什么
时候发生,在哪里发生,规模有多大,都是说不准的。(没错,地震学家正着手研究。)
与机器相反,人类有时非常擅长在数据极少的情况下进行预测。我们只看过一两次就能识别出一张脸
,哪怕是从不同的角度看的。我们能在40年之后认出自己小学四年级时的同学,虽说他的外表已经有了无
数的变化。从很小的年纪起,我们就能猜测球飞来的轨迹(尽管我们不见得能手脚协调到抓住它)。我们
还擅长用类比来思考新的情况,能找到其他类似的条件,并迁移到新的环境下。比方说,数十年来,科学
家们就把原子想象成微型太阳系,而且,许多学校至今都是这么教的。
尽管计算机科学家正努力减少机器的数据需求,开发此类“一次性学习”的技术(例如机器“见过”物体一
次之后就学会预测),但当前的预测机器尚不足以胜任此类工作。(虽然机器在这类情况下的表现越来越
好,但概率定律意味着,样本小的时候,总是存在一定的不确定性。因此,如果数据不足,机器预测存在
某种已知的不准确性。机器能够大致判断自己预测的准确性如何。一如我们在第八章所讨论的,这使得人
类要做出判断,怎样基于不准确的预测来采取行动。)因为这些属于“已知的未知”,又因为人类面对“已知
的未知”时更擅长做出决定,所以,管理机器的人需要知晓此类情况有可能出现,事先对机器编程,(在情
况出现时)让机器寻求人类的帮助。
未知的未知
为了能够预测,得有人告诉机器什么才值得预测。如果某件事情从未发生过,机器就无法预测。(至
少,不借助人类谨慎的判断所提供的有用类比,机器是无法使用其他信息进行预测的。)
纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)在《黑天鹅》(The Black Swan)一书里强调了未知
的未知。他强调,我们无法从旧数据中预测出真实的新事件。书名指的是欧洲人在澳大利亚发现的一种天
鹅新品种。对18世纪的欧洲人来说,天鹅是白色的。抵达澳大利亚后,他们看到了一种全新的、不可预知的东西:黑天鹅。他们从未见过黑天鹅,因此没有任何信息能够预测这种天鹅的存在。(在阿西莫夫的基
地系列科幻小说里,预测变得非常强大,以至能预见银河帝国的毁灭,以及各种愈演愈烈的社会剧变(这
是故事的重点)。不过,对故事线最为重要的是,这些预测无法预见“变异者”的崛起。预测无法预见意外
事件。)塔勒布认为,和黑天鹅的出现不同(它们的存在对欧洲或澳大利亚社会的发展走向没有太大有意
义的影响),另一些未知的未知有着严重的后果。
例如,20世纪90年代是音乐产业的好时代。唱片销量增长,收益稳步提升。前途看似一片光明。接着
,到了1999年,18岁的肖恩·范宁(Shawn Fanning)开发出Napster,有了这款程序,人们就能通过互联网免
费分享音乐文件。很快,人们就下载了数百万此类文件,音乐行业的收入开始下降。整个产业至今都没能
恢复元气。
范宁就是个“未知的未知”因素。机器无法预测他的出现。诚然,一如塔勒布和其他人所强调的,相比
之下,人类在预测“未知的未知”方面同样糟糕。面对未知的未知,人类和机器都会失败。
未知的已知
预测机器最大的弱点或许在于,它们有时会怀着十足的信心给出错误的答案。我们上面说过,面对已
知的未知,人类会理解预测的不准确性。人给出预测时信心不足,暗示了预测得不够准确。面对未知的未
知,人类认为自己没有答案。与此相反,对于未知的已知,预测机器似乎会给出一个非常准确的答案,但
它却可能错得离谱。
这是怎么发生的呢?因为,虽然数据能为决策提供信息,但数据也可能是从决策而来的。如果机器不
理解生成数据的决策过程,那么,它的预测就有可能失败。举例来说,假设你有意预测自己是否会在组织
里使用预测机器,你有了个不错的开局。那么,阅读本书几乎可以充当一个很好的预测因素:你是一位将
会使用预测机器的管理者。
为什么呢?至少有三个可能的原因。首先,也是最为直接的一点,本书中的观点将被证明是有效的,因此,阅读本书这一行为显然能帮助你了解预测机器,并将这些工具有效地引入自己的企业。
其次是所谓的“反向因果关系”。你阅读本书是因为你已经在使用预测机器了,或有明确的计划要在不
远的将来这么做。这本书并未驱使你采用这项技术;相反,(有可能尚未开始的)技术采用促使你阅读了
这本书。
最后一个原因是所谓的“遗漏变量”。你对技术趋势和管理都很感兴趣。于是,你决定读这本书。你也
会在工作中使用预测机器等新技术。在这种情况下,你对技术和管理的潜在偏好不仅促使你阅读了本书,还会让你使用预测机器。
有时候,这种区别无关紧要。如果你只想知道阅读这本书的人是否会采用预测机器,那么,导致采用
的原因不重要。如果你看到有人在阅读这本书,你便可以做出一个理性的预测:这样的人会在工作中采用
预测机器。
有时候这种区别很重要。比如你正考虑将这本书推荐给朋友,那么,如果本书让你在预测机器方面成
为更好的管理者,你便会这么做。你想要知道些什么呢?你会首先从“自己阅读了这本书”的事实入手。接
着,你希望一窥未来,观察自己在管理人工智能方面做得怎么样。假设,你完美地看到了未来。你在管理
预测机器方面取得了惊人的成功,它成为你所在机构的核心,你和机构取得了你之前想都不敢想的成功。此时,你会不会说是阅读这本书带来了成功呢?
不会。
为弄清读这本书是否发挥了作用,你还需要知道,如果你没读过这本书,事情会变成什么样。可这样
的数据你没有。你需要观察经济学家和统计学家所称的“反事实条件”,也就是说,如果你采取不同的行动
,会发生些什么。判断行动是否导致结果要求进行两种预测:第一,采取行动后会发生什么结果;第二,如果采取了不同的行动,会发生什么结果。但那是不可能的,你永远得不到未采取行动的数据。
这是机器预测经常出现的一个问题。在《深度思考》(Deep Thinking)一书中,国际象棋特级大师加
里·卡斯帕罗夫(Garry Kasporov)用一种关于国际象棋的早期机器学习算法讨论了一个类似的问题:
20世纪80年代初,米基和几个同事写了一款实验性的基于数据的机器学习国际象棋程序,得到了一个
有趣的结果。他们从特级大师的比赛里挑出数十万个棋局馈进机器里,希望它能够弄清楚哪些有效,哪些
没有。起初,机器似乎挺管用。它对棋局的评估比传统程序更准确。等他们让它真正下一盘棋的时候,问
题来了。程序布好了棋子,发动了一轮攻击,然后立刻牺牲了“后”!由于几乎无条件地弃了“后”,它
才下几步就输了。它为什么要这样做呢?原来,特级大师们牺牲“后”的那一步棋差不多总是机智且具有
决定性的一击。而对这款接受了一大堆特级大师棋局训练的机器来说,放弃“后”显然是成功的关键!
机器颠倒了因果顺序。特级大师只会在牺牲“后”并创造出一条通往胜利的捷径时才会这么做,如果机
器不理解这一点,就会以为牺牲“后”很快就会出现胜利。故此,牺牲“后”看起来像是取胜的方式,只不过这
是错的。虽然机器预测中的这个特定问题如今已经解决,但对预测机器来说,反向因果关系仍然是个挑战。
这个问题也经常出现在商业中。在许多行业里,低价格与低销售量是相关的。比如,在酒店行业,旅
游旺季之外的价格很低,而需求最高且酒店已客满时,价格也很高。考虑到这样的数据,天真的预测新手
或许会提出,提高价格能售出更多的房间。而人(至少是受过一定经济学训练的人)则明白,价格变化可
能是需求高引起的——而不是相反,所以提价不太可能带动销量。接下来,这个人可以跟机器合作,以识
别出正确的数据(如个人基于价格对酒店房型做出的选择)和恰当的模型(考虑到季节和其他供需因素)
,这样能更好地预测不同价格区间内的房间入住的情况。因此,对于机器来说,这是一个“未知的已知”,但理解价格由什么决定的人,只要能够对价格决策进行合理建模,便可将之视为已知的未知甚至已知的已
知。
假若还存在其他人的策略性行为,未知的已知和因果推断问题就更为重要了。谷歌的搜索结果来自一
种机密算法。该算法在很大程度上取决于那些能预测某人可能点击哪些链接的预测机器。对于网站管理员
来说,更高的排名意味着更多的网站访客和更大的销量。大多数网站管理员注意到了这一点,且会针对搜
索引擎进行优化:他们调整网站,努力提高它在谷歌搜索结果里的排名。这些调整大多是与算法的特质进
行博弈,故此,随着时间的推移,搜索引擎里会充斥着垃圾,这些链接并非搜索者真正想要寻找的东西,而是网站管理人员利用算法缺陷所得的结果。
就预测人们点击的内容而言,预测机器短期内做得很好。但过了几周或几个月,足够多的网站管理员
会找到方法来愚弄系统,使谷歌不得不大幅度地更改预测模型。正是因为预测机器有可能遭到愚弄,才会出现搜索引擎和垃圾信息发送者之间的这种往来角力。尽管谷歌试图创造出一种能让此类操纵无利可图的
系统,但它也意识到,完全依赖预测机器是有弱点的,因此,此类垃圾信息出现时,它会借助人类的判断
来重新对机器进行优化。Instagram也在不断地跟垃圾信息发送者展开博弈,定期更新算法,以过滤垃圾信
息和引起不适的内容。(在策略行动者面前使用预测机器所面临的挑战是一个历史悠久的难题。1976年,经济学家罗伯特·卢卡斯(Robert Lucas)就通货膨胀和其他经济指标的宏观经济政策进行分析时就提出了这
一观点。如果人们在政策调整后改变自身行为,然后境况变得更好了,他们就会改变自己的行为。卢卡斯
强调,虽说通货膨胀率高的时候就业率往往也高,可如果中央银行改变政策以提高通货膨胀率,人们就会
预料到这一通货膨胀,前述的关系便不再成立了。故此,他认为,政策不光要考察过往数据,还要理解人
类行为的潜在推动因素。这便是著名的“卢卡斯批判”。经济学家蒂姆·哈福德(Tim Harford)对此做了一番
不同的描述:诺克斯堡从未遭到过抢劫,应该花多少钱来保护诺克斯堡?由于它从未遭到过抢劫,安保支
出并未减少抢劫。预测机器或许会推荐分文不花。毕竟安保并未减少抢劫,那何必要花这个钱呢?)更普
遍地说,一旦人类发现了这些问题,它们就不再是未知的已知。要么,人找到解决办法生成良好的预测,这样,问题会变成需要人和机器一同合作的“已知的已知”,要么,人无法找到解决办法,问题变成“已知的
未知”。
机器预测的功能非常强大,但也有局限性。在数据有限的情况下,它表现不佳。受过良好训练的人可
以识别出这些局限性(不管是罕见事件导致的还是因果推断的问题导致的),进而改进机器的预测。要做
到这一点,这些人必须理解机器。
合作带来更好的预测
有时候,人类和机器的组合能对彼此的弱点进行互补,生成最好的预测。2016年,哈佛大学与麻省理
工学院的人工智能研究团队赢得了Camelyon挑战赛(Camelyon挑战赛是诊断图像分析组织(DIAG)和荷兰
拉德堡德大学医学中心病理研究所联合发起的病理切片机器诊断国际大赛。——译注),这是一项依据活
检组织切片来检测转移性乳腺癌的计算机竞赛。与人类病理学家96.6%的准确率相比,该团队设计的深度学
习算法的正确率是92.5%。表面上看是人类赢了,但研究人员更进一步,将算法和病理学家的预测结合起来
,结果实现了99.5%的准确率。也就是说,人类的错误率从3.4%降到了0.5%,减少了85%的错误率。
这是典型的劳动分工,只不过不是亚当·斯密描述的体力劳动分工。它是经济学家和计算机先驱查尔斯·
巴比奇在19世纪首次描述的认知分工。“机械和心智过程中的劳动分工,使我们得以按数量需求准确地购买
和应用相关技能与知识。”
人和机器各自擅长不同方面的预测。判断癌症的时候,人类病理学家通常是对的。人类说有癌症然后
发现弄错了,这是很少见的情况。反过来说,人工智能可以更准确地判断没有癌症的情况。人和机器犯的
是不同类型的错误。辨识出这些不同的能力,人机结合便克服了这些弱点,因而能极大地降低错误率。
这种合作将怎样转化到商业环境呢?机器预测可以通过两种宽泛的途径来提高人类预测的生产力。首
先,提供初步预测,而且人类可以用这些预测跟自己的评估相结合。其次,在事后提供第二种意见,发挥
监控作用。这样,老板就可确保人类正在努力工作,而且将精力投入了预测。如果没有这种监控,人类兴
许会不够努力。理论认为,只有当人类投入了额外的精力,确保自己有足够的信心,才能回答出为什么自
己的预测跟客观算法有所不同,进而推翻机器的意见。检验这种互动的绝妙场所是与贷款申请人的信誉度相关的预测。丹尼尔·帕拉维西尼(Daniel Paravisini)和安托瓦妮特·施科阿(Antoinette Schoar)引入了一种新的信贷评分体系,检验哥伦比亚一家银行对小企
业贷款申请人的评估。计算机化的评分体系获取了申请人的各种信息,并将其汇总为一套风险预测指标。
接着,由银行员工构成的贷款委员会使用该得分和他们自己的流程来批准、拒绝,或将贷款申请移转地区
经理决定。
研究人员使用随机对照试验(而不是让管理层下达命令)来决定是在银行放贷之前还是之后引入申请
人的信贷评分。因此,要科学地评估评分对放贷决定的影响,这就是个合适的地方。一组员工在开会讨论
之前看到了申请人的信贷评分。这可以类比为与机器协作的第一种方式,即机器预测为人类的决定提供信
息。另一组员工在初步评估之后才看到申请人的信贷评分。这可以类比为与机器协作的第二种方式,即让
机器的预测来帮忙监督人类决策的质量。第一种和第二种方法的区别在于,信贷评分是否为人类决策者提
供了信息。
在这两种情况下,评分都有帮助,但提前给出评分时,决策能得到最大的改善。此时,委员会做出了
更好的决定,也更少向经理求助。这些预测提供了信息,使较低级别的管理人员获得更大的权力。在另一
种情况下,委员会事后得到信贷评分,决策同样会得到改善。这是因为,预测帮助更高级别的管理人员对
委员会做了监督。它激励了委员会保障决策质量。
为了生成更好的预测,人机协同预测的组合必须理解人类与机器各自的局限性。就贷款申请委员会一
例而言,人类有可能做出带偏差的预测,又或者没有付出足够的努力。机器兴许会缺少重要信息。我们虽
然经常在人类协作中强调团队合作和共同努力,但说不定不会把人机组合视为团队。人类想要让机器预测
变得更好,或是机器想让人类预测变得更好,就必须理解人类与机器双方的弱点,并将双方结合起来克服
这些缺陷。
例外预测
预测机器的一个主要优点是,它们可以按人类做不到的方式进行扩展。但它们还有一个缺点,那就是
很难在异常情况下进行预测,因为异常条件缺乏足够的历史数据。两相结合意味着许多人机协作都将采取“
例外预测”的形式。
我们已经讨论过,用预测机器处理较为常规、频繁发生的状况时,只要数据足够丰富,它就能够学习。此时,预测机器无须人类搭档给予过多关注就可运行。然而,一旦发生例外(即非常规情况),它就会
通知人类,接着人类会付出更多的努力改进、校验预测。哥伦比亚银行贷款委员会就恰好属于这种“例外预
测”的情况。
例外预测的设想来自管理术中的“例外管理”(management by exception)的概念。而在预测领域,从很
多方面看,人类就是预测机器的主管。人类主管有许多困难的任务;为节约人类的时间,双方的工作关系
是,只在真正需要的时候才调动人类的关注。这种不频繁的需要,意味着人能够轻易利用预测机器在常规
预测上的优势。
例外预测是齐塞尔公司初代产品的运行模式中必不可少的一环。我们在本章开头介绍过该公司的第一
款产品,它根据各种文件来确认、修改机密信息。很多法律情况都涉及文件的部分信息需要在加密或删除
后才能向另一方披露或公开披露,这一流程本来十分烦琐。齐塞尔的编改软件会依靠例外预测先把任务跑一遍,生成第一稿。(这种“第一稿”的劳动分工,可见
于许多公司对预测机器的部署上。《华盛顿邮报》有一套内部用的人工智能,它于2016年发表了850篇报道
,只不过每一篇文章在刊出前都要经过人工审核。全球第一家人工智能律师公司ROSS Intelligence也部署了
类似的流程,解析上千份法律文书,将之转为简短的备忘录。)用户还可将编改软件的模式设为“严格”或“
宽松”。在“严格”模式下,编改软件的加密标准比“宽松”模式更高。比方说,如果你担心泄露本应该保密的
信息,你应该选择“严格”模式。但如果你担心披露太少,就应该选择“宽松”模式。齐塞尔的界面简单易用,人可以轻松地检查修改的部分,接受或拒绝。换句话说,每一项编改都只是建议,而非最终决定。最终的
决定权仍然保留在人类手里。
齐塞尔公司的产品将人类与机器相结合,以克服各自的弱点。机器的工作速度比人类快,在编改文档
时可采用一致的标准。而当机器没有足够的数据做出良好预测时,人类可进行干预。
本章要点
※人类(包括专业人士)在某些条件下会做出糟糕的预测。人类大多会过分看重突显的信息,对统计
特点考虑不周。许多科学研究记录了各种职业中存在的此类缺陷。电影《点球成金》里也出现过这一现象。
※就预测而言,机器和人类有着各自的优势和劣势。随着预测机器的改进,企业必须调整人与机器的
劳动分工来应对。在考虑不同指标之间复杂的相互作用时,预测机器比人类表面看来要好,尤其是在数据
丰富的环境中。随着这种相互作用的范围不断扩大,相较机器而言,人类做出精确预测的能力随之减弱。
然而,理解数据的生成过程可带来预测优势,且在数据较为单薄的时候,人类往往比机器表现更好。我们
对预测环境做了分类(即已知的已知,已知的未知,未知的已知,未知的未知),它有助于我们理解人机
之间的恰当分工。
※预测机器可进行规模化扩展。每次预测的单位成本随着应用频率的增加而下降。人类预测却无法按
这种方式扩展。然而,人类拥有关于世界怎样运作的认知模型,故可根据少量数据进行预测。因此,照我
们预计,人类的例外预测会出现增长,机器则生成大部分的常规预测。(因为机器主要是根据惯例中的常
规数据做出的预测。)可一旦发生罕见事件,机器发现自己无法生成有把握的预测结果时,便可要求人类
的协助。人类可提供例外预测。第二部分
决策第7章
拆解决策
我们通常将决策与“重大决定”联系在一起:我应该买这套房子吗?我应该上这所学校吗?我应该跟这
个人结婚吗?毫无疑问,这些改变生活的决定虽然少见,却非常重要。
但我们也随时随地在做着琐碎的决定:我应该继续坐在这把椅子上吗?我应该继续走这条街吗?我应
该继续支付这个月度账单吗?此外,一如加拿大著名摇滚乐队Rush歌唱自由意志的妙语所言:“如果你选择
不做决定,你仍然做了选择。”我们会像依靠定速巡航那样处理许多小事,比如接受默认设定,选择把所有
的注意力都放到更重大的决策上。但是,决定不做决定,这仍然是个决定。
在大多数职业当中,决策都处在核心位置。学校教师决定怎样教育有着不同个性和学习风格的学生。
经理们决定为团队招募什么人,晋升什么人。看门人决定怎样应对意外事件,如煤气泄漏和安全隐患。卡
车司机决定怎样应对道路封闭和交通事故。警察决定如何处理可疑人员和潜在的危险情况。医生决定使用
何种药物,什么时候进行昂贵的化验。家长决定孩子该花多长时间在电子设备上。
像这样的决定大多发生在不确定的条件下。老师并不确定用这种教学方法还是那种教学方法能让某个
孩子学得更好。经理并不确定求职者是否会表现良好。医生并不确定是否有必要进行昂贵的化验。他们每
个人都必须预测。
但预测不是决定。做出决定需要对预测进行判断,接着采取行动。在机器智能近年来取得进展之前,只有学术界才对这种区别感兴趣,因为人类始终是把预测和判断放到一起进行的。而现在,机器预测的进
步意味着我们必须对决定进行一番剖析。
决策剖析
预测机器在决策层面上会产生最直接的影响。但决策还有其他6个关键要素(见图7-1)。当某人(或
事物)做出决定时,他们从世界上获取能生成预测的输入数据。不同类型的数据之间有什么关系,哪些数
据与特定情况关系最为紧密,人接受过相关的训练,预测因此才是可行的。把预测与判断(什么最重要)
结合起来,决策者就能选择行为了。行为导致结果(而结果与奖励或损益相关)。于是,这个结果,就成
了决定带来的后果。该结果是呈现完整图景所必需的。它还可以提供反馈,帮忙改进下一次预测。假设,你因为腿疼去看医生。医生开始诊断你,他做了X光检查,验了血,并询问了几个问题,得到了
输入数据。利用这一输入,并根据多年来医学院所学和其他诸多相似患者的情况(这就是训练与反馈),医生做出了预测:“你最有可能患的是肌肉痉挛,不过有很小的概率是血栓。”
伴随这一评估出现了判断。医生的判断会考虑其他数据(包括直觉和经验)。如果是肌肉痉挛,那么
休息就好。如果是血栓,那就要用一种没有长期副作用的药物来治疗,但它对许多人会造成轻微不适。如
果医生错误地用治疗血栓的办法来治疗肌肉痉挛,那么,你短期内会感到不适。如果医生错误地用休息来
治疗血栓,那么,你就可能出现严重的并发症,甚至可能死亡。做判断涉及确定与每一个可能的结果相关
的相对损益,这就包括,与“正确”决定相关的回报,以及与错误决定相关的损失。(本例中,损益与痊愈
、轻微不适、严重并发症相关。)确定所有可能结果的损益是做出以下决定的必要步骤:什么时候选择药
物治疗(即选择让患者感到轻微不适和减少严重并发症的风险),什么时候选择休息。故此,将判断应用
于预测,医生做出了决定(或许还参考了你的年龄和风险偏好):你应该接受肌肉痉挛的治疗,尽管你有
极小的概率得的是血栓。
最后是给予治疗、观察结果的行为:你腿上的疼痛消失了吗?出现其他并发症了吗?医生可以用这一观察结果作为反馈,为下一次预测提供信息。
通过将决策分解为不同的元素,我们可以清楚地进行思考:随着机器预测能力的增强,人类活动的哪
些部分将贬值,哪些将增值。最清楚的是,对预测本身而言,预测机器整体上是人类预测的一个更好的替
代。随着机器预测越来越多地取代人类预测,人类预测的价值将降低。但更重要的一点是,虽然预测是一
切决定的关键组成部分,但它并不是唯一的组成部分。目前,决策的其他元素(判断、数据和行动)仍牢
牢地被人类握在手中。它们是预测的互补品,也就是说,随着预测变得廉价,它们的价值会提高。例如,由于预测机器现在提供了更好、更快和更廉价的预测,我们或许可将做判断的努力用到从前决定不做决定
的地方(例如接受默认设定)。此时,人类判断的需求将会增加。
“知识”没了
伦敦的司机为获得驾驶著名的黑色出租车的资格,必须参加名为“知识大全”(“The Knowledge”)的考
试。考试内容包括知晓城市周边数千个景点和街道的位置,以及预测一天中任何时段任意两点之间最短或
最快的路线——这是更难的部分。哪怕只是一座普通城市,相关信息量也非常惊人,何况伦敦并不普通。
它从前是若干独立的乡村和城镇,在两千年的时间里逐渐发展成了一座全球化大都市。为了通过考试,申
请人必须得到一个接近完美的分数。平均要花三年时间才能通过考试也不足为奇了。他们不光要花时间背
地图,还要骑着机动车在城里跑,以便将记忆落到实处。但一旦通过考试,申请人就可获得绿色的荣誉胸
章,象征他们已接受了知识的洗礼。
你知道这个故事接下来会怎么发展。十年前,伦敦出租车司机拥有的知识是他们的竞争优势。没有人
能提供相同等级的服务。本来可以步行到某处的人会钻进出租车,完全是因为出租车司机知道路该怎么走。可仅仅过了五年,一套简单的移动GPS(卫星导航系统)就可以为驾驶员提供一度被出租车司机垄断的
数据和预测。今天,大多数手机都可免费使用相同的“超级武器”。人们再也不会迷路了。人们知道最快的
路线。而且,如今的手机已经更进一步了,因为它会实时更新交通信息。
投入了三年时间学习“知识大全”的司机们并不知道自己有一天竟然要跟预测机器竞争。多年来,他们
把地图上传到自己的记忆里,检测路线,并用常识填补空白。如今,导航程序可以访问相同的地图数据,还能结合算法和预测性训练,利用出租车司机无法掌握的实时交通数据,以便在任何时候找到最佳路线。
但是伦敦出租车司机的命运不仅有赖于导航软件预测“知识大全”的能力,还有赖于帮助他们选择从A点
到B点之间最优路线的其他关键要素。首先,出租车司机要能控制机动车辆。其次,他们身上“装载着传感
器”(眼睛和耳朵最为重要),能将背景信息馈进大脑,确保自己将知识应用于实践。但其他人也能这样做。有了导航软件,伦敦出租车司机的工作并不会变得更糟糕。相反,出租车司机以外的数以百万计的人的
出行却便捷多了。出租车司机的知识已不再是稀缺商品,这为优步等共享驾驶平台带来了与之竞争的机会。
其他司机能够借助手机上的“知识大全”来预测最快的路线,这意味着他们可以提供同样的服务。当高
质量的机器预测变得廉价时,人类预测的价值便下降,出租车司机的境遇就会每况愈下。伦敦黑色出租车
的乘坐人数下降了,因为有其他人可提供相同的服务。这些人同样拥有驾驶技能,具备人类传感器。随着
预测变得廉价,互补性资产的价值上升。
当然,自动驾驶汽车本身有可能替代这些技巧和感官,但这一点我们稍后再来讨论。我们在这里想要说明的是,一如决策剖析部分所描述的那样,要理解机器预测带来的冲击就需要理解决策的各个方面。
应该带上伞吗
到现在为止,判断到底是什么,我们对此还有些不确定。为了解释它,我们引入一种决策工具:决策
树。(更详细的解释见Joshua S. Gans, Core Economics for Managers(Australia:Cengage,2005)。)当你
拿不准做出特定选择后会发生什么的时候,它尤为有用。
让我们举一个你可能熟悉的选择作为例子。你应该带着伞出门散步吗?你也许认为,伞是一种能让人
避免被雨淋湿的工具,没错。不过,在本例中,伞也是一种针对下雨可能性的保险。故此,以下框架适用
于任何降低风险的类保险决策。
显然,如果你知道不会下雨,就会把伞留在家里。另一方面,如果你知道会下雨,那么一定会随身带
伞。在图7-2中,我们使用树状图来表示它。树根分出两条支线,代表你可以做的选择:“不带伞”或“带伞”。它们又各自分出两条支线,代表你不确定的事情:“下雨”和“天晴”。没有准确的天气预报,你并不知道到
底会怎样。你也许知道,在这一年的这个季节,天晴的概率是下雨的三倍。故此,你有34的机会碰上出太
阳,有14的机会碰上下雨。这是你的预测。最后,在分支的末端是后果。如果你没带伞而碰上了下雨,你
就会被淋湿,以此类推。假设你喜欢不带伞同时不淋雨(用10分制打分的话,你认为这是10分)甚于带了伞没淋雨(8分),又
甚于淋了雨(大大的0分)。(见图7-3)这些判断足以让你采取行动了。凭借下雨概率是14的预测,以及
对淋湿和带伞损益的判断,你可以结算出带伞与不带伞的平均损益。据此,你带上伞(平均收益8分)比不
带伞(平均收益7.5分)好。(原因是这样:“带伞”的平均收益=(34)(带了伞,没下雨)+(14)(带
了伞,挡了雨)=(34)8+(14)8=8“不带伞”的平均收益=(34)(没带伞,也没下雨)+(14)(被雨
淋湿了)=(34)10+(14)0=7.5)如果你真的很讨厌带伞(6分),你的偏好判断也可以据此进行调整。在这种情况下,出门不带伞的平
均损益不变(7.5分),而带伞的损益变成了6分。所以,这些讨厌伞的人会把伞留在家里。
这个例子很琐碎。讨厌带伞甚于讨厌被雨淋湿的人显然会把伞留在家里。但对那些并不琐碎的决定,决策树仍然是一种厘清损益的有用工具,这也正是判断的核心。这里,行动是带伞,预测是下雨还是晴天
,结果是会不会淋湿,判断是预期你从淋湿、没淋湿、带伞还是不带伞中所感受到的开心(“损益”)。随
着预测变得更好、更快、更廉价,我们将更多地利用它来做出更多的决定,所以,我们将需要更多的人为
判断,而人为判断的价值也将随之提升。
本章要点
※预测机器非常有价值,因为(1)它们常常可以比人类更好、更快、更廉价地生成预测;(2)预测
是在不确定条件下做出决策的关键因素;(3)决策在整个经济和社会生活中无处不在。然而,预测并不是
决策——它只是决策的组成部分。其他的组成部分包括判断、行动、结果,以及三类数据(输入、训练和
反馈)。※把决策分解成不同的组成部分,可以帮助我们理解预测机器对人类及其他资产价值带来的影响。预
测机器替代品(即人类预测)的价值将会下降。然而,互补品(如与数据收集、判断和行动相关的人类技
能)的价值会变得更宝贵。对于每个投入了3年时间学习“知识大全”(即学习预测一天中特定时间从a到b
的最快路线)的伦敦出租车司机来说,预测机器并不会让他们中任何一个人的境况变得更糟糕。反而,借
助预测机器,其他众多驾驶者在选择最佳路线上的表现变得更好了。出租车司机的预测技能不再是稀缺商
品。非出租车司机不仅掌握驾驶技能,还具备人类传感器(眼睛和耳朵),依靠预测机器得到了有效提升
,得以与出租车司机展开竞争。
※判断涉及确定与每一可能结果(包括“正确”决策带来的结果,以及错误决策带来的结果)相关的
相对损益。判断要求你明确自己实际追求的目标,这是决策的一个必要步骤。随着预测机器让预测变得更
好、更快、更廉价,人为判断的价值将会增加,因为我们对它的需求更高了。我们可能更愿意将精力放在
我们之前选择不做决定(接受默认设定)的决定上。第8章
判断的价值
更好的预测提高了判断的价值。毕竟,如果你不知道自己是喜欢不淋雨,还是讨厌随身带伞,光知道
下雨的概率是没什么用处的。
预测机器不提供判断。只有人类才会进行判断,因为只有人类可以表达不同行动带来的相对回报。随
着人工智能接管预测,人类会减少在决策中扮演预测加判断的综合角色,而更多地专注于发挥判断的作用。这将促使机器预测与人类判断之间形成互动,就跟你用电子表格或数据库执行多种查询差不多。
有了更好的预测,人们将获得更多的机会,思考不同行为带来的回报。总而言之,也就是有了更多判
断的机会。而这意味着,更好、更快、更廉价的预测会让我们有更多的决定要做。
判断盗刷
诸如万事达卡、维萨卡和美国运通卡等信用卡机构随时都在进行预测和判断。它们必须预测信用卡申
请人是否符合信用标准。如果申请人不合资格,公司就会拒绝他们的申请。你可能认为这是纯粹的预测,但其实这里头牵涉重要的判断元素。信用标准是浮动的,面对不同的利率和违约风险,信用卡公司必须判
断自己的承担意愿分别是多大。这些决定带来了明显不同的商业模式——相当于美国运通卡中的高端白金
卡和大学生入门级卡的区别。
公司还需要预测任意一笔交易是否合规。一如你是否带伞的决定,公司必须权衡4种不同的结果(见图
8-1)。公司必须预测一笔支出款项是盗刷还是合规,进而决定是授权还是拒绝该交易,接着评估每一结果。(拒付了盗刷支出是好的,拒付了客户本人的合规交易是糟糕的。)如果信用卡公司能够完美预测盗刷
,那就一切顺利。可惜并非如此。例如,乔舒亚(本书作者之一)购买跑鞋时经常遭到信用卡公司拒付,因为他往往一年只买一次跑鞋
,大多还是度假时在外地的购物中心。多年来,他不得不打电话给信用卡公司,请求解除信用卡的限制。
信用卡盗刷常常发生在商场,头几笔盗刷交易没准是鞋和服装。(容易变现,作为同一盗窃链上不同
分支的报酬。)由于乔舒亚没有定期购买衣服和鞋的习惯,因此很少去购物中心,信用卡公司才会判断该
卡可能出现了盗刷。这种猜测很合理。
预测信用卡是否遭到盗刷,部分影响因素是通用的(交易类型,如购买跑鞋),另一些因素则是特定
的(本例中,是年龄和频率)。这些因素互相组合,意味着标记该交易的最终算法会很复杂。
人工智能的承诺是,它可以让预测变得更精确,特别是在通用和个性化信息交杂的情况下。例如,根
据乔舒亚多年交易的数据,预测机器可以了解这些交易的模式,包括他每年在同一时段前后购买跑鞋的事
实。它不会将这种购买归为异常事件,而可能将其归类为这个人的寻常事件。预测机器可能会注意到其他
相关因素,例如,某人购物需要多长时间,进而算出在两家不同商店的交易时间是否太过接近。随着预测
机器能够更精确地标记交易,信用卡机构得以更自信地锁定信用卡,甚至主动与消费者联系。如今的情况
正是如此。乔舒亚最近一次在购物中心买跑鞋,就买得很顺利。
但在预测机器能够完美预测盗刷之前,信用卡公司不得不计算失误的成本,这需要进行判断。假设预
测不完美,并且有10%的概率不正确。接着,如果公司对这些交易拒绝付款,它们有90%的概率判断正确,节省与盗刷交易相关的补偿成本。但它们也有10%的概率拒付了合规交易,惹恼客户。为了制订出正确的行动方案,信用卡公司必须平衡发现盗刷的相关成本与客户不满相关的成本。这一权衡的正确答案,信用
卡公司没法自动得知,它们必须算出来。所谓判断就是这么做的。
其实这就是雨伞一例的重复,只不过,这一回要权衡的不是带不带伞、淋雨还是不淋雨,而是盗刷费
用和客户满意度。本例中,由于涉事交易是盗刷的概率比合规交易要大9倍,公司会拒绝承担费用,除非客
户满意度比可能的损失重要9倍。
对于信用卡盗刷来说,上述损益,有不少都很容易判断。盗刷的补偿成本很有可能有着信用卡公司可
辨别的显要的金钱价值。假设,一笔100美元的交易,补偿成本是20美元。如果顾客不满的成本低于180美
元,那么拒绝交易是合理的。(180美元的10%是18美元,与20美元的90%相同。)对很多客户来说,一笔
交易遭到拒付,并不会带来相当于180美元的不满。
信用卡机构还必须评估,这种拒付符不符合特定客户的情况。例如,持有白金卡的高净值用户可能还
有其他机构的信用卡可用,如果遭到拒付,此人有可能不再使用这张卡。而此人有可能正在度豪华假期,于是,发卡机构说不定就损失了该用户在这趟旅行中的所有支出。
信用卡盗刷是一个定义明确的决策过程,出于这个原因,我们反复以其为例,但它仍然很复杂。相比
之下,其他很多决策,不光潜在行为更加复杂(不仅仅是简单的接受或拒付),潜在的情况(或状态)也
有所不同。要做出判断,就要理解每一组行为与对应情况的奖励。信用卡一例只有4种结果。(就算你对高
净值客户和普通客户做区分,也只有8种。)但假设你有10种行为可供选择、外加20种可能出现的情况,你
就要对200个结果做判断。随着事情变得更加复杂,回报的数量可能难以计算。
判断的认知成本
研究过决策的人一般都把回报当成既定的——它们的存在不需要理由。你也许喜欢巧克力冰激凌,而
你的朋友可能喜欢杧果冰激凌。你们俩怎样得出各自的观点并无太大意义。同样,我们假设大多数企业追
求的是利润或股东价值的最大化。经济学家考察过企业为自己的产品设定某个价格的原因,发现事先接受
上述目标是有用的。
损益很少一目了然,而理解损益的过程有可能耗时长久且昂贵。然而,预测机器的崛起为理解损益价
值的逻辑和动机带来了更多的收益。
从经济角度来看,计算损益的成本主要是时间。以你判断损益的一条特定途径为例:审议和思考。要
想清楚你真正想要实现什么目的,或是客户不满带来了什么代价,兴许要付出时间思考、反省,甚至向别
人寻求意见。又或者,你要花时间研究,才能更好地理解损益。
对信用卡盗刷检测而言,弄清楚客户满意和不满带来的损益,以及允许盗刷交易进行的代价是必要的
第一步。但高净值客户带来的不同损益需要进行更多思考。评估这些损益会不会在高净值客户度假时发生
变化就需要更多的考虑了。此外,普通客户度假时会怎么样?此时的损益是否有什么不同?要不要把出差
和度假区分开来?又或者,要不要把去大峡谷和去罗马区分开来?
在每一种情况下,判断损益都需要付出时间和精力:更多的结果,意味着要进行更多的判断,也就意
味着要花更多的时间和精力。判断是一个较慢的决策过程,对人类来说,这就是判断带来的认知成本。所
有人都必须在弄清楚损益和延迟决定需付出的代价之间进行权衡。对看似不太可能出现的情形,有些人会
选择不去研究它的损益。信用卡机构兴许发现,区分出差和度假是值得的,但区分到大峡谷度假和到罗马度假就没那么值得了。
在此类出现可能性不大的情况下,发卡机构可以猜到正确的决定,而把事情划分到一起,或是选择较
为安全的默认设定。但对于更频繁的决策(如整体而言的旅行),或看似更重要的决定(如高净值客户)
,许多机构会花时间更加仔细地审议并尝试弄清损益。不过,尝试的时间越长,你做出决定以及执行所需
要的时间也就越长。
弄清损益还有点像品尝新食物:吃一口,看看会发生什么。或者说,用现代商业的说法:实验。在相
同的情况下,不同的人可能会采取不同的行动,并且了解奖励到底是什么。人是通过行动学到损益是什么
的,而不是事前深思得来。当然,做实验肯定意味着你要做一些日后认为是错误的事情,故此,实验也有
成本。你会吃到自己不喜欢的食物。如果你为了找到理想的食物不断尝试新口味,你会错过许多美好的就
餐体验。无论是通过思考还是尝试来做判断,它始终是有代价的。
知道你做某事是为什么
预测是自动驾驶汽车和优步、Lyft(来福车)等平台兴起的核心,它们都是在出发点和目的地之间选择
一条路线。汽车导航设备已经出现了一二十年,有些是车内装载,有些是独立设备。但互联网移动设备的
激增改变了导航软件供应商收到的数据。例如,以色列初创公司Waze(“位智”,后为谷歌收购)跟踪司机
选择的路线,生成准确的交通流量图。然后,它利用这些信息进行有效的优化,既考虑到驾驶员提供的信
息,也考虑了对流量的实时监控,然后找到两点之间最快的路径。如果你想出行至更远的地方,它还可以
预测交通状况可能怎样发展,并能在条件改变后提供更快捷的新路线。
像Waze这类应用的用户不会总是按照软件的指示走。他们并非对预测本身有不同意见,而是其最终目
标或许并不是仅仅着眼于速度,还包括更多的元素。例如,软件并不知道汽车的汽油是不是快用完了,是
否需要去加油站。但知道需要给车加油的人类驾驶员可以否定程序的建议,选择另外一条路线。
当然,像Waze这样的应用程序能够,也必将变得更好。比方说,在依靠电力行驶的特斯拉汽车里,导
航会考虑到充电的需求和充电站的位置。应用程序可能会询问你是否需要加油,或者,在不远的将来,它
甚至能直接从你的汽车里获取数据。这似乎是一个可以解决的问题,就像你可以调整导航软件的设置,避
开收费的公路那样。
你的个人偏好中的其他方面更难编程。例如,在漫长的车程里,你可能希望在合适的地方停下来休息
、吃饭。或者,程序推荐的最快路线说不定只能节省一两分钟,但开起来却极为费劲,如一些窄路。又或
者,你不喜欢走曲折的道路。应用程序有可能了解这些行为,但在某个特定时间,某些因素不一定会纳入
编码的预测里以自动产生行动结果。在预测你的偏好时,机器能学到的东西存在根本上的局限性。
从更宽泛的层面上来说,人做决定的时候,其对象很少只在一个维度上。人类对自己为什么做某事有
一套独有的认识(有些认识是显露的,有些认识是隐含的),这使他们得以进行个性化且主观的权衡。
固然机器可以预测有可能发生些什么,人类仍然会根据自己对目标的理解来决定采取何种行动。在很
多情况下,机器(比如Waze软件)会给人类一个预测,这一预测暗示了某一维度上(如速度)的特定结果;而人类会决定是否推翻机器推荐的行动。根据预测机器的复杂程度,人可能会要求它按照新的限制条件
做出另一种预测。(“Waze,提供一个附近的加油站。”)对判断硬编码
初创公司Ada Support正使用人工智能预测技术对技术支持问题进行区分——简单的和困难的。人工智
能回答简单的问题,并将困难的问题发送给人。对典型的移动电话服务供应商而言,消费者打来电话要求
获得技术支持的时候,他们问的绝大多数问题已经有其他人问过,输入答案的操作很简单。挑战在于预测
消费者想要知道什么,以及判断该给出哪一个答案。
Ada的做法不是把人们引到传统的“常见问题”页面,而是立刻识别并回答这些常见问题。它可以匹配消
费者的个人特征(如对技术能力的过往知识,他们呼入时使用的是什么类型的电话,或过去进行的通话)
,以改进对问题的评估。在此过程中,人工智能减少了顾客的挫败感,更重要的是,它还可以迅速处理更
多的互动,而无须转接更为昂贵的人工客服。人类只需处理少见的、更困难的问题,简单的问题则交由机
器处理。
随着机器预测的进步,很多情况下,提前明确判断越来越有必要。一如我们能向他人解释自己的想法
那样,我们也可以向机器解释自己的想法——只不过是以软件代码的形式。如果我们预知会收到(针对该
问题的)精确预测,我们就可以在机器进行预测之前将这种判断写入程序之中。Ada对简单的问题采用了这
种做法。要不然,可能出现的情况太多,提前具体指定每一种情况下该怎么做太耗时耗力了。所以,对于
难题,Ada会请求人类进行判断。
有时候,经验可以帮助人们将判断编入代码中。大多数经验是无形的,无法被轻易地编写下来或表达
出来。安德鲁·麦卡菲(Andrew McAfee)和埃里克·布莱恩约弗森(Erik Brynjolfsson)写道:“(用计算机
替代人类)是有局限性的,因为有很多任务,人能够毫不费力地理解,但不管是计算机程序员还是其他任
何人,都无法明确阐明这些任务的‘规则’或流程。”不过,并非所有的任务都是这样。对一部分决定来说,你可以清晰地阐明必要的判断,并用代码来表达。毕竟,我们常常向别人解释自己的想法。实际上,如果
判断可被编码,就意味着你能够补完“如果-那么”语句里“那么”后面的部分。只要能做到这一点,判断就能
够确定并编写为程序。
麻烦的地方在于,就算你可以对判断进行编程,接替人的角色,机器接收的预测也必须相当精准才行。如果可能出现的情况很多,那么你就必须花费大量的时间提前指定每一种情况下要做什么。如果可能发
生的情况很明显,你便可以轻松地编程,让机器采取特定行动;然而,只要还存在不确定性,那么,指导
机器时就必须十分谨慎地权衡犯错的代价。不确定性意味着,不光在预测结果正确时你需要判断,预测结
果错误时,你同样需要判断。换句话说,不确定性会增加特定决定带来的损益所需要的判断成本。
信用卡机构已经采用新的机器学习技术进行盗刷检测。预测机器让它们得以更加自信地编程,让机器
决定是否阻止一笔信用卡交易。随着盗刷预测变得更加准确,把合规交易错误地识别为盗刷的概率下降了。如果信用卡公司不怕在预测中犯错,就可以对机器的决定进行编程,而无须判断拒付一笔交易、惹怒特
定客户带来的代价。这样一来,做决定就容易多了:如果是盗刷,那么就拒付;如果不是,那么就接受交
易。
回报函数工程
随着预测机器带来更好更廉价的预测,我们必须弄清怎样才能最好地运用这些预测。不管我们能不能
提前明晰判断,总需要有人来确定判断。这就是需要回报函数工程的地方,它根据人工智能所做的预测,确定不同动作的回报。做好这项工作,需要了解组织的需求和机器的性能。
有时,回报函数工程牵涉到对判断做硬编码:在预测之前就对回报进行编程,以求实现行为的自动化。自动驾驶车辆就是这种硬编码回报的例子之一。一旦做出预测,动作就立刻执行。但把回报设定正确也
很重要。回报函数工程必须考虑到人工智能对一项成功指标做过度优化的可能性(此时,动作跟组织的更
大目标会不一致)。在自动驾驶汽车领域,有一大堆委员会在做这方面的努力;不过,还有许多新的决策
也需要进行此类分析。
还有些情况,可能的预测结果太多了,提前判断所有可能出现的损益成本过高。人类需要等到预测出
现,接着评估损益,这接近如今大部分决策的运行方式(不管其中是否包含机器生成的预测)。我们将在
下一章中看到,在这些地方,机器也逐渐深入。有些环境下,预测机器可以通过观察过去的决策来预测人
类的判断。
整合
我们大多数人其实已经在做一些回报函数工程了,只不过对象是人类而非机器。父母教孩子价值观。
导师指导新员工系统怎样运作。管理人员为员工提供目标,接着对目标进行调整,以获得更好的绩效。每
一天,我们都会做出决策,评判回报。但当我们为人类做这件事的时候,预测和判断是集中在一起的,回
报函数工程的作用并不明显。随着机器越来越擅长预测,回报函数工程的作用就变得越来越重要了。
为了说明实践中的回报函数工程,让我们以在线岗位发布网站ZipRecruiter的定价决策为例。公司付钱
给ZipRecruiter,为自己希望填补的空缺职位寻找合格的候选人。ZipRecruiter的核心产品是一种大范围的高
效匹配算法,也就是传统猎头公司匹配求职者与公司的升级版。
ZipRecruiter并不清楚该向公司收取多少服务费。收费太少,赚的钱也少;收费太高,客户就会投入竞
争对手的怀抱。为了弄清楚定价,ZipRecruiter请来两位专家——芝加哥大学商学院的经济学家J.P.迪贝(J.P
.Dubé)和桑乔戈·米斯拉(Sanjog Misra),让两人设计实验来确定最佳价格。他们随机分配不同的价格给
不同的潜在客户,判断每一个小组购买的可能性。这样一来,他们就能够确定不同客户对不同的价格有什
么样的反应。
棘手的是要弄清楚“最佳”意味着什么。公司该力争短期收入的最大化吗?为此,它可以选择高价格。
但是高价格意味着客户较少(哪怕从每个客户身上赚到了更多的钱)。这也意味着较少的口碑。另外,如
果发布的职位较少,使用ZipRecruiter找工作的人数恐怕会下降。最后,面对高价格,客户或许会开始寻找
替代品。虽然它们没准会在短期内支付高价格,但长期而言,会转投竞争对手门下。ZipRecruiter应该怎样
权衡这些因素呢?它应该追求哪方面的回报最大化?
价格上涨的短期后果相对容易衡量。专家们发现,针对某类新客户的提价能让日常利润增加50%以上。但是,ZipRecruiter并未立即采取行动。它意识到长期风险的存在,想等一等,观察付了更高价格的客户
会不会离开。4个月后,它发现,提价所带来的收益仍然很高(哪怕提价后有可能带来前述不良后果)。Zi
pRecruiter不愿再放弃较高的利润,并判断4个月的时间足以执行价格变动了。
弄清楚这些不同的动作带来的回报(这是判断的关键步骤)就是回报函数工程,这是人类决策过程中
的根本环节。预测机器是为人类设计的工具。只要还需要人类来权衡结果并进行判断,那么,随着预测机
器的进步,人类还将扮演关键的角色。本章要点
※预测机器提高了判断的价值,因为它们通过降低预测的成本,提高了理解行动相关回报的价值。然
而,判断也有其代价。弄清不同情况下不同行为的相对回报需要付出时间、努力,并进行实验。
※许多决定发生在不确定的条件下。我们以为会下雨,所以决定出门带伞,但我们有可能是错的。我
们认为一笔交易是合规的,决定认可它,但我们有可能是错的。在不确定条件下,我们不光需要判断按正
确决定采取行动时可能带来的回报,也要确定按错误决定采取行动的代价。因此,不确定性会增加指定决
策回报的判断成本。
※如果与决策相关联的动作-情境组合的数量可控,我们便可以把判断交给预测机器(这就是“回报函
数工程”),这样,一旦机器生成预测,它便可以自行做出决定。这就促成了决策自动化。然而,很多时
候,动作-情境的组合太多,提前将每一组合(尤其是极为罕见的组合)相关的损益进行编码的成本太高。
此时,在预测机器做出预测之后,让人来进行判断更为高效。第9章
预测判断
谷歌子公司Waymo(一家研发自动驾驶汽车的公司。——译注)等企业已经成功地测试了在两地之间
用无人驾驶汽车运送乘客了。但这只是开发自动驾驶汽车的一部分。驾驶对车内乘客同样有影响,只是更
难观察。然而,人类驾驶员的确会考虑到车内的其他人。踩刹车时要按车内其他人舒服的方式来踩,就属
于新司机要学习的头等大事之一。故此,Waymo的技术人员必须教旗下的汽车避免紧急制动,而是平缓地
停下。
涉及驾驶的决定有数千个。让人类把对每一可能情况的判断进行编码未免不切实际。所以,我们另辟
蹊径,给自动驾驶系统展示许多例子,训练它们,让它们学习预测人类的判断——“在这种情况下,人类会
怎么做?”驾驶并非特例。凡是人类会一次次做决定的环境,我们都能够收集有关人类接收信息并做出反应
的数据,通过给预测机器提供回报来使之生成预测(“人类会怎么做呢?”),从而自动得出决策。
至少对人类来说,一个根本的问题是,人工智能能否依据人类此前的判断发挥预测能力,并且在此过
程中完全不需要人类的干预。
破解人类
许多决定非常复杂,并且要根据并不容易进行编码的判断进行预测。但这并不能保证人类还能在这些
决定里保持核心地位。相反,一如自动驾驶汽车,机器可以通过观察大量的例子来学习怎样预测人类的判
断。要预测的问题变成:“给定输入数据后,人类会做什么?”
Grammarly公司(一家提供英语语法纠错以及句式优化功能的教育科技公司。——译注)提供了一个例
子。2009年,亚历克斯·舍夫琴科(Alex Shevchenko)和马克斯·利特温(Max Lytvyn)创办了Grammarly,率先使用机器学习来修改正式的书面材料。它的主要重点是改进句子中的语法和拼写。(此处原文为:It's
main focus is on improving grammer and spelling in sentences.——译注)例如,把这句话的英文原文放进Gram
marly软件,它会告诉你,“It’s”应该是“Its”,而且“grammer”拼写错了(应为“grammar”)。它还会告诉你,“main”这个单词容易滥用。
Grammarly软件能做出这些修正,既是靠着一套由资深编辑修正过的庞大语料库来学习的,也靠着从用
户接受或拒绝这些修订建议的反馈来学习的。Grammarly通过这两种方式来预测人类编辑会怎么做。它远远
不只是机械地运用语法规则,而是还会评估人类读者是否偏爱不那么完美的语法。
人类能对人工智能进行训练,这一设想可以扩展到各种各样的情况。旅游人工智能初创公司Lola试图
对预订旅行的流程进行自动化,它以人工智能为核心,从寻找优秀的酒店入手。但正如《纽约时报》的报
道:
(它)跟有着多年经验的人类中介的专业技能没法相提并论。假设,人类中介有着多年预订迪斯尼世
界合家欢业务的经验。人可以更加灵活,比如,他会知道,要是度假的一家人想在灰姑娘城堡前拍一张没有旁人的照片,则应该在开门之前预订公园里的早餐服务。
这个例子表明,一台机器很容易将判断应用到能描述出来的地方(例如,能否预订,价格多少),但
无法理解人类微妙的偏好。然而,Lola软件可以学习预测有着丰富经验和想法的人会怎么做。对Lola而言,问题是这样:为了让预测机器获得足够的反馈,了解其他相关标准,它需要观察多少个预订去奥兰多度假
的样本?Lola公司发现,尽管自己旗下的人工智能在某些标准上很为难,却能够揭示人类中介自己无法提
前描述的决策,比如某些客人偏好时髦的酒店,或是偏好坐落在街角的酒店。
人类训练员帮助人工智能变得足够好,这样,一桩任务中的许多方面就不再需要人类了。人工智能可
以几乎不出错地自动完成某一流程,这一点尤其重要。人可以监督人工智能,纠正错误。随着时间的推移
,人工智能会从错误中学习,直到不再需要人类的纠正。
还有一个例子来自智能助手初创公司X.ai,它专门提供助理服务,为你安排会议,将它新建到日历上。
它通过电子邮件或数字私人助理(“埃米”还是“安德鲁”,随你喜欢),跟用户及用户想要会面的人进行互动。例如,你可以发送一封电子邮件给安德鲁,请它下周四安排你和H先生开会。接着,X.ai访问你的日历,并发送电子邮件给H先生安排会议。H先生恐怕猜不到安德鲁竟然不是人类。重点在于,跟H先生或他的助
理(最好是另一个“埃米”或“安德鲁”)沟通的任务,你算是卸下来了。
显然,如果日程安排出错,或是自动助理冒犯了潜在的受邀者,大难就会来临。多年来,X.ai聘用人类
训练员。他们复查人工智能的反应,考察其准确度,并进行校验。每当训练员进行调整,人工智能就会学
到更好的应对方案。人类训练员的作用,不仅仅是确保礼貌,他们还会应付人类给人工智能助理制造障碍
的不良行为。直到本文写下之时,这种对判断进行预测的方法到底能在多大的程度上实现自动化,仍然未
有定数。
人类会被挤出局吗
如果机器能够学会预测人类的行为,它们会把人类完全挤出局吗?从目前预测机器的发展轨迹看,我
们不这么认为。人类是一种资源,简单的经济学表明,他们仍有事要处理。问题主要在于,对人类来说,这些“事”是价值高还是价值低,极具吸引力还是缺乏吸引力。你所在组织中的人类应该做些什么?你在招
聘新员工时应寻找什么特质?
预测依赖于数据。这意味着,人类相较机器有两点优势。我们知道一些机器(还)不知道的东西,更
重要的是,我们更擅长在数据不足的情况下决定该做什么。
人类拥有机器没有的三类数据。首先,人的感官极为强大。在很多方面,人的眼睛、耳朵、鼻子和皮
肤仍然超过机器的性能。其次,人类是自己偏好的最佳仲裁者。消费者数据非常有价值,因为它向预测机
器提供了有关这些偏好的数据。杂货店为使用会员卡的消费者提供折扣,获取其行为数据。商店出钱请消
费者说明个人偏好。谷歌、Facebook和其他公司提供免费服务,以换取它们能在其他环境中精准投放广告
的数据。第三,隐私担忧限制了机器可用的数据。只要有足够多的人不愿公开自己的性行为、财务状况、心理健康状况和种种惹人反感的念头,预测机器就没有足够的数据来预测许多类型的行为。缺乏足够优质
的数据,我们对人类的认识能为判断这项技能保留一席用武之地,这是预测机器无法学会的。
用极少的数据预测预测机器缺乏数据还可能是因为有些事情极为罕见。如果一台机器无法观察到足够多的人类决策,就
无法预测这些决定暗含的判断。
第6章我们讨论了“已知的未知”,即因缺乏数据而难以预测的罕见事件,比如总统选举和地震。有些情
况下,人类善于用很少的数据进行预测,比方说,就算对方逐渐老去,我们也可以识别对方的脸。我们还
讨论了,按照定义,“未知的未知”为什么难以预测或应对。如果人类从来没有面对过类似的情况,人工智
能是无法预测人类会怎么做的。从这个意义上来说,人工智能无法预测一家公司在面对互联网、生物工程
甚至人工智能本身等新技术时会提出怎样的战略方向。人类能够进行类比,辨别出不同背景下有用的相似
之处。
最终,预测机器在类比上或许会变得更好。尽管如此,我们的观点仍将站得住脚:预测机器不擅长预
测罕见事件。在可预见的将来,出现异常情况时,人类的预测和判断仍有用武之地。
在第6章中,我们还强调了“未知的已知”。例如,我们讨论了这样的情况:哪怕你将来在管理人工智能
方面取得了巨大成功,决定要不要对朋友推荐本书仍然颇具挑战性。挑战在于,假如你没有读过本书,结
果会怎样,这方面的数据你永远得不到。如果你想弄清楚什么是因,什么是果,你便需要观察在跟事实相
反的情况下会发生些什么。
人类主要用两种方法来解决这一问题:实验和建模。如果这一情况经常发生,你可以进行随机对照实
验。以特定的方式对待一部分人(要求他们阅读本书,或至少把书给他们,接着进行相关内容的考试),让另一些人作为对照(要求他们不得阅读本书,或至少不向他们做宣传)。接下来,等上一段时间,收集
他们在工作中应用人工智能的程度。将两组人进行比较。实验组与对照组的区别,就是阅读本书带来的结
果。
这类实验作用极大。没有它们,新的治疗方法将得不到通过。从谷歌到Capital One(第一资本金融公
司)等,数据驱动型公司的许多决策也受它们的推动。机器也可以进行实验。只要情况出现得足够多,进
行实验的能力并非人类独有。机器可以进行实验,然后通过学习来预测是什么导致了什么,就跟人类一样。如今,机器在许多电子游戏上的表现都超过了人类,实验就是这其中的关键因素之一。
除了实验,你还可以选择建模。建模涉及深入了解所测数据生成的情况和过程。在无法进行实验(情
况出现得不够多,或是进行实验的代价太高)的时候,它尤其有用。
我们前一章介绍过在线岗位发布网站ZipRecruiter决定最佳价格的策略,它包括了两部分。首先,它需
要弄清楚“最佳”意味着什么:是短期收入,还是较长期的东西?是更多的求职者、更多的广告商,还是更
高的价格?其次,它需要选择一个具体的价格。为了解决第二个问题,它进行了实验。专家设计了实验,但原则上,随着人工智能的进步,只要拥有足够的广告商和足够的时间, ......
您现在查看是摘要介绍页, 详见PDF附件(2156KB,137页)。





