天才与算法人脑与AI的数学思维高清.pdf
http://www.100md.com
2020年11月26日
![]() |
| 第1页 |
![]() |
| 第8页 |
![]() |
| 第19页 |
![]() |
| 第29页 |
![]() |
| 第46页 |
![]() |
| 第383页 |
参见附件(3424KB,404页)。
对人工智能是否能产生堪比人类的创造力进行了多角度的深入探讨
人工智能的本质是数学,数学思维帮助我们理解算法引领人们去认知创造力的本质,天才与算法利用数学思维开启未来人工智能,世界的精彩旅行就在这里,还介绍了欧美国家在人工智能领域的前沿研究成果,对算法的实现思路、存在问题,都有深度思考。

天才与算法预览






作者介绍
马库斯·杜·桑托伊(Marcus du Sautoy)
英国皇家学会院士
美国数学学会院士
牛津大学西蒙尼公众理解科学教授
大英帝国勋章获得者
英国皇家学会迈克尔·法拉第奖获得者
伦敦数学协会贝维克奖获得者
作者被誉为科学王国的大使,他创造了“流行数学”的概念,将复杂的数字和数学概念用形象生动、通俗易懂的语言表达出来。他的演讲不但生动有趣,更会让你意想不到地发现利用数学预见未来的方法,很像是国内流行的“百家讲坛”式的学者。他常为《泰晤士报》和《卫报》写文章,也为电台和电视台作评论,同时与英国BBC广播公司保持长期合作。2001年,他赢得了伦敦数学会的贝维克奖(Berwick Prize)。2004年,他被英国《周日独立报》评为英国最杰出的科学家之一。
目录大全
赞誉
第1章 洛夫莱斯测试001
第2章 激发创造力009
创造力教得会吗014
第3章 向人类宣战019
非凡的游戏男孩023
首战告捷029
精妙绝伦031
人类的反击034
山头还是主峰039
第4章 算法,网络时代的生活秘诀043
荒岛算法047
数学,幸福婚姻的秘诀055
书商之战059
第5章 从“自上而下”到“自下而上”063
看还是不看067
算法的幻觉072
第6章 算法的进化077
如果你喜欢……079
如何训练算法085
偏见和盲点087
机器之间的战争090
第7章 数字绘画095
什么是艺术099
生物的创造力105
可视化编码108
分形:大自然的代码111
从“亚伦”到“绘画傻瓜”115
第8章 站在巨人的肩膀上123
复活伦勃朗127
创造力竞争132
算法如何思考142
算法就是一门艺术145
第9章 数学的艺术149
数学证明的游戏152
数学的起源154
证明的起源159
第10章 数学家的望远镜165
Coq证明助手169
人脑的极限171
沃沃斯基的愿景175
第11章 音乐:声响的数学之旅 179
巴赫:首位音乐程序员183
艾米:人工智能作曲家188
模拟游戏:音乐图灵测试193
“深度巴赫”:从头开始再生作曲家198
第12章 歌曲的创作公式203
普希金、诗歌和概率205
“续作者”:第一个人工智能即兴爵士作曲演奏者209
“心流机”211
量子作曲217
人为何创作音乐220
第13章 深度数学223
Mizar的数学226
数学图灵测试228
巴别数学图书馆231
数学寓言234
意料之外的故事236
数学的叙述艺术238
第14章 语言游戏241
《危险边缘》248
“华生”的工作模式251
在翻译中迷失255
机器人术语258
受阻于“中文房间”试验259
第15章 人工智能讲故事263
如何在一个月内完成一部小说271
哈利·波特和死亡波特尼克273
假如……275
伟大的“自动化”数学家279
人工智能新闻281
第16章 为什么要创造:思想的交流287
原文摘录
浪漫主义音乐的出现在许多方面都打破了巴洛克风格、古典主义音乐创作的常规。像舒伯特( Schubert)这样的新秀没有沿用古典主义作曲家推崇的不同主调之间对位与平衡的技巧,而是刻意选择了出人意料的方式进行调式的运用。舒曼( Schumann)没有采用海顿( Haydn)或莫扎特一般四平八稳的和弦进行创作。肖邦( Chopin)在他不同寻常的重音段落和扭曲的节奏里创作出密集的半音跑动,在节奏上让人们大吃一惊。从中世纪到巴洛克风格,到古典主义,再到浪漫主义;从印象派到表现主义,再到
音乐时代的更迭,是打破原有常规的过程:后来者都要参考前者才能展现它的创造性。毋庸置疑,历史背景在我们定义新事物时起着重要的作用。创造力不是绝对的,而是相对的。我们在我们所在的文化和参照系内具有创造性。
引自 第2章 激发创造力009
谷歌的算法再强大,也不可避免地被那些了解数学原理的人用更加聪明的办法攻击并加以利用。在2018年夏天的某段时间里,如果你在谷歌上搜索“白痴”(idiot),首先弹出的便是唐纳德?特朗普(Donald Trump)的照片。一些激进分子知道怎样利用 Reddit在互联网的巨大影响力:他们在网上发布一个包含“白痴”这个关键词和特朗普照片的帖子让大家投票,两者的组合很快就登上了谷歌搜索的首位。但随着时间的推移,这些另类的搜索结果的峰值会通过算法本身而不是人工干预进行降级,并被算法慢慢剔除。谷歌不喜欢扮演“上帝”,但从长远来看,它相信的是数学的力量。
引自 荒岛算法047
天才与算法人脑与AI的数学思维截图




天才与算法:人脑与AI的数学思维
The Creativity Code:How AI Is Learning
to Write,Paint and Think
(英)马库斯·杜·索托伊(Marcus du
Sautoy) 著
王晓燕 陈浩 程国建 译
ISBN:978-7-111-64714-0
本书纸版由机械工业出版社于2020年出版,电子版由华章
分社(北京华章图文信息有限公司,北京奥维博世图书发行有
限公司)在中华人民共和国境内(不包括香港、澳门特别行政
区及台湾地区)制作与发行。
版权所有,侵权必究
客服热线:+ 86-10-68995265
客服信箱:service@bbbvip.com
官方网址:www.hzmedia.com.cn
新浪微博 @华章数媒微信公众号 华章电子书(微信号:hzebook)目录
赞誉
第1章 洛夫莱斯测试
第2章 激发创造力
创造力教得会吗
第3章 向人类宣战
非凡的游戏男孩
首战告捷
精妙绝伦
人类的反击
山头还是主峰
第4章 算法,网络时代的生活秘诀
荒岛算法
数学,幸福婚姻的秘诀
书商之战第5章 从“自上而下”到“自下而上”
看还是不看
算法的幻觉
第6章 算法的进化
如果你喜欢……
如何训练算法
偏见和盲点
机器之间的战争
第7章 数字绘画
什么是艺术
生物的创造力
可视化编码
分形:大自然的代码
从“亚伦”到“绘画傻瓜”
第8章 站在巨人的肩膀上
复活伦勃朗创造力竞争
算法如何思考
算法就是一门艺术
第9章 数学的艺术
数学证明的游戏
数学的起源
证明的起源
第10章 数学家的望远镜
Coq证明助手
人脑的极限
沃沃斯基的愿景
第11章 音乐:声响的数学之旅
巴赫:首位音乐程序员
艾米:人工智能作曲家
模拟游戏:音乐图灵测试
“深度巴赫”:从头开始再生作曲家第12章 歌曲的创作公式
普希金、诗歌和概率
“续作者”:第一个人工智能即兴爵士作曲演奏者
“心流机”
量子作曲
人为何创作音乐
第13章 深度数学
Mizar的数学
数学图灵测试
巴别数学图书馆
数学寓言
意料之外的故事
数学的叙述艺术
第14章 语言游戏
《危险边缘》
“华生”的工作模式在翻译中迷失
机器人术语
受阻于“中文房间”试验
第15章 人工智能讲故事
如何在一个月内完成一部小说
哈利·波特和死亡波特尼克
假如……
伟大的“自动化”数学家
人工智能新闻
第16章 为什么要创造:思想的交流赞誉
艺术一直被认为是人类情感和创造力的产物,是AI无法企
及的高峰。本书系统而全面地呈现了在绘画、音乐、文学等领
域中AI算法的研究,充满了逻辑性和实证性,展示了多个突
破“图灵测试”的成果。对于AI研究者,这是一本AI艺术研究
的“全球旅游指南”。对于艺术家,这本书是客观了解AI能
力、利用AI技术提高创作效率和激发突破性创新的加速器。
英特尔中国研究院院长
宋继强
一本书读通AI算法的前世今生:从代数之父花拉子密到
DeepMind创始人,都在用数学驱动世界前进。本书通过剖析人
脑与AI各自的局限,打开数学、音乐、绘画和文学的奥秘之
门。人类的天才创造力跟数学息息相关,而创造力是进化的根
本动力。实际上,只有不断探索生物与机器算法的终极奥秘,才能最终打通大脑与AI的壁垒,世界也将迎来创造力指数级爆
发的新纪元。
新智元创始人
杨静
这是一本精彩绝伦的好书!被誉为牛津“科学大使”的索
托伊,将数学家、爵士乐手、作曲家、小说家、诗人、画家、软件工程师等人一系列创造行为的共同“原码”展现在读者面
前,这一“原码”是人类创造力的源泉,也是鉴赏和领略AI无
限魅力的金钥匙。这本书应成为每位关注AI的思想者的案头必
备。
“信息社会50人论坛”执行主席,苇草智酷创始合伙人
段永朝
这是一本解释和探究如何激发AI创造力的书。通过对当下
AI最新展示出来的与“创造力”相似的能力,本书反过来解释
什么是人类创造力,以及如何理解这种创造力在人类大脑中产
生的模式与结构。作者讨论的是最新一代AI的“极限”:它能
否拥有与人类相似甚至超越人类的创造力,并且帮助人类更深
度地理解我们所珍视和渴望的“创造力”可以怎样生成、保护
和提高。这就是当下“机器学习”在做的一些事情。作者运用
数学、概率学、心理学等多重视角,去试图理解从原始数据开
始慢慢学习的AI,是如何产生判断与决策的。对神经网络深度
学习的研究,让我们超越“AI或受制于人类逻辑指导的代码,或产生碾压人类的高级智能”这两个极端的二元对立,开始去
试验并尝试人类与AI之间相互学习、共同成长的方法与路径。
北京大学新闻与传播学院教授
吴靖
当今世界的风口浪尖非AI莫属。当AI的各种应用逐渐渗透
到我们生活中的时候,人们自然会对AI的演变与发展产生好奇。如果你对AI的工作机理有兴趣,我推荐你阅读英国皇家学
会和美国数学学会会士马库斯·杜·索托伊教授撰写的这本
《天才与算法:人脑与AI的数学思维》。在本书中,作者完全
未采用数学语言,却形象生动、通俗易懂地描绘了算法、数学
思维和艺术创作之间的关系,值得读者从艺术的视角细细品
味!
清华大学经济管理学院教授
肖勇波
AI可以从打砖块游戏和下围棋中发现妙招并战胜人类,AI
还可以用凡·高的风格作画,用巴赫的风格作曲……书中这些
进展让我亦喜亦悲。某一天,AI或许能够创造并教会我们参与
更加波澜壮阔的“游戏”;AI或许不再模仿,而是成为我们这
个时代的凡·高和巴赫!希望这一天来得晚一些。
电子科技大学互联网科学中心主任,教授
周涛
创造力是人类智慧最后的阵地,然而机器经过上亿次算法
的迭代也可能完成创造它的人类无法理解的艺术创作。《天才
与算法:人脑与AI的数学思维》带我们通向人类与机器共同创
造之路。
北京师范大学系统科学学院教授,集智俱乐部、集智学园(北
京)科技有限公司创始人张江第1章 洛夫莱斯测试
克劳德·德彪西(Claude Debussy)
艺术创造规则,而不是规则创造艺术。
“这台机器实在是太漂亮了!”17岁的阿达·拜伦[1](Ada
Byron)在参观查尔斯·巴贝奇[2](Charles Babbage)发明的
差分机模型时发出了这样的惊叹。
差分机是一种自动机械计算器,由大大小小的齿轮堆叠成
塔状结构,每个齿轮的轮齿上标记有数字,旁边装有一个手
柄。通过手柄的转动来驱动齿轮,在嘎吱嘎吱声中,差分机可
以自动完成比较简单的数学计算,比如平方、立方甚至平方
根……
受母亲及家庭老师的熏陶和培养,阿达从小就对数学和机
械有着极其浓厚的兴趣,长期关注并深入研究巴贝奇的设计构
想。数年后,已经嫁给洛夫莱斯伯爵的阿达决定与巴贝奇合
作,致力于分析机的研发。分析机不同于差分机,它是一种通
用的数学计算机,能力不局限于自动机械计算。阿达认为分析
机应该发展成一个可用符号来表示任何事物的装置,她还预言
分析机可以绘图、演奏音乐,甚至在其他科学领域也会有一些
建树。此外,她认为分析机将产生一种全新的“理想化科
学”,数学家将通过编程指挥机器去执行任务。她甚至预测,这台机器将能够“谱写”出属于科学家的“美妙乐章”。这些
连巴贝奇都没有想过。
现在的观点普遍认为,阿达所阐述的核心思想是向创造性
编码迈出的第一步,它启发着艾伦·图灵(Alan Turing)、马
文·明斯基(Marvin Minsky)和唐纳德·米基(Donald
Michie)等一系列先驱,并引发了席卷全球的人工智能革命。
阿达对机器能力保持着谨慎的态度:“分析机能做我们命令它
去做的任何工作,但不能创造;能分析,但不能预测。它的本
质是帮我们实现已知的事情。”阿达认为,分析机有其局限
性:输出(你所得到的)不会超过输入(你所投入的)。
多年来,这个观点已在计算机科学领域成为共识。它就像
一种心理暗示,让我们觉得“智能机器取代人类”绝对不可能
发生。也有人认为,想让机器拥有智能,前提是先搞清楚人类
的智能。
研究人类智能,在宏观上有心理学,在微观上有分子生物
学等学科,但每个方向在研究到一定阶段就会遇到瓶颈而停滞
不前了。没有任何一个学科能告诉我们:智能从何而来,怎样
才能产生智能。现在,即使我们已经了解了许多关于大脑的知
识,但人类智能仍然像是一个“黑匣子”。对这个“黑匣
子”的研究有两种方法:要么从外部观察其行为,模拟其结
构,我们称此为自上而下的研究;要么猜测其结构,从外部的
输入、输出验证其行为,我们称此为自下而上的研究。在计算
机编码的思维模式方面,人们逐渐从自上而下的方式向自下而
上的方式进行转变。究其原因,是因为自下而上的方式更有助于计算机寻找合适的“路径”去完成任务。事实上,我们根本
不需要搞清楚什么是智能,以及怎样才能产生智能,就可以让
算法在“数字之海”畅游。此外,算法还能像孩子一样学习成
长。机器学习所创建的代码甚至能够产生惊人的洞察力和决策
能力,可应用于医学图像精准识别及股票交易决策等领域。新
一代的程序员用实践证明了阿达·洛夫莱斯的预言是错误的
——输出可以大于输入!你可以获得比输入更多的东西。
尽管如此,我们仍然相信人类活动的某些领域是机器依然
无法触及并参与的,比如人类的创造力。人类以非凡的想象力
和创新力,创造出反映内心情感世界的艺术作品,进而拓展了
人类存在的意义。换言之,如果把人类智慧看成一种抽象意义
上的编码,那么艺术作品就是这段编码中情感的流露和表达。
这完全取决于人类的智慧。莫扎特的《安魂曲》暗含了对
死亡的思考;莎士比亚的《奥赛罗》含有对复杂情感的体会;
伦勃朗的肖像画所描绘的模特衣着和样貌,也蕴含着人物情感
的倾诉。机器的创造力怎么有可能取代人类,或者说去和莫扎
特、莎士比亚、伦勃朗这些艺术巨匠竞争呢?
需要声明的是,本书涉及的艺术主要源于西方文化,这主
要是因为这些绘画、音乐、文学作品都是我所熟知的。首先,我对自己以西方为中心的观点表示歉意。其次,跨越不同文化
背景目前仍存在巨大的挑战。因此,需要一个统一的标准来衡
量人类与计算机的创造力。从广义上来讲,人类的创造力不仅仅存在于艺术领域:鼎
鼎有名的肥鸭餐厅(米其林三星级餐厅)的主厨赫斯顿·布卢
门撒尔(Heston Blumenthal)的分子烹饪法,“荷兰飞
人”“巴萨教父”约翰·克鲁伊夫(Johan Cruyff)精湛绝伦
的足球技法,英国女建筑师扎哈·哈迪德(Zaha Hadid)美轮
美奂的建筑设计,匈牙利发明家、雕刻家、建筑学教授厄尔诺
·鲁比克(Ern? Rubik)发明的魔方,甚至游戏《我的世界》
的代码都应该被视为人类创造力的一部分。
在我所研究的数学世界里,创造也是重要的组成部分。创
造的吸引力是使我伏案数小时构思方程式、写出证明过程的重
要原因之一。经过漫长的酝酿、不懈的努力,灵感瞬间闪现,可以使我构思并绘制出一个新的对称结构。这个从无到有的过
程,给我带来纯粹的兴奋体验,而这正是创造力的魅力所在。
创造力是一种原动力,它驱使人们产生新的、令人惊讶
的、有价值的想法,并积极地将这些想法付诸实践。
创造出在表面上看似新的东西相对容易,比如我可以借助
计算机得到无数种关于对称性结构的建议方案。但这是在意料
之中的,不会令人惊讶,更无价值可言。若我发现的不仅是一
种新的对称结构,而且在群论与数论之间建立了关联,为探索
充满未知的数学世界提供了一种新的途径,那这就是它令人惊
讶的价值。
每当我们自以为预见到“故事的结局”时,就会突然被带
往下一个新的开始。这是一份值得我们充分关注的大惊喜。所以,无论是我还是其他任何人,在遇到偶然间的创造性行为
时,都会表现得异常兴奋、急迫和匆忙。
是什么赋予了事物价值?是价格还是别人的认可?价值是
相对的:我写的诗或画的画,在我看来是宝贝,在别人看来可
能一文不值;一部情节曲折的小说与能改变人们生活体验的文
学创作方法、建筑设计方案和音乐创作手法相比,其价值就显
得微不足道了。这就是伊曼努尔·康德[3](Immanuel Kant)所
说的“典型的原创力”——人类所独有的,能成为别人灵感的
原创性行为。
所有这些归根结底都是神经元活动和化学反应的产物,是
人类经过数百万年进化所形成的大脑的“代码”。科学家经过
长期的研究发现,这一过程是有章可循的。那么,人类创造力
的“算法”或它所遵循的规则是否会超乎我们的想象?
本书主要讨论新一代人工智能(AI)的“极限”:它是否
能拥有与人类相似甚至超越人类的创造力。机器同样可以画
画、创作音乐或小说吗?它也许无法与毕加索、莫扎特、莎士
比亚等大师相媲美,但它在创作故事、画画方面能否达到孩子
的创造力水准呢?对那些或打动人心,或平淡无奇的艺术作品
进行对比分析之后,机器能否学会创作?人工智能是否能帮助
人类提升创造力,从而帮助我们另辟蹊径?
创造力并不局限在艺术领域发挥作用,还广泛地在其他领
域起着不可比拟的作用。比如,我女儿用乐高积木搭建的城
堡;我儿子帮助他的球队赢得足球比赛后,被称为“富有创造力的中场球员”。我们在创造性地解决日常问题,创造性地管
理和组织团队。正如我将要在本书中阐述的,数学是一门极具
创造性的学科,它与艺术有很多共通之处。
创造的冲动是人类有别于其他动物的关键要素之一。但因
为人类更习惯去做重复性的日常工作,创造的“双翼”会被这
种惯性束缚而得不到激发。想要创造,我们必须走出思维定
式。或许此过程中机器会发挥作用,提出一些新的想法和建
议,以启发我们突破思维定式,防止我们陷入简单的重复。最
终,机器可能会帮助我们,而作为人类,我们应该表现得不那
么像机器。
你可能会有一点诧异:作为数学家的我为什么会带你踏上
了解机器创造力的旅程?原因很简单:算法、计算机代码、人
工智能、机器学习都是以数学为核心的。如果想了解掌控现代
生活的算法完成这些事情的内在机理,那么就需要理解支撑它
们的数学规则,否则就会在未来的生活中茫然无措。
人工智能正在向人类智能发起挑战,很多人类从事的工
作,人工智能也可以做,甚至做得更好。但本书的重点不在
于“无人驾驶”或“智能医疗”,而是去探索“机器编
码”与“人类编码”之间的竞争:计算机有创造力吗?有创造
力意味着什么?我们对艺术的情感反应中有多少属于大脑对模
式和结构做出反应的产物?
这不只是一个有趣的智力问答。艺术是人类大脑编码的一
种“输出”,通过它,我们可以更深入地了解复杂的人类大脑是如何工作的。计算机也是如此,我们将通过计算机“创
作”的艺术作品,了解计算机的工作机理。“程序员通常并不
真正理解最终的代码是如何工作的”,这是“自下而上”编码
方式面对的挑战之一。计算机创造的艺术像魔法师手中转动的
水晶球,透过它,我们可以分析计算机是如何做出决策,并预
知新代码在潜意识下的决策方向的。此外,它还可能揭示人类
尚不能完全理解的计算机代码中固有的局限性和危险性。
促使我踏上研究机器创造力旅程的另一个私人原因是,作
为一个数学家,我正在经历一场“生死存亡”的危机:随着人
工智能的发展,在未来几十年里,数学家的工作是否还会对人
类有价值?数学是一门关于数字和逻辑的学科,可这不是计算
机最为擅长的吗?
然而,数学不仅是数字和逻辑,也是一门具有高度创造
性,涉及美和美学的学科。这也是我反对计算机进入数学领域
的部分原因。我们在研讨会和期刊上分享的不仅仅是转动机械
手柄得出的计算结果。直觉和艺术敏感性是一名优秀数学家应
具有的重要特质,而这一特质永远无法编入机械计算的程序
中。那么,人工智能可以吗?
作为一名数学家,我想知道新一代人工智能进入世界各地
的画廊、音乐厅和出版社后,会有多么成功?伟大的德国数学
家卡尔·魏尔斯特拉斯(Karl Weierstrass)曾经写道:“不
具备诗人气质的数学家,永远不会成为真正的数学家。”正如
阿达·洛夫莱斯完美概括的那样:你需要调和,配方中要有一
些拜伦的艺术风味,也需要一些巴贝奇机械的成分。虽然她认为这些由齿轮构成的机器能做的事情是有限的,但她同时也意
识到它们在表达艺术特质方面的潜质:
它们可能会应用于数字以外的其他事物……例如,音乐中
的和声布局,作曲的旋律安排,根据需要进行改编。分析机可
能会生成任意复杂程度、精细程度的音乐作品。
阿达坚信,任何创造性的行为都取决于程序员(人),而
非机器。但新一代的程序员则不这么认为,他们觉得“代
码”也能胜任创造性的工作。
在人工智能诞生之初,艾伦·图灵就提出了评价计算机智
能的测试方法。这里,我想提出一个新的测试方法——洛夫莱
斯测试。通过该测试的规则是,算法需要创作一件艺术作品,人类程序员无法解释该算法的工作机理,但整个过程是可复现
的(以排除因硬件错误产生的结果)。我们希望机器创造新
的、令人惊讶的、有价值的东西。然而,对真正具有创造力的
机器,还需要额外增加一条:具备超越程序员或数据集创建者
的创造力。这也是阿达·洛夫莱斯所说的“难以克服的挑
战”。
[1] 英国数学家,计算机程序创始人,被称为“软件之
母”。她是著名英国诗人拜伦之女,结婚后被称为阿达·洛夫
莱斯(Ada Lovelace)。——译者注
[2] 英国数学家、发明家、计算机先驱。——译者注
[3] 德国作家、古典哲学创始人。——译者注第2章 激发创造力
巴勃罗·毕加索(Pablo Picasso)
理智是创造力最大的敌人。
现代人非常重视创造力。许多思想家、作家都曾在著作中
对创造力与其重要性,以及如何激发创造力进行过阐述。在英
国皇家学会(Royal Society)一次主题为“机器学习如何影响
未来”的委员会议上,我认识了认知科学家玛格丽特·博登
(Margaret Boden),并了解了她的观点和理论。我认为她对
机器创造力的定位和评价是最中肯、最贴切的。
博登是一位独具慧眼的科学家,她的研究涉及哲学、心理
学、医学、人工智能、认知科学等领域,并能将其很好地融会
贯通。80多岁高龄、满头银发的她,老当益壮、精神矍铄,依
然拥有着异常活跃的思维,满怀热情地参与到关于这些“锡
罐”(博登对计算机的称呼)未来前景的研究和讨论当中。博
登将人类的创造力归纳为三种:探索型创造力、组合型创造
力、变革型创造力。
探索型创造力是探索已知事物的外部边界,在保持规则约
束的同时扩展其可能的极限。巴赫的音乐创作在巴洛克时期是
登峰造极的,他的复调作品通过多旋律、不同调性的应用探索
音乐的世界。巴赫的前奏曲和赋格曲在调性、和声对位技巧的
运用等方面涉及了所有的可能性,突破了巴洛克音乐创作的藩篱,为以莫扎特和贝多芬为代表的、由单一旋律支配的主调音
乐为主流的古典主义奠定了坚实的基础。雷诺阿(Renoir)和
毕沙罗(Pissarro)的画作,重构了我们具象化的自然及周围
的世界。克劳德·莫奈(Claude Monet)彻底打破了古典主义
审美(高完成度)和印象审美之间的界限——他喜欢极多层次
的堆叠,画作色彩饱和,纯度极高。莫奈使用厚涂法为细小的
区块着色,一遍又一遍地绘制《睡莲》[1],直到色块融入一种
新的抽象思维形式——运用纯色的、感性的笔法来分解光与色
的区块,消除了古典主义画风的阴影和死板的轮廓。
数学是探索型创造力的狂欢,“有限单群分类”是它的力
作之一。从对称性的简单定义(4个基本性质)开始,数学家用
了150年的时间,列出了所有可能的有限单群,并最终发现“大
魔群”——其元素数量超过地球上所有原子的总数,是最大的
散在单群。数学创造力在挑战极限的同时,又必须遵循游戏规
则。就像一名闯入秘境的探险家,仍然不能完全摆脱地球的束
缚。
博登认为,人类97%的创造行为属于探索型创造行为。计算
机的运算速度远胜人类,所以用“穷举”或“暴力破解”的方
法求取一组模式或规则的极限也是它最擅长的。但其结果均在
情理之中,并无意料之外的惊喜,不能算真正意义上的创造。
第二种创造力是组合型创造力。将两种完全不同的结构或
理念结合起来是艺术家惯用的创作手法,某领域特定的规则会
为其他领域构建出新的框架。组合,也是数学领域里一个非常
强大的创新工具。庞加莱(Poincaré)提出的关于探寻宇宙形状的猜想,最终也是运用不同领域的工具(微分几何学、热力
学)来证明的。格里戈里·佩雷尔曼(Grigori Perelman)的
创造性工作,让我们意识到液体在表面上的流动方式能够对可
能存在的表面进行分类(他创造性地运用微分几何学的知识,解决了庞加莱猜想)。
我的研究就是将数论中分析素数的方法运用于探索可能的
对称性分类。数字与几何对称性乍看起来毫无联系,但如果用
对称元代替素数,再运用这种探索素数之谜的“语言”进行分
析,就可以获得关于对称性理论令人惊讶的新发现。
这种“组合”也极大地促进了艺术的创新。菲利普·格拉
斯[2](Philip Glass)在与拉维·香卡[3](Ravi Shankar)的
合作中获得了灵感,在作品中融入了多种不同风格的音乐元
素,最终形成了他独具一格的创作风格:“简约音乐”。扎哈
·哈迪德在她所钟爱的俄国画家卡西米尔·马列维奇(Kasimir
Malevich)的启发下,形成了独特的“曲线美”建筑设计风
格,甚至烹饪界久负盛名的大厨也常常在美食的创新中融合世
界各地不同的烹饪风格。
一些有趣的迹象表明,组合型创造力也可能完美适合人工
智能世界。比如,蓝调音乐与布列兹(Boulez)的奇特组合可
能会打开声音新世界的大门,当然,也可能会生成一种不和谐
甚至刺耳的噪声。这就需要程序员找出某种有趣的方式、方法
来融合两者了。博登归纳的第三种创造力更加神秘和难以捉摸,被称为变
革型创造力。这种创造力是完全改变游戏规则的创新。每种艺
术形式都有这种创造力的体现,比如毕加索的立体主义绘画、勋伯格[4](Schoenberg)的无调性音乐、乔伊斯·卡罗尔·奥
茨(Joyce Carol Oates)的现代主义小说,等等。这类似于水
突然从液态转变为气态的物理学相变。就像歌德描述他创作
《少年维特之烦恼》的那两年时光时所说的,他脑海中突然闪
现出一个画面(某种刺激激发的偶然事件):那一刻,维特的
计划落空了;仿佛有子弹从四面八方而来,汇聚成团,就像瓶
中的“过冷水”,受到轻微的震动即刻成冰。
在多数情况下,变革型创造力需要彻底打破游戏规则,或
者抛开前人已做的努力。很多规则乍看起来似乎已经很难突
破。比如,任何数的平方都是正数,所有分子都是长线型结构
而不是链结构,音乐的创作必须要建立在和声音阶的结构中,脸的两侧都长着眼睛。但激发变革型创造力的“元规则”就是
打破常规,去掉约束,看看到底会出现什么。艺术这种创造性
行为就是通过打破已有规则或者引入新规则,最终得到了一个
全新的、有价值的作品。
“–1的平方根”的引入,是16世纪中叶数学界一个很典型
的变革型创新。笛卡尔将其称为虚数(虚暗含不存在的意
思),这个称谓沿用至今,可许多大数学家都不承认虚数的存
在。但事实证明,虚数与已有的数学理论并不矛盾。如果给计
算机预设了负数不存在平方根的规则,那它就不可能建立–1平方根的概念。真正的创造性行为有时需要打破常规,创造一个
新的现实世界。这能否通过一个复杂的算法来实现呢?
浪漫主义音乐的出现在许多方面都打破了巴洛克风格、古
典主义音乐创作的常规。像舒伯特(Schubert)这样的新秀没
有沿用古典主义作曲家推崇的不同主调之间对位与平衡的技
巧,而是刻意选择了出人意料的方式进行调式的运用。舒曼
(Schumann)没有采用海顿(Haydn)或莫扎特一般四平八稳的
和弦进行创作。肖邦(Chopin)在他不同寻常的重音段落和扭
曲的节奏里创作出密集的半音跑动,在节奏上让人们大吃一
惊。从中世纪到巴洛克风格,到古典主义,再到浪漫主义;从
印象派到表现主义,再到……音乐时代的更迭,是打破原有常
规的过程:后来者都要参考前者才能展现它的创造性。毋庸置
疑,历史背景在我们定义新事物时起着重要的作用。创造力不
是绝对的,而是相对的。我们在我们所在的文化和参照系内具
有创造性。
计算机的出现能否启动“相变”,激发创造力,将我们带
入全新的音乐或数学世界呢?这可能很有挑战性。算法根据数
据间的交互关系自主学习,难道就不会产生更多相同的事物
吗?
正如毕加索所说:“理智是创造力最大的敌人。”从表面
上看,这或许有悖于机器文明。但是,通过编程创建一个“元
规则”,指导机器改变路线,最终产生“非理性”的行为,这
是机器学习非常擅长的。[1] 莫奈的《睡莲》系列,1897~1926年共画了181幅。
——译者注
[2] 美国作曲家。他的创作融合了摇滚乐、非洲与印度音
乐、西方古典音乐的元素,作品经常重复简短的旋律和节奏模
式,同时加以缓慢渐进的变奏,被称为“简约音乐”。——译
[3] 印度著名演奏家、作曲家,在把印度音乐推向西方世
界的过程中起到先驱的作用。——译
[4] 20世纪初奥地利表现主义作曲家,新维也纳乐派的核
心人物。表现主义音乐反对印象主义注重描绘客观事物的外
在,而注重表现人的内在真实,以抽象、夸张、扭曲、怪诞的
手法,用刺激、不和谐的音响来写人们心中的孤寂、恐惧、绝
望甚或疯狂。——译者注创造力教得会吗
许多艺术家喜欢夸大其词,将他们获得创作灵感的过程说
得神乎其神。在古希腊,诗人被认为是缪斯女神的附身,是缪
斯将灵感注入诗人的心灵,使诗人达到一种几近疯狂的状态。
柏拉图也曾说过:“诗人是神圣的,只有当他受到神的启发而
失去理智时,才能创作。没有神之大能的指引,就没有艺
术。”著名的印度数学家拉马努金(Ramanujan)将他的伟大发
现归功于其所信奉的印度教的娜玛卡尔女神,认为娜玛卡尔女
神在睡梦中的指引使他获得了灵感。创造力是一种“疯
狂”吗?或者说它真的是神的恩赐吗?
卡尔·弗里德里希·高斯(Carl Friedrich Gauss,我心
目中的数学英雄之一)最不善于表述促使他产生创造性思维的
灵感来源。高斯于1801年[1]发表了其一生中最伟大的著作《算
术研究》(Disquisitiones arithmeticae)——被誉为现代数
论的开山之作。当人们想要通过阅读这本书来找寻他独特见解
的来源时,他们备感无力。由于全书包含七部分内容,所以该
书被大家风趣地称为“加了七道封印的巨著”。没有人真正知
道高斯的“魔力”是如何产生的,他就像魔术师从帽子里变出
一只接一只的兔子一样。受到质疑时他反驳道:“房子建成
后,建筑师们也不会把脚手架丢到工地上。”像拉马努金一
样,高斯把自己的成功部分归功于“上帝的恩典”。他说
道:“这条线将我所知道的和使我成功的因素联系了起来,但
我很难说清楚它到底是什么,也弄不明白它的本质是什么。”大师们可能无法阐明他们的想法来自何处,但这并不意味
着他们没有遵循规则。艺术是构成潜意识思维过程的无数
个“逻辑门”的意识表达。当然,高斯的想法也可以通过一条
逻辑线索得到解释:也许他确实不具备清楚表述自己创造思维
过程的能力,也许他只是想保持神秘以维护自己创造性天才的
形象。柯勒律治(Coleridge)曾表示服用鸦片酊后的睡梦联
翩,是诗歌《忽必烈汗》的创作之源。可惜的是,这个梦境被
一个来自波洛克的人的突然造访而打断了。[2]当然,这是一个
很好的故事。但这一说法也掩盖了其创作过程中的所有前期准
备——长期以来孜孜不倦的努力。即便是我自己,对创造过程
的描述也只关注灵感的闪现,而不是多年的辛勤努力。
人们习惯于把富有创造力的天才传奇化。坦白地说,孤独
的艺术家闭门造车是一个神话。在绝大多数情况下,创造是日
积月累的过程,而非一步登天。英国音乐家布莱恩·伊诺
(Brian Eno)创造了“场天才”(scenius)这个术语,矛头
直指“天才”(genius)。他认为群体所构成
的“场”(scene)能够激发创意,帮助创造者走向成功。美国
作家乔伊斯·卡罗尔·奥茨对此表示赞同:“创造性工作就像
科学工作一样,应被视为一种集体的努力——一种个体发出多
种声音的尝试,一种综合、探索和分析的尝试。”
怎样才能激发创造力?编程能激发机器的创造力吗?有没
有什么办法或规则可以让我们变得更加富有创造力?换句话
说,创造力是一种可以后天培养的技能吗?有人会说,教授知
识或编写程序都只是为了使人或机器学会模仿并按照规则做事,这与创造大相径庭。然而,我们身边有许多相反的例子:
有创造力的个体通过不断地学习,最终改进了他们的技能。通
过行为的研究和模仿,我们最终能成为有创造力的个体吗?
每个新学期伊始,我都会问我的学生这样的问题。数学专
业的博士生必须创建一个新的数学结构才能获得学位,即他们
必须做出前人未做出的事。我的职责就是教他们如何做到这一
点。即使答案已了然于胸,解决问题仍需要个人的创造力。
当然,他们已然受过一定程度的训练,这些训练是进入未
知世界的绝对的先决条件。通过学习他人如何实现突破,可以
为自己的创造力找到一个适合的环境来扎根、发芽。但这不能
保证创造力的种子就一定能萌发。有些人能在某个领域拥有极
佳的创造力,而在别的领域却不行。我不可能从大街上随意选
一个人带走,然后教他成为一个富有创造力的数学家。也许经
过十年的训练他可以做到这一点,但并非每个大脑都能拥有数
学的创造力。究竟是什么让一个人成为国际象棋冠军,而另一
个人却成为诺贝尔文学奖得主,这一点很是令人费解。
博登认识到,创造力不仅仅是如何成为莎士比亚或爱因斯
坦。她定义了“心理创造力”和“历史创造力”,并明确了它
们之间的区别与联系。自我创造力的实现结果对个体来说可能
是全新的,但纵观历史其实已算是“明日黄花”,这就是心理
创造力的概念。通过个人创造力的反复实践,最终创造出一些
史无前例的、有价值的东西,这就是历史创造力的体现。虽然
极其罕见,但它对心理创造力起到很好的激发和鼓励作用。遵循博登提出的三种创造力策略是我激发学生创造力的秘
诀。“探索”是最显而易见的途径。首先要了解我们是如何走
到今天这一步的,然后试着进一步突破这个界限。这需要对已
有的知识进行深入了解。在深入探究的过程中,可能会发现一
些以前未被发现的事物。创造行为是一个循序渐进的过
程,“大爆炸”这种状况很少发生。就像凡·高(Van Gogh)
所说的:“伟大的成就不是靠一时冲动就能实现的,它是一系
列小事的日积月累。”
博登的第二种策略——“组合”,是激发新想法的有力武
器。我经常鼓励学生参加研讨会,阅读那些似乎与他们所研究
的问题无关的论文。来自数学不同领域的研究策略可能与他们
所研究的问题产生共鸣,从而激发出新的想法。当今,科学界
一些最伟大的创造都发生于不同学科的交叉领域。越能突破自
己的圈子,分享自己的想法和问题,就越有可能获得更多的创
造力。这就是“最容易摘到的果子”。(免费书享分更多搜索@
雅书.)
表面上看,“变革”是一种很难驾驭的创造力激发策略,但我们的目标是通过去掉一些已有的限制来对现有的知识体系
或架构进行测试和分析。如果改变一些已被普遍接受的学科结
构的基本规则,试试看会发生什么?这种方式是极具危险性
的,因为撼动系统的基石很可能会导致整个系统的崩塌。但
是,这让我想到培养创造力所需的另一个最重要的因素
——“接受失败”。除非你做好了失败的准备,否则就请你不要去冒那些会让
你突破自我、创造新事物的风险。教育系统和商业环境两个领
域非常痛恨失败,这对创造力的激发有害无利。对我的学生来
说,庆祝失败与庆祝成功同等重要。当然,失败不会被写进博
士论文,但我们可以从中学到很多。与学生见面时,我经常重
复地说贝克特(Beckett)的那句至理名言:“失败,再次失
败,却是以更好的方式失败。”
这些策略可以编写进计算机代码吗?在过去,自上而下的
编码方式意味着代码的输出结果几乎不会出现创造行为。程序
员们从未对其算法产生的结果感到惊讶,因为一切都是意料之
中的事情,没有试验或者失败的可能性。但最近这一切都改变
了:因为一种可以“从失败中吸取经验教训”的代码出现了,它前所未有的举动震惊了它的创造者,这说明它具有不可估量
的价值。该算法赢得了一场此前大多数人认为机器无法精通和
掌握的比赛,因为这是一场需要创造力的“游戏”。
该代码的突破性,引发了我作为数学家的生存危机。
[1] 原文年份有误,翻译时进行了更正。——译者注
[2] 柯勒律治因身体欠佳避居乡间,一日他正在批阅萨缪
尔·珀切斯的《珀切斯朝圣记》,读到书中关于忽必烈上都的
文字时,身体忽感疼痛,便遵医嘱服食少量鸦片酊,很快就睡
意昏沉,坠入梦乡。他在梦中见到了忽必烈的夏宫,并创作了
长达两三百行的诗。醒后柯勒律治神思恍惚,但梦中的意向和
所写的诗句仍历历在目,于是他奋笔疾书。可就在这时,一个来自波洛克的人因事来访,他不得不被对方耽搁两个多小时。
待返回自己的房间后,他又惊又愧地发现,尽管自己对灵视所
得还有一个模糊朦胧的印象,可除了八九十行散落的诗句,其
余的诗句已在脑海中悉数消失了。——译者注第3章 向人类宣战
保罗·克利(Paul Klee)
我们在持续重构世界秩序,直觉始终被尊崇。
人们经常拿数学与国际象棋做比较,认为两者之间存在着
某种联系。尽管1997年计算机“深蓝”(Deep Blue)击败了顶
尖国际象棋手,但机器取代数学研究机构还言之尚早。下国际
象棋与数学的形式化证明颇有相似之处,但学者认为中国围棋
的思维方式更能够体现数学家思考的创造性和直觉力。
我在大学本科期间访问剑桥大学数学系时首次接触了中国
围棋。当时,我正在考虑在攻读博士学位期间,是否能与完成
有限单群分类(对称结构的元素周期表)的科研团队合作。当
我和该项目的两位创始人约翰·康威(John Conway)、西蒙·
诺顿(Simon Norton)高谈阔论、展望数学的未来发展时,邻
桌的学生们正在玩一种我没见过的棋盘游戏,清脆的落子声不
时将我的思路打断。
我忍不住好奇,问康威:“他们在干什么?”他告诉
我:“他们在下中国围棋,这是一种古已有之的益智游戏。围
棋的规则非常简单,是一种相互争夺地盘的游戏,对弈双方按
黑白交替的顺序将棋子落在棋盘格线的交叉点上,想方设法用
自己的棋子围困住对方的棋子,直到将其吃掉。比赛的胜负主要以吃掉对方棋子数量的多少来评定。围棋最精妙的地方就在
于,当你围吃对手棋子时必须避免自身不被围吃。”
围棋很像数学,可以在相当简单的规则下形成精妙绝伦、错综复杂的推理。某一天,因缘际会,这两位数学家边喝咖啡
边观看围棋比赛,突然地灵光一现,康威在棋局演变的启发下
创立了新的数字系统“超现实数”。
我一直着迷于各类游戏,每次外出旅行时都喜欢学习当地
流行的游戏并将其带回家。所以,从剑桥回到牛津后,我就去
玩具店买了一副围棋,想要研究一下学生们沉迷于它的原因。
和牛津的同学下了一段时间的围棋后,我逐渐了解到它的妙趣
所在。随着棋盘上的棋子越来越多,棋局变得越来越复杂,以
至于很难找到一种一眼看去就了然于胸的制胜策略。国际象棋
与围棋相比,则是随着棋子一个个被吃掉,棋局变得越来越简
单。
据美国围棋协会(American Go Association)估计,围棋
的可能走法数量是一个大约有300位的数字。而计算机科学家克
劳德·香农(Claude Shannon)估计的国际象棋走法数量约为
120位(称为香农数)。这两个数字都非常庞大,它们直观反映
了两种棋类游戏所有可能的走法。
我在幼年时期经常与人下国际象棋,很喜欢推演棋步。这
种思维训练逐渐激发了我的数学潜质。国际象棋的行棋步骤以
一种可控、有序的方式逐级建立分支,最终形成一个包含各种
可能性的树状结构,计算机甚至人类都可以根据逻辑规则逐级分析不同分支的蕴含关系。相较之下,围棋就不是一种易于推
算下一步行棋对策的游戏了,我们很难建立围棋行棋可能性的
树状图。围棋棋手推演下一步落子策略的过程似乎更依赖于自
身的直觉判断。
人类的大脑可以敏锐地捕捉到视觉图像所呈现出的结构和
模式,所以围棋棋手可以通过观察棋子布局来推断棋势,然后
得出下一步的应对策略。但是,计算机实现视觉处理却是几十
年来一直困扰工程师们的重大技术难题之一。
人类大脑的视觉结构处理能力作为一种基本的生存技能,经过数百万年的进化已经变得高度发达。任何动物的生存能力
在一定程度上都取决于它在形态万千的自然界中对不同结构图
像的识别能力:原本平静的丛林之中激起的一丝混乱,极有可
能预示着另一种动物的潜入。这类敏感信息备受动物们的关
注,因为它关系到自己会成为猎物还是猎食者,这就是大自然
的生存法则。人类的大脑非常擅长识别模式并预测它们的发展
方向,同时做出适当的反应。这是人类的宝贵财富,此外,它
还关系到我们对音乐和其他艺术的鉴赏能力。
对模式的识别也恰恰是作为一名数学家的我探索“数学丛
林”这片充满未知的领域的重要工具。只在局部环境中按部就
班地进行逻辑分析走不了太远,必须与发现“可能存在物”的
直觉相结合才有可能取得显著的突破。而这种直觉正是长久以
来通过对已知领域的观察和探索而建立的。通常,很难从逻辑上去解释你所感兴趣的领域为什么具有
研究价值。有些数学猜想虽然未得到证明,但提出猜想的数学
家经常能感觉到在他的论述中暗含着某种真理。正因为如此,当我们在“丛林”中摸索前行,寻求一条新的道路时,观察和
直觉是相辅相成的。
善于提出好的猜想的数学家比善于证明猜想的数学家更值
得尊敬。如果把围棋棋局中赢棋的最后一步落子位置比作一种
猜想,那么证明猜想的过程就是行棋的过程,在这个过程中寻
求赢棋的模式是非常困难的。
因此,尽管国际象棋有助于解释数学的某些特性,但围棋
游戏所蕴含的智慧与数学家们在实际工作中的思维方式更为接
近。这就是为什么当“深蓝”击败人类顶级的国际象棋大师
时,数学家们并不感到意外。因为,围棋才是计算机的真正挑
战。
几十年来,人们一直认为计算机无法穷尽围棋里的各种变
化,计算机永远都无法下好围棋。所有想要创新的程序员都挑
战过这个命题,但即使是一个初级的棋手似乎也能轻松胜过最
复杂的计算机算法。所以,数学家们还可以躲在围棋这块“遮
羞布”后面沾沾自喜:如果计算机下不了围棋,那么就意味着
它没有机会挑战更加古老和精妙的“游戏”——数学。
束缚我们认知的障壁,会在计算机技术日新月异的发展中
被瞬间攻破。非凡的游戏男孩
2016年初,某公司发布了一款围棋程序,并宣称该程序能
与世界上顶级的人类棋手较量。鉴于过去的挑战都以失败告
终,围棋爱好者们对此事均持怀疑态度。因此,该公司提出组
织一场人机围棋对抗赛来证明自己所言非虚。此次比赛是公开
赛,且奖金丰厚,采用五番棋赛制,人类如果获胜,将得到100
万美元的奖金。来自韩国的世界冠军李世石(Lee Sedol)接受
了挑战。这个计算机程序就是AlphaGo。
AlphaGo是戴密斯·哈萨比斯(Demis Hassabis)智慧的结
晶。哈萨比斯1976年生于伦敦,父亲是希族塞人,母亲是新加
坡人。用哈萨比斯的话说,他的父母都是教师,也都是波西米
亚式[1]的技术恐惧症患者。他的弟弟和妹妹都走上了创作之
路,一个成为作家,另一个成为作曲家。所以,哈萨比斯搞不
清楚他的科学“极客”潜质遗传于何处。早在童年时期,哈萨
比斯就显露出自己的天赋,尤其在游戏方面。11岁时,他的国
际象棋排名就已经位列同龄段世界第二了。
在列支敦士登参加一场国际巡回赛时,哈萨比斯的脑海中
突然闪现出这样一个念头:“在偌大的比赛大厅里,几百名来
自世界各国的顶尖棋手正对着这个伟大而逻辑复杂的游戏积极
思索。他们究竟在干什么?”哈萨比斯有一种顿悟的感觉,他
意识到了这样的游戏完全是劳而无功的。后来,在英国广播公
司(BBC)的采访中,他承认当时在想:“我们是不是在浪费大
脑,因为这个级别的比赛选手都是顶尖的,为什么不用我们的脑力去做点更有意义的事情呢?比如解决癌症问题,或是找到
其他疾病的治愈方法,那样不是更好吗?”
在与他的对手——成年的荷兰世界冠军激战10个小时后,哈萨比斯以微弱的劣势输掉了比赛。赛后他宣布自己将不再参
加国际象棋比赛,这让他的父母非常震惊,因为所有人都以为
这将是他的未来。但下棋的那些年他也收获颇丰,比如他用击
败美国对手亚历克斯·张(Alex Chang)赢得的200英镑奖金,购买了人生中的第一台电脑ZX Spectrum。正是这台电脑促使他
产生了要让机器学会思考的想法。
哈萨比斯很快又升级了他的装备——一台由康懋达
(Commodore)公司发布的、著名的Amiga计算机[2]。闲暇之时
他在这台电脑上编程,开发喜欢的游戏。对当时的他而言,开
发国际象棋程序还太过复杂。因此,他开发了一款游戏——奥
赛罗(Othello),并取得了成功。奥赛罗是一个黑白棋游戏,当某种颜色的棋子困于相反颜色的棋子之间,其颜色就会反
转。这个下里巴人的游戏没办法登上大雅之堂,因此也就没有
专业的高手关注和挑战,哈萨比斯只好找他的弟弟来测试程
序。结果是程序百战百胜。
该程序采用经典的“如果……那么……”选择结构设计,需要编写代码以应对对手的每一个动作,比如对手走了“那一
步”,就用“这一步”回击。所有的创造力均来自哈萨比斯本
人对于赢得比赛的预判能力。犹如魔法师的徒弟掐诀念咒一
般,只要代码编写正确,计算机程序就可以毫无悬念地取得胜
利。看过杰夫·高布伦(Jeff Goldblum)主演的电影《生命的
故事》(又名《双螺旋竞赛》)后,哈萨比斯对剑桥大学非常
向往:“这真的是在剑桥发生的事吗?就在附近的小酒吧里提
出DNA双螺旋学说,这简直太酷了!”所以,在16岁那年,他就
向剑桥大学提出申请,想成为一名攻读计算机科学专业的学
生,而跟他同龄的其他人此时还在辛苦地学习高中课程。
虽然剑桥大学破格录取了他,但由于年龄太小,学校要求
他晚一年入学。为了打发时间,哈萨比斯参加了英国游戏杂志
Amiga Power举办的游戏设计大赛并获得了二等奖,也因此得到
了去游戏开发公司工作的机会。在那里他开发了一款新游
戏“主题公园”,玩家可以打造并经营自己的主题公园。这款
游戏获得了巨大的成功,不仅销售量达到了数百万套,还获得
了“金摇杆奖”。哈萨比斯也因此赚到了足够多的钱以供自己
上大学使用,之后他便动身前往剑桥。
在剑桥学习的时光里,哈萨比斯领略了人工智能领域伟大
的科学家艾伦·图灵的风采,知晓了他著名的图灵智能测试;
了解了亚瑟·塞缪尔(Arthur Samuel)和他的跳棋程序;提
出“人工智能”这个概念的约翰·麦卡锡(John McCarthy)以
及弗兰克·罗森布拉特(Frank Rosenblatt)和他的第一个神
经网络试验。哈萨比斯渴望站立于巨人的肩膀之上,在人工智
能领域有所建树。可是在课堂上教授却反复强调:“围棋极具
创造性和直觉性,计算机永远下不好围棋。”这对年轻的哈萨
比斯来说就像斗牛比赛中那块猩红的斗篷,激起了他的斗志。所以,当他从剑桥毕业时,他决心通过自己的努力来证明教授
的言论是错误的。
他的想法是,与其编写一个会下围棋的程序,不如编写一
个通用性的“元程序”,它可以用于编写出会下围棋的程序。
这或许有点不可思议,但重点是“元程序”在实现以后将具有
模式学习能力,随着经历的棋局越来越多,该程序会在下棋过
程中自我学习,不断地从错误走法中总结经验并加以改进。
哈萨比斯了解到人工智能研究员唐纳德·米基(Donald
Michie)在20世纪60年代就实现了类似的想法。米基编写了一
个名为“MENACE”的算法,该算法可以零基础学习玩井字棋游
戏的最佳策略(MENACE代表导出〇和×策略的引擎)。为了验
证该算法,米基用304个火柴盒代表〇和×所有可能的布局;每
个火柴盒里都装满了不同颜色的球,代表可能发生的动作。球
被移走或加到盒子里,用以处分失误或肯定胜利。随着积累的
游戏经验越来越多,重新分配球的过程最终产生了几乎完美的
游戏策略。哈萨比斯打算借鉴这种从错误中改进策略的思路来
训练下围棋的算法。
哈萨比斯为算法的实现精心设计了一个巧妙的模型。新生
儿的大脑并没有预先设定应对生存挑战的方法,但他们会通过
不断学习来强化自我,根据环境的变化做出适当的调整。
哈萨比斯打算研究人类的大脑是怎样学会解决问题的方法
的,因为他觉得了解大脑的工作原理有助于实现自己创建一个
会下围棋的计算机程序的梦想。因此,他去伦敦大学学院(UCL)攻读了神经科学博士学位。在试验工作闲暇之余,哈萨
比斯与神经学家谢恩·莱格(Shane Legg)交流过创办一家实
现自己想法的公司。尽管当时人工智能的学术地位很低(甚至
在十年前,他们都不曾向教授们表露过想要投身于人工智能事
业的想法),但他们仍然觉得自己正在从事一项伟大的事业。
2010年9月,这两位科学家与穆斯塔法·苏莱曼(Mustafa
Suleyman,哈萨比斯从小一起长大的好友)三人创建了公司,即DeepMind。
在DeepMind成立之初,筹集所需的资金异常困难,因为大
多数投资人都认为投资一个研究“人工智能玩游戏”的项目太
不靠谱。只有埃隆·马斯克(Elon Musk)、彼得·蒂尔
(Peter Thiel)等极少数的投资人看好这家公司的前景并注入
了资金。蒂尔从未给硅谷以外的公司投资过,他试图说服哈萨
比斯把公司搬到美国西海岸,以便更好地发展。但哈萨比斯是
土生土长的伦敦人,他坚信家乡还有很多能够壮大自己事业的
人才未被发掘。哈萨比斯还记得他与蒂尔的律师的一次针锋相
对的谈话——蒂尔的律师讥讽地问道:“伦敦有关于知识产权
保护的法律吗?”他则回斥道:“我想他们以为我们也来自廷
巴克图[3]!”这场谈论背后的意义在于,虽然DeepMind创始人
不得不把大量原始股份给投资人,但总算是有研究人工智能的
资金了。
一开始就创造出一台能够下围棋的机器,这种一蹴而就的
想法当然是痴人说梦。所以,他们在开始阶段选择了一个相对
简单的目标:20世纪80年代的雅达利(Atari)游戏。在20世纪70年代末到80年代初,雅达利非常流行,很多学生因沉迷这款
游戏机而荒废学业。我的朋友就有一台雅达利2600游戏机,他
把大量的时间花费在玩Pong、Space Invaders和Asteroids等游
戏上。这款游戏机是第一批能够通过软盘加载多款游戏的游戏
机,可以直接加载后续开发出来的不同类型的新游戏。再早以
前的游戏机只能玩那几款“写死”在硬件上的游戏。
我最喜欢的一款雅达利游戏叫作Breakout(打砖块):屏
幕上方是彩色砖块砌成的砖墙,通过操纵杆的左右移动来控制
底部的球拍,小球经球拍反弹后撞向砖墙,被撞到的砖块会消
失。撞到砖墙底部的黄色砖块得1分,撞到砖墙顶部的红色砖块
得7分。为提升游戏的复杂度使玩家获得更刺激的游戏体验,随
着被清理的砖块的数量增多,球拍的尺寸会逐渐缩小,小球的
速度也会逐渐加快。
某天下午发生了一件令人非常开心的事情:我们发现了一
个破解游戏的巧妙方法。如果能在砖墙的一侧敲出一条通道,一旦小球经该通道到达砖墙顶部区域,它就会沿着通道两侧的
墙壁一路反弹,依次清理剩余的砖块。玩家坐等小球自己“工
作”完毕从墙上掉落下来后,再用球拍把球反弹出去即可。重
复这一动作就可轻松得到高分。这个策略简直太棒了!
哈萨比斯团队的成员在年轻时也花费了不少时间玩电脑游
戏。他们的父母要是知道他们为那些游戏投入的时间和精力变
得有价值一定会非常高兴。事实证明,打砖块游戏是一个完美
的测试用例,可以检验DeepMind团队是否具备开发能够学会玩游戏的程序的能力。对他们而言,只针对一款游戏编写程序有
些太简单了,所以哈萨比斯团队又设定了一个更大的目标。
他们想编写一个根据当前屏幕像素状态和得分这两个输入
参数之间的关系,寻求最佳得分策略的程序。该程序不会预先
设定游戏规则,而是通过随机选择不同的“动作”(比如在打
砖块游戏中移动球拍或是在Space Invaders游戏中发射激光炮
射击外星人)不断试验,对相应的得分情况进行评估,分析其
结果是有效提升还是止步不前。
该程序的实现基于20世纪90年代提出的强化学习
(reinforcement learning)思想,目的在于根据分数的反馈
或奖励函数来调整执行动作的概率。比如在打砖块游戏中,决
定底部球拍左移或右移的初始概率是50:50。如果某次随机移
动后,球拍击中小球并且得分,那么程序将根据这些信息重新
校准球拍左右移动的概率,以增加球拍击中小球的机会。新的
算法将强化学习与神经网络相结合,后者将评估像素的状态以
确定哪些特征与加分有直接关系。
刚开始时,程序尝试随机移动,但收效甚微,几乎没有得
分。当某次移动后成功得分,程序就会记录这次移动并在后续
游戏过程中不断强化该移动的使用频率。一段时间后,随机动
作会逐渐消失,代替它们的是一组更为有效的移动。程序在不
断试验的过程中,可以真正学会通过特定的移动来提高它在游
戏中的得分。DeepMind团队提交的论文所附带的程序学习玩打砖块游戏
的视频很值得一看。刚开始,程序会随机地左右移动球拍,并“观察”会发生什么。当小球被球拍反弹向上并撞击砖块得
分时,程序开始重写。它发现让小球的像素与球拍的像素相连
接(小球撞击球拍)似乎是一件好事(获得加分)。经过400局
游戏的“学习”,程序已经可以精准地移动球拍,并不断地来
回击球得分了。
当该程序玩过600局后,它所展现出来的水平令人惊讶!它
找到了我们之前破解游戏的那个巧妙办法。这引发了我的感
慨:虽然不记得我和小伙伴们玩了多少局才找到这个“窍
门”,但从耗费的时间来看,显然我们用的更多。这表明现在
计算机程序不仅做到了,而且还做得更快、更好。程序操纵球
拍在砖墙的一侧建立通道,使得小球能够抵达砖墙的最上方,在砖墙顶部和屏幕顶部之间的空隙里来回碰撞得分。分数快速
增加的同时,程序却无须太多干预。记得当年我们发现这个技
巧后兴奋地击掌相庆,可程序轻易就做到了。
时间一晃,到了2014年,也就在DeepMind成立4年后,该项
目在已经涉足的49款雅达利游戏的29款中获得了优于人类玩家
的表现。该团队在2015年初向《自然》杂志提交的论文中详细
介绍了他们的研究成果。众所周知,在《自然》杂志上发表论
文是科学家在科研事业上的重要里程碑,可DeepMind团队的论
文不仅获得了极高的赞誉,还登上了杂志的封面。《华尔街日
报》评论道:“这是人工智能发展史上的重要时刻。”在这里我必须重申,这是计算机编码的一项伟大进步!以
像素状态和不断变化的分数作为原始数据,从随机移动球拍到
发现在砖墙两侧建立通道以获取更多得分,程序实现了自我进
化。但雅达利游戏的复杂性不可与古老的中国围棋同日而语,所以,哈萨比斯及他的团队决定研发一款可以挑战围棋的更厉
害的程序。
此时,考虑到未来的发展,哈萨比斯决定将公司卖给谷
歌。他在接受《连线》(Wired)杂志采访时解释说:“本来我
们并不想这么做,但在过去3年里,为了筹措资金,我只有10%
的时间用于研究。所以,我意识到,我的人生可能没有足够的
时间,既能把公司发展成谷歌那样的规模,又可以在人工智能
领域有所建树。这样的选择对我来说并不难。”这笔买卖对于
谷歌的财力来说可谓轻而易举,同时,也给DeepMind团队研发
会下围棋的程序带来了巨大支持和帮助。
[1] 意指不循规蹈矩。——译者注
[2] 非正式译名为阿米加。此计算机为高分辨率、快速的
图形响应、多媒体任务,特别是游戏做了专门的设计。——译
者注
[3] Timbuctoo,纽约州为保护美国自由黑人投票权益而设
立的定居点。哈萨比斯之意是自己的权益不需要美国人来保
护。——译者注首战告捷[1]
此前人们开发的下围棋程序,甚至很难与业余的优秀围棋
选手相匹敌。所以,大多数权威人士并不看好DeepMind团队,不认为他们能研发出具有世界冠军水平的专业围棋程序。1997
年“深蓝”在国际象棋比赛中战胜了人类棋手之后,大多数人
仍然支持天文物理学家皮特·哈特(Piet Hut)在《纽约时
报》上发表的观点:“在围棋领域,计算机想要击败人类可能
还需要100年甚至更长的时间。让一个智商正常的人学习下围
棋,即使他没有卡斯帕罗夫(Kasparov)的天赋,但几个月后
他就能打败目前存在的所有计算机程序。”
DeepMind团队则坚信“一百年太久,只争朝夕”,或许只
需要短短的20年就能攻破技术上的瓶颈。他们赋予程序算法的
自学习和自适应能力似乎奏效了,但他们仍不能确定新算法到
底有多强大。因此,2015年10月,他们决定组织一场非公开的
人机对弈来测试程序,对手是当时的欧洲冠军——来自中国的
樊麾。
比赛中,新研发的程序AlphaGo以5:0的战绩战胜了樊麾。
但欧洲棋手的实力与东亚棋手相差太大:在世界围棋比赛中,欧洲顶级选手只能位列600名左右。因此,虽然这次比赛的成绩
令人印象深刻,可这就好比制造出一辆无人驾驶汽车然后在银
石赛道上击败了人类选手驾驶的福特嘉年华,并不意味着它能
在F1大奖赛中战胜刘易斯·汉密尔顿(Lewis Hamilton)。当东亚地区的媒体得知樊麾在人机对弈中失利后,它们毫
不留情地抨击了这次比赛,并认为AlphaGo的胜利并无多大价
值。当消息传出后,樊麾的妻子曾联系伦敦的丈夫劝他不要上
网关注此事。显然,他的同胞并不认可他的围棋水平,以及他
具备代表人类参加人机对弈的资格。对他而言,这绝对不是愉
快的经历。
但樊麾认为,与AlphaGo的对弈使他对围棋有了新的领悟。
几个月后,樊麾的世界排名就从633名上升到了300名。事实
上,不仅樊麾的实力得到了提升,而且AlphaGo的每一次对弈都
会促使它优化代码以应对下一次对弈的挑战。
正因为如此,DeepMind团队才有足够的信心让AlphaGo向拥
有18个世界冠军头衔的韩国棋手李世石发起挑战。
2016年3月9日至15日,万众瞩目的人机大战正式拉开帷幕
——李世石九段对阵谷歌AlphaGo五番棋赛在首尔四季酒店举
行。比赛通过互联网直播,获胜者将获得100万美元的奖金。为
保证比赛不受外界干扰,虽然比赛地点是公开的,但在酒店内
的比赛现场却是封闭和保密的。事实上,媒体和现场观众的任
何行为都不会让AlphaGo分心,因为机器无论在什么状态下,都
会保持“禅宗大师”一般的定力,呈现出一种完美的专注状
态。
李世石并没有因为要与打败樊麾的机器棋手对战而感到紧
张。在听闻樊麾失利的消息后,他曾表示:“基于AlphaGo在这场比赛中展现出来的水平,我有信心轻松碾压这台机器棋
手!”
虽然李世石也知道挑战他的机器棋手可以通过不断的学习
和进化变得更为强大,但起初他并不在意。可随着比赛临近,他开始思考人工智能是否最终会强大到可以战胜人类,即使是
在围棋这种相当复杂的决策领域。是年2月他曾表示:“听说
DeepMind的人工智能异常强大,并且还会通过学习和进化变得
越来越强大,但我坚信至少这次对弈我还是能够胜出。”
大多数人认为,尽管人工智能取得了巨大的突破,但想要
使拥有人工智能的机器棋手成为围棋世界冠军依然是一个遥不
可及的目标。Crazy Stone是唯一一款接近高水平棋手的围棋程
序,它的创作者雷米·库仑(Remi Coulom)预测:“还得再有
10年时间,才会有电脑打败人类围棋高手。”
大赛在即,DeepMind团队认为还需要继续优化AlphaGo,所
以他们邀请了樊麾在大赛前的几周对AlphaGo进行反复的强化训
练。尽管遭遇了滑铁卢并被无良媒体攻击,但樊麾依旧乐于支
持这项事业。也许在他看来,如果能帮助AlphaGo打败李世石,他就能挽回些许颜面。
在与AlphaGo的对弈训练中,樊麾发现,AlphaGo在某些方
面确实非常强大,但此次集训也成功暴露了一个DeepMind团队
此前没有意识到的弱点:在某些特定参数配置下,AlphaGo似乎
完全无法评估出到底是谁掌控了比赛,常常会产生一种错觉,以为自己赢了,而实际情况却恰恰相反。如果李世石发现并利
用这个弱点,AlphaGo不仅会失利,而且还会显得极其愚蠢。
接下来的日子里,DeepMind团队废寝忘食地工作,很快修
复了这个缺陷——他们的程序终于可以定版了。在程序调通
后,运行该程序的笔记本电脑被运往首尔参赛。3月9日,对弈
双方“棋手”(严格意义上讲,只有一名棋手)已经做好充分
的准备,迎接人机对弈的五番棋首局。
[1] 原文为“First blood”。——译者注精妙绝伦
多年来,我一直把数学研究与下围棋做比较。所以,我怀
着相当焦虑的心情在YouTube上观看了李世石与AlphaGo的比
赛。这场“人机大战”吸引了全球超过2.8亿人次在线观看。
李世石执黑先行,作为白方的DeepMind团队由其成员黄士
杰(Aja Huang)代替AlphaGo行棋。这样安排是因为,毕竟
AlphaGo只是人工智能程序而不是能够自己下棋的机器人。黄士
杰紧紧盯着AlphaGo的屏幕,等待它对李世石的落子做出回应,但时间过了一小会儿,AlphaGo没有任何反应。
我聚精会神地盯着屏幕,想知道AlphaGo是不是已经崩溃
了!DeepMind团队也开始担心,想知道这是怎么了。对于人类
棋手来说,刚开局的几步棋通常都是标准布局套路,是不会想
太多的,毕竟还没有进入真正的交锋时刻。在焦急的等待过
后,电脑屏幕上出现了一颗白子,AlphaGo终于开始走棋了。直
至此时,DeepMind团队才算是松了一口气,心口的大石终于落
了地:它可以自行工作了,没我们什么事了!在接下来的时间
里,黑白双方你来我往,好不快意。
作为围棋外行的我在观看围棋比赛时会关注一个问题,就
是如何判断胜负手,这是围棋比赛的要点之一。这也正是计算
机程序学习下围棋非常困难的主要原因之一,因为到目前为
止,还没有一种简单易行的方法可以建立起一套稳妥的系统,去评价对弈双方的领先状况。相较之下,国际象棋更容易进行得分评价,它的比赛规则
确定了每一步都会有不同的分值,这样你就可以简单地算出双
方的领先状况。国际象棋是破坏性的,在行棋过程中,棋子会
被一个个吃掉。正因为如此,棋局会逐步简化。而围棋则不
然,它是建设性的,行棋越多,棋盘上的棋子越多,棋局也越
来越复杂。现场解说员虽然一直关注着棋局,但不到最后一刻
他们也很难断言谁胜谁负,鹿死谁手。
研究团队很快摸清了李世石的开局策略。李世石采用的对
战策略是,如果AlphaGo是通过对过去的棋局进行学习来完善自
身的,那么他就使用非传统的棋路来打乱AlphaGo的预判,这样
就会使他获得一定的优势。但问题是,在这种情况下,李世石
也只能按照自己不熟悉的棋路去行棋、布局。对于一般的基于
开放式数据库的程序来说,不按套路出牌的策略非常管用:不
仅可以使机器手足无措,还可能误导机器在棋局的重要关口或
是长远战略决策上犯下致命错误。但遇到AlphaGo,这个如意算
盘可就打空了,因为AlphaGo可以实时动态评估棋局形势,并根
据以前的经验制定出最佳策略。AlphaGo的首席程序员大卫·西
尔弗(David Silver)在赛前表示:“AlphaGo可以自动把数以
百万计的棋局数据通过神经网络进行深度学习并加以改进,以
得到最佳的对弈策略。相比之下,李世石则由于无法掌控自己
的棋局而会变得越发被动。”
看到这里,我不禁同情起李世石来。当他意识到自己一直
处于被动时,你能真切地感觉到他的信心正在逐渐丧失。他一
直盯着代替AlphaGo行棋的黄士杰,但却从对方的脸上看不到任何线索。当下到第186手时,李世石感到大势已去,便投子认输
了。
五番棋首局后,AlphaGo以1:0暂时领先。李世石在当天的
新闻发布会上表示:“我很惊讶,我从未料想到自己会输给
AlphaGo。”
第二局才是好戏一场,不仅仅让参赛的李世石瞠目结舌,还让观看比赛的棋手们感到匪夷所思。第一局比赛中AlphaGo所
走的每一步棋还是符合人类逻辑思维的,现场的专家也能够讲
解和分析棋局。但到了第二局,“事出反常必有妖”,当李世
石下完第36手来到酒店屋顶抽烟休息时,AlphaGo下出第37手:
黄士杰在距离棋盘边缘5步的位置落下一颗黑子。这一招使得包
括李世石在内的所有人都倍感震惊。
根据传统的行棋套路,在初始阶段,应先在最外面的4条线
上落子,这样就可以在棋盘边缘向内的第3条线上形成短效的区
域控制力量,而在第4条线上落子则可以帮助棋手在棋局的后期
向中心扩张自己的势力范围。所以,棋手们一般会选择先在第3
条线或第4条线上落子,以达到一种较好的攻守平衡。在第5条
线上落子一般被认为是不太恰当的选择,因为这会给对手可乘
之机:建立一个既可在短效、局部区域内抢得先手,又可在长
远、全局范围内影响胜负的策略。
此步棋打破了长久以来的传统观念,有评论员抨击这种下
法明显是胡闹,但也有一些评论员持谨慎态度。大家都很期待
看到李世石的应对策略。当李世石重返赛场看到此棋时,他在盒中取子的身体在往后缩……他举棋不定,坐在那里思考了超
过12分钟。围棋和国际象棋同样都限定了落子的时间,用12分
钟来思考一步棋的代价很大。李世石花费了如此之久的时间才
落子,也从侧面说明了AlphaGo的这步棋是多么的出人意料。他
弄不明白AlphaGo到底想要干什么:为什么程序主动放弃了它正
在“争夺”的区域?
难道是AlphaGo出现了错误?还是它发现了棋局中被李世石
忽视的某些东西?当担任裁判的樊麾看到这步棋时,他最初的
反应与其他人一样,除了惊讶就是惊讶。但是,他很快意识到
了,这确实不是人类的行棋方法,他从未见过有人会这样行
棋。他不禁感叹:“这步棋真是神来之笔,精彩绝伦!”接下
来的比赛证明,这一步既精彩又致命:这一着非但不是臭棋,反而是立意深远的妙手。大约又过了50子,黑白双方开始在棋
盘的左下角争夺地盘,棋路向AlphaGo第37手时落下的那颗黑子
靠近。正是由于AlphaGo的这一预先布局,让黑方在这一片区域
赢得了优势。正是这制胜的一子,让AlphaGo以2:0继续领先于
人类。
在当日赛后的新闻发布会上,李世石的情绪明显不同于前
日:“昨天的我很惊讶,但今天的我无言以对,心中满是震
惊。坦白地说,第三场比赛对我来说将不是那么容易了。”大
家都很清楚,这场人机对弈共有五局,从第三局开始李世石必
须全胜才有可能逆转战局、反败为胜。人类的反击
第三局比赛在3月12日星期六举行,李世石有一天的时间可
以用来休息、恢复状态。第一局比赛进行了三个多小时,第二
局进行了四个多小时。在这方面,人与机器毕竟不同,人需要
休息,而机器是不需要的。连续的两场败局无疑给李世石带来
了很大的精神压力和挫败感。
然而,李世石并没有躺下来睡大觉,而是与一群职业棋手
分析和探讨此前两场比赛中失利的原因,这场讨论一直持续到
次日清晨6点。AlphaGo有弱点可以利用吗?李世石认为不只机
器可以学习和进化,人也可以从失败中学到一些东西。
第三局比赛开局时,李世石非常强势,并取得了不错的战
果。在他凌厉的棋势下,AlphaGo只能被驱赶,被压迫在一小片
区域内。这种一边倒的局面使得评论员都开始兴奋了起来,有
人直接表示李世石已经发现了AlphaGo的弱点。但在后来,局势
出人意料地急转直下,一位评论员回忆道:“形势急转直下,眼睁睁地看着所发生的一切,让我深感不适……”当李世石把
AlphaGo逼到绝境,AlphaGo的巨大潜力似乎被激发出来了。随
着比赛的进行,AlphaGo开始采用被评论员称为怠惰走法(lazy
moves)的策略。通过分析,AlphaGo确信自己最终可以获胜,正因为如此,它选择了这种安全的策略。它并不关心能赢多少
目,重要的是它最终一定会赢。这种耍赖一样的怠惰走法可能
对李世石来说有些冒犯,但AlphaGo这种做法并没有任何挟私报
复的性质。它这样做只是单纯地为了赢棋。李世石不想就此认输,他在棋盘上坚持应对着,觉得也许在这些怠惰走法中还有
可乘之机。
但在第176手后,李世石还是投子认输了,AlphaGo以3:0
战胜了人类。不过在后台,DeepMind团队的成员却产生了异样
的情绪:虽说他们已经赢得了比赛,但他们看到的AlphaGo对李
世石造成的巨大影响使他们很难高兴起来。百万奖金很显然已
是他们的囊中之物,在比赛之前DeepMind团队就已经达成共
识,如果能赢得这笔奖金,就将它捐赠给致力于推广围棋和科
学研究的项目以及联合国儿童基金会等慈善机构,但人类的思
维和逻辑让他们对李世石的痛苦产生了同情。
AlphaGo获胜后没有任何情绪反应,不会产生任何小小的电
流波动,更不会显示出一段代码或是大叫一声“爽!”。机器
的这种“镇定”给人带来希望的同时,也让我们为将来感到忧
心。带来希望,是因为正是人类的这种情绪反应激励着我们去
探索未知、开创未来,毕竟还是人类给AlphaGo编写了制胜的代
码。感到忧心,是因为机器太过“冷漠”,它根本就不关心事
情发展的最终结局是不是程序编写者所期望的。
李世石被三连败的事实打击得有些恍惚,他在新闻发布会
上道歉说:
不知该如何开口,也不知道今天要说些什么,我必须为辜
负了大家的期望表达歉意。我应该在比赛中表现得更好,我尽
力了,但我还是体会到了深深的无力感。同时,他也呼吁大家继续关注后续的两场比赛,他现在的
目标是至少为人类扳回一局。
连输三局,整个比赛的胜负已定。李世石在第四局时似乎
卸下了沉重的思想包袱,放松了许多,这样反而使他能够更专
注于比赛本身。在第四局中,与第三局慎之又慎的行棋风格形
成鲜明对比的是,李世石采用了一种更为激进、极端的“先捞
后洗”(amashi)的策略。一位评论员将这种冒险的行为比
作:一位金融家,不想通过日积月累的小收益来积累财富,而
是激进地将整个银行作为赌注押了出去。
李世石和他的团队在星期六晚上通宵达旦,试图通过逆向
工程的方法掌握AlphaGo的下棋思路。他们发现AlphaGo似乎遵
循着逐步增加获胜概率并去调整落子的原则,而不是押注于复
杂的单一走法。在第三局中,李世石就亲身体验了AlphaGo的怠
惰走法。他们针对这个特点制定了应对策略,通过一着险棋来
扰乱AlphaGo的策略:“胜负手”(all-or-nothing)策略可能
会让AlphaGo更难轻易得分。
AlphaGo似乎对这种策略毫不在意。比赛进行到第70手时,评论员开始觉察到AlphaGo再次占据了上风——当AlphaGo的棋
路开始变得保守,频频使用怠惰走法时,就标志着AlphaGo已经
确认自己领先了。李世石必须要做点什么了,否则很难扭转乾
坤。
如果说第二局对弈的第37手是AlphaGo的神来一笔,那么第
四局的第78手就是李世石的逆袭大招。当他盯着棋盘审时度势了30分钟后,突然在看似不寻常的一处落下白子,刚好在
AlphaGo的两个黑子之间。当时在YouTube上发表评论的迈克尔
·雷德蒙德(Michael Redmond)说道:“这一步让我感到意
外,我相信大多数人,包括AlphaGo,都会觉得措手不及。”
AlphaGo确实有些无措,下了一步莫名其妙的棋作为回应。
又经过了几手棋,AlphaGo就发现自己败局已定。紧盯着电脑屏
幕的DeepMind团队发觉他们的程序在第78手时就开始失控了。
之后,AlphaGo已经彻底崩溃,所以下了一连串的昏招。这显然
是围棋程序的另一特点:当它意识到自己失败后,会做出一些
令人费解的疯狂行为。
西尔弗看到AlphaGo的表现后说道:“我觉得大家看到这一
幕会感到很搞笑!”果不其然,韩国的评论员们开始嘲笑
AlphaGo的混乱状态。很显然,AlphaGo的行为没有通过图灵测
试,因为任何一个具有战略眼光的人都不会做出那样的决策。
当下到第180手时,AlphaGo在电脑屏幕上表示投子认输。新闻
演播室里爆发出雷鸣的掌声。
人类终于扳回一局,3:1!当晚的新闻发布会上,李世石
的笑容说明了一切:“这场胜利是如此的珍贵,世界上的任何
东西都无法替代。”伴随着媒体的欢呼,他高声说道:“我能
取得这局对弈的胜利是因为你们所有人给我的欢呼和鼓励。”
当时,在中国评论这次比赛的古力称赞道:“李世石的第
78手实乃‘上帝之手’。”那一步棋打破了传统棋路,是为整
局比赛带来深远影响的关键所在。这是真正的人类创造力的体现,也是博登变革性创造力的一个极好的典范。不破不立,当
你突破原有系统的束缚时,你的创意就会层出不穷。
哈萨比斯和西尔弗在新闻发布会上表示无法解释AlphaGo失
利的原因,他们需要回去好好分析——为什么它在应对李世石
第78手时会走出如此糟糕的一系列昏招。事实上,AlphaGo与人
类对弈的历史经验让它完全摒弃了某些思考。根据它的评估,那种下法只有万分之一的可能性会出现。它似乎没有认真考虑
去学习如何应对那种下法,所以就不自觉地优先考虑了应对其
他下法的可能性。
如果李世石有足够长的时间深入了解对手,那么他在比赛
中战胜AlphaGo的可能性或许会增大。他能在第五局比赛中保持
获胜的势头吗?同样是输掉比赛,3:2还是4:1的结果大不相
同。最后一局意义非凡,如果李世石能拿下第五局的胜利,那
么他将在人们的心中播下对“AlphaGo绝对优势”怀疑的种子。
经此一役,AlphaGo也收获颇丰。现在就算李世石在第10
000手下出违反常规的怪招,它也不会再想着侥幸过关了。这就
是算法的强大之处:从错误中吸取教训,进而反败为胜。
但这并不意味着AlphaGo不会再犯新的错误。随着第五局棋
的进行,AlphaGo似乎放弃了一套针对特定布局的标准下法。正
如哈萨比斯在后台所讲到的:AlphaGo在开局之初犯了一个错误
(因为它并不知道围棋中有一个著名的“手筋”[1]),但现在
它正在努力地改正,亡羊补牢。开局时李世石处于主动,之后AlphaGo渐渐地挽回了颓势。
比赛非常激烈,直到比赛结束之前,DeepMind团队也还不清楚
AlphaGo是否获胜了。历时5个小时的人机大战,在第281手棋时
分出了胜负,李世石中盘认输。这一次后台一片欢呼,DeepMind团队击掌相庆,哈萨比斯激动地握紧拳头挥向空中以
庆祝胜利。李世石在第四局的获胜重新激起了他们的斗志,对
他们来说赢得最后一局尤为重要。
回顾此次人机对弈,很多人都意识到了它非凡的意义。一
些人立即发表了评论:“这是人工智能的重要转折点!”从表
面上看,AlphaGo所能做的仅仅是下围棋,但实际上,它的学习
和适应能力才是最值得人类关注的一种全新的东西。哈萨比斯
在赢得首局胜利后就曾发表Twitter消息:“AlphaGo赢了!我
们成功地把它降落在了月球表面。”这是一个很好的比喻,登
月并没有产生关于宇宙的非凡的新突破,但却意味着我们为实
现这一壮举而开发的技术产生了非凡的新突破。赛后,韩国围
棋协会授予AlphaGo荣誉九段称号,这是围棋选手所能获得的最
高荣誉。
[1] 围棋术语,指“灵感之下的妙手”。——译者注山头还是主峰
第二局中AlphaGo的第37手棋很有创意,下法之新颖让人惊
喜。随着棋局发展,它证明了自己的价值。这是一种具有探索性
的创造力,挑战了传统行棋思维的极限。
围棋最重要的一点,是可以通过客观的方法检验新的行棋思
路是否具有价值。任何人都可以想出富有创意的新走法,其技巧
性和实用性取决于所能带来的某种价值。我们该如何去衡量这种
价值?在评估价值的过程中是否会带有主观臆断,或受到时机的
局限性的制约?一些在诞生之初就受到指摘的事物,往往经历几
代人才会逐渐被接受并被视为具有革命性的创新。并不被19世纪
的人们所认可或知晓的贝多芬的交响乐,现在被誉为艺术的巅
峰。凡·高的一生中,几乎没有售出过画作,它们只能用来交换
食物或绘画材料,但现在他的大作却可以卖出数百万美元的高
价。可是在围棋方面,却有一个最为直接和实际的价值衡量标
准:能赢棋吗?AlphaGo凭借精妙绝伦的第37手棋最终获得了第
二局的胜利,这也是其价值最好的、最客观的体现。
AlphaGo将这种古老棋类游戏的新下法教给了全世界。分析
其在比赛中所采用的新战术,我们已经能够理解它在第5条线早
早落子对胜负的影响,越来越多的棋手将会把这种策略运用起
来。同时,AlphaGo也在不断地学习和创新,探索更多、更好的
行棋策略。据DeepMind团队透露,2017年初,AlphaGo的最新版
本在网上以假名Master或Magister和一批围棋高手对战,人类棋手并不知道他们在和机器下棋。几个星期的时间里,它共参与了
60场比赛,并获得了全胜。
真正的洞察力源于对棋局的综合把控。这些棋类游戏现在已
经成为挖掘新思想的宝库。在几场比赛中,AlphaGo使用了一些
新手都不会用的低级招式。比如,传统下法中棋手不会在三行三
列交叉点上落子,但AlphaGo却向我们展示了如何利用好这一招
并为整个棋局带来新的机遇。
哈萨比斯解释了围棋算法是如何陷入数学家们所说的“局部
极大值”的困境当中的。如图3-1所示,如果你登上了A峰的最高
点,四周弥漫着的大雾阻碍了你的视线,在此处高无可高的情形
之下,你或许会觉得这里就是所在区域范围内的最高点。但当迷
雾逐渐被风驱散,举目远眺,你发现山谷对面竟然还有一座更高
的山峰——B峰。想要抵达B峰的顶端,你就必须先下山,穿过山
谷,然后才能攀上主峰之巅。图 3-1
在传统棋法的影响之下,围棋已发展出固有的一套成规,应
用好这些规则的确能让棋手登上A峰。AlphaGo的出现拨开了迷
雾,打破了这些规则对思维的束缚,使我们看到了更高的B峰。
我们甚至可以估算出两者之间的差距。围棋比赛的统计资料显
示,使用传统下法的棋手通常会输给使用新下法的棋手两子。
对围棋下法的革新一直持续不断、屡见不鲜。最近一次是围
棋界的传奇人物吴清源大师于20世纪30年代开创的新棋法,他的
布局之法颠覆了传统围棋布局的常用套路。因此,围棋爱好者们
认为AlphaGo可能会引发一场更大的围棋“革命”。
中国的围棋世界冠军柯洁也认为,我们处在一个新的时代,虽然人类已经发明围棋数千年了,但人工智能技术的出现让我们感觉到人类对围棋的理解仍然还很肤浅。在不久的未来,人类与
计算机的融合将会开创一个崭新的时代。
柯洁的师兄,另一位中国围棋世界冠军古力补充道:“人类
将利用人工智能技术很快揭开围棋更深层次的神秘面纱。”哈萨
比斯把人工智能算法比作哈勃望远镜,认为它是一种可以用来探
索比以往更深、更远、更广领域的工具——它会提升而不是取代
人类的创造力。
此时此刻,我似乎发现了一个令人相当沮丧的事实。当你知
道永远无法战胜机器时,成为围棋世界冠军的理想就会变得毫无
意义。专业棋手都试图勇敢地面对这一局面,讨论并分析人工智
能所展现的创造力能否对自己棋力的精进大有裨益。但当我们得
知再怎么努力也只能成为屈居于机器之后的第二梯队棋手时,确
实会意志消沉。虽然机器的程序还是人编写的,但这也不会让人
有挽回颜面的感觉。
自那以后,AlphaGo就退出了围棋竞技领域,DeepMind围棋
团队也宣布解散,因为哈萨比斯已经用事实证明了剑桥那个教授
所持观点的错误性。DeepMind团队现在把目光投向了其他领域:
医疗保健、气候变化、能源效率、语音的生成和识别、计算机视
觉,等等。这些领域都需要他们认真、深入地思考和探索。
鉴于围棋一直作为我反对利用计算机研究数学的挡箭牌,我
关心的是DeepMind团队关注的下一个目标会不会是我所从事的数
学研究领域?要正确判断这种新的人工智能技术具备的潜力,我
们需要更加仔细观察并深入研究其运作的方式和机理。试想一下,DeepMind团队将要开发出来的程序居然有可能让我这个数学
家丢掉饭碗,而创造这些程序的工具正是数学家们历经几个世纪
的不懈努力才发现和创造出来的。这个数学缔造出来的“科学怪
人”(Frankenstein’s monster)会向它的创造者宣战吗?第4章 算法,网络时代的生活秘诀
阿达·洛夫莱斯
分析引擎编制代数的模式,就如同用提花织布机编织出鲜花
和绿叶一般。
当下,我们的生活完全依赖于算法。上网搜索内容,使用
GPS导航,观看由奈飞公司(Netflix)推荐的电影,或是在线预
约,我们都要依赖算法。算法正在引导我们进入数字时代,但很
少有人意识到在计算机诞生之前,算法作为数学的核心已存在了
数千年。
自古希腊以来,算法的身影一直伴随着数学的诞生与发展。
在欧几里得(Euclid)的巨著《几何原本》[1]中,他除了证明
素数有无穷多个外,还发现了一个方法,按照这个方法就能解决
最大公约数等问题。
这也许有助于我们更清楚地认识和解决问题。想象一下,如
果你的厨房长36英尺[2],宽15英尺,那么能够覆盖整个地面而
无须切割的方形瓷砖是多大尺寸呢?你该怎么计算呢?2000年前
解决这类问题的算法是这样的:
假设你有两个数字,M和N,且N小于M。首先用M除以N,得到
的余数记为N1。如果N1为零,那么N就是能够将这两个数整除的
最大的数,即这两个数的最大公约数。如果N1不为零,则用N除
以N1,得到的余数记为N2。如果N2为零,则N1是能将M和N整除的最大的数。如果N2不为零,则继续上述步骤,用N1除以N2并得到
余数N3。依此类推,得到的余数是一个整数,并且随着计算的进
行会越来越小,直到变为零。那么,算法最终一定会找到一个能
够同时将M和N整除的最大的数,这个数被称为最大公约数。
现在让我们回到厨房地板的问题。我们知道,厨房是长方形
的,而我们要寻找的是正方形的瓷砖。假定我们讨论的是一种理
想状态:瓷砖的尺寸不会受到生产厂家某些规格标准的限制。现
在,我们可以开始了。首先,我们找到适合原始形状的最大方形
瓷砖;然后,我们寻找到适合剩余部分的最大正方形瓷砖,依此
类推……剩余的地面空间逐渐缩小,直至成为一个正方形,这时
刚好就可以用一整块瓷砖严丝合缝地填充进去。整个过程不需要
切割任何一块瓷砖,如图4-1所示。
图 4-1
我们将上述问题的解决思路(算法)用数学的方式加以描
述:假设M=36且N=5,则用M除以N得到余数N1=6,用N除以N1得到余数N2=3,而N1除以N2根本就没有余数,所以就可以得出3是36
和15的最大公约数。
你可以看到整个计算过程隐含有许多类似于“如果……那
么……”的条件判断句式,这是算法的典型特征,也是计算机程
序中算法的妙趣所在。欧几里得的古老方法触及了任何算法都应
该具备的四个关键特征的核心:
(1)它应该由一组精确的陈述和明确的指令组成。
(2)无论输入的参数如何,这个过程都应该完成(不应该
进入无限循环)。
(3)它应该给输入算法的任何参数以答案。
(4)在理想情况下,它的运行速度应该很快。
在欧几里得的算法中,任何阶段都不存在歧义。因为余数在
每一步运算后都会变小,有限的步数之后它必为零,这时算法就
会停止并给出结果。算法的执行时间与问题的规模成正比,数字
越大,耗时越长。
如果最古老的算法可以追溯到2000多年以前,那为什么“算
法”这一名词的提出要归功于一位9世纪的波斯数学家呢?穆罕
默德·阿尔·花拉子密(Muhammad Al-Khwarizmi)是巴格达智
慧馆[3](great House of Wisdom)的首批负责人之一,他负责
将古希腊数学原著翻译成阿拉伯文。“算法”是拉丁文对他名字
的翻译。尽管欧几里得的算法在《几何原本》中早已阐明,但欧几里得所使用的语言非常笨拙,而且古希腊人的思维非常几何化
(数字只是线条的长度,就连证明的过程都是由图片组成的——
有点像我们用瓷砖铺厨房地板的例子),所以他的算法并没有被
后世所广泛采用。这是因为图片并不是一种严谨的数学方法,你
需要的是代数的语言,即一个字母可以作为变量代表任何数字,而这正是花拉子密的发明。
你需要一种语言来清楚地表达算法的工作原理,并允许你在
不指定数值的情况下讨论数学问题。我们已经看到这种语言能解
释欧几里得算法的工作原理,给予数字一个形式化的符号名称
——N和M,这些符号可以代表任何数字(我们称之为变量)。这
种新的描述语言是一种高度概括的语言,它对数学的发展影响巨
大,意味着数学家不需要挨个讨论遇到的所有问题,而可以运用
形式化的描述方法来掌握数学运算背后的模式。一个好的算法应
该满足上述的第三个特征,就好比代码和程序,它们可以不需要
确定具体的参数就能够编译运行。
算法已成为我们这个时代通行的“货币”,因为它们是计算
机系统的完美素材。算法利用我们解决问题的模式,反过来引导
我们去找到解决问题的方案。计算机不需要思考,它只要不停地
遵循算法、执行指令即可,就像变魔术一样,答案自己就会蹦出
来。
[1] 欧几里得为了满足教学的需要编成了一部《几何原
本》。这部书共15卷,是一部集前人思想和欧几里得个人创造性
于一体的不朽之作。在此书中,欧几里得把人们公认的一些事实
列为定义和公理,以形式逻辑的方法,用这些定义和公理来研究各种几何图形的性质,从而建立了一套从定义、公理出发,论证
命题得到定理的几何学论证方法,形成了一个严密的逻辑体系
——几何学。而这部书,也就成了欧式几何的奠基之作。——译
者注
[2] 1英尺=0.3048米。
[3] 中世纪阿拉伯阿拔斯王朝在巴格达建立的全国性综合学
术机构,亦称益智宫、哲理大学,由翻译局、科学院和图书馆等
机构组成。后世学者誉智慧馆为中世纪阿拉伯“科学的源泉,智
慧的宝库,学者的圣殿”。——译者注荒岛算法
当代最非凡的算法莫过于每天帮助数百万人浏览互联网的搜
索算法。如果我被扔在荒岛上,只允许随身携带一个算法,我可
能会选择谷歌的搜索引擎。(并不是说它会有多大的用处,因为
我不太可能连上互联网。)
20世纪90年代早期,一个专门收录所有互联网网址的目录直
到1994年才收录了大约3000个网站。当时的互联网很小,小到可
以让你轻而易举地浏览一下就能找到想找的东西。从那时起,互
联网就在不断发展。当我开始写这篇文章时,互联网上已经有1
267 084 131个网站了,还没写几句话的工夫,这个数字就上升
到了1 267 085 440(通过访问
http:www.internetlivestats.com即可查看现存网站数
量)。
谷歌的搜索引擎是如何从数以几十亿计的网站中准确地找出
你想要的信息呢?86岁来自维冈的老奶奶玛丽·阿什伍德(Mary
Ashwood)在浏览器的搜索栏里非常有礼貌地使用“请”和“谢
谢”来提出她的搜索请求,或许她脑海中想象的画面是,电脑另
一端一群勤劳的实习生正在埋头苦干,处理浩如烟海的请求信
息。她孙子本(Ben)打开笔记本电脑,看到“麻烦你帮我翻译
一下这个罗马数字——MCMXCVIII,谢谢你!”的搜索问句后,忍不住在Twitter上向全世界讲述了奶奶的误解。当谷歌工作人
员回复他的Twitter消息时,他惊呆了:敬爱的本的奶奶,愿您一切安好。
在数十亿次的搜索中,是您让我们会心一笑。
嗯,您所需要翻译的罗马数字是1998。
感谢您!
在这一次的机缘巧合下,本的奶奶将谷歌的工作人员推向台
前。谷歌的搜索引擎每15秒就要处理数百万次请求,这样的数量
任何公司都无法做到人工回复。那么,如果谷歌不是拥有互联网
神奇魔法的精灵,它是如何成功地找到你想要的答案呢?
这一切归功于1996年拉里·佩奇(Larry Page)和谢尔盖·
布林(Sergey Brin)在斯坦福大学的宿舍里发明的强大而精妙
的算法。他们最初想把新算法命名为“网络爬
虫”(Backrub),但最终还是决定叫“谷歌”(Google),其
灵感来自1后面的100个零。他们的目标是找到一种对互联网上所
有的页面进行排序的方法,以帮助大家在这个不断增长的海量数
据库中进行检索,所以起这个代表巨大数字的名字似乎特别贴
切,而且也很酷炫。
这并不意味其他的算法不能做这件事,但是那些算法在概念
上非常简单。如果你想搜索更多关于“有礼貌的奶奶和谷歌”的
信息,现有的算法会将所有包含这些关键词的页面识别出来,并
按顺序排列,搜索词出现频率最高的网站会被放在最顶部。这种方式虽然有效,却容易被黑客攻击:任何一个花店老板
只要在网页的元数据中数千遍地插入关键词“母亲节鲜花”,那
么每个想买花的子女电脑上的搜索结果的最顶端就会出现这个花
店的链接。你肯定不希望自己的搜索被精明的人设计或者操纵,那么,如何才能对一个网站的重要性给予公正的评价呢?如何判
断哪些网站该被过滤掉呢?
佩奇和布林想出一个聪明的方法:如果一个网站有很多链接
指向它,就暗示着其他网站认为这个网站值得访问。其原理是通
过其他网站的评估去衡量某个网站的重要性,或者说该网站的访
问价值。但是,这种方式也有可能被黑客攻击,比如只需伪造出
有1000个网站的链接指向这个花店就行了,这样也会使其被纳入
搜索名录。
为了防止这种情况出现,他们决定给那些获得广泛好评,深
受信赖的网站赋予更高的权重。
可这仍然会让他们面临一个挑战:如何客观评价一个网站的
重要性?
以一个小型网络为例,如图4-2所示。首先,给每个网站设
定相同的权重。然后,让我们把网站想象成一个桶,给每个桶里
放8个球,表示网站的初始权重相同。现在,每个网站必须将球
交给它链接的其他网站,如果链接多个网站,那么就将球均分给
那些网站。如图4-3所示,由于网站A链接了网站B和网站C,它将
为每个网站提供4个球;而网站B只链接了网站C,它就需要将拥有的8个球全部放入网站C的桶中。第1轮分配后,网站C得到的小
球数最多。
图 4-2
但是我们需要继续重复这个分配过程,因为现在位于最高排
名的网站C链接了网站A,所以又会产生新的分配结果。9轮重复
分配过程中各网站小球数量的变化情况如图4-4所示。图 4-3
图 4-4
到这一步,它还算不上是一个特别好的算法,因为不稳定,并且效率相当低,没有达到理想算法的两个关键标准。佩奇和布
林的洞见之伟大在于,他们意识到,需要找到一种方法,通过观
察网络的连通性来分配球。结果,他们在线性代数中找到了一个
诀窍,可以一步算出正确的分布情况。
这种算法从构建一个矩阵开始,该矩阵描述球在网站间的重
新分配方式。矩阵的第1列表示球从网站A到其他网站的分配比
例:0.5转到网站B,0.5转到网站C。由此,可以得到球的重分配
矩阵:
难点是寻找这个矩阵特征值为1的特征向量,这是一个与该
矩阵相乘不会发生改变的列向量。找到特征向量的方法我们在大学本科时就学过了,因此在这个网络中我们发现,通过重分配矩
阵找到的列向量非常稳定:
注:矩阵的乘法运算规则是:
这就表明,如果我们按照2:1:2的比例给各网站分配球,会看到这个权重比例是稳定的。用之前9轮分配的例子中得到的
数据也可以验证这一结论,各网站拥有的球的比例总是约等于
2:1:2。
矩阵的特征向量是在数学和其他科学领域中非常有效的一种
工具,是量子物理中用来计算粒子能级的秘密武器,可以用于研
究旋转流体的稳定性(比如旋转的恒星或者病毒的繁殖率),甚
至可以用于研究素数在所有数字中是怎样分布的问题。
通过计算网络连通性的特征向量,我们发现网站A和网站C的
排名应该是相同的。虽然网站A只连接到一个网站(网站C),但由于网站C的权值较高,它会赋予网站A较高的权值。
这是算法的核心基础,但需要加入一些额外的细节处理才能
使其充分发挥作用。例如,该算法可能需要考虑一些异常情况:
如果存在未链接其他网站的孤立网站,它的球会无法重新分配。
尽管基础引擎是公开的,但算法内部的一些重要参数还是保
密的,并且随着时间的推移不断发展变化、更新换代,这些在一
定程度上使得算法难以被破解。谷歌算法最吸引人的地方在于它
本身的健壮性和防止欺骗的策略——一个网站很难在自己的网站
上做手脚来提高排名,它必须依靠其他网站来提升自己的排名。
如果你关注一下谷歌搜索,就会发现排名很靠前的网站主要
都是新闻媒体网站和大学官方网站,比如牛津大学、哈佛大学的
官网。许多外部网站都会链接到大学网站上的研究资料及观点页
面,这正是由于这些大学的研究成果受到了世界各地许多人的关
注。
当牛津大学网络中的任何一个网站链接到外部网站时,该链
接将提升其所链接的外部网站的排名,这意味着牛津大学认可与
该网站共享其巨大的声望。这也就是为什么我经常会被其他人要
求,让我把在牛津数学系的网站链接到外部网站。这么做有助于
提高外部网站的排名,毕竟能够在谷歌搜索排名登顶是每一个网
站的终极“圣杯”。
谷歌的算法再强大,也不可避免地被那些了解数学原理的人
用更加聪明的办法攻击并加以利用。在2018年夏天的某段时间
里,如果你在谷歌上搜索“白痴”(idiot),首先弹出的便是唐纳德·特朗普(Donald Trump)的照片。一些激进分子知道怎
样利用Reddit[1]在互联网的巨大影响力:他们在网上发布一个
包含“白痴”这个关键词和特朗普照片的帖子让大家投票,两者
的组合很快就登上了谷歌搜索的首位。但随着时间的推移,这些
另类的搜索结果的峰值会通过算法本身而不是人工干预进行降
级,并被算法慢慢剔除。谷歌不喜欢扮演“上帝”,但从长远来
看,它相信的是数学的力量。
互联网就像一头会变身的妖兽,瞬息万变,每一纳秒就会有
一个新网站诞生。随着网站的关闭和更新,新的链接关系也在不
断地生成、变化,这意味着网站页面的搜索优先级需要动态调
整。为了让谷歌跟上互联网不断发展的步伐,他们会使用一个有
着相当可爱名字的工具,定期在互联网上搜罗网站信息并更新网
站链接的统计点击量,这个工具叫作“谷歌蜘蛛侠”(Google
spiders)。
技术控和体育教练发现,这种评估网络节点的方法也可以应
用于其他“类网络”领域,尤其是足球。当评估对手时,评估对
手的关键球员非常重要,因为他会控制整个球队的打法或者成为
比赛的焦点。如果在比赛初期就能找到这名球员,并对他的发挥
进行有效的遏制,那么在战略上就能冻结对手整个球队的战斗
力。
来自伦敦的两位数学家哈维尔·洛佩斯·佩纳(Javier
López Pena)和雨果·杜塞特(Hugo Touchette)都是狂热的足
球迷,他们决定研究一下,看看谷歌的算法是否有助于分析世界
杯参赛球队的情况。他们是这样考虑的:如果把每位球员看作一个网站,一个球员给另一个球员传球就好比一个网站链接另一个
网站,那么比赛中的传球路线就可以被视为一个网络;传球给队
友是信任那个球员的标志,因为球员通常会避免传球给一个容易
丢球的“笨”队友;一个不会积极跑动、有效控球的球员是很难
拿到球的,所以只有有能力控球的人才会有人给他传球。
因此,他们决定使用国际足联在2010年世界杯期间提供的传
球数据来分析球员实力排名。当对英格兰队的比赛进行分析时,他们发现史蒂文·杰拉德(Steven Gerrard)和弗兰克·兰帕德
(Frank Lampard)两位球员的数据明显高于其他人。这反映出
一个情况:足球会频繁传给这两位中场球员,遏制他们在场上的
发挥极有可能使英格兰队输球。最终,英格兰队在世界杯中确实
没有走太远,复赛就被老对手德国队淘汰了。
以最终胜者西班牙队的数据来说,经过算法统计分析,西班
牙队中没有明显的核心球员,这反映了整个球队很好地贯彻
了“全攻全守”“快速短传”的战术思想,这最终促成了西班牙
队走上冠军领奖台。
与美国许多依靠数据分析发展起来的体育项目不同,足球需
要经过一段时间的积累才能利用数学和数据统计挖掘比赛背后隐
藏的规律。但是到了2018年俄罗斯世界杯,许多球队都聘请了科
学家在幕后提供技术支持——通过分析数据来了解对手的优势和
弱点,这其中就包括对每支球队中传球依赖度的分析。
网络分析还应用于文学领域。安德鲁·贝弗里奇(Andrew
Beveridge)和单杰(Jie Shan)用一套名为“网络科学”的方法分析了乔治·雷蒙德·理查德·马丁(George R.R.Martin)
的史诗奇幻巨著《冰与火之歌》[2](Song of Ice and
Fire)。了解该故事剧情的人都知道,想要预测哪些角色会在剧
本下一卷中出现不太容易,因为马丁先生会为了剧情需要,不
惜“写死”哪怕是剧中最好的角色。
贝弗里奇和单杰决定在书中的人物之间建立一个网络。他们
选定了剧中107个关键人物作为网络中的节点,然后根据关系重
要程度为人物节点之间的连接线赋予权值。但算法如何评估节点
间连接的重要性呢?该算法只是简单地计算剧情中两个人物名字
在连续的15个单词内出现的次数。这并不是在衡量人物之间的友
谊,而是在衡量他们之间的互动或联系频度。
他们选定这个系列的第三卷《冰雨的风暴》(A Storm of
Sword)进行分析,因为剧情发展到这里也就基本稳定了。首
先,他们对网络中的节点(或者说角色)进行了排名分析,三个
角色很快脱颖而出,他们分别是提利昂(Tyrion)、琼恩·雪诺
(Jon Snow)和珊莎·史塔克(Sansa Stark)。读过这本书或
看过该系列电视作品的观众都不会对这个发现感到意外,但令人
惊奇的是,一个不理解剧本内容的计算机算法也能分析出跟人相
同的结论。这不是简单地计算某个角色名字出现的次数就能评估
的,如果只是简单的这样做,会有其他人物的名字出现在排名
中。事实证明,算法对于这个剧情网络更加微妙的分析揭示出了
剧中真正的主角。
随着剧情的发展,第三卷中的一些关键人物都被“写
死”了,但这三个角色都在马丁的笔下幸存了下来。这就是一个优秀的算法存在的价值:从足球到《权力的游戏》,它在多种不
同的应用场景中都能发挥作用。
[1] 一家社交新闻网站,其口号是“提前于新闻发声,来自
互联网的声音”。——译者注
[2] 此作品改编成的电视剧叫作《权力的游戏》(Game of
Thrones)。——译者注数学,幸福婚姻的秘诀
谢尔盖·布林和拉里·佩奇也许已经破解了引导你进入甚至
连你自己都不知道自己要寻找的网站的秘法,但算法真的能帮助
你找到灵魂伴侣吗?当你访问OKCupid[1]时,会看到一条带着些
许骄傲情绪的标题——“我们用数学为你找到约会对象”。
这些婚恋交友网站使用“匹配算法”对个人资料进行检索,并根据个人的喜好、性格特点等进行配对。它们似乎做得不错!
从某种程度上讲,这些算法选择的结果会比我们自己去相亲的结
果更好:最近发表在《美国国家科学院院刊》(Proceedings of
the National Academy of Sciences)的一项调查研究表明,以
在2005~2012年结婚的1.9万人为研究对象,其中通过婚恋网站
结识的伴侣相处得更幸福,婚姻也更稳定。(免费书享分更多搜
索@雅书.)
1962年,由两位数学家大卫·盖尔(David Gale)和劳埃德
·沙普利(Lloyd Shapley)共同提出了史上第一个获得诺贝尔
奖的算法——他们使用了一个匹配算法来解决“稳定婚姻问
题”。遗憾的是,盖尔于2008年去世,没能参加颁奖典礼。沙普
利在2012年与经济学家埃尔文·罗斯(Alvin Roth)共同获得了
这个奖项。罗斯认为,这个算法不仅对人际关系问题的研究具有
重要意义,对一些社会问题,包括医疗资源和学校招生名额分配
等,也具有重大价值。当时沙普利就被这个奖项逗乐了,他说:“我认为我是一个
数学家,而这个奖是颁给经济学家的。”很显然,他对委员会的
决定感到惊讶,他说:“我一生中从未上过经济学课程。”但
是,他编写的数学算法已经对经济和社会产生了深远的影响。
沙普利和盖尔一起研究的稳定婚姻问题,感觉跟前沿经济理
论没什么联系,更像是一个填字游戏。为了准确地描述该问题,我们假设有性取向正常的四位先生和四位女士,并按照他们的兴
趣喜好对四名异性进行排序。该算法的难点在于如何给他们配
对,并实现建立稳定婚姻关系的目的。稳定的婚姻关系意味着使
所有的人获得较为满意的伴侣,不应该有任何一位成员因不满意
算法分配的伴侣而选择在某个时刻离开,与其他人私奔。乍一
看,即便只有四对关系,也很难安排得妥妥当当。
我们举个实例来看看盖尔和沙普利是如何利用系统和算法的
方式来保证稳定的配对关系。这四位先生分别用扑克牌中的K来
表示,黑桃K、红桃K、梅花K和方块K;同样地,四位女士分别用
Q来表示。每一位K和Q都列出了自己的偏好和习惯等参数。
对于K来说,选择方案如图4-5所示:
图 4-5对于Q来说,选择方案如图4-6所示:
图 4-6
现在,假设提议每个K与同花色的Q配对。这肯定是不稳定的
配对关系,为什么呢?梅花Q把梅花K列为她的末选对象,她和其
他三个K在一起都会很开心。我们再来看看红桃K的列表:红桃Q
是末选对象,方块Q是他的首选对象。在这种局面下,我们都可
以想象到:某一日,风和日丽,梅花Q和红桃K私奔了。显然,同
花色的配对关系不是稳定的婚姻方案。
我们该如何配对,才不会有私奔的状况出现呢?下面就是盖
尔和沙普利所做的:利用多轮分析找到最终的稳定配对。第1轮
中,Q都向其首选对象求婚:黑桃Q首选为红桃K,红桃Q首选为梅
花K,方块Q首选为黑桃K,梅花Q首选为红桃K。似乎红桃K更受欢
迎,有两个Q向其求婚。而红桃K选择他更青睐的梅花Q,所以拒
绝了黑桃Q。因此,这一轮有三个待选和一个拒绝。
第1轮结果如图4-7所示:图 4-7
被拒绝的Q必须放弃她的首选K,并在下一轮中向她的次选对
象黑桃K求婚。这时,黑桃K有两个选择,第一轮中待选的方块Q
以及新求婚的黑桃Q。对于黑桃K来说,他更偏爱黑桃Q,所以他
会残忍地拒绝方块Q。
第2轮结果如图4-8所示:
图 4-8
接下来是第3轮。每一轮中被拒绝的Q都会向下一位K求婚,K
们总是会选择相对更好的Q,所以这一轮,被拒绝的方块Q向方块
K求婚(方块K一直孤单地等待,像是一个没有被选入足球队的孩
子)。尽管方块Q在方块K的选项中排名很低,但他也没有更好的
选择,因为其他三个Q更喜欢其他的K。
第3轮结果如图4-9所示:图 4-9
我们用了一个可爱的Q与K配对的游戏来展现这个算法。最
终,每个人都配对成功,所有的婚姻关系都很稳定,很圆满的大
结局!这个算法目前在世界各地广泛使用:在丹麦用于小朋友匹
配幼儿园;在匈牙利用于学生择校;在纽约用于给犹太教堂分配
拉比[2];在中国、德国和西班牙用于大学招生和学生择校;在
英国被英国国家医疗服务体系(National Health Service)用
于病人与器官捐赠配对,挽救了许多病人的生命。
在盖尔和沙普利研究的基础模型上,我们建立了婚恋交友网
站用于配对分析的现代算法。当然,由于信息不完整,个人偏好
会随时间、经历等因素而变化,实际情况中面临的问题会比这个
复杂得多。从本质上讲,这些算法试图利用人们的偏好来进行匹
配,从而形成稳定、幸福的婚配关系。有证据表明,这些算法很
可能比人类的直觉更靠谱。
对于盖尔和沙普利开发的算法,你可能已经发现了一个有趣
的不对称:让Q向K求婚。如果我们让K向Q求婚会怎样呢?相当引
人注目的是,事实确实会跟我们想象的一样,即如果通过交换K
和Q来应用该算法,将会得到一个完全不同的稳定配对。
方块Q最终会成为红桃K的伴侣,梅花Q会和方块K成为夫妇。
这两个Q居然交换了伴侣,选择了优先级更低的对象。虽然两次不同的求婚都能形成稳定的配对关系,但Q向K求婚会给Q带来更
好的结局。反之亦然,K去求婚,结果对K更有利。
这个算法在美国用于给医学院的毕业生分配工作。当毕业生
意识到这样的配对方式不利于自己的就业时,发起了寻求公平对
待的抗议活动。迫于各方压力,医院逆转了算法的选择方向,最
终,毕业生得到了更好的有利于自己的分配结果。
这是一个重要的警示:我们的生活对算法的依赖越多,对算
法的工作原理及运行过程的深入理解就变得越重要。否则,你很
可能会被算法“坑”了。
[1] 婚恋交友网站。——译者注
[2] 在犹太文化中,这是对有学识的人的尊称。——译者注书商之战
算法的问题在于,有时会产生一些让人意想不到的结果。人
类能察觉到怪异,而算法只知执行,它才不管结果是否谬以千
里、荒诞不经。
我最喜欢举一个关于二手书商用算法来经营生意的例子。一
位在加州大学伯克利分校(UC Berkeley)工作的博士后非常渴
望拥有一本彼得·劳伦斯(Peter Lawrence)于1992年出版的经
典著作《制造苍蝇》(The Making of A Fly)。发育生物学的
专家经常会使用这本书,但到了2011年时,这本书已经停止发行
很长时间了,所以这位博士后只能去找一本二手的。
他在亚马逊网上书城搜了一下这本书,二手书的价格大致在
40美元,但他却发现有一个商家profnath对这本书开价1 730
045.91美元,并且还不包邮!还有一个商家bordeebook在做打折
活动,但是价格更高,打完折要2 198 177.95美元,居然也不包
邮(需要额外支付3.99美元运费)!
这位博士后把他看到的情况告诉了他的导师迈克尔·艾森
(Michael Eisen)先生,导师也认为这两家的图书定价有些离
谱,他觉得是有人(高学历的人)在开玩笑。但这两家书商在网
上的评价还不错,应该不至于是不法商贩。profnath在过去一年
中得到了8000多条推介,而bordeebook同期则得到了125 000多
条推介。也许,这只是一个孤立的奇怪现象罢了。第二天,艾森先生又到网上查看价格时发现,这两个书商竟
然还在提价:profnath已经标到了2 194 443.04美元,而
bordeebook则把价格提到了2 788 233.00美元。艾森先生决定花
上几天时间,通过数据分析的科学手段来搞清楚这些奇怪的高昂
价格背后的隐情。
最后,他发现了价格上涨背后的数学规律:用profnath当天
的价格除以bordeebook前一天的价格总能得到0.998 30;用
bordeebook当天的价格除以profnath当天的价格总能得到1.270
59。每个书商都为它们的网站设置了程序,使用特定的算法来确
定售书价格。每天,profnath的算法都会检查bordeebook的图书
价格,然后将其乘以0.998 30。这个算法非常有意义,表明
profnath正在对网站中商品的价格进行算法控制,以削弱
bordeebook价格的竞争力。bordeebook的算法也挺有特点,检测
竞争对手的价格变化情况,并将对手价格乘以1.270 59作为自己
的售价。
表 4-1综上所述,价格每天都会乘以1.268 43(0.998 30×1.270
59),即价格将呈指数级增长。如果profnath采用了更激进的系
数跟bordeebook打价格战,用不了多久,图书的价格不但难以维
系上涨,反而可能会暴跌。
profnath所采用的算法已经描述清楚,但为什么bordeebook
的算法会不断提高售书价格呢?没人愿意多花钱来买同一本书,或许在当初价格还不是很离谱的时候,它打算依靠自己良好的商
家信誉和众多正面推介来招揽顾客。正如艾森先生在博客中所写
的:“这种坐地起价的策略相当危险!它会让你的书在库房里接
灰的,除非你根本就没有这本书……”
过了没多久,他就明白真相了。果然,bordeebook实际上就
没有这本书!他们其实就是倒买倒卖而已。他们的算法还有其他
一些功能,如查看其他书商在卖什么书,并把比自己价格低的书
标记出来,利用差价买进,再依靠自己良好的商家信誉和众多正
面推介以高价转手卖出。因此,该算法设定了涨价的系数1.270
59,这其中包含了购书成本、包装运费,以及他们的利润。
用对数函数可以轻松算出这本书大概在4月8日前的45天上
市,售价约为40美元。这充分地显示出指数级增长的力量:短短
一个半月,书价就飙升至数百万美元!4月18日,profnath的员
工发现了该问题,此时该书的价格已经涨到了23 698 655.93美
元(外加3.99美元的运费),他意识到这是个问题,立即采取了
人工干预措施,把价格降至106.23美元。随后,bordeebook把这
本书的价格改为134.97美元(106.23×1.270 59=134.97)。《制造苍蝇》这本书的错误定价并没有给任何人带来重大影
响,但算法的错误是可能导致重大后果的:如果将这样的算法用
于股票期权定价将导致股市崩盘。算法可能导致意想不到的后
果,是人们对先进技术存在恐惧的主要原因之一。试想一下,如
果一家公司开发了一种算法,它的任务是最大限度回收碳资源,而众所周知,地球上所有生物体都是碳基的,它会理所当然地认
为工厂里的人也是含碳生物,所以它在工厂里收集工人来生产碳
资源是符合算法逻辑的。那么,可想而知,会发生什么?谁又能
来阻止它?
算法是基于数学的,在某种程度上,它们就是数学运算。但
是,它们并没有真正创造性地拓展应用它们的领域,所以在数学
界,没有人会觉得自己受到了特别的威胁。我们真的不太相信算
法会攻击它们的创造者,让我们失业。多年来,我一直认为,这
些算法只是辅助我日常工作的工具——它们只是巴贝奇差分机的
复杂升级版,主要还是在执行代数或数值运算,所带来的好处仅
是将我从枯燥乏味的手写计算中解放出来而已。
直到几年前,人们依然认为人类能够理解他们的算法在做什
么以及是如何做的。就像阿达认为的那样,算法的输出不可能大
于输入。但是,后来出现了一种新算法,这个算法可以在与数据
交互时做出动态调整,运行一段时间后,它的程序员就可能弄不
太明白他的算法为什么会做出这样或那样的选择了。程序带来了
让人意想不到的收获,算法也变得更有创造力。这就是DeepMind
团队所使用的新算法,这个算法使机器在围棋领域中战胜了人
类,开创了机器学习的新纪元。第5章 从“自上而下”到“自下而上”
艾伦·图灵
机器经常让我大吃一惊。
我第一次见到戴密斯·哈萨比斯是在他的算法于围棋对弈中
获得大胜之前的几年,那时他参加了一个关于创新未来的会议。
会议中,许多新创立的公司都在寻找风投和天使投资人。它们中
的一些会改变未来,但大多数是“昙花一现”。风投和天使投资
人的目的就是发掘最具潜力的投资对象。当时,哈萨比斯讲道,代码在未来可以自主学习、适应并进行自我改进,我听完立刻把
他打发走了。因为我觉得,程序员通过编程教会计算机玩游戏,而计算机却会比教它的人玩得更好,这种输入寡而输出众的事情
不大可能实现。我并不是唯一一个这么想的人。哈萨比斯也坦
言,人工智能想要在短时间内得到认可并获得投资是极其困难
的。
事实证明,哈萨比斯是千里马,而我却非伯乐。从最近的人
工智能会议的标题就可以感受到哈萨比斯的观点所带来的变革性
影响——“机器学习是新的42?”(42是道格拉斯·亚当斯
(Douglas Adams)的小说《银河系漫游指南》(The
Hitchhiker’s Guide to the Galaxy)中“生命、宇宙以及任
何事情的终极答案”。对于看科幻节目长大的人来说,这是非常
熟悉的概念。)那么,是什么引发了这场新的人工智能革命呢?答案很简单——数据。过去的5年间产生了现在世界上90%的
数据。互联网每天创建的数据可达到1EB(1018),约为2.5亿张
DVD光盘所存储的数据量。现在,人类两天内产生的数据量,就
可以媲美从“文明曙光时代”到2003年所产生的数据量的总和。
海量的数据是机器学习进入新时代最重要的催化剂。在此之
前,一直不具备任由算法在数据之中学习、遨游的客观条件。这
就像是将一个孩子的感官全部隔绝起来,我们都知道,如果不与
外界接触,他是无法获得语言及其他基本能力的。他的大脑已经
准备好学习了,但没有足够的刺激或经验是不能正常发育的。
数据对于新的变革尤为重要,因此它也被称为“新的石
油”。访问数据,相当于在21世纪的“油田”中进行开采。
Facebook、Twitter、谷歌和亚马逊备受瞩目,根源在于我们为
其提供了免费的“石油储量”。严格意义上说,也不是完全免
费,因为我们也在它们提供的服务中获得了数据的“交换”。比
如,当我们在驾车使用Waze导航软件时,即在进行当前位置信息
与到达目的地最有效的路线之间的数据交换。但是,很多人意识
不到这种“交换”的重要性,不愿提供有价值的数据,因此其所
得回报甚少。
机器学习的核心是在经验学习中改进算法的性能:对每个输
出的结果进行自判断并即时调整算法公式,避免再次出错,在错
误中不断学习进而得到改进。这就是数据访问十分重要的原因:
数据越多,可用来进行训练的样本越多,得到的经验就越丰富,算法可以在不断迭代的过程中不断完善。程序员创建的元算法遇
到不同的数据,就会发展成不同的新算法。这种新方法的有效性同样震撼了整个人工智能领域,部分原
因在于其底层技术并非独特的新技术。算法通过构建有解的问题
层来实现,这种层模拟了人脑的工作原理,因此常被称为“神经
网络”。在人类的大脑中,神经元之间通过突触相连,来自感官
的刺激(如新出炉面包的诱人香味)会使得某一簇特定的神经元
产生兴奋反应。当该刺激突破特定阈值时,次级神经元也将会被
激活,由此会使人产生吃面包的冲动。比如,由10个神经元产生
的兴奋反应可进一步激活次级神经元,但少于10个也许就不行。
这种触发也可能取决于来自其他神经元输入的信号强度。
早在20世纪50年代,计算机科学家们就模拟该过程创造了感
知器,其原理是:神经元就像一个逻辑门,接收输入的信息,然
后通过计算来判断是否触发并产生兴奋反应。
如图5-1所示,感知器接收3个输入,每个输入的重要性不相
同,用权重来表示:假设x1的权重是x2、x3的3倍,试计算
3x1+x2+x3,然后将结果与某一阈值相比,高则触发感知器输
出,低则不然。如果得不到预想的正确输出,将会重新调整输入
的权重。例如,x3对结果的影响可能比x2更重要,因此可将算式
改为3x1+x2+2x3。或者,可以用更简单的办法,微调一下阈值以
直接触发感知器。我们还可以进一步对感知器进行改进,使其触
发后的兴奋程度与函数超过阈值的程度成正比。此时,输出就可
以作为对数据进行评估的一个标准了。图 5-1
让我们模拟一个“确定今晚是否外出”的感知器,它做决定
取决于三个要素:(1)电视上是否有好节目;(2)你的朋友是
否一起出去;(3)今天是星期几。我们把它们看作三个变量
x1、x2、x3,并按自己的偏好在0~10选择合适的数字来给这些
选项赋值。比如,“星期一”赋值为1;“星期五”赋值为10。
根据个人的偏好,某些变量或许会受到更多的重视。假如你是个
电视迷,可能电视上播的无论是什么节目都会让你选择待在家里
看电视,那么变量x1的值就会非常高。这个公式的作用就是通过
调整权值和阈值来模拟你的行为。
就像大脑是由一连串神经元彼此联系、共同作用一样,感知
器也可以通过分层来构造出节点间的级联效应,我们称之为“神
经网络”,如图5-2所示。更为精细的感知器,如S型神经元,可
进一步地平滑输出,而不仅限于“是”和“否”两种结果。图 5-2
既然科学家们很早就懂得如何创建人工神经元,那么,从创
建到使其高效工作的这个过程,何以耗费了那么长的时间?归根
结底,还是因为数据,感知器的学习和进化需要数据的支撑。我
们可通过编程为感知器分配初始的权值和阈值,通过真实的输入
数据对其进行训练,每一次错误的预测都将会作为反馈,用以促
进权值的调整和修正。这两个因素是创建有效算法应必备的。看还是不看
人工智能首先需要突破的巨大难题是计算机的视觉问题。就
在五年前,计算机识别物体还非常困难。而人类在这方面却有着
压倒性的先天优势:人类可以迅速、准确地辨识出图片上的物
体,并进一步对图片各区域进行分区域、分类识别。虽然计算机
一瞬间可分析数百万个像素,但编写一个能将所有数据转化为有
意义的信息的算法却相当困难。如何创建一个自上而下的算法来
识别猫呢?虽然每幅图像中的像素构成是完全不同的,但人类大
脑具备惊人的能力,可迅速处理数据并输出答案——“猫”。
人类大脑识别图像的能力广泛应用在为支付等领域构建附加
的安全层(验证码)方面,以识别当前的交易对象是人类还是计
算机程序,比如网上的抢票防作弊程序[1]。这其实就是一个反
向的图灵测试。当看到一幅图像或一些特别的笔迹时,人类非常
善于辨识出这幅图像或文字的特点,而计算机程序却不足以应对
所有的变化。但是,机器学习使这一切发生了改变。
通过由猫的图像组成的数据库对算法进行训练,算法逐渐建
立起一个问题层次结构,它可以向一幅具有高准确度的图像发
问,并将其准确地识别为猫。这个算法与上一章中提到的略有不
同,并且违反了我们所定义的构成一个好的算法的四个基本原则
之一。算法在大部分时间都在工作,但达不到100%,所以关键是
要让其尽可能达到“最”。对于业内人士来说,确定性算法到概
率性算法的转变是一个重大的心理突破,类似于让数学家用工程
师的思维方式去考虑问题。既然如此,那当你在线购买最新的演唱会门票时,为什么还
会被要求去识别一组图像以便进行人机区分呢?你所做的选择实
际上是在帮助算法准备训练数据,这些数据随后会被载入算法,这样计算机就可以尝试学习你毫不费力就能做的事情了。算法需
要借助带有标签的数据才能得到训练,我们真正在做的是训练视
觉识别的算法。
用这些训练数据作为最好的问题类型可以训练算法,以便其
区分猫和非猫的图像。每当算法识别错误,它将进行调整以便下
次能够正确识别。调整的过程通常需要更改当前算法的参数或引
入新的指标以求更准确地识别图像。这种更改不是通过程序员预
判并自上而下实施的,而是由算法自身通过高频次的数据交互自
下而上构建的。
我在剑桥的微软实验室里,见识到了孩子们在家里使用的
Xbox游戏机是如何识别人在摄像机前的动作的,并深深地被这种
强大的自下而上的学习能力震撼。该算法可以很好地将人体的
头、肘、手、脚区分开来。Xbox配有一款名为Kinect的深度感应
摄像头,它可利用红外线技术记录障碍物与摄像头的距离:如果
你站在客厅里的摄像头前,它会检测到它与你身体的距离比后侧
墙壁更近,并且还能确定你身体的大致轮廓。
但人有男女老少、高矮胖瘦,特别是在玩游戏时还可能会摆
出一些奇形怪状的姿势,所以该算法需要对人体的31处特定部位
进行定位和识别。微软的算法可以达到对静态图像的识别(动态
图像识别需要更强大的分析处理能力,强行为之会导致游戏卡
顿、延迟)。那么,算法是如何确定那些特定身体部位所对应的图像中的
像素点呢?事实上,可通过一个简单的问题算法来实现,类似
于“20个问题的猜字游戏”。第1个问题是:这个字位于词典的
前半部分还是后半部分?答案如果是“前半部分”(词典此时被
一分为二),则开始第2个问题:这个字位于“前半部分”的前
半部还是后半部?此时词典被分为4个部分。依此类推,逐渐缩
小范围。当提问到第20个问题之后,词典将会被划分为220个不
同的区域,总数达到100多万,远超过牛津词典中收录的词汇数
目(约30万)。
如果我们想知道某一像素点属于身体的哪一部分,该怎样设
计问题算法呢?在过去,我们都是通过苦思冥想或突发的灵感去
设计一系列巧妙的问题。那是否能够通过计算机编程的手段,通
过大量的数据交互与训练,选择、甄别出更好、更高效的问题集
合呢?答案是“能”,它就是“机器学习”。
机器学习会从一些我们认为可能解决问题的候选问题开始,所以不算是零起点学习。学习的过程就是将最初的想法逐渐优
化,从而形成有效的解决方案。那么,你认为什么样的问题可以
帮助我们区分手臂和头呢?
假设被识别像素为x,像素深度是其与摄像头之间的距离。
若被测试人站在摄像头前,其身上的所有像素点的深度值(该点
与摄像头之间的距离值)是大致相同的,而其身后墙壁上的像素
点的深度值则明显偏大。微软团队设计的问题策略是依次对x周
围的像素点进行询问:若x位于头顶的位置,那么x以北(上)的
相邻像素点(可能是x上方墙壁上的某一点)的深度值将远大于x的深度值,而x以南(下)的相邻像素点(可能是位于x下方人脸
某个部位的一点)的深度值则约等于x的深度值;若x位于水平伸
直的手臂上,则手臂伸展方向上的相邻像素点的深度值约等于x
的深度值,而垂直于手臂方向上的相邻像素点的深度值则会由相
对不变的状态迅速变大到与墙壁上的像素点的深度值相等。随着
不断提问、回答、分析,该像素点位于身体哪个部位的答案将逐
渐浮出水面。
这种不断提问的过程相当于构建了一棵决策树,每个后续问
题形成树的一个分支。在初始状态下,选择任意的方向和深度阈
值,如“方向向北,深度值小于y时转到决策树的左分支,若大
于则转到右分支”,依此类推。我们的目标是能够找到那些提供
有价值的信息的问题。即使初始化状态是从随机问题开始的,一
旦问题的数量累积到一定程度,如应用于10 000个带标记的图像
时,我们就可以得到想要的答案。(比如说,我们判断出了在图
像872中,x位于肘部;在图像3339中,x位于左脚。)我们想象
有这样一些桶,每一只桶对应决策树的一个分支或者身体的某个
部位,这样能够确认x像素为肘部的所有的问题都可被放到其对
应的一只桶中。当然,对于第一组随机问题集来说,确定它们所
对应的桶还比较困难。但经过一段时间的学习或训练后,算法将
逐步对角度和深度阈值进行优化,每个桶中的像素将得到更好的
分类。
通过这个迭代的过程,算法会逐步调整阈值自我优化,以便
于更好地识别像素点。重要的是,我们并不需要追求完美:如果
桶中的1000幅图像有990幅均表明像素x位于肘部,就意味着识别
的正确率已然达到了99%。算法自己找到了最优的问题集合,但程序员并不真正清楚它
是如何得到这样的结果的。他们可以查看决策树中任何一个结点
及其前后结点上所询问的问题,但树中的问题超过百万个,每个
问题又略有不同,所以很难采用逆向工程法得出算法具体是怎样
解决问题的。
试想一下,数量超过百万的问题如果全靠人工编程实现,即
使再厉害、再勇敢的程序员也会闻之色变、望而生畏,然后望风
而逃。但计算机却擅长做这种工作。编程团队需要有一些创造性
的思维去相信通过对相邻像素点深度值的询问和比较,足以确定
该点所在位置,而之后的创造则属于计算机了。
机器学习所面临的挑战之一是“过度拟合”[2]。针对训练
数据提出用以区别图片的问题相对容易,但设计一个不针对特定
数据的通用程序却非常困难,它需要从数据中抽象出广泛适用的
规则。假设给定1000个人的姓名和护照号码,让你去设计问题集
合对每个人加以识别,你可能会这样提问:“你的护照号码是
834765489吗?好的,那你一定就是阿达·洛夫莱斯了!”但这
样的问题只适用于现有的数据集,对于该组数据之外的新数据来
说是难以实现身份识别的。因为护照号码是唯一的,不可能再有
其他人拥有该组数据中的护照号码。
比如,根据给定的图表中的十个点,可得到一个方程,由该
方程创建一条通过所有点的曲线。我们可以用一个十项式来表示
这个方程,但这并不能很好地揭示数据中潜在的模式,而这对于
理解和识别新数据是不利的。因此,有必要减少方程的项数,以
避免出现过度拟合的问题。过度拟合会误导你在建模时过分关注细节而错过数据呈现出
的总体趋势,然后产生不符合客观规律的预测结果。如图5-3所
示,这是一幅包含美国20世纪初人口总量的12个数据点的二维
图。其总体趋势用二次方程式描述是最合适的,但如果我们选取
的方程中x项的幂超过2时会出现什么情况?例如,方程式中x项
的幂是从0变化到11,尽管由这个方程式确定的曲线与历史样本
数据完美拟合,但一旦扩展到未来,曲线会突然向下倾斜,而这
预示未来美国的人口数量会急转直下并且到2028年10月中旬就彻
底消亡。这多少有些荒谬,或许是数学知道了一些不得了的事情
吧!
图 5-3
[1] 最贴切的例子是12306网站的购票确认验证。——译者
注[2] 指假设函数为了完美地拟合样本集,引入了过多的高次
项。虽然这样做可以得到良好的样本拟合结果,但与实际情况完
全偏离。——译者注算法的幻觉
在过去的五年里,计算机视觉识别的发展进步让每个人都
感到惊讶——新算法可以驾驭或识别的不仅仅是人类的身体。
视觉识别能力的不足,一直是计算机不能与人类智能相媲美的
最大障碍。比如,数码相机对图像细节的捕捉能力远超过人类
大脑,但在图像识别的过程中,计算机读取到的是一个个孤立
的像素点,而不是一副完整、有内容、有故事的图片。人类大
脑在图像识别的过程中是如何处理数据的,至今仍然是一个未
解之谜,更何况是我们的这些“硅朋友”[1]了。
接收到感官传递过来的信息后,人类大脑是如何将其当作
一个整体看待的?例如,骰子的颜色(红色)和形状(立方
体)在人类看来是相互关联的,大脑可以很好地将其融合成一
个统一的整体。复制这种融合能力,一直是计算机解释图像所
面对的挑战之一。按像素读取图像的方式,无法帮助计算机获
得图像的整体信息。为了更直观地说明这一点,你可以拿出一
张纸,在纸上面戳一个小洞,再把纸覆盖在一张A4大小的人脸
图片上。仅仅通过移动带洞的纸,通过洞去观察,几乎是不可
能分辨出照片中的人脸的。
五年之前的人工智能想突破这一挑战几乎是不可能的,因
为当时机器学习还未出现,而程序员们一直以来都采用自上而
下的思想设计图像识别算法。事实表明,想要通过“如果……
那么……”这样的逻辑去识别从未见过的图像,是很难实现
的。在自下而上的算法设计思路下,算法可以基于训练数据自主创建决策树,同时,网络上大量的训练数据——带标签的视
觉数据(例如,Instagram上带评论的照片),也会为人工智能
在视觉识别领域的迅速发展提供基本的支撑条件。
我们可以将图片上传至谷歌的视觉网站[2]来测试其算法的
图像识别能力。去年,我上传了一幅我们家圣诞树的照片,经
图像识别分析,算法认为图片上是一棵圣诞树的可能性为97%。
这虽然还称不上惊天巨变,但已是非常了不起的进步了。乐观
之余,算法的局限性也逐渐暴露出来,识别错误的也不乏其
例。英国大都会警察局(British Metropolitan Police)在识
别网上的儿童色情图片时发现,一旦图片涉及沙漠的景象,算
法得出的结论就开始混乱不清了。
在最近的一次采访中,数字和电子取证部门的负责人马克
·斯托克斯(Mark Stokes)坦言:“由于沙漠的颜色跟人的肤
色相近,而起伏的沙丘又极像裸露的身体曲线,所以很多人用
作屏保的沙漠图片,有时就会被误认为是色情图片了。”
长久以来,计算机科学家们一直在努力开发一些特殊类型
的图片,企图用它们“欺骗”人工智能。这些特殊的图片被称
为“对抗图像”。它们实际上是利用了计算机看世界的不同方
式,让人工智能的“眼睛”看到了并不存在的东西,我们可以
理解为人工智能产生的“视觉幻象”。麻省理工学院LabSix团
队[3]最新的研究试验表明,谷歌人工智能视觉识别系统对一只
3D打印的海龟毫无辨识能力,无论以任何角度拿着这只海龟,甚至将它放置于大海等海龟应该在的环境里,其都会被识别为
一支枪。这似乎点到了谷歌视觉识别的“完全死穴”。该团队的做法是,在海龟的表面添加一层在人眼看来极像
是海龟龟壳和皮肤颜色的纹理图案。但实际上,这种纹理是很
巧妙地用由不断变化的来复枪图案组成的。即便是在变形干扰
的情况下,计算机还是能将来复枪的图案识别出来,而且其被
识别的可能性百分比远远超过海龟。尽管此前也出现过机器将
猫的图片错误地识别为鳄梨色拉酱,但将图片稍微倾斜后,结
果就恢复正常了。LabSix的贡献在于,无论从哪个角度看这只
海龟,算法始终都会确信它看到的是一支步枪。
该团队把一幅狗的图像逐像素转换为两个在斜坡上滑雪的
人,最终狗的图像在屏幕上完全消失了,但机器仍然将其识别
为狗。尽管不知道图像是如何被算法识别的(算法完全像是一
个“黑匣子”),但是他们还是设法去“欺骗”算法。
谷歌的研究人员创造了一种更适合算法口味的图像
——“神奇贴纸”,它会导致算法忽略图片中的其他内容。其
原理就是利用了算法会优先选择它认为对图像分类更重要的那
部分像素。算法用于人脸识别时,它会自动过滤掉大部分背景
像素,比如天空、草地、树木等。就是这一张小小的“贴
纸”,一旦进入镜头,它旁边那根黄色的香蕉在机器的眼里就
消失不见了。这种“贴纸”可以被标识为任意图像,比如一台
烤面包机。无论算法正在识别的是什么图像,一旦“贴纸”进
入机器的眼帘,它都会认为自己看到的就是烤面包机。这有点
像一条狗完全被一只球分散了注意力,它的所见所想就只剩下
了“球”,而其他的一切都从它的意识世界中消失不见了。先
前的算法攻击测试绝大多数都需要事先获取被攻击对象(即被识别的图像)的大致内容,但这张“神奇贴纸”却什么都不用
做——不管它试图干扰的图像里有什么,它都能正常工作。
人类不会轻易被这些黑客手段蒙骗,但这并不意味着我们
可以彻底的免疫。比如,魔术师们就可以利用人类大脑的潜意
识行为倾向,分散我们的注意力。这里有一个典型的例子——
著名的两队传球:如果要求观众计算其中一支球队的传球次
数,他们的注意力就会完全集中在球上,而看不到一个身穿着
球衣的男子走到球员跟前,猛击他的胸部后离开了。可见,不
仅算法存在视觉盲点,我们人类一样也有视觉盲点。
无人驾驶汽车所使用的也是视觉识别算法,很明显,这些
算法也可能受到类似的攻击。想象一下,一个停车标志上贴着
一张“神奇贴纸”,一个安检系统把枪错认为一只海龟……将
会发生什么?
我尝试在摄像头前做一些奇怪的、扭曲身体的动作,以对
Kinect算法进行测试,看是否会对其识别结果产生影响。事实
上,即便是训练数据中从未出现过的瑜伽动作,Kinect算法也
能高度准确地识别出我身体的各个部位。由于缺乏外部刺激,即人身体能够做出的所有动作基本都是固定的,所以这个算法
没有进一步“进化”。事实上,它也不需要进化,因为它正在
有效地完成人类交给它的工作。而其他的一些算法可能需要不
断适应新的变化,例如,算法若要给我们推荐喜欢看的电影、想读的书、想听的音乐,那么它必须是灵活的,足以应对我们
不断变化的审美品位,并要能启发人类的思维和智慧去生成创
造性的新潮流。这就是算法能够不断学习、完善并适应新数据的力量所
在。机器学习为其开辟了一个新篇章,即算法会像我们人类一
样成长并走向成熟。
[1] 指计算机。——译者注
[2] 即 Vision 网 站 , 网 址 为
https:cloud.google.comvision。——译者注
[3] LabSix是一个独立运营的人工智能研究小组,由麻省
理工学院(MIT)的本科生和毕业生组成。——译者注第6章 算法的进化
卡尔·荣格(Carl Jung)
知识不仅建立在真理之上,也建立在错误之上。
现代算法是可以自学的,尤其是推荐系统算法,它可以根
据每个人的喜好推荐有趣的东西给我们,比如说适合的电影、书籍、音乐,等等。算法通过与用户之间的交互过程,获取用
户的个人偏好信息,并从中学习进一步完善自身,发现其中的
关联关系,以便为下一位用户提供更优质的推荐信息。为了满
足自己的好奇心,我研究了其中一种算法,想知道它到底能有
多了解我。所以,在剑桥微软实验室测试Xbox游戏机所用的
Kinect视觉识别算法时,我顺便拜访了一位同事,想向他了解
一个实时推荐系统的算法原理。
该推荐系统的用户界面上随机排列了约200部影片,我要做
的是如果看到自己喜欢的影片,就把它拖放到屏幕的右侧。其
中的确有一些是我比较喜欢的影片。因为我是韦斯·安德森
(Wes Anderson)的超级粉丝,所以就把《青春年少》拖到了
屏幕右边。于是,屏幕中的影片位置自动调整,将我可能喜欢
的电影放到靠右侧的位置,而将我可能不太喜欢的电影放到靠
左侧的位置。仅仅通过一部电影是不足以训练算法的,所以大
部分尚未被分类的影片仍然停留在屏幕中间的区域。《王牌大贱谍》这部影片我觉得很无聊,属于我特别不喜
欢的类型,所以我就把它拖到了屏幕左侧的回收站里。这一操
作为算法提供了进一步学习所需的新信息,使屏幕中影片的位
置又进行了一次调整,我似乎能感觉到算法对自己提供的建议
很有信心:它将伍迪·艾伦(Woody Allen)的《曼哈顿》推荐
为我喜欢的电影。这部影片确实是我喜欢的,尽管算法是对
的,但此时它还没有给我特别多的惊喜。它可能觉得我会比较
喜欢《摇滚万岁》,所以将这部电影向右侧移动了。但事实恰
好相反,我不能忍受这部影片,所以我把它拖到了回收站里。
算法本来以为我会喜欢《摇滚万岁》,但事实上我不喜
欢,从这个过程中它获取到了重要的新信息。屏幕上的影片又
一次进行了重新排列,并且此次调整的幅度非常大。这是因为
系统后台的算法程序发生了微妙的改变——它根据我此次的选
择学到了更多的“新知识”,并微调了推荐系统的模型参数。
它判断我可能喜欢《摇滚万岁》这部影片的概率过高,所以通
过修正特定的参数来降低其值。虽然此前它从别的既喜欢韦斯
·安德森又喜欢《曼哈顿》的那部分影迷处得知,他们也喜欢
《摇滚万岁》这部电影,但这一条并不适用于我。
正是这种人机交互给算法提供了持续学习的新数据,使它
可以不断进行自我调整以适配我们的喜好。在当今社会,这些
算法在我们做出各种抉择时发挥了巨大作用:选择电影、音
乐、书籍,甚至伴侣,等等。如果你喜欢……
电影推荐系统的算法原理比较简单。假定你喜欢电影A、B和
C,而另一个用户也喜欢它们,但他还喜欢电影D,那么,D极有
可能也是你所喜欢的。当然,现实中数据之间的逻辑关系并非如
此简单。你喜欢电影A、B和C是因为这些影片里有你最喜欢的某
位演员,但他并没有出演D这部电影。而另一个用户之所以喜欢
A、B、C、D四部电影,是因为它们都是惊险刺激的间谍电影。
算法通过查看你所提供的信息,分析出你喜欢某类电影的原
因,进而会把你和那些曾经做出过相同选择的人匹配、关联到一
起。算法需要在大量的初始数据样本基础上展开工作,这一点跟
许多机器学习算法是相同的。机器学习的一个重要特点是,人类
必须参与到数据的分类过程中,以便让机器知道它所看到的到底
是什么。这种管理数据的行为为算法提取潜在信息的模式做好了
紧前准备。
算法在用户浏览影片库的行为过程中拾取关键特征值,如浪
漫爱情喜剧、科幻片,或者是某位演员、某位导演的作品。但
是,这种方法并不理想。首先,非常耗时;其次,分类的过程存
在不客观因素,计算机最终学会的是已知的知识,而不能发现新
的潜在趋势,从而导致计算机形成拟人态的思维定式。从最原始
的数据中学习并发现模式是训练算法最好的方式。
奈飞公司开发出自己的电影推荐系统后,在2006年举办了奈
飞大奖赛,期望通过竞争来发掘最优的算法。当时,奈飞公司已经积累了大量的电影评级数据,评分等级分为1~5星。于是,它
公开了一个包含100 480 507个元素的电影评级训练集合,这些
元素取自480 189个用户对17 770部电影的评价。然后,奈飞公
司将17 770部电影的名称替换为数字序号,即变为匿名状态。比
如,2666代表的可能是《银翼杀手》,也可能是《安妮·霍
尔》,或其他任何一部影片。只有用户给这部电影的评分是已知
的。
同时,奈飞公司还公布了一个包含2 817 131个元素的测试
集合。测试集合的用户对电影所做的评价是未知的,因此参赛队
提交的算法必须预测测试集合中所有的元素所对应的评价等级。
比如,根据已有的数据预测出用户234654对2666这部影片的评价
等级。重赏之下必有勇夫,奈飞公司宣布设立100万美元奖金作
为奖励,获奖条件是:以推荐效率提高10%的优势击败奈飞的自
有算法。附加条件是:获胜者必须公开自己的算法并授予奈飞公
司非排他性的许可,让奈飞公司有权使用这个算法向用户推荐电
影。
除了100万美元的终极奖项,大赛还设立了几个进步奖:将
上一年度成绩最好的推荐算法的效率提高至少1%的团队,将获得
进步奖50 000美元。该奖项每年度都会有,但领取奖金的前提条
件依然是需要公开算法的代码。
可能你会觉得从这样的数据里得不到有价值的信息,因为你
甚至不知道2666所代表的影片是喜剧片还是科幻片。事实上,原
始数据所蕴含的信息远比我们想象的要多。假设我们将每部电影
视为一个维度,所有影片就构成了一个17 770维度的空间,那么每个用户就可以被看作这个17 770维空间中的一个点。每一部电
影对应一个维度,用户对影片的评价越高,那么在该维度上此点
偏离原点的距离就越远。当然,除非你是一个数学家,不然把用
户看作17 770维空间中的点是很难想象的。实际上,我们可以把
高维空间看作三维空间的扩展。假定只有3部影片被评级,我们
可以用图形化的方式将用户与影片评级的关系表示出来。
假设电影1是《狮子王》,电影2是《闪灵》,电影3是《曼
哈顿》。某一用户对这三部影片的评级分别为1星、4星和5星。
用x、y、z轴表示用户对电影1、电影2、电影3的喜爱等级,建立
三维空间直角坐标系,如图6-1所示。这时,我们可以确定该用
户在坐标系中的位置是(1,4,5)。图 6-1
虽然在几何上无法绘制出17 770维空间以呈现用户在该空间
上的所在位置,但数学可以。如果能把用户看成17 770维空间中
的点,那么同样能把影片看作480 189维(用户数)空间中的
点,此时,如果用户对影片评价越高,那么在该维度上此点偏离
原点就越远。这些点分散在如此之大的维度中,很难发现其间存在的模式。因此,如果希望借助计算机找出数据中包含的信息,那么就需要降维处理。
这就好比一系列从不同角度得到的某人的头部剪影,其中一
些更具代表性,更容易辨识一样。比如,希区柯克
(Hitchcock)的侧影轮廓就比正面投影更易辨认。电影和用户
就像脸上一个一个的点,以一个角度投影,可能会看到这些点连
成一条线,而以另外的一个角度投影,则可能并不会发现有明显
的信息出现。
按照这个思路,我们或许能找到一种办法,将高维空间中的
电影和用户对应的点同时投射到一个二维平面上,这样用户对应
的点就会非常接近他喜爱的电影所对应的点。这种办法的巧妙之
处就在于,能够寻找到揭示影片、用户所具有的潜在特征的合适
投影。例如,图6-2是100个用户和500部电影匹配过后在二维平
面中的投影,所使用的数据均来自奈飞公司的数据库。代表用户
的点与代表影片的点很好 ......
The Creativity Code:How AI Is Learning
to Write,Paint and Think
(英)马库斯·杜·索托伊(Marcus du
Sautoy) 著
王晓燕 陈浩 程国建 译
ISBN:978-7-111-64714-0
本书纸版由机械工业出版社于2020年出版,电子版由华章
分社(北京华章图文信息有限公司,北京奥维博世图书发行有
限公司)在中华人民共和国境内(不包括香港、澳门特别行政
区及台湾地区)制作与发行。
版权所有,侵权必究
客服热线:+ 86-10-68995265
客服信箱:service@bbbvip.com
官方网址:www.hzmedia.com.cn
新浪微博 @华章数媒微信公众号 华章电子书(微信号:hzebook)目录
赞誉
第1章 洛夫莱斯测试
第2章 激发创造力
创造力教得会吗
第3章 向人类宣战
非凡的游戏男孩
首战告捷
精妙绝伦
人类的反击
山头还是主峰
第4章 算法,网络时代的生活秘诀
荒岛算法
数学,幸福婚姻的秘诀
书商之战第5章 从“自上而下”到“自下而上”
看还是不看
算法的幻觉
第6章 算法的进化
如果你喜欢……
如何训练算法
偏见和盲点
机器之间的战争
第7章 数字绘画
什么是艺术
生物的创造力
可视化编码
分形:大自然的代码
从“亚伦”到“绘画傻瓜”
第8章 站在巨人的肩膀上
复活伦勃朗创造力竞争
算法如何思考
算法就是一门艺术
第9章 数学的艺术
数学证明的游戏
数学的起源
证明的起源
第10章 数学家的望远镜
Coq证明助手
人脑的极限
沃沃斯基的愿景
第11章 音乐:声响的数学之旅
巴赫:首位音乐程序员
艾米:人工智能作曲家
模拟游戏:音乐图灵测试
“深度巴赫”:从头开始再生作曲家第12章 歌曲的创作公式
普希金、诗歌和概率
“续作者”:第一个人工智能即兴爵士作曲演奏者
“心流机”
量子作曲
人为何创作音乐
第13章 深度数学
Mizar的数学
数学图灵测试
巴别数学图书馆
数学寓言
意料之外的故事
数学的叙述艺术
第14章 语言游戏
《危险边缘》
“华生”的工作模式在翻译中迷失
机器人术语
受阻于“中文房间”试验
第15章 人工智能讲故事
如何在一个月内完成一部小说
哈利·波特和死亡波特尼克
假如……
伟大的“自动化”数学家
人工智能新闻
第16章 为什么要创造:思想的交流赞誉
艺术一直被认为是人类情感和创造力的产物,是AI无法企
及的高峰。本书系统而全面地呈现了在绘画、音乐、文学等领
域中AI算法的研究,充满了逻辑性和实证性,展示了多个突
破“图灵测试”的成果。对于AI研究者,这是一本AI艺术研究
的“全球旅游指南”。对于艺术家,这本书是客观了解AI能
力、利用AI技术提高创作效率和激发突破性创新的加速器。
英特尔中国研究院院长
宋继强
一本书读通AI算法的前世今生:从代数之父花拉子密到
DeepMind创始人,都在用数学驱动世界前进。本书通过剖析人
脑与AI各自的局限,打开数学、音乐、绘画和文学的奥秘之
门。人类的天才创造力跟数学息息相关,而创造力是进化的根
本动力。实际上,只有不断探索生物与机器算法的终极奥秘,才能最终打通大脑与AI的壁垒,世界也将迎来创造力指数级爆
发的新纪元。
新智元创始人
杨静
这是一本精彩绝伦的好书!被誉为牛津“科学大使”的索
托伊,将数学家、爵士乐手、作曲家、小说家、诗人、画家、软件工程师等人一系列创造行为的共同“原码”展现在读者面
前,这一“原码”是人类创造力的源泉,也是鉴赏和领略AI无
限魅力的金钥匙。这本书应成为每位关注AI的思想者的案头必
备。
“信息社会50人论坛”执行主席,苇草智酷创始合伙人
段永朝
这是一本解释和探究如何激发AI创造力的书。通过对当下
AI最新展示出来的与“创造力”相似的能力,本书反过来解释
什么是人类创造力,以及如何理解这种创造力在人类大脑中产
生的模式与结构。作者讨论的是最新一代AI的“极限”:它能
否拥有与人类相似甚至超越人类的创造力,并且帮助人类更深
度地理解我们所珍视和渴望的“创造力”可以怎样生成、保护
和提高。这就是当下“机器学习”在做的一些事情。作者运用
数学、概率学、心理学等多重视角,去试图理解从原始数据开
始慢慢学习的AI,是如何产生判断与决策的。对神经网络深度
学习的研究,让我们超越“AI或受制于人类逻辑指导的代码,或产生碾压人类的高级智能”这两个极端的二元对立,开始去
试验并尝试人类与AI之间相互学习、共同成长的方法与路径。
北京大学新闻与传播学院教授
吴靖
当今世界的风口浪尖非AI莫属。当AI的各种应用逐渐渗透
到我们生活中的时候,人们自然会对AI的演变与发展产生好奇。如果你对AI的工作机理有兴趣,我推荐你阅读英国皇家学
会和美国数学学会会士马库斯·杜·索托伊教授撰写的这本
《天才与算法:人脑与AI的数学思维》。在本书中,作者完全
未采用数学语言,却形象生动、通俗易懂地描绘了算法、数学
思维和艺术创作之间的关系,值得读者从艺术的视角细细品
味!
清华大学经济管理学院教授
肖勇波
AI可以从打砖块游戏和下围棋中发现妙招并战胜人类,AI
还可以用凡·高的风格作画,用巴赫的风格作曲……书中这些
进展让我亦喜亦悲。某一天,AI或许能够创造并教会我们参与
更加波澜壮阔的“游戏”;AI或许不再模仿,而是成为我们这
个时代的凡·高和巴赫!希望这一天来得晚一些。
电子科技大学互联网科学中心主任,教授
周涛
创造力是人类智慧最后的阵地,然而机器经过上亿次算法
的迭代也可能完成创造它的人类无法理解的艺术创作。《天才
与算法:人脑与AI的数学思维》带我们通向人类与机器共同创
造之路。
北京师范大学系统科学学院教授,集智俱乐部、集智学园(北
京)科技有限公司创始人张江第1章 洛夫莱斯测试
克劳德·德彪西(Claude Debussy)
艺术创造规则,而不是规则创造艺术。
“这台机器实在是太漂亮了!”17岁的阿达·拜伦[1](Ada
Byron)在参观查尔斯·巴贝奇[2](Charles Babbage)发明的
差分机模型时发出了这样的惊叹。
差分机是一种自动机械计算器,由大大小小的齿轮堆叠成
塔状结构,每个齿轮的轮齿上标记有数字,旁边装有一个手
柄。通过手柄的转动来驱动齿轮,在嘎吱嘎吱声中,差分机可
以自动完成比较简单的数学计算,比如平方、立方甚至平方
根……
受母亲及家庭老师的熏陶和培养,阿达从小就对数学和机
械有着极其浓厚的兴趣,长期关注并深入研究巴贝奇的设计构
想。数年后,已经嫁给洛夫莱斯伯爵的阿达决定与巴贝奇合
作,致力于分析机的研发。分析机不同于差分机,它是一种通
用的数学计算机,能力不局限于自动机械计算。阿达认为分析
机应该发展成一个可用符号来表示任何事物的装置,她还预言
分析机可以绘图、演奏音乐,甚至在其他科学领域也会有一些
建树。此外,她认为分析机将产生一种全新的“理想化科
学”,数学家将通过编程指挥机器去执行任务。她甚至预测,这台机器将能够“谱写”出属于科学家的“美妙乐章”。这些
连巴贝奇都没有想过。
现在的观点普遍认为,阿达所阐述的核心思想是向创造性
编码迈出的第一步,它启发着艾伦·图灵(Alan Turing)、马
文·明斯基(Marvin Minsky)和唐纳德·米基(Donald
Michie)等一系列先驱,并引发了席卷全球的人工智能革命。
阿达对机器能力保持着谨慎的态度:“分析机能做我们命令它
去做的任何工作,但不能创造;能分析,但不能预测。它的本
质是帮我们实现已知的事情。”阿达认为,分析机有其局限
性:输出(你所得到的)不会超过输入(你所投入的)。
多年来,这个观点已在计算机科学领域成为共识。它就像
一种心理暗示,让我们觉得“智能机器取代人类”绝对不可能
发生。也有人认为,想让机器拥有智能,前提是先搞清楚人类
的智能。
研究人类智能,在宏观上有心理学,在微观上有分子生物
学等学科,但每个方向在研究到一定阶段就会遇到瓶颈而停滞
不前了。没有任何一个学科能告诉我们:智能从何而来,怎样
才能产生智能。现在,即使我们已经了解了许多关于大脑的知
识,但人类智能仍然像是一个“黑匣子”。对这个“黑匣
子”的研究有两种方法:要么从外部观察其行为,模拟其结
构,我们称此为自上而下的研究;要么猜测其结构,从外部的
输入、输出验证其行为,我们称此为自下而上的研究。在计算
机编码的思维模式方面,人们逐渐从自上而下的方式向自下而
上的方式进行转变。究其原因,是因为自下而上的方式更有助于计算机寻找合适的“路径”去完成任务。事实上,我们根本
不需要搞清楚什么是智能,以及怎样才能产生智能,就可以让
算法在“数字之海”畅游。此外,算法还能像孩子一样学习成
长。机器学习所创建的代码甚至能够产生惊人的洞察力和决策
能力,可应用于医学图像精准识别及股票交易决策等领域。新
一代的程序员用实践证明了阿达·洛夫莱斯的预言是错误的
——输出可以大于输入!你可以获得比输入更多的东西。
尽管如此,我们仍然相信人类活动的某些领域是机器依然
无法触及并参与的,比如人类的创造力。人类以非凡的想象力
和创新力,创造出反映内心情感世界的艺术作品,进而拓展了
人类存在的意义。换言之,如果把人类智慧看成一种抽象意义
上的编码,那么艺术作品就是这段编码中情感的流露和表达。
这完全取决于人类的智慧。莫扎特的《安魂曲》暗含了对
死亡的思考;莎士比亚的《奥赛罗》含有对复杂情感的体会;
伦勃朗的肖像画所描绘的模特衣着和样貌,也蕴含着人物情感
的倾诉。机器的创造力怎么有可能取代人类,或者说去和莫扎
特、莎士比亚、伦勃朗这些艺术巨匠竞争呢?
需要声明的是,本书涉及的艺术主要源于西方文化,这主
要是因为这些绘画、音乐、文学作品都是我所熟知的。首先,我对自己以西方为中心的观点表示歉意。其次,跨越不同文化
背景目前仍存在巨大的挑战。因此,需要一个统一的标准来衡
量人类与计算机的创造力。从广义上来讲,人类的创造力不仅仅存在于艺术领域:鼎
鼎有名的肥鸭餐厅(米其林三星级餐厅)的主厨赫斯顿·布卢
门撒尔(Heston Blumenthal)的分子烹饪法,“荷兰飞
人”“巴萨教父”约翰·克鲁伊夫(Johan Cruyff)精湛绝伦
的足球技法,英国女建筑师扎哈·哈迪德(Zaha Hadid)美轮
美奂的建筑设计,匈牙利发明家、雕刻家、建筑学教授厄尔诺
·鲁比克(Ern? Rubik)发明的魔方,甚至游戏《我的世界》
的代码都应该被视为人类创造力的一部分。
在我所研究的数学世界里,创造也是重要的组成部分。创
造的吸引力是使我伏案数小时构思方程式、写出证明过程的重
要原因之一。经过漫长的酝酿、不懈的努力,灵感瞬间闪现,可以使我构思并绘制出一个新的对称结构。这个从无到有的过
程,给我带来纯粹的兴奋体验,而这正是创造力的魅力所在。
创造力是一种原动力,它驱使人们产生新的、令人惊讶
的、有价值的想法,并积极地将这些想法付诸实践。
创造出在表面上看似新的东西相对容易,比如我可以借助
计算机得到无数种关于对称性结构的建议方案。但这是在意料
之中的,不会令人惊讶,更无价值可言。若我发现的不仅是一
种新的对称结构,而且在群论与数论之间建立了关联,为探索
充满未知的数学世界提供了一种新的途径,那这就是它令人惊
讶的价值。
每当我们自以为预见到“故事的结局”时,就会突然被带
往下一个新的开始。这是一份值得我们充分关注的大惊喜。所以,无论是我还是其他任何人,在遇到偶然间的创造性行为
时,都会表现得异常兴奋、急迫和匆忙。
是什么赋予了事物价值?是价格还是别人的认可?价值是
相对的:我写的诗或画的画,在我看来是宝贝,在别人看来可
能一文不值;一部情节曲折的小说与能改变人们生活体验的文
学创作方法、建筑设计方案和音乐创作手法相比,其价值就显
得微不足道了。这就是伊曼努尔·康德[3](Immanuel Kant)所
说的“典型的原创力”——人类所独有的,能成为别人灵感的
原创性行为。
所有这些归根结底都是神经元活动和化学反应的产物,是
人类经过数百万年进化所形成的大脑的“代码”。科学家经过
长期的研究发现,这一过程是有章可循的。那么,人类创造力
的“算法”或它所遵循的规则是否会超乎我们的想象?
本书主要讨论新一代人工智能(AI)的“极限”:它是否
能拥有与人类相似甚至超越人类的创造力。机器同样可以画
画、创作音乐或小说吗?它也许无法与毕加索、莫扎特、莎士
比亚等大师相媲美,但它在创作故事、画画方面能否达到孩子
的创造力水准呢?对那些或打动人心,或平淡无奇的艺术作品
进行对比分析之后,机器能否学会创作?人工智能是否能帮助
人类提升创造力,从而帮助我们另辟蹊径?
创造力并不局限在艺术领域发挥作用,还广泛地在其他领
域起着不可比拟的作用。比如,我女儿用乐高积木搭建的城
堡;我儿子帮助他的球队赢得足球比赛后,被称为“富有创造力的中场球员”。我们在创造性地解决日常问题,创造性地管
理和组织团队。正如我将要在本书中阐述的,数学是一门极具
创造性的学科,它与艺术有很多共通之处。
创造的冲动是人类有别于其他动物的关键要素之一。但因
为人类更习惯去做重复性的日常工作,创造的“双翼”会被这
种惯性束缚而得不到激发。想要创造,我们必须走出思维定
式。或许此过程中机器会发挥作用,提出一些新的想法和建
议,以启发我们突破思维定式,防止我们陷入简单的重复。最
终,机器可能会帮助我们,而作为人类,我们应该表现得不那
么像机器。
你可能会有一点诧异:作为数学家的我为什么会带你踏上
了解机器创造力的旅程?原因很简单:算法、计算机代码、人
工智能、机器学习都是以数学为核心的。如果想了解掌控现代
生活的算法完成这些事情的内在机理,那么就需要理解支撑它
们的数学规则,否则就会在未来的生活中茫然无措。
人工智能正在向人类智能发起挑战,很多人类从事的工
作,人工智能也可以做,甚至做得更好。但本书的重点不在
于“无人驾驶”或“智能医疗”,而是去探索“机器编
码”与“人类编码”之间的竞争:计算机有创造力吗?有创造
力意味着什么?我们对艺术的情感反应中有多少属于大脑对模
式和结构做出反应的产物?
这不只是一个有趣的智力问答。艺术是人类大脑编码的一
种“输出”,通过它,我们可以更深入地了解复杂的人类大脑是如何工作的。计算机也是如此,我们将通过计算机“创
作”的艺术作品,了解计算机的工作机理。“程序员通常并不
真正理解最终的代码是如何工作的”,这是“自下而上”编码
方式面对的挑战之一。计算机创造的艺术像魔法师手中转动的
水晶球,透过它,我们可以分析计算机是如何做出决策,并预
知新代码在潜意识下的决策方向的。此外,它还可能揭示人类
尚不能完全理解的计算机代码中固有的局限性和危险性。
促使我踏上研究机器创造力旅程的另一个私人原因是,作
为一个数学家,我正在经历一场“生死存亡”的危机:随着人
工智能的发展,在未来几十年里,数学家的工作是否还会对人
类有价值?数学是一门关于数字和逻辑的学科,可这不是计算
机最为擅长的吗?
然而,数学不仅是数字和逻辑,也是一门具有高度创造
性,涉及美和美学的学科。这也是我反对计算机进入数学领域
的部分原因。我们在研讨会和期刊上分享的不仅仅是转动机械
手柄得出的计算结果。直觉和艺术敏感性是一名优秀数学家应
具有的重要特质,而这一特质永远无法编入机械计算的程序
中。那么,人工智能可以吗?
作为一名数学家,我想知道新一代人工智能进入世界各地
的画廊、音乐厅和出版社后,会有多么成功?伟大的德国数学
家卡尔·魏尔斯特拉斯(Karl Weierstrass)曾经写道:“不
具备诗人气质的数学家,永远不会成为真正的数学家。”正如
阿达·洛夫莱斯完美概括的那样:你需要调和,配方中要有一
些拜伦的艺术风味,也需要一些巴贝奇机械的成分。虽然她认为这些由齿轮构成的机器能做的事情是有限的,但她同时也意
识到它们在表达艺术特质方面的潜质:
它们可能会应用于数字以外的其他事物……例如,音乐中
的和声布局,作曲的旋律安排,根据需要进行改编。分析机可
能会生成任意复杂程度、精细程度的音乐作品。
阿达坚信,任何创造性的行为都取决于程序员(人),而
非机器。但新一代的程序员则不这么认为,他们觉得“代
码”也能胜任创造性的工作。
在人工智能诞生之初,艾伦·图灵就提出了评价计算机智
能的测试方法。这里,我想提出一个新的测试方法——洛夫莱
斯测试。通过该测试的规则是,算法需要创作一件艺术作品,人类程序员无法解释该算法的工作机理,但整个过程是可复现
的(以排除因硬件错误产生的结果)。我们希望机器创造新
的、令人惊讶的、有价值的东西。然而,对真正具有创造力的
机器,还需要额外增加一条:具备超越程序员或数据集创建者
的创造力。这也是阿达·洛夫莱斯所说的“难以克服的挑
战”。
[1] 英国数学家,计算机程序创始人,被称为“软件之
母”。她是著名英国诗人拜伦之女,结婚后被称为阿达·洛夫
莱斯(Ada Lovelace)。——译者注
[2] 英国数学家、发明家、计算机先驱。——译者注
[3] 德国作家、古典哲学创始人。——译者注第2章 激发创造力
巴勃罗·毕加索(Pablo Picasso)
理智是创造力最大的敌人。
现代人非常重视创造力。许多思想家、作家都曾在著作中
对创造力与其重要性,以及如何激发创造力进行过阐述。在英
国皇家学会(Royal Society)一次主题为“机器学习如何影响
未来”的委员会议上,我认识了认知科学家玛格丽特·博登
(Margaret Boden),并了解了她的观点和理论。我认为她对
机器创造力的定位和评价是最中肯、最贴切的。
博登是一位独具慧眼的科学家,她的研究涉及哲学、心理
学、医学、人工智能、认知科学等领域,并能将其很好地融会
贯通。80多岁高龄、满头银发的她,老当益壮、精神矍铄,依
然拥有着异常活跃的思维,满怀热情地参与到关于这些“锡
罐”(博登对计算机的称呼)未来前景的研究和讨论当中。博
登将人类的创造力归纳为三种:探索型创造力、组合型创造
力、变革型创造力。
探索型创造力是探索已知事物的外部边界,在保持规则约
束的同时扩展其可能的极限。巴赫的音乐创作在巴洛克时期是
登峰造极的,他的复调作品通过多旋律、不同调性的应用探索
音乐的世界。巴赫的前奏曲和赋格曲在调性、和声对位技巧的
运用等方面涉及了所有的可能性,突破了巴洛克音乐创作的藩篱,为以莫扎特和贝多芬为代表的、由单一旋律支配的主调音
乐为主流的古典主义奠定了坚实的基础。雷诺阿(Renoir)和
毕沙罗(Pissarro)的画作,重构了我们具象化的自然及周围
的世界。克劳德·莫奈(Claude Monet)彻底打破了古典主义
审美(高完成度)和印象审美之间的界限——他喜欢极多层次
的堆叠,画作色彩饱和,纯度极高。莫奈使用厚涂法为细小的
区块着色,一遍又一遍地绘制《睡莲》[1],直到色块融入一种
新的抽象思维形式——运用纯色的、感性的笔法来分解光与色
的区块,消除了古典主义画风的阴影和死板的轮廓。
数学是探索型创造力的狂欢,“有限单群分类”是它的力
作之一。从对称性的简单定义(4个基本性质)开始,数学家用
了150年的时间,列出了所有可能的有限单群,并最终发现“大
魔群”——其元素数量超过地球上所有原子的总数,是最大的
散在单群。数学创造力在挑战极限的同时,又必须遵循游戏规
则。就像一名闯入秘境的探险家,仍然不能完全摆脱地球的束
缚。
博登认为,人类97%的创造行为属于探索型创造行为。计算
机的运算速度远胜人类,所以用“穷举”或“暴力破解”的方
法求取一组模式或规则的极限也是它最擅长的。但其结果均在
情理之中,并无意料之外的惊喜,不能算真正意义上的创造。
第二种创造力是组合型创造力。将两种完全不同的结构或
理念结合起来是艺术家惯用的创作手法,某领域特定的规则会
为其他领域构建出新的框架。组合,也是数学领域里一个非常
强大的创新工具。庞加莱(Poincaré)提出的关于探寻宇宙形状的猜想,最终也是运用不同领域的工具(微分几何学、热力
学)来证明的。格里戈里·佩雷尔曼(Grigori Perelman)的
创造性工作,让我们意识到液体在表面上的流动方式能够对可
能存在的表面进行分类(他创造性地运用微分几何学的知识,解决了庞加莱猜想)。
我的研究就是将数论中分析素数的方法运用于探索可能的
对称性分类。数字与几何对称性乍看起来毫无联系,但如果用
对称元代替素数,再运用这种探索素数之谜的“语言”进行分
析,就可以获得关于对称性理论令人惊讶的新发现。
这种“组合”也极大地促进了艺术的创新。菲利普·格拉
斯[2](Philip Glass)在与拉维·香卡[3](Ravi Shankar)的
合作中获得了灵感,在作品中融入了多种不同风格的音乐元
素,最终形成了他独具一格的创作风格:“简约音乐”。扎哈
·哈迪德在她所钟爱的俄国画家卡西米尔·马列维奇(Kasimir
Malevich)的启发下,形成了独特的“曲线美”建筑设计风
格,甚至烹饪界久负盛名的大厨也常常在美食的创新中融合世
界各地不同的烹饪风格。
一些有趣的迹象表明,组合型创造力也可能完美适合人工
智能世界。比如,蓝调音乐与布列兹(Boulez)的奇特组合可
能会打开声音新世界的大门,当然,也可能会生成一种不和谐
甚至刺耳的噪声。这就需要程序员找出某种有趣的方式、方法
来融合两者了。博登归纳的第三种创造力更加神秘和难以捉摸,被称为变
革型创造力。这种创造力是完全改变游戏规则的创新。每种艺
术形式都有这种创造力的体现,比如毕加索的立体主义绘画、勋伯格[4](Schoenberg)的无调性音乐、乔伊斯·卡罗尔·奥
茨(Joyce Carol Oates)的现代主义小说,等等。这类似于水
突然从液态转变为气态的物理学相变。就像歌德描述他创作
《少年维特之烦恼》的那两年时光时所说的,他脑海中突然闪
现出一个画面(某种刺激激发的偶然事件):那一刻,维特的
计划落空了;仿佛有子弹从四面八方而来,汇聚成团,就像瓶
中的“过冷水”,受到轻微的震动即刻成冰。
在多数情况下,变革型创造力需要彻底打破游戏规则,或
者抛开前人已做的努力。很多规则乍看起来似乎已经很难突
破。比如,任何数的平方都是正数,所有分子都是长线型结构
而不是链结构,音乐的创作必须要建立在和声音阶的结构中,脸的两侧都长着眼睛。但激发变革型创造力的“元规则”就是
打破常规,去掉约束,看看到底会出现什么。艺术这种创造性
行为就是通过打破已有规则或者引入新规则,最终得到了一个
全新的、有价值的作品。
“–1的平方根”的引入,是16世纪中叶数学界一个很典型
的变革型创新。笛卡尔将其称为虚数(虚暗含不存在的意
思),这个称谓沿用至今,可许多大数学家都不承认虚数的存
在。但事实证明,虚数与已有的数学理论并不矛盾。如果给计
算机预设了负数不存在平方根的规则,那它就不可能建立–1平方根的概念。真正的创造性行为有时需要打破常规,创造一个
新的现实世界。这能否通过一个复杂的算法来实现呢?
浪漫主义音乐的出现在许多方面都打破了巴洛克风格、古
典主义音乐创作的常规。像舒伯特(Schubert)这样的新秀没
有沿用古典主义作曲家推崇的不同主调之间对位与平衡的技
巧,而是刻意选择了出人意料的方式进行调式的运用。舒曼
(Schumann)没有采用海顿(Haydn)或莫扎特一般四平八稳的
和弦进行创作。肖邦(Chopin)在他不同寻常的重音段落和扭
曲的节奏里创作出密集的半音跑动,在节奏上让人们大吃一
惊。从中世纪到巴洛克风格,到古典主义,再到浪漫主义;从
印象派到表现主义,再到……音乐时代的更迭,是打破原有常
规的过程:后来者都要参考前者才能展现它的创造性。毋庸置
疑,历史背景在我们定义新事物时起着重要的作用。创造力不
是绝对的,而是相对的。我们在我们所在的文化和参照系内具
有创造性。
计算机的出现能否启动“相变”,激发创造力,将我们带
入全新的音乐或数学世界呢?这可能很有挑战性。算法根据数
据间的交互关系自主学习,难道就不会产生更多相同的事物
吗?
正如毕加索所说:“理智是创造力最大的敌人。”从表面
上看,这或许有悖于机器文明。但是,通过编程创建一个“元
规则”,指导机器改变路线,最终产生“非理性”的行为,这
是机器学习非常擅长的。[1] 莫奈的《睡莲》系列,1897~1926年共画了181幅。
——译者注
[2] 美国作曲家。他的创作融合了摇滚乐、非洲与印度音
乐、西方古典音乐的元素,作品经常重复简短的旋律和节奏模
式,同时加以缓慢渐进的变奏,被称为“简约音乐”。——译
[3] 印度著名演奏家、作曲家,在把印度音乐推向西方世
界的过程中起到先驱的作用。——译
[4] 20世纪初奥地利表现主义作曲家,新维也纳乐派的核
心人物。表现主义音乐反对印象主义注重描绘客观事物的外
在,而注重表现人的内在真实,以抽象、夸张、扭曲、怪诞的
手法,用刺激、不和谐的音响来写人们心中的孤寂、恐惧、绝
望甚或疯狂。——译者注创造力教得会吗
许多艺术家喜欢夸大其词,将他们获得创作灵感的过程说
得神乎其神。在古希腊,诗人被认为是缪斯女神的附身,是缪
斯将灵感注入诗人的心灵,使诗人达到一种几近疯狂的状态。
柏拉图也曾说过:“诗人是神圣的,只有当他受到神的启发而
失去理智时,才能创作。没有神之大能的指引,就没有艺
术。”著名的印度数学家拉马努金(Ramanujan)将他的伟大发
现归功于其所信奉的印度教的娜玛卡尔女神,认为娜玛卡尔女
神在睡梦中的指引使他获得了灵感。创造力是一种“疯
狂”吗?或者说它真的是神的恩赐吗?
卡尔·弗里德里希·高斯(Carl Friedrich Gauss,我心
目中的数学英雄之一)最不善于表述促使他产生创造性思维的
灵感来源。高斯于1801年[1]发表了其一生中最伟大的著作《算
术研究》(Disquisitiones arithmeticae)——被誉为现代数
论的开山之作。当人们想要通过阅读这本书来找寻他独特见解
的来源时,他们备感无力。由于全书包含七部分内容,所以该
书被大家风趣地称为“加了七道封印的巨著”。没有人真正知
道高斯的“魔力”是如何产生的,他就像魔术师从帽子里变出
一只接一只的兔子一样。受到质疑时他反驳道:“房子建成
后,建筑师们也不会把脚手架丢到工地上。”像拉马努金一
样,高斯把自己的成功部分归功于“上帝的恩典”。他说
道:“这条线将我所知道的和使我成功的因素联系了起来,但
我很难说清楚它到底是什么,也弄不明白它的本质是什么。”大师们可能无法阐明他们的想法来自何处,但这并不意味
着他们没有遵循规则。艺术是构成潜意识思维过程的无数
个“逻辑门”的意识表达。当然,高斯的想法也可以通过一条
逻辑线索得到解释:也许他确实不具备清楚表述自己创造思维
过程的能力,也许他只是想保持神秘以维护自己创造性天才的
形象。柯勒律治(Coleridge)曾表示服用鸦片酊后的睡梦联
翩,是诗歌《忽必烈汗》的创作之源。可惜的是,这个梦境被
一个来自波洛克的人的突然造访而打断了。[2]当然,这是一个
很好的故事。但这一说法也掩盖了其创作过程中的所有前期准
备——长期以来孜孜不倦的努力。即便是我自己,对创造过程
的描述也只关注灵感的闪现,而不是多年的辛勤努力。
人们习惯于把富有创造力的天才传奇化。坦白地说,孤独
的艺术家闭门造车是一个神话。在绝大多数情况下,创造是日
积月累的过程,而非一步登天。英国音乐家布莱恩·伊诺
(Brian Eno)创造了“场天才”(scenius)这个术语,矛头
直指“天才”(genius)。他认为群体所构成
的“场”(scene)能够激发创意,帮助创造者走向成功。美国
作家乔伊斯·卡罗尔·奥茨对此表示赞同:“创造性工作就像
科学工作一样,应被视为一种集体的努力——一种个体发出多
种声音的尝试,一种综合、探索和分析的尝试。”
怎样才能激发创造力?编程能激发机器的创造力吗?有没
有什么办法或规则可以让我们变得更加富有创造力?换句话
说,创造力是一种可以后天培养的技能吗?有人会说,教授知
识或编写程序都只是为了使人或机器学会模仿并按照规则做事,这与创造大相径庭。然而,我们身边有许多相反的例子:
有创造力的个体通过不断地学习,最终改进了他们的技能。通
过行为的研究和模仿,我们最终能成为有创造力的个体吗?
每个新学期伊始,我都会问我的学生这样的问题。数学专
业的博士生必须创建一个新的数学结构才能获得学位,即他们
必须做出前人未做出的事。我的职责就是教他们如何做到这一
点。即使答案已了然于胸,解决问题仍需要个人的创造力。
当然,他们已然受过一定程度的训练,这些训练是进入未
知世界的绝对的先决条件。通过学习他人如何实现突破,可以
为自己的创造力找到一个适合的环境来扎根、发芽。但这不能
保证创造力的种子就一定能萌发。有些人能在某个领域拥有极
佳的创造力,而在别的领域却不行。我不可能从大街上随意选
一个人带走,然后教他成为一个富有创造力的数学家。也许经
过十年的训练他可以做到这一点,但并非每个大脑都能拥有数
学的创造力。究竟是什么让一个人成为国际象棋冠军,而另一
个人却成为诺贝尔文学奖得主,这一点很是令人费解。
博登认识到,创造力不仅仅是如何成为莎士比亚或爱因斯
坦。她定义了“心理创造力”和“历史创造力”,并明确了它
们之间的区别与联系。自我创造力的实现结果对个体来说可能
是全新的,但纵观历史其实已算是“明日黄花”,这就是心理
创造力的概念。通过个人创造力的反复实践,最终创造出一些
史无前例的、有价值的东西,这就是历史创造力的体现。虽然
极其罕见,但它对心理创造力起到很好的激发和鼓励作用。遵循博登提出的三种创造力策略是我激发学生创造力的秘
诀。“探索”是最显而易见的途径。首先要了解我们是如何走
到今天这一步的,然后试着进一步突破这个界限。这需要对已
有的知识进行深入了解。在深入探究的过程中,可能会发现一
些以前未被发现的事物。创造行为是一个循序渐进的过
程,“大爆炸”这种状况很少发生。就像凡·高(Van Gogh)
所说的:“伟大的成就不是靠一时冲动就能实现的,它是一系
列小事的日积月累。”
博登的第二种策略——“组合”,是激发新想法的有力武
器。我经常鼓励学生参加研讨会,阅读那些似乎与他们所研究
的问题无关的论文。来自数学不同领域的研究策略可能与他们
所研究的问题产生共鸣,从而激发出新的想法。当今,科学界
一些最伟大的创造都发生于不同学科的交叉领域。越能突破自
己的圈子,分享自己的想法和问题,就越有可能获得更多的创
造力。这就是“最容易摘到的果子”。(免费书享分更多搜索@
雅书.)
表面上看,“变革”是一种很难驾驭的创造力激发策略,但我们的目标是通过去掉一些已有的限制来对现有的知识体系
或架构进行测试和分析。如果改变一些已被普遍接受的学科结
构的基本规则,试试看会发生什么?这种方式是极具危险性
的,因为撼动系统的基石很可能会导致整个系统的崩塌。但
是,这让我想到培养创造力所需的另一个最重要的因素
——“接受失败”。除非你做好了失败的准备,否则就请你不要去冒那些会让
你突破自我、创造新事物的风险。教育系统和商业环境两个领
域非常痛恨失败,这对创造力的激发有害无利。对我的学生来
说,庆祝失败与庆祝成功同等重要。当然,失败不会被写进博
士论文,但我们可以从中学到很多。与学生见面时,我经常重
复地说贝克特(Beckett)的那句至理名言:“失败,再次失
败,却是以更好的方式失败。”
这些策略可以编写进计算机代码吗?在过去,自上而下的
编码方式意味着代码的输出结果几乎不会出现创造行为。程序
员们从未对其算法产生的结果感到惊讶,因为一切都是意料之
中的事情,没有试验或者失败的可能性。但最近这一切都改变
了:因为一种可以“从失败中吸取经验教训”的代码出现了,它前所未有的举动震惊了它的创造者,这说明它具有不可估量
的价值。该算法赢得了一场此前大多数人认为机器无法精通和
掌握的比赛,因为这是一场需要创造力的“游戏”。
该代码的突破性,引发了我作为数学家的生存危机。
[1] 原文年份有误,翻译时进行了更正。——译者注
[2] 柯勒律治因身体欠佳避居乡间,一日他正在批阅萨缪
尔·珀切斯的《珀切斯朝圣记》,读到书中关于忽必烈上都的
文字时,身体忽感疼痛,便遵医嘱服食少量鸦片酊,很快就睡
意昏沉,坠入梦乡。他在梦中见到了忽必烈的夏宫,并创作了
长达两三百行的诗。醒后柯勒律治神思恍惚,但梦中的意向和
所写的诗句仍历历在目,于是他奋笔疾书。可就在这时,一个来自波洛克的人因事来访,他不得不被对方耽搁两个多小时。
待返回自己的房间后,他又惊又愧地发现,尽管自己对灵视所
得还有一个模糊朦胧的印象,可除了八九十行散落的诗句,其
余的诗句已在脑海中悉数消失了。——译者注第3章 向人类宣战
保罗·克利(Paul Klee)
我们在持续重构世界秩序,直觉始终被尊崇。
人们经常拿数学与国际象棋做比较,认为两者之间存在着
某种联系。尽管1997年计算机“深蓝”(Deep Blue)击败了顶
尖国际象棋手,但机器取代数学研究机构还言之尚早。下国际
象棋与数学的形式化证明颇有相似之处,但学者认为中国围棋
的思维方式更能够体现数学家思考的创造性和直觉力。
我在大学本科期间访问剑桥大学数学系时首次接触了中国
围棋。当时,我正在考虑在攻读博士学位期间,是否能与完成
有限单群分类(对称结构的元素周期表)的科研团队合作。当
我和该项目的两位创始人约翰·康威(John Conway)、西蒙·
诺顿(Simon Norton)高谈阔论、展望数学的未来发展时,邻
桌的学生们正在玩一种我没见过的棋盘游戏,清脆的落子声不
时将我的思路打断。
我忍不住好奇,问康威:“他们在干什么?”他告诉
我:“他们在下中国围棋,这是一种古已有之的益智游戏。围
棋的规则非常简单,是一种相互争夺地盘的游戏,对弈双方按
黑白交替的顺序将棋子落在棋盘格线的交叉点上,想方设法用
自己的棋子围困住对方的棋子,直到将其吃掉。比赛的胜负主要以吃掉对方棋子数量的多少来评定。围棋最精妙的地方就在
于,当你围吃对手棋子时必须避免自身不被围吃。”
围棋很像数学,可以在相当简单的规则下形成精妙绝伦、错综复杂的推理。某一天,因缘际会,这两位数学家边喝咖啡
边观看围棋比赛,突然地灵光一现,康威在棋局演变的启发下
创立了新的数字系统“超现实数”。
我一直着迷于各类游戏,每次外出旅行时都喜欢学习当地
流行的游戏并将其带回家。所以,从剑桥回到牛津后,我就去
玩具店买了一副围棋,想要研究一下学生们沉迷于它的原因。
和牛津的同学下了一段时间的围棋后,我逐渐了解到它的妙趣
所在。随着棋盘上的棋子越来越多,棋局变得越来越复杂,以
至于很难找到一种一眼看去就了然于胸的制胜策略。国际象棋
与围棋相比,则是随着棋子一个个被吃掉,棋局变得越来越简
单。
据美国围棋协会(American Go Association)估计,围棋
的可能走法数量是一个大约有300位的数字。而计算机科学家克
劳德·香农(Claude Shannon)估计的国际象棋走法数量约为
120位(称为香农数)。这两个数字都非常庞大,它们直观反映
了两种棋类游戏所有可能的走法。
我在幼年时期经常与人下国际象棋,很喜欢推演棋步。这
种思维训练逐渐激发了我的数学潜质。国际象棋的行棋步骤以
一种可控、有序的方式逐级建立分支,最终形成一个包含各种
可能性的树状结构,计算机甚至人类都可以根据逻辑规则逐级分析不同分支的蕴含关系。相较之下,围棋就不是一种易于推
算下一步行棋对策的游戏了,我们很难建立围棋行棋可能性的
树状图。围棋棋手推演下一步落子策略的过程似乎更依赖于自
身的直觉判断。
人类的大脑可以敏锐地捕捉到视觉图像所呈现出的结构和
模式,所以围棋棋手可以通过观察棋子布局来推断棋势,然后
得出下一步的应对策略。但是,计算机实现视觉处理却是几十
年来一直困扰工程师们的重大技术难题之一。
人类大脑的视觉结构处理能力作为一种基本的生存技能,经过数百万年的进化已经变得高度发达。任何动物的生存能力
在一定程度上都取决于它在形态万千的自然界中对不同结构图
像的识别能力:原本平静的丛林之中激起的一丝混乱,极有可
能预示着另一种动物的潜入。这类敏感信息备受动物们的关
注,因为它关系到自己会成为猎物还是猎食者,这就是大自然
的生存法则。人类的大脑非常擅长识别模式并预测它们的发展
方向,同时做出适当的反应。这是人类的宝贵财富,此外,它
还关系到我们对音乐和其他艺术的鉴赏能力。
对模式的识别也恰恰是作为一名数学家的我探索“数学丛
林”这片充满未知的领域的重要工具。只在局部环境中按部就
班地进行逻辑分析走不了太远,必须与发现“可能存在物”的
直觉相结合才有可能取得显著的突破。而这种直觉正是长久以
来通过对已知领域的观察和探索而建立的。通常,很难从逻辑上去解释你所感兴趣的领域为什么具有
研究价值。有些数学猜想虽然未得到证明,但提出猜想的数学
家经常能感觉到在他的论述中暗含着某种真理。正因为如此,当我们在“丛林”中摸索前行,寻求一条新的道路时,观察和
直觉是相辅相成的。
善于提出好的猜想的数学家比善于证明猜想的数学家更值
得尊敬。如果把围棋棋局中赢棋的最后一步落子位置比作一种
猜想,那么证明猜想的过程就是行棋的过程,在这个过程中寻
求赢棋的模式是非常困难的。
因此,尽管国际象棋有助于解释数学的某些特性,但围棋
游戏所蕴含的智慧与数学家们在实际工作中的思维方式更为接
近。这就是为什么当“深蓝”击败人类顶级的国际象棋大师
时,数学家们并不感到意外。因为,围棋才是计算机的真正挑
战。
几十年来,人们一直认为计算机无法穷尽围棋里的各种变
化,计算机永远都无法下好围棋。所有想要创新的程序员都挑
战过这个命题,但即使是一个初级的棋手似乎也能轻松胜过最
复杂的计算机算法。所以,数学家们还可以躲在围棋这块“遮
羞布”后面沾沾自喜:如果计算机下不了围棋,那么就意味着
它没有机会挑战更加古老和精妙的“游戏”——数学。
束缚我们认知的障壁,会在计算机技术日新月异的发展中
被瞬间攻破。非凡的游戏男孩
2016年初,某公司发布了一款围棋程序,并宣称该程序能
与世界上顶级的人类棋手较量。鉴于过去的挑战都以失败告
终,围棋爱好者们对此事均持怀疑态度。因此,该公司提出组
织一场人机围棋对抗赛来证明自己所言非虚。此次比赛是公开
赛,且奖金丰厚,采用五番棋赛制,人类如果获胜,将得到100
万美元的奖金。来自韩国的世界冠军李世石(Lee Sedol)接受
了挑战。这个计算机程序就是AlphaGo。
AlphaGo是戴密斯·哈萨比斯(Demis Hassabis)智慧的结
晶。哈萨比斯1976年生于伦敦,父亲是希族塞人,母亲是新加
坡人。用哈萨比斯的话说,他的父母都是教师,也都是波西米
亚式[1]的技术恐惧症患者。他的弟弟和妹妹都走上了创作之
路,一个成为作家,另一个成为作曲家。所以,哈萨比斯搞不
清楚他的科学“极客”潜质遗传于何处。早在童年时期,哈萨
比斯就显露出自己的天赋,尤其在游戏方面。11岁时,他的国
际象棋排名就已经位列同龄段世界第二了。
在列支敦士登参加一场国际巡回赛时,哈萨比斯的脑海中
突然闪现出这样一个念头:“在偌大的比赛大厅里,几百名来
自世界各国的顶尖棋手正对着这个伟大而逻辑复杂的游戏积极
思索。他们究竟在干什么?”哈萨比斯有一种顿悟的感觉,他
意识到了这样的游戏完全是劳而无功的。后来,在英国广播公
司(BBC)的采访中,他承认当时在想:“我们是不是在浪费大
脑,因为这个级别的比赛选手都是顶尖的,为什么不用我们的脑力去做点更有意义的事情呢?比如解决癌症问题,或是找到
其他疾病的治愈方法,那样不是更好吗?”
在与他的对手——成年的荷兰世界冠军激战10个小时后,哈萨比斯以微弱的劣势输掉了比赛。赛后他宣布自己将不再参
加国际象棋比赛,这让他的父母非常震惊,因为所有人都以为
这将是他的未来。但下棋的那些年他也收获颇丰,比如他用击
败美国对手亚历克斯·张(Alex Chang)赢得的200英镑奖金,购买了人生中的第一台电脑ZX Spectrum。正是这台电脑促使他
产生了要让机器学会思考的想法。
哈萨比斯很快又升级了他的装备——一台由康懋达
(Commodore)公司发布的、著名的Amiga计算机[2]。闲暇之时
他在这台电脑上编程,开发喜欢的游戏。对当时的他而言,开
发国际象棋程序还太过复杂。因此,他开发了一款游戏——奥
赛罗(Othello),并取得了成功。奥赛罗是一个黑白棋游戏,当某种颜色的棋子困于相反颜色的棋子之间,其颜色就会反
转。这个下里巴人的游戏没办法登上大雅之堂,因此也就没有
专业的高手关注和挑战,哈萨比斯只好找他的弟弟来测试程
序。结果是程序百战百胜。
该程序采用经典的“如果……那么……”选择结构设计,需要编写代码以应对对手的每一个动作,比如对手走了“那一
步”,就用“这一步”回击。所有的创造力均来自哈萨比斯本
人对于赢得比赛的预判能力。犹如魔法师的徒弟掐诀念咒一
般,只要代码编写正确,计算机程序就可以毫无悬念地取得胜
利。看过杰夫·高布伦(Jeff Goldblum)主演的电影《生命的
故事》(又名《双螺旋竞赛》)后,哈萨比斯对剑桥大学非常
向往:“这真的是在剑桥发生的事吗?就在附近的小酒吧里提
出DNA双螺旋学说,这简直太酷了!”所以,在16岁那年,他就
向剑桥大学提出申请,想成为一名攻读计算机科学专业的学
生,而跟他同龄的其他人此时还在辛苦地学习高中课程。
虽然剑桥大学破格录取了他,但由于年龄太小,学校要求
他晚一年入学。为了打发时间,哈萨比斯参加了英国游戏杂志
Amiga Power举办的游戏设计大赛并获得了二等奖,也因此得到
了去游戏开发公司工作的机会。在那里他开发了一款新游
戏“主题公园”,玩家可以打造并经营自己的主题公园。这款
游戏获得了巨大的成功,不仅销售量达到了数百万套,还获得
了“金摇杆奖”。哈萨比斯也因此赚到了足够多的钱以供自己
上大学使用,之后他便动身前往剑桥。
在剑桥学习的时光里,哈萨比斯领略了人工智能领域伟大
的科学家艾伦·图灵的风采,知晓了他著名的图灵智能测试;
了解了亚瑟·塞缪尔(Arthur Samuel)和他的跳棋程序;提
出“人工智能”这个概念的约翰·麦卡锡(John McCarthy)以
及弗兰克·罗森布拉特(Frank Rosenblatt)和他的第一个神
经网络试验。哈萨比斯渴望站立于巨人的肩膀之上,在人工智
能领域有所建树。可是在课堂上教授却反复强调:“围棋极具
创造性和直觉性,计算机永远下不好围棋。”这对年轻的哈萨
比斯来说就像斗牛比赛中那块猩红的斗篷,激起了他的斗志。所以,当他从剑桥毕业时,他决心通过自己的努力来证明教授
的言论是错误的。
他的想法是,与其编写一个会下围棋的程序,不如编写一
个通用性的“元程序”,它可以用于编写出会下围棋的程序。
这或许有点不可思议,但重点是“元程序”在实现以后将具有
模式学习能力,随着经历的棋局越来越多,该程序会在下棋过
程中自我学习,不断地从错误走法中总结经验并加以改进。
哈萨比斯了解到人工智能研究员唐纳德·米基(Donald
Michie)在20世纪60年代就实现了类似的想法。米基编写了一
个名为“MENACE”的算法,该算法可以零基础学习玩井字棋游
戏的最佳策略(MENACE代表导出〇和×策略的引擎)。为了验
证该算法,米基用304个火柴盒代表〇和×所有可能的布局;每
个火柴盒里都装满了不同颜色的球,代表可能发生的动作。球
被移走或加到盒子里,用以处分失误或肯定胜利。随着积累的
游戏经验越来越多,重新分配球的过程最终产生了几乎完美的
游戏策略。哈萨比斯打算借鉴这种从错误中改进策略的思路来
训练下围棋的算法。
哈萨比斯为算法的实现精心设计了一个巧妙的模型。新生
儿的大脑并没有预先设定应对生存挑战的方法,但他们会通过
不断学习来强化自我,根据环境的变化做出适当的调整。
哈萨比斯打算研究人类的大脑是怎样学会解决问题的方法
的,因为他觉得了解大脑的工作原理有助于实现自己创建一个
会下围棋的计算机程序的梦想。因此,他去伦敦大学学院(UCL)攻读了神经科学博士学位。在试验工作闲暇之余,哈萨
比斯与神经学家谢恩·莱格(Shane Legg)交流过创办一家实
现自己想法的公司。尽管当时人工智能的学术地位很低(甚至
在十年前,他们都不曾向教授们表露过想要投身于人工智能事
业的想法),但他们仍然觉得自己正在从事一项伟大的事业。
2010年9月,这两位科学家与穆斯塔法·苏莱曼(Mustafa
Suleyman,哈萨比斯从小一起长大的好友)三人创建了公司,即DeepMind。
在DeepMind成立之初,筹集所需的资金异常困难,因为大
多数投资人都认为投资一个研究“人工智能玩游戏”的项目太
不靠谱。只有埃隆·马斯克(Elon Musk)、彼得·蒂尔
(Peter Thiel)等极少数的投资人看好这家公司的前景并注入
了资金。蒂尔从未给硅谷以外的公司投资过,他试图说服哈萨
比斯把公司搬到美国西海岸,以便更好地发展。但哈萨比斯是
土生土长的伦敦人,他坚信家乡还有很多能够壮大自己事业的
人才未被发掘。哈萨比斯还记得他与蒂尔的律师的一次针锋相
对的谈话——蒂尔的律师讥讽地问道:“伦敦有关于知识产权
保护的法律吗?”他则回斥道:“我想他们以为我们也来自廷
巴克图[3]!”这场谈论背后的意义在于,虽然DeepMind创始人
不得不把大量原始股份给投资人,但总算是有研究人工智能的
资金了。
一开始就创造出一台能够下围棋的机器,这种一蹴而就的
想法当然是痴人说梦。所以,他们在开始阶段选择了一个相对
简单的目标:20世纪80年代的雅达利(Atari)游戏。在20世纪70年代末到80年代初,雅达利非常流行,很多学生因沉迷这款
游戏机而荒废学业。我的朋友就有一台雅达利2600游戏机,他
把大量的时间花费在玩Pong、Space Invaders和Asteroids等游
戏上。这款游戏机是第一批能够通过软盘加载多款游戏的游戏
机,可以直接加载后续开发出来的不同类型的新游戏。再早以
前的游戏机只能玩那几款“写死”在硬件上的游戏。
我最喜欢的一款雅达利游戏叫作Breakout(打砖块):屏
幕上方是彩色砖块砌成的砖墙,通过操纵杆的左右移动来控制
底部的球拍,小球经球拍反弹后撞向砖墙,被撞到的砖块会消
失。撞到砖墙底部的黄色砖块得1分,撞到砖墙顶部的红色砖块
得7分。为提升游戏的复杂度使玩家获得更刺激的游戏体验,随
着被清理的砖块的数量增多,球拍的尺寸会逐渐缩小,小球的
速度也会逐渐加快。
某天下午发生了一件令人非常开心的事情:我们发现了一
个破解游戏的巧妙方法。如果能在砖墙的一侧敲出一条通道,一旦小球经该通道到达砖墙顶部区域,它就会沿着通道两侧的
墙壁一路反弹,依次清理剩余的砖块。玩家坐等小球自己“工
作”完毕从墙上掉落下来后,再用球拍把球反弹出去即可。重
复这一动作就可轻松得到高分。这个策略简直太棒了!
哈萨比斯团队的成员在年轻时也花费了不少时间玩电脑游
戏。他们的父母要是知道他们为那些游戏投入的时间和精力变
得有价值一定会非常高兴。事实证明,打砖块游戏是一个完美
的测试用例,可以检验DeepMind团队是否具备开发能够学会玩游戏的程序的能力。对他们而言,只针对一款游戏编写程序有
些太简单了,所以哈萨比斯团队又设定了一个更大的目标。
他们想编写一个根据当前屏幕像素状态和得分这两个输入
参数之间的关系,寻求最佳得分策略的程序。该程序不会预先
设定游戏规则,而是通过随机选择不同的“动作”(比如在打
砖块游戏中移动球拍或是在Space Invaders游戏中发射激光炮
射击外星人)不断试验,对相应的得分情况进行评估,分析其
结果是有效提升还是止步不前。
该程序的实现基于20世纪90年代提出的强化学习
(reinforcement learning)思想,目的在于根据分数的反馈
或奖励函数来调整执行动作的概率。比如在打砖块游戏中,决
定底部球拍左移或右移的初始概率是50:50。如果某次随机移
动后,球拍击中小球并且得分,那么程序将根据这些信息重新
校准球拍左右移动的概率,以增加球拍击中小球的机会。新的
算法将强化学习与神经网络相结合,后者将评估像素的状态以
确定哪些特征与加分有直接关系。
刚开始时,程序尝试随机移动,但收效甚微,几乎没有得
分。当某次移动后成功得分,程序就会记录这次移动并在后续
游戏过程中不断强化该移动的使用频率。一段时间后,随机动
作会逐渐消失,代替它们的是一组更为有效的移动。程序在不
断试验的过程中,可以真正学会通过特定的移动来提高它在游
戏中的得分。DeepMind团队提交的论文所附带的程序学习玩打砖块游戏
的视频很值得一看。刚开始,程序会随机地左右移动球拍,并“观察”会发生什么。当小球被球拍反弹向上并撞击砖块得
分时,程序开始重写。它发现让小球的像素与球拍的像素相连
接(小球撞击球拍)似乎是一件好事(获得加分)。经过400局
游戏的“学习”,程序已经可以精准地移动球拍,并不断地来
回击球得分了。
当该程序玩过600局后,它所展现出来的水平令人惊讶!它
找到了我们之前破解游戏的那个巧妙办法。这引发了我的感
慨:虽然不记得我和小伙伴们玩了多少局才找到这个“窍
门”,但从耗费的时间来看,显然我们用的更多。这表明现在
计算机程序不仅做到了,而且还做得更快、更好。程序操纵球
拍在砖墙的一侧建立通道,使得小球能够抵达砖墙的最上方,在砖墙顶部和屏幕顶部之间的空隙里来回碰撞得分。分数快速
增加的同时,程序却无须太多干预。记得当年我们发现这个技
巧后兴奋地击掌相庆,可程序轻易就做到了。
时间一晃,到了2014年,也就在DeepMind成立4年后,该项
目在已经涉足的49款雅达利游戏的29款中获得了优于人类玩家
的表现。该团队在2015年初向《自然》杂志提交的论文中详细
介绍了他们的研究成果。众所周知,在《自然》杂志上发表论
文是科学家在科研事业上的重要里程碑,可DeepMind团队的论
文不仅获得了极高的赞誉,还登上了杂志的封面。《华尔街日
报》评论道:“这是人工智能发展史上的重要时刻。”在这里我必须重申,这是计算机编码的一项伟大进步!以
像素状态和不断变化的分数作为原始数据,从随机移动球拍到
发现在砖墙两侧建立通道以获取更多得分,程序实现了自我进
化。但雅达利游戏的复杂性不可与古老的中国围棋同日而语,所以,哈萨比斯及他的团队决定研发一款可以挑战围棋的更厉
害的程序。
此时,考虑到未来的发展,哈萨比斯决定将公司卖给谷
歌。他在接受《连线》(Wired)杂志采访时解释说:“本来我
们并不想这么做,但在过去3年里,为了筹措资金,我只有10%
的时间用于研究。所以,我意识到,我的人生可能没有足够的
时间,既能把公司发展成谷歌那样的规模,又可以在人工智能
领域有所建树。这样的选择对我来说并不难。”这笔买卖对于
谷歌的财力来说可谓轻而易举,同时,也给DeepMind团队研发
会下围棋的程序带来了巨大支持和帮助。
[1] 意指不循规蹈矩。——译者注
[2] 非正式译名为阿米加。此计算机为高分辨率、快速的
图形响应、多媒体任务,特别是游戏做了专门的设计。——译
者注
[3] Timbuctoo,纽约州为保护美国自由黑人投票权益而设
立的定居点。哈萨比斯之意是自己的权益不需要美国人来保
护。——译者注首战告捷[1]
此前人们开发的下围棋程序,甚至很难与业余的优秀围棋
选手相匹敌。所以,大多数权威人士并不看好DeepMind团队,不认为他们能研发出具有世界冠军水平的专业围棋程序。1997
年“深蓝”在国际象棋比赛中战胜了人类棋手之后,大多数人
仍然支持天文物理学家皮特·哈特(Piet Hut)在《纽约时
报》上发表的观点:“在围棋领域,计算机想要击败人类可能
还需要100年甚至更长的时间。让一个智商正常的人学习下围
棋,即使他没有卡斯帕罗夫(Kasparov)的天赋,但几个月后
他就能打败目前存在的所有计算机程序。”
DeepMind团队则坚信“一百年太久,只争朝夕”,或许只
需要短短的20年就能攻破技术上的瓶颈。他们赋予程序算法的
自学习和自适应能力似乎奏效了,但他们仍不能确定新算法到
底有多强大。因此,2015年10月,他们决定组织一场非公开的
人机对弈来测试程序,对手是当时的欧洲冠军——来自中国的
樊麾。
比赛中,新研发的程序AlphaGo以5:0的战绩战胜了樊麾。
但欧洲棋手的实力与东亚棋手相差太大:在世界围棋比赛中,欧洲顶级选手只能位列600名左右。因此,虽然这次比赛的成绩
令人印象深刻,可这就好比制造出一辆无人驾驶汽车然后在银
石赛道上击败了人类选手驾驶的福特嘉年华,并不意味着它能
在F1大奖赛中战胜刘易斯·汉密尔顿(Lewis Hamilton)。当东亚地区的媒体得知樊麾在人机对弈中失利后,它们毫
不留情地抨击了这次比赛,并认为AlphaGo的胜利并无多大价
值。当消息传出后,樊麾的妻子曾联系伦敦的丈夫劝他不要上
网关注此事。显然,他的同胞并不认可他的围棋水平,以及他
具备代表人类参加人机对弈的资格。对他而言,这绝对不是愉
快的经历。
但樊麾认为,与AlphaGo的对弈使他对围棋有了新的领悟。
几个月后,樊麾的世界排名就从633名上升到了300名。事实
上,不仅樊麾的实力得到了提升,而且AlphaGo的每一次对弈都
会促使它优化代码以应对下一次对弈的挑战。
正因为如此,DeepMind团队才有足够的信心让AlphaGo向拥
有18个世界冠军头衔的韩国棋手李世石发起挑战。
2016年3月9日至15日,万众瞩目的人机大战正式拉开帷幕
——李世石九段对阵谷歌AlphaGo五番棋赛在首尔四季酒店举
行。比赛通过互联网直播,获胜者将获得100万美元的奖金。为
保证比赛不受外界干扰,虽然比赛地点是公开的,但在酒店内
的比赛现场却是封闭和保密的。事实上,媒体和现场观众的任
何行为都不会让AlphaGo分心,因为机器无论在什么状态下,都
会保持“禅宗大师”一般的定力,呈现出一种完美的专注状
态。
李世石并没有因为要与打败樊麾的机器棋手对战而感到紧
张。在听闻樊麾失利的消息后,他曾表示:“基于AlphaGo在这场比赛中展现出来的水平,我有信心轻松碾压这台机器棋
手!”
虽然李世石也知道挑战他的机器棋手可以通过不断的学习
和进化变得更为强大,但起初他并不在意。可随着比赛临近,他开始思考人工智能是否最终会强大到可以战胜人类,即使是
在围棋这种相当复杂的决策领域。是年2月他曾表示:“听说
DeepMind的人工智能异常强大,并且还会通过学习和进化变得
越来越强大,但我坚信至少这次对弈我还是能够胜出。”
大多数人认为,尽管人工智能取得了巨大的突破,但想要
使拥有人工智能的机器棋手成为围棋世界冠军依然是一个遥不
可及的目标。Crazy Stone是唯一一款接近高水平棋手的围棋程
序,它的创作者雷米·库仑(Remi Coulom)预测:“还得再有
10年时间,才会有电脑打败人类围棋高手。”
大赛在即,DeepMind团队认为还需要继续优化AlphaGo,所
以他们邀请了樊麾在大赛前的几周对AlphaGo进行反复的强化训
练。尽管遭遇了滑铁卢并被无良媒体攻击,但樊麾依旧乐于支
持这项事业。也许在他看来,如果能帮助AlphaGo打败李世石,他就能挽回些许颜面。
在与AlphaGo的对弈训练中,樊麾发现,AlphaGo在某些方
面确实非常强大,但此次集训也成功暴露了一个DeepMind团队
此前没有意识到的弱点:在某些特定参数配置下,AlphaGo似乎
完全无法评估出到底是谁掌控了比赛,常常会产生一种错觉,以为自己赢了,而实际情况却恰恰相反。如果李世石发现并利
用这个弱点,AlphaGo不仅会失利,而且还会显得极其愚蠢。
接下来的日子里,DeepMind团队废寝忘食地工作,很快修
复了这个缺陷——他们的程序终于可以定版了。在程序调通
后,运行该程序的笔记本电脑被运往首尔参赛。3月9日,对弈
双方“棋手”(严格意义上讲,只有一名棋手)已经做好充分
的准备,迎接人机对弈的五番棋首局。
[1] 原文为“First blood”。——译者注精妙绝伦
多年来,我一直把数学研究与下围棋做比较。所以,我怀
着相当焦虑的心情在YouTube上观看了李世石与AlphaGo的比
赛。这场“人机大战”吸引了全球超过2.8亿人次在线观看。
李世石执黑先行,作为白方的DeepMind团队由其成员黄士
杰(Aja Huang)代替AlphaGo行棋。这样安排是因为,毕竟
AlphaGo只是人工智能程序而不是能够自己下棋的机器人。黄士
杰紧紧盯着AlphaGo的屏幕,等待它对李世石的落子做出回应,但时间过了一小会儿,AlphaGo没有任何反应。
我聚精会神地盯着屏幕,想知道AlphaGo是不是已经崩溃
了!DeepMind团队也开始担心,想知道这是怎么了。对于人类
棋手来说,刚开局的几步棋通常都是标准布局套路,是不会想
太多的,毕竟还没有进入真正的交锋时刻。在焦急的等待过
后,电脑屏幕上出现了一颗白子,AlphaGo终于开始走棋了。直
至此时,DeepMind团队才算是松了一口气,心口的大石终于落
了地:它可以自行工作了,没我们什么事了!在接下来的时间
里,黑白双方你来我往,好不快意。
作为围棋外行的我在观看围棋比赛时会关注一个问题,就
是如何判断胜负手,这是围棋比赛的要点之一。这也正是计算
机程序学习下围棋非常困难的主要原因之一,因为到目前为
止,还没有一种简单易行的方法可以建立起一套稳妥的系统,去评价对弈双方的领先状况。相较之下,国际象棋更容易进行得分评价,它的比赛规则
确定了每一步都会有不同的分值,这样你就可以简单地算出双
方的领先状况。国际象棋是破坏性的,在行棋过程中,棋子会
被一个个吃掉。正因为如此,棋局会逐步简化。而围棋则不
然,它是建设性的,行棋越多,棋盘上的棋子越多,棋局也越
来越复杂。现场解说员虽然一直关注着棋局,但不到最后一刻
他们也很难断言谁胜谁负,鹿死谁手。
研究团队很快摸清了李世石的开局策略。李世石采用的对
战策略是,如果AlphaGo是通过对过去的棋局进行学习来完善自
身的,那么他就使用非传统的棋路来打乱AlphaGo的预判,这样
就会使他获得一定的优势。但问题是,在这种情况下,李世石
也只能按照自己不熟悉的棋路去行棋、布局。对于一般的基于
开放式数据库的程序来说,不按套路出牌的策略非常管用:不
仅可以使机器手足无措,还可能误导机器在棋局的重要关口或
是长远战略决策上犯下致命错误。但遇到AlphaGo,这个如意算
盘可就打空了,因为AlphaGo可以实时动态评估棋局形势,并根
据以前的经验制定出最佳策略。AlphaGo的首席程序员大卫·西
尔弗(David Silver)在赛前表示:“AlphaGo可以自动把数以
百万计的棋局数据通过神经网络进行深度学习并加以改进,以
得到最佳的对弈策略。相比之下,李世石则由于无法掌控自己
的棋局而会变得越发被动。”
看到这里,我不禁同情起李世石来。当他意识到自己一直
处于被动时,你能真切地感觉到他的信心正在逐渐丧失。他一
直盯着代替AlphaGo行棋的黄士杰,但却从对方的脸上看不到任何线索。当下到第186手时,李世石感到大势已去,便投子认输
了。
五番棋首局后,AlphaGo以1:0暂时领先。李世石在当天的
新闻发布会上表示:“我很惊讶,我从未料想到自己会输给
AlphaGo。”
第二局才是好戏一场,不仅仅让参赛的李世石瞠目结舌,还让观看比赛的棋手们感到匪夷所思。第一局比赛中AlphaGo所
走的每一步棋还是符合人类逻辑思维的,现场的专家也能够讲
解和分析棋局。但到了第二局,“事出反常必有妖”,当李世
石下完第36手来到酒店屋顶抽烟休息时,AlphaGo下出第37手:
黄士杰在距离棋盘边缘5步的位置落下一颗黑子。这一招使得包
括李世石在内的所有人都倍感震惊。
根据传统的行棋套路,在初始阶段,应先在最外面的4条线
上落子,这样就可以在棋盘边缘向内的第3条线上形成短效的区
域控制力量,而在第4条线上落子则可以帮助棋手在棋局的后期
向中心扩张自己的势力范围。所以,棋手们一般会选择先在第3
条线或第4条线上落子,以达到一种较好的攻守平衡。在第5条
线上落子一般被认为是不太恰当的选择,因为这会给对手可乘
之机:建立一个既可在短效、局部区域内抢得先手,又可在长
远、全局范围内影响胜负的策略。
此步棋打破了长久以来的传统观念,有评论员抨击这种下
法明显是胡闹,但也有一些评论员持谨慎态度。大家都很期待
看到李世石的应对策略。当李世石重返赛场看到此棋时,他在盒中取子的身体在往后缩……他举棋不定,坐在那里思考了超
过12分钟。围棋和国际象棋同样都限定了落子的时间,用12分
钟来思考一步棋的代价很大。李世石花费了如此之久的时间才
落子,也从侧面说明了AlphaGo的这步棋是多么的出人意料。他
弄不明白AlphaGo到底想要干什么:为什么程序主动放弃了它正
在“争夺”的区域?
难道是AlphaGo出现了错误?还是它发现了棋局中被李世石
忽视的某些东西?当担任裁判的樊麾看到这步棋时,他最初的
反应与其他人一样,除了惊讶就是惊讶。但是,他很快意识到
了,这确实不是人类的行棋方法,他从未见过有人会这样行
棋。他不禁感叹:“这步棋真是神来之笔,精彩绝伦!”接下
来的比赛证明,这一步既精彩又致命:这一着非但不是臭棋,反而是立意深远的妙手。大约又过了50子,黑白双方开始在棋
盘的左下角争夺地盘,棋路向AlphaGo第37手时落下的那颗黑子
靠近。正是由于AlphaGo的这一预先布局,让黑方在这一片区域
赢得了优势。正是这制胜的一子,让AlphaGo以2:0继续领先于
人类。
在当日赛后的新闻发布会上,李世石的情绪明显不同于前
日:“昨天的我很惊讶,但今天的我无言以对,心中满是震
惊。坦白地说,第三场比赛对我来说将不是那么容易了。”大
家都很清楚,这场人机对弈共有五局,从第三局开始李世石必
须全胜才有可能逆转战局、反败为胜。人类的反击
第三局比赛在3月12日星期六举行,李世石有一天的时间可
以用来休息、恢复状态。第一局比赛进行了三个多小时,第二
局进行了四个多小时。在这方面,人与机器毕竟不同,人需要
休息,而机器是不需要的。连续的两场败局无疑给李世石带来
了很大的精神压力和挫败感。
然而,李世石并没有躺下来睡大觉,而是与一群职业棋手
分析和探讨此前两场比赛中失利的原因,这场讨论一直持续到
次日清晨6点。AlphaGo有弱点可以利用吗?李世石认为不只机
器可以学习和进化,人也可以从失败中学到一些东西。
第三局比赛开局时,李世石非常强势,并取得了不错的战
果。在他凌厉的棋势下,AlphaGo只能被驱赶,被压迫在一小片
区域内。这种一边倒的局面使得评论员都开始兴奋了起来,有
人直接表示李世石已经发现了AlphaGo的弱点。但在后来,局势
出人意料地急转直下,一位评论员回忆道:“形势急转直下,眼睁睁地看着所发生的一切,让我深感不适……”当李世石把
AlphaGo逼到绝境,AlphaGo的巨大潜力似乎被激发出来了。随
着比赛的进行,AlphaGo开始采用被评论员称为怠惰走法(lazy
moves)的策略。通过分析,AlphaGo确信自己最终可以获胜,正因为如此,它选择了这种安全的策略。它并不关心能赢多少
目,重要的是它最终一定会赢。这种耍赖一样的怠惰走法可能
对李世石来说有些冒犯,但AlphaGo这种做法并没有任何挟私报
复的性质。它这样做只是单纯地为了赢棋。李世石不想就此认输,他在棋盘上坚持应对着,觉得也许在这些怠惰走法中还有
可乘之机。
但在第176手后,李世石还是投子认输了,AlphaGo以3:0
战胜了人类。不过在后台,DeepMind团队的成员却产生了异样
的情绪:虽说他们已经赢得了比赛,但他们看到的AlphaGo对李
世石造成的巨大影响使他们很难高兴起来。百万奖金很显然已
是他们的囊中之物,在比赛之前DeepMind团队就已经达成共
识,如果能赢得这笔奖金,就将它捐赠给致力于推广围棋和科
学研究的项目以及联合国儿童基金会等慈善机构,但人类的思
维和逻辑让他们对李世石的痛苦产生了同情。
AlphaGo获胜后没有任何情绪反应,不会产生任何小小的电
流波动,更不会显示出一段代码或是大叫一声“爽!”。机器
的这种“镇定”给人带来希望的同时,也让我们为将来感到忧
心。带来希望,是因为正是人类的这种情绪反应激励着我们去
探索未知、开创未来,毕竟还是人类给AlphaGo编写了制胜的代
码。感到忧心,是因为机器太过“冷漠”,它根本就不关心事
情发展的最终结局是不是程序编写者所期望的。
李世石被三连败的事实打击得有些恍惚,他在新闻发布会
上道歉说:
不知该如何开口,也不知道今天要说些什么,我必须为辜
负了大家的期望表达歉意。我应该在比赛中表现得更好,我尽
力了,但我还是体会到了深深的无力感。同时,他也呼吁大家继续关注后续的两场比赛,他现在的
目标是至少为人类扳回一局。
连输三局,整个比赛的胜负已定。李世石在第四局时似乎
卸下了沉重的思想包袱,放松了许多,这样反而使他能够更专
注于比赛本身。在第四局中,与第三局慎之又慎的行棋风格形
成鲜明对比的是,李世石采用了一种更为激进、极端的“先捞
后洗”(amashi)的策略。一位评论员将这种冒险的行为比
作:一位金融家,不想通过日积月累的小收益来积累财富,而
是激进地将整个银行作为赌注押了出去。
李世石和他的团队在星期六晚上通宵达旦,试图通过逆向
工程的方法掌握AlphaGo的下棋思路。他们发现AlphaGo似乎遵
循着逐步增加获胜概率并去调整落子的原则,而不是押注于复
杂的单一走法。在第三局中,李世石就亲身体验了AlphaGo的怠
惰走法。他们针对这个特点制定了应对策略,通过一着险棋来
扰乱AlphaGo的策略:“胜负手”(all-or-nothing)策略可能
会让AlphaGo更难轻易得分。
AlphaGo似乎对这种策略毫不在意。比赛进行到第70手时,评论员开始觉察到AlphaGo再次占据了上风——当AlphaGo的棋
路开始变得保守,频频使用怠惰走法时,就标志着AlphaGo已经
确认自己领先了。李世石必须要做点什么了,否则很难扭转乾
坤。
如果说第二局对弈的第37手是AlphaGo的神来一笔,那么第
四局的第78手就是李世石的逆袭大招。当他盯着棋盘审时度势了30分钟后,突然在看似不寻常的一处落下白子,刚好在
AlphaGo的两个黑子之间。当时在YouTube上发表评论的迈克尔
·雷德蒙德(Michael Redmond)说道:“这一步让我感到意
外,我相信大多数人,包括AlphaGo,都会觉得措手不及。”
AlphaGo确实有些无措,下了一步莫名其妙的棋作为回应。
又经过了几手棋,AlphaGo就发现自己败局已定。紧盯着电脑屏
幕的DeepMind团队发觉他们的程序在第78手时就开始失控了。
之后,AlphaGo已经彻底崩溃,所以下了一连串的昏招。这显然
是围棋程序的另一特点:当它意识到自己失败后,会做出一些
令人费解的疯狂行为。
西尔弗看到AlphaGo的表现后说道:“我觉得大家看到这一
幕会感到很搞笑!”果不其然,韩国的评论员们开始嘲笑
AlphaGo的混乱状态。很显然,AlphaGo的行为没有通过图灵测
试,因为任何一个具有战略眼光的人都不会做出那样的决策。
当下到第180手时,AlphaGo在电脑屏幕上表示投子认输。新闻
演播室里爆发出雷鸣的掌声。
人类终于扳回一局,3:1!当晚的新闻发布会上,李世石
的笑容说明了一切:“这场胜利是如此的珍贵,世界上的任何
东西都无法替代。”伴随着媒体的欢呼,他高声说道:“我能
取得这局对弈的胜利是因为你们所有人给我的欢呼和鼓励。”
当时,在中国评论这次比赛的古力称赞道:“李世石的第
78手实乃‘上帝之手’。”那一步棋打破了传统棋路,是为整
局比赛带来深远影响的关键所在。这是真正的人类创造力的体现,也是博登变革性创造力的一个极好的典范。不破不立,当
你突破原有系统的束缚时,你的创意就会层出不穷。
哈萨比斯和西尔弗在新闻发布会上表示无法解释AlphaGo失
利的原因,他们需要回去好好分析——为什么它在应对李世石
第78手时会走出如此糟糕的一系列昏招。事实上,AlphaGo与人
类对弈的历史经验让它完全摒弃了某些思考。根据它的评估,那种下法只有万分之一的可能性会出现。它似乎没有认真考虑
去学习如何应对那种下法,所以就不自觉地优先考虑了应对其
他下法的可能性。
如果李世石有足够长的时间深入了解对手,那么他在比赛
中战胜AlphaGo的可能性或许会增大。他能在第五局比赛中保持
获胜的势头吗?同样是输掉比赛,3:2还是4:1的结果大不相
同。最后一局意义非凡,如果李世石能拿下第五局的胜利,那
么他将在人们的心中播下对“AlphaGo绝对优势”怀疑的种子。
经此一役,AlphaGo也收获颇丰。现在就算李世石在第10
000手下出违反常规的怪招,它也不会再想着侥幸过关了。这就
是算法的强大之处:从错误中吸取教训,进而反败为胜。
但这并不意味着AlphaGo不会再犯新的错误。随着第五局棋
的进行,AlphaGo似乎放弃了一套针对特定布局的标准下法。正
如哈萨比斯在后台所讲到的:AlphaGo在开局之初犯了一个错误
(因为它并不知道围棋中有一个著名的“手筋”[1]),但现在
它正在努力地改正,亡羊补牢。开局时李世石处于主动,之后AlphaGo渐渐地挽回了颓势。
比赛非常激烈,直到比赛结束之前,DeepMind团队也还不清楚
AlphaGo是否获胜了。历时5个小时的人机大战,在第281手棋时
分出了胜负,李世石中盘认输。这一次后台一片欢呼,DeepMind团队击掌相庆,哈萨比斯激动地握紧拳头挥向空中以
庆祝胜利。李世石在第四局的获胜重新激起了他们的斗志,对
他们来说赢得最后一局尤为重要。
回顾此次人机对弈,很多人都意识到了它非凡的意义。一
些人立即发表了评论:“这是人工智能的重要转折点!”从表
面上看,AlphaGo所能做的仅仅是下围棋,但实际上,它的学习
和适应能力才是最值得人类关注的一种全新的东西。哈萨比斯
在赢得首局胜利后就曾发表Twitter消息:“AlphaGo赢了!我
们成功地把它降落在了月球表面。”这是一个很好的比喻,登
月并没有产生关于宇宙的非凡的新突破,但却意味着我们为实
现这一壮举而开发的技术产生了非凡的新突破。赛后,韩国围
棋协会授予AlphaGo荣誉九段称号,这是围棋选手所能获得的最
高荣誉。
[1] 围棋术语,指“灵感之下的妙手”。——译者注山头还是主峰
第二局中AlphaGo的第37手棋很有创意,下法之新颖让人惊
喜。随着棋局发展,它证明了自己的价值。这是一种具有探索性
的创造力,挑战了传统行棋思维的极限。
围棋最重要的一点,是可以通过客观的方法检验新的行棋思
路是否具有价值。任何人都可以想出富有创意的新走法,其技巧
性和实用性取决于所能带来的某种价值。我们该如何去衡量这种
价值?在评估价值的过程中是否会带有主观臆断,或受到时机的
局限性的制约?一些在诞生之初就受到指摘的事物,往往经历几
代人才会逐渐被接受并被视为具有革命性的创新。并不被19世纪
的人们所认可或知晓的贝多芬的交响乐,现在被誉为艺术的巅
峰。凡·高的一生中,几乎没有售出过画作,它们只能用来交换
食物或绘画材料,但现在他的大作却可以卖出数百万美元的高
价。可是在围棋方面,却有一个最为直接和实际的价值衡量标
准:能赢棋吗?AlphaGo凭借精妙绝伦的第37手棋最终获得了第
二局的胜利,这也是其价值最好的、最客观的体现。
AlphaGo将这种古老棋类游戏的新下法教给了全世界。分析
其在比赛中所采用的新战术,我们已经能够理解它在第5条线早
早落子对胜负的影响,越来越多的棋手将会把这种策略运用起
来。同时,AlphaGo也在不断地学习和创新,探索更多、更好的
行棋策略。据DeepMind团队透露,2017年初,AlphaGo的最新版
本在网上以假名Master或Magister和一批围棋高手对战,人类棋手并不知道他们在和机器下棋。几个星期的时间里,它共参与了
60场比赛,并获得了全胜。
真正的洞察力源于对棋局的综合把控。这些棋类游戏现在已
经成为挖掘新思想的宝库。在几场比赛中,AlphaGo使用了一些
新手都不会用的低级招式。比如,传统下法中棋手不会在三行三
列交叉点上落子,但AlphaGo却向我们展示了如何利用好这一招
并为整个棋局带来新的机遇。
哈萨比斯解释了围棋算法是如何陷入数学家们所说的“局部
极大值”的困境当中的。如图3-1所示,如果你登上了A峰的最高
点,四周弥漫着的大雾阻碍了你的视线,在此处高无可高的情形
之下,你或许会觉得这里就是所在区域范围内的最高点。但当迷
雾逐渐被风驱散,举目远眺,你发现山谷对面竟然还有一座更高
的山峰——B峰。想要抵达B峰的顶端,你就必须先下山,穿过山
谷,然后才能攀上主峰之巅。图 3-1
在传统棋法的影响之下,围棋已发展出固有的一套成规,应
用好这些规则的确能让棋手登上A峰。AlphaGo的出现拨开了迷
雾,打破了这些规则对思维的束缚,使我们看到了更高的B峰。
我们甚至可以估算出两者之间的差距。围棋比赛的统计资料显
示,使用传统下法的棋手通常会输给使用新下法的棋手两子。
对围棋下法的革新一直持续不断、屡见不鲜。最近一次是围
棋界的传奇人物吴清源大师于20世纪30年代开创的新棋法,他的
布局之法颠覆了传统围棋布局的常用套路。因此,围棋爱好者们
认为AlphaGo可能会引发一场更大的围棋“革命”。
中国的围棋世界冠军柯洁也认为,我们处在一个新的时代,虽然人类已经发明围棋数千年了,但人工智能技术的出现让我们感觉到人类对围棋的理解仍然还很肤浅。在不久的未来,人类与
计算机的融合将会开创一个崭新的时代。
柯洁的师兄,另一位中国围棋世界冠军古力补充道:“人类
将利用人工智能技术很快揭开围棋更深层次的神秘面纱。”哈萨
比斯把人工智能算法比作哈勃望远镜,认为它是一种可以用来探
索比以往更深、更远、更广领域的工具——它会提升而不是取代
人类的创造力。
此时此刻,我似乎发现了一个令人相当沮丧的事实。当你知
道永远无法战胜机器时,成为围棋世界冠军的理想就会变得毫无
意义。专业棋手都试图勇敢地面对这一局面,讨论并分析人工智
能所展现的创造力能否对自己棋力的精进大有裨益。但当我们得
知再怎么努力也只能成为屈居于机器之后的第二梯队棋手时,确
实会意志消沉。虽然机器的程序还是人编写的,但这也不会让人
有挽回颜面的感觉。
自那以后,AlphaGo就退出了围棋竞技领域,DeepMind围棋
团队也宣布解散,因为哈萨比斯已经用事实证明了剑桥那个教授
所持观点的错误性。DeepMind团队现在把目光投向了其他领域:
医疗保健、气候变化、能源效率、语音的生成和识别、计算机视
觉,等等。这些领域都需要他们认真、深入地思考和探索。
鉴于围棋一直作为我反对利用计算机研究数学的挡箭牌,我
关心的是DeepMind团队关注的下一个目标会不会是我所从事的数
学研究领域?要正确判断这种新的人工智能技术具备的潜力,我
们需要更加仔细观察并深入研究其运作的方式和机理。试想一下,DeepMind团队将要开发出来的程序居然有可能让我这个数学
家丢掉饭碗,而创造这些程序的工具正是数学家们历经几个世纪
的不懈努力才发现和创造出来的。这个数学缔造出来的“科学怪
人”(Frankenstein’s monster)会向它的创造者宣战吗?第4章 算法,网络时代的生活秘诀
阿达·洛夫莱斯
分析引擎编制代数的模式,就如同用提花织布机编织出鲜花
和绿叶一般。
当下,我们的生活完全依赖于算法。上网搜索内容,使用
GPS导航,观看由奈飞公司(Netflix)推荐的电影,或是在线预
约,我们都要依赖算法。算法正在引导我们进入数字时代,但很
少有人意识到在计算机诞生之前,算法作为数学的核心已存在了
数千年。
自古希腊以来,算法的身影一直伴随着数学的诞生与发展。
在欧几里得(Euclid)的巨著《几何原本》[1]中,他除了证明
素数有无穷多个外,还发现了一个方法,按照这个方法就能解决
最大公约数等问题。
这也许有助于我们更清楚地认识和解决问题。想象一下,如
果你的厨房长36英尺[2],宽15英尺,那么能够覆盖整个地面而
无须切割的方形瓷砖是多大尺寸呢?你该怎么计算呢?2000年前
解决这类问题的算法是这样的:
假设你有两个数字,M和N,且N小于M。首先用M除以N,得到
的余数记为N1。如果N1为零,那么N就是能够将这两个数整除的
最大的数,即这两个数的最大公约数。如果N1不为零,则用N除
以N1,得到的余数记为N2。如果N2为零,则N1是能将M和N整除的最大的数。如果N2不为零,则继续上述步骤,用N1除以N2并得到
余数N3。依此类推,得到的余数是一个整数,并且随着计算的进
行会越来越小,直到变为零。那么,算法最终一定会找到一个能
够同时将M和N整除的最大的数,这个数被称为最大公约数。
现在让我们回到厨房地板的问题。我们知道,厨房是长方形
的,而我们要寻找的是正方形的瓷砖。假定我们讨论的是一种理
想状态:瓷砖的尺寸不会受到生产厂家某些规格标准的限制。现
在,我们可以开始了。首先,我们找到适合原始形状的最大方形
瓷砖;然后,我们寻找到适合剩余部分的最大正方形瓷砖,依此
类推……剩余的地面空间逐渐缩小,直至成为一个正方形,这时
刚好就可以用一整块瓷砖严丝合缝地填充进去。整个过程不需要
切割任何一块瓷砖,如图4-1所示。
图 4-1
我们将上述问题的解决思路(算法)用数学的方式加以描
述:假设M=36且N=5,则用M除以N得到余数N1=6,用N除以N1得到余数N2=3,而N1除以N2根本就没有余数,所以就可以得出3是36
和15的最大公约数。
你可以看到整个计算过程隐含有许多类似于“如果……那
么……”的条件判断句式,这是算法的典型特征,也是计算机程
序中算法的妙趣所在。欧几里得的古老方法触及了任何算法都应
该具备的四个关键特征的核心:
(1)它应该由一组精确的陈述和明确的指令组成。
(2)无论输入的参数如何,这个过程都应该完成(不应该
进入无限循环)。
(3)它应该给输入算法的任何参数以答案。
(4)在理想情况下,它的运行速度应该很快。
在欧几里得的算法中,任何阶段都不存在歧义。因为余数在
每一步运算后都会变小,有限的步数之后它必为零,这时算法就
会停止并给出结果。算法的执行时间与问题的规模成正比,数字
越大,耗时越长。
如果最古老的算法可以追溯到2000多年以前,那为什么“算
法”这一名词的提出要归功于一位9世纪的波斯数学家呢?穆罕
默德·阿尔·花拉子密(Muhammad Al-Khwarizmi)是巴格达智
慧馆[3](great House of Wisdom)的首批负责人之一,他负责
将古希腊数学原著翻译成阿拉伯文。“算法”是拉丁文对他名字
的翻译。尽管欧几里得的算法在《几何原本》中早已阐明,但欧几里得所使用的语言非常笨拙,而且古希腊人的思维非常几何化
(数字只是线条的长度,就连证明的过程都是由图片组成的——
有点像我们用瓷砖铺厨房地板的例子),所以他的算法并没有被
后世所广泛采用。这是因为图片并不是一种严谨的数学方法,你
需要的是代数的语言,即一个字母可以作为变量代表任何数字,而这正是花拉子密的发明。
你需要一种语言来清楚地表达算法的工作原理,并允许你在
不指定数值的情况下讨论数学问题。我们已经看到这种语言能解
释欧几里得算法的工作原理,给予数字一个形式化的符号名称
——N和M,这些符号可以代表任何数字(我们称之为变量)。这
种新的描述语言是一种高度概括的语言,它对数学的发展影响巨
大,意味着数学家不需要挨个讨论遇到的所有问题,而可以运用
形式化的描述方法来掌握数学运算背后的模式。一个好的算法应
该满足上述的第三个特征,就好比代码和程序,它们可以不需要
确定具体的参数就能够编译运行。
算法已成为我们这个时代通行的“货币”,因为它们是计算
机系统的完美素材。算法利用我们解决问题的模式,反过来引导
我们去找到解决问题的方案。计算机不需要思考,它只要不停地
遵循算法、执行指令即可,就像变魔术一样,答案自己就会蹦出
来。
[1] 欧几里得为了满足教学的需要编成了一部《几何原
本》。这部书共15卷,是一部集前人思想和欧几里得个人创造性
于一体的不朽之作。在此书中,欧几里得把人们公认的一些事实
列为定义和公理,以形式逻辑的方法,用这些定义和公理来研究各种几何图形的性质,从而建立了一套从定义、公理出发,论证
命题得到定理的几何学论证方法,形成了一个严密的逻辑体系
——几何学。而这部书,也就成了欧式几何的奠基之作。——译
者注
[2] 1英尺=0.3048米。
[3] 中世纪阿拉伯阿拔斯王朝在巴格达建立的全国性综合学
术机构,亦称益智宫、哲理大学,由翻译局、科学院和图书馆等
机构组成。后世学者誉智慧馆为中世纪阿拉伯“科学的源泉,智
慧的宝库,学者的圣殿”。——译者注荒岛算法
当代最非凡的算法莫过于每天帮助数百万人浏览互联网的搜
索算法。如果我被扔在荒岛上,只允许随身携带一个算法,我可
能会选择谷歌的搜索引擎。(并不是说它会有多大的用处,因为
我不太可能连上互联网。)
20世纪90年代早期,一个专门收录所有互联网网址的目录直
到1994年才收录了大约3000个网站。当时的互联网很小,小到可
以让你轻而易举地浏览一下就能找到想找的东西。从那时起,互
联网就在不断发展。当我开始写这篇文章时,互联网上已经有1
267 084 131个网站了,还没写几句话的工夫,这个数字就上升
到了1 267 085 440(通过访问
http:www.internetlivestats.com即可查看现存网站数
量)。
谷歌的搜索引擎是如何从数以几十亿计的网站中准确地找出
你想要的信息呢?86岁来自维冈的老奶奶玛丽·阿什伍德(Mary
Ashwood)在浏览器的搜索栏里非常有礼貌地使用“请”和“谢
谢”来提出她的搜索请求,或许她脑海中想象的画面是,电脑另
一端一群勤劳的实习生正在埋头苦干,处理浩如烟海的请求信
息。她孙子本(Ben)打开笔记本电脑,看到“麻烦你帮我翻译
一下这个罗马数字——MCMXCVIII,谢谢你!”的搜索问句后,忍不住在Twitter上向全世界讲述了奶奶的误解。当谷歌工作人
员回复他的Twitter消息时,他惊呆了:敬爱的本的奶奶,愿您一切安好。
在数十亿次的搜索中,是您让我们会心一笑。
嗯,您所需要翻译的罗马数字是1998。
感谢您!
在这一次的机缘巧合下,本的奶奶将谷歌的工作人员推向台
前。谷歌的搜索引擎每15秒就要处理数百万次请求,这样的数量
任何公司都无法做到人工回复。那么,如果谷歌不是拥有互联网
神奇魔法的精灵,它是如何成功地找到你想要的答案呢?
这一切归功于1996年拉里·佩奇(Larry Page)和谢尔盖·
布林(Sergey Brin)在斯坦福大学的宿舍里发明的强大而精妙
的算法。他们最初想把新算法命名为“网络爬
虫”(Backrub),但最终还是决定叫“谷歌”(Google),其
灵感来自1后面的100个零。他们的目标是找到一种对互联网上所
有的页面进行排序的方法,以帮助大家在这个不断增长的海量数
据库中进行检索,所以起这个代表巨大数字的名字似乎特别贴
切,而且也很酷炫。
这并不意味其他的算法不能做这件事,但是那些算法在概念
上非常简单。如果你想搜索更多关于“有礼貌的奶奶和谷歌”的
信息,现有的算法会将所有包含这些关键词的页面识别出来,并
按顺序排列,搜索词出现频率最高的网站会被放在最顶部。这种方式虽然有效,却容易被黑客攻击:任何一个花店老板
只要在网页的元数据中数千遍地插入关键词“母亲节鲜花”,那
么每个想买花的子女电脑上的搜索结果的最顶端就会出现这个花
店的链接。你肯定不希望自己的搜索被精明的人设计或者操纵,那么,如何才能对一个网站的重要性给予公正的评价呢?如何判
断哪些网站该被过滤掉呢?
佩奇和布林想出一个聪明的方法:如果一个网站有很多链接
指向它,就暗示着其他网站认为这个网站值得访问。其原理是通
过其他网站的评估去衡量某个网站的重要性,或者说该网站的访
问价值。但是,这种方式也有可能被黑客攻击,比如只需伪造出
有1000个网站的链接指向这个花店就行了,这样也会使其被纳入
搜索名录。
为了防止这种情况出现,他们决定给那些获得广泛好评,深
受信赖的网站赋予更高的权重。
可这仍然会让他们面临一个挑战:如何客观评价一个网站的
重要性?
以一个小型网络为例,如图4-2所示。首先,给每个网站设
定相同的权重。然后,让我们把网站想象成一个桶,给每个桶里
放8个球,表示网站的初始权重相同。现在,每个网站必须将球
交给它链接的其他网站,如果链接多个网站,那么就将球均分给
那些网站。如图4-3所示,由于网站A链接了网站B和网站C,它将
为每个网站提供4个球;而网站B只链接了网站C,它就需要将拥有的8个球全部放入网站C的桶中。第1轮分配后,网站C得到的小
球数最多。
图 4-2
但是我们需要继续重复这个分配过程,因为现在位于最高排
名的网站C链接了网站A,所以又会产生新的分配结果。9轮重复
分配过程中各网站小球数量的变化情况如图4-4所示。图 4-3
图 4-4
到这一步,它还算不上是一个特别好的算法,因为不稳定,并且效率相当低,没有达到理想算法的两个关键标准。佩奇和布
林的洞见之伟大在于,他们意识到,需要找到一种方法,通过观
察网络的连通性来分配球。结果,他们在线性代数中找到了一个
诀窍,可以一步算出正确的分布情况。
这种算法从构建一个矩阵开始,该矩阵描述球在网站间的重
新分配方式。矩阵的第1列表示球从网站A到其他网站的分配比
例:0.5转到网站B,0.5转到网站C。由此,可以得到球的重分配
矩阵:
难点是寻找这个矩阵特征值为1的特征向量,这是一个与该
矩阵相乘不会发生改变的列向量。找到特征向量的方法我们在大学本科时就学过了,因此在这个网络中我们发现,通过重分配矩
阵找到的列向量非常稳定:
注:矩阵的乘法运算规则是:
这就表明,如果我们按照2:1:2的比例给各网站分配球,会看到这个权重比例是稳定的。用之前9轮分配的例子中得到的
数据也可以验证这一结论,各网站拥有的球的比例总是约等于
2:1:2。
矩阵的特征向量是在数学和其他科学领域中非常有效的一种
工具,是量子物理中用来计算粒子能级的秘密武器,可以用于研
究旋转流体的稳定性(比如旋转的恒星或者病毒的繁殖率),甚
至可以用于研究素数在所有数字中是怎样分布的问题。
通过计算网络连通性的特征向量,我们发现网站A和网站C的
排名应该是相同的。虽然网站A只连接到一个网站(网站C),但由于网站C的权值较高,它会赋予网站A较高的权值。
这是算法的核心基础,但需要加入一些额外的细节处理才能
使其充分发挥作用。例如,该算法可能需要考虑一些异常情况:
如果存在未链接其他网站的孤立网站,它的球会无法重新分配。
尽管基础引擎是公开的,但算法内部的一些重要参数还是保
密的,并且随着时间的推移不断发展变化、更新换代,这些在一
定程度上使得算法难以被破解。谷歌算法最吸引人的地方在于它
本身的健壮性和防止欺骗的策略——一个网站很难在自己的网站
上做手脚来提高排名,它必须依靠其他网站来提升自己的排名。
如果你关注一下谷歌搜索,就会发现排名很靠前的网站主要
都是新闻媒体网站和大学官方网站,比如牛津大学、哈佛大学的
官网。许多外部网站都会链接到大学网站上的研究资料及观点页
面,这正是由于这些大学的研究成果受到了世界各地许多人的关
注。
当牛津大学网络中的任何一个网站链接到外部网站时,该链
接将提升其所链接的外部网站的排名,这意味着牛津大学认可与
该网站共享其巨大的声望。这也就是为什么我经常会被其他人要
求,让我把在牛津数学系的网站链接到外部网站。这么做有助于
提高外部网站的排名,毕竟能够在谷歌搜索排名登顶是每一个网
站的终极“圣杯”。
谷歌的算法再强大,也不可避免地被那些了解数学原理的人
用更加聪明的办法攻击并加以利用。在2018年夏天的某段时间
里,如果你在谷歌上搜索“白痴”(idiot),首先弹出的便是唐纳德·特朗普(Donald Trump)的照片。一些激进分子知道怎
样利用Reddit[1]在互联网的巨大影响力:他们在网上发布一个
包含“白痴”这个关键词和特朗普照片的帖子让大家投票,两者
的组合很快就登上了谷歌搜索的首位。但随着时间的推移,这些
另类的搜索结果的峰值会通过算法本身而不是人工干预进行降
级,并被算法慢慢剔除。谷歌不喜欢扮演“上帝”,但从长远来
看,它相信的是数学的力量。
互联网就像一头会变身的妖兽,瞬息万变,每一纳秒就会有
一个新网站诞生。随着网站的关闭和更新,新的链接关系也在不
断地生成、变化,这意味着网站页面的搜索优先级需要动态调
整。为了让谷歌跟上互联网不断发展的步伐,他们会使用一个有
着相当可爱名字的工具,定期在互联网上搜罗网站信息并更新网
站链接的统计点击量,这个工具叫作“谷歌蜘蛛侠”(Google
spiders)。
技术控和体育教练发现,这种评估网络节点的方法也可以应
用于其他“类网络”领域,尤其是足球。当评估对手时,评估对
手的关键球员非常重要,因为他会控制整个球队的打法或者成为
比赛的焦点。如果在比赛初期就能找到这名球员,并对他的发挥
进行有效的遏制,那么在战略上就能冻结对手整个球队的战斗
力。
来自伦敦的两位数学家哈维尔·洛佩斯·佩纳(Javier
López Pena)和雨果·杜塞特(Hugo Touchette)都是狂热的足
球迷,他们决定研究一下,看看谷歌的算法是否有助于分析世界
杯参赛球队的情况。他们是这样考虑的:如果把每位球员看作一个网站,一个球员给另一个球员传球就好比一个网站链接另一个
网站,那么比赛中的传球路线就可以被视为一个网络;传球给队
友是信任那个球员的标志,因为球员通常会避免传球给一个容易
丢球的“笨”队友;一个不会积极跑动、有效控球的球员是很难
拿到球的,所以只有有能力控球的人才会有人给他传球。
因此,他们决定使用国际足联在2010年世界杯期间提供的传
球数据来分析球员实力排名。当对英格兰队的比赛进行分析时,他们发现史蒂文·杰拉德(Steven Gerrard)和弗兰克·兰帕德
(Frank Lampard)两位球员的数据明显高于其他人。这反映出
一个情况:足球会频繁传给这两位中场球员,遏制他们在场上的
发挥极有可能使英格兰队输球。最终,英格兰队在世界杯中确实
没有走太远,复赛就被老对手德国队淘汰了。
以最终胜者西班牙队的数据来说,经过算法统计分析,西班
牙队中没有明显的核心球员,这反映了整个球队很好地贯彻
了“全攻全守”“快速短传”的战术思想,这最终促成了西班牙
队走上冠军领奖台。
与美国许多依靠数据分析发展起来的体育项目不同,足球需
要经过一段时间的积累才能利用数学和数据统计挖掘比赛背后隐
藏的规律。但是到了2018年俄罗斯世界杯,许多球队都聘请了科
学家在幕后提供技术支持——通过分析数据来了解对手的优势和
弱点,这其中就包括对每支球队中传球依赖度的分析。
网络分析还应用于文学领域。安德鲁·贝弗里奇(Andrew
Beveridge)和单杰(Jie Shan)用一套名为“网络科学”的方法分析了乔治·雷蒙德·理查德·马丁(George R.R.Martin)
的史诗奇幻巨著《冰与火之歌》[2](Song of Ice and
Fire)。了解该故事剧情的人都知道,想要预测哪些角色会在剧
本下一卷中出现不太容易,因为马丁先生会为了剧情需要,不
惜“写死”哪怕是剧中最好的角色。
贝弗里奇和单杰决定在书中的人物之间建立一个网络。他们
选定了剧中107个关键人物作为网络中的节点,然后根据关系重
要程度为人物节点之间的连接线赋予权值。但算法如何评估节点
间连接的重要性呢?该算法只是简单地计算剧情中两个人物名字
在连续的15个单词内出现的次数。这并不是在衡量人物之间的友
谊,而是在衡量他们之间的互动或联系频度。
他们选定这个系列的第三卷《冰雨的风暴》(A Storm of
Sword)进行分析,因为剧情发展到这里也就基本稳定了。首
先,他们对网络中的节点(或者说角色)进行了排名分析,三个
角色很快脱颖而出,他们分别是提利昂(Tyrion)、琼恩·雪诺
(Jon Snow)和珊莎·史塔克(Sansa Stark)。读过这本书或
看过该系列电视作品的观众都不会对这个发现感到意外,但令人
惊奇的是,一个不理解剧本内容的计算机算法也能分析出跟人相
同的结论。这不是简单地计算某个角色名字出现的次数就能评估
的,如果只是简单的这样做,会有其他人物的名字出现在排名
中。事实证明,算法对于这个剧情网络更加微妙的分析揭示出了
剧中真正的主角。
随着剧情的发展,第三卷中的一些关键人物都被“写
死”了,但这三个角色都在马丁的笔下幸存了下来。这就是一个优秀的算法存在的价值:从足球到《权力的游戏》,它在多种不
同的应用场景中都能发挥作用。
[1] 一家社交新闻网站,其口号是“提前于新闻发声,来自
互联网的声音”。——译者注
[2] 此作品改编成的电视剧叫作《权力的游戏》(Game of
Thrones)。——译者注数学,幸福婚姻的秘诀
谢尔盖·布林和拉里·佩奇也许已经破解了引导你进入甚至
连你自己都不知道自己要寻找的网站的秘法,但算法真的能帮助
你找到灵魂伴侣吗?当你访问OKCupid[1]时,会看到一条带着些
许骄傲情绪的标题——“我们用数学为你找到约会对象”。
这些婚恋交友网站使用“匹配算法”对个人资料进行检索,并根据个人的喜好、性格特点等进行配对。它们似乎做得不错!
从某种程度上讲,这些算法选择的结果会比我们自己去相亲的结
果更好:最近发表在《美国国家科学院院刊》(Proceedings of
the National Academy of Sciences)的一项调查研究表明,以
在2005~2012年结婚的1.9万人为研究对象,其中通过婚恋网站
结识的伴侣相处得更幸福,婚姻也更稳定。(免费书享分更多搜
索@雅书.)
1962年,由两位数学家大卫·盖尔(David Gale)和劳埃德
·沙普利(Lloyd Shapley)共同提出了史上第一个获得诺贝尔
奖的算法——他们使用了一个匹配算法来解决“稳定婚姻问
题”。遗憾的是,盖尔于2008年去世,没能参加颁奖典礼。沙普
利在2012年与经济学家埃尔文·罗斯(Alvin Roth)共同获得了
这个奖项。罗斯认为,这个算法不仅对人际关系问题的研究具有
重要意义,对一些社会问题,包括医疗资源和学校招生名额分配
等,也具有重大价值。当时沙普利就被这个奖项逗乐了,他说:“我认为我是一个
数学家,而这个奖是颁给经济学家的。”很显然,他对委员会的
决定感到惊讶,他说:“我一生中从未上过经济学课程。”但
是,他编写的数学算法已经对经济和社会产生了深远的影响。
沙普利和盖尔一起研究的稳定婚姻问题,感觉跟前沿经济理
论没什么联系,更像是一个填字游戏。为了准确地描述该问题,我们假设有性取向正常的四位先生和四位女士,并按照他们的兴
趣喜好对四名异性进行排序。该算法的难点在于如何给他们配
对,并实现建立稳定婚姻关系的目的。稳定的婚姻关系意味着使
所有的人获得较为满意的伴侣,不应该有任何一位成员因不满意
算法分配的伴侣而选择在某个时刻离开,与其他人私奔。乍一
看,即便只有四对关系,也很难安排得妥妥当当。
我们举个实例来看看盖尔和沙普利是如何利用系统和算法的
方式来保证稳定的配对关系。这四位先生分别用扑克牌中的K来
表示,黑桃K、红桃K、梅花K和方块K;同样地,四位女士分别用
Q来表示。每一位K和Q都列出了自己的偏好和习惯等参数。
对于K来说,选择方案如图4-5所示:
图 4-5对于Q来说,选择方案如图4-6所示:
图 4-6
现在,假设提议每个K与同花色的Q配对。这肯定是不稳定的
配对关系,为什么呢?梅花Q把梅花K列为她的末选对象,她和其
他三个K在一起都会很开心。我们再来看看红桃K的列表:红桃Q
是末选对象,方块Q是他的首选对象。在这种局面下,我们都可
以想象到:某一日,风和日丽,梅花Q和红桃K私奔了。显然,同
花色的配对关系不是稳定的婚姻方案。
我们该如何配对,才不会有私奔的状况出现呢?下面就是盖
尔和沙普利所做的:利用多轮分析找到最终的稳定配对。第1轮
中,Q都向其首选对象求婚:黑桃Q首选为红桃K,红桃Q首选为梅
花K,方块Q首选为黑桃K,梅花Q首选为红桃K。似乎红桃K更受欢
迎,有两个Q向其求婚。而红桃K选择他更青睐的梅花Q,所以拒
绝了黑桃Q。因此,这一轮有三个待选和一个拒绝。
第1轮结果如图4-7所示:图 4-7
被拒绝的Q必须放弃她的首选K,并在下一轮中向她的次选对
象黑桃K求婚。这时,黑桃K有两个选择,第一轮中待选的方块Q
以及新求婚的黑桃Q。对于黑桃K来说,他更偏爱黑桃Q,所以他
会残忍地拒绝方块Q。
第2轮结果如图4-8所示:
图 4-8
接下来是第3轮。每一轮中被拒绝的Q都会向下一位K求婚,K
们总是会选择相对更好的Q,所以这一轮,被拒绝的方块Q向方块
K求婚(方块K一直孤单地等待,像是一个没有被选入足球队的孩
子)。尽管方块Q在方块K的选项中排名很低,但他也没有更好的
选择,因为其他三个Q更喜欢其他的K。
第3轮结果如图4-9所示:图 4-9
我们用了一个可爱的Q与K配对的游戏来展现这个算法。最
终,每个人都配对成功,所有的婚姻关系都很稳定,很圆满的大
结局!这个算法目前在世界各地广泛使用:在丹麦用于小朋友匹
配幼儿园;在匈牙利用于学生择校;在纽约用于给犹太教堂分配
拉比[2];在中国、德国和西班牙用于大学招生和学生择校;在
英国被英国国家医疗服务体系(National Health Service)用
于病人与器官捐赠配对,挽救了许多病人的生命。
在盖尔和沙普利研究的基础模型上,我们建立了婚恋交友网
站用于配对分析的现代算法。当然,由于信息不完整,个人偏好
会随时间、经历等因素而变化,实际情况中面临的问题会比这个
复杂得多。从本质上讲,这些算法试图利用人们的偏好来进行匹
配,从而形成稳定、幸福的婚配关系。有证据表明,这些算法很
可能比人类的直觉更靠谱。
对于盖尔和沙普利开发的算法,你可能已经发现了一个有趣
的不对称:让Q向K求婚。如果我们让K向Q求婚会怎样呢?相当引
人注目的是,事实确实会跟我们想象的一样,即如果通过交换K
和Q来应用该算法,将会得到一个完全不同的稳定配对。
方块Q最终会成为红桃K的伴侣,梅花Q会和方块K成为夫妇。
这两个Q居然交换了伴侣,选择了优先级更低的对象。虽然两次不同的求婚都能形成稳定的配对关系,但Q向K求婚会给Q带来更
好的结局。反之亦然,K去求婚,结果对K更有利。
这个算法在美国用于给医学院的毕业生分配工作。当毕业生
意识到这样的配对方式不利于自己的就业时,发起了寻求公平对
待的抗议活动。迫于各方压力,医院逆转了算法的选择方向,最
终,毕业生得到了更好的有利于自己的分配结果。
这是一个重要的警示:我们的生活对算法的依赖越多,对算
法的工作原理及运行过程的深入理解就变得越重要。否则,你很
可能会被算法“坑”了。
[1] 婚恋交友网站。——译者注
[2] 在犹太文化中,这是对有学识的人的尊称。——译者注书商之战
算法的问题在于,有时会产生一些让人意想不到的结果。人
类能察觉到怪异,而算法只知执行,它才不管结果是否谬以千
里、荒诞不经。
我最喜欢举一个关于二手书商用算法来经营生意的例子。一
位在加州大学伯克利分校(UC Berkeley)工作的博士后非常渴
望拥有一本彼得·劳伦斯(Peter Lawrence)于1992年出版的经
典著作《制造苍蝇》(The Making of A Fly)。发育生物学的
专家经常会使用这本书,但到了2011年时,这本书已经停止发行
很长时间了,所以这位博士后只能去找一本二手的。
他在亚马逊网上书城搜了一下这本书,二手书的价格大致在
40美元,但他却发现有一个商家profnath对这本书开价1 730
045.91美元,并且还不包邮!还有一个商家bordeebook在做打折
活动,但是价格更高,打完折要2 198 177.95美元,居然也不包
邮(需要额外支付3.99美元运费)!
这位博士后把他看到的情况告诉了他的导师迈克尔·艾森
(Michael Eisen)先生,导师也认为这两家的图书定价有些离
谱,他觉得是有人(高学历的人)在开玩笑。但这两家书商在网
上的评价还不错,应该不至于是不法商贩。profnath在过去一年
中得到了8000多条推介,而bordeebook同期则得到了125 000多
条推介。也许,这只是一个孤立的奇怪现象罢了。第二天,艾森先生又到网上查看价格时发现,这两个书商竟
然还在提价:profnath已经标到了2 194 443.04美元,而
bordeebook则把价格提到了2 788 233.00美元。艾森先生决定花
上几天时间,通过数据分析的科学手段来搞清楚这些奇怪的高昂
价格背后的隐情。
最后,他发现了价格上涨背后的数学规律:用profnath当天
的价格除以bordeebook前一天的价格总能得到0.998 30;用
bordeebook当天的价格除以profnath当天的价格总能得到1.270
59。每个书商都为它们的网站设置了程序,使用特定的算法来确
定售书价格。每天,profnath的算法都会检查bordeebook的图书
价格,然后将其乘以0.998 30。这个算法非常有意义,表明
profnath正在对网站中商品的价格进行算法控制,以削弱
bordeebook价格的竞争力。bordeebook的算法也挺有特点,检测
竞争对手的价格变化情况,并将对手价格乘以1.270 59作为自己
的售价。
表 4-1综上所述,价格每天都会乘以1.268 43(0.998 30×1.270
59),即价格将呈指数级增长。如果profnath采用了更激进的系
数跟bordeebook打价格战,用不了多久,图书的价格不但难以维
系上涨,反而可能会暴跌。
profnath所采用的算法已经描述清楚,但为什么bordeebook
的算法会不断提高售书价格呢?没人愿意多花钱来买同一本书,或许在当初价格还不是很离谱的时候,它打算依靠自己良好的商
家信誉和众多正面推介来招揽顾客。正如艾森先生在博客中所写
的:“这种坐地起价的策略相当危险!它会让你的书在库房里接
灰的,除非你根本就没有这本书……”
过了没多久,他就明白真相了。果然,bordeebook实际上就
没有这本书!他们其实就是倒买倒卖而已。他们的算法还有其他
一些功能,如查看其他书商在卖什么书,并把比自己价格低的书
标记出来,利用差价买进,再依靠自己良好的商家信誉和众多正
面推介以高价转手卖出。因此,该算法设定了涨价的系数1.270
59,这其中包含了购书成本、包装运费,以及他们的利润。
用对数函数可以轻松算出这本书大概在4月8日前的45天上
市,售价约为40美元。这充分地显示出指数级增长的力量:短短
一个半月,书价就飙升至数百万美元!4月18日,profnath的员
工发现了该问题,此时该书的价格已经涨到了23 698 655.93美
元(外加3.99美元的运费),他意识到这是个问题,立即采取了
人工干预措施,把价格降至106.23美元。随后,bordeebook把这
本书的价格改为134.97美元(106.23×1.270 59=134.97)。《制造苍蝇》这本书的错误定价并没有给任何人带来重大影
响,但算法的错误是可能导致重大后果的:如果将这样的算法用
于股票期权定价将导致股市崩盘。算法可能导致意想不到的后
果,是人们对先进技术存在恐惧的主要原因之一。试想一下,如
果一家公司开发了一种算法,它的任务是最大限度回收碳资源,而众所周知,地球上所有生物体都是碳基的,它会理所当然地认
为工厂里的人也是含碳生物,所以它在工厂里收集工人来生产碳
资源是符合算法逻辑的。那么,可想而知,会发生什么?谁又能
来阻止它?
算法是基于数学的,在某种程度上,它们就是数学运算。但
是,它们并没有真正创造性地拓展应用它们的领域,所以在数学
界,没有人会觉得自己受到了特别的威胁。我们真的不太相信算
法会攻击它们的创造者,让我们失业。多年来,我一直认为,这
些算法只是辅助我日常工作的工具——它们只是巴贝奇差分机的
复杂升级版,主要还是在执行代数或数值运算,所带来的好处仅
是将我从枯燥乏味的手写计算中解放出来而已。
直到几年前,人们依然认为人类能够理解他们的算法在做什
么以及是如何做的。就像阿达认为的那样,算法的输出不可能大
于输入。但是,后来出现了一种新算法,这个算法可以在与数据
交互时做出动态调整,运行一段时间后,它的程序员就可能弄不
太明白他的算法为什么会做出这样或那样的选择了。程序带来了
让人意想不到的收获,算法也变得更有创造力。这就是DeepMind
团队所使用的新算法,这个算法使机器在围棋领域中战胜了人
类,开创了机器学习的新纪元。第5章 从“自上而下”到“自下而上”
艾伦·图灵
机器经常让我大吃一惊。
我第一次见到戴密斯·哈萨比斯是在他的算法于围棋对弈中
获得大胜之前的几年,那时他参加了一个关于创新未来的会议。
会议中,许多新创立的公司都在寻找风投和天使投资人。它们中
的一些会改变未来,但大多数是“昙花一现”。风投和天使投资
人的目的就是发掘最具潜力的投资对象。当时,哈萨比斯讲道,代码在未来可以自主学习、适应并进行自我改进,我听完立刻把
他打发走了。因为我觉得,程序员通过编程教会计算机玩游戏,而计算机却会比教它的人玩得更好,这种输入寡而输出众的事情
不大可能实现。我并不是唯一一个这么想的人。哈萨比斯也坦
言,人工智能想要在短时间内得到认可并获得投资是极其困难
的。
事实证明,哈萨比斯是千里马,而我却非伯乐。从最近的人
工智能会议的标题就可以感受到哈萨比斯的观点所带来的变革性
影响——“机器学习是新的42?”(42是道格拉斯·亚当斯
(Douglas Adams)的小说《银河系漫游指南》(The
Hitchhiker’s Guide to the Galaxy)中“生命、宇宙以及任
何事情的终极答案”。对于看科幻节目长大的人来说,这是非常
熟悉的概念。)那么,是什么引发了这场新的人工智能革命呢?答案很简单——数据。过去的5年间产生了现在世界上90%的
数据。互联网每天创建的数据可达到1EB(1018),约为2.5亿张
DVD光盘所存储的数据量。现在,人类两天内产生的数据量,就
可以媲美从“文明曙光时代”到2003年所产生的数据量的总和。
海量的数据是机器学习进入新时代最重要的催化剂。在此之
前,一直不具备任由算法在数据之中学习、遨游的客观条件。这
就像是将一个孩子的感官全部隔绝起来,我们都知道,如果不与
外界接触,他是无法获得语言及其他基本能力的。他的大脑已经
准备好学习了,但没有足够的刺激或经验是不能正常发育的。
数据对于新的变革尤为重要,因此它也被称为“新的石
油”。访问数据,相当于在21世纪的“油田”中进行开采。
Facebook、Twitter、谷歌和亚马逊备受瞩目,根源在于我们为
其提供了免费的“石油储量”。严格意义上说,也不是完全免
费,因为我们也在它们提供的服务中获得了数据的“交换”。比
如,当我们在驾车使用Waze导航软件时,即在进行当前位置信息
与到达目的地最有效的路线之间的数据交换。但是,很多人意识
不到这种“交换”的重要性,不愿提供有价值的数据,因此其所
得回报甚少。
机器学习的核心是在经验学习中改进算法的性能:对每个输
出的结果进行自判断并即时调整算法公式,避免再次出错,在错
误中不断学习进而得到改进。这就是数据访问十分重要的原因:
数据越多,可用来进行训练的样本越多,得到的经验就越丰富,算法可以在不断迭代的过程中不断完善。程序员创建的元算法遇
到不同的数据,就会发展成不同的新算法。这种新方法的有效性同样震撼了整个人工智能领域,部分原
因在于其底层技术并非独特的新技术。算法通过构建有解的问题
层来实现,这种层模拟了人脑的工作原理,因此常被称为“神经
网络”。在人类的大脑中,神经元之间通过突触相连,来自感官
的刺激(如新出炉面包的诱人香味)会使得某一簇特定的神经元
产生兴奋反应。当该刺激突破特定阈值时,次级神经元也将会被
激活,由此会使人产生吃面包的冲动。比如,由10个神经元产生
的兴奋反应可进一步激活次级神经元,但少于10个也许就不行。
这种触发也可能取决于来自其他神经元输入的信号强度。
早在20世纪50年代,计算机科学家们就模拟该过程创造了感
知器,其原理是:神经元就像一个逻辑门,接收输入的信息,然
后通过计算来判断是否触发并产生兴奋反应。
如图5-1所示,感知器接收3个输入,每个输入的重要性不相
同,用权重来表示:假设x1的权重是x2、x3的3倍,试计算
3x1+x2+x3,然后将结果与某一阈值相比,高则触发感知器输
出,低则不然。如果得不到预想的正确输出,将会重新调整输入
的权重。例如,x3对结果的影响可能比x2更重要,因此可将算式
改为3x1+x2+2x3。或者,可以用更简单的办法,微调一下阈值以
直接触发感知器。我们还可以进一步对感知器进行改进,使其触
发后的兴奋程度与函数超过阈值的程度成正比。此时,输出就可
以作为对数据进行评估的一个标准了。图 5-1
让我们模拟一个“确定今晚是否外出”的感知器,它做决定
取决于三个要素:(1)电视上是否有好节目;(2)你的朋友是
否一起出去;(3)今天是星期几。我们把它们看作三个变量
x1、x2、x3,并按自己的偏好在0~10选择合适的数字来给这些
选项赋值。比如,“星期一”赋值为1;“星期五”赋值为10。
根据个人的偏好,某些变量或许会受到更多的重视。假如你是个
电视迷,可能电视上播的无论是什么节目都会让你选择待在家里
看电视,那么变量x1的值就会非常高。这个公式的作用就是通过
调整权值和阈值来模拟你的行为。
就像大脑是由一连串神经元彼此联系、共同作用一样,感知
器也可以通过分层来构造出节点间的级联效应,我们称之为“神
经网络”,如图5-2所示。更为精细的感知器,如S型神经元,可
进一步地平滑输出,而不仅限于“是”和“否”两种结果。图 5-2
既然科学家们很早就懂得如何创建人工神经元,那么,从创
建到使其高效工作的这个过程,何以耗费了那么长的时间?归根
结底,还是因为数据,感知器的学习和进化需要数据的支撑。我
们可通过编程为感知器分配初始的权值和阈值,通过真实的输入
数据对其进行训练,每一次错误的预测都将会作为反馈,用以促
进权值的调整和修正。这两个因素是创建有效算法应必备的。看还是不看
人工智能首先需要突破的巨大难题是计算机的视觉问题。就
在五年前,计算机识别物体还非常困难。而人类在这方面却有着
压倒性的先天优势:人类可以迅速、准确地辨识出图片上的物
体,并进一步对图片各区域进行分区域、分类识别。虽然计算机
一瞬间可分析数百万个像素,但编写一个能将所有数据转化为有
意义的信息的算法却相当困难。如何创建一个自上而下的算法来
识别猫呢?虽然每幅图像中的像素构成是完全不同的,但人类大
脑具备惊人的能力,可迅速处理数据并输出答案——“猫”。
人类大脑识别图像的能力广泛应用在为支付等领域构建附加
的安全层(验证码)方面,以识别当前的交易对象是人类还是计
算机程序,比如网上的抢票防作弊程序[1]。这其实就是一个反
向的图灵测试。当看到一幅图像或一些特别的笔迹时,人类非常
善于辨识出这幅图像或文字的特点,而计算机程序却不足以应对
所有的变化。但是,机器学习使这一切发生了改变。
通过由猫的图像组成的数据库对算法进行训练,算法逐渐建
立起一个问题层次结构,它可以向一幅具有高准确度的图像发
问,并将其准确地识别为猫。这个算法与上一章中提到的略有不
同,并且违反了我们所定义的构成一个好的算法的四个基本原则
之一。算法在大部分时间都在工作,但达不到100%,所以关键是
要让其尽可能达到“最”。对于业内人士来说,确定性算法到概
率性算法的转变是一个重大的心理突破,类似于让数学家用工程
师的思维方式去考虑问题。既然如此,那当你在线购买最新的演唱会门票时,为什么还
会被要求去识别一组图像以便进行人机区分呢?你所做的选择实
际上是在帮助算法准备训练数据,这些数据随后会被载入算法,这样计算机就可以尝试学习你毫不费力就能做的事情了。算法需
要借助带有标签的数据才能得到训练,我们真正在做的是训练视
觉识别的算法。
用这些训练数据作为最好的问题类型可以训练算法,以便其
区分猫和非猫的图像。每当算法识别错误,它将进行调整以便下
次能够正确识别。调整的过程通常需要更改当前算法的参数或引
入新的指标以求更准确地识别图像。这种更改不是通过程序员预
判并自上而下实施的,而是由算法自身通过高频次的数据交互自
下而上构建的。
我在剑桥的微软实验室里,见识到了孩子们在家里使用的
Xbox游戏机是如何识别人在摄像机前的动作的,并深深地被这种
强大的自下而上的学习能力震撼。该算法可以很好地将人体的
头、肘、手、脚区分开来。Xbox配有一款名为Kinect的深度感应
摄像头,它可利用红外线技术记录障碍物与摄像头的距离:如果
你站在客厅里的摄像头前,它会检测到它与你身体的距离比后侧
墙壁更近,并且还能确定你身体的大致轮廓。
但人有男女老少、高矮胖瘦,特别是在玩游戏时还可能会摆
出一些奇形怪状的姿势,所以该算法需要对人体的31处特定部位
进行定位和识别。微软的算法可以达到对静态图像的识别(动态
图像识别需要更强大的分析处理能力,强行为之会导致游戏卡
顿、延迟)。那么,算法是如何确定那些特定身体部位所对应的图像中的
像素点呢?事实上,可通过一个简单的问题算法来实现,类似
于“20个问题的猜字游戏”。第1个问题是:这个字位于词典的
前半部分还是后半部分?答案如果是“前半部分”(词典此时被
一分为二),则开始第2个问题:这个字位于“前半部分”的前
半部还是后半部?此时词典被分为4个部分。依此类推,逐渐缩
小范围。当提问到第20个问题之后,词典将会被划分为220个不
同的区域,总数达到100多万,远超过牛津词典中收录的词汇数
目(约30万)。
如果我们想知道某一像素点属于身体的哪一部分,该怎样设
计问题算法呢?在过去,我们都是通过苦思冥想或突发的灵感去
设计一系列巧妙的问题。那是否能够通过计算机编程的手段,通
过大量的数据交互与训练,选择、甄别出更好、更高效的问题集
合呢?答案是“能”,它就是“机器学习”。
机器学习会从一些我们认为可能解决问题的候选问题开始,所以不算是零起点学习。学习的过程就是将最初的想法逐渐优
化,从而形成有效的解决方案。那么,你认为什么样的问题可以
帮助我们区分手臂和头呢?
假设被识别像素为x,像素深度是其与摄像头之间的距离。
若被测试人站在摄像头前,其身上的所有像素点的深度值(该点
与摄像头之间的距离值)是大致相同的,而其身后墙壁上的像素
点的深度值则明显偏大。微软团队设计的问题策略是依次对x周
围的像素点进行询问:若x位于头顶的位置,那么x以北(上)的
相邻像素点(可能是x上方墙壁上的某一点)的深度值将远大于x的深度值,而x以南(下)的相邻像素点(可能是位于x下方人脸
某个部位的一点)的深度值则约等于x的深度值;若x位于水平伸
直的手臂上,则手臂伸展方向上的相邻像素点的深度值约等于x
的深度值,而垂直于手臂方向上的相邻像素点的深度值则会由相
对不变的状态迅速变大到与墙壁上的像素点的深度值相等。随着
不断提问、回答、分析,该像素点位于身体哪个部位的答案将逐
渐浮出水面。
这种不断提问的过程相当于构建了一棵决策树,每个后续问
题形成树的一个分支。在初始状态下,选择任意的方向和深度阈
值,如“方向向北,深度值小于y时转到决策树的左分支,若大
于则转到右分支”,依此类推。我们的目标是能够找到那些提供
有价值的信息的问题。即使初始化状态是从随机问题开始的,一
旦问题的数量累积到一定程度,如应用于10 000个带标记的图像
时,我们就可以得到想要的答案。(比如说,我们判断出了在图
像872中,x位于肘部;在图像3339中,x位于左脚。)我们想象
有这样一些桶,每一只桶对应决策树的一个分支或者身体的某个
部位,这样能够确认x像素为肘部的所有的问题都可被放到其对
应的一只桶中。当然,对于第一组随机问题集来说,确定它们所
对应的桶还比较困难。但经过一段时间的学习或训练后,算法将
逐步对角度和深度阈值进行优化,每个桶中的像素将得到更好的
分类。
通过这个迭代的过程,算法会逐步调整阈值自我优化,以便
于更好地识别像素点。重要的是,我们并不需要追求完美:如果
桶中的1000幅图像有990幅均表明像素x位于肘部,就意味着识别
的正确率已然达到了99%。算法自己找到了最优的问题集合,但程序员并不真正清楚它
是如何得到这样的结果的。他们可以查看决策树中任何一个结点
及其前后结点上所询问的问题,但树中的问题超过百万个,每个
问题又略有不同,所以很难采用逆向工程法得出算法具体是怎样
解决问题的。
试想一下,数量超过百万的问题如果全靠人工编程实现,即
使再厉害、再勇敢的程序员也会闻之色变、望而生畏,然后望风
而逃。但计算机却擅长做这种工作。编程团队需要有一些创造性
的思维去相信通过对相邻像素点深度值的询问和比较,足以确定
该点所在位置,而之后的创造则属于计算机了。
机器学习所面临的挑战之一是“过度拟合”[2]。针对训练
数据提出用以区别图片的问题相对容易,但设计一个不针对特定
数据的通用程序却非常困难,它需要从数据中抽象出广泛适用的
规则。假设给定1000个人的姓名和护照号码,让你去设计问题集
合对每个人加以识别,你可能会这样提问:“你的护照号码是
834765489吗?好的,那你一定就是阿达·洛夫莱斯了!”但这
样的问题只适用于现有的数据集,对于该组数据之外的新数据来
说是难以实现身份识别的。因为护照号码是唯一的,不可能再有
其他人拥有该组数据中的护照号码。
比如,根据给定的图表中的十个点,可得到一个方程,由该
方程创建一条通过所有点的曲线。我们可以用一个十项式来表示
这个方程,但这并不能很好地揭示数据中潜在的模式,而这对于
理解和识别新数据是不利的。因此,有必要减少方程的项数,以
避免出现过度拟合的问题。过度拟合会误导你在建模时过分关注细节而错过数据呈现出
的总体趋势,然后产生不符合客观规律的预测结果。如图5-3所
示,这是一幅包含美国20世纪初人口总量的12个数据点的二维
图。其总体趋势用二次方程式描述是最合适的,但如果我们选取
的方程中x项的幂超过2时会出现什么情况?例如,方程式中x项
的幂是从0变化到11,尽管由这个方程式确定的曲线与历史样本
数据完美拟合,但一旦扩展到未来,曲线会突然向下倾斜,而这
预示未来美国的人口数量会急转直下并且到2028年10月中旬就彻
底消亡。这多少有些荒谬,或许是数学知道了一些不得了的事情
吧!
图 5-3
[1] 最贴切的例子是12306网站的购票确认验证。——译者
注[2] 指假设函数为了完美地拟合样本集,引入了过多的高次
项。虽然这样做可以得到良好的样本拟合结果,但与实际情况完
全偏离。——译者注算法的幻觉
在过去的五年里,计算机视觉识别的发展进步让每个人都
感到惊讶——新算法可以驾驭或识别的不仅仅是人类的身体。
视觉识别能力的不足,一直是计算机不能与人类智能相媲美的
最大障碍。比如,数码相机对图像细节的捕捉能力远超过人类
大脑,但在图像识别的过程中,计算机读取到的是一个个孤立
的像素点,而不是一副完整、有内容、有故事的图片。人类大
脑在图像识别的过程中是如何处理数据的,至今仍然是一个未
解之谜,更何况是我们的这些“硅朋友”[1]了。
接收到感官传递过来的信息后,人类大脑是如何将其当作
一个整体看待的?例如,骰子的颜色(红色)和形状(立方
体)在人类看来是相互关联的,大脑可以很好地将其融合成一
个统一的整体。复制这种融合能力,一直是计算机解释图像所
面对的挑战之一。按像素读取图像的方式,无法帮助计算机获
得图像的整体信息。为了更直观地说明这一点,你可以拿出一
张纸,在纸上面戳一个小洞,再把纸覆盖在一张A4大小的人脸
图片上。仅仅通过移动带洞的纸,通过洞去观察,几乎是不可
能分辨出照片中的人脸的。
五年之前的人工智能想突破这一挑战几乎是不可能的,因
为当时机器学习还未出现,而程序员们一直以来都采用自上而
下的思想设计图像识别算法。事实表明,想要通过“如果……
那么……”这样的逻辑去识别从未见过的图像,是很难实现
的。在自下而上的算法设计思路下,算法可以基于训练数据自主创建决策树,同时,网络上大量的训练数据——带标签的视
觉数据(例如,Instagram上带评论的照片),也会为人工智能
在视觉识别领域的迅速发展提供基本的支撑条件。
我们可以将图片上传至谷歌的视觉网站[2]来测试其算法的
图像识别能力。去年,我上传了一幅我们家圣诞树的照片,经
图像识别分析,算法认为图片上是一棵圣诞树的可能性为97%。
这虽然还称不上惊天巨变,但已是非常了不起的进步了。乐观
之余,算法的局限性也逐渐暴露出来,识别错误的也不乏其
例。英国大都会警察局(British Metropolitan Police)在识
别网上的儿童色情图片时发现,一旦图片涉及沙漠的景象,算
法得出的结论就开始混乱不清了。
在最近的一次采访中,数字和电子取证部门的负责人马克
·斯托克斯(Mark Stokes)坦言:“由于沙漠的颜色跟人的肤
色相近,而起伏的沙丘又极像裸露的身体曲线,所以很多人用
作屏保的沙漠图片,有时就会被误认为是色情图片了。”
长久以来,计算机科学家们一直在努力开发一些特殊类型
的图片,企图用它们“欺骗”人工智能。这些特殊的图片被称
为“对抗图像”。它们实际上是利用了计算机看世界的不同方
式,让人工智能的“眼睛”看到了并不存在的东西,我们可以
理解为人工智能产生的“视觉幻象”。麻省理工学院LabSix团
队[3]最新的研究试验表明,谷歌人工智能视觉识别系统对一只
3D打印的海龟毫无辨识能力,无论以任何角度拿着这只海龟,甚至将它放置于大海等海龟应该在的环境里,其都会被识别为
一支枪。这似乎点到了谷歌视觉识别的“完全死穴”。该团队的做法是,在海龟的表面添加一层在人眼看来极像
是海龟龟壳和皮肤颜色的纹理图案。但实际上,这种纹理是很
巧妙地用由不断变化的来复枪图案组成的。即便是在变形干扰
的情况下,计算机还是能将来复枪的图案识别出来,而且其被
识别的可能性百分比远远超过海龟。尽管此前也出现过机器将
猫的图片错误地识别为鳄梨色拉酱,但将图片稍微倾斜后,结
果就恢复正常了。LabSix的贡献在于,无论从哪个角度看这只
海龟,算法始终都会确信它看到的是一支步枪。
该团队把一幅狗的图像逐像素转换为两个在斜坡上滑雪的
人,最终狗的图像在屏幕上完全消失了,但机器仍然将其识别
为狗。尽管不知道图像是如何被算法识别的(算法完全像是一
个“黑匣子”),但是他们还是设法去“欺骗”算法。
谷歌的研究人员创造了一种更适合算法口味的图像
——“神奇贴纸”,它会导致算法忽略图片中的其他内容。其
原理就是利用了算法会优先选择它认为对图像分类更重要的那
部分像素。算法用于人脸识别时,它会自动过滤掉大部分背景
像素,比如天空、草地、树木等。就是这一张小小的“贴
纸”,一旦进入镜头,它旁边那根黄色的香蕉在机器的眼里就
消失不见了。这种“贴纸”可以被标识为任意图像,比如一台
烤面包机。无论算法正在识别的是什么图像,一旦“贴纸”进
入机器的眼帘,它都会认为自己看到的就是烤面包机。这有点
像一条狗完全被一只球分散了注意力,它的所见所想就只剩下
了“球”,而其他的一切都从它的意识世界中消失不见了。先
前的算法攻击测试绝大多数都需要事先获取被攻击对象(即被识别的图像)的大致内容,但这张“神奇贴纸”却什么都不用
做——不管它试图干扰的图像里有什么,它都能正常工作。
人类不会轻易被这些黑客手段蒙骗,但这并不意味着我们
可以彻底的免疫。比如,魔术师们就可以利用人类大脑的潜意
识行为倾向,分散我们的注意力。这里有一个典型的例子——
著名的两队传球:如果要求观众计算其中一支球队的传球次
数,他们的注意力就会完全集中在球上,而看不到一个身穿着
球衣的男子走到球员跟前,猛击他的胸部后离开了。可见,不
仅算法存在视觉盲点,我们人类一样也有视觉盲点。
无人驾驶汽车所使用的也是视觉识别算法,很明显,这些
算法也可能受到类似的攻击。想象一下,一个停车标志上贴着
一张“神奇贴纸”,一个安检系统把枪错认为一只海龟……将
会发生什么?
我尝试在摄像头前做一些奇怪的、扭曲身体的动作,以对
Kinect算法进行测试,看是否会对其识别结果产生影响。事实
上,即便是训练数据中从未出现过的瑜伽动作,Kinect算法也
能高度准确地识别出我身体的各个部位。由于缺乏外部刺激,即人身体能够做出的所有动作基本都是固定的,所以这个算法
没有进一步“进化”。事实上,它也不需要进化,因为它正在
有效地完成人类交给它的工作。而其他的一些算法可能需要不
断适应新的变化,例如,算法若要给我们推荐喜欢看的电影、想读的书、想听的音乐,那么它必须是灵活的,足以应对我们
不断变化的审美品位,并要能启发人类的思维和智慧去生成创
造性的新潮流。这就是算法能够不断学习、完善并适应新数据的力量所
在。机器学习为其开辟了一个新篇章,即算法会像我们人类一
样成长并走向成熟。
[1] 指计算机。——译者注
[2] 即 Vision 网 站 , 网 址 为
https:cloud.google.comvision。——译者注
[3] LabSix是一个独立运营的人工智能研究小组,由麻省
理工学院(MIT)的本科生和毕业生组成。——译者注第6章 算法的进化
卡尔·荣格(Carl Jung)
知识不仅建立在真理之上,也建立在错误之上。
现代算法是可以自学的,尤其是推荐系统算法,它可以根
据每个人的喜好推荐有趣的东西给我们,比如说适合的电影、书籍、音乐,等等。算法通过与用户之间的交互过程,获取用
户的个人偏好信息,并从中学习进一步完善自身,发现其中的
关联关系,以便为下一位用户提供更优质的推荐信息。为了满
足自己的好奇心,我研究了其中一种算法,想知道它到底能有
多了解我。所以,在剑桥微软实验室测试Xbox游戏机所用的
Kinect视觉识别算法时,我顺便拜访了一位同事,想向他了解
一个实时推荐系统的算法原理。
该推荐系统的用户界面上随机排列了约200部影片,我要做
的是如果看到自己喜欢的影片,就把它拖放到屏幕的右侧。其
中的确有一些是我比较喜欢的影片。因为我是韦斯·安德森
(Wes Anderson)的超级粉丝,所以就把《青春年少》拖到了
屏幕右边。于是,屏幕中的影片位置自动调整,将我可能喜欢
的电影放到靠右侧的位置,而将我可能不太喜欢的电影放到靠
左侧的位置。仅仅通过一部电影是不足以训练算法的,所以大
部分尚未被分类的影片仍然停留在屏幕中间的区域。《王牌大贱谍》这部影片我觉得很无聊,属于我特别不喜
欢的类型,所以我就把它拖到了屏幕左侧的回收站里。这一操
作为算法提供了进一步学习所需的新信息,使屏幕中影片的位
置又进行了一次调整,我似乎能感觉到算法对自己提供的建议
很有信心:它将伍迪·艾伦(Woody Allen)的《曼哈顿》推荐
为我喜欢的电影。这部影片确实是我喜欢的,尽管算法是对
的,但此时它还没有给我特别多的惊喜。它可能觉得我会比较
喜欢《摇滚万岁》,所以将这部电影向右侧移动了。但事实恰
好相反,我不能忍受这部影片,所以我把它拖到了回收站里。
算法本来以为我会喜欢《摇滚万岁》,但事实上我不喜
欢,从这个过程中它获取到了重要的新信息。屏幕上的影片又
一次进行了重新排列,并且此次调整的幅度非常大。这是因为
系统后台的算法程序发生了微妙的改变——它根据我此次的选
择学到了更多的“新知识”,并微调了推荐系统的模型参数。
它判断我可能喜欢《摇滚万岁》这部影片的概率过高,所以通
过修正特定的参数来降低其值。虽然此前它从别的既喜欢韦斯
·安德森又喜欢《曼哈顿》的那部分影迷处得知,他们也喜欢
《摇滚万岁》这部电影,但这一条并不适用于我。
正是这种人机交互给算法提供了持续学习的新数据,使它
可以不断进行自我调整以适配我们的喜好。在当今社会,这些
算法在我们做出各种抉择时发挥了巨大作用:选择电影、音
乐、书籍,甚至伴侣,等等。如果你喜欢……
电影推荐系统的算法原理比较简单。假定你喜欢电影A、B和
C,而另一个用户也喜欢它们,但他还喜欢电影D,那么,D极有
可能也是你所喜欢的。当然,现实中数据之间的逻辑关系并非如
此简单。你喜欢电影A、B和C是因为这些影片里有你最喜欢的某
位演员,但他并没有出演D这部电影。而另一个用户之所以喜欢
A、B、C、D四部电影,是因为它们都是惊险刺激的间谍电影。
算法通过查看你所提供的信息,分析出你喜欢某类电影的原
因,进而会把你和那些曾经做出过相同选择的人匹配、关联到一
起。算法需要在大量的初始数据样本基础上展开工作,这一点跟
许多机器学习算法是相同的。机器学习的一个重要特点是,人类
必须参与到数据的分类过程中,以便让机器知道它所看到的到底
是什么。这种管理数据的行为为算法提取潜在信息的模式做好了
紧前准备。
算法在用户浏览影片库的行为过程中拾取关键特征值,如浪
漫爱情喜剧、科幻片,或者是某位演员、某位导演的作品。但
是,这种方法并不理想。首先,非常耗时;其次,分类的过程存
在不客观因素,计算机最终学会的是已知的知识,而不能发现新
的潜在趋势,从而导致计算机形成拟人态的思维定式。从最原始
的数据中学习并发现模式是训练算法最好的方式。
奈飞公司开发出自己的电影推荐系统后,在2006年举办了奈
飞大奖赛,期望通过竞争来发掘最优的算法。当时,奈飞公司已经积累了大量的电影评级数据,评分等级分为1~5星。于是,它
公开了一个包含100 480 507个元素的电影评级训练集合,这些
元素取自480 189个用户对17 770部电影的评价。然后,奈飞公
司将17 770部电影的名称替换为数字序号,即变为匿名状态。比
如,2666代表的可能是《银翼杀手》,也可能是《安妮·霍
尔》,或其他任何一部影片。只有用户给这部电影的评分是已知
的。
同时,奈飞公司还公布了一个包含2 817 131个元素的测试
集合。测试集合的用户对电影所做的评价是未知的,因此参赛队
提交的算法必须预测测试集合中所有的元素所对应的评价等级。
比如,根据已有的数据预测出用户234654对2666这部影片的评价
等级。重赏之下必有勇夫,奈飞公司宣布设立100万美元奖金作
为奖励,获奖条件是:以推荐效率提高10%的优势击败奈飞的自
有算法。附加条件是:获胜者必须公开自己的算法并授予奈飞公
司非排他性的许可,让奈飞公司有权使用这个算法向用户推荐电
影。
除了100万美元的终极奖项,大赛还设立了几个进步奖:将
上一年度成绩最好的推荐算法的效率提高至少1%的团队,将获得
进步奖50 000美元。该奖项每年度都会有,但领取奖金的前提条
件依然是需要公开算法的代码。
可能你会觉得从这样的数据里得不到有价值的信息,因为你
甚至不知道2666所代表的影片是喜剧片还是科幻片。事实上,原
始数据所蕴含的信息远比我们想象的要多。假设我们将每部电影
视为一个维度,所有影片就构成了一个17 770维度的空间,那么每个用户就可以被看作这个17 770维空间中的一个点。每一部电
影对应一个维度,用户对影片的评价越高,那么在该维度上此点
偏离原点的距离就越远。当然,除非你是一个数学家,不然把用
户看作17 770维空间中的点是很难想象的。实际上,我们可以把
高维空间看作三维空间的扩展。假定只有3部影片被评级,我们
可以用图形化的方式将用户与影片评级的关系表示出来。
假设电影1是《狮子王》,电影2是《闪灵》,电影3是《曼
哈顿》。某一用户对这三部影片的评级分别为1星、4星和5星。
用x、y、z轴表示用户对电影1、电影2、电影3的喜爱等级,建立
三维空间直角坐标系,如图6-1所示。这时,我们可以确定该用
户在坐标系中的位置是(1,4,5)。图 6-1
虽然在几何上无法绘制出17 770维空间以呈现用户在该空间
上的所在位置,但数学可以。如果能把用户看成17 770维空间中
的点,那么同样能把影片看作480 189维(用户数)空间中的
点,此时,如果用户对影片评价越高,那么在该维度上此点偏离
原点就越远。这些点分散在如此之大的维度中,很难发现其间存在的模式。因此,如果希望借助计算机找出数据中包含的信息,那么就需要降维处理。
这就好比一系列从不同角度得到的某人的头部剪影,其中一
些更具代表性,更容易辨识一样。比如,希区柯克
(Hitchcock)的侧影轮廓就比正面投影更易辨认。电影和用户
就像脸上一个一个的点,以一个角度投影,可能会看到这些点连
成一条线,而以另外的一个角度投影,则可能并不会发现有明显
的信息出现。
按照这个思路,我们或许能找到一种办法,将高维空间中的
电影和用户对应的点同时投射到一个二维平面上,这样用户对应
的点就会非常接近他喜爱的电影所对应的点。这种办法的巧妙之
处就在于,能够寻找到揭示影片、用户所具有的潜在特征的合适
投影。例如,图6-2是100个用户和500部电影匹配过后在二维平
面中的投影,所使用的数据均来自奈飞公司的数据库。代表用户
的点与代表影片的点很好 ......
您现在查看是摘要介绍页, 详见PDF附件(3424KB,404页)。





