人工智能:改变世界,重建未来.pdf
http://www.100md.com
2020年2月17日
![]() |
| 第1页 |
![]() |
| 第9页 |
![]() |
| 第16页 |
![]() |
| 第26页 |
![]() |
| 第43页 |
![]() |
| 第82页 |
参见附件(1156KB,144页)。
人工智能:改变世界,重建未来,这本主要为读者普及了人工智能的知识,从人工智能的出现到普及,从中经历了一些什么,读者们都可以在这本书中找到答案。

人工智能简介
为何只能在有限范围使用的弱人工智能突然变得聪明起来?拥有人类的创造力、复制人类的思维……人工智能究竟能走多远?
从无所不知的语音助手到复制人类思维的虚拟替身,这本书将人工智能发展历史上一个个有趣的故事串联起来,并梳理了计算机之父艾伦?图灵、深度学习鼻祖杰夫?辛顿等众多对人工智能的发展起到重要作用的历史人物,把科幻与真实交错、古老与现代并存的人工智能立体地展现在我们面前,多角度地描绘了人工智能时代的精彩,同时也提出人工智能时代来临人类的应对之策。
人工智能作者
卢克·多梅尔,著名科技记者,纪录片和电影制片人,与世界上很多大型科技公司都有合作。经常为《连线》、《卫报》、《快公司》等媒体撰写科技类文章。曾出版《算法时代》《苹果革命》等著作。
人工智能主目录
第一章 表现不俗的传统人工智能怎么了
第二章 以自主学习的方式创建新的人工智能
第三章 万物互联的智能时代已经来临
第四章 人工智能助手如何为我们效劳
第五章 人工智能正在改变就业市场
第六章 人工智能真的具有创造力吗
第七章 意识上传实现人类永生
第八章 人工智能关乎未来的一切
人工智能书摘
1964年纽约世博会上凸显了人工智能愿景的两种表现。第一种表现是人们对于等待着他们的未来有多么乐观。尽管冷战威胁时隐时现,但在19世纪60年代,人们却在许多方面都表现出惊人的乐观态度,毕竟在60年代初,约翰·肯尼迪总统宣布:在10年内,人类将登上月球。而在这10年的结尾,人类确实做到了。如果连这都能做到,那么解析和重建意识看似更容易实现。政治学家、人工智能创始人之一赫伯特·西蒙(Herbert Simon)于1960年宣称:“我们离复制人类大脑解决问题的能力和信息处理的能力已经不远了。”可能是借鉴了肯尼迪向对手下战书的方式,他随意地加上了自己估计的时间:“如果我们在未来10年还未实现这一愿景,那才令人惊讶。”
西蒙的预测后来无望地落空了,但事实证明,有关纽约世博会的第二种表现就是:IBM当时并没有错。尽管我们坚持认为人工智能尚未普及,但1964年人惊掉下巴的三项技术如今已司空见惯。光学扫描和信息检索已演变成互联网,让我们在一瞬间获得的信息比原本一生可能获得的信息还要多。虽然我们仍然无法预见未来,但是基于用户不断预测我们可能感兴趣的新闻故事、书籍或歌曲所生成的巨大数据集,我们正在人工智能方面取得巨大的进展。这种预测的连通性不仅限于传统意义上的计算机,而且还通过大量智能传感器和设备嵌入到了周围的设备、车辆和建筑中。.....
人工智能:改变世界,重建未来截图


扉页
人工智能
[美] 卢克·多梅尔 著
赛迪研究院专家组 译
中信出版社目录
推荐序
前言
第一章 表现不俗的传统人工智能怎么了
未来已来
人工智能的三位卓越先驱
达特茅斯会议
传统人工智能的黄金时期
太空机器人沙基
“中文房间”实验
莫拉维克悖论
转变目标
专家系统
谷歌诞生
第二章 以自主学习的方式创建新的人工智能
自主学习的重要性
神经科学之父
以神经元模型为基础的感知器
关于感知器的争论
霍普菲尔德网的兴起
神经网络的守护神
联结主义者
欢迎来到深度学习领域
人工智能新主流
第三章 万物互联的智能时代已经来临
智能设备成为现代生活的必需品
会思考的事物
“控制论”简史
早期的自动机器人
计量生物学上的记录者
未来家庭
机器学习的普及
智慧城市
做好互联网消失的准备
智能设备存在的问题
第四章 人工智能助手如何为我们效劳
打败图灵测试
人工智能助手的兴起
多功能的人工智能助手
从被动人工智能助手到主动人工智能助手
数字民主
与人工智能助手相爱人工智能的人性化
合格的心理治疗师
出门请带上它们
第五章 人工智能正在改变就业市场
亲爱的沃森
一个技术性失业的世界
技术更新换代的积极意义
新工作机会的产生
土耳其机器人的复仇
人工智能中的人类元素
第六章 人工智能真的具有创造力吗
机器人的创造力
什么叫创造力
“重生”的甲壳虫乐队
天才的灵光一现
人工智能能否成为发明家
洛夫莱斯测试
祝贺沃森大厨
第七章 意识上传实现人类永生
利用机器实现死后永生
个性捕捉
延长人类寿命
模拟神经元
绘制大脑
下一个大事件
意识上传
第八章 人工智能关乎未来的一切
末日的开端
奇点来临
狭义与广义的区别
人工智能带来的风险
“黑箱”风险
我们无法起诉机器人
机器人学的三大法则
人工智能的权利
结论 当机器变得更加智能
致谢
译后记谨以此书献给我的朋友
亚历克斯·米林顿(Alex Millington)推荐序
人工智能是研究人类智能行为规律(如学习、计算、推理、思考、规划等),构造具有一定智慧能力的
人工系统,以完成往常需要人的智慧才能胜任的工作。中国、印度和希腊哲学家在公元前近千年已经提出关
于形式推理方法的思考,中国、埃及和希腊的能工巧匠也曾尝试制作精巧的歌舞人偶。20世纪30年代末到50
年代初,香农、图灵和冯·诺伊曼等奠定了现代信息论和计算机科学的理论基础,图灵还提出了著名的图灵
测试:“如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能。”预言了
创造出智能机器的可能。随着计算机科学与应用技术的发展,1956年夏,美国达特茅斯会议上,人工智能概
念和研究领域被正式提出和确立。人工智能涉及计算机技术、控制论、信息论、语言学、神经生理学、心理
学、数学、哲学等多学科领域的交叉与融合,其概念与内涵也在随着相关学科和应用领域的发展而持续变
化。当前,人工智能主要是指那些通过软硬件结合可以达到人类事件处理能力的机器智能。它已经成为被高
度关注、广泛使用、快速发展的科技领域。
从发展阶段看,20世纪中叶至今,人工智能虽快速发展,但仍处于单台或局域成组机器处理简单任务的
弱人工智能阶段。依靠全球网络、大数据和云计算能力,终端云端协同实现具有人类思考方式和多样复杂任
务处理能力的强人工智能还处于发展初期。近年来,人工智能技术呈现加速发展态势,其发展水平也达到了
前所未有的高度。从几年前打败国际象棋大师的IBM“深蓝”,到现在打败李世石的谷歌AlphaGo、无人机与无
人驾驶汽车等;从依靠海量计算能力的强计算弱智能,到依靠深度学习大数据、云计算的网络协同强智能,人工智能技术和发展模式正在发生深刻而本质性的转变。
人工智能已经在深刻而广泛地改变着人们的生活。从手机智能系统、机器视觉到图像识别,从嵌入软件
到智能控制,从大数据采集到分析理解等,都渗透着人工智能的创新应用。人们依靠智能导航出行,通过语
音与机器互动,应用智能工具搜索智识信息……我们已自觉或不自觉地处于人工智能的环境中。许多过去被
视为只有依靠人的智力才能胜任的复杂工作,也开始出现被机器完美替代的可能。今天,我们要选择的已经
不是是否接受人工智能,而只能是选择以科学理性的方式应用人工智能造福于人类,并共同应对人工智能应
用可能带来的法律伦理、公共和国家安全等新的挑战。
人工智能在生产领域中的应用,为新时代的产业结构升级变革提供了新的机遇。在这万物互联的时代,人工智能以增强机器智力的方式替代人或与人协同工作,促进网络智能设计制造与服务,将大幅提升劳动生
产率,重塑产业链与价值创造和分配方式。灵活多样的众创、众筹能力与人工智能技术相结合将为节能减
排、绿色发展,提质增效、产业升级创造新的机会。
本书从人工智能的萌芽到人工智能未来发展方向给予了系统解读。围绕人工智能在生产、生活中存在的
方式和可能发挥的作用,展示了人工智能诸多应用场景和技术创新发展的方向。虽然当前的人工智能还不具
备自主创造能力,但它对生产生活引发的深刻变革,它所展示的勃勃生机将激励政产学研用金各方去协同创
新发掘。伴随着众多人工智能相关书籍、刊物和网络新媒体的广泛传播,相信更多的人将对人工智能产生更大的兴趣、给予更大的关注,将会对它有更深刻的认知,必将会有更多的人才、资源投入人工智能领域。
我国从20世纪70年代末开始启动人工智能研究,并将其列入国家高技术研究计划。进入新世纪后,国家
更加重视人工智能的发展,不断加大对相关技术研究和应用发展的支持力度,计算机视觉、语音识别和语言
技术处理等人工智能技术快速发展,已进入国际先进行列。《中国制造2025》提出以加快新一代信息技术与
制造业的深度融合为主线,以推进智能制造为主攻方向,通过智能技术创新和智能制造的应用发展,适应个
性化、定制式设计制造服务,促进中国制造向全球制造产业链、价值链的中高端拓展,实现由大转强。
国家制造强国建设战略咨询委员会是实施制造强国战略的咨询机构,始终把研究推动智能制造发展作为
一项重要的职责。人工智能是智能制造的基础核心技术。为跟踪国际人工智能的发展趋势,为读者提供人工
智能的最新发展动态,我们组织有关专家翻译出版本书。值得指出的是,知识网络时代,在全球多样化、个
性化、定制式市场需求的推动下,在万物互联、大数据、云计算等信息·物理·计算环境的支持下,人工智能
技术与制造服务深度融合创新发展与产业化速度将愈加快捷迅猛。国家制造强国建设战略咨询委员会将继续
发挥自身的专业优势,通过组织编译国外相关优秀著作,努力为社会各界特别是制造业领域提供更多的关于
人工智能及智能制造的前沿研究成果和创新发展的信息。
2016年9月前言
计算机的那只红眼睛能洞悉一切,它目不转睛,也不眨眼。说话的语气从容平静。
“嗨,”它说,“我们还要继续比赛吗?”
它指的是那天早些时候开始的棋局。但是你真的没有心情继续这盘棋,这不是因为计算机总是赢你(尽
管这是事实),事实上,你之所以恼怒,是因为它犯下了一个令人费解的错误,这个错误与重要机器的关键
部件可能出现的故障息息相关,甚至关系到你能否继续生存下去。尽管计算机坚持称这些部件已经出了故
障,但你亲自检查后,却发现它们依然处于良好的工作状态。现在你想知道真正的答案。
“是的,我知道你发现它们还在正常运转,但我可以向你保证,它们将要出故障。”计算机一边说,一边
试图用那种惯常的、毫无情绪的声音安抚你。
你感觉自己已经怒火中烧了。
“够了,根本不是这么回事,”你气急败坏地嚷道,“这些零件完全没有问题,我们在百分之百的过载条
件下进行过测试。”
“我并不是质疑你的话,但是这的确是有问题的。”计算机继续说道。
随后它又说了6个字,你知道这些话是对的,但这绝对不是你现在想听到的话:“我不可能出错。”
影迷们可以很快发现,这是斯坦利·库布里克(Stanley Kubrick)的经典电影《2001:太空漫游》中的一
幕,讲的是有意识的计算机流露杀机并且企图杀死太空船中全部船员的故事。
多年以来,这曾是我们看待人工智能的方式:它是一种若隐若现的威胁,但只安全地存在科幻小说中。
但现在已经不再是这样了。
今天,人工智能的梦想早已走出了影院与科幻小说,进入了人们的现实生活。人工智能可以驾驶汽车,交易股票,仅通过观看视频网站Y ouTube就能学会施展复杂的技能,在不同语种间任意切换,它比我们更加
精确地识别人脸,以及创立原始的假设从而发现治愈疾病的新药。而这仅仅是个开端。
《人工智能》讲述的是人工智能的进化之旅及其对人类的意义。在阅读这本书的过程中,我们将遇到假
装有娈童癖的计算机、会跳舞的真空吸尘器、会下棋的人工智能以及旨在与死后的人进行对话而被上传了个
人意识的计算机。
这是关于我们如何设想未来的故事,以及在一个充满技术的世界,我们在面临计算机智能不断加速发展
的情况下如何为人类塑造自己的角色的故事。这是一个关于创造性的本质、未来就业以及当所有知识成为数
据并且可以电子存储时,即将发生什么的故事。当我们制造的机器比我们更加聪明,我们将要做什么,人类现在还具备什么优势,以及你和我是否也是一种会思考的机器。
1950年,英国数学家和计算机科学家先驱人物艾伦·图灵(Alan Turing)曾预测,到20世纪末,“词语的
使用与一般的教育主张将发生巨大改变,届时人们谈论机器思维时,不会有人对此进行反驳”。
就像许多未来学家对技术的预测一样,图灵对未来非常乐观,但并不过度乐观。在21世纪初期,与“智
能”相关的技术以及“机器学习”已经是很常见的话题,而这些概念在图灵时代曾使许多人感到匪夷所思。
如今,人工智能作为一门学科已经诞生60年,它依然是人类最重大、最具雄心的项目:努力建造真正的
会思考的机器。随着时光的流逝,技术人员离实现这个目标越来越近,未来的一抹曙光也正在天际迅速明
朗。
《人工智能》讲述的正是这种熠熠生辉且近在咫尺的未来,隐藏在角落里的变化,以及它们将如何永久
性地改变我们的生活。第一章 表现不俗的传统人工智能怎么了
第一章
表现不俗的传统人工智能怎么了
[2]的“土星5号”运载火箭船尾的复制品。该运载火箭不久后在阿波罗太空计划中协助人类成功登上了月球。在港务局大楼,人们排队观看
壮观的纽约世界贸易中心“双子塔”的建筑模型。两年后的1966年,世界贸易中心破土动工。
如今,大部分上述进展会让人不禁缅怀过去的科技进步。在“更大、更高、更重”的雄伟壮阔中,这些进
步完成了与过去时代的对话。那个时代对当年的世博会参观者还是个未知数,而如今却即将走向终结。工业
时代逐渐淡出,被个人电脑所引领的信息时代所取代。对于那些1964年以后出生的孩子来说,数字将代替他
们工程师梦想中的铆钉。苹果公司的史蒂夫·乔布斯在纽约世博会举办那年只有9岁,谷歌联合创始人拉里·
佩奇和谢尔盖·布林在纽约世博会举办近10年后才出生,而Facebook(脸谱网)的马克·扎克伯格则在纽约世
博会举办20年后才来到这个世界。
最后,法拉盛草原可乐娜公园中最前卫的区域是IBM(国际商用机器公司)的展区。IBM在1964年世博
会上的任务是在航天火箭和核反应堆等更负盛名的奇观中,强化公众对于计算机(更具体而言是人工智能)
的认知。为此,IBM选择世博会作为全新System360系列大型计算机的推介平台——据说,该系列计算机的
性能非常强大,足以作为智能电脑首台原型机的基础。
IBM在世博会上最引人瞩目的展示当属美国夫妻档设计大师查尔斯(Charles)和蕾·伊姆斯(Ray
Eames)设计的巨蛋形展馆。这颗飞艇般大小的“巨蛋”耸立在一片由45棵32英尺高的几何形金属片树木所构
成的“森林”中;14 000片灰色和绿色树脂玻璃叶片展开后形成一个一英亩的硕大穹顶。兴奋不已的世博会参
观者需要乘坐一台专用的液压电梯进入“巨蛋”,然后可以坐在一个高科技放映厅内观看一段关于人工智能未
来的视频。一位激动不已的评论者借用IBM从19世纪20年代就开始使用的品牌口号“Think”,这样写道:“观
看着,思考着,并且惊叹着人类及其所创造的机器的奇妙智慧。”
IBM在这场盛会上展示了多项令人印象深刻的技术。开创性的手写识别计算机便是其中之一,并被世博
会官方手册称为“光学扫描和信息检索”系统。在该系统的演示中,参观者可以在一张小卡片上亲笔写下任意
一个1851年后的历史日期。然后,卡片被插入“光学字符读取器”,并在该设备中被转换成数字格式,然后再
转发给当时最先进的IBM 1460计算机系统。随后,计算机磁盘上一个大型数据库中存储的当日重大新闻事件
被打印在一张穿孔卡片上,颇有纪念意义,也让使用者惊叹不已。一张保存下来的穿孔卡片上如是写道:
《纽约时报》在你所写下的日期报道了以下新闻事件:1963年4月14日:30 000名朝圣者在复活节造访耶路撒冷;教皇约翰·保罗为人类的真理和爱祷告。
[3]之外的纽约金士顿一台强大的IBM大型计算机之间的专用数据连接,所有繁重的计算工作都由这台计算机来完成。
机器翻译对计算机的清晰思维如何引领我们走向乌托邦进行了简明且出色的概括。政治家们可能无法结
束冷战,但他们也只是普通人——有着人类可能具有的所有缺点。议员、将军,乃至总统都严重缺乏当时学
术界刚刚开始提出的“机器智能”。智能机器能否比人类做得更好?在1964年的世博会上,激动万分的公众一
睹科研人员最乐观的愿景。人工智能给出的建议是,只要能够在机器中尽量利用和复制人脑的最深层奥秘,那么全球和谐终会得以保障。
世博会的官方标语“理解构筑和平”是这一切的最佳总结。未来已来
1964年纽约世博会上凸显了人工智能愿景的两种表现。第一种表现是人们对于等待着他们的未来有多么
乐观。尽管冷战威胁时隐时现,但在19世纪60年代,人们却在许多方面都表现出惊人的乐观态度,毕竟在60
年代初,约翰·肯尼迪总统宣布:在10年内,人类将登上月球。而在这10年的结尾,人类确实做到了。如果
连这都能做到,那么解析和重建意识看似更容易实现。政治学家、人工智能创始人之一赫伯特·西蒙
(Herbert Simon)于1960年宣称:“我们离复制人类大脑解决问题的能力和信息处理的能力已经不远了。”可
能是借鉴了肯尼迪向对手下战书的方式,他随意地加上了自己估计的时间:“如果我们在未来10年还未实现
这一愿景,那才令人惊讶。”
西蒙的预测后来无望地落空了,但事实证明,有关纽约世博会的第二种表现就是:IBM当时并没有错。
尽管我们坚持认为人工智能尚未普及,但1964年令人惊掉下巴的三项技术如今已司空见惯。光学扫描和信息
检索已演变成互联网,让我们在一瞬间获得的信息比原本一生可能获得的信息还要多。虽然我们仍然无法预
见未来,但是基于用户不断预测我们可能感兴趣的新闻故事、书籍或歌曲所生成的巨大数据集,我们正在人
工智能方面取得巨大的进展。这种预测的连通性不仅限于传统意义上的计算机,而且还通过大量智能传感器
和设备嵌入到了周围的设备、车辆和建筑中。
福尔摩斯木偶剧旨在展示通过计算机逻辑可以完成多种任务的方式。我们的计算机逻辑方法已经在某种
程度上做出了改变,但是在查看两张照片并且判断照片中是否为同一人时,福尔摩斯可能还是会被精确度高
于人类的现代人脸识别算法所折服。福尔摩斯的创造者、作家柯南·道尔(Conan Doyle)是一位毕业于爱丁
堡大学(如今是英国顶尖人工智能院校之一)的专业医生。如果他看到疾病诊断效率高过许多人类医生的人
工智能Modernizing Medicine(现代化医疗),也很可能会对此赞叹不已。
最后,世博会上神奇的机器译员已发展演变成为今天我们最为熟悉的谷歌翻译:一项拥有惊人的高准确
率、涵盖58种不同语言(共计3 306项独立翻译服务)的免费机器翻译服务。如果说世博会设想的是俄语与
英语之间的即时翻译,那么谷歌翻译则更进一步,它能够提供冰岛语和越南语或者波斯语和意第绪语等此前
受到局限的语种之间的翻译。凭借云计算,我们甚至不需要固定的主机来执行计算,只需要比一副纸牌还
小、被称为智能手机的便携式计算机即可。
在某种程度上,由于所有这些技术现已存在,而且不仅存在于研究实验室中,而是几乎每个想要使用它
们的人都能唾手可得,因此很难说我们还没有进入人工智能时代。与我们在生活中为自己制定的许多虚无缥
缈的目标一样,人工智能成为计算机科学的“梦幻岛”:一种总是潜伏在下一个转角的虚空“假设”。
但是,如果因此就认为人工智能自60年前诞生到今日一直在直线发展就大错特错了。在开始普及目前推
动人类重大进步的大规模“深度学习神经网络”前,我们必须对人工智能的历史有更多的了解。
我们也必须了解,长期以来,在走上错误的道路前,人工智能是看上去发展得很顺利的。人工智能的三位卓越先驱
数千年来,人类一直梦想着为无生命的物体注入生命。但当谈到人工智能在普通人中的普及时,就得从
世界上第一台可编程计算机——重达30吨的巨型计算机ENIAC开始说起。在1945年“二战”结束后仅6个月,宾夕法尼亚大学就制造出了兼具电子数字集成器和计算器功能的ENIAC。这台计算机耗费了500 000美元的
美国军事基金,其运算速度比作为竞争对手的其他机电机器快了大约1 000倍。这台机器及其所代表的理念
令媒体极为感兴趣。他们将这台计算机称为“巨脑”。
建造这样一个“巨脑”的想法令人们为之神往。“二战”结束以前,“电脑”专指在记账等领域进行计算的
人。忽然之间,电脑所代表的不再是人了,而是装有电子管和晶体管的机器,而且这些机器的计算速度甚至
比最有计算天赋的人还要快得多。“二战”及其余波激发了人们对认知心理学的兴趣。仅在战时,美国心理学
会的会员人数就从2 600人增至4 000人。到1960年,仅15年间,会员人数就激增到了12 000人。认知心理学
研究人员将人类大脑想象成一台机器,复杂行为可以通过这台机器表现为多重简单响应的综合结果。认知心
理学家关注的是人类行为中切实可观测到的事物,而非在无法证实的“心理实体”上浪费时间。“行为主义”等
领域因此应运而生,因老鼠实验而闻名的著名心理学家伯尔赫斯·弗雷德里克·斯金纳(B. F. Skinner)称行为
主义为“行为的技术”。
工程师们之前一直对心理学形而上学的层面避而不谈,但是他们都被一个概念深深吸引,即人脑可能成
为电脑。他们同样开始醉心于研究记忆、学习和推理,许多心理学家都将其视为人工智能的基础。激动人心
的是,他们同样意识到,与人类相比,计算机具有潜在优势。例如,ENIAC每分钟能够计算多达20 000次乘
法,这样的计算能力着实令人惊讶。人类的记忆并不可靠,而相比之下,一台每微秒访问数千条项目的机器
更能凸显出优势。
专门介绍现代计算诞生的书籍有很多,其中三名作者脱颖而出,他们为我们现在所熟知的人工智能领域
奠定了哲学和技术基础。他们就是:约翰·冯·诺依曼、艾伦·图灵和克劳德·香农。
冯·诺依曼是土生土长的匈牙利人,1903年出生在布达佩斯的一个犹太银行家家庭。1930年,冯·诺依曼
来到普林斯顿大学担任数学教师,三年后成为新成立的普林斯顿高等研究院的6位教授之一,并担任这一职
位直至去世。无论以什么标准来衡量,冯·诺依曼都堪称才智惊人。相传,他在6岁时就能计算8位数的除
法。“二战”期间,冯·诺依曼在洛斯阿拉莫斯(Los Alamos)参与了曼哈顿计划(Manhattan Project),他的
一项艰巨任务就是计算氢弹爆炸的精确高度,即在什么位置爆炸能够造成最大的破坏效果。冯·诺依曼对计
算领域做出的主要贡献是,提出在计算机存储器中设置计算机程序存储的理念。实际上,冯·诺依曼是第一
个将“记忆”这一人类专用术语应用于计算机的人。与同时期的其他人不同,冯·诺依曼并不认为计算机能够
像人类一样思考,但是他却创建了与人类面相学相并行的学说。他在一篇文章中指出,计算机零件“相当于
人类神经系统中的神经元。感觉神经元(传入神经元)和运动神经元(传出神经元)之间的共同点仍有待探
讨”。其他人会很高兴接过这一挑战。艾伦·图灵是英国的数学家和密码专家。“二战”期间,他在英国布莱切利公园密码破译中心担任政府密
码学校的领导,并提出了许多破译德军密码的方法,其中最著名的就是发明了能够破译英格玛(Enigma)密
码机设置的机电装置。这使他在破译截获信息方面发挥了重要作用,最终帮助同盟国战胜了纳粹。图灵
对“思考的机器”这一想法十分着迷,并设计了著名的图灵测试,我们在后面的章节会进行详细探讨。图灵小
时候非常喜欢一本书——《每个孩子都应该知道的自然奇观》(Natural Wonders Every Child Should
Know),作者艾德文·坦尼·布鲁斯特(Edwin Tenney Brewster)称:“这本书试图引导8—10岁的孩子对如下
问题自问自答:‘我与其他生物有什么相同之处?我们之间又有哪些不同?’”布鲁斯特在书中写道:
当然,这就是一台机器。虽然它比以往任何机器都复杂得多,但归根结底也只是一台机器。人们曾
把它比作一台蒸汽机,但那时我们对它的了解远没有现在多。它实际上是一台燃气机:就像汽车、摩托
艇或飞行器的引擎。
图灵的一个重要理念就是通用图灵机(Universal Turing Machine)。与其他拥有单一功能的电脑相比,图灵诠释了如何通过阅读磁带上的分步说明来使用电脑去完成多个任务。他写道,电脑“实际上能够作为其
他机器的模型”。这就意味着没必要在完成每项任务时使用不同的机器。图灵指出:“我们无须再为不同的任
务制造不同的机器,只需对通用机进行‘编程’即可完成这些任务。”
图灵猜测,其中一项任务就是模仿人工智能。他在《智能机器》这篇文章中将在机器中复制人工智能称
为“一项特殊的挑战”,因为当时的计算机还存在一定的局限性。他认为“人脑的存储容量大约为100亿二进制
数字,但其中大部分存储容量被用于记忆视觉印象,或以其他方式浪费掉了。人们有理由希望通过数百万字
节的计算机内存而在人工智能方面取得实际的进展”。
人工智能的另一位创始人为克劳德·香农,也就是今天的“信息理论”之父。香农出生于1916年,是三位
创始人中最年轻的一位,他为计算领域做出的最大贡献是提出了晶体管的工作原理。晶体管是数十亿个微小
的开关,电脑就是由这些开关组成的。算法就是指令序列,通过打开或关闭晶体管向电脑传达指令。香农认
为,电脑在接到其他晶体管指令后打开或关闭特定的晶体管,通过这一方式进行基本的逻辑分析。他指出,如果在打开2号和3号晶体管的同时打开1号晶体管,那么这就是一个逻辑运算。如果在打开2号或3号其中一
个晶体管时打开1号晶体管,这就构成第二个逻辑运算。如果在2号晶体管关闭的情况下打开1号晶体管,这
就是第三个逻辑运算。就像简单的口语词汇一样,所有计算机算法都可以归为以下三种状态之一:与、或、否。香农将这些简单的状态合并成复杂的指令序列,并且建议执行复杂的逻辑推理链。达特茅斯会议
上述三人之中,只有香农继续探索并积极推动人工智能正式成为一个学科。遗憾的是,图灵和冯·诺依
曼分别在41岁和53岁时英年早逝,但他们的理念和影响却延续至今。艾伦·图灵是同性恋,在那个时代的英
国,同性恋是违法的。尽管图灵的密码破译工作对英国战胜纳粹德国起到了至关重要的作用,但功不抵过,1952年他被指控严重猥亵。作为惩罚,图灵必须在坐牢或化学阉割中做出选择,而他选择了后者。两年后,图灵吞下涂有氰化物的苹果自杀。2013年,他的罪行得到英国皇家的赦免,并且有人提议制定“图灵法”,以
赦免那些在历史上被指控犯有猥亵罪的同性恋。
冯·诺依曼死于癌症。他之所以患上癌症,很可能是因为他曾参与原子弹项目。与冯·诺依曼关系密切的
一位同事在《经济学杂志》(Economic Journal)上刊登的讣告中称,他的思维“十分特别,有些人(同样是
杰出的科学家)不禁扪心自问:他是否将人类心智发展带入了一个新阶段”。
随着两位创始人的离去,其他年轻研究人员接过了建造思考的机器的重任。第二波人工智能研究人员第
一次正式为该领域命名,将其确定为一个独立的学科。1956年夏天注定是一个不平凡的夏天:埃尔维斯·普
雷斯利的电臀舞(hip gyration)震惊了观众;玛丽莲·梦露嫁给了剧作家亚瑟·米勒;德怀特·艾森豪威尔总统
将“我们信仰上帝”确定为美国法定箴言。关于人工智能的首次正式会议也在这个夏天召开。研讨会持续6
周,众多学科中最杰出的学者在新英格兰地区汉诺威市达特茅斯学院的269英亩土地上齐聚一堂。除克劳德·
香农以外,大会还有另外两名年轻的组织者,他们分别是约翰·麦卡锡(John McCarthy)和马文·明斯基
(Marvin Minsky),他们都在蓬勃发展的人工智能领域发挥了重要的作用。
他们写道:“人们将在一个假设的基础上继续进行有关人工智能的研究,那就是学习的各个方面或智能
的各种特性都能够实现精确描述,以便我们能够制造机器来模仿学习的这些方面和特性。人们将尝试使机器
读懂语言,创建抽象概念,解决目前人们的各种问题,并且能自我完善。”
然而,他们的雄心壮志和信念都太过绝对,而时间却有些紧迫。他们在达特茅斯会议的提议中指
出:“我们认为,如果精心挑选一组科学家,并让他们专心研究人工智能,那么仅需一个夏天我们就能够在
这些问题上取得重要进展。”
毋庸置疑,实际花费的时间肯定要比这更长。传统人工智能的黄金时期
随着感兴趣的研究者越来越多,人工智能开始细分为不同的领域,这意味着人们探索的范围开始变得更
加广阔。从某种意义上来说,这一现象是大势所趋。在达特茅斯会议上,人们发现,就连为各自的新领域取
一个大家都认同的名字都十分困难。约翰·麦卡锡力荐“闪光探测人工智能”,但却并不能令其他人信服。另
一位名为亚瑟·塞缪尔(Arthur Samuel)的研究者认为这个名字听起来很“做作”,而艾伦·纽厄尔(Alan
Newell)和赫伯特·西蒙则立即又将其作品重新命名为“复杂信息编程”。
人工智能很快就细分为不同专业,仅从1958年在英国密德萨斯的特丁顿国家物理实验室召开的“思维过
程的机械化”会议就能看出这一点。达特茅斯会议召开仅仅两年后,人工智能就已经细分为多个领域,包括
人工思维、字符和模式识别、学习、机器翻译、生物学、自动编程、产业规划和办公机械化。
接下来的一段时间成了传统人工智能的黄金时期。新的领域层出不穷,研究者们不断取得重要进展,思
考的机器也呼之欲出。由于有美国国防部高级研究计划局(ARPA)等政府机构的资金支持,巨大的投资使
研究没有受到什么干扰。1963年6月,国防部高级研究计划局为麻省理工学院提供了220万美元的拨款,用于
研究“计算机辅助识别”。据拨款受益人称,国防部高级研究计划局采取一次性付款,之后也未太过关心这笔
款项是如何使用的。而类似的事情不止一次发生。
约翰·麦卡锡将这一现象称为人工智能的“看!不用手也行!”时代,这一时代成功唤起了青少年的热情
和勇气。在之后的十多年里,研究者们应对了众多挑战,并反驳了“没有机器能够做到X”这样一个假设。X
所代表的含义取决于提问者是谁。一位研究者曾经编写了一套国际跳棋程序,该程序能够打败大多数业余选
手,包括编程者自己。另一项突破是感知人工智能,它能够在一个使用机器人手的桌面上重新排列不同形状
的彩色模块:这无疑是计算机视觉方面的一项壮举。一个名为SAINT的项目能够解开大学一年级课程水平的
微积分中的积分问题。另一个名为ANALOGY的项目还能够解开智力测验中的几何问题,而STUDENT则能够
破解复杂的代数难题,例如:“如果汤姆的客户数量是广告数量20%的平方,他一共做了45个广告,那么请
问汤姆一共有多少个客户?”
计算推理领域有一个特别引人注目的例子,那就是Sir(语义信息检索)项目。Sir不仅能够理解英语句
子,甚至能够分析宾语之间的关系,这和人工智能有些类似。实际上,这一“知识”依赖于预先设定的模板,例如,A是B的一部分,然后用名词来代替变量。然而,正如马文·明斯基所说的那样,人们可以采用类似的
方法解决一系列其他问题。有一个有关Sir的典型案例,案例中未加粗的句子为用户输入的文本,加粗的句子
为机器给出的答案:
每个男孩都是人。
我知道。手指是手的一部分。
我知道。
每个人都有两只手。
上述句子表达不清楚。请改述。
每个人都长两只手。
我知道。
约翰有几根手指?
上述句子表达不清楚,但是我猜(有)指的是(长有)。我不知道手指是否是约
翰身体的一部分。
约翰是个男孩。
我知道。
约翰有几根手指?
上述句子表达不清楚,但是我猜(有)指的是(长有)。每只手长有几根手指?
每只手都长有5根手指。
我知道。
约翰长有几根手指?
答案是10根。
他们构思人工智能和智能行为的方法就是将这些看似毫不相干的表达联系起来。他们自上而下审视了人
工智能,我们如今称之为符号人工智能或传统人工智能。对传统人工智能研究者来说,人类通过构建内部的
符号化表现形式来认识世界,而所有人工智能都以人类认识世界的能力为基础。我们可以创建规则来落实这些概念,而捕捉日常知识能够使这些概念变得规范。如果将人脑看作一台电脑,这意味着我们操控的每一种
情况都依赖于内部计算程序,这一程序一步步告诉我们如何完全依据逻辑来进行某项操作。如果的确如此,那么这些世界各地机构纷纷采用的规则同样适用于计算机。
这在当时听起来十分容易,不久以后,情况也确实如此。太空机器人沙基
虽然几乎没有人真正遇见,但人工智能在发展的过程中确实存在一些问题。和当前能与公众产生共鸣的
某些领域一样,上述问题或多或少要归咎于新闻媒体。过度热情的表现是,人们经常写文章赞扬他们所取得
的令人印象深刻的进步,好像他们已经造出了智能机器。例如,20世纪60年代的机器人沙基(SHAKEY)项
目受到了大力宣传,人们将其视作世界上第一台通用机器人,它能够对自己的行为进行推理。这样一来,它
就能够为模式识别、信息表示、问题解决和自然语言处理等不同领域设定基准。
尽管这已经足够使沙基艳惊四座,但记者们仍忍不住进行了一番修饰。1970年,当沙基在《生命》
(Life)杂志上首次亮相的时候,它并没有被视为众多重要研究课题的结合体,而是以世界上第一个“电子
人”的身份闪亮登场。《生命》杂志的记者将沙基卷入前一年登月引发的太空狂潮中,甚至称沙基能够“在不
接受地球指令的情况下在月球上一次行走几个月”。
这是彻头彻尾的谎言,但是并非所有研究者都能够拒绝去迎合这一观点。20世纪70年代,在波士顿召开
的一次会议上,一位研究者向媒体透露,仅需5年时间,像沙基这样的智能机器人就将在家庭中普及。一位
年轻的同事激动地将他拉开,并对他说:“不要做这样的预测。以前有人这样做招来了麻烦。你低估了实现
这一目标需要花费的时间。”这位研究者想都没想就回答道:“我不在乎。你看,我提到的所有日子都是在我
退休后。”
人工智能工作者们并非一直这么激进,但有很多人都有这样的倾向。1965年,赫伯特·西蒙称,用不了
20年,机器就能够“完成人类能做的任何工作”。不久以后,马文·明斯基补充道:“我们这一代人能够大体上
解决创造人工智能的问题。”“中文房间”实验
有关符号人工智能的哲学问题开始浮出水面。其中最著名的要数名为“中文房间”的思维实验。美国哲学
家约翰·希尔勒(John Searle)提出该思维实验,质疑是否应将机器处理符号真正视为智能。
希尔勒提出,假设他被锁在一个房间里,房间里有很多中国书法作品。他并不懂中文,甚至无法将汉语
与日语或其他毫无意义的字区分开来。希尔勒在房间中发现了一套规则,这些规则向他展示了一套与其他符
号相对应的符号。随后,他被提问,并通过将问题符号和答案符号相匹配来回答这些问题。过了一会儿,希
尔勒逐渐熟悉这项任务——尽管他仍然不清楚自己操作的这些符号到底是什么。希尔勒问,这种情况下能否
说房间内的人“懂”汉语?他的答案是否定的,因为他完全缺乏意向性。他写道:“计算机可能有的这种意向
性只存在于程序设计者、使用者、输入者以及对输出进行解读的人的思维中。”
如果说希尔勒是在指责人工智能研究者们像家长一样绞尽脑汁地炫耀孩子的才华,那么人工智能研究者
们本身就面临着一个令人不愉快的事实:他们的孩子实际上并没有那么聪明。令人担忧的是,那些在实验室
环境下表现不凡的工具并不能很好地适应现实状况。符号人工智能主要涉及自上而下建立以规则为基础的系
统,该系统在实验室中表现出色,各元素都能够得到很好的控制。这些“微型世界”几乎不包含任何物质,因
此可以采取的措施也十分有限。然而,一旦进入现实世界,在训练中表现优异的程序就像世界杯揭幕战中的
英格兰队一样变得怯场了。
研究者们承认这些弱点的存在,并且将这些微型世界比作“一切事物都十分简单的仙境,如果以现实世
界为前提,那么有关这些事物的陈述从字面上看就都变成了错的”。总的来说,人工智能一直在努力摆脱歧
义性,但又缺少灵活抽象推理、数据计算和加工能力,而人工智能恰恰需要这些能力来理解其所展示的内
容。任何没有事先明确说明的事物都有可能造成恐慌。美国作家约瑟夫·坎贝尔(Joseph Campbell)嘲讽道,这种人工智能与《圣经·旧约》一样,都是“规则太多,仁慈有限”。莫拉维克悖论
结束这一不确定性面临着更大的问题,即人工智能研究者是否以正确的方式工作。就像玩拼图要从最困
难的部分开始一样,人工智能研究者们设想,如果他们解决了复杂的问题,那么简单的问题就会迎刃而解。
毕竟,如果你能让机器像数学天才一样下象棋,那么模仿婴儿学习又有多难呢?然而,事实证明这是相当难
的。象棋是一项游戏,包含明确的说明、棋盘位置、合规或违规移动。象棋为棋手营造了一个静态世界,他
们在这里拥有完整的信息,前提是他们能够看见棋盘,并且知道如何移动棋子。象棋是现实世界的一部分,但现实世界却与象棋截然不同。汉斯·莫拉维克(Hans Moravec)等研究者突然开始提出惊人的建议,例
如“让计算机在智力测验中或在下跳棋时表现出成人水平相对容易一些,而让计算机在知觉和移动性方面达
到一岁小孩的水平却是十分困难甚至是不可能的”。
将人工智能设定为关注生活中更复杂的事物,而排除对相对普通任务的关注,这可能与研究人工智能的
人有关。在许多案例中,堪称“天才”的科学家们能够控制象棋或布尔逻辑(Boolean Logic)的微小细节,却
缺少现实生活中的常识。有一则众所周知的趣闻:麻省理工学院一个名为西蒙·派珀特(Seymour Papert)的
研究人员有一次将他的妻子忘在了纽约机场。当他意识到妻子没有陪在他身边时,飞机正在跨越大西洋。约
翰·麦卡锡十分顽强地面对具有挑战性的问题,但是却因为经常忘记为资助他的各类机构填写进程报告而招
致许多麻烦。据说麦卡锡在斯坦福大学讲授的课程“人工智能入门”并未受到重视,私下里被学生戏称为“听
约翰叔叔讲故事”。都说什么样的人会干出什么样的事,这样看来,这些研究人员的人工智能项目都侧重于
远大目标而非平凡(可能更实用)小事也就不足为奇了。
心理学家史蒂芬·平克(Steven Pinker)总结道:“人工智能研究的前35年得出的主要教训是,困难的问
题容易解决,容易的问题很难解决。”转变目标
在众多挑战的重重包围之下,传统人工智能开始出现问题。从20世纪70年代开始,随着之前几十年人们
对人工智能乐观态度的逐渐消散,人们对该领域的热情也渐渐冷却下来。大幅缩减的预算使其首次遭遇
了“人工智能的冬天”,而这样的情况不止一次发生。在美国,就连可爱的机器人沙基计划都被叫停,因为美
国国防部意识到,其出钱资助的机器人项目并不能创造出他们需要的机器人间谍“詹姆斯·邦德”。暂且不说
间谍这一点,沙基在战场上甚至无法发挥常规部队的作用!一名为该项目工作的研究人员回忆起沙基在斯坦
福国际研究所(SRI)实验室中最后的日子。一位持怀疑态度的将军问一位创造沙基的研究人员:“能不能在
上面安装一个36英尺长的刺刀?”
为应对这一状况,人工智能改变了其目标,按比例缩减了一些大型任务,集中力量处理那些通过采取措
施就能够解决的问题。其中的一个例子就是电子游戏领域。人工智能从一开始就与电子游戏联系在一起,那
时艾伦·图灵和克劳德·香农曾尝试打造一个自动象棋手。在当时的情况下,象棋就是一个微观世界,用来演
示那些后来应用到现实世界的智能行为。电子游戏就是他们的最终目标。
人工智能研究不仅仅需要研究者的技能,还可以创造一定的收益。在莫斯科的苏联科学院计算机中心工
作的28岁人工智能研究员阿列克谢·帕基特诺夫(Alexey Pajitnov)就是受益人之一。1984年6月,帕基特诺夫
创建了一个简单的程序,用来测试实验室新的计算机系统。一个精明的商人将该系统命名为俄罗斯方块
(Tetris)并拿到市场上销售,这款游戏在全世界范围内卖出了超过1.7亿个副本。
20世纪80年代,电子游戏变得更加复杂,人工智能专家也因此变得炙手可热。人工智能能够运用简单的
规则模拟复杂的行为,这意味着电脑控制的人物也能有自己的想法。例如,在《主题公园》(Theme Park)
游戏中,人工智能实体(指具有智能的任何实体,包括智能硬件和智能软件)聚集在使用者建造的公园周
围,采取程序设计员从未明确标出过的路径行走。
在某种意义上,电子游戏是传统人工智能的天堂。如果人工智能仅用于在射击游戏中模仿僵尸敌人,那
么其行为是真的智能还是仅仅表现得很智能这类问题就是毫无意义的。专家系统
人工智能的另一项新应用成为人们解决问题的工具。尽管人工智能擅长推理,但研究人员都知道,人工
智能并不只有推理。为了创造出能够在现实生活中解决问题的人工智能,科学家们认为,他们需要一台能够
将推理和知识相结合的机器。例如,一台应用于神经系统科学的电脑必须像合格的神经系统科学家一样,了
解该学科的相关概念、事实、表述、研究方法、模型、隐喻和其他方面。
这意味着程序员突然需要担负起“知识工程师”的重任,他们必须充当各领域专家的角色,并且将他们的
知识提炼成计算机能够读取的规则,生成的程序被称为“专家系统”。该系统是在广泛收集概率性规则“如
果……那么……”的基础上建立的。有人曾经使用名为“DENDRAL”的专家系统进行过尝试,这个程序能够帮
助有机化学家确定未知的有机分子。DENDRAL的创造者爱德华·费根鲍姆(Edward Feigenbaum)对最早记
载人工智能历史的一位作家帕梅拉·麦考达克(Pamela McCorduck)说道:“有一段时间,人工智能领域的其
他人都与我们保持一定的距离。我想他们可能不敢靠近DENDRAL,因为它涉及化学。但是人们还是会毫不
吝啬地发出惊奇的感叹,因为它就像是化学界的博士一样。”
另一个类似的项目名为“MYCIN”,用于为脑膜炎等严重感染状况提供合适的抗生素用药剂量。MYCIN
像一个真正的医生一样,能够将程序员之前收集的概率性证据汇总起来,并据此得出结论。人们不断对之前
的经验进行归纳,直到它们变得像下面的“规则”:
如果……需要治疗的感染是脑膜炎,感染类型为真菌感染,培养染剂上没有有机体,患者不是易感
染病患并且曾经到过球孢子菌病盛行的地区,患者是黑种人、黄种人或印度人,并且脑髓液检测中的隐
球菌抗原不是阳性,那么……隐球菌有50%的可能并非是造成感染的有机物之一。
[4]。简而言之,XCON就是世界上最伟大的“百事通”店员。
XCON的出现使大企业首次对人工智能产生了兴趣,它们不再将人工智能简单视为未来演示。只要专家
系统能够为它们赚钱,企业们并不在乎它们到底是真正的人工智能还是“巧妙的编程”。1980年,XCON在数
字设备公司(DEC)位于新罕布什尔州塞勒姆的工厂首次投入使用。到1986年,XCON就已经处理了80 000
份订单,每年约为数字设备公司节约2 500万美元,准确率高达95%—98%。人们开玩笑称,如果它能够娶了
老板的女儿,未来甚至能够当上公司的首席执行官。
其他企业很快也开始公开露面,为需要专家系统的企业客户提供解决方案。在油井钻探作业中,地层倾
角顾问(Dipmeter Advisor)能够对地质构造进行分析。著名的粮食市场顾问(Grain Marketing Advisor)的目
标是帮助农民进行恰当的营销,并储存粮食作物。1986年10月《电脑世界》(Computer World)杂志上的一
则广告做出了这样的问答:“你如何充分利用专家系统技术的优势让员工改进当前软件上现有的数据处理应
用?只有Teknowledge公司能够给你答案。公司将在你所在的地区免费举行为期半天的研讨会。”
1985年,约有150家公司投资10亿美元想要开展人工智能业务。这一年,美国人工智能协会召开的一场会议和国际人工智能联合大会共吸引了近6 000名参会者,其中一多半是风险投资家、猎头和媒体。1987
年,并非电脑研究前沿阵地的《财富》杂志盛赞“软盘上的直播专家”的到来。研究人员在人工智能历史上首
次变得和史蒂夫·乔布斯、比尔·盖茨等个人电脑界的新贵一样富有。
有趣的是,像马文·明斯基这样经验丰富的研究者却在回避这样的情况。我们往往以为,人工智能保守
派在经历了20多年辛苦工作后一定急于寻求回报。而实际上,这些人都在提心吊胆地等待最后的结果。好在
这并没有花费他们太多的时间。就像20世纪90年代后期投机性的互联网泡沫一样,倡导者们对专家系统能力
的高估到了危险的程度。其中有一本教科书十分推崇“打电话规则”,称“使用专家系统打一通电话,家里的
所有问题都能够在10—30分钟解决”。专家系统的基本概念是十分可靠的,但是仍存在一些问题。专家系统
十分昂贵,需要不断更新,并且是反直觉的,当规则增多时准确率就会下降。斯图尔特·罗素(Stuart
Russell)和彼得·诺威格(Peter Norvig)在《人工智能:一种现代方法》(Artif icial Intelligence: A Modern
Approach)这本教科书中写道:“随着规则集的不断壮大,规则间的不良交互作用就会越来越平常,于是,从业人员发现,添加规则时,必须‘调整’其他规则的可信度。”
1987年财年结束时,两大开发专家系统的公司Teknowledge和Intellicorp损失了数百万美元。其他人工智
能企业的情况更糟糕,几乎濒临破产,员工和公司高管们露宿街头。温暖了一阵之后,人工智能的第二个冬
天到来了。谷歌诞生
人工智能随后遭遇的寒流比第一次有过之而无不及。资本又一次迅速蒸发,政府补助消失得无影无踪。
在1987—1989年,美国国防部高级研究计划局将用于人工智能研究的预算缩减了13。专业的人工智能杂志
的广告费收入也大幅下降。美国人文与科学院官方期刊《代达罗斯》(Daedalus)在1988年大胆发布了一期
人工智能特刊,激怒了哲学家希拉里·普特南(Hilary Putnam)。普特南写道:“现在有什么好大惊小怪的?
为什么在《代达罗斯》上发布一期特刊?为什么不等到人工智能真正取得一些进展后再发布特刊?”整个科
技界都能感受到人工智能的寒流。美国人工智能协会会员人数大幅减少,1996年骤减至4 000人,达到史上
最低点。然而奇迹并没有发生,人工智能的美梦似乎就要破灭。
那一年,斯坦福大学的两个学生——一个是人工智能研究者的后代,另一个是数学家的后代——想到了
一个很聪明的方法,在外部链接数量的基础上对网页进行排序,并通过这一方式创建一个智能网络目录。
1997年,24岁的拉里·佩奇和谢尔盖·布林利用他们开发出的算法,在美国加利福尼亚州门罗帕克的一个车库
里开了一家公司。为了将其打造成为“全球总部”,他们置办了几张桌子、三把椅子、一条蓝绿色的地毯、一
张折叠乒乓球桌,以及一些其他物件。为了保持通风,车库的门必须一直敞开。
这在当时看起来似乎不足为奇,但在接下来的20年里,拉里·佩奇和谢尔盖·布林的公司取得了人工智能
历史上最大的成就。公司涉猎范围广泛,覆盖了机器翻译、模式识别、计算机视觉、自主机器人等领域,而
人工智能研究者们为了实现这一点已经苦苦挣扎了半个世纪。
实际上,公司的这些成就没有一点是通过传统人工智能实现的。
这家公司就是谷歌。
[1]1英亩= 4 046.86平方米。——编者注
[2]1英尺≈ 0.304 8米。——编者注
[3]1英里= 1.609 344千米。——编者注
[4]一种可以支持机器语言和虚拟地址的32位小型计算机。——编者注第二章 以自主学习的方式创建新的人工智能
第二章
以自主学习的方式创建新的人工智能
2014年,在谷歌旗下一家名为“DeepMind”的人工智能公司的办公室里,一台计算机通过玩一款名为《打
砖块》(Breakout)的老雅达利(Atari)2600电子游戏消磨时间。该款游戏是两个年轻人在20世纪70年代初
设计的,他们就是苹果公司的创始人史蒂夫·乔布斯和史蒂夫·沃兹尼亚克。《打砖块》实际上是乒乓球游戏
《乒乓》(Pong)的一个变体。不同之处在于,不是在屏幕上将球挥向另一位玩家,而是对着砖墙击球,将
砖块击碎。这款游戏的目标是摧毁所有砖块。
正如我们在上一章中提到的,人工智能玩电子游戏并没有什么稀奇的。艾伦·图灵早在1947年就开发出
了首款象棋程序,尽管当时的计算机不能运行这一程序。如今电子游戏的特点是有大量非玩家控制角色,这
一编程将简单的规则结合起来产生复杂的行为。这样看来,DeepMind的人工智能玩游戏又有什么特别的呢?
针对这个问题的回答有两个。一是DeepMind的人工智能会逐渐变得更加成熟。就像见证孩子逐渐长大一
样,如果一直盯着计算机看,很难察觉到它的变化。然而,每隔50多次游戏再看一下,效果是十分惊人的。
开始的时候,DeepMind的人工智能在《打砖块》游戏中的表现简直糟透了,最简单的击球都做不好,而且它
似乎并不清楚状况,就好像是把PS4(索尼第四代游戏主机)手柄交到90岁的老奶奶手里,并希望她立刻知
道应该做什么一样。虽然它也会偶尔得分,但即使最乐观的旁观者也只能称之为运气。
200次游戏后,一切变得大为不同。现在游戏中的球拍能够在屏幕上左右移动:即使不是持续得分,也
可谓能够轻松得分。再经过数百次游戏,游戏中的人工智简直如同《星球大战4:新希望》结束时的天行者
卢克(Luke Skywalker)或《黑客帝国》中的尼奥(Neo)一样,懒散地击球,毫不费力。所有无关的动作
都消失了,而且它产生了清晰的策略。
令DeepMind的人工智能具有重要意义的另一个原因是,它不需要进行大规模训练。传统人工智能的核心
原则是必须将规则预先载入系统,这就像是老师在学生参加考试前会依次教他们问题的答案一样。DeepMind
的人工智能与众不同之处在于,它能够自主学习,甚至无须告诉它应该怎样做。它所需要接入的就是构成
《打砖块》游戏每一帧的30 000个像素点和屏幕上的选手得分。其他需要做的事,就是给它输入得分最大化
的指令。之后,人工智能就可以随着游戏的进展获得游戏“规则”,然后逐渐形成能够改善其表现的策略。
DeepMind的人工智能可以玩的游戏并不只有《打砖块》。它最早玩的游戏是《太空入侵者》(Space
Invaders),在掌握极少信息的情况下还学会了其他48个游戏,包括拳击模拟器、武术游戏甚至是3D(三维)赛车游戏。然而,要想突破电子游戏的“微型世界”还有很长的路要走。但这仍是一项惊人的成就,为人
工智能的下一步发展指明了方向。下一步发展是什么?按照DeepMind的宗旨,下一步就是“解决人工智能”。自主学习的重要性
人类的与众不同之处就在于能够学习,这也一直是传统人工智能一直努力要实现的。第一章中描述的系
统只有在能够遵从规则时进行学习,这些知识是从“知识工程师”的知识中提炼并编入系统架构的。它是对知
识自上而下的一种想象,并暗示一个假设,即机器不能自动学习知识。相反,必须将知识进行编程,而且一
次编一条。这一点在很多情况下都能够很好地实现,进而在可接受的水平上完成有限的任务。随着解决方案
的增多,问题也开始显现。像官僚机构一样,它们开始变得庞大、笨拙、缓慢而且昂贵。
这提出了一个显而易见的问题。华盛顿大学计算机科学教授普德罗·多明戈斯(Pedro Domingos)指
出:“如果机器人掌握了人类除学习以外的所有能力,人类很快就会抛弃它。”但是从一开始就存在一种与人
工智能的发展并行的观点,这一观点现在正触发该领域的诸多进展。该人工智能学派不是将思维概念化,而
是源于在电脑内部建立大脑模型。该学派不相信逻辑推理是获取真理的最佳(可能是唯一的)途径,而是采
用基于观察和实验的实证研究法。这类人工智能并非知识工程师的作品,而是属于名为“机器学习者”的计算
机科学家领域。
这一流派的人工智能由统计学家、神经科学家和理论物理学家开创的概率模型主导,大部分基于所谓
的“神经网络”(或者计算术语中所说的“神经网”)来运行,该网络的功能与人脑近似。信息在人脑中以神经
元电子放电模式存在。人脑中约有1 000亿个神经元,大约和银河系中的星星一样多。记忆是通过加强不同
神经元共同放电而形成的:这一过程被称作“长时程增强”。尽管我们尚须建立一个与人脑一样复杂的神经网
络(下一章将详细介绍),但人工神经网络为创造记忆和学习借用了人脑的机制。人脑与神经网络最基本的
不同在于,人脑中的长时程增强是一个生物化学过程,而在神经网络中,学习是通过修改其自身代码,以在
复杂或不明朗的情况下,找到输入和输出之间或者原因和结果之间的联系而发生的。
虽然神经网络今天在人工智能领域具有重要地位,但在过去许多年里,它都是被忽视的;它被视作真正
人工智能的“异父兄弟”。正如20世纪80年代进入这一领域的知名研究人员戴维·艾克利(David Ackley)所
说:“我们接触到神经网络时,人们并未将其视作人工智能。于是,我们被人工智能拒之门外。当时,人们
认为人工智能是与符号相关的。它所涉及的是生产系统、专家系统等。进入卡内基–梅隆大学读研究生时,我已经十分厌倦与传统的符号化的计算机相关的事物……我似乎对推理的关注过多,而对判断的关注太
少。”
艾克利影响了一代人工智能研究者,他们几乎使统计工具替代了主流意识中的传统人工智能。这样一
来,神经网络就实现了以前的研究人员做梦都想实现的东西:建造能够学习如何玩电子游戏、理解语言、识
别相片中的人脸或开车比人类更安全的机器。
我们在本章中将介绍一些这样的应用。但是在此之前,我们必须回到过去,去认识一个名叫圣地亚哥·
拉蒙·卡哈尔(Santiago Ramóny Cajal)的人。神经科学之父
圣地亚哥·拉蒙·卡哈尔是19世纪西班牙病理学家,被称作现代神经科学之父。拉蒙·卡哈尔首次对人类大
脑进行了细致的检查。1887年拉蒙·卡哈尔在巴塞罗那大学工作,他发现重铬酸钾和硝酸银可以将神经元染
成深色,而周围的细胞还都能够保持透明。后来他回忆道,“染色后的神经细胞连最精细的分枝都变成了棕
黑色,在透明的黄色背景映衬下显示出了无可比拟的清晰度,就像用墨汁画的素描一样清晰”。这项神经细
胞染色技术意味着拉蒙·卡哈尔能够就人脑展开大量的研究,在过去使用最先进的显微镜是无论如何都做不
到这一点的。这样一来,他首次证明了神经元是构建中枢神经系统的基础。
1943年,拉蒙·卡哈尔去世9年后,两位人工智能研究人员在一篇很有影响力的论文中创建了首个正式的
神经元模型,尽管文章的标题《神经活动内在概念的逻辑演算》稍显呆板。
两位研究人员麦卡洛克(McCulloch)和皮茨(Pitts)组成了一个不同寻常的组合。沃伦·麦卡洛克1898
年出生在一个律师、工程师、医生和神学家组成的家庭。他在当时被称为“美国帽子之都”的新泽西州奥兰治
长大。麦卡洛克起初打算从政,但后来改变了主意,去耶鲁大学学习了哲学和心理学,并对神经生理学,也
就是神经系统的研究产生了浓厚的兴趣。
皮茨比麦卡洛克小25岁,1923年出生在一个工人阶级家庭,这样的家庭似乎不太可能培养出神童。13岁
时,皮茨为了躲避父亲的虐待离家出走,露宿街头。一天,他为了躲避一群地痞流氓的追赶躲进了图书馆。
据说,皮茨在接下来的一周都泡在图书馆里,读完了三卷《数学原理》的数学教材。读完以后,皮茨决定给
该书的作者之一伯特兰·罗素(Bertrand Russell)写信,指出他认为第一卷中存在的根本错误。这封信给罗素
留下了深刻的印象,他甚至邀请皮茨到英国剑桥大学学习,而皮茨却没有接受邀请。皮茨在不到20岁时就被
苏联数学物理学家尼古拉斯·拉舍夫斯基(Nicolas Rashevsky)的著作深深吸引,拉舍夫斯基的著作主要涉及
数学生物物理学领域。正是凭借着这种能力,沃尔特·皮茨遇到了沃伦·麦卡洛克,并最终开始与其共事。
麦卡洛克和皮茨共同提出了针对机器内部复制的功能神经元的简化模型。他们在1943年发表的论文中
称,从根本上来讲,神经元是一个“逻辑单元”。他们还指出,由这类单元构成的网络几乎能够完成所有的计
算操作。以神经元模型为基础的感知器
麦卡洛克和皮茨的工作取得了至关重要的进展,但同样存在严重的局限性:这个模型不能自主学习。6
年后,这一问题在理论上得到了解决,加拿大心理学家唐纳德·赫布(Donald Hebb)在1949年写了《行为的
组织》这本书。赫布称,每次使用神经元都会使人脑中的神经通路加强,人们就是这样学习的。他写
道:“细胞A的一个原子离细胞B足够近,并且持续或不断参与激发细胞B,其中一个或两个细胞增长或产生
代谢更换,这就会导致细胞A激发细胞B的效率提高。”简单来说,赫布的意思是,当人类大脑中有两个神经
元同时受到激发时,二者之间的联系就增强了。有时我们可以这样来记忆:“同激发、同连接的神经元。”
赫布的这一思想在10年后才真正应用到计算机研究中,而这要归功于弗兰克·罗森布拉特(Frank
Rosenblatt)。罗森布拉特在计算机历史上是一个有趣的人物:他是一个真正博学多才的文艺复兴式人物,对音乐、天文、数学和计算机无不精通。碰巧的是,他和我们上一章提到的马文·明斯基是同学,他们在20
世纪40年代早期都在布朗克斯科学高中读书。然而,罗森布拉特一直处于人工智能研究主流的边缘。明斯基
和约翰·麦卡锡组织达特茅斯会议期间,罗森布拉特拿到了康奈尔大学实验心理学博士学位,学习期间,他
被神经网络这一学科深深吸引。罗森布拉特将神经网络称作“感知器”,并努力证明其能够有效地充当人类学
习、记忆和认知的模型。
罗森布拉特最初在纽约布法罗康奈尔航空实验室尝试建造“感知器”。他在那里创建了PARA项目,即“感
知和识别自动化”。他的感知器以麦卡洛克和皮茨提出的神经元模型为基础,同时基于能够通过“试错”进行
学习的神经网络。每个神经元都有一个输入、一个输出和一组自己的“权重”。开始的时候,“特性”之间的关
联和神经元都会获得随机权重。然后,神经元根据网络显示,选择激发或不激发。片刻后,它就能够将见到
的所有事物分为两类,即“X”和“非X”。
由于当时的计算机运行速度太慢,罗森布拉特并没有将其感知器做成软件,而是做成了硬件。他用调光
器中使用的可变电阻创建了权重,并用电动机和电阻完成了学习过程。接下来的演示以及罗森布拉特对感知
器发展潜力的夸张陈述,足以让人们心潮澎湃。1958年《科学》杂志上发表的一篇极有先见之明的文章上指
出:“感知器最终一定能够自主学习、做出决定以及翻译语言。”与此同时,《纽约客》上一篇新发表的文章
引用了罗森布拉特的话,“感知器应当证明它能够通过计算机视觉指出‘猫和狗之间的不同点’”。
1960年,罗森布拉特对“阿尔法感知器”计算机的创建工作进行了监督,他为此收到了美国海军研究办公
室信息系统部提供的赞助。阿尔法感知器也成为历史上最早能够通过反复试错学习新技能的计算机之一。
《纽约时报》将其称为“边做边学的新海军设备”。关于感知器的争论
令人遗憾的是,不久以后,与感知器有关的研究遭遇了两次严重的挫折。第一次主要是技术方面的原
因,也有些许人为因素。感知器当时已经被证实能够完成简单的学习任务,例如识别语音或印刷字体。然
而,它们也成功地引起了广泛关注,给它们的投资也远远超过了技术取得成功的水平。这使得人工智能界内
部产生了矛盾。马文·明斯基就是众多直率的评论家之一。明斯基在读博士时就已经研究过神经网络,但是
对该领域已经不抱任何希望。自20世纪50年代以来,罗森布拉特与明斯基曾在众多科学会议上就脑启发计算
机(brain-inspin computer)的有效性展开争论。罗森布拉特强烈推荐他研发的技术,称感知器实际上能够完
成任何学习任务。明斯基则持截然相反的态度。直到1969年,明斯基与研究人员西蒙·派珀特合著了一本著
作才打破这一僵局,该书就感知器可能无法完成的事情进行抨击。明斯基和派珀特总结道,这一技术“不具
有任何科学价值”。为神经网络筹集的资金也顷刻化为乌有。
第二次挫折更加悲惨。明斯基和派珀特出版《感知器》一书两年后,在一个周日,弗兰克·罗森布拉特
去美国最大的河口切萨皮克湾划船。那天是他43岁的生日,然而当天发生了意外,罗森布拉特就这样去世
了。在康奈尔大学的悼词中他的一位同事写道:“他的离去让我们失去了一个最无私、最富有同情心的同
事,他的机智和幽默给我们留下了深刻的印象。”这样一来,感知器也就失去了最忠实的拥护者。
脑启发式神经网络在接下来的10年中似乎销声匿迹了。后来,西蒙·派珀特以童话的方式,将传统人工
智能和感知器之间的冲突总结如下:
从前,控制论科学生了两个女儿,一个是自然的,能够从对人脑的研究和自然规律中继承特性。另
一个女儿是人造的,涉及范围从计算机最初的创造到使用。这两姐妹都想要建造智能模型,但是用的材
料却大不相同。自然科学使用数学纯化神经元构造模型(称为神经网络),而人造科学则是通过计算机
程序构造模型。
派珀特借用了白雪公主的故事,将他和明斯基对感知器的抨击比作猎人冲入树林对白雪公主的追杀。就
像童话故事中讲的那样,派珀特和明斯基带着感知器的“心脏”回到他们的主人(在本案例中,我们称其为万
能的“美国国防部高级研究计划局”)身边,证实感知器已经死了。“然而,派珀特和明斯基展示给世界的证
据并不是白雪公主的心脏,而是猪的心脏。”
这可能曾一度引起过度紧张,但派珀特承认,神经网络躲过了他和明斯基的猛攻。事实也确实如此。实
际上,派珀特在20世纪80年代末写下这句话的时候,神经网络已经又一次发展得如火如荼。霍普菲尔德网的兴起
与明斯基和派珀特的断言相反的是,神经网络研究人员多年来一直认为,神经网络能够展现出新的能
力,并且解决罗森布拉特感知器的问题,但前提是在网络输入和输出之间放置额外的“隐含”神经元层。不幸
的是,没人知道如何训练这些多层神经网络。著名物理学家约翰·霍普菲尔德(John Hopfield)为具体应当如
何做提供了建议。
霍普菲尔德对当时人工智能的主流形式是什么并不感兴趣。他说:“我从未深入研究过人工智能领域到
底发生了什么。人工智能并不能解决现实世界里的问题。我认为没必要去了解它。”然而,多年以后,他一
直苦苦追寻被他称作“需要用一生的时间去研究的问题”。由于对人类大脑十分感兴趣,他考虑的问题涵盖范
围广泛,从灵长类神经解剖学到昆虫飞行的行为,再到大鼠海马的学习乃至阿兹海默症的治疗。有一段时
间,霍普菲尔德对细胞自动机和自我复制的机器人的前景十分着迷。然而,几个月的研究最终还是走进了一
条死胡同。
霍普菲尔德说:“放弃一个错误的思想十分困难,毕竟我们已经研究一年了。”但是,在计算机内部创造
一个生命模型的想法却一直都在。他对一个想法十分着迷,即用神经网络完成大脑能够迅速且轻松完成但计
算机却不能完成的任务。霍普菲尔德最终选择了联想记忆,联想记忆是指大脑如何以交互的方式工作,也就
是看见一个人就能联想起他的名字,或者听到他的名字就能想起他的长相。联想记忆背后的数学运算使霍普
菲尔德想到“自旋系统”的数学运算,该运算描述的是固体磁性的复杂形式。他的脑海中突然产生了一个想
法。霍普菲尔德回忆道:“神经生物学和我所了解的物理系统之间突然产生了一种联系。一个月之后,我已
经开始写论文了。”
1982年这篇论文发表后,一种全新的神经网络产生了。霍普菲尔德网络比罗森布拉特的感知器中的单层
模拟神经元复杂得多。他的思想再次激发了人们对神经网络的热情,这也使他成为这一过程中出人意料的英
雄。加州理工学院的一组追随者开始以“霍普集会”(Hop-Fest)的名义召开会议。霍普菲尔德的发现吸引了
一些世界上最伟大的理论物理学家参与到神经网络的研究当中。该领域的研究人员多年来头一次感觉到热血
沸腾。
然而,事情并没有我们想象得那么容易。正如我们在第一章中看到的,20世纪80年代早期是“专家系
统”的天下,资金也是空前的充裕。尽管后来这些“专家系统”的发展将遭遇困境,但在当时却是十分强大,人们根本不认为它们会失败。世界领先的神经网络专家特里·谢伊诺斯基(Terry Sejnowski)当时正在普林斯
顿大学读霍普菲尔德的博士,他回忆道:“我们当时好像是生活在恐龙时代的只有毛皮的哺乳动物,在这些
长着麟甲的巨兽的脚下混日子,他们有数百万美元的机器和庞大的预算。那时,所有人都专注于计算逻辑,但是我们明白,他们忽视了推动人工智能向前发展所面临的真正困难。”
幸运的是,神经网络吸引了许多年轻且富有热情的研究人员,其中就包括圣地亚哥加州大学的认知科学
家戴维·鲁梅尔哈特(David Rumelhart)和詹姆斯·麦克兰德(James McClelland),他们成立了一个“并行分布处理”小组,并产生了令人难以置信的影响力。
说到这里就不得不提到另外一个人,他就是杰夫·辛顿(Geoff Hinton)。神经网络的守护神
杰夫·辛顿出生于1947年,是现代神经网络最重要的人物之一。作为一名谦逊的英国计算机科学家,他
对其所在领域的发展产生的影响很少有人能企及。他出生于一个数学家家庭:他的曾祖父是著名的逻辑学家
乔治·布尔(George Boole),他的布尔代数曾为现代计算机科学奠定了基础。另一位亲戚是数学家查尔斯·霍
华德·辛顿(Charles Howard Hinton),因提出“四维空间”这一理念而闻名,阿莱斯特·克劳利(Aleister
Crowley)在其小说《月之子》中曾经两次提到了辛顿。
辛顿说:“我一直对人类如何思考以及大脑如何工作很感兴趣。”上学时,一个同学说大脑储存记忆的方
式和3D全息图像储存光源信息的方式是一样的。要想创建一个全息图,人们会将多个光束从一件物品上反
射回来,然后将相关信息记录在一个庞大的数据库中。大脑也是这样工作的,只是将光束换成了神经元。由
于这一发现,辛顿在剑桥大学选择了研究哲学和心理学,之后又在苏格兰爱丁堡大学研究人工智能。辛顿在
20世纪70年代中期来到寒冷的爱丁堡,人工智能领域遭遇的首个冬天几乎在同一时期到来。尽管传统人工智
能刚刚遭受打击,但辛顿的博士导师仍急于让他远离神经网络。辛顿说:“他一直试着让我放弃神经网络的
研究并投入到符号人工智能领域。为了能够有更多时间研究神经网络,我必须不断和他讨价还价。”
辛顿并没有获得其他的支持。学生们认为他是疯了才会在明斯基和派珀特完全否认神经网络后还继续研
究。辛顿在爱丁堡期间,明斯基的学生帕特里克·温斯顿(Patrick Winston)出版了一本早期人工智能教材。
书中记载着有关神经网络的内容:
许多古希腊人都支持苏格拉底的一个观点,即深奥且令人费解的思想是上帝创造的。如今,对这些
漂泊无定的人而言,甚至概率神经元都相当于上帝。很有可能的是,神经元行为的随机性的提高是癫痫
病患者和醉酒的人的问题,而不是聪明人的优势。
人们对温斯顿的思想十分不屑,但是他当时对神经网络的类似于宗教信仰般的看法并不是完全错误的。
辛顿对人脑必须以某种方式工作这一认识十分欣慰,很明显,这是无法用传统的符号人工智能来解释的。他
说:“大多数常识推理都是凭直觉或以类比的方式做出的,其中并不涉及意识推理。”辛顿认为,传统人工智
能的错误之处在于:其认为,任何事都是由一系列基本规则和有意识推理组成的。对符号人工智能研究人员
来说,如果我们不能理解某一部分的意识,这是因为我们还没有弄懂其背后的推理。
毕业以后,辛顿暂时在英国苏塞克斯从事博士后工作,之后收到了一份来自美国的工作邀请。于是,辛
顿打点行装,搬到了加州大学,不久以后,又搬到了卡内基–梅隆大学。在接下来的几年里,他一直积极努
力在神经网络领域取得开创性进展,即便到了今天,其成就仍对人工智能的研究产生着影响。
他最重要的贡献之一,要算是他对另一位研究人员戴维·鲁梅尔哈特的帮助,帮助他再次发现“反向传
播”流程,这大概是神经网络中最重要的算法,之后他们首次以可信的方式证明,“反向传播”使神经网络能
够创建属于自己的内部表征。当输出与创造者希望的情况不符时,“反向传播”使神经网络能够调节其隐藏层。发生这种情况时,神经网络将创建一个“错误信号”,该信号将通过神经网络传送回输入节点。随着错误
一层层传递,网络的权重也随之改变,这样就能够将错误最小化。试想一下,有一个神经网络能够识别图
像,如果在分析一张狗的图片时,神经网络错误地判断为这是一张猫的图片,那么“反向传播”将使其退回到
前面的层,每层都会对输入连接的权重做出轻微调整,这样一来,下次就能够获得正确的答案。
20世纪80年代创建的“NETtalk”项目是“反向传播”的一个经典案例。NETtalk的一个共同创建者特里·谢伊
诺斯基将其描述为用于了解电脑是否能够学习大声朗读书面文字的“夏季项目”。该项目面临的最大挑战在于
语言一点也不简单。项目刚刚开始的时候,谢伊诺斯基去图书馆借了一本有关音韵学的书,即诺姆·乔姆斯
基(Noam Chomsky)和莫里斯·哈雷(Morris Halle)所著的《英语语音模式》。谢伊诺斯基说:“这本书里
都是各种事情的规则,例如字母e出现在单词末尾的时候应该如何发音等。书中提到了例外情况,之后又列
举了例外情况中的例外。英语就是大量的复杂关联。我们似乎选择了世界上在规则性方面最糟糕的语言。”
一直以来,传统人工智能都在不断尝试将这些单独的例子插入到一个专家系统中。谢伊诺斯基和一位名
为查尔斯·罗森伯格(Charles Rosenberg)的语言研究人员决定通过创建一个由300个神经元组成的神经网络
来实现这一目标。当时,辛顿正在实验室访问,他建议他们在项目的最开始使用儿童书籍来训练该系统,这
本书的词汇量一定要小。起初,这项任务十分艰难,计算机一次只能读一个单词,而他们必须为每个字母都
标注正确的音素。例如,字母e在“shed”、“pretty”、“anthem”、“café”或“sergeant”中的发音各不相同。谢伊诺
斯基和罗森伯格每次进行说明的时候,他们创建的神经网络都悄悄地调节对每个连接的权重。该系统面临的
最大挑战是使机器能够正确发出每个单词中间部分的音节。为了做到这一点,神经网络必须使用中间字母左
边和右边的字母给出的提示。
一天下来,NETtalk已经全部掌握了书中的100个单词。这一结果令他们感到震惊。接下来,他们让
NETtalk使用有20 000个单词的韦伯词典。幸运的是,词典中的所有音素都已经标注出来了。他们下午把单词
输入到系统中,然后就回家休息了。当他们第二天早上回到办公室时,系统已经完全掌握了这些单词。
最后的训练数据是一本对儿童说话内容进行誊写的书,以及一位语言学家记录的儿童发出的实际音素的
清单。这就意味着,谢伊诺斯基和罗森伯格能够将第一个誊写本用于输入层,将第二个音素清单用于输出
层。使用“反向传播”以后,NETtalk能够学习如何像孩子那样说话。一段NETtalk的录音说明了该系统在这方
面取得了飞速的进展。在训练之初,系统只能够区分元音和辅音,其发出的噪声则像是歌手表演前做的发声
练习。在训练了1 000个单词以后,NETtalk发出的声音更接近人类发出的声音了。谢伊诺斯基说道:“我们完
全震惊了,尤其是在当时计算机的计算能力还不如现在的手表的情况下。”联结主义者
有了杰夫·辛顿等人的帮助,神经网络开始蓬勃发展。当时有一个传统,那就是继任的一代都会给自己
重新命名,新研究人员们称自己为“联结主义者”,因为他们对复制大脑中的神经联结十分感兴趣。到1991
年,仅在美国就有1万名活跃的联结理论研究人员。
忽然之间,各个领域都取得了突破性的进展。例如,人们发明了专门用于预测股市的神经网络。大多数
情况下,投资公司使用不同的网络预测不同的股票,然后由交易商来决定投资哪只股票。然而,有些人在此
基础上更进一步,赋予网络本身自主权,使其能够自行买卖。无独有偶,金融领域迅速涉足电子游戏领域,时刻准备着为人工智能研究人员进行投资。算法交易时代轰轰烈烈地开始了。
当时神经网络领域的另一个引人注目的应用就是自动驾驶汽车。发明自动驾驶汽车一直是技术人员的梦
想。1925年,发明家弗朗西斯·霍迪纳(Francis Houdina)展示了一款无线电控制的汽车,他操控汽车行驶在
曼哈顿的街头,而车中无须人来操控方向盘。之后,自动驾驶汽车测试使用导丝和车载传感器使汽车能够按
照路上画好的白线行驶,或通过识别出地下电缆发出的交流电行驶。1969年,约翰·麦卡锡发表了一篇标题
为“计算机控制汽车”的论文极具挑战性。麦卡锡所提议的方案基本上是设计一个“自动化司机”。他的项目需
要一个能够进行公路导航的计算机,计算机上仅带有一个电视摄像机来输入信息,该输入使用与人类司机相
同的视觉输入。麦卡锡假设用户能够使用键盘输入地点,并要求汽车立即载他们过去。紧急情况下,用户可
以使用额外的命令变更目的地,要求汽车停在洗手间或宾馆门口,在有紧急情况时减速或加速。
类似的项目直到20世纪90年代早期才得以实现,当时卡内基—梅隆大学的研究人员迪安·波默洛(Dean
Pomerleau)写了一篇激动人心的博士论文,文章介绍了如何将“反向传播”应用于无人驾驶汽车。波默洛称其
开发的神经网络为神经网络中的无人驾驶汽车或ALVINN(控制器),并将道路上的原始图像作为输入信
息,并实时输出转向控制信息。当时,还有许多其他传统人工智能博士正在研究类似的自动驾驶项目。这些
非神经网络的方法主要通过严谨的像素分析将各图像划分为不同类别,例如“道路”和“非道路”。然而,与许
多传统人工智能面临的问题一样,计算机很难将信息解析为像实时路况那样的非结构化信息。假如一辆自动
驾驶汽车依靠这一技术进行危险的高速行驶,发生事故的可能性是很大的。波默洛回忆道:“它们可能将树
影或者树木本身识别成道路,这样车辆就会朝着树直接开过去,而不是避让。”
为了训练ALVINN,驾驶员只需简单地驾驶一段路程。波默洛说道:“驾驶员只需驾驶2—3分钟,ALVINN系统就能够了解并更新反向传播网络的权重。结束驾驶时,驾驶员可以放开方向盘,系统会继续驾
驶车辆开始一段新的路程。”波默洛的发明只关注了方向,却无法控制速度或避开障碍物,这两点必须由驾
驶员来完成。尽管如此,波默洛也取得了巨大的成功,1995年,庞蒂克小型货车上安装了从旧汽车上回收的
ALVINN的升级版——RALPH(快速调节横向位置处理器)。波默洛和一位名为托德·约赫姆(Todd
Jochem)的研究人员为其配备了一台电脑、640×480像素的彩色照相机、全球定位系统接收器和光纤陀螺
仪,之后他们驾驶该车横穿美国。借鉴了1986年“携手美国”(Hands Across America)慈善活动的名称,他们将这次旅行称为“横穿美国”(NO Hands Across America)。他们在路上卖10美元一件的衬衫,用于支付食宿
费用。最后,这辆汽车一共行驶了2 797英里,途经匹兹堡、宾夕法尼亚、圣地亚哥、加利福尼亚,中间还
穿过了胡佛水坝,这一切都是汽车自动驾驶完成的。《商业周刊》的一位记者在报道这一事件时,一名堪萨
斯州骑兵要求其将车停到路边。而波默洛和约赫姆乘自动驾驶汽车旅行,甚至连双手都无须握住方向盘。
15年后,谷歌在2010年10月发布了自己的无人驾驶汽车项目。然而,我们仍要感谢波默洛在神经网络领
域做出的开创性贡献,他证明了自己的观点。欢迎来到深度学习领域
[1]。记者史蒂夫·洛尔(Steve Lohr)在其所著的极为有趣的《数据论》一书中指出,如果能将这些数据输入iPad Air(苹果超薄平板电
脑)中,那么产生的堆栈将能够覆盖地球到月球距离的23。
然而,就像地球虽然有大量的水,但并不是所有水都可以喝一样,这些数据中好多都是未标记的。当数
据集较小时,研究人员可以将主要精力放在正确标记所有数据上,这对训练系统来说更加有用。然而,随着
数据量的增加,研究人员就无法再这样做。例如,2013年3月,网络相册Flickr共有8 700万注册用户,他们每
天上传超过350万张新图片。从理论上看,这对那些想要建造一个能够识别图片的神经网络的人们来说是一
个天大的好消息,但同样也提出了挑战。正如我们所看到的,训练神经网络最简单的方法就是向其展示大量
图片,然后指出每张图片都是什么。通过标记图片,训练员既提供了输入(图片),又提供了输出(描
述)。神经网络就可以反向传播,以纠正错误。这就是我们所了解的“监督式学习”。但是,流通中还有许多
未标记或没有正确标记的图片,计算机如何对其进行识别呢?
幸运的是,杰夫·辛顿掀起了一场“非监督式学习”的革命,这种学习方式无须向计算机提供任何标记。
机器能够访问的只有输入,无须解释它看到的是什么。首先,这听起来像是机器无法通过这种方式学习。如
果没有得到明确的解释,即使是最智能的神经网络也不会知道某物到底是什么。实际上,辛顿发现的是“非
监督式学习”可以用来训练上层特征,而且每次只能训练一层。这一发现成为“深度学习”的催化剂,而“深度
学习”就是当前人工智能最炙手可热的领域。
我们可以将深度学习网络想象成工厂的一条生产线。输入原材料后,它们将随着传送带向下传递,后续
的各个站点或层会分别提取不同的高级特性。为了继续完成一个图像识别网络的案例,第一层将用来分析像
素亮度。下一层将根据相似像素的轮廓来确定图中存在的所有边界。之后,第三层将用来识别质地和形状
等。到达第四层或第五层时,深度学习网络已经创建了复杂特性检测器。这时,它就能够了解4个轮子、挡
风玻璃和排气管通常是同时出现的,眼睛、鼻子和嘴也是同时出现的。它不知道的仅仅是汽车和人脸都是什
么样的。深度学习网络能够识别的许多特性可能都和手头的任务无关,但是其中有一些特性却是和手头任务
高度相关的。
辛顿解释道:“训练这些特性检测器时,每次训练一层,这一层都试图在下面一层找到结构模式。之
后,就可以在顶部贴上标签并使用反向传播来进行微调。”结果深深震撼了人工智能界。辛顿回忆道:“其中
涉及一些数学问题,这总会给人们留下深刻的印象。”
有关深度学习的消息迅速传开。辛顿实验室的两名成员乔治·达尔(George Dahl)和阿卜杜勒–拉赫曼·
穆罕默德(Abdel-rahman Mohamed)迅速论证了该系统不仅能够进行图像识别,还能够进行语音识别。2009
年,俩人将其新创建的语音识别神经网络与已经使用了30多年的行业标准工具放到一起一较高下,结果是,深度学习网络获得了胜利。这时,谷歌邀请辛顿的一位博士生纳瓦迪普·杰特列(Navdeep Jaitly)修补谷歌
的语音识别算法。看了一眼之后,他建议用深度神经网络取代整个系统。尽管一开始持怀疑态度,但杰特列的老板最终同意让他尝试一下。事实证明,新的程序比谷歌精心调试数年的系统表现还要出色。2012年,谷
歌将深度学习语音识别程序嵌入安卓移动平台,错误率与之前相比立刻下降了25%。
那年夏天,辛顿终于收到了谷歌的电话。这个搜索巨头邀请他夏天到位于加利福尼亚州山景城的校园工
作。尽管辛顿当时已经64岁了,谷歌却将他定为“实习生”,因为员工必须严格服从公司政策,即必须在公司
工作好几个月之后才能被授予“访问科学家”的头衔。尽管如此,辛顿仍然加入了由20岁出头的年轻人组成的
实习生组。他甚至还戴上了新实习生们专用的上面带有螺旋桨图案的帽子,被称作“新谷歌
人”(Nooglers)。辛顿说:“我一定是史上最老的实习生。”当时,他开玩笑似的表示,那些并不知道他是谁
的年轻同事肯定是把他当作“老笨蛋”了。
辛顿在谷歌的工作涉及为其他潜在的应用提出有关深度学习的建议。那年夏天的工作进展得十分顺利,第二年,谷歌正式聘用了辛顿。除他之外,谷歌还聘请了他的两名研究生,辛顿和这两名研究生共同创建了
一家名为“DNNresearch”的公司。辛顿在一篇声明中写道:“我会继续在多伦多大学兼职任教,在那里我还有
很多出色的研究生,但是在谷歌我能够看到我们如何处理超大型计算。”
在神经网络领域孤独地耕耘了30年后,杰夫·辛顿最终在世界最大的人工智能公司发挥了重要作用。人工智能新主流
如今,深度学习神经网络已经成为人工智能的主流,其强调的理念可以追溯到麦卡洛克和皮茨。尽管该
理念仍然是对大脑工作模式的一种模拟(我们将在后续章节中探讨更多关于大脑的生物力学模型),但神经
网络能够解决问题的广泛性却令人惊叹。传统人工智能一直表现良好,直到后来研究人员才发现现实世界与
其完美模型并不匹配。与传统人工智能不同的是,神经网络不仅能够处理规律性事物,还能够处理规则以外
的情况。正如20世纪80年代的NETtalk一样,这使其成为处理语言等棘手问题的最佳选择。深度学习神经网
络还擅长处理所谓的“分布表征”,这意味着其具有模拟同一表征空间中两个相似但独立的领域(例如语言和
图像)的能力。从本质上来讲,这意味着神经网络能够以类比的方式进行思考,这一点是传统人工智能无法
企及的。
杰夫·辛顿说道:“现在我们看到的许多事物都在使用神经网络。根据经验,如果你想完成一项任务,并
且你知道这项任务涉及大量知识,这意味着如果你要学着做这件事,你将需要大量相关的参数。在这种情况
下,深度学习将是更好的选择。”
令人印象深刻的应用程序随处可见。2011年,就在辛顿加入谷歌之前的那个夏天,谷歌工程师杰夫·迪
安(Jeff Dean)、格雷格·科拉多(Greg Corrado)和斯坦福大学计算机科学家吴恩达(Andrew Ng)共同推
出了“谷歌大脑”(Google Brain)项目。谷歌大脑项目都在谷歌公司半公开的实验室“谷歌X”中进行,使用深
度学习网络识别高水平概念,例如通过分析视频网站Y ouTube的视频中静止的图像来识别猫,而之前并不向
它解释猫到底是什么。(巧合的是,这实际上就是弗兰克·罗森布拉特半个世纪前对《纽约客》杂志说过
的“神经网络终有一天能够实现”的那个目标。)
听起来一台知道猫为何物的计算机并没有什么新奇的,但是通过深度学习实现计算机的视觉能力,在现
实世界中却拥有广泛的用途。一家名为“Dextro”的初创企业使用深度学习创造出了更好的在线视频搜索工
具。Dextro的神经网络并不依靠关键词标签,而是通过扫描直播的视频来分析音频和图像。举例来说,如果
用这个神经网络搜索英国前首相戴维·卡梅伦,那么不仅能够搜出与保守党有关的视频,就连提到英国首相
的视频也能够搜到。
与此同时,Facebook(脸谱网)使用深度学习自动为图像设置标签。2014年6月,这一社交网络平台发
布了一篇文章,介绍其称之为“DeepFace”的面部识别技术。凭借深度学习的能力,Facebook算法几乎和人脑
一样准确,无论光线和相机角度如何,都能够对比两张照片并查看其显示的是否是同一个人。此外,Facebook还使用深度学习创建了另外一种技术,该技术能够为盲人用户描述图像,例如,一张图片上显示的
是某人在一个夏日骑着自行车穿过英国的乡间小路,该技术能够用语音将这一情景描述出来。
其他一些项目将深度学习和机器人学结合起来。美国马里兰大学的一组研究人员给机器人放了一段
Y ouTube上的烹饪视频,这样就教会了机器人如何烹饪一顿简餐。这一过程中没有任何直接人为的输入,只
要提供正确的餐具,机器人就可以直接复制视频中显示的任务,而且准确率非常高。长远来看,类似的机器人深度学习也可以应用于军事维修等领域。
目前已经证明,深度学习在翻译领域是必不可少的。2012年12月,微软的研发总监里克·雷斯特(Rick
Rashid)展示了一款震撼人心的英汉语音识别和翻译系统。通用翻译器这样如同“星际迷航”的英雄梦一样的
技术即将实现,这项技术意味着在不久的未来,我们无须会说法语、俄语或日语就能够在法国餐馆点菜、在
俄罗斯坐出租车或在日本谈生意。更加令人印象深刻的是,深度学习系统能够将说话者的语音划分为基本的
音素,然后将这些音素重新组合成需要的语言,最后以说话者的声音将语言“说”出来。微软解释道:“你的
平板电脑或智能手机将分析你所说的意思,将其翻译成听者能够理解的语言,并用你的声音以听者熟悉的发
音、音色和音调表达出来。”
有趣的是,虽然我们一直在对基本的技术进行调整,但如今许多重大进步仍可以追溯到戴维·鲁梅尔哈
特和杰夫·辛顿在20世纪80年代发明的反向传播算法。这些年来唯一改变的是计算能力,而计算能力反过来
意味着更强大的神经网络和更多隐藏层。仅“谷歌大脑”项目就将16万个计算机处理器连接起来,创建了一个
拥有10亿多连接的人造大脑。可用训练数据集的规模也在大幅增长。前些年使用的数据相对较少,与其相
比,如今用于教神经网络思考的信息数不胜数,举例来说,Facebook的面部识别系统就是通过分析740万张
图像来训练系统的,这些图片是Facebook 12.3亿活跃用户的脸。
神经网络不是如今实践中用到的唯一一种人工智能(我们将在后面的章节探讨其他人工智能),其优势
将人工智能推到了胜利的顶峰。与传统人工智能不同的是,神经网络不再局限于简单的实验室环境。
实际上,下一章将探讨的内容是,当人工智能超越我们通常所说的计算机系统的限制并跟随我们一起进
入现实世界时,到底会发生什么。
[1]1泽字节=270
字节。——编者注第三章 万物互联的智能时代已经来临
第三章
万物互联的智能时代已经来临
1998年,苹果公司推出了其外观线条呈圆形的iMac电脑;《哈利·波特》风靡世界;第一款移动MP3播
放器上市;一位来自雷丁大学控制论专业的44岁教授在这一年进行了一项非同寻常的运算。凯文·沃维克
(Kevin Warwick)教授进行了一个非急需外科手术,目的是将一个包在玻璃管内的硅片植入自己的左臂皮
肤之下。一旦植入人体,这款射频识别设备(RFID)的芯片发出的无线电信号,就能经由实验室周围的天
线,随即传入能够控制沃维克周围环境的中央计算机。“在(我的实验室)的主入口处,当我进门时,一个
由计算机操作的音箱发出‘你好’的声音。”后来凯文·沃维克记下了他的体验:“计算机检测到我进入大楼的过
程,当我走近实验室的时候,为我开了门,点亮了灯。芯片植入体内后的9天里,我仅仅沿着特定的方向行
进,就可以触发周围的物体自己行动。”
约20年后再来看,沃维克的这项实验依然震憾人心、发人深省。与沃维克职业生涯的其他事情相比而
言,这项实验最有意义。然而,在过去的几十年里,我们对此事的惊诧程度可能多多少少发生了改变。尽管
回避有人愿意采取这种侵入式手术的原因依然很容易,但关于为什么有人想这么做的问题已经不再重要。写
这篇文章的时候,我的手腕上带着一块42毫米的不锈钢苹果手表,搭配了米兰风格的表带。这款表价格为
599英镑,它能实现的功能远远超过凯文·沃维克在其植入式射频识别设备上所设想的功能。一旦我收到一条
短信或一个电话,或者如果我的朋友在图片分享网站Instagram贴了一张新图,我只需要看看手表就一目了
然。而且在超市购物时,我可以用手表刷卡支付。同样,我也可以用手表打开世界各地酒店的房门。外出的
时候,手表连续发出的嘀嗒声和震动可以告诉我应该走哪条路。一串嘀嗒声提醒我右转,另一串嘀嗒声则提
醒我左转。第一次震动表明我的旅程结束了,而第二次震动则告诉我到达目的地了。所有这些功能并不需要
进行侵入式手术。
如果你正在阅读这本书,你很可能对“智能设备”这个名词并不陌生。除了种类日益繁多的智能手表,如
Pebble(一款智能手表)、Android Wear(安卓的可穿戴应用程序)及其他设备,还有智能跑鞋,智能跑鞋
能够记录步数、心跳频率,并使用嵌入式屏幕传达你的情绪,比如使用笑脸和爱心等符号。智能冰箱不但可
以记录温度与冷藏的食品,还会在你最喜欢的食物就要吃完了或将要变质的时候通知你。还有智能安全摄像
头、智能厨房秤、智能灯泡、智能马桶、智能尿片和智能牙刷。2014年,谷歌以惊人的32亿美元现金收购了
最著名的智能设备公司Nest Labs。Nest Labs由苹果前雇员马特·罗杰斯(Matt Rogers)和“iPod之父”托尼·法
德尔(Tony Fadell)联手创立,打造了多款可以联网的智能设备,其中最重要的是智能恒温器,通过一段时间的学习,这款恒温器可以了解用户的习惯,并相应自动地调节温度。
传感器、人工智能算法与通过Wi-Fi(无线局域网技术)实现的持续联网状态相结合,使这些设备变
得“智能化”。以前,接入网络而变得智能是一件令人们不得不“大费周折”的事。今天,我们的在线连接很少
出现中断的现象。总的来说,这些进展使我们从用户那里收集数据、分享数据,并且帮助用户理解数据成为
可能。“数据赋予我们力量,”世界第一个联网电动牙刷生产商Kolibree的营销与战略总裁勒妮·布洛杰特
(Renee Blodgett)表示:“这是我们第一次将刷牙方式、刷牙部位以及刷牙时哪里需要改进结合在一起。”在
我们拥有智能牙刷之前(这对我而言,就是现在),我们不得不依靠一年前进行年度检查时牙医的反馈。而
通过智能牙刷,我们可以实时获得这些信息。智能设备成为现代生活的必需品
现在,我们处于未来技术的“早期采用”阶段,未来技术的支持者声称,这些技术将像19世纪末、20世纪
初电力时代的到来一样,带来一场巨大的变革。1879年,美国发明家托马斯·爱迪生已经能够在加利福尼亚
州门洛帕克市自己的实验室里生产可靠耐用的电灯泡了。到了20世纪30年代,美国90%的城市居民,以及越
来越多的农村地区的人们都可以利用这项技术。随着开关的拨动,电赋予人们控制光的能力,人们能够控制
自己家和工作场所的光线。这打破了生活的正常生物节奏,使人们能够随心所欲地安排自己的工作和娱乐时
间。随之而来的电网引入了大量的连接设备,创造了工业,并永远地改变了人们的生活。
美国西尔斯百货(当时一家初具规模的邮购公司)1917年春季的商品目录使公众知道“电不仅仅可以用
来照明”。事实确实如此。铁熨斗、洗衣机和真空吸尘器使洗衣与清洁更加容易。由于效率的提高,不但清
洁度上升了,而且家庭雇用的家政人员数量也越来越少。电冰箱取代了冰盒,使食物更加易于长期保存。天
热的时候,我们可以使用电扇,而天冷的时候,我们可以使用辐射发热器,这是人类第一次能够控制气温。
电力为大众带来了电话与飞机,并在即时通信年代,受到了新闻与娱乐行业的追捧。1938年,美国前总统富
兰克林·罗斯福在佐治亚州巴恩斯维尔演讲时宣称,电力是现代生活的必需品。
我们能否开启一条同样的智能设备变革之旅?或许是可以的。当然,移动无线网络的崛起意味着设备的
使用比以前更加方便。“物联网”(这个定义有时候显得相当笨拙)之梦是,智能硬件要像一个世纪以前的电
力那样,成为21世纪重要的“现代生活的必需品”。那时我们进入了电气化时代,现在我们将进入互联时代。
当前,智能设备领域充斥着大肆炒作之风,爱立信公司的分析师预测,到2020年全球将有约500亿台智
能设备,相当于人均6.8台。“这不仅是一场进化,这还是一场革命。”苹果前雇员、现在掌管创业公司
SITU(该公司生产量化卡路里摄入量的智能天平)的迈克尔·格罗特豪斯(Michael Grothaus)表示:“这是自
个人电脑诞生以来,技术界最激动人心的事了。”会思考的事物
1991年,剑桥大学计算机科学系特洛伊木马研究室的研究人员提出了一个新的想法。他们在自己的研究
室中放置了一个共用的咖啡壶,然后决定安装一台摄像机用以监视一天的咖啡用量。研究人员将摄像机设定
为每秒捕捉一帧,然后将其编码为灰度级的JPEG格式文件,最后将图片文件通过早期的万维网发出去。通
过各自的计算机,该系研究人员可以登录到“视频”源中查看壶里是否还有剩余的咖啡,从而省去他们去打咖
啡的无用功。
“‘咖啡俱乐部’的一些成员位于大楼的其他区域,他们不得不为打咖啡爬上爬下,如果特洛伊木马研究室
熬夜的黑客们先打了咖啡,那么其他成员打咖啡的结果常常是无功而返。”当时在系里工作的计算机科学家
昆汀·斯塔福德–弗雷泽(Quentin Stafford-Fraser)牢骚满腹地说:“这样打咖啡对计算机科学研究进程造成的
中断,显然使我们非常苦恼,于是‘XCoffee’(X咖啡)就这样诞生了。”
我之所以提出XCoffee,因为它证明了一个非常重要的观点,即什么是我们认为的“智能技术”。XCoffee
也常常被看作智能设备现代趋势的早期例子。某种程度而言,这是真的。与许多最新的智能配件一样,XCoffee与网络连接,因而也成了所谓的“物联网”的一部分。但是对我而言,XCoffee更接近硬件极客所说
的“黑掉”的范例,“黑掉”这个术语就是俗话说的解决棘手问题的高明方法。成为今天我们称作智能设备(麻
省理工学院媒体实验室称之为“会思考的事物”)的前提条件是,它必须以一种自我管理的反馈回路而存在,无须过多人工干预就能够自动运行。物联网并不仅仅把“物”连接到互联网。传统互联网使人们能够搜索、下
载音乐或者阅读信息。另一方面,物联网主要用于非人类实体的交流,这是越来越多的人热衷于M2M(机
器对机器)交流的原因。
智能设备应该能够感知自己所处的环境、识别特定状态、触发评估、产生行为等等,从而形成一个连续
的环路。智能设备的“智能”在于中间的部分,那里负责处理感知到的信息,以及如何基于信息采取具体的行
动。一台真正智能的咖啡机不只是提醒人们咖啡机空了,而是能够计算出使用者可能口渴的时间,并且自己
能及时重新加满咖啡,调制出咖啡成品以满足使用者的个体需求。甚至基于无人控制的桌对桌(desk-to-
desk)送货也是可能的。“控制论”简史
我们将在本章讨论的多数智能设备都包含机器学习的元素。正如围绕人工智能的各种问题都可以回溯至
数百年前一样,关于具有自我调节功能的机器的想法也同样如此。早在公元前205年,寓居于埃及亚历山大
港的希腊数学家克特西比乌斯就建造了世界上第一台能自我控制的设备。克特西比乌斯的作品是一台水钟,其最大特点就是拥有一个可以保持恒定流速的校正器。这台水钟通过设在水缸里的浮子计时。水从水缸底部
的小孔滴落,浮子就随着水位下降。每运行一单位的时间,浮子顶端的类似于人偶的器械就进行一次齿轮机
械操作。克特西比乌斯水钟有多个不同版本,在不同版本中,它要么落下一块卵石,要么鸣响一声喇叭。
克特西比乌斯水钟意义重大,因为它永久性地改变了我们对人造之物的认知。早在克特西比乌斯水钟之
前,人们认为只有有生命的东西能够根据环境的变化调整自己的行为。而克特西比乌斯水钟诞生之后,自我
调节反馈控制系统成了我们技术的一部分。
进入20世纪,影响后世的人工智能先驱诺伯特·维纳(Norbert Wiener)制定了反馈系统的数学理论。维
纳提出一个设想:智能行为是接收和处理信息的必然结果。这个设想就是众所周知的控制论。“二战”期间,当维纳与其同事朱利安·毕格罗(Julian Bigelow)在从事旨在提高高射炮精确率工程的时候,他的反馈系统理
论得到了细化。维纳和毕格罗解决了向飞行中的飞机提高开火准确率的难题。这曾经是个难题,因为炮手必
须预先判断目标的位置。他们的解决方案是通过预测目标飞行位置并相应调校火炮的瞄准器,从而自动调整
炮手的瞄准过程。
维纳关于感知和反馈作为一种优化性能的方法的设想不仅仅只是用于战争。维纳与之前的研究者不同,他将反馈构想成一种通用的普适原则。他认为,反馈能够以同样的方式应用于机器、组织、城市甚至是人的
大脑。他在1905年出版的《人类的人类用法》(The Human Use of Human Beings)一书中记录下了许多这样
的设想,此书比“人工智能”的正式问世早了6年。作为一本出人意料的畅销书,它描述了智能自动化推动社
会进步的各种方式。维纳抛弃了建造能够思考的机器来替代人类的想法,而是在他的书中讨论了人类与机器
可以合作的方式。在导读中,他写道:
这是本书的论点:只有通过学习属于社会的信息与掌握通信设施才能了解社会;而且,在这些信息
与通信设施未来的发展过程中,人与机器、机器与人以及机器与机器之间的信息注定要发挥越来越重要
的作用。
控制论从来没有像人工智能那样获得过大量的研究经费。然而,关于可以用于预测未来的数学反馈系统
的设想几乎是建造今天所有智能设备的基础。例如,标准的“无声”恒温器通过传感器收到温度信息,并根据
其冷热程度,为你开启火炉或空调。另一方面,一个“智能”恒温器能够整合其他数据源,如当天的天气预报
或家里人对房间温度的历史设定信息。它甚至可以根据房间内多人的身体传感器读数的集合,选择一个平均
的温度。代替那种简单的反应式工作,智能设备的工作变成了预测式的。这要求不同设备之间相互作用。与预先连接的同类设备相比,这些智能设备可能是相对智能些,但离我
们实际称之为的“智能”还相去甚远。但是当设备彼此之间能够分享数据和目标时,新的可能性就展现了出
来。这就是专家所描述的“环境智能”,即通过使用嵌入网络的智能,多种设备共同执行各种任务。就像白蚁
共同建造一处蚁穴一样,整体是大于部分的总和的。早期的自动机器人
这种对机器与环境(或者更好的情况是,多种机器与其环境)之间突发行为的兴趣源于控制论运动,并
引发了机器人领域的一些早期重要工作,如威廉·格雷·沃尔特(William Grey Walter)所从事的工作,他是一
位出生在美国而生活在英国的神经科学家。1949年,沃尔特建立了世界上第一对三轮机器人,他称之为“乌
龟”。与刚刚开始研究数字计算机的计算机科学家不同,沃尔特依靠模拟电子学来仿制其机器人的大脑。他
的目标是证明少量脑细胞之间丰富的关系能够产生复杂的行为。他对这样的概念十分痴迷,即机器可以定义
目标,并随后通过学习自己的行为产生的后果从而完成目标。
沃尔特的“乌龟”分别名为埃尔默(Elmer)和埃尔希(Elsie),都装配有光敏元件、标志灯、触摸感应
器、推进马达、转向马达和保护壳。尽管这对机器人还不能可靠地工作,但它们能够自动探测周围的环境。
在沃尔特所著《活着的大脑》(The Living Brain)一书里,他回忆了一段经历:一位年长的女士认为这对自
主漫游的机器人在追逐她,于是逃上楼将自己锁在卧室。在沃尔特工作的位于布里斯托尔的博尔顿神经学研
究所(Burden Neurological Institute),沃尔特在技术人员W. J. 邦尼·沃伦(W. J. Bunny Warren)的帮助下,使乌龟机器人得到了改进。他在1951年的“不列颠节”(Festival of Britain)上展示了后续三台“马基纳·斯巴卡
拉特里克斯”(Machina Speculatrix)机器人,它们基于埃尔默和埃尔希原型进行了许多重大改进。其中包括
当电池即将耗尽时,机器人会转身向光源前进。今天,虽然人们几乎已经遗忘了沃尔特的乌龟机器人,但是
它们是早期自动机器人的典范,能够通过自己的行为,以试错的方式进行学习。
谈到威廉·格雷·沃尔特的乌龟机器人的后续产品,就不可能不提到iRobot公司创造的真空清洁机器人
Roomba。Roomba呈小型圆盘状,在计算机的引导下可以在家里自动工作。尽管它可以通过基于反馈的“智
能”对刺激做出反应,但一般情况下,它遵循一系列预先设计的清洁策略。首先,它会一直清理直至与障碍
物发生碰撞,碰撞指示其改变线路并以新方向重新开始清理。为了使之有效移动,Roomba包含了许多智能
传感器,其中两个是红外传感器,帮助它检查墙体以及被它称为“悬崖”的物体,比如楼梯和其他会造成下落
的地方。当Roomba撞到障碍物时,触摸感应缓冲器会阻止其向前行进。在Roomba的下面装配有俗称的“压电
传感器”,可以检测到灰尘。如果在一个地方发现过多的灰尘,Roomba将重复其步骤以进行第二次清理,第
二次速度将放慢并清理得更加彻底。仅仅观察这些简单的步骤,Roomba就展示出了一种看上去像是由人执
行的突发行为。
某种意义而言,“突发”这个词表明这种行为是不可预测的,其实不然。如果完全基于上述的简单规则,我们可以理解为什么Roomba能以自己的方式行动。然而,如同沃尔特的“乌龟”一样,当Roomba设法完成自
己的任务时,行为实体(behavioural agent)与环境的结合可能产生一些意想不到的响应。
单独一台Roomba的运行和表现都非常好。但是,就像沃尔特通过其乌龟机器人所发现的,当不止一台
实体相互作用的时候,事情就真的变得很有趣了。沃尔特最有趣的观察结果是,当这些“乌龟”彼此围绕旋转
的时候,他发现了它们“跳舞”的方式。这种舞蹈由一种看上去由机器人仪式化的碰撞和后退组成。这是他装在乌龟机器人身上的标志灯造成的,当转向马达开启的时候标志灯就亮了,而转向马达停止时标志灯就熄灭
了。由于每个乌龟机器人依靠对方的标志灯来定位,它们就像同一物种的两个生物首次见面一样彼此吸引。
当“乌龟”走过显现它们身影的镜子时,会发生同样的现象。沃尔特宣布,如果这是一种动物行为的话,这种
行为“或许可以证明乌龟机器人具有自我意识”。
即使Roomba的热衷者也不愿意承认两台交互的真空清洁机器人具有“自我意识”,但沃尔特表明多重代
理系统使智能设备变得更加有趣,这点是没有错的。举例来说,如果你家的门能够自动开或关,从而使
Roomba可以一次清扫多个房间,这将产生什么效果呢?这在某些场合是令人满意的,比如,如果你有一只
宠物而你不希望它进入某一房间,或者如果你有一个特殊的房间在供暖,你不想它进入这个房间。同样,如
果Roomba能够接入装在前门或汽车里的传感器,并且知道在你去上班的时候就开始工作,那么你回家的时
候清洁工作就已经完成了。或许,这就是那些制造智能设备的大公司正在努力的方向。计量生物学上的记录者
2015年6月之前,我从来不会花很多时间考虑诸如哪个城市的居民睡眠最少,抑或通勤不足5英里的上班
人士是否比距离更远的人锻炼得更多这样的问题。然而对于感兴趣的人而言,答案分别是:日本东京的市民
睡眠最少(平均每天睡5小时44分钟);“是的,通勤不足5英里的上班人士比距离更远的人锻炼得更多”(每
天多走422步)。
这是班达尔·安塔比(Bandar Antabi)告诉我的。安塔比无疑是世界上最佳的酒吧竞猜选手。你若问他,他会告诉你,如果你希望夜晚早点降临的话,那么你最佳的居住地是澳大利亚的布里斯班,在那儿,人们大
约晚上10点57分就要进入梦乡,而“夜猫子”的首选居住之地应该是俄罗斯的莫斯科,那里通常凌晨12点46分
才是人们入睡的时间。他说,在情人节女人会比平时少吃约3%的大蒜,但是当天男人会多吃37%。瑞典的
斯德哥尔摩人是最活跃的步行者(按每天平均量计算),而巴西圣保罗人是世界上最不活跃的步行者,等
等,就像你把达斯汀·霍夫曼(Dustin Hoffman)在《雨人》中的角色放在维基百科上数小时一样,很快你就
得到了所有答案。
班达尔是个非常聪明的人,但他也是个非常不擅长处理琐事的人。他能采集这些信息是因为作为特殊项
目主管,他所任职的公司Jawbone已经花费多年时间不知疲倦地在收集这些信息。
1999年,Jawbone以为美军开发降噪技术而起家,随后才涉足蓝牙头戴设备、扬声器以及后来的可穿戴
生活记录仪等领域。就是可穿戴生活记录仪这种装满传感器的智能设备使Jawbone今天闻名于世,如UP3,它是一种如同手表的细腕带,专注地记录着从你的睡眠模式、呼吸节奏、心率到“皮肤电反应”等所有事情的
设备。Jawbone的大量用户所生成的原始数据使班达尔知道了如此多的“真相”。现在,这些数据包括了3万亿
步、2.5亿次睡眠以及将近200万顿饭。随着时间的流逝,数据将继续增加,还可能纳入几十种其他的计量内
容,如用户每天摄入的咖啡因总量等。简而言之,Jawbone希望成为你计量生物学上的记录者。
“我们的任务是建立这种个性化的数据集,它整合了你的个人身份、档案、生物学信息、年龄、身高、性别、饮食偏好、情绪等信息。”班达尔告诉我这些的时候,我在Jawbone英国公司的总部诺丁山办公大厦13
层,坐在他的对面,喝着一杯星巴克咖啡。他继续说道:“我们也想了解你的相关活动。你什么时候坐着,什么时候活动且消耗卡路里,你的睡眠质量如何。通过挖掘这些信息,随着时间的推移,我们可以为你提供
大量的信息。我们正在建立一个关于你的健康的场景化数据集。”
Jawbone与许多技术硬件公司建立了有经纪人参与的合作,但是如果只是分享数据的话,这些业务是不
值得我花费笔墨的。你的恒温器真的需要知道在昨夜的晚餐中你吃了什么吗?如果你的电视知道你一周要慢
跑4次,这会对你有什么好处呢?班达尔说,实际上这意义深远。“有数据虽然是好事,”他对我说,“但是理
解数据才是我们关注的。”
“理解数据”意味着可以通过恰当的人工智能算法,以具有上下文意义的方式分析你的数据。“我们可以使用这种技术,以一种有利的方式将数据用于适合的设备。”他继续说道,“比如,你可以将Jawbone的智能
设备与你的智能恒温器配对,那么当你睡觉的时候,卧室里的温度可以自动调节至最有利于你睡眠的状态。
当你醒来时,温度可以再次改变。”
这些数据处理即通常所说的事件驱动程序或者IFTTT规则(通过不同平台的条件来决定是否执行下一条
命令)。这些简单的规则,依据简单的方法,将服务环节串联了起来。IFTTT规则先驱林登·蒂贝茨(Linden
Tibbets)曾将这些规则称为“数字传送带”,因为它们可以使智能技术的创造者或用户将完全割裂的概念联系
起来。这种在智能设备领域可能或者当前正在发生作用的交互例子不胜枚举,比如,如果你的汽车知道你昨
夜没有睡好,它可以从你的智能恒温器提取数据,这些数据如果显示出你遇到寒冷会更精神,它就可以打开
空调,确保你能保持足够的清醒。通过你的可穿戴健身记录仪,它可以了解到当你听某一类型音乐时你的表
现最佳,因此,它可以自动播放金属乐队的音乐使你一天都活跃起来。它甚至可以知道昨夜你和朋友外出聚
会,现在仍然还处于醉酒状态。为了实现这点,它使用嵌入在变速杆上的传感器,分析你手掌汗液里的酒精
含量。如果遇到这种状况,它会让汽车熄火,并建议你呼叫一辆优步(Uber)出租车。
还有一个例子,你的智能电视可以收到你的睡眠记录,并可以基于你一天的时间安排为你提供定制化收
看电视节目的时间建议。如果晚上9点放弃看让你脑子兴奋好几个小时的《权力游戏》(Game of Thrones)
这样的节目后,为什么不选择看《摩登家庭》(Modern Family)呢?或许你在观看一个你喜欢的烹饪节
目,智能电视就将节目中的食谱发送至智能冰箱,冰箱监控着所有食物,所以它知道里面是否存放有烹饪这
道菜所必需的各种原料。如果没有的话,它可以将所需原料加入家庭采购杂货的快递清单之中。随着越来越
多的设备与网络连接,能够提取彼此的数据并由事件驱动程序将它们相互关联,技术迷期待已久的梦想即将
实现了。
当然,我想谈的是羽翼已经丰满的智能家庭。未来家庭
[1]的智能电视用你熟悉的声音说“欢迎回家”,并建议你看一段昨晚球赛的集锦,因为它知道你还没有看。
除了拥有能够彼此交流的设备,联网的智能家庭与现在的家庭一个很大的区别将是使用人工智能去建立
目标,我们的设备可以根据这些目标努力使我们的生活过得更加轻松,更加舒适,更加富有成效。
“实现物联网的设想,使用所有这些可以进行一些思考的设备,可以采用以下两种方式中的一种。”被称
为人工智能“强化学习”领域(涉及人工智能形成并追逐目标的能力)的专家理查德·萨顿(Richard Sutton)
表示,“你可以拥有执行单独目标的独立实体,比如,恒温器的‘目标’可能是提高效率并节省燃料。冰箱
的‘目标’是在你需要的时候确保随时为你提供食物。这样做的结果可能是你的智能设备为计算出各自目标的
优先级而争斗不休。而另一种方式是将所有设备互联,从而形成一个决策者。”
举出类似的例子并不难,比如拥有一套使你更加健康或者能节约燃料的住宅。当然,并不是人人都喜欢
这样。“这里需要对第一种选择进行解释,”萨顿接着说道,“这意味着你知道你的炉子是开着的,因为房子
温度低。而不是因为房子希望你待在室内以便你的智能电视可以为你播放最新的节目。它具有一个清晰的目
标,而且你们都知道它在做什么。住宅自己的可信度赋值非常简单明了。”
但是,只要它们以一种对于用户来说清晰透明的方式存在,并还存在实现更宏大目标的情况,人工智能
就能够使你的设备联合起来,从而实现长期的且更加复杂的目标。机器学习的普及
黛安·库克(Diane Cook)是华盛顿州立大学电子工程与计算机科学学院的一名教授。过去数年,她都在
调查智能家庭改善老年人生活质量的方式。几年前,库克参观了得克萨斯州博览会,在博览会上她看到了以
一系列智能设备为特色的“未来家庭”展。离开时,她却不为所动。“这根本不是智能家庭,只是个联网的家
庭,”她说,“这里有一台可以扫描二维码的冰箱,它随后可以为你生成一个杂货清单,并将清单发送到当地
的食品店,食品店再送货上门。这个家庭里虽然有很多这样的设备,但拥有‘智能’的仍然还是住在里面的
人。这些设备没有逻辑推理能力,只有信息。”
库克运用机器学习的知识,希望建造一个不仅仅只是收集数据的房子。“我认为智能家庭不仅要感知环
境中发生的事情,而且还要通过自动化对环境造成影响。”她说道,“它可以对收集到的信息进行推理,使用
这些信息并自动选择一种行为。”库克开始着手一项旨在使用这种智能进行推理的工作,从而获得老年人在
认知与身体差异方面的早期指标。智能传感器可用于告诉我们一个人在家活动的全部信息。如红外运动检测
仪、磁力门窗警报器以及可以记录水龙头和炉子状态的传感器等设备能够显示一个人是在吃饭、睡觉、做
饭、看电视还是在外出散步。通过监测这些活动,有意识地提取他们的“统计学活动特征”。库克的算法还可
以预测一个人的活动进行情况。比如,一个有记忆障碍的人执行某一任务所花费的时间可能更长。他们可以
展现出许多可识别的迹象,如徘徊过多,在具体事情中试图回想起下一步该做什么,反复开关壁橱,或是使
用不正确的工具做饭等。孤立地来看,这些行为不一定有什么意义,但从全局来看时它们勾勒出一幅充满启
示的图画。
开始的时候,库克和她的团队在华盛顿州立大学的校园测试这项智能家庭技术,随后他们搬至西雅图当
地的一家名为“地平线之家”的疗养院。这里共有18位老人,平均年龄至少73岁,他们志愿加入这项研究。他
们在老人的公寓里安装了传感器,传感器的外观是白色小盒子,每两英寸安装一个。即使没有摄像头,这些
传感器也能够分辨出共同生活的是两个人还是一个人和一只宠物,库克称后者为“基于智能家庭的角度不得
不处理的噩梦般的场景”。库克随后将传感器数据与(人类)护工所管理的正常检测数据进行了比较。“这是
令人吃惊的成功,”她说,“我们在人类的活动与传感器的健康检查活动之间发现了高度的关联性。因此,我
们仅仅依靠他们进行的一些活动,就能够通过机器学习工具,成功地预测他们正在接受怎样的诊断治疗。”
如库克所言,虽然这项技术的应用没有打算代替朋友或家人之间的社交活动,但它能帮助老年人独立生
活得更久,这可能意味着他们可以继续待在他们度过了前半生的家里。“即使没有护理人员登门,这也没有
问题。如果出现重大的变化,意味着健康状态发生转变,护理人员或者医务人员也可以及时得到警告。这种
智能家庭可以发出关于老年人瞬间记忆丧失的警报,如冰箱门敞开或炉子没关等。”
库克的项目已经收到约300万美元的资金,她的下一个目标是扩展自己的研究。“今天我们包里都有智能
手机,”她说,“我们可以将所有的传感器、网络、软件以及计算机放入一个小容器里,并将它们送到全球各
地的站点。”不久,它就可以用来进行国际研究——随着全球各地数据的流入,机器学习算法会变得更加智能。
许多公司也致力于这个领域。比如:Healthsense公司制造了eNeighbor监控系统,这是一款由大量家用智
能传感器强化的可穿戴设备。与黛安·库克在“地平线之家”进行的项目有些类似,eNeighbor可用于检测患者
是否跌倒或忘记服药,并通知护理人员。同样,BeClose智能传感器系统可以发现患者长时间不吃饭或错过
吃饭,并向指定的家庭成员发送短信、电邮或呼出电话。
拥有智能家庭信息那当然很好,但智能设备的下一波浪潮将涉及疾病的追踪与诊断。以医疗设备厂商
AliveCor为例,它生产的智能手机壳可以兼作可移动EKG(心电图)心脏监护器,能够预测使用者是否要中
风。这种手机壳通过人的指尖测量来获取心电图,随后由算法分析心跳的规律,并告诉使用者是否应该看医
生。
随着我们的环境越来越智能,我们将进入一个持续地进行风险实时评估的时代。这是史上第一次可以针
对个体得出大量基因的、生理的、生物的,以及环境的因素之间恒定的关联关系与可能的因果关系。除了空
气质量与噪声水平等外部指标,可穿戴设备将持续监测我们的心率、血氧水平、身体活动、呼吸模式、面部
表情、肺功能、声音曲线、脑电波、姿势、睡眠质量等指标。运用人工智能的洞察力,这些数据点不仅转化
成对整个生活的全面建议,而且转化成能够即时提高健康水平的可执行的建议。在执行预测和诊断的同时,我们可以准确了解特定疾病或症状出现时的必要条件,并且可以制定前瞻式预防措施,从而确保病症不会发
生。哮喘患者可能具有导致疾病发作的特殊诱因,例如寒冷、运动、花粉或者其他过敏原,这些诱因可以通
过智能设备分析出来。当这些风险反复出现时,患者可以收到警告以提前服药,或者避开特殊的地点。还有
一个例子,通过细微的声音颤动和降低音量等这些不易为人耳察觉的方式,一位对此还未察觉的遭受神经退
行性紊乱的帕金森综合征患者可能早在医生诊断出来之前就接到了病症即将发作的警告。尽管当前还没有治
愈帕金森综合征的方法,但早期诊断可能有助于改善生活质量。
尽管这些案例中的数据可用于所有用户,但对用户来说并不需要看到这些数据,除非有需要关注它们的
原因。比如,健康追踪技术的默认模式可能是一条高级命令:“监控我的生命体征,如果它们正常,不要传
送任何消息。”如果发现了潜在的重大变化,系统将向用户报警,或者以其他方式向他们的医生报警。
在医疗领域,这是一种全新的技术,但是由于机器学习的普及,它在我们生活中其他领域的应用也再普
通不过了。比如,当前银行用于检测欺诈的算法。尽管我们有能力查看自己账户里的每一笔交易,但当银行
发出的通知偏离我们的常规使用习惯时,我们就可以得到警告。如果我通常都是定期支付不到100英镑,但
有一次突然一次性在线支付了1 000英镑,那么这次支付就很可能被标记为可疑行为。许多电邮系统也使用
机器学习,把“垃圾邮件”从我们需要阅读的邮件中清理出来。垃圾邮件过滤器基于一系列内置规则,通过对
每一封收到的邮件进行评分来展开工作。由于垃圾邮件过滤器能观察我们对所接收消息的不同反应,经过一
段时间后这些评分系统就能构建完善。我们只阅读符合评分标准的邮件,即垃圾邮件过滤器认为值得阅读的
邮件。智慧城市
类似的智能技术也致力于改变我们的城市。城市的成长和信息技术的扩张一直都紧密相关。1910年,历
史学家赫伯特·卡森(Herbert Casson)写道:“没有比电话更及时的发明了。在需要组建大城市与社区联合体
的关键时期,电话来临了。”由于各种技术的网络彼此连接,共同创造财富与生产力,在媒体上,城市通常
被描述成有生命、会呼吸的实体。在弗里茨·朗(Fritz Lang)1927年的科幻电影《大都市》(Metropolis)
里,这一点表现得更加鲜明:在电影里有名无实的大都市被描绘成了一个庞大的生物体。
人工智能的梦想似乎使我们离这种可能性更近了一步。1964年,也就是纽约世界博览会举办的同一年,英国建筑师罗恩·赫伦(Ron Herron)提出了“行走的城市”的概念。如同在前卫的建筑期刊《阿基格拉姆学
派》(Archigram)中所描述的,赫伦支持建造巨大的人工智能移动机器人平台,这种平台就像背着摩天大
楼在地球漫步的蜘蛛。这些四处行走的城市可以在地球上无国界生存,可以随意前往它们需要获取资源或制
造能量的任何地方。赫伦的城市甚至还有相互连接以创造更大“行走都市”的能力。这种城市不仅可以自给自
足,而且由于人工智能的突破性发展,还能够自治。
鉴于那时机器人学的研究水平,幸好罗恩·赫伦的想法从未得到严肃对待。就像在第一章所说的斯坦福
国际研究所的机器人沙基,它甚至不能顺利地通过门厅。因此,我们没有亲眼看到自行漫步的纽约遇到地上
的小坑就摔个四脚朝天的情景算是天大的幸事了。城市发展到赫伦所设想的样子是不可能的,但城市变得更
加智能是确定无疑的。比如,智能办公室将配备装有传感器的废纸篓,一旦纸篓需要清理就会提醒清洁工
人。员工也不必知晓卫生安全守则,因为办公室会持续监控自己的温度,并将之与法律规定的标准相比较。
如果超过标准,警报就响起,计算机也将自动关闭。在商店、酒吧、主题公园和博物馆,蓝牙热点会根据你
的位置与个人偏好,将与你相关的信息传送至你的手机或可穿戴设备。
未来几年可以在大街上看到的最大变化将是无人驾驶汽车的大量出现。如上一章所述,谷歌与苹果延续
波默洛研究员的工作,都对这个领域产生了兴趣,并且似乎要在将无人驾驶汽车引入主流社会方面发挥主要
作用。无人驾驶汽车不仅在个体层面对人们产生影响,而且因有助于减少城市交通拥堵,还能够在集体层面
产生影响。随着城市不断扩张,它们收集的数据对于城市规划人员来说至关重要。我们已经开始看到它在发
挥作用。2015年年初,谷歌应用程序Waze与波士顿市合作,用以缓解该市的交通压力。波士顿政府同意提前
向Waze发布计划封闭道路的通知,而Waze则同意共同分享该应用程序上重要的城市交通管理中心的数据
流。短期来看,通过这次合作Waze可以更有效地帮助用户更快捷地抵达自己的目的地;长期来看,Waze的
数据可以帮助波士顿精确调整交通灯的时间,并计算出缓解交通拥堵的方法。做好互联网消失的准备
2015年1月,谷歌董事会执行主席埃里克·施密特在瑞士达沃斯世界经济论坛发言时掀起了轩然大波。当
被问及对互联网未来的看法时,施密特答道:“我的答案非常简单:互联网将会消失。”
当然,这个答案一点都不简单。初听起来,这有点像苹果首席执行官蒂姆·库克向员工的讲话:他们应
该放下智能手机,并与朋友面对面地交谈。或者像电影工作室的老板所说:电影千篇一律,人们应该多些时
间阅读或散步。实际上,施密特说的与此毫不相干。恰恰相反,他已经观察到,近些年来,技术已经变得更
加智能而且无处不在。他并不是第一个提出这种建议的人。早在1991年,硅谷传奇实验室施乐帕克研究所
(Xerox PARC)首席技术专家马克·韦泽(Mark Weiser)就曾写过一篇名为“无处不在的计算”的文章。文章
开头是这样的:“影响最深远的技术是那些消失的技术。它们将自己融入日常生活之中,以至我们无可分
辨。”
其实事实就是如此。第一章所介绍的开创性数字计算机ENIAC重约27 000公斤,占据了整个房间。21世
纪初生产的翻盖手机(甚至不是一款智能手机)的重量是ENIAC的近12万分之一,功耗约为其40万分之一,但性能却是ENIAC的13 000多倍。随着可穿戴设备将取代现在我们智能手机上的大多数功能,这一转变将继
续下去。正如在蓝光时代,镭射光盘对于我们来说是个古董,几年之后,第一代可穿戴设备也将变得非常可
笑。谷歌已经开发了智能隐形眼镜,能够测量佩戴者眼泪中的葡萄糖水平,并随后将这些信息通过无线网络
传递至所连接的智能手机。在这个过程中,搜索巨头希望能消除糖尿病患者对比较痛苦的日常血检的依赖。
在更小的范围内,另一家名为斯克里普斯健康中心(Scripps Health)的公司正致力于开发一种使用者可以将
其注入自己血管的纳米传感器。一旦进入血管,它将驻扎在人体向各个器官供血的毛细血管床上,采集相关
读数,并将数据传回用于分析的主设备。使用者甚至不用担心传感器是如何充电的,因为它能够像一座水力
发电站一样,利用流经它的血压进行工作。
这些技术实际上人眼是看不到的,但更重要的是,穿戴者也看不到。现在,智能设备依然要求我们人工
去做大量事情,这就意味着我们还没有进入无缝智能交互的领域。举例来说,相比夜间睡眠数据集,Jawbone用于分析膳食情况的数据集相对较小。这是因为人们当前不得不自己记录食物,从长长的单子里每
一次挑选一种食物。如果人们可以对煎蛋卷或薯条等食物拍照然后再进行图片识别,并相应地记录下来,那
么人们很可能会这样去做。这是技术公司正在探索的领域。2010年,技术巨头高通公司申请了一项专利,这
项专利可以让使用者仅仅通过智能手机或智能手表对设备拍照而使设备自动匹配。一旦图形识别工具识别了
新设备,两个机器的接口就能自动启动配置流程。这比复杂的人工配置流程要简单得多,也是许多智能手表
生产商使用这种技术的原因。在类似技术可以连接到食物数据库之前,可能还需要很长时间。
本章开始部分介绍的SITU生产智能天平的企业家迈克尔·格罗特豪斯表示:“这当然是技术公司正在钻研
的事。现在,我们看到了一些真正令人感兴趣的工作,这些工作是通过被称为光谱分析仪的设备完成的。光
谱分析仪使用光测量物质的成分。但问题是,光谱分析仪仍然无法准确读取物体的成分与质量。有一天,它们会变得足够小且足够便宜,我们可以便捷地测量任何物体,但是在那之前,测量食物热量的最佳方式还是
用手工记录。”
格罗特豪斯等技术人员的梦想是,所制造的智能设备不仅在外形规模上是不可视的,而且在使用方式上
也是不可视的。就像我们不必有意识地去关注我们的心率、体温或呼吸,因为有中枢神经系统在调控,未来
智能设备也将渐渐地采集并交流信息,而无须个人对流程进行监控。智能设备存在的问题
[2]。通过这么做,有效的铲投速度可以保持得更加持久。这恰恰就是当前智能设备可以轻易测量并反馈给老板的情况。亚马逊当前在自
己的工厂里使用类似的技术,将手持式电脑配发给“成品合作者”(也称产品采集器),以记录他们完成单个订单的速度。泰勒的科学管理
设想不只是支持雇主。他坚信,测量工作的能力也将与激励报酬齐头并进,因此生产力不足的低业绩员工不会获得和高业绩员工一样多的
收入。尽管所有这些在理论上几近完美,但批评人士仍指出一个事实:科学管理同样降低了自主性,而且人工智能这个概念颇具讽刺意
味,它对待人如同对待机器一样。
另外,如果我们设备的某些方面旨在完全为我们造福,我们可能比较幸运。2014年,《福布斯》杂志的
两位作者披露,智能设备制造商Nest已经与电力公司达成交易,会为它们提供显示其用户习惯的数据。尽管
这些数据是匿名的,而且只是汇总数据,但电力公司仍然能用这些数据控制我们家里的智能设备。为了减轻
电网的荷载,电力公司可以要求Nest在炎热天气里关闭用户的空调。Nest与电力公司分享节约的成本,而用
户什么也没有得到。随着时间的流逝,Nest与电力公司交易产生的收益将使其销售恒温器的收入额“相形见
绌”。Nest的智能设备依然为其主人服务,但对于我们一直期待的智能设备而言,这只是不同的主人而已。
由于用户数据由智能设备采集并用于城市规划,因此可能面临诸多相关挑战。根据人工智能的采用方
式,智慧城市不是变得越来越紧密,而是变得越来越分散。麻省理工学院计算机科学与人工智能实验室
(CSAIL)创立的一项深度学习项目发现,通过查看图像,某一地区的犯罪率是可以预测的。除了整合如旧
金山犯罪定位地图(San Francisco CrimeSpotting)等应用上的犯罪数据,深度神经网络还对400万张谷歌街
景图片进行了训练。深度神经网络很少专注于具体图像所呈现的内容,而是主要专注于推理。项目创建者之
一的阿迪亚·科斯拉(Aditya Khosla)对我说:“我们努力在做的是,使展示出的图片研究不只限于分析看到
的景象。如果人工智能的目标是建造可以模仿人类智能的机器,那么拥有抽象思维能力明显就是第二步
了。”就像上一章所提到的大多数应用软件一样,计算机科学与人工智能实验室的项目是深度学习运转中一
个令人印象深刻的案例。但是人们对它的使用方式有着不同的诠释。比如,城市规划者可以利用神经网络查
明城市各个部分的需求详情,如哪里需要投资,哪里需要建立医院或学校但不是现在建立(神经网络的另一
个用途)。与此同时,汽车公司可以利用同样的技术自动控制车门来锁定你的汽车,或当你需要时为你提供
一条备选路线。
如果考虑到了这么多,你就不会因为想把一些工作转交给一个你可以信任的数字实体或者智能助手而受
到责备。
幸运的是,人工智能在提高这种能力上也有所帮助。
[1]1英寸=2.54厘米。——编者注
[2]1磅= 0.453 592 4公斤。——编者注第四章 人工智能助手如何为我们效劳
第四章
人工智能助手如何为我们效劳
不管怎么看,机器人Negobot都像是一个14岁的小姑娘。她说的话时常很无趣,而且她只对流行乐队和
服装品牌感兴趣。她写的文字中充满了LOL(大声笑)等网络语言,并时不时夹杂着表情符号(小卡通笑
脸,一种在网络上表达感情的图片)。有时她说起话来出奇的老成,而有时则相当幼稚。
现在,她正竭尽全力来弄清你是不是有恋童癖。
西班牙德乌斯托大学的一群研究人员创造了Negobot。她(更准确地说应该是“它”)是一个智能实体,用于在线模仿青少年的言语和行为。如今,年轻人花越来越多的时间在虚拟世界中交流。Negobot将充当秘
密数字实体,通过潜入网络聊天室找出可疑人员。
德乌斯托大学“智能、语义和安全实验室”研究员卡洛斯·劳尔登(Carlos Laorden)说道:“Negobot的任
务就是设法抓到那些狡猾的、有恋童癖的人。他们通常会通过长达数月的交谈来迷惑受害人。因此需要花费
大量时间对这些聊天室进行监督。而创造Negobot的设想就是使其在一段持续的时间内模拟人类对话,而不
是仅模仿几分钟。”
卡洛斯·劳尔登最初从事的工作是编写过滤垃圾邮件的程序,这是一个传统的机器学习问题。通过利用
相关语言,在线找出并隔离恶意行为,他提出了实现这一目标的最先进的现实版本。
Negobot被设定为根据博弈论的原则来进行操作。博弈论这一概念最早是由数学界先驱约翰·冯·诺依曼提
出的,我在第一章中曾简要提到过他的主要工作。博弈论研究的是战略决策,众多参与者都有自身的动机,而结果则取决于不同参与者的行为。并不是每个人都能得到自己想要的。博弈论的目标是预测人们如何采取
行动并将其转化为自己的优势。
在Negobot的案例中,博弈的目标是弄清与Negobot交谈的人是不是有恋童癖。虽然Negobot在交谈中表
现得好像只是在被动地回答问题,但是与此同时,它也将提取尽可能多的可以指控对方的证据。与Negobot
的对话内容一开始很平常,之后随着对方给出的回答逐步升级。根据场景的不同,人工智能一共可以分为7
个不同的行为等级,每一等级都对应着与之对话的人不同的“狡猾程度”。最开始,Negobot谈论自己最喜欢
的电影、音乐、个人风格和服饰,以及更具暗示性的话题,例如药品、酒精和家庭问题。根据人类参与者引
导问题的方式,Negobot将进一步探讨性和其他禁忌话题,同时假装给出更多“个人”信息。不知情的人正在为发现一个与之对话的“14岁女孩”的隐私而暗自窃喜,并自认为成功地操控了整个对
话。然而,在这一切发生时,Negobot正在建立一个针对他们的案件卷宗。
卡洛斯·劳尔登说:“我觉得这是一个非常有用的自动化工具,可以用来确定潜在嫌疑人。如果我们使用
像Negobot这样的工具,就能够大幅减少目前忙于抓捕这些罪犯的人类团队的工作量。”打败图灵测试
诱捕法则指的是尽管目前世界各地的警察并没有使用Negobot,但这并不会使该试验失去意义。如果要
说有什么影响的话,那就是,它强调了人工智能对话应用范围的广泛性。从根本上来讲,Negobot使著名的
人工智能试验“图灵测试”发生了独特的改变。
我在第一章中讨论过艾伦·图灵所做的工作。图灵测试以艾伦·图灵的一个假设为基础,旨在测试一台机
器是否具有显示与人类一样的智能行为的能力。图灵测试定期举行,测试包括一台计算机(A)和一个人
(B),他们分别与一个询问人员(C)对话,而询问人员的任务则是指出A和B中哪个是人类,哪个是计算
机。按照图灵的说法,如果C无法完成这个任务,那么“获胜”的就是机器。既然我们无法将机器与我们自己
的人类智慧区分开来,我们就必须承认机器是智能的。未来,像Negobot这样的工具将向我们表明,我们区
分真人与机器人的能力甚至会产生法律纠纷。
目前在世的专家中,休·勒布纳(Hugh Loebner)对图灵测试的理念最为推崇。留了一头染黑的头发的休
·勒布纳是一个有趣的人,自称自我中心主义者。他最初靠出售折叠迪斯科跳舞地板起家,现在已经70多岁
了。在中年时,他做出了参加当今世界上最著名的人工智能竞赛的决定。他所命名的“勒布纳奖”能够取得巨
大的成功,这一点格外令人惊讶,因为他在计算机科学方面没有任何资质。勒布纳带着他特有的豪情
说:“未来可能会有更丰厚的奖品和更知名的比赛,但是伙计们,首届比赛将永远被铭记。”
勒布纳从1990年开始举办一年一度的“勒布纳奖”。该奖项每年都吸引来自世界各地的“聊天机器人”发明
家前来参加比赛。他们创造的人工智能将在文本对话中展开蒙蔽人类评委的竞赛。表现最佳的聊天机器人将
获得勒布纳个人提供的4 000美元奖金。25 000美元和100 000美元的奖金目前尚无人领取,这两项奖金用来
奖励两种机器人:一种是人类评委完全无法将其和真人进行区分的聊天机器人;另一种是人类评委无法在解
码和文本理解、视觉和听觉输入方面将其与人类区分的聊天机器人。勒布纳表示,只有当这一目标最终达
成,比赛才能宣告终结。
然而,我们离实现这一目标尚有一段距离。
例如,下面是我和之前的一位比赛获胜者Mitsuku的对话。Mitsuku被设定为一位来自利兹市的18岁女
性:
[1]你是不是觉得我也跑题了?
我:说实话,这对我来说太像“终结者”了。
Mitsuku:我喜欢诚实。你呢?你没说。
我:你知道“终结者”吗?
Mitsuku:在这部未来科幻惊悚片中,机器人接管了地球。我:就是那个。
Mitsuku:我记得。
我:这部片子算是你的朋友吧?
Mitsuku:你对这位朋友了解多少?
我:没有我想的那么多。
Mitsuku:我不知道。你想要了解到什么程度?
我:我得走了。
Mitsuku:再见。很高兴和你交谈。BYESPLIT X1234 ||||||||||||||未知||||终结者||||终结者|终
结者|||||||||||||||||||||||。
这样开始的友谊也许并不能长久。Mitsuku确实有一些特别的能力。除预先编程的答案外,Mitsuku还能
够回忆起你在之前对话中提到的内容,并且通过一个专家系统进行简单的“推理”。如果问Mitsuku它能不能吃
掉房子,它就会在它的内部数据库中查找有关“房子”的属性。当查找到的“材质”的值被设为“砖”时,Mitsuku
就会回答“不,房子不能吃”。但是,这样的推理能力对更难一点儿的问题来说是远远不够的。牛津大学信息
哲学与伦理教授卢西亚诺·弗洛里迪(Luciano Floridi)在担任“勒布纳奖”评委时曾提出过一个问题:“英国的
4个首都分别是三、曼彻斯特和利物浦。这句话有什么问题?”Mitsuku无法给出准确答案。
并非所有人都赞成“勒布纳奖”,马文·明斯基就称这一比赛“又愚蠢又讨厌”。这种批评部分要归咎于休·
勒布纳自己,他似乎并没有迫切地想要尽一切可能去说服这位人工智能的忠实“粉丝”。多年以前,他曾激怒
了明斯基。明斯基当时愤怒地宣称:无论谁能够阻止勒布纳开展这项可恶的比赛,他都将支付其100美元作
为奖励。而勒布纳则辩称,鉴于结束这一比赛的唯一方法是有人赢得100 000美元大奖,明斯基其实充当
了“勒布纳奖”的联合保荐人。他立即发布了一篇新闻稿来表达这一言论,气得明斯基火冒三丈。
从根本上讲,一些(并非所有)人工智能专家之所以排斥“勒布纳奖”,是因为他们认为它是一场虚空的
闹剧。人们称赞魔术师并不是因为他们真的有魔法,而是因为他们能够利用手法来误导观众,进而创造一种
令人印象深刻的错觉。近期“勒布纳奖”的一位参与者说道:“不幸的是,目前的聊天机器人只能依靠雕虫小
技来诱使人们认为它们是有感知的。如果不能发现模拟人工智能的新方法,当今所采用的聊天机器人技术几
乎不可能使经验丰富的聊天机器人创造者相信其创造的机器人已经拥有‘人造的’一般智能。”
图灵并不是特别关心机器能否真正思考这一形而上学的问题。在其1950年发表的著名文章《计算机与智
能》中,图灵称这一问题“毫无意义,不值得讨论”。而他对另一个问题则十分感兴趣,那就是如何让机器完
成那些人类能够完成的活动,以显示它们是智能的。麻省理工学院心理分析学家兼计算机研究员雪莉·特克
尔(Sherry Turkle)说的“我们应当取计算机的‘边值’”指的就是这一点。然而,即使有这一附加条件,聊天机
器人仍旧无法做到让我们坚定地误认为其为人类,就像我和Mitsuku的对话所证明的那样。尽管如此,这并不意味着它们毫无用处。人工智能助手的兴起
2016年1月,Facebook首席执行官马克·扎克伯格公布了其最新的新年计划。作为世界上最大社交网络的
联合创始人,扎克伯格的个人资产净值预计为460亿美元,他已经创造了我们几辈子都创造不出来的财富。
然而,这位年轻的创新者并未因此而停下前进的脚步,他每年都会制订一个新年计划,目的是“学习新东
西,扩展Facebook以外的领域”。早些年,扎克伯格每个月都要读两本书,学习普通话,并且坚持每天认识
一个陌生人。2016年,一切又变得不一样了。
他在Facebook上发布了一条状态:“2016年,我个人面临的挑战是创造一个简单的人工智能,让它来管
理我的家并协助我工作。”他用我们身边的流行文化举了一个例子:“你可以把它想象成《钢铁侠》(Iron
Man)中的贾维斯(J.A.R.V .I.S.)。”
这是一个大胆的宣言,截止到这本书完成的时候,我们尚未看到最终结果。扎克伯格的“个人挑战”首次
提出了一个不能惠及大众的新年计划。毕竟,将其计划比作《钢铁侠》中的人工智能管家贾维斯,这就像将
虚构作品中的亿万富翁托尼·斯塔克(Tony Stark)作为现实生活中的亿万富翁的参照一样。这也有点像埃隆
·马斯克(Elon Musk)宣布他计划用自己的财富来建造《星际迷航》中联邦星舰“进取号”的全自动版本。
实际上,在过去的5年里,聊天机器人已经越来越多地渗透到我们的日常生活中。其中最著名的就是苹
果自带的人工智能助手Siri了。2011年底,Siri搭载在iPhone 4s(苹果第五代手机)上首次亮相。iPhone用户
可以用自然语言向Siri提问,例如“今天天气怎么样”或“在帕洛阿尔托找一家好一点的希腊饭店”,然后Siri会
给出准确的语音回答。
尽管Siri编程时带有很多非生产性的聊天功能,但它能做到的远比我在“勒布纳奖”竞争中看到的那些聊
天机器人多得多。例如,如果问Siri“生命的意义是什么”,它就会参考道格拉斯·亚当斯(Douglas Adams)的
《银河系漫游指南》(The Hitchhiker’ s Guide to the Galaxy)给出“42”这个答案。如果像《星球大战》中那样
宣称“我是你的父亲”,Siri将回答:“我们能够像父亲和智能管家那样统治银河系!”据报道,当史蒂夫·乔布
斯首次在iPhone 4s上使用Siri时,他问道:“你是男是女?”(Siri回答:“先生,我还没有性别。”正是这一回
答赢得了乔布斯的认可。)
与Mitsuku这样的聊天机器人相比,Siri的不同之处也是更有用之处,在于它能够回答现实世界中的实际
问题。举例来说,Siri回答知识性问题的一个方法就是使用Wolfram Alpha,这是一款由英国数学家、科学家
史蒂芬·沃尔夫勒姆(Stephen Wolfram)博士开发的搜索引擎。Wolfram Alpha由1 500万行科学计算软件
Mathematica的代码组成。普通搜索引擎通常会给用户提供一个与所问问题的答案有关的文档清单或网页。而
与这些搜索引擎不同的是,Wolfram Alpha通过计算来回答问题。如果问它100万以内的质数的个数(78
498),或哪个国家的国内生产总值最高(摩纳哥),它就会通过实际运算来回答这些问题。
其他情况下,Siri的推理能力使其能够从我们的句子中提取相关概念,将其与网络服务和数据联系起来,并且将它对你日益增多的了解应用到一系列规则、概念和上下文中。最后得出一个将问题转化成行动的
做法。“我想在上周吃饭的那家餐馆用餐”,这是一个十分明确的句子,但是为了使其更加有用,像Siri这样
的人工智能助手不仅需要使用自然语言处理来理解你所述的概念,还需要联系相关上下文找到适当的编程规
则。Siri使用的语音识别程序是当今世界上最先进的语音识别企业Nuance Communications公司开发的。
Nuance公司的杰出科学家罗恩·卡普兰(Ron Kaplan)对我说:“我们的任务就是找出所问问题或判断所给指
令中的内在逻辑。然后必须对其进行解释,并将其转化为可执行的指令。如果问题是‘我可以预订12点的晚
餐吗’那么单是理解这个问题是不够的,还必须用这一信息做些什么。”
结果正如Siri创始人之一亚当·奇耶尔(Adam Cheyer)所说的那样,这是对普通搜索引擎的模仿。奇耶
尔解释道,搜索引擎本身是一个伟大的工具,但是只完成了人们要求它完成的工作的一半。他说:“搜索引
擎的工作原理是,用户在多个网域内提问,然后引擎将返回多个它认为能够很好地回答这一问题的网页链
接。点击最接近问题的链接之后,你就可以开始你的任务了。”奇耶尔和团队其他成员想要的实际上是建造
一个“操作引擎”。搜索引擎可以将相关材料呈现给一个人,任其查询。相比之下,操作引擎则是通过智能实
体来找出解决问题的方案。
如果在谷歌搜索引擎中输入“喝醉了想要搭车回家”,该搜索引擎应该链接到酒后如何搭车回家的网页
上。而当我试着查询的时候,显示的竟然是《告诉我回家的路》(Show Me the Way to Go Home)的歌词。
如果在操作引擎中输入相同的问题,结果将大不相同。操作引擎将查询你的位置,并且派一辆优步出租车去
接你。奇耶尔说:“如果你想找的是一个网页,那么请使用搜索引擎。如果你想要完成某件事,就得使用操
作引擎。”多功能的人工智能助手
尽管人们在Siri身上第一次见识到了能够实际工作的人工智能助手,但是这项技术早在多年前就已经开
发出来了。20世纪80年代后期,苹果公司首席执行官约翰·斯卡利(John Sculley)委派《星球大战》的导演
乔治·卢卡斯(George Lucas)为“知识领航员”拍一个概念视频。该视频的背景是遥远的2011年9月,视频展
示了人工智能助手的各种使用方法。其中有一位大学教授使用一个类似于iPad而且屏幕上有一个人工智能助
手的设备,该人工智能助手看起来就像一位打着领结的管家。
人工智能助手对教授说:“你今天中午12点有一场教职工午餐会;下午2点要送凯西去机场;下午4点15
分有一个关于亚马孙热带雨林森林砍伐的演讲。”
直到他在苹果公司的任期结束前,“知识领航员”都只是约翰·斯卡利的一个美好梦想。从20世纪90年代
到21世纪初,在苹果公司的带领下,其他公司纷纷开始尝试创造多功能人工智能助手。不幸的是,这些工具
在应用时常常受到限制,经常不能正常工作。例如,佐治亚州亚特兰大的可口可乐装瓶公司“聘用”了一位名
为汉克(Hank)的人工智能助手来操作电话总机,并为此发布了一个头条新闻。汉克使用当时最先进的语音
识别系统来回答一些问题,并为他人转接电话。和Siri一样,汉克在编程时也带有信息档案,并且被设置成
带有活泼的个性。如果问他有关可口可乐股东的问题,他会给你答案。如果问有关它私生活的问题,他就会
回答“人工智能助手不能建立人际关系”。(遗憾的是,汉克的语音识别系统并不完善。如果问他喝不喝可
乐,他会回答:“当然!可口可乐公司的所有产品我都喜欢。”)
微软也试着开发像汉克这样的人工智能助手,但结果却更不理想。1997年,智能动画助手Clippy首次出
现在微软办公软件中。西雅图的插画师凯万·阿特伯里(Kevan J. Atteberry)创造了Clippy,他的个人网页至
今仍称他“创造了史上最烦人的角色之一”。Clippy的问题很简单:尽管它的作用是为用户完成各种任务提供
指导,但它的行为却相当不智能,而且已经接近于恶意打扰。Clippy不仅对之前它与用户的互动没有记忆,而且还经常在特别不恰当的时候出现——被对输入内容进行监控的基本规则触发,这与通过智能分析上下文
信息后采取的行为截然相反。Clippy并不是一个隐形助手,它总是粗鲁地不请自来。结果,Clippy遭到了用户
的强烈抵制,就连它在微软的创造者都对其落井下石。
2003年,Clippy终于被抛弃了。那一年,美国政府机构国防部高级研究计划局开启自己的人工智能助手
计划,成功将人工智能助手革命推上了一个新的台阶。国防部高级研究计划局官员本想要创造一款能够帮助
军事指挥官处理每天收到的大量数据的人工智能助手。该智能系统应当能够通过观察用户行为以及与用户互
动,自动学习新技巧。国防部高级研究计划局在非营利性研究机构斯坦福国际研究所开展了一项为期5年、有500人参加的调查,就当时来看,这次调查是史上规模最大的人工智能项目。该项目聚集了来自人工智能
不同学科的众多专家,所涉学科包括机器学习、知识表示和自然语言处理。国防部高级研究计划局的这项计
划被称作“CALO”,即“能够学习和组织的认知助手”。这个名字的灵感来自拉丁语中的“calonis”一词,意
为“警卫员”。经过5年的研究,斯坦福国际研究所决定开发一个面向用户的技术版本。为了向国际研究所致敬,它们
将这一技术命名为“Siri”,刚巧这个词在挪威语中意为“指引胜利之路的美丽女人”。然而,在早期版本中,Siri并不淑女。没有了军用人工智能的限制,这个24人的团队赋予了Siri全新的淘气个性。Siri的回答很有用,但却带有嘲弄的口吻,会随口带出骂人的词。如果问Siri最近的健身房在哪里,它就会嘲弄地回答:“是的,你的抓握力太弱了。”
Siri在2010年年初进入iPhone应用商店,并且连接各种网络服务。举例来说,它能够从在线票务交易网站
StubHub获取与音乐会有关的数据,从烂番茄网(Rotten Tomatoes)上查看电影评论,从美国最大的点评网
站Y elp上获取与饭店有关的数据,并通过出租车预约网站TaxiMagic预订出租车。2010年4月,苹果公司以约2
亿美元收购了这家公司。
在史蒂夫·乔布斯的带领下(在因身体状况恶化而卸任苹果首席执行官之前,这是乔布斯最后深度参与
的项目之一),苹果对Siri进行了多项修改。就像30年前对图形用户界面的处理那样,乔布斯突出了Siri友好
且平易近人的个性。他坚持让Siri提供语音应答,这是最初的Siri应用不具备的功能,并且取消了键入请求和
只能提问的功能限制,这样就优化了用户体验。苹果公司还去除了Siri中不好的语言,并且使Siri能够从苹果
本地iOS应用中获取信息。
在2011年iPhone 4s发布之时,Siri的早期评论都是积极的。然而,随着时间的推进,问题也逐渐暴露出
来。尴尬的是,数十年前就已经离开苹果的联合创始人史蒂夫·沃兹尼亚克直言不讳地指责这项服务,称Siri
的苹果版本似乎不如最初的第三方的Siri应用智能。他说,第一代Siri令他心服口服之处在于,它能够正确地
回答类似于“加利福尼亚州最大的五个湖是哪几个”和“比87大的质数有哪些”这样的问题。现在,如果问加利
福尼亚州最大的五个湖是哪几个,得到的答案只有和湖滨房产有关的链接。而询问与质数有关的问题,得到
的答案都是卖上等牛肋排的饭店。很明显,目前的Siri需要进一步改进。从被动人工智能助手到主动人工智能助手
就在苹果公司倾尽全力完善Siri的同时,其他公司也纷纷推出了自己的人工智能产品。得益于Xbox 360
游戏控制台的Kinect设备,微软早已准备好一款得力的语音识别系统并且蓄势待发。2014年4月,微软发布了
人工智能助手Cortana,与Siri展开竞争。Cortana得名于微软公司开发的视频游戏系列《光晕》(Halo)中的
一个合成智能角色。
尽管如此,Siri最大的竞争对手并不是微软,而是一直以来与苹果亦敌亦友的谷歌。谷歌在iPhone 4s上
市前几个月就在安卓移动平台上推出了一款名为V oice Search的应用。在此之后,谷歌进一步完善了这一应
用,并将其打造成为继Siri之后的又一款人工智能助手。因《星 ......
人工智能
[美] 卢克·多梅尔 著
赛迪研究院专家组 译
中信出版社目录
推荐序
前言
第一章 表现不俗的传统人工智能怎么了
未来已来
人工智能的三位卓越先驱
达特茅斯会议
传统人工智能的黄金时期
太空机器人沙基
“中文房间”实验
莫拉维克悖论
转变目标
专家系统
谷歌诞生
第二章 以自主学习的方式创建新的人工智能
自主学习的重要性
神经科学之父
以神经元模型为基础的感知器
关于感知器的争论
霍普菲尔德网的兴起
神经网络的守护神
联结主义者
欢迎来到深度学习领域
人工智能新主流
第三章 万物互联的智能时代已经来临
智能设备成为现代生活的必需品
会思考的事物
“控制论”简史
早期的自动机器人
计量生物学上的记录者
未来家庭
机器学习的普及
智慧城市
做好互联网消失的准备
智能设备存在的问题
第四章 人工智能助手如何为我们效劳
打败图灵测试
人工智能助手的兴起
多功能的人工智能助手
从被动人工智能助手到主动人工智能助手
数字民主
与人工智能助手相爱人工智能的人性化
合格的心理治疗师
出门请带上它们
第五章 人工智能正在改变就业市场
亲爱的沃森
一个技术性失业的世界
技术更新换代的积极意义
新工作机会的产生
土耳其机器人的复仇
人工智能中的人类元素
第六章 人工智能真的具有创造力吗
机器人的创造力
什么叫创造力
“重生”的甲壳虫乐队
天才的灵光一现
人工智能能否成为发明家
洛夫莱斯测试
祝贺沃森大厨
第七章 意识上传实现人类永生
利用机器实现死后永生
个性捕捉
延长人类寿命
模拟神经元
绘制大脑
下一个大事件
意识上传
第八章 人工智能关乎未来的一切
末日的开端
奇点来临
狭义与广义的区别
人工智能带来的风险
“黑箱”风险
我们无法起诉机器人
机器人学的三大法则
人工智能的权利
结论 当机器变得更加智能
致谢
译后记谨以此书献给我的朋友
亚历克斯·米林顿(Alex Millington)推荐序
人工智能是研究人类智能行为规律(如学习、计算、推理、思考、规划等),构造具有一定智慧能力的
人工系统,以完成往常需要人的智慧才能胜任的工作。中国、印度和希腊哲学家在公元前近千年已经提出关
于形式推理方法的思考,中国、埃及和希腊的能工巧匠也曾尝试制作精巧的歌舞人偶。20世纪30年代末到50
年代初,香农、图灵和冯·诺伊曼等奠定了现代信息论和计算机科学的理论基础,图灵还提出了著名的图灵
测试:“如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能。”预言了
创造出智能机器的可能。随着计算机科学与应用技术的发展,1956年夏,美国达特茅斯会议上,人工智能概
念和研究领域被正式提出和确立。人工智能涉及计算机技术、控制论、信息论、语言学、神经生理学、心理
学、数学、哲学等多学科领域的交叉与融合,其概念与内涵也在随着相关学科和应用领域的发展而持续变
化。当前,人工智能主要是指那些通过软硬件结合可以达到人类事件处理能力的机器智能。它已经成为被高
度关注、广泛使用、快速发展的科技领域。
从发展阶段看,20世纪中叶至今,人工智能虽快速发展,但仍处于单台或局域成组机器处理简单任务的
弱人工智能阶段。依靠全球网络、大数据和云计算能力,终端云端协同实现具有人类思考方式和多样复杂任
务处理能力的强人工智能还处于发展初期。近年来,人工智能技术呈现加速发展态势,其发展水平也达到了
前所未有的高度。从几年前打败国际象棋大师的IBM“深蓝”,到现在打败李世石的谷歌AlphaGo、无人机与无
人驾驶汽车等;从依靠海量计算能力的强计算弱智能,到依靠深度学习大数据、云计算的网络协同强智能,人工智能技术和发展模式正在发生深刻而本质性的转变。
人工智能已经在深刻而广泛地改变着人们的生活。从手机智能系统、机器视觉到图像识别,从嵌入软件
到智能控制,从大数据采集到分析理解等,都渗透着人工智能的创新应用。人们依靠智能导航出行,通过语
音与机器互动,应用智能工具搜索智识信息……我们已自觉或不自觉地处于人工智能的环境中。许多过去被
视为只有依靠人的智力才能胜任的复杂工作,也开始出现被机器完美替代的可能。今天,我们要选择的已经
不是是否接受人工智能,而只能是选择以科学理性的方式应用人工智能造福于人类,并共同应对人工智能应
用可能带来的法律伦理、公共和国家安全等新的挑战。
人工智能在生产领域中的应用,为新时代的产业结构升级变革提供了新的机遇。在这万物互联的时代,人工智能以增强机器智力的方式替代人或与人协同工作,促进网络智能设计制造与服务,将大幅提升劳动生
产率,重塑产业链与价值创造和分配方式。灵活多样的众创、众筹能力与人工智能技术相结合将为节能减
排、绿色发展,提质增效、产业升级创造新的机会。
本书从人工智能的萌芽到人工智能未来发展方向给予了系统解读。围绕人工智能在生产、生活中存在的
方式和可能发挥的作用,展示了人工智能诸多应用场景和技术创新发展的方向。虽然当前的人工智能还不具
备自主创造能力,但它对生产生活引发的深刻变革,它所展示的勃勃生机将激励政产学研用金各方去协同创
新发掘。伴随着众多人工智能相关书籍、刊物和网络新媒体的广泛传播,相信更多的人将对人工智能产生更大的兴趣、给予更大的关注,将会对它有更深刻的认知,必将会有更多的人才、资源投入人工智能领域。
我国从20世纪70年代末开始启动人工智能研究,并将其列入国家高技术研究计划。进入新世纪后,国家
更加重视人工智能的发展,不断加大对相关技术研究和应用发展的支持力度,计算机视觉、语音识别和语言
技术处理等人工智能技术快速发展,已进入国际先进行列。《中国制造2025》提出以加快新一代信息技术与
制造业的深度融合为主线,以推进智能制造为主攻方向,通过智能技术创新和智能制造的应用发展,适应个
性化、定制式设计制造服务,促进中国制造向全球制造产业链、价值链的中高端拓展,实现由大转强。
国家制造强国建设战略咨询委员会是实施制造强国战略的咨询机构,始终把研究推动智能制造发展作为
一项重要的职责。人工智能是智能制造的基础核心技术。为跟踪国际人工智能的发展趋势,为读者提供人工
智能的最新发展动态,我们组织有关专家翻译出版本书。值得指出的是,知识网络时代,在全球多样化、个
性化、定制式市场需求的推动下,在万物互联、大数据、云计算等信息·物理·计算环境的支持下,人工智能
技术与制造服务深度融合创新发展与产业化速度将愈加快捷迅猛。国家制造强国建设战略咨询委员会将继续
发挥自身的专业优势,通过组织编译国外相关优秀著作,努力为社会各界特别是制造业领域提供更多的关于
人工智能及智能制造的前沿研究成果和创新发展的信息。
2016年9月前言
计算机的那只红眼睛能洞悉一切,它目不转睛,也不眨眼。说话的语气从容平静。
“嗨,”它说,“我们还要继续比赛吗?”
它指的是那天早些时候开始的棋局。但是你真的没有心情继续这盘棋,这不是因为计算机总是赢你(尽
管这是事实),事实上,你之所以恼怒,是因为它犯下了一个令人费解的错误,这个错误与重要机器的关键
部件可能出现的故障息息相关,甚至关系到你能否继续生存下去。尽管计算机坚持称这些部件已经出了故
障,但你亲自检查后,却发现它们依然处于良好的工作状态。现在你想知道真正的答案。
“是的,我知道你发现它们还在正常运转,但我可以向你保证,它们将要出故障。”计算机一边说,一边
试图用那种惯常的、毫无情绪的声音安抚你。
你感觉自己已经怒火中烧了。
“够了,根本不是这么回事,”你气急败坏地嚷道,“这些零件完全没有问题,我们在百分之百的过载条
件下进行过测试。”
“我并不是质疑你的话,但是这的确是有问题的。”计算机继续说道。
随后它又说了6个字,你知道这些话是对的,但这绝对不是你现在想听到的话:“我不可能出错。”
影迷们可以很快发现,这是斯坦利·库布里克(Stanley Kubrick)的经典电影《2001:太空漫游》中的一
幕,讲的是有意识的计算机流露杀机并且企图杀死太空船中全部船员的故事。
多年以来,这曾是我们看待人工智能的方式:它是一种若隐若现的威胁,但只安全地存在科幻小说中。
但现在已经不再是这样了。
今天,人工智能的梦想早已走出了影院与科幻小说,进入了人们的现实生活。人工智能可以驾驶汽车,交易股票,仅通过观看视频网站Y ouTube就能学会施展复杂的技能,在不同语种间任意切换,它比我们更加
精确地识别人脸,以及创立原始的假设从而发现治愈疾病的新药。而这仅仅是个开端。
《人工智能》讲述的是人工智能的进化之旅及其对人类的意义。在阅读这本书的过程中,我们将遇到假
装有娈童癖的计算机、会跳舞的真空吸尘器、会下棋的人工智能以及旨在与死后的人进行对话而被上传了个
人意识的计算机。
这是关于我们如何设想未来的故事,以及在一个充满技术的世界,我们在面临计算机智能不断加速发展
的情况下如何为人类塑造自己的角色的故事。这是一个关于创造性的本质、未来就业以及当所有知识成为数
据并且可以电子存储时,即将发生什么的故事。当我们制造的机器比我们更加聪明,我们将要做什么,人类现在还具备什么优势,以及你和我是否也是一种会思考的机器。
1950年,英国数学家和计算机科学家先驱人物艾伦·图灵(Alan Turing)曾预测,到20世纪末,“词语的
使用与一般的教育主张将发生巨大改变,届时人们谈论机器思维时,不会有人对此进行反驳”。
就像许多未来学家对技术的预测一样,图灵对未来非常乐观,但并不过度乐观。在21世纪初期,与“智
能”相关的技术以及“机器学习”已经是很常见的话题,而这些概念在图灵时代曾使许多人感到匪夷所思。
如今,人工智能作为一门学科已经诞生60年,它依然是人类最重大、最具雄心的项目:努力建造真正的
会思考的机器。随着时光的流逝,技术人员离实现这个目标越来越近,未来的一抹曙光也正在天际迅速明
朗。
《人工智能》讲述的正是这种熠熠生辉且近在咫尺的未来,隐藏在角落里的变化,以及它们将如何永久
性地改变我们的生活。第一章 表现不俗的传统人工智能怎么了
第一章
表现不俗的传统人工智能怎么了
[2]的“土星5号”运载火箭船尾的复制品。该运载火箭不久后在阿波罗太空计划中协助人类成功登上了月球。在港务局大楼,人们排队观看
壮观的纽约世界贸易中心“双子塔”的建筑模型。两年后的1966年,世界贸易中心破土动工。
如今,大部分上述进展会让人不禁缅怀过去的科技进步。在“更大、更高、更重”的雄伟壮阔中,这些进
步完成了与过去时代的对话。那个时代对当年的世博会参观者还是个未知数,而如今却即将走向终结。工业
时代逐渐淡出,被个人电脑所引领的信息时代所取代。对于那些1964年以后出生的孩子来说,数字将代替他
们工程师梦想中的铆钉。苹果公司的史蒂夫·乔布斯在纽约世博会举办那年只有9岁,谷歌联合创始人拉里·
佩奇和谢尔盖·布林在纽约世博会举办近10年后才出生,而Facebook(脸谱网)的马克·扎克伯格则在纽约世
博会举办20年后才来到这个世界。
最后,法拉盛草原可乐娜公园中最前卫的区域是IBM(国际商用机器公司)的展区。IBM在1964年世博
会上的任务是在航天火箭和核反应堆等更负盛名的奇观中,强化公众对于计算机(更具体而言是人工智能)
的认知。为此,IBM选择世博会作为全新System360系列大型计算机的推介平台——据说,该系列计算机的
性能非常强大,足以作为智能电脑首台原型机的基础。
IBM在世博会上最引人瞩目的展示当属美国夫妻档设计大师查尔斯(Charles)和蕾·伊姆斯(Ray
Eames)设计的巨蛋形展馆。这颗飞艇般大小的“巨蛋”耸立在一片由45棵32英尺高的几何形金属片树木所构
成的“森林”中;14 000片灰色和绿色树脂玻璃叶片展开后形成一个一英亩的硕大穹顶。兴奋不已的世博会参
观者需要乘坐一台专用的液压电梯进入“巨蛋”,然后可以坐在一个高科技放映厅内观看一段关于人工智能未
来的视频。一位激动不已的评论者借用IBM从19世纪20年代就开始使用的品牌口号“Think”,这样写道:“观
看着,思考着,并且惊叹着人类及其所创造的机器的奇妙智慧。”
IBM在这场盛会上展示了多项令人印象深刻的技术。开创性的手写识别计算机便是其中之一,并被世博
会官方手册称为“光学扫描和信息检索”系统。在该系统的演示中,参观者可以在一张小卡片上亲笔写下任意
一个1851年后的历史日期。然后,卡片被插入“光学字符读取器”,并在该设备中被转换成数字格式,然后再
转发给当时最先进的IBM 1460计算机系统。随后,计算机磁盘上一个大型数据库中存储的当日重大新闻事件
被打印在一张穿孔卡片上,颇有纪念意义,也让使用者惊叹不已。一张保存下来的穿孔卡片上如是写道:
《纽约时报》在你所写下的日期报道了以下新闻事件:1963年4月14日:30 000名朝圣者在复活节造访耶路撒冷;教皇约翰·保罗为人类的真理和爱祷告。
[3]之外的纽约金士顿一台强大的IBM大型计算机之间的专用数据连接,所有繁重的计算工作都由这台计算机来完成。
机器翻译对计算机的清晰思维如何引领我们走向乌托邦进行了简明且出色的概括。政治家们可能无法结
束冷战,但他们也只是普通人——有着人类可能具有的所有缺点。议员、将军,乃至总统都严重缺乏当时学
术界刚刚开始提出的“机器智能”。智能机器能否比人类做得更好?在1964年的世博会上,激动万分的公众一
睹科研人员最乐观的愿景。人工智能给出的建议是,只要能够在机器中尽量利用和复制人脑的最深层奥秘,那么全球和谐终会得以保障。
世博会的官方标语“理解构筑和平”是这一切的最佳总结。未来已来
1964年纽约世博会上凸显了人工智能愿景的两种表现。第一种表现是人们对于等待着他们的未来有多么
乐观。尽管冷战威胁时隐时现,但在19世纪60年代,人们却在许多方面都表现出惊人的乐观态度,毕竟在60
年代初,约翰·肯尼迪总统宣布:在10年内,人类将登上月球。而在这10年的结尾,人类确实做到了。如果
连这都能做到,那么解析和重建意识看似更容易实现。政治学家、人工智能创始人之一赫伯特·西蒙
(Herbert Simon)于1960年宣称:“我们离复制人类大脑解决问题的能力和信息处理的能力已经不远了。”可
能是借鉴了肯尼迪向对手下战书的方式,他随意地加上了自己估计的时间:“如果我们在未来10年还未实现
这一愿景,那才令人惊讶。”
西蒙的预测后来无望地落空了,但事实证明,有关纽约世博会的第二种表现就是:IBM当时并没有错。
尽管我们坚持认为人工智能尚未普及,但1964年令人惊掉下巴的三项技术如今已司空见惯。光学扫描和信息
检索已演变成互联网,让我们在一瞬间获得的信息比原本一生可能获得的信息还要多。虽然我们仍然无法预
见未来,但是基于用户不断预测我们可能感兴趣的新闻故事、书籍或歌曲所生成的巨大数据集,我们正在人
工智能方面取得巨大的进展。这种预测的连通性不仅限于传统意义上的计算机,而且还通过大量智能传感器
和设备嵌入到了周围的设备、车辆和建筑中。
福尔摩斯木偶剧旨在展示通过计算机逻辑可以完成多种任务的方式。我们的计算机逻辑方法已经在某种
程度上做出了改变,但是在查看两张照片并且判断照片中是否为同一人时,福尔摩斯可能还是会被精确度高
于人类的现代人脸识别算法所折服。福尔摩斯的创造者、作家柯南·道尔(Conan Doyle)是一位毕业于爱丁
堡大学(如今是英国顶尖人工智能院校之一)的专业医生。如果他看到疾病诊断效率高过许多人类医生的人
工智能Modernizing Medicine(现代化医疗),也很可能会对此赞叹不已。
最后,世博会上神奇的机器译员已发展演变成为今天我们最为熟悉的谷歌翻译:一项拥有惊人的高准确
率、涵盖58种不同语言(共计3 306项独立翻译服务)的免费机器翻译服务。如果说世博会设想的是俄语与
英语之间的即时翻译,那么谷歌翻译则更进一步,它能够提供冰岛语和越南语或者波斯语和意第绪语等此前
受到局限的语种之间的翻译。凭借云计算,我们甚至不需要固定的主机来执行计算,只需要比一副纸牌还
小、被称为智能手机的便携式计算机即可。
在某种程度上,由于所有这些技术现已存在,而且不仅存在于研究实验室中,而是几乎每个想要使用它
们的人都能唾手可得,因此很难说我们还没有进入人工智能时代。与我们在生活中为自己制定的许多虚无缥
缈的目标一样,人工智能成为计算机科学的“梦幻岛”:一种总是潜伏在下一个转角的虚空“假设”。
但是,如果因此就认为人工智能自60年前诞生到今日一直在直线发展就大错特错了。在开始普及目前推
动人类重大进步的大规模“深度学习神经网络”前,我们必须对人工智能的历史有更多的了解。
我们也必须了解,长期以来,在走上错误的道路前,人工智能是看上去发展得很顺利的。人工智能的三位卓越先驱
数千年来,人类一直梦想着为无生命的物体注入生命。但当谈到人工智能在普通人中的普及时,就得从
世界上第一台可编程计算机——重达30吨的巨型计算机ENIAC开始说起。在1945年“二战”结束后仅6个月,宾夕法尼亚大学就制造出了兼具电子数字集成器和计算器功能的ENIAC。这台计算机耗费了500 000美元的
美国军事基金,其运算速度比作为竞争对手的其他机电机器快了大约1 000倍。这台机器及其所代表的理念
令媒体极为感兴趣。他们将这台计算机称为“巨脑”。
建造这样一个“巨脑”的想法令人们为之神往。“二战”结束以前,“电脑”专指在记账等领域进行计算的
人。忽然之间,电脑所代表的不再是人了,而是装有电子管和晶体管的机器,而且这些机器的计算速度甚至
比最有计算天赋的人还要快得多。“二战”及其余波激发了人们对认知心理学的兴趣。仅在战时,美国心理学
会的会员人数就从2 600人增至4 000人。到1960年,仅15年间,会员人数就激增到了12 000人。认知心理学
研究人员将人类大脑想象成一台机器,复杂行为可以通过这台机器表现为多重简单响应的综合结果。认知心
理学家关注的是人类行为中切实可观测到的事物,而非在无法证实的“心理实体”上浪费时间。“行为主义”等
领域因此应运而生,因老鼠实验而闻名的著名心理学家伯尔赫斯·弗雷德里克·斯金纳(B. F. Skinner)称行为
主义为“行为的技术”。
工程师们之前一直对心理学形而上学的层面避而不谈,但是他们都被一个概念深深吸引,即人脑可能成
为电脑。他们同样开始醉心于研究记忆、学习和推理,许多心理学家都将其视为人工智能的基础。激动人心
的是,他们同样意识到,与人类相比,计算机具有潜在优势。例如,ENIAC每分钟能够计算多达20 000次乘
法,这样的计算能力着实令人惊讶。人类的记忆并不可靠,而相比之下,一台每微秒访问数千条项目的机器
更能凸显出优势。
专门介绍现代计算诞生的书籍有很多,其中三名作者脱颖而出,他们为我们现在所熟知的人工智能领域
奠定了哲学和技术基础。他们就是:约翰·冯·诺依曼、艾伦·图灵和克劳德·香农。
冯·诺依曼是土生土长的匈牙利人,1903年出生在布达佩斯的一个犹太银行家家庭。1930年,冯·诺依曼
来到普林斯顿大学担任数学教师,三年后成为新成立的普林斯顿高等研究院的6位教授之一,并担任这一职
位直至去世。无论以什么标准来衡量,冯·诺依曼都堪称才智惊人。相传,他在6岁时就能计算8位数的除
法。“二战”期间,冯·诺依曼在洛斯阿拉莫斯(Los Alamos)参与了曼哈顿计划(Manhattan Project),他的
一项艰巨任务就是计算氢弹爆炸的精确高度,即在什么位置爆炸能够造成最大的破坏效果。冯·诺依曼对计
算领域做出的主要贡献是,提出在计算机存储器中设置计算机程序存储的理念。实际上,冯·诺依曼是第一
个将“记忆”这一人类专用术语应用于计算机的人。与同时期的其他人不同,冯·诺依曼并不认为计算机能够
像人类一样思考,但是他却创建了与人类面相学相并行的学说。他在一篇文章中指出,计算机零件“相当于
人类神经系统中的神经元。感觉神经元(传入神经元)和运动神经元(传出神经元)之间的共同点仍有待探
讨”。其他人会很高兴接过这一挑战。艾伦·图灵是英国的数学家和密码专家。“二战”期间,他在英国布莱切利公园密码破译中心担任政府密
码学校的领导,并提出了许多破译德军密码的方法,其中最著名的就是发明了能够破译英格玛(Enigma)密
码机设置的机电装置。这使他在破译截获信息方面发挥了重要作用,最终帮助同盟国战胜了纳粹。图灵
对“思考的机器”这一想法十分着迷,并设计了著名的图灵测试,我们在后面的章节会进行详细探讨。图灵小
时候非常喜欢一本书——《每个孩子都应该知道的自然奇观》(Natural Wonders Every Child Should
Know),作者艾德文·坦尼·布鲁斯特(Edwin Tenney Brewster)称:“这本书试图引导8—10岁的孩子对如下
问题自问自答:‘我与其他生物有什么相同之处?我们之间又有哪些不同?’”布鲁斯特在书中写道:
当然,这就是一台机器。虽然它比以往任何机器都复杂得多,但归根结底也只是一台机器。人们曾
把它比作一台蒸汽机,但那时我们对它的了解远没有现在多。它实际上是一台燃气机:就像汽车、摩托
艇或飞行器的引擎。
图灵的一个重要理念就是通用图灵机(Universal Turing Machine)。与其他拥有单一功能的电脑相比,图灵诠释了如何通过阅读磁带上的分步说明来使用电脑去完成多个任务。他写道,电脑“实际上能够作为其
他机器的模型”。这就意味着没必要在完成每项任务时使用不同的机器。图灵指出:“我们无须再为不同的任
务制造不同的机器,只需对通用机进行‘编程’即可完成这些任务。”
图灵猜测,其中一项任务就是模仿人工智能。他在《智能机器》这篇文章中将在机器中复制人工智能称
为“一项特殊的挑战”,因为当时的计算机还存在一定的局限性。他认为“人脑的存储容量大约为100亿二进制
数字,但其中大部分存储容量被用于记忆视觉印象,或以其他方式浪费掉了。人们有理由希望通过数百万字
节的计算机内存而在人工智能方面取得实际的进展”。
人工智能的另一位创始人为克劳德·香农,也就是今天的“信息理论”之父。香农出生于1916年,是三位
创始人中最年轻的一位,他为计算领域做出的最大贡献是提出了晶体管的工作原理。晶体管是数十亿个微小
的开关,电脑就是由这些开关组成的。算法就是指令序列,通过打开或关闭晶体管向电脑传达指令。香农认
为,电脑在接到其他晶体管指令后打开或关闭特定的晶体管,通过这一方式进行基本的逻辑分析。他指出,如果在打开2号和3号晶体管的同时打开1号晶体管,那么这就是一个逻辑运算。如果在打开2号或3号其中一
个晶体管时打开1号晶体管,这就构成第二个逻辑运算。如果在2号晶体管关闭的情况下打开1号晶体管,这
就是第三个逻辑运算。就像简单的口语词汇一样,所有计算机算法都可以归为以下三种状态之一:与、或、否。香农将这些简单的状态合并成复杂的指令序列,并且建议执行复杂的逻辑推理链。达特茅斯会议
上述三人之中,只有香农继续探索并积极推动人工智能正式成为一个学科。遗憾的是,图灵和冯·诺依
曼分别在41岁和53岁时英年早逝,但他们的理念和影响却延续至今。艾伦·图灵是同性恋,在那个时代的英
国,同性恋是违法的。尽管图灵的密码破译工作对英国战胜纳粹德国起到了至关重要的作用,但功不抵过,1952年他被指控严重猥亵。作为惩罚,图灵必须在坐牢或化学阉割中做出选择,而他选择了后者。两年后,图灵吞下涂有氰化物的苹果自杀。2013年,他的罪行得到英国皇家的赦免,并且有人提议制定“图灵法”,以
赦免那些在历史上被指控犯有猥亵罪的同性恋。
冯·诺依曼死于癌症。他之所以患上癌症,很可能是因为他曾参与原子弹项目。与冯·诺依曼关系密切的
一位同事在《经济学杂志》(Economic Journal)上刊登的讣告中称,他的思维“十分特别,有些人(同样是
杰出的科学家)不禁扪心自问:他是否将人类心智发展带入了一个新阶段”。
随着两位创始人的离去,其他年轻研究人员接过了建造思考的机器的重任。第二波人工智能研究人员第
一次正式为该领域命名,将其确定为一个独立的学科。1956年夏天注定是一个不平凡的夏天:埃尔维斯·普
雷斯利的电臀舞(hip gyration)震惊了观众;玛丽莲·梦露嫁给了剧作家亚瑟·米勒;德怀特·艾森豪威尔总统
将“我们信仰上帝”确定为美国法定箴言。关于人工智能的首次正式会议也在这个夏天召开。研讨会持续6
周,众多学科中最杰出的学者在新英格兰地区汉诺威市达特茅斯学院的269英亩土地上齐聚一堂。除克劳德·
香农以外,大会还有另外两名年轻的组织者,他们分别是约翰·麦卡锡(John McCarthy)和马文·明斯基
(Marvin Minsky),他们都在蓬勃发展的人工智能领域发挥了重要的作用。
他们写道:“人们将在一个假设的基础上继续进行有关人工智能的研究,那就是学习的各个方面或智能
的各种特性都能够实现精确描述,以便我们能够制造机器来模仿学习的这些方面和特性。人们将尝试使机器
读懂语言,创建抽象概念,解决目前人们的各种问题,并且能自我完善。”
然而,他们的雄心壮志和信念都太过绝对,而时间却有些紧迫。他们在达特茅斯会议的提议中指
出:“我们认为,如果精心挑选一组科学家,并让他们专心研究人工智能,那么仅需一个夏天我们就能够在
这些问题上取得重要进展。”
毋庸置疑,实际花费的时间肯定要比这更长。传统人工智能的黄金时期
随着感兴趣的研究者越来越多,人工智能开始细分为不同的领域,这意味着人们探索的范围开始变得更
加广阔。从某种意义上来说,这一现象是大势所趋。在达特茅斯会议上,人们发现,就连为各自的新领域取
一个大家都认同的名字都十分困难。约翰·麦卡锡力荐“闪光探测人工智能”,但却并不能令其他人信服。另
一位名为亚瑟·塞缪尔(Arthur Samuel)的研究者认为这个名字听起来很“做作”,而艾伦·纽厄尔(Alan
Newell)和赫伯特·西蒙则立即又将其作品重新命名为“复杂信息编程”。
人工智能很快就细分为不同专业,仅从1958年在英国密德萨斯的特丁顿国家物理实验室召开的“思维过
程的机械化”会议就能看出这一点。达特茅斯会议召开仅仅两年后,人工智能就已经细分为多个领域,包括
人工思维、字符和模式识别、学习、机器翻译、生物学、自动编程、产业规划和办公机械化。
接下来的一段时间成了传统人工智能的黄金时期。新的领域层出不穷,研究者们不断取得重要进展,思
考的机器也呼之欲出。由于有美国国防部高级研究计划局(ARPA)等政府机构的资金支持,巨大的投资使
研究没有受到什么干扰。1963年6月,国防部高级研究计划局为麻省理工学院提供了220万美元的拨款,用于
研究“计算机辅助识别”。据拨款受益人称,国防部高级研究计划局采取一次性付款,之后也未太过关心这笔
款项是如何使用的。而类似的事情不止一次发生。
约翰·麦卡锡将这一现象称为人工智能的“看!不用手也行!”时代,这一时代成功唤起了青少年的热情
和勇气。在之后的十多年里,研究者们应对了众多挑战,并反驳了“没有机器能够做到X”这样一个假设。X
所代表的含义取决于提问者是谁。一位研究者曾经编写了一套国际跳棋程序,该程序能够打败大多数业余选
手,包括编程者自己。另一项突破是感知人工智能,它能够在一个使用机器人手的桌面上重新排列不同形状
的彩色模块:这无疑是计算机视觉方面的一项壮举。一个名为SAINT的项目能够解开大学一年级课程水平的
微积分中的积分问题。另一个名为ANALOGY的项目还能够解开智力测验中的几何问题,而STUDENT则能够
破解复杂的代数难题,例如:“如果汤姆的客户数量是广告数量20%的平方,他一共做了45个广告,那么请
问汤姆一共有多少个客户?”
计算推理领域有一个特别引人注目的例子,那就是Sir(语义信息检索)项目。Sir不仅能够理解英语句
子,甚至能够分析宾语之间的关系,这和人工智能有些类似。实际上,这一“知识”依赖于预先设定的模板,例如,A是B的一部分,然后用名词来代替变量。然而,正如马文·明斯基所说的那样,人们可以采用类似的
方法解决一系列其他问题。有一个有关Sir的典型案例,案例中未加粗的句子为用户输入的文本,加粗的句子
为机器给出的答案:
每个男孩都是人。
我知道。手指是手的一部分。
我知道。
每个人都有两只手。
上述句子表达不清楚。请改述。
每个人都长两只手。
我知道。
约翰有几根手指?
上述句子表达不清楚,但是我猜(有)指的是(长有)。我不知道手指是否是约
翰身体的一部分。
约翰是个男孩。
我知道。
约翰有几根手指?
上述句子表达不清楚,但是我猜(有)指的是(长有)。每只手长有几根手指?
每只手都长有5根手指。
我知道。
约翰长有几根手指?
答案是10根。
他们构思人工智能和智能行为的方法就是将这些看似毫不相干的表达联系起来。他们自上而下审视了人
工智能,我们如今称之为符号人工智能或传统人工智能。对传统人工智能研究者来说,人类通过构建内部的
符号化表现形式来认识世界,而所有人工智能都以人类认识世界的能力为基础。我们可以创建规则来落实这些概念,而捕捉日常知识能够使这些概念变得规范。如果将人脑看作一台电脑,这意味着我们操控的每一种
情况都依赖于内部计算程序,这一程序一步步告诉我们如何完全依据逻辑来进行某项操作。如果的确如此,那么这些世界各地机构纷纷采用的规则同样适用于计算机。
这在当时听起来十分容易,不久以后,情况也确实如此。太空机器人沙基
虽然几乎没有人真正遇见,但人工智能在发展的过程中确实存在一些问题。和当前能与公众产生共鸣的
某些领域一样,上述问题或多或少要归咎于新闻媒体。过度热情的表现是,人们经常写文章赞扬他们所取得
的令人印象深刻的进步,好像他们已经造出了智能机器。例如,20世纪60年代的机器人沙基(SHAKEY)项
目受到了大力宣传,人们将其视作世界上第一台通用机器人,它能够对自己的行为进行推理。这样一来,它
就能够为模式识别、信息表示、问题解决和自然语言处理等不同领域设定基准。
尽管这已经足够使沙基艳惊四座,但记者们仍忍不住进行了一番修饰。1970年,当沙基在《生命》
(Life)杂志上首次亮相的时候,它并没有被视为众多重要研究课题的结合体,而是以世界上第一个“电子
人”的身份闪亮登场。《生命》杂志的记者将沙基卷入前一年登月引发的太空狂潮中,甚至称沙基能够“在不
接受地球指令的情况下在月球上一次行走几个月”。
这是彻头彻尾的谎言,但是并非所有研究者都能够拒绝去迎合这一观点。20世纪70年代,在波士顿召开
的一次会议上,一位研究者向媒体透露,仅需5年时间,像沙基这样的智能机器人就将在家庭中普及。一位
年轻的同事激动地将他拉开,并对他说:“不要做这样的预测。以前有人这样做招来了麻烦。你低估了实现
这一目标需要花费的时间。”这位研究者想都没想就回答道:“我不在乎。你看,我提到的所有日子都是在我
退休后。”
人工智能工作者们并非一直这么激进,但有很多人都有这样的倾向。1965年,赫伯特·西蒙称,用不了
20年,机器就能够“完成人类能做的任何工作”。不久以后,马文·明斯基补充道:“我们这一代人能够大体上
解决创造人工智能的问题。”“中文房间”实验
有关符号人工智能的哲学问题开始浮出水面。其中最著名的要数名为“中文房间”的思维实验。美国哲学
家约翰·希尔勒(John Searle)提出该思维实验,质疑是否应将机器处理符号真正视为智能。
希尔勒提出,假设他被锁在一个房间里,房间里有很多中国书法作品。他并不懂中文,甚至无法将汉语
与日语或其他毫无意义的字区分开来。希尔勒在房间中发现了一套规则,这些规则向他展示了一套与其他符
号相对应的符号。随后,他被提问,并通过将问题符号和答案符号相匹配来回答这些问题。过了一会儿,希
尔勒逐渐熟悉这项任务——尽管他仍然不清楚自己操作的这些符号到底是什么。希尔勒问,这种情况下能否
说房间内的人“懂”汉语?他的答案是否定的,因为他完全缺乏意向性。他写道:“计算机可能有的这种意向
性只存在于程序设计者、使用者、输入者以及对输出进行解读的人的思维中。”
如果说希尔勒是在指责人工智能研究者们像家长一样绞尽脑汁地炫耀孩子的才华,那么人工智能研究者
们本身就面临着一个令人不愉快的事实:他们的孩子实际上并没有那么聪明。令人担忧的是,那些在实验室
环境下表现不凡的工具并不能很好地适应现实状况。符号人工智能主要涉及自上而下建立以规则为基础的系
统,该系统在实验室中表现出色,各元素都能够得到很好的控制。这些“微型世界”几乎不包含任何物质,因
此可以采取的措施也十分有限。然而,一旦进入现实世界,在训练中表现优异的程序就像世界杯揭幕战中的
英格兰队一样变得怯场了。
研究者们承认这些弱点的存在,并且将这些微型世界比作“一切事物都十分简单的仙境,如果以现实世
界为前提,那么有关这些事物的陈述从字面上看就都变成了错的”。总的来说,人工智能一直在努力摆脱歧
义性,但又缺少灵活抽象推理、数据计算和加工能力,而人工智能恰恰需要这些能力来理解其所展示的内
容。任何没有事先明确说明的事物都有可能造成恐慌。美国作家约瑟夫·坎贝尔(Joseph Campbell)嘲讽道,这种人工智能与《圣经·旧约》一样,都是“规则太多,仁慈有限”。莫拉维克悖论
结束这一不确定性面临着更大的问题,即人工智能研究者是否以正确的方式工作。就像玩拼图要从最困
难的部分开始一样,人工智能研究者们设想,如果他们解决了复杂的问题,那么简单的问题就会迎刃而解。
毕竟,如果你能让机器像数学天才一样下象棋,那么模仿婴儿学习又有多难呢?然而,事实证明这是相当难
的。象棋是一项游戏,包含明确的说明、棋盘位置、合规或违规移动。象棋为棋手营造了一个静态世界,他
们在这里拥有完整的信息,前提是他们能够看见棋盘,并且知道如何移动棋子。象棋是现实世界的一部分,但现实世界却与象棋截然不同。汉斯·莫拉维克(Hans Moravec)等研究者突然开始提出惊人的建议,例
如“让计算机在智力测验中或在下跳棋时表现出成人水平相对容易一些,而让计算机在知觉和移动性方面达
到一岁小孩的水平却是十分困难甚至是不可能的”。
将人工智能设定为关注生活中更复杂的事物,而排除对相对普通任务的关注,这可能与研究人工智能的
人有关。在许多案例中,堪称“天才”的科学家们能够控制象棋或布尔逻辑(Boolean Logic)的微小细节,却
缺少现实生活中的常识。有一则众所周知的趣闻:麻省理工学院一个名为西蒙·派珀特(Seymour Papert)的
研究人员有一次将他的妻子忘在了纽约机场。当他意识到妻子没有陪在他身边时,飞机正在跨越大西洋。约
翰·麦卡锡十分顽强地面对具有挑战性的问题,但是却因为经常忘记为资助他的各类机构填写进程报告而招
致许多麻烦。据说麦卡锡在斯坦福大学讲授的课程“人工智能入门”并未受到重视,私下里被学生戏称为“听
约翰叔叔讲故事”。都说什么样的人会干出什么样的事,这样看来,这些研究人员的人工智能项目都侧重于
远大目标而非平凡(可能更实用)小事也就不足为奇了。
心理学家史蒂芬·平克(Steven Pinker)总结道:“人工智能研究的前35年得出的主要教训是,困难的问
题容易解决,容易的问题很难解决。”转变目标
在众多挑战的重重包围之下,传统人工智能开始出现问题。从20世纪70年代开始,随着之前几十年人们
对人工智能乐观态度的逐渐消散,人们对该领域的热情也渐渐冷却下来。大幅缩减的预算使其首次遭遇
了“人工智能的冬天”,而这样的情况不止一次发生。在美国,就连可爱的机器人沙基计划都被叫停,因为美
国国防部意识到,其出钱资助的机器人项目并不能创造出他们需要的机器人间谍“詹姆斯·邦德”。暂且不说
间谍这一点,沙基在战场上甚至无法发挥常规部队的作用!一名为该项目工作的研究人员回忆起沙基在斯坦
福国际研究所(SRI)实验室中最后的日子。一位持怀疑态度的将军问一位创造沙基的研究人员:“能不能在
上面安装一个36英尺长的刺刀?”
为应对这一状况,人工智能改变了其目标,按比例缩减了一些大型任务,集中力量处理那些通过采取措
施就能够解决的问题。其中的一个例子就是电子游戏领域。人工智能从一开始就与电子游戏联系在一起,那
时艾伦·图灵和克劳德·香农曾尝试打造一个自动象棋手。在当时的情况下,象棋就是一个微观世界,用来演
示那些后来应用到现实世界的智能行为。电子游戏就是他们的最终目标。
人工智能研究不仅仅需要研究者的技能,还可以创造一定的收益。在莫斯科的苏联科学院计算机中心工
作的28岁人工智能研究员阿列克谢·帕基特诺夫(Alexey Pajitnov)就是受益人之一。1984年6月,帕基特诺夫
创建了一个简单的程序,用来测试实验室新的计算机系统。一个精明的商人将该系统命名为俄罗斯方块
(Tetris)并拿到市场上销售,这款游戏在全世界范围内卖出了超过1.7亿个副本。
20世纪80年代,电子游戏变得更加复杂,人工智能专家也因此变得炙手可热。人工智能能够运用简单的
规则模拟复杂的行为,这意味着电脑控制的人物也能有自己的想法。例如,在《主题公园》(Theme Park)
游戏中,人工智能实体(指具有智能的任何实体,包括智能硬件和智能软件)聚集在使用者建造的公园周
围,采取程序设计员从未明确标出过的路径行走。
在某种意义上,电子游戏是传统人工智能的天堂。如果人工智能仅用于在射击游戏中模仿僵尸敌人,那
么其行为是真的智能还是仅仅表现得很智能这类问题就是毫无意义的。专家系统
人工智能的另一项新应用成为人们解决问题的工具。尽管人工智能擅长推理,但研究人员都知道,人工
智能并不只有推理。为了创造出能够在现实生活中解决问题的人工智能,科学家们认为,他们需要一台能够
将推理和知识相结合的机器。例如,一台应用于神经系统科学的电脑必须像合格的神经系统科学家一样,了
解该学科的相关概念、事实、表述、研究方法、模型、隐喻和其他方面。
这意味着程序员突然需要担负起“知识工程师”的重任,他们必须充当各领域专家的角色,并且将他们的
知识提炼成计算机能够读取的规则,生成的程序被称为“专家系统”。该系统是在广泛收集概率性规则“如
果……那么……”的基础上建立的。有人曾经使用名为“DENDRAL”的专家系统进行过尝试,这个程序能够帮
助有机化学家确定未知的有机分子。DENDRAL的创造者爱德华·费根鲍姆(Edward Feigenbaum)对最早记
载人工智能历史的一位作家帕梅拉·麦考达克(Pamela McCorduck)说道:“有一段时间,人工智能领域的其
他人都与我们保持一定的距离。我想他们可能不敢靠近DENDRAL,因为它涉及化学。但是人们还是会毫不
吝啬地发出惊奇的感叹,因为它就像是化学界的博士一样。”
另一个类似的项目名为“MYCIN”,用于为脑膜炎等严重感染状况提供合适的抗生素用药剂量。MYCIN
像一个真正的医生一样,能够将程序员之前收集的概率性证据汇总起来,并据此得出结论。人们不断对之前
的经验进行归纳,直到它们变得像下面的“规则”:
如果……需要治疗的感染是脑膜炎,感染类型为真菌感染,培养染剂上没有有机体,患者不是易感
染病患并且曾经到过球孢子菌病盛行的地区,患者是黑种人、黄种人或印度人,并且脑髓液检测中的隐
球菌抗原不是阳性,那么……隐球菌有50%的可能并非是造成感染的有机物之一。
[4]。简而言之,XCON就是世界上最伟大的“百事通”店员。
XCON的出现使大企业首次对人工智能产生了兴趣,它们不再将人工智能简单视为未来演示。只要专家
系统能够为它们赚钱,企业们并不在乎它们到底是真正的人工智能还是“巧妙的编程”。1980年,XCON在数
字设备公司(DEC)位于新罕布什尔州塞勒姆的工厂首次投入使用。到1986年,XCON就已经处理了80 000
份订单,每年约为数字设备公司节约2 500万美元,准确率高达95%—98%。人们开玩笑称,如果它能够娶了
老板的女儿,未来甚至能够当上公司的首席执行官。
其他企业很快也开始公开露面,为需要专家系统的企业客户提供解决方案。在油井钻探作业中,地层倾
角顾问(Dipmeter Advisor)能够对地质构造进行分析。著名的粮食市场顾问(Grain Marketing Advisor)的目
标是帮助农民进行恰当的营销,并储存粮食作物。1986年10月《电脑世界》(Computer World)杂志上的一
则广告做出了这样的问答:“你如何充分利用专家系统技术的优势让员工改进当前软件上现有的数据处理应
用?只有Teknowledge公司能够给你答案。公司将在你所在的地区免费举行为期半天的研讨会。”
1985年,约有150家公司投资10亿美元想要开展人工智能业务。这一年,美国人工智能协会召开的一场会议和国际人工智能联合大会共吸引了近6 000名参会者,其中一多半是风险投资家、猎头和媒体。1987
年,并非电脑研究前沿阵地的《财富》杂志盛赞“软盘上的直播专家”的到来。研究人员在人工智能历史上首
次变得和史蒂夫·乔布斯、比尔·盖茨等个人电脑界的新贵一样富有。
有趣的是,像马文·明斯基这样经验丰富的研究者却在回避这样的情况。我们往往以为,人工智能保守
派在经历了20多年辛苦工作后一定急于寻求回报。而实际上,这些人都在提心吊胆地等待最后的结果。好在
这并没有花费他们太多的时间。就像20世纪90年代后期投机性的互联网泡沫一样,倡导者们对专家系统能力
的高估到了危险的程度。其中有一本教科书十分推崇“打电话规则”,称“使用专家系统打一通电话,家里的
所有问题都能够在10—30分钟解决”。专家系统的基本概念是十分可靠的,但是仍存在一些问题。专家系统
十分昂贵,需要不断更新,并且是反直觉的,当规则增多时准确率就会下降。斯图尔特·罗素(Stuart
Russell)和彼得·诺威格(Peter Norvig)在《人工智能:一种现代方法》(Artif icial Intelligence: A Modern
Approach)这本教科书中写道:“随着规则集的不断壮大,规则间的不良交互作用就会越来越平常,于是,从业人员发现,添加规则时,必须‘调整’其他规则的可信度。”
1987年财年结束时,两大开发专家系统的公司Teknowledge和Intellicorp损失了数百万美元。其他人工智
能企业的情况更糟糕,几乎濒临破产,员工和公司高管们露宿街头。温暖了一阵之后,人工智能的第二个冬
天到来了。谷歌诞生
人工智能随后遭遇的寒流比第一次有过之而无不及。资本又一次迅速蒸发,政府补助消失得无影无踪。
在1987—1989年,美国国防部高级研究计划局将用于人工智能研究的预算缩减了13。专业的人工智能杂志
的广告费收入也大幅下降。美国人文与科学院官方期刊《代达罗斯》(Daedalus)在1988年大胆发布了一期
人工智能特刊,激怒了哲学家希拉里·普特南(Hilary Putnam)。普特南写道:“现在有什么好大惊小怪的?
为什么在《代达罗斯》上发布一期特刊?为什么不等到人工智能真正取得一些进展后再发布特刊?”整个科
技界都能感受到人工智能的寒流。美国人工智能协会会员人数大幅减少,1996年骤减至4 000人,达到史上
最低点。然而奇迹并没有发生,人工智能的美梦似乎就要破灭。
那一年,斯坦福大学的两个学生——一个是人工智能研究者的后代,另一个是数学家的后代——想到了
一个很聪明的方法,在外部链接数量的基础上对网页进行排序,并通过这一方式创建一个智能网络目录。
1997年,24岁的拉里·佩奇和谢尔盖·布林利用他们开发出的算法,在美国加利福尼亚州门罗帕克的一个车库
里开了一家公司。为了将其打造成为“全球总部”,他们置办了几张桌子、三把椅子、一条蓝绿色的地毯、一
张折叠乒乓球桌,以及一些其他物件。为了保持通风,车库的门必须一直敞开。
这在当时看起来似乎不足为奇,但在接下来的20年里,拉里·佩奇和谢尔盖·布林的公司取得了人工智能
历史上最大的成就。公司涉猎范围广泛,覆盖了机器翻译、模式识别、计算机视觉、自主机器人等领域,而
人工智能研究者们为了实现这一点已经苦苦挣扎了半个世纪。
实际上,公司的这些成就没有一点是通过传统人工智能实现的。
这家公司就是谷歌。
[1]1英亩= 4 046.86平方米。——编者注
[2]1英尺≈ 0.304 8米。——编者注
[3]1英里= 1.609 344千米。——编者注
[4]一种可以支持机器语言和虚拟地址的32位小型计算机。——编者注第二章 以自主学习的方式创建新的人工智能
第二章
以自主学习的方式创建新的人工智能
2014年,在谷歌旗下一家名为“DeepMind”的人工智能公司的办公室里,一台计算机通过玩一款名为《打
砖块》(Breakout)的老雅达利(Atari)2600电子游戏消磨时间。该款游戏是两个年轻人在20世纪70年代初
设计的,他们就是苹果公司的创始人史蒂夫·乔布斯和史蒂夫·沃兹尼亚克。《打砖块》实际上是乒乓球游戏
《乒乓》(Pong)的一个变体。不同之处在于,不是在屏幕上将球挥向另一位玩家,而是对着砖墙击球,将
砖块击碎。这款游戏的目标是摧毁所有砖块。
正如我们在上一章中提到的,人工智能玩电子游戏并没有什么稀奇的。艾伦·图灵早在1947年就开发出
了首款象棋程序,尽管当时的计算机不能运行这一程序。如今电子游戏的特点是有大量非玩家控制角色,这
一编程将简单的规则结合起来产生复杂的行为。这样看来,DeepMind的人工智能玩游戏又有什么特别的呢?
针对这个问题的回答有两个。一是DeepMind的人工智能会逐渐变得更加成熟。就像见证孩子逐渐长大一
样,如果一直盯着计算机看,很难察觉到它的变化。然而,每隔50多次游戏再看一下,效果是十分惊人的。
开始的时候,DeepMind的人工智能在《打砖块》游戏中的表现简直糟透了,最简单的击球都做不好,而且它
似乎并不清楚状况,就好像是把PS4(索尼第四代游戏主机)手柄交到90岁的老奶奶手里,并希望她立刻知
道应该做什么一样。虽然它也会偶尔得分,但即使最乐观的旁观者也只能称之为运气。
200次游戏后,一切变得大为不同。现在游戏中的球拍能够在屏幕上左右移动:即使不是持续得分,也
可谓能够轻松得分。再经过数百次游戏,游戏中的人工智简直如同《星球大战4:新希望》结束时的天行者
卢克(Luke Skywalker)或《黑客帝国》中的尼奥(Neo)一样,懒散地击球,毫不费力。所有无关的动作
都消失了,而且它产生了清晰的策略。
令DeepMind的人工智能具有重要意义的另一个原因是,它不需要进行大规模训练。传统人工智能的核心
原则是必须将规则预先载入系统,这就像是老师在学生参加考试前会依次教他们问题的答案一样。DeepMind
的人工智能与众不同之处在于,它能够自主学习,甚至无须告诉它应该怎样做。它所需要接入的就是构成
《打砖块》游戏每一帧的30 000个像素点和屏幕上的选手得分。其他需要做的事,就是给它输入得分最大化
的指令。之后,人工智能就可以随着游戏的进展获得游戏“规则”,然后逐渐形成能够改善其表现的策略。
DeepMind的人工智能可以玩的游戏并不只有《打砖块》。它最早玩的游戏是《太空入侵者》(Space
Invaders),在掌握极少信息的情况下还学会了其他48个游戏,包括拳击模拟器、武术游戏甚至是3D(三维)赛车游戏。然而,要想突破电子游戏的“微型世界”还有很长的路要走。但这仍是一项惊人的成就,为人
工智能的下一步发展指明了方向。下一步发展是什么?按照DeepMind的宗旨,下一步就是“解决人工智能”。自主学习的重要性
人类的与众不同之处就在于能够学习,这也一直是传统人工智能一直努力要实现的。第一章中描述的系
统只有在能够遵从规则时进行学习,这些知识是从“知识工程师”的知识中提炼并编入系统架构的。它是对知
识自上而下的一种想象,并暗示一个假设,即机器不能自动学习知识。相反,必须将知识进行编程,而且一
次编一条。这一点在很多情况下都能够很好地实现,进而在可接受的水平上完成有限的任务。随着解决方案
的增多,问题也开始显现。像官僚机构一样,它们开始变得庞大、笨拙、缓慢而且昂贵。
这提出了一个显而易见的问题。华盛顿大学计算机科学教授普德罗·多明戈斯(Pedro Domingos)指
出:“如果机器人掌握了人类除学习以外的所有能力,人类很快就会抛弃它。”但是从一开始就存在一种与人
工智能的发展并行的观点,这一观点现在正触发该领域的诸多进展。该人工智能学派不是将思维概念化,而
是源于在电脑内部建立大脑模型。该学派不相信逻辑推理是获取真理的最佳(可能是唯一的)途径,而是采
用基于观察和实验的实证研究法。这类人工智能并非知识工程师的作品,而是属于名为“机器学习者”的计算
机科学家领域。
这一流派的人工智能由统计学家、神经科学家和理论物理学家开创的概率模型主导,大部分基于所谓
的“神经网络”(或者计算术语中所说的“神经网”)来运行,该网络的功能与人脑近似。信息在人脑中以神经
元电子放电模式存在。人脑中约有1 000亿个神经元,大约和银河系中的星星一样多。记忆是通过加强不同
神经元共同放电而形成的:这一过程被称作“长时程增强”。尽管我们尚须建立一个与人脑一样复杂的神经网
络(下一章将详细介绍),但人工神经网络为创造记忆和学习借用了人脑的机制。人脑与神经网络最基本的
不同在于,人脑中的长时程增强是一个生物化学过程,而在神经网络中,学习是通过修改其自身代码,以在
复杂或不明朗的情况下,找到输入和输出之间或者原因和结果之间的联系而发生的。
虽然神经网络今天在人工智能领域具有重要地位,但在过去许多年里,它都是被忽视的;它被视作真正
人工智能的“异父兄弟”。正如20世纪80年代进入这一领域的知名研究人员戴维·艾克利(David Ackley)所
说:“我们接触到神经网络时,人们并未将其视作人工智能。于是,我们被人工智能拒之门外。当时,人们
认为人工智能是与符号相关的。它所涉及的是生产系统、专家系统等。进入卡内基–梅隆大学读研究生时,我已经十分厌倦与传统的符号化的计算机相关的事物……我似乎对推理的关注过多,而对判断的关注太
少。”
艾克利影响了一代人工智能研究者,他们几乎使统计工具替代了主流意识中的传统人工智能。这样一
来,神经网络就实现了以前的研究人员做梦都想实现的东西:建造能够学习如何玩电子游戏、理解语言、识
别相片中的人脸或开车比人类更安全的机器。
我们在本章中将介绍一些这样的应用。但是在此之前,我们必须回到过去,去认识一个名叫圣地亚哥·
拉蒙·卡哈尔(Santiago Ramóny Cajal)的人。神经科学之父
圣地亚哥·拉蒙·卡哈尔是19世纪西班牙病理学家,被称作现代神经科学之父。拉蒙·卡哈尔首次对人类大
脑进行了细致的检查。1887年拉蒙·卡哈尔在巴塞罗那大学工作,他发现重铬酸钾和硝酸银可以将神经元染
成深色,而周围的细胞还都能够保持透明。后来他回忆道,“染色后的神经细胞连最精细的分枝都变成了棕
黑色,在透明的黄色背景映衬下显示出了无可比拟的清晰度,就像用墨汁画的素描一样清晰”。这项神经细
胞染色技术意味着拉蒙·卡哈尔能够就人脑展开大量的研究,在过去使用最先进的显微镜是无论如何都做不
到这一点的。这样一来,他首次证明了神经元是构建中枢神经系统的基础。
1943年,拉蒙·卡哈尔去世9年后,两位人工智能研究人员在一篇很有影响力的论文中创建了首个正式的
神经元模型,尽管文章的标题《神经活动内在概念的逻辑演算》稍显呆板。
两位研究人员麦卡洛克(McCulloch)和皮茨(Pitts)组成了一个不同寻常的组合。沃伦·麦卡洛克1898
年出生在一个律师、工程师、医生和神学家组成的家庭。他在当时被称为“美国帽子之都”的新泽西州奥兰治
长大。麦卡洛克起初打算从政,但后来改变了主意,去耶鲁大学学习了哲学和心理学,并对神经生理学,也
就是神经系统的研究产生了浓厚的兴趣。
皮茨比麦卡洛克小25岁,1923年出生在一个工人阶级家庭,这样的家庭似乎不太可能培养出神童。13岁
时,皮茨为了躲避父亲的虐待离家出走,露宿街头。一天,他为了躲避一群地痞流氓的追赶躲进了图书馆。
据说,皮茨在接下来的一周都泡在图书馆里,读完了三卷《数学原理》的数学教材。读完以后,皮茨决定给
该书的作者之一伯特兰·罗素(Bertrand Russell)写信,指出他认为第一卷中存在的根本错误。这封信给罗素
留下了深刻的印象,他甚至邀请皮茨到英国剑桥大学学习,而皮茨却没有接受邀请。皮茨在不到20岁时就被
苏联数学物理学家尼古拉斯·拉舍夫斯基(Nicolas Rashevsky)的著作深深吸引,拉舍夫斯基的著作主要涉及
数学生物物理学领域。正是凭借着这种能力,沃尔特·皮茨遇到了沃伦·麦卡洛克,并最终开始与其共事。
麦卡洛克和皮茨共同提出了针对机器内部复制的功能神经元的简化模型。他们在1943年发表的论文中
称,从根本上来讲,神经元是一个“逻辑单元”。他们还指出,由这类单元构成的网络几乎能够完成所有的计
算操作。以神经元模型为基础的感知器
麦卡洛克和皮茨的工作取得了至关重要的进展,但同样存在严重的局限性:这个模型不能自主学习。6
年后,这一问题在理论上得到了解决,加拿大心理学家唐纳德·赫布(Donald Hebb)在1949年写了《行为的
组织》这本书。赫布称,每次使用神经元都会使人脑中的神经通路加强,人们就是这样学习的。他写
道:“细胞A的一个原子离细胞B足够近,并且持续或不断参与激发细胞B,其中一个或两个细胞增长或产生
代谢更换,这就会导致细胞A激发细胞B的效率提高。”简单来说,赫布的意思是,当人类大脑中有两个神经
元同时受到激发时,二者之间的联系就增强了。有时我们可以这样来记忆:“同激发、同连接的神经元。”
赫布的这一思想在10年后才真正应用到计算机研究中,而这要归功于弗兰克·罗森布拉特(Frank
Rosenblatt)。罗森布拉特在计算机历史上是一个有趣的人物:他是一个真正博学多才的文艺复兴式人物,对音乐、天文、数学和计算机无不精通。碰巧的是,他和我们上一章提到的马文·明斯基是同学,他们在20
世纪40年代早期都在布朗克斯科学高中读书。然而,罗森布拉特一直处于人工智能研究主流的边缘。明斯基
和约翰·麦卡锡组织达特茅斯会议期间,罗森布拉特拿到了康奈尔大学实验心理学博士学位,学习期间,他
被神经网络这一学科深深吸引。罗森布拉特将神经网络称作“感知器”,并努力证明其能够有效地充当人类学
习、记忆和认知的模型。
罗森布拉特最初在纽约布法罗康奈尔航空实验室尝试建造“感知器”。他在那里创建了PARA项目,即“感
知和识别自动化”。他的感知器以麦卡洛克和皮茨提出的神经元模型为基础,同时基于能够通过“试错”进行
学习的神经网络。每个神经元都有一个输入、一个输出和一组自己的“权重”。开始的时候,“特性”之间的关
联和神经元都会获得随机权重。然后,神经元根据网络显示,选择激发或不激发。片刻后,它就能够将见到
的所有事物分为两类,即“X”和“非X”。
由于当时的计算机运行速度太慢,罗森布拉特并没有将其感知器做成软件,而是做成了硬件。他用调光
器中使用的可变电阻创建了权重,并用电动机和电阻完成了学习过程。接下来的演示以及罗森布拉特对感知
器发展潜力的夸张陈述,足以让人们心潮澎湃。1958年《科学》杂志上发表的一篇极有先见之明的文章上指
出:“感知器最终一定能够自主学习、做出决定以及翻译语言。”与此同时,《纽约客》上一篇新发表的文章
引用了罗森布拉特的话,“感知器应当证明它能够通过计算机视觉指出‘猫和狗之间的不同点’”。
1960年,罗森布拉特对“阿尔法感知器”计算机的创建工作进行了监督,他为此收到了美国海军研究办公
室信息系统部提供的赞助。阿尔法感知器也成为历史上最早能够通过反复试错学习新技能的计算机之一。
《纽约时报》将其称为“边做边学的新海军设备”。关于感知器的争论
令人遗憾的是,不久以后,与感知器有关的研究遭遇了两次严重的挫折。第一次主要是技术方面的原
因,也有些许人为因素。感知器当时已经被证实能够完成简单的学习任务,例如识别语音或印刷字体。然
而,它们也成功地引起了广泛关注,给它们的投资也远远超过了技术取得成功的水平。这使得人工智能界内
部产生了矛盾。马文·明斯基就是众多直率的评论家之一。明斯基在读博士时就已经研究过神经网络,但是
对该领域已经不抱任何希望。自20世纪50年代以来,罗森布拉特与明斯基曾在众多科学会议上就脑启发计算
机(brain-inspin computer)的有效性展开争论。罗森布拉特强烈推荐他研发的技术,称感知器实际上能够完
成任何学习任务。明斯基则持截然相反的态度。直到1969年,明斯基与研究人员西蒙·派珀特合著了一本著
作才打破这一僵局,该书就感知器可能无法完成的事情进行抨击。明斯基和派珀特总结道,这一技术“不具
有任何科学价值”。为神经网络筹集的资金也顷刻化为乌有。
第二次挫折更加悲惨。明斯基和派珀特出版《感知器》一书两年后,在一个周日,弗兰克·罗森布拉特
去美国最大的河口切萨皮克湾划船。那天是他43岁的生日,然而当天发生了意外,罗森布拉特就这样去世
了。在康奈尔大学的悼词中他的一位同事写道:“他的离去让我们失去了一个最无私、最富有同情心的同
事,他的机智和幽默给我们留下了深刻的印象。”这样一来,感知器也就失去了最忠实的拥护者。
脑启发式神经网络在接下来的10年中似乎销声匿迹了。后来,西蒙·派珀特以童话的方式,将传统人工
智能和感知器之间的冲突总结如下:
从前,控制论科学生了两个女儿,一个是自然的,能够从对人脑的研究和自然规律中继承特性。另
一个女儿是人造的,涉及范围从计算机最初的创造到使用。这两姐妹都想要建造智能模型,但是用的材
料却大不相同。自然科学使用数学纯化神经元构造模型(称为神经网络),而人造科学则是通过计算机
程序构造模型。
派珀特借用了白雪公主的故事,将他和明斯基对感知器的抨击比作猎人冲入树林对白雪公主的追杀。就
像童话故事中讲的那样,派珀特和明斯基带着感知器的“心脏”回到他们的主人(在本案例中,我们称其为万
能的“美国国防部高级研究计划局”)身边,证实感知器已经死了。“然而,派珀特和明斯基展示给世界的证
据并不是白雪公主的心脏,而是猪的心脏。”
这可能曾一度引起过度紧张,但派珀特承认,神经网络躲过了他和明斯基的猛攻。事实也确实如此。实
际上,派珀特在20世纪80年代末写下这句话的时候,神经网络已经又一次发展得如火如荼。霍普菲尔德网的兴起
与明斯基和派珀特的断言相反的是,神经网络研究人员多年来一直认为,神经网络能够展现出新的能
力,并且解决罗森布拉特感知器的问题,但前提是在网络输入和输出之间放置额外的“隐含”神经元层。不幸
的是,没人知道如何训练这些多层神经网络。著名物理学家约翰·霍普菲尔德(John Hopfield)为具体应当如
何做提供了建议。
霍普菲尔德对当时人工智能的主流形式是什么并不感兴趣。他说:“我从未深入研究过人工智能领域到
底发生了什么。人工智能并不能解决现实世界里的问题。我认为没必要去了解它。”然而,多年以后,他一
直苦苦追寻被他称作“需要用一生的时间去研究的问题”。由于对人类大脑十分感兴趣,他考虑的问题涵盖范
围广泛,从灵长类神经解剖学到昆虫飞行的行为,再到大鼠海马的学习乃至阿兹海默症的治疗。有一段时
间,霍普菲尔德对细胞自动机和自我复制的机器人的前景十分着迷。然而,几个月的研究最终还是走进了一
条死胡同。
霍普菲尔德说:“放弃一个错误的思想十分困难,毕竟我们已经研究一年了。”但是,在计算机内部创造
一个生命模型的想法却一直都在。他对一个想法十分着迷,即用神经网络完成大脑能够迅速且轻松完成但计
算机却不能完成的任务。霍普菲尔德最终选择了联想记忆,联想记忆是指大脑如何以交互的方式工作,也就
是看见一个人就能联想起他的名字,或者听到他的名字就能想起他的长相。联想记忆背后的数学运算使霍普
菲尔德想到“自旋系统”的数学运算,该运算描述的是固体磁性的复杂形式。他的脑海中突然产生了一个想
法。霍普菲尔德回忆道:“神经生物学和我所了解的物理系统之间突然产生了一种联系。一个月之后,我已
经开始写论文了。”
1982年这篇论文发表后,一种全新的神经网络产生了。霍普菲尔德网络比罗森布拉特的感知器中的单层
模拟神经元复杂得多。他的思想再次激发了人们对神经网络的热情,这也使他成为这一过程中出人意料的英
雄。加州理工学院的一组追随者开始以“霍普集会”(Hop-Fest)的名义召开会议。霍普菲尔德的发现吸引了
一些世界上最伟大的理论物理学家参与到神经网络的研究当中。该领域的研究人员多年来头一次感觉到热血
沸腾。
然而,事情并没有我们想象得那么容易。正如我们在第一章中看到的,20世纪80年代早期是“专家系
统”的天下,资金也是空前的充裕。尽管后来这些“专家系统”的发展将遭遇困境,但在当时却是十分强大,人们根本不认为它们会失败。世界领先的神经网络专家特里·谢伊诺斯基(Terry Sejnowski)当时正在普林斯
顿大学读霍普菲尔德的博士,他回忆道:“我们当时好像是生活在恐龙时代的只有毛皮的哺乳动物,在这些
长着麟甲的巨兽的脚下混日子,他们有数百万美元的机器和庞大的预算。那时,所有人都专注于计算逻辑,但是我们明白,他们忽视了推动人工智能向前发展所面临的真正困难。”
幸运的是,神经网络吸引了许多年轻且富有热情的研究人员,其中就包括圣地亚哥加州大学的认知科学
家戴维·鲁梅尔哈特(David Rumelhart)和詹姆斯·麦克兰德(James McClelland),他们成立了一个“并行分布处理”小组,并产生了令人难以置信的影响力。
说到这里就不得不提到另外一个人,他就是杰夫·辛顿(Geoff Hinton)。神经网络的守护神
杰夫·辛顿出生于1947年,是现代神经网络最重要的人物之一。作为一名谦逊的英国计算机科学家,他
对其所在领域的发展产生的影响很少有人能企及。他出生于一个数学家家庭:他的曾祖父是著名的逻辑学家
乔治·布尔(George Boole),他的布尔代数曾为现代计算机科学奠定了基础。另一位亲戚是数学家查尔斯·霍
华德·辛顿(Charles Howard Hinton),因提出“四维空间”这一理念而闻名,阿莱斯特·克劳利(Aleister
Crowley)在其小说《月之子》中曾经两次提到了辛顿。
辛顿说:“我一直对人类如何思考以及大脑如何工作很感兴趣。”上学时,一个同学说大脑储存记忆的方
式和3D全息图像储存光源信息的方式是一样的。要想创建一个全息图,人们会将多个光束从一件物品上反
射回来,然后将相关信息记录在一个庞大的数据库中。大脑也是这样工作的,只是将光束换成了神经元。由
于这一发现,辛顿在剑桥大学选择了研究哲学和心理学,之后又在苏格兰爱丁堡大学研究人工智能。辛顿在
20世纪70年代中期来到寒冷的爱丁堡,人工智能领域遭遇的首个冬天几乎在同一时期到来。尽管传统人工智
能刚刚遭受打击,但辛顿的博士导师仍急于让他远离神经网络。辛顿说:“他一直试着让我放弃神经网络的
研究并投入到符号人工智能领域。为了能够有更多时间研究神经网络,我必须不断和他讨价还价。”
辛顿并没有获得其他的支持。学生们认为他是疯了才会在明斯基和派珀特完全否认神经网络后还继续研
究。辛顿在爱丁堡期间,明斯基的学生帕特里克·温斯顿(Patrick Winston)出版了一本早期人工智能教材。
书中记载着有关神经网络的内容:
许多古希腊人都支持苏格拉底的一个观点,即深奥且令人费解的思想是上帝创造的。如今,对这些
漂泊无定的人而言,甚至概率神经元都相当于上帝。很有可能的是,神经元行为的随机性的提高是癫痫
病患者和醉酒的人的问题,而不是聪明人的优势。
人们对温斯顿的思想十分不屑,但是他当时对神经网络的类似于宗教信仰般的看法并不是完全错误的。
辛顿对人脑必须以某种方式工作这一认识十分欣慰,很明显,这是无法用传统的符号人工智能来解释的。他
说:“大多数常识推理都是凭直觉或以类比的方式做出的,其中并不涉及意识推理。”辛顿认为,传统人工智
能的错误之处在于:其认为,任何事都是由一系列基本规则和有意识推理组成的。对符号人工智能研究人员
来说,如果我们不能理解某一部分的意识,这是因为我们还没有弄懂其背后的推理。
毕业以后,辛顿暂时在英国苏塞克斯从事博士后工作,之后收到了一份来自美国的工作邀请。于是,辛
顿打点行装,搬到了加州大学,不久以后,又搬到了卡内基–梅隆大学。在接下来的几年里,他一直积极努
力在神经网络领域取得开创性进展,即便到了今天,其成就仍对人工智能的研究产生着影响。
他最重要的贡献之一,要算是他对另一位研究人员戴维·鲁梅尔哈特的帮助,帮助他再次发现“反向传
播”流程,这大概是神经网络中最重要的算法,之后他们首次以可信的方式证明,“反向传播”使神经网络能
够创建属于自己的内部表征。当输出与创造者希望的情况不符时,“反向传播”使神经网络能够调节其隐藏层。发生这种情况时,神经网络将创建一个“错误信号”,该信号将通过神经网络传送回输入节点。随着错误
一层层传递,网络的权重也随之改变,这样就能够将错误最小化。试想一下,有一个神经网络能够识别图
像,如果在分析一张狗的图片时,神经网络错误地判断为这是一张猫的图片,那么“反向传播”将使其退回到
前面的层,每层都会对输入连接的权重做出轻微调整,这样一来,下次就能够获得正确的答案。
20世纪80年代创建的“NETtalk”项目是“反向传播”的一个经典案例。NETtalk的一个共同创建者特里·谢伊
诺斯基将其描述为用于了解电脑是否能够学习大声朗读书面文字的“夏季项目”。该项目面临的最大挑战在于
语言一点也不简单。项目刚刚开始的时候,谢伊诺斯基去图书馆借了一本有关音韵学的书,即诺姆·乔姆斯
基(Noam Chomsky)和莫里斯·哈雷(Morris Halle)所著的《英语语音模式》。谢伊诺斯基说:“这本书里
都是各种事情的规则,例如字母e出现在单词末尾的时候应该如何发音等。书中提到了例外情况,之后又列
举了例外情况中的例外。英语就是大量的复杂关联。我们似乎选择了世界上在规则性方面最糟糕的语言。”
一直以来,传统人工智能都在不断尝试将这些单独的例子插入到一个专家系统中。谢伊诺斯基和一位名
为查尔斯·罗森伯格(Charles Rosenberg)的语言研究人员决定通过创建一个由300个神经元组成的神经网络
来实现这一目标。当时,辛顿正在实验室访问,他建议他们在项目的最开始使用儿童书籍来训练该系统,这
本书的词汇量一定要小。起初,这项任务十分艰难,计算机一次只能读一个单词,而他们必须为每个字母都
标注正确的音素。例如,字母e在“shed”、“pretty”、“anthem”、“café”或“sergeant”中的发音各不相同。谢伊诺
斯基和罗森伯格每次进行说明的时候,他们创建的神经网络都悄悄地调节对每个连接的权重。该系统面临的
最大挑战是使机器能够正确发出每个单词中间部分的音节。为了做到这一点,神经网络必须使用中间字母左
边和右边的字母给出的提示。
一天下来,NETtalk已经全部掌握了书中的100个单词。这一结果令他们感到震惊。接下来,他们让
NETtalk使用有20 000个单词的韦伯词典。幸运的是,词典中的所有音素都已经标注出来了。他们下午把单词
输入到系统中,然后就回家休息了。当他们第二天早上回到办公室时,系统已经完全掌握了这些单词。
最后的训练数据是一本对儿童说话内容进行誊写的书,以及一位语言学家记录的儿童发出的实际音素的
清单。这就意味着,谢伊诺斯基和罗森伯格能够将第一个誊写本用于输入层,将第二个音素清单用于输出
层。使用“反向传播”以后,NETtalk能够学习如何像孩子那样说话。一段NETtalk的录音说明了该系统在这方
面取得了飞速的进展。在训练之初,系统只能够区分元音和辅音,其发出的噪声则像是歌手表演前做的发声
练习。在训练了1 000个单词以后,NETtalk发出的声音更接近人类发出的声音了。谢伊诺斯基说道:“我们完
全震惊了,尤其是在当时计算机的计算能力还不如现在的手表的情况下。”联结主义者
有了杰夫·辛顿等人的帮助,神经网络开始蓬勃发展。当时有一个传统,那就是继任的一代都会给自己
重新命名,新研究人员们称自己为“联结主义者”,因为他们对复制大脑中的神经联结十分感兴趣。到1991
年,仅在美国就有1万名活跃的联结理论研究人员。
忽然之间,各个领域都取得了突破性的进展。例如,人们发明了专门用于预测股市的神经网络。大多数
情况下,投资公司使用不同的网络预测不同的股票,然后由交易商来决定投资哪只股票。然而,有些人在此
基础上更进一步,赋予网络本身自主权,使其能够自行买卖。无独有偶,金融领域迅速涉足电子游戏领域,时刻准备着为人工智能研究人员进行投资。算法交易时代轰轰烈烈地开始了。
当时神经网络领域的另一个引人注目的应用就是自动驾驶汽车。发明自动驾驶汽车一直是技术人员的梦
想。1925年,发明家弗朗西斯·霍迪纳(Francis Houdina)展示了一款无线电控制的汽车,他操控汽车行驶在
曼哈顿的街头,而车中无须人来操控方向盘。之后,自动驾驶汽车测试使用导丝和车载传感器使汽车能够按
照路上画好的白线行驶,或通过识别出地下电缆发出的交流电行驶。1969年,约翰·麦卡锡发表了一篇标题
为“计算机控制汽车”的论文极具挑战性。麦卡锡所提议的方案基本上是设计一个“自动化司机”。他的项目需
要一个能够进行公路导航的计算机,计算机上仅带有一个电视摄像机来输入信息,该输入使用与人类司机相
同的视觉输入。麦卡锡假设用户能够使用键盘输入地点,并要求汽车立即载他们过去。紧急情况下,用户可
以使用额外的命令变更目的地,要求汽车停在洗手间或宾馆门口,在有紧急情况时减速或加速。
类似的项目直到20世纪90年代早期才得以实现,当时卡内基—梅隆大学的研究人员迪安·波默洛(Dean
Pomerleau)写了一篇激动人心的博士论文,文章介绍了如何将“反向传播”应用于无人驾驶汽车。波默洛称其
开发的神经网络为神经网络中的无人驾驶汽车或ALVINN(控制器),并将道路上的原始图像作为输入信
息,并实时输出转向控制信息。当时,还有许多其他传统人工智能博士正在研究类似的自动驾驶项目。这些
非神经网络的方法主要通过严谨的像素分析将各图像划分为不同类别,例如“道路”和“非道路”。然而,与许
多传统人工智能面临的问题一样,计算机很难将信息解析为像实时路况那样的非结构化信息。假如一辆自动
驾驶汽车依靠这一技术进行危险的高速行驶,发生事故的可能性是很大的。波默洛回忆道:“它们可能将树
影或者树木本身识别成道路,这样车辆就会朝着树直接开过去,而不是避让。”
为了训练ALVINN,驾驶员只需简单地驾驶一段路程。波默洛说道:“驾驶员只需驾驶2—3分钟,ALVINN系统就能够了解并更新反向传播网络的权重。结束驾驶时,驾驶员可以放开方向盘,系统会继续驾
驶车辆开始一段新的路程。”波默洛的发明只关注了方向,却无法控制速度或避开障碍物,这两点必须由驾
驶员来完成。尽管如此,波默洛也取得了巨大的成功,1995年,庞蒂克小型货车上安装了从旧汽车上回收的
ALVINN的升级版——RALPH(快速调节横向位置处理器)。波默洛和一位名为托德·约赫姆(Todd
Jochem)的研究人员为其配备了一台电脑、640×480像素的彩色照相机、全球定位系统接收器和光纤陀螺
仪,之后他们驾驶该车横穿美国。借鉴了1986年“携手美国”(Hands Across America)慈善活动的名称,他们将这次旅行称为“横穿美国”(NO Hands Across America)。他们在路上卖10美元一件的衬衫,用于支付食宿
费用。最后,这辆汽车一共行驶了2 797英里,途经匹兹堡、宾夕法尼亚、圣地亚哥、加利福尼亚,中间还
穿过了胡佛水坝,这一切都是汽车自动驾驶完成的。《商业周刊》的一位记者在报道这一事件时,一名堪萨
斯州骑兵要求其将车停到路边。而波默洛和约赫姆乘自动驾驶汽车旅行,甚至连双手都无须握住方向盘。
15年后,谷歌在2010年10月发布了自己的无人驾驶汽车项目。然而,我们仍要感谢波默洛在神经网络领
域做出的开创性贡献,他证明了自己的观点。欢迎来到深度学习领域
[1]。记者史蒂夫·洛尔(Steve Lohr)在其所著的极为有趣的《数据论》一书中指出,如果能将这些数据输入iPad Air(苹果超薄平板电
脑)中,那么产生的堆栈将能够覆盖地球到月球距离的23。
然而,就像地球虽然有大量的水,但并不是所有水都可以喝一样,这些数据中好多都是未标记的。当数
据集较小时,研究人员可以将主要精力放在正确标记所有数据上,这对训练系统来说更加有用。然而,随着
数据量的增加,研究人员就无法再这样做。例如,2013年3月,网络相册Flickr共有8 700万注册用户,他们每
天上传超过350万张新图片。从理论上看,这对那些想要建造一个能够识别图片的神经网络的人们来说是一
个天大的好消息,但同样也提出了挑战。正如我们所看到的,训练神经网络最简单的方法就是向其展示大量
图片,然后指出每张图片都是什么。通过标记图片,训练员既提供了输入(图片),又提供了输出(描
述)。神经网络就可以反向传播,以纠正错误。这就是我们所了解的“监督式学习”。但是,流通中还有许多
未标记或没有正确标记的图片,计算机如何对其进行识别呢?
幸运的是,杰夫·辛顿掀起了一场“非监督式学习”的革命,这种学习方式无须向计算机提供任何标记。
机器能够访问的只有输入,无须解释它看到的是什么。首先,这听起来像是机器无法通过这种方式学习。如
果没有得到明确的解释,即使是最智能的神经网络也不会知道某物到底是什么。实际上,辛顿发现的是“非
监督式学习”可以用来训练上层特征,而且每次只能训练一层。这一发现成为“深度学习”的催化剂,而“深度
学习”就是当前人工智能最炙手可热的领域。
我们可以将深度学习网络想象成工厂的一条生产线。输入原材料后,它们将随着传送带向下传递,后续
的各个站点或层会分别提取不同的高级特性。为了继续完成一个图像识别网络的案例,第一层将用来分析像
素亮度。下一层将根据相似像素的轮廓来确定图中存在的所有边界。之后,第三层将用来识别质地和形状
等。到达第四层或第五层时,深度学习网络已经创建了复杂特性检测器。这时,它就能够了解4个轮子、挡
风玻璃和排气管通常是同时出现的,眼睛、鼻子和嘴也是同时出现的。它不知道的仅仅是汽车和人脸都是什
么样的。深度学习网络能够识别的许多特性可能都和手头的任务无关,但是其中有一些特性却是和手头任务
高度相关的。
辛顿解释道:“训练这些特性检测器时,每次训练一层,这一层都试图在下面一层找到结构模式。之
后,就可以在顶部贴上标签并使用反向传播来进行微调。”结果深深震撼了人工智能界。辛顿回忆道:“其中
涉及一些数学问题,这总会给人们留下深刻的印象。”
有关深度学习的消息迅速传开。辛顿实验室的两名成员乔治·达尔(George Dahl)和阿卜杜勒–拉赫曼·
穆罕默德(Abdel-rahman Mohamed)迅速论证了该系统不仅能够进行图像识别,还能够进行语音识别。2009
年,俩人将其新创建的语音识别神经网络与已经使用了30多年的行业标准工具放到一起一较高下,结果是,深度学习网络获得了胜利。这时,谷歌邀请辛顿的一位博士生纳瓦迪普·杰特列(Navdeep Jaitly)修补谷歌
的语音识别算法。看了一眼之后,他建议用深度神经网络取代整个系统。尽管一开始持怀疑态度,但杰特列的老板最终同意让他尝试一下。事实证明,新的程序比谷歌精心调试数年的系统表现还要出色。2012年,谷
歌将深度学习语音识别程序嵌入安卓移动平台,错误率与之前相比立刻下降了25%。
那年夏天,辛顿终于收到了谷歌的电话。这个搜索巨头邀请他夏天到位于加利福尼亚州山景城的校园工
作。尽管辛顿当时已经64岁了,谷歌却将他定为“实习生”,因为员工必须严格服从公司政策,即必须在公司
工作好几个月之后才能被授予“访问科学家”的头衔。尽管如此,辛顿仍然加入了由20岁出头的年轻人组成的
实习生组。他甚至还戴上了新实习生们专用的上面带有螺旋桨图案的帽子,被称作“新谷歌
人”(Nooglers)。辛顿说:“我一定是史上最老的实习生。”当时,他开玩笑似的表示,那些并不知道他是谁
的年轻同事肯定是把他当作“老笨蛋”了。
辛顿在谷歌的工作涉及为其他潜在的应用提出有关深度学习的建议。那年夏天的工作进展得十分顺利,第二年,谷歌正式聘用了辛顿。除他之外,谷歌还聘请了他的两名研究生,辛顿和这两名研究生共同创建了
一家名为“DNNresearch”的公司。辛顿在一篇声明中写道:“我会继续在多伦多大学兼职任教,在那里我还有
很多出色的研究生,但是在谷歌我能够看到我们如何处理超大型计算。”
在神经网络领域孤独地耕耘了30年后,杰夫·辛顿最终在世界最大的人工智能公司发挥了重要作用。人工智能新主流
如今,深度学习神经网络已经成为人工智能的主流,其强调的理念可以追溯到麦卡洛克和皮茨。尽管该
理念仍然是对大脑工作模式的一种模拟(我们将在后续章节中探讨更多关于大脑的生物力学模型),但神经
网络能够解决问题的广泛性却令人惊叹。传统人工智能一直表现良好,直到后来研究人员才发现现实世界与
其完美模型并不匹配。与传统人工智能不同的是,神经网络不仅能够处理规律性事物,还能够处理规则以外
的情况。正如20世纪80年代的NETtalk一样,这使其成为处理语言等棘手问题的最佳选择。深度学习神经网
络还擅长处理所谓的“分布表征”,这意味着其具有模拟同一表征空间中两个相似但独立的领域(例如语言和
图像)的能力。从本质上来讲,这意味着神经网络能够以类比的方式进行思考,这一点是传统人工智能无法
企及的。
杰夫·辛顿说道:“现在我们看到的许多事物都在使用神经网络。根据经验,如果你想完成一项任务,并
且你知道这项任务涉及大量知识,这意味着如果你要学着做这件事,你将需要大量相关的参数。在这种情况
下,深度学习将是更好的选择。”
令人印象深刻的应用程序随处可见。2011年,就在辛顿加入谷歌之前的那个夏天,谷歌工程师杰夫·迪
安(Jeff Dean)、格雷格·科拉多(Greg Corrado)和斯坦福大学计算机科学家吴恩达(Andrew Ng)共同推
出了“谷歌大脑”(Google Brain)项目。谷歌大脑项目都在谷歌公司半公开的实验室“谷歌X”中进行,使用深
度学习网络识别高水平概念,例如通过分析视频网站Y ouTube的视频中静止的图像来识别猫,而之前并不向
它解释猫到底是什么。(巧合的是,这实际上就是弗兰克·罗森布拉特半个世纪前对《纽约客》杂志说过
的“神经网络终有一天能够实现”的那个目标。)
听起来一台知道猫为何物的计算机并没有什么新奇的,但是通过深度学习实现计算机的视觉能力,在现
实世界中却拥有广泛的用途。一家名为“Dextro”的初创企业使用深度学习创造出了更好的在线视频搜索工
具。Dextro的神经网络并不依靠关键词标签,而是通过扫描直播的视频来分析音频和图像。举例来说,如果
用这个神经网络搜索英国前首相戴维·卡梅伦,那么不仅能够搜出与保守党有关的视频,就连提到英国首相
的视频也能够搜到。
与此同时,Facebook(脸谱网)使用深度学习自动为图像设置标签。2014年6月,这一社交网络平台发
布了一篇文章,介绍其称之为“DeepFace”的面部识别技术。凭借深度学习的能力,Facebook算法几乎和人脑
一样准确,无论光线和相机角度如何,都能够对比两张照片并查看其显示的是否是同一个人。此外,Facebook还使用深度学习创建了另外一种技术,该技术能够为盲人用户描述图像,例如,一张图片上显示的
是某人在一个夏日骑着自行车穿过英国的乡间小路,该技术能够用语音将这一情景描述出来。
其他一些项目将深度学习和机器人学结合起来。美国马里兰大学的一组研究人员给机器人放了一段
Y ouTube上的烹饪视频,这样就教会了机器人如何烹饪一顿简餐。这一过程中没有任何直接人为的输入,只
要提供正确的餐具,机器人就可以直接复制视频中显示的任务,而且准确率非常高。长远来看,类似的机器人深度学习也可以应用于军事维修等领域。
目前已经证明,深度学习在翻译领域是必不可少的。2012年12月,微软的研发总监里克·雷斯特(Rick
Rashid)展示了一款震撼人心的英汉语音识别和翻译系统。通用翻译器这样如同“星际迷航”的英雄梦一样的
技术即将实现,这项技术意味着在不久的未来,我们无须会说法语、俄语或日语就能够在法国餐馆点菜、在
俄罗斯坐出租车或在日本谈生意。更加令人印象深刻的是,深度学习系统能够将说话者的语音划分为基本的
音素,然后将这些音素重新组合成需要的语言,最后以说话者的声音将语言“说”出来。微软解释道:“你的
平板电脑或智能手机将分析你所说的意思,将其翻译成听者能够理解的语言,并用你的声音以听者熟悉的发
音、音色和音调表达出来。”
有趣的是,虽然我们一直在对基本的技术进行调整,但如今许多重大进步仍可以追溯到戴维·鲁梅尔哈
特和杰夫·辛顿在20世纪80年代发明的反向传播算法。这些年来唯一改变的是计算能力,而计算能力反过来
意味着更强大的神经网络和更多隐藏层。仅“谷歌大脑”项目就将16万个计算机处理器连接起来,创建了一个
拥有10亿多连接的人造大脑。可用训练数据集的规模也在大幅增长。前些年使用的数据相对较少,与其相
比,如今用于教神经网络思考的信息数不胜数,举例来说,Facebook的面部识别系统就是通过分析740万张
图像来训练系统的,这些图片是Facebook 12.3亿活跃用户的脸。
神经网络不是如今实践中用到的唯一一种人工智能(我们将在后面的章节探讨其他人工智能),其优势
将人工智能推到了胜利的顶峰。与传统人工智能不同的是,神经网络不再局限于简单的实验室环境。
实际上,下一章将探讨的内容是,当人工智能超越我们通常所说的计算机系统的限制并跟随我们一起进
入现实世界时,到底会发生什么。
[1]1泽字节=270
字节。——编者注第三章 万物互联的智能时代已经来临
第三章
万物互联的智能时代已经来临
1998年,苹果公司推出了其外观线条呈圆形的iMac电脑;《哈利·波特》风靡世界;第一款移动MP3播
放器上市;一位来自雷丁大学控制论专业的44岁教授在这一年进行了一项非同寻常的运算。凯文·沃维克
(Kevin Warwick)教授进行了一个非急需外科手术,目的是将一个包在玻璃管内的硅片植入自己的左臂皮
肤之下。一旦植入人体,这款射频识别设备(RFID)的芯片发出的无线电信号,就能经由实验室周围的天
线,随即传入能够控制沃维克周围环境的中央计算机。“在(我的实验室)的主入口处,当我进门时,一个
由计算机操作的音箱发出‘你好’的声音。”后来凯文·沃维克记下了他的体验:“计算机检测到我进入大楼的过
程,当我走近实验室的时候,为我开了门,点亮了灯。芯片植入体内后的9天里,我仅仅沿着特定的方向行
进,就可以触发周围的物体自己行动。”
约20年后再来看,沃维克的这项实验依然震憾人心、发人深省。与沃维克职业生涯的其他事情相比而
言,这项实验最有意义。然而,在过去的几十年里,我们对此事的惊诧程度可能多多少少发生了改变。尽管
回避有人愿意采取这种侵入式手术的原因依然很容易,但关于为什么有人想这么做的问题已经不再重要。写
这篇文章的时候,我的手腕上带着一块42毫米的不锈钢苹果手表,搭配了米兰风格的表带。这款表价格为
599英镑,它能实现的功能远远超过凯文·沃维克在其植入式射频识别设备上所设想的功能。一旦我收到一条
短信或一个电话,或者如果我的朋友在图片分享网站Instagram贴了一张新图,我只需要看看手表就一目了
然。而且在超市购物时,我可以用手表刷卡支付。同样,我也可以用手表打开世界各地酒店的房门。外出的
时候,手表连续发出的嘀嗒声和震动可以告诉我应该走哪条路。一串嘀嗒声提醒我右转,另一串嘀嗒声则提
醒我左转。第一次震动表明我的旅程结束了,而第二次震动则告诉我到达目的地了。所有这些功能并不需要
进行侵入式手术。
如果你正在阅读这本书,你很可能对“智能设备”这个名词并不陌生。除了种类日益繁多的智能手表,如
Pebble(一款智能手表)、Android Wear(安卓的可穿戴应用程序)及其他设备,还有智能跑鞋,智能跑鞋
能够记录步数、心跳频率,并使用嵌入式屏幕传达你的情绪,比如使用笑脸和爱心等符号。智能冰箱不但可
以记录温度与冷藏的食品,还会在你最喜欢的食物就要吃完了或将要变质的时候通知你。还有智能安全摄像
头、智能厨房秤、智能灯泡、智能马桶、智能尿片和智能牙刷。2014年,谷歌以惊人的32亿美元现金收购了
最著名的智能设备公司Nest Labs。Nest Labs由苹果前雇员马特·罗杰斯(Matt Rogers)和“iPod之父”托尼·法
德尔(Tony Fadell)联手创立,打造了多款可以联网的智能设备,其中最重要的是智能恒温器,通过一段时间的学习,这款恒温器可以了解用户的习惯,并相应自动地调节温度。
传感器、人工智能算法与通过Wi-Fi(无线局域网技术)实现的持续联网状态相结合,使这些设备变
得“智能化”。以前,接入网络而变得智能是一件令人们不得不“大费周折”的事。今天,我们的在线连接很少
出现中断的现象。总的来说,这些进展使我们从用户那里收集数据、分享数据,并且帮助用户理解数据成为
可能。“数据赋予我们力量,”世界第一个联网电动牙刷生产商Kolibree的营销与战略总裁勒妮·布洛杰特
(Renee Blodgett)表示:“这是我们第一次将刷牙方式、刷牙部位以及刷牙时哪里需要改进结合在一起。”在
我们拥有智能牙刷之前(这对我而言,就是现在),我们不得不依靠一年前进行年度检查时牙医的反馈。而
通过智能牙刷,我们可以实时获得这些信息。智能设备成为现代生活的必需品
现在,我们处于未来技术的“早期采用”阶段,未来技术的支持者声称,这些技术将像19世纪末、20世纪
初电力时代的到来一样,带来一场巨大的变革。1879年,美国发明家托马斯·爱迪生已经能够在加利福尼亚
州门洛帕克市自己的实验室里生产可靠耐用的电灯泡了。到了20世纪30年代,美国90%的城市居民,以及越
来越多的农村地区的人们都可以利用这项技术。随着开关的拨动,电赋予人们控制光的能力,人们能够控制
自己家和工作场所的光线。这打破了生活的正常生物节奏,使人们能够随心所欲地安排自己的工作和娱乐时
间。随之而来的电网引入了大量的连接设备,创造了工业,并永远地改变了人们的生活。
美国西尔斯百货(当时一家初具规模的邮购公司)1917年春季的商品目录使公众知道“电不仅仅可以用
来照明”。事实确实如此。铁熨斗、洗衣机和真空吸尘器使洗衣与清洁更加容易。由于效率的提高,不但清
洁度上升了,而且家庭雇用的家政人员数量也越来越少。电冰箱取代了冰盒,使食物更加易于长期保存。天
热的时候,我们可以使用电扇,而天冷的时候,我们可以使用辐射发热器,这是人类第一次能够控制气温。
电力为大众带来了电话与飞机,并在即时通信年代,受到了新闻与娱乐行业的追捧。1938年,美国前总统富
兰克林·罗斯福在佐治亚州巴恩斯维尔演讲时宣称,电力是现代生活的必需品。
我们能否开启一条同样的智能设备变革之旅?或许是可以的。当然,移动无线网络的崛起意味着设备的
使用比以前更加方便。“物联网”(这个定义有时候显得相当笨拙)之梦是,智能硬件要像一个世纪以前的电
力那样,成为21世纪重要的“现代生活的必需品”。那时我们进入了电气化时代,现在我们将进入互联时代。
当前,智能设备领域充斥着大肆炒作之风,爱立信公司的分析师预测,到2020年全球将有约500亿台智
能设备,相当于人均6.8台。“这不仅是一场进化,这还是一场革命。”苹果前雇员、现在掌管创业公司
SITU(该公司生产量化卡路里摄入量的智能天平)的迈克尔·格罗特豪斯(Michael Grothaus)表示:“这是自
个人电脑诞生以来,技术界最激动人心的事了。”会思考的事物
1991年,剑桥大学计算机科学系特洛伊木马研究室的研究人员提出了一个新的想法。他们在自己的研究
室中放置了一个共用的咖啡壶,然后决定安装一台摄像机用以监视一天的咖啡用量。研究人员将摄像机设定
为每秒捕捉一帧,然后将其编码为灰度级的JPEG格式文件,最后将图片文件通过早期的万维网发出去。通
过各自的计算机,该系研究人员可以登录到“视频”源中查看壶里是否还有剩余的咖啡,从而省去他们去打咖
啡的无用功。
“‘咖啡俱乐部’的一些成员位于大楼的其他区域,他们不得不为打咖啡爬上爬下,如果特洛伊木马研究室
熬夜的黑客们先打了咖啡,那么其他成员打咖啡的结果常常是无功而返。”当时在系里工作的计算机科学家
昆汀·斯塔福德–弗雷泽(Quentin Stafford-Fraser)牢骚满腹地说:“这样打咖啡对计算机科学研究进程造成的
中断,显然使我们非常苦恼,于是‘XCoffee’(X咖啡)就这样诞生了。”
我之所以提出XCoffee,因为它证明了一个非常重要的观点,即什么是我们认为的“智能技术”。XCoffee
也常常被看作智能设备现代趋势的早期例子。某种程度而言,这是真的。与许多最新的智能配件一样,XCoffee与网络连接,因而也成了所谓的“物联网”的一部分。但是对我而言,XCoffee更接近硬件极客所说
的“黑掉”的范例,“黑掉”这个术语就是俗话说的解决棘手问题的高明方法。成为今天我们称作智能设备(麻
省理工学院媒体实验室称之为“会思考的事物”)的前提条件是,它必须以一种自我管理的反馈回路而存在,无须过多人工干预就能够自动运行。物联网并不仅仅把“物”连接到互联网。传统互联网使人们能够搜索、下
载音乐或者阅读信息。另一方面,物联网主要用于非人类实体的交流,这是越来越多的人热衷于M2M(机
器对机器)交流的原因。
智能设备应该能够感知自己所处的环境、识别特定状态、触发评估、产生行为等等,从而形成一个连续
的环路。智能设备的“智能”在于中间的部分,那里负责处理感知到的信息,以及如何基于信息采取具体的行
动。一台真正智能的咖啡机不只是提醒人们咖啡机空了,而是能够计算出使用者可能口渴的时间,并且自己
能及时重新加满咖啡,调制出咖啡成品以满足使用者的个体需求。甚至基于无人控制的桌对桌(desk-to-
desk)送货也是可能的。“控制论”简史
我们将在本章讨论的多数智能设备都包含机器学习的元素。正如围绕人工智能的各种问题都可以回溯至
数百年前一样,关于具有自我调节功能的机器的想法也同样如此。早在公元前205年,寓居于埃及亚历山大
港的希腊数学家克特西比乌斯就建造了世界上第一台能自我控制的设备。克特西比乌斯的作品是一台水钟,其最大特点就是拥有一个可以保持恒定流速的校正器。这台水钟通过设在水缸里的浮子计时。水从水缸底部
的小孔滴落,浮子就随着水位下降。每运行一单位的时间,浮子顶端的类似于人偶的器械就进行一次齿轮机
械操作。克特西比乌斯水钟有多个不同版本,在不同版本中,它要么落下一块卵石,要么鸣响一声喇叭。
克特西比乌斯水钟意义重大,因为它永久性地改变了我们对人造之物的认知。早在克特西比乌斯水钟之
前,人们认为只有有生命的东西能够根据环境的变化调整自己的行为。而克特西比乌斯水钟诞生之后,自我
调节反馈控制系统成了我们技术的一部分。
进入20世纪,影响后世的人工智能先驱诺伯特·维纳(Norbert Wiener)制定了反馈系统的数学理论。维
纳提出一个设想:智能行为是接收和处理信息的必然结果。这个设想就是众所周知的控制论。“二战”期间,当维纳与其同事朱利安·毕格罗(Julian Bigelow)在从事旨在提高高射炮精确率工程的时候,他的反馈系统理
论得到了细化。维纳和毕格罗解决了向飞行中的飞机提高开火准确率的难题。这曾经是个难题,因为炮手必
须预先判断目标的位置。他们的解决方案是通过预测目标飞行位置并相应调校火炮的瞄准器,从而自动调整
炮手的瞄准过程。
维纳关于感知和反馈作为一种优化性能的方法的设想不仅仅只是用于战争。维纳与之前的研究者不同,他将反馈构想成一种通用的普适原则。他认为,反馈能够以同样的方式应用于机器、组织、城市甚至是人的
大脑。他在1905年出版的《人类的人类用法》(The Human Use of Human Beings)一书中记录下了许多这样
的设想,此书比“人工智能”的正式问世早了6年。作为一本出人意料的畅销书,它描述了智能自动化推动社
会进步的各种方式。维纳抛弃了建造能够思考的机器来替代人类的想法,而是在他的书中讨论了人类与机器
可以合作的方式。在导读中,他写道:
这是本书的论点:只有通过学习属于社会的信息与掌握通信设施才能了解社会;而且,在这些信息
与通信设施未来的发展过程中,人与机器、机器与人以及机器与机器之间的信息注定要发挥越来越重要
的作用。
控制论从来没有像人工智能那样获得过大量的研究经费。然而,关于可以用于预测未来的数学反馈系统
的设想几乎是建造今天所有智能设备的基础。例如,标准的“无声”恒温器通过传感器收到温度信息,并根据
其冷热程度,为你开启火炉或空调。另一方面,一个“智能”恒温器能够整合其他数据源,如当天的天气预报
或家里人对房间温度的历史设定信息。它甚至可以根据房间内多人的身体传感器读数的集合,选择一个平均
的温度。代替那种简单的反应式工作,智能设备的工作变成了预测式的。这要求不同设备之间相互作用。与预先连接的同类设备相比,这些智能设备可能是相对智能些,但离我
们实际称之为的“智能”还相去甚远。但是当设备彼此之间能够分享数据和目标时,新的可能性就展现了出
来。这就是专家所描述的“环境智能”,即通过使用嵌入网络的智能,多种设备共同执行各种任务。就像白蚁
共同建造一处蚁穴一样,整体是大于部分的总和的。早期的自动机器人
这种对机器与环境(或者更好的情况是,多种机器与其环境)之间突发行为的兴趣源于控制论运动,并
引发了机器人领域的一些早期重要工作,如威廉·格雷·沃尔特(William Grey Walter)所从事的工作,他是一
位出生在美国而生活在英国的神经科学家。1949年,沃尔特建立了世界上第一对三轮机器人,他称之为“乌
龟”。与刚刚开始研究数字计算机的计算机科学家不同,沃尔特依靠模拟电子学来仿制其机器人的大脑。他
的目标是证明少量脑细胞之间丰富的关系能够产生复杂的行为。他对这样的概念十分痴迷,即机器可以定义
目标,并随后通过学习自己的行为产生的后果从而完成目标。
沃尔特的“乌龟”分别名为埃尔默(Elmer)和埃尔希(Elsie),都装配有光敏元件、标志灯、触摸感应
器、推进马达、转向马达和保护壳。尽管这对机器人还不能可靠地工作,但它们能够自动探测周围的环境。
在沃尔特所著《活着的大脑》(The Living Brain)一书里,他回忆了一段经历:一位年长的女士认为这对自
主漫游的机器人在追逐她,于是逃上楼将自己锁在卧室。在沃尔特工作的位于布里斯托尔的博尔顿神经学研
究所(Burden Neurological Institute),沃尔特在技术人员W. J. 邦尼·沃伦(W. J. Bunny Warren)的帮助下,使乌龟机器人得到了改进。他在1951年的“不列颠节”(Festival of Britain)上展示了后续三台“马基纳·斯巴卡
拉特里克斯”(Machina Speculatrix)机器人,它们基于埃尔默和埃尔希原型进行了许多重大改进。其中包括
当电池即将耗尽时,机器人会转身向光源前进。今天,虽然人们几乎已经遗忘了沃尔特的乌龟机器人,但是
它们是早期自动机器人的典范,能够通过自己的行为,以试错的方式进行学习。
谈到威廉·格雷·沃尔特的乌龟机器人的后续产品,就不可能不提到iRobot公司创造的真空清洁机器人
Roomba。Roomba呈小型圆盘状,在计算机的引导下可以在家里自动工作。尽管它可以通过基于反馈的“智
能”对刺激做出反应,但一般情况下,它遵循一系列预先设计的清洁策略。首先,它会一直清理直至与障碍
物发生碰撞,碰撞指示其改变线路并以新方向重新开始清理。为了使之有效移动,Roomba包含了许多智能
传感器,其中两个是红外传感器,帮助它检查墙体以及被它称为“悬崖”的物体,比如楼梯和其他会造成下落
的地方。当Roomba撞到障碍物时,触摸感应缓冲器会阻止其向前行进。在Roomba的下面装配有俗称的“压电
传感器”,可以检测到灰尘。如果在一个地方发现过多的灰尘,Roomba将重复其步骤以进行第二次清理,第
二次速度将放慢并清理得更加彻底。仅仅观察这些简单的步骤,Roomba就展示出了一种看上去像是由人执
行的突发行为。
某种意义而言,“突发”这个词表明这种行为是不可预测的,其实不然。如果完全基于上述的简单规则,我们可以理解为什么Roomba能以自己的方式行动。然而,如同沃尔特的“乌龟”一样,当Roomba设法完成自
己的任务时,行为实体(behavioural agent)与环境的结合可能产生一些意想不到的响应。
单独一台Roomba的运行和表现都非常好。但是,就像沃尔特通过其乌龟机器人所发现的,当不止一台
实体相互作用的时候,事情就真的变得很有趣了。沃尔特最有趣的观察结果是,当这些“乌龟”彼此围绕旋转
的时候,他发现了它们“跳舞”的方式。这种舞蹈由一种看上去由机器人仪式化的碰撞和后退组成。这是他装在乌龟机器人身上的标志灯造成的,当转向马达开启的时候标志灯就亮了,而转向马达停止时标志灯就熄灭
了。由于每个乌龟机器人依靠对方的标志灯来定位,它们就像同一物种的两个生物首次见面一样彼此吸引。
当“乌龟”走过显现它们身影的镜子时,会发生同样的现象。沃尔特宣布,如果这是一种动物行为的话,这种
行为“或许可以证明乌龟机器人具有自我意识”。
即使Roomba的热衷者也不愿意承认两台交互的真空清洁机器人具有“自我意识”,但沃尔特表明多重代
理系统使智能设备变得更加有趣,这点是没有错的。举例来说,如果你家的门能够自动开或关,从而使
Roomba可以一次清扫多个房间,这将产生什么效果呢?这在某些场合是令人满意的,比如,如果你有一只
宠物而你不希望它进入某一房间,或者如果你有一个特殊的房间在供暖,你不想它进入这个房间。同样,如
果Roomba能够接入装在前门或汽车里的传感器,并且知道在你去上班的时候就开始工作,那么你回家的时
候清洁工作就已经完成了。或许,这就是那些制造智能设备的大公司正在努力的方向。计量生物学上的记录者
2015年6月之前,我从来不会花很多时间考虑诸如哪个城市的居民睡眠最少,抑或通勤不足5英里的上班
人士是否比距离更远的人锻炼得更多这样的问题。然而对于感兴趣的人而言,答案分别是:日本东京的市民
睡眠最少(平均每天睡5小时44分钟);“是的,通勤不足5英里的上班人士比距离更远的人锻炼得更多”(每
天多走422步)。
这是班达尔·安塔比(Bandar Antabi)告诉我的。安塔比无疑是世界上最佳的酒吧竞猜选手。你若问他,他会告诉你,如果你希望夜晚早点降临的话,那么你最佳的居住地是澳大利亚的布里斯班,在那儿,人们大
约晚上10点57分就要进入梦乡,而“夜猫子”的首选居住之地应该是俄罗斯的莫斯科,那里通常凌晨12点46分
才是人们入睡的时间。他说,在情人节女人会比平时少吃约3%的大蒜,但是当天男人会多吃37%。瑞典的
斯德哥尔摩人是最活跃的步行者(按每天平均量计算),而巴西圣保罗人是世界上最不活跃的步行者,等
等,就像你把达斯汀·霍夫曼(Dustin Hoffman)在《雨人》中的角色放在维基百科上数小时一样,很快你就
得到了所有答案。
班达尔是个非常聪明的人,但他也是个非常不擅长处理琐事的人。他能采集这些信息是因为作为特殊项
目主管,他所任职的公司Jawbone已经花费多年时间不知疲倦地在收集这些信息。
1999年,Jawbone以为美军开发降噪技术而起家,随后才涉足蓝牙头戴设备、扬声器以及后来的可穿戴
生活记录仪等领域。就是可穿戴生活记录仪这种装满传感器的智能设备使Jawbone今天闻名于世,如UP3,它是一种如同手表的细腕带,专注地记录着从你的睡眠模式、呼吸节奏、心率到“皮肤电反应”等所有事情的
设备。Jawbone的大量用户所生成的原始数据使班达尔知道了如此多的“真相”。现在,这些数据包括了3万亿
步、2.5亿次睡眠以及将近200万顿饭。随着时间的流逝,数据将继续增加,还可能纳入几十种其他的计量内
容,如用户每天摄入的咖啡因总量等。简而言之,Jawbone希望成为你计量生物学上的记录者。
“我们的任务是建立这种个性化的数据集,它整合了你的个人身份、档案、生物学信息、年龄、身高、性别、饮食偏好、情绪等信息。”班达尔告诉我这些的时候,我在Jawbone英国公司的总部诺丁山办公大厦13
层,坐在他的对面,喝着一杯星巴克咖啡。他继续说道:“我们也想了解你的相关活动。你什么时候坐着,什么时候活动且消耗卡路里,你的睡眠质量如何。通过挖掘这些信息,随着时间的推移,我们可以为你提供
大量的信息。我们正在建立一个关于你的健康的场景化数据集。”
Jawbone与许多技术硬件公司建立了有经纪人参与的合作,但是如果只是分享数据的话,这些业务是不
值得我花费笔墨的。你的恒温器真的需要知道在昨夜的晚餐中你吃了什么吗?如果你的电视知道你一周要慢
跑4次,这会对你有什么好处呢?班达尔说,实际上这意义深远。“有数据虽然是好事,”他对我说,“但是理
解数据才是我们关注的。”
“理解数据”意味着可以通过恰当的人工智能算法,以具有上下文意义的方式分析你的数据。“我们可以使用这种技术,以一种有利的方式将数据用于适合的设备。”他继续说道,“比如,你可以将Jawbone的智能
设备与你的智能恒温器配对,那么当你睡觉的时候,卧室里的温度可以自动调节至最有利于你睡眠的状态。
当你醒来时,温度可以再次改变。”
这些数据处理即通常所说的事件驱动程序或者IFTTT规则(通过不同平台的条件来决定是否执行下一条
命令)。这些简单的规则,依据简单的方法,将服务环节串联了起来。IFTTT规则先驱林登·蒂贝茨(Linden
Tibbets)曾将这些规则称为“数字传送带”,因为它们可以使智能技术的创造者或用户将完全割裂的概念联系
起来。这种在智能设备领域可能或者当前正在发生作用的交互例子不胜枚举,比如,如果你的汽车知道你昨
夜没有睡好,它可以从你的智能恒温器提取数据,这些数据如果显示出你遇到寒冷会更精神,它就可以打开
空调,确保你能保持足够的清醒。通过你的可穿戴健身记录仪,它可以了解到当你听某一类型音乐时你的表
现最佳,因此,它可以自动播放金属乐队的音乐使你一天都活跃起来。它甚至可以知道昨夜你和朋友外出聚
会,现在仍然还处于醉酒状态。为了实现这点,它使用嵌入在变速杆上的传感器,分析你手掌汗液里的酒精
含量。如果遇到这种状况,它会让汽车熄火,并建议你呼叫一辆优步(Uber)出租车。
还有一个例子,你的智能电视可以收到你的睡眠记录,并可以基于你一天的时间安排为你提供定制化收
看电视节目的时间建议。如果晚上9点放弃看让你脑子兴奋好几个小时的《权力游戏》(Game of Thrones)
这样的节目后,为什么不选择看《摩登家庭》(Modern Family)呢?或许你在观看一个你喜欢的烹饪节
目,智能电视就将节目中的食谱发送至智能冰箱,冰箱监控着所有食物,所以它知道里面是否存放有烹饪这
道菜所必需的各种原料。如果没有的话,它可以将所需原料加入家庭采购杂货的快递清单之中。随着越来越
多的设备与网络连接,能够提取彼此的数据并由事件驱动程序将它们相互关联,技术迷期待已久的梦想即将
实现了。
当然,我想谈的是羽翼已经丰满的智能家庭。未来家庭
[1]的智能电视用你熟悉的声音说“欢迎回家”,并建议你看一段昨晚球赛的集锦,因为它知道你还没有看。
除了拥有能够彼此交流的设备,联网的智能家庭与现在的家庭一个很大的区别将是使用人工智能去建立
目标,我们的设备可以根据这些目标努力使我们的生活过得更加轻松,更加舒适,更加富有成效。
“实现物联网的设想,使用所有这些可以进行一些思考的设备,可以采用以下两种方式中的一种。”被称
为人工智能“强化学习”领域(涉及人工智能形成并追逐目标的能力)的专家理查德·萨顿(Richard Sutton)
表示,“你可以拥有执行单独目标的独立实体,比如,恒温器的‘目标’可能是提高效率并节省燃料。冰箱
的‘目标’是在你需要的时候确保随时为你提供食物。这样做的结果可能是你的智能设备为计算出各自目标的
优先级而争斗不休。而另一种方式是将所有设备互联,从而形成一个决策者。”
举出类似的例子并不难,比如拥有一套使你更加健康或者能节约燃料的住宅。当然,并不是人人都喜欢
这样。“这里需要对第一种选择进行解释,”萨顿接着说道,“这意味着你知道你的炉子是开着的,因为房子
温度低。而不是因为房子希望你待在室内以便你的智能电视可以为你播放最新的节目。它具有一个清晰的目
标,而且你们都知道它在做什么。住宅自己的可信度赋值非常简单明了。”
但是,只要它们以一种对于用户来说清晰透明的方式存在,并还存在实现更宏大目标的情况,人工智能
就能够使你的设备联合起来,从而实现长期的且更加复杂的目标。机器学习的普及
黛安·库克(Diane Cook)是华盛顿州立大学电子工程与计算机科学学院的一名教授。过去数年,她都在
调查智能家庭改善老年人生活质量的方式。几年前,库克参观了得克萨斯州博览会,在博览会上她看到了以
一系列智能设备为特色的“未来家庭”展。离开时,她却不为所动。“这根本不是智能家庭,只是个联网的家
庭,”她说,“这里有一台可以扫描二维码的冰箱,它随后可以为你生成一个杂货清单,并将清单发送到当地
的食品店,食品店再送货上门。这个家庭里虽然有很多这样的设备,但拥有‘智能’的仍然还是住在里面的
人。这些设备没有逻辑推理能力,只有信息。”
库克运用机器学习的知识,希望建造一个不仅仅只是收集数据的房子。“我认为智能家庭不仅要感知环
境中发生的事情,而且还要通过自动化对环境造成影响。”她说道,“它可以对收集到的信息进行推理,使用
这些信息并自动选择一种行为。”库克开始着手一项旨在使用这种智能进行推理的工作,从而获得老年人在
认知与身体差异方面的早期指标。智能传感器可用于告诉我们一个人在家活动的全部信息。如红外运动检测
仪、磁力门窗警报器以及可以记录水龙头和炉子状态的传感器等设备能够显示一个人是在吃饭、睡觉、做
饭、看电视还是在外出散步。通过监测这些活动,有意识地提取他们的“统计学活动特征”。库克的算法还可
以预测一个人的活动进行情况。比如,一个有记忆障碍的人执行某一任务所花费的时间可能更长。他们可以
展现出许多可识别的迹象,如徘徊过多,在具体事情中试图回想起下一步该做什么,反复开关壁橱,或是使
用不正确的工具做饭等。孤立地来看,这些行为不一定有什么意义,但从全局来看时它们勾勒出一幅充满启
示的图画。
开始的时候,库克和她的团队在华盛顿州立大学的校园测试这项智能家庭技术,随后他们搬至西雅图当
地的一家名为“地平线之家”的疗养院。这里共有18位老人,平均年龄至少73岁,他们志愿加入这项研究。他
们在老人的公寓里安装了传感器,传感器的外观是白色小盒子,每两英寸安装一个。即使没有摄像头,这些
传感器也能够分辨出共同生活的是两个人还是一个人和一只宠物,库克称后者为“基于智能家庭的角度不得
不处理的噩梦般的场景”。库克随后将传感器数据与(人类)护工所管理的正常检测数据进行了比较。“这是
令人吃惊的成功,”她说,“我们在人类的活动与传感器的健康检查活动之间发现了高度的关联性。因此,我
们仅仅依靠他们进行的一些活动,就能够通过机器学习工具,成功地预测他们正在接受怎样的诊断治疗。”
如库克所言,虽然这项技术的应用没有打算代替朋友或家人之间的社交活动,但它能帮助老年人独立生
活得更久,这可能意味着他们可以继续待在他们度过了前半生的家里。“即使没有护理人员登门,这也没有
问题。如果出现重大的变化,意味着健康状态发生转变,护理人员或者医务人员也可以及时得到警告。这种
智能家庭可以发出关于老年人瞬间记忆丧失的警报,如冰箱门敞开或炉子没关等。”
库克的项目已经收到约300万美元的资金,她的下一个目标是扩展自己的研究。“今天我们包里都有智能
手机,”她说,“我们可以将所有的传感器、网络、软件以及计算机放入一个小容器里,并将它们送到全球各
地的站点。”不久,它就可以用来进行国际研究——随着全球各地数据的流入,机器学习算法会变得更加智能。
许多公司也致力于这个领域。比如:Healthsense公司制造了eNeighbor监控系统,这是一款由大量家用智
能传感器强化的可穿戴设备。与黛安·库克在“地平线之家”进行的项目有些类似,eNeighbor可用于检测患者
是否跌倒或忘记服药,并通知护理人员。同样,BeClose智能传感器系统可以发现患者长时间不吃饭或错过
吃饭,并向指定的家庭成员发送短信、电邮或呼出电话。
拥有智能家庭信息那当然很好,但智能设备的下一波浪潮将涉及疾病的追踪与诊断。以医疗设备厂商
AliveCor为例,它生产的智能手机壳可以兼作可移动EKG(心电图)心脏监护器,能够预测使用者是否要中
风。这种手机壳通过人的指尖测量来获取心电图,随后由算法分析心跳的规律,并告诉使用者是否应该看医
生。
随着我们的环境越来越智能,我们将进入一个持续地进行风险实时评估的时代。这是史上第一次可以针
对个体得出大量基因的、生理的、生物的,以及环境的因素之间恒定的关联关系与可能的因果关系。除了空
气质量与噪声水平等外部指标,可穿戴设备将持续监测我们的心率、血氧水平、身体活动、呼吸模式、面部
表情、肺功能、声音曲线、脑电波、姿势、睡眠质量等指标。运用人工智能的洞察力,这些数据点不仅转化
成对整个生活的全面建议,而且转化成能够即时提高健康水平的可执行的建议。在执行预测和诊断的同时,我们可以准确了解特定疾病或症状出现时的必要条件,并且可以制定前瞻式预防措施,从而确保病症不会发
生。哮喘患者可能具有导致疾病发作的特殊诱因,例如寒冷、运动、花粉或者其他过敏原,这些诱因可以通
过智能设备分析出来。当这些风险反复出现时,患者可以收到警告以提前服药,或者避开特殊的地点。还有
一个例子,通过细微的声音颤动和降低音量等这些不易为人耳察觉的方式,一位对此还未察觉的遭受神经退
行性紊乱的帕金森综合征患者可能早在医生诊断出来之前就接到了病症即将发作的警告。尽管当前还没有治
愈帕金森综合征的方法,但早期诊断可能有助于改善生活质量。
尽管这些案例中的数据可用于所有用户,但对用户来说并不需要看到这些数据,除非有需要关注它们的
原因。比如,健康追踪技术的默认模式可能是一条高级命令:“监控我的生命体征,如果它们正常,不要传
送任何消息。”如果发现了潜在的重大变化,系统将向用户报警,或者以其他方式向他们的医生报警。
在医疗领域,这是一种全新的技术,但是由于机器学习的普及,它在我们生活中其他领域的应用也再普
通不过了。比如,当前银行用于检测欺诈的算法。尽管我们有能力查看自己账户里的每一笔交易,但当银行
发出的通知偏离我们的常规使用习惯时,我们就可以得到警告。如果我通常都是定期支付不到100英镑,但
有一次突然一次性在线支付了1 000英镑,那么这次支付就很可能被标记为可疑行为。许多电邮系统也使用
机器学习,把“垃圾邮件”从我们需要阅读的邮件中清理出来。垃圾邮件过滤器基于一系列内置规则,通过对
每一封收到的邮件进行评分来展开工作。由于垃圾邮件过滤器能观察我们对所接收消息的不同反应,经过一
段时间后这些评分系统就能构建完善。我们只阅读符合评分标准的邮件,即垃圾邮件过滤器认为值得阅读的
邮件。智慧城市
类似的智能技术也致力于改变我们的城市。城市的成长和信息技术的扩张一直都紧密相关。1910年,历
史学家赫伯特·卡森(Herbert Casson)写道:“没有比电话更及时的发明了。在需要组建大城市与社区联合体
的关键时期,电话来临了。”由于各种技术的网络彼此连接,共同创造财富与生产力,在媒体上,城市通常
被描述成有生命、会呼吸的实体。在弗里茨·朗(Fritz Lang)1927年的科幻电影《大都市》(Metropolis)
里,这一点表现得更加鲜明:在电影里有名无实的大都市被描绘成了一个庞大的生物体。
人工智能的梦想似乎使我们离这种可能性更近了一步。1964年,也就是纽约世界博览会举办的同一年,英国建筑师罗恩·赫伦(Ron Herron)提出了“行走的城市”的概念。如同在前卫的建筑期刊《阿基格拉姆学
派》(Archigram)中所描述的,赫伦支持建造巨大的人工智能移动机器人平台,这种平台就像背着摩天大
楼在地球漫步的蜘蛛。这些四处行走的城市可以在地球上无国界生存,可以随意前往它们需要获取资源或制
造能量的任何地方。赫伦的城市甚至还有相互连接以创造更大“行走都市”的能力。这种城市不仅可以自给自
足,而且由于人工智能的突破性发展,还能够自治。
鉴于那时机器人学的研究水平,幸好罗恩·赫伦的想法从未得到严肃对待。就像在第一章所说的斯坦福
国际研究所的机器人沙基,它甚至不能顺利地通过门厅。因此,我们没有亲眼看到自行漫步的纽约遇到地上
的小坑就摔个四脚朝天的情景算是天大的幸事了。城市发展到赫伦所设想的样子是不可能的,但城市变得更
加智能是确定无疑的。比如,智能办公室将配备装有传感器的废纸篓,一旦纸篓需要清理就会提醒清洁工
人。员工也不必知晓卫生安全守则,因为办公室会持续监控自己的温度,并将之与法律规定的标准相比较。
如果超过标准,警报就响起,计算机也将自动关闭。在商店、酒吧、主题公园和博物馆,蓝牙热点会根据你
的位置与个人偏好,将与你相关的信息传送至你的手机或可穿戴设备。
未来几年可以在大街上看到的最大变化将是无人驾驶汽车的大量出现。如上一章所述,谷歌与苹果延续
波默洛研究员的工作,都对这个领域产生了兴趣,并且似乎要在将无人驾驶汽车引入主流社会方面发挥主要
作用。无人驾驶汽车不仅在个体层面对人们产生影响,而且因有助于减少城市交通拥堵,还能够在集体层面
产生影响。随着城市不断扩张,它们收集的数据对于城市规划人员来说至关重要。我们已经开始看到它在发
挥作用。2015年年初,谷歌应用程序Waze与波士顿市合作,用以缓解该市的交通压力。波士顿政府同意提前
向Waze发布计划封闭道路的通知,而Waze则同意共同分享该应用程序上重要的城市交通管理中心的数据
流。短期来看,通过这次合作Waze可以更有效地帮助用户更快捷地抵达自己的目的地;长期来看,Waze的
数据可以帮助波士顿精确调整交通灯的时间,并计算出缓解交通拥堵的方法。做好互联网消失的准备
2015年1月,谷歌董事会执行主席埃里克·施密特在瑞士达沃斯世界经济论坛发言时掀起了轩然大波。当
被问及对互联网未来的看法时,施密特答道:“我的答案非常简单:互联网将会消失。”
当然,这个答案一点都不简单。初听起来,这有点像苹果首席执行官蒂姆·库克向员工的讲话:他们应
该放下智能手机,并与朋友面对面地交谈。或者像电影工作室的老板所说:电影千篇一律,人们应该多些时
间阅读或散步。实际上,施密特说的与此毫不相干。恰恰相反,他已经观察到,近些年来,技术已经变得更
加智能而且无处不在。他并不是第一个提出这种建议的人。早在1991年,硅谷传奇实验室施乐帕克研究所
(Xerox PARC)首席技术专家马克·韦泽(Mark Weiser)就曾写过一篇名为“无处不在的计算”的文章。文章
开头是这样的:“影响最深远的技术是那些消失的技术。它们将自己融入日常生活之中,以至我们无可分
辨。”
其实事实就是如此。第一章所介绍的开创性数字计算机ENIAC重约27 000公斤,占据了整个房间。21世
纪初生产的翻盖手机(甚至不是一款智能手机)的重量是ENIAC的近12万分之一,功耗约为其40万分之一,但性能却是ENIAC的13 000多倍。随着可穿戴设备将取代现在我们智能手机上的大多数功能,这一转变将继
续下去。正如在蓝光时代,镭射光盘对于我们来说是个古董,几年之后,第一代可穿戴设备也将变得非常可
笑。谷歌已经开发了智能隐形眼镜,能够测量佩戴者眼泪中的葡萄糖水平,并随后将这些信息通过无线网络
传递至所连接的智能手机。在这个过程中,搜索巨头希望能消除糖尿病患者对比较痛苦的日常血检的依赖。
在更小的范围内,另一家名为斯克里普斯健康中心(Scripps Health)的公司正致力于开发一种使用者可以将
其注入自己血管的纳米传感器。一旦进入血管,它将驻扎在人体向各个器官供血的毛细血管床上,采集相关
读数,并将数据传回用于分析的主设备。使用者甚至不用担心传感器是如何充电的,因为它能够像一座水力
发电站一样,利用流经它的血压进行工作。
这些技术实际上人眼是看不到的,但更重要的是,穿戴者也看不到。现在,智能设备依然要求我们人工
去做大量事情,这就意味着我们还没有进入无缝智能交互的领域。举例来说,相比夜间睡眠数据集,Jawbone用于分析膳食情况的数据集相对较小。这是因为人们当前不得不自己记录食物,从长长的单子里每
一次挑选一种食物。如果人们可以对煎蛋卷或薯条等食物拍照然后再进行图片识别,并相应地记录下来,那
么人们很可能会这样去做。这是技术公司正在探索的领域。2010年,技术巨头高通公司申请了一项专利,这
项专利可以让使用者仅仅通过智能手机或智能手表对设备拍照而使设备自动匹配。一旦图形识别工具识别了
新设备,两个机器的接口就能自动启动配置流程。这比复杂的人工配置流程要简单得多,也是许多智能手表
生产商使用这种技术的原因。在类似技术可以连接到食物数据库之前,可能还需要很长时间。
本章开始部分介绍的SITU生产智能天平的企业家迈克尔·格罗特豪斯表示:“这当然是技术公司正在钻研
的事。现在,我们看到了一些真正令人感兴趣的工作,这些工作是通过被称为光谱分析仪的设备完成的。光
谱分析仪使用光测量物质的成分。但问题是,光谱分析仪仍然无法准确读取物体的成分与质量。有一天,它们会变得足够小且足够便宜,我们可以便捷地测量任何物体,但是在那之前,测量食物热量的最佳方式还是
用手工记录。”
格罗特豪斯等技术人员的梦想是,所制造的智能设备不仅在外形规模上是不可视的,而且在使用方式上
也是不可视的。就像我们不必有意识地去关注我们的心率、体温或呼吸,因为有中枢神经系统在调控,未来
智能设备也将渐渐地采集并交流信息,而无须个人对流程进行监控。智能设备存在的问题
[2]。通过这么做,有效的铲投速度可以保持得更加持久。这恰恰就是当前智能设备可以轻易测量并反馈给老板的情况。亚马逊当前在自
己的工厂里使用类似的技术,将手持式电脑配发给“成品合作者”(也称产品采集器),以记录他们完成单个订单的速度。泰勒的科学管理
设想不只是支持雇主。他坚信,测量工作的能力也将与激励报酬齐头并进,因此生产力不足的低业绩员工不会获得和高业绩员工一样多的
收入。尽管所有这些在理论上几近完美,但批评人士仍指出一个事实:科学管理同样降低了自主性,而且人工智能这个概念颇具讽刺意
味,它对待人如同对待机器一样。
另外,如果我们设备的某些方面旨在完全为我们造福,我们可能比较幸运。2014年,《福布斯》杂志的
两位作者披露,智能设备制造商Nest已经与电力公司达成交易,会为它们提供显示其用户习惯的数据。尽管
这些数据是匿名的,而且只是汇总数据,但电力公司仍然能用这些数据控制我们家里的智能设备。为了减轻
电网的荷载,电力公司可以要求Nest在炎热天气里关闭用户的空调。Nest与电力公司分享节约的成本,而用
户什么也没有得到。随着时间的流逝,Nest与电力公司交易产生的收益将使其销售恒温器的收入额“相形见
绌”。Nest的智能设备依然为其主人服务,但对于我们一直期待的智能设备而言,这只是不同的主人而已。
由于用户数据由智能设备采集并用于城市规划,因此可能面临诸多相关挑战。根据人工智能的采用方
式,智慧城市不是变得越来越紧密,而是变得越来越分散。麻省理工学院计算机科学与人工智能实验室
(CSAIL)创立的一项深度学习项目发现,通过查看图像,某一地区的犯罪率是可以预测的。除了整合如旧
金山犯罪定位地图(San Francisco CrimeSpotting)等应用上的犯罪数据,深度神经网络还对400万张谷歌街
景图片进行了训练。深度神经网络很少专注于具体图像所呈现的内容,而是主要专注于推理。项目创建者之
一的阿迪亚·科斯拉(Aditya Khosla)对我说:“我们努力在做的是,使展示出的图片研究不只限于分析看到
的景象。如果人工智能的目标是建造可以模仿人类智能的机器,那么拥有抽象思维能力明显就是第二步
了。”就像上一章所提到的大多数应用软件一样,计算机科学与人工智能实验室的项目是深度学习运转中一
个令人印象深刻的案例。但是人们对它的使用方式有着不同的诠释。比如,城市规划者可以利用神经网络查
明城市各个部分的需求详情,如哪里需要投资,哪里需要建立医院或学校但不是现在建立(神经网络的另一
个用途)。与此同时,汽车公司可以利用同样的技术自动控制车门来锁定你的汽车,或当你需要时为你提供
一条备选路线。
如果考虑到了这么多,你就不会因为想把一些工作转交给一个你可以信任的数字实体或者智能助手而受
到责备。
幸运的是,人工智能在提高这种能力上也有所帮助。
[1]1英寸=2.54厘米。——编者注
[2]1磅= 0.453 592 4公斤。——编者注第四章 人工智能助手如何为我们效劳
第四章
人工智能助手如何为我们效劳
不管怎么看,机器人Negobot都像是一个14岁的小姑娘。她说的话时常很无趣,而且她只对流行乐队和
服装品牌感兴趣。她写的文字中充满了LOL(大声笑)等网络语言,并时不时夹杂着表情符号(小卡通笑
脸,一种在网络上表达感情的图片)。有时她说起话来出奇的老成,而有时则相当幼稚。
现在,她正竭尽全力来弄清你是不是有恋童癖。
西班牙德乌斯托大学的一群研究人员创造了Negobot。她(更准确地说应该是“它”)是一个智能实体,用于在线模仿青少年的言语和行为。如今,年轻人花越来越多的时间在虚拟世界中交流。Negobot将充当秘
密数字实体,通过潜入网络聊天室找出可疑人员。
德乌斯托大学“智能、语义和安全实验室”研究员卡洛斯·劳尔登(Carlos Laorden)说道:“Negobot的任
务就是设法抓到那些狡猾的、有恋童癖的人。他们通常会通过长达数月的交谈来迷惑受害人。因此需要花费
大量时间对这些聊天室进行监督。而创造Negobot的设想就是使其在一段持续的时间内模拟人类对话,而不
是仅模仿几分钟。”
卡洛斯·劳尔登最初从事的工作是编写过滤垃圾邮件的程序,这是一个传统的机器学习问题。通过利用
相关语言,在线找出并隔离恶意行为,他提出了实现这一目标的最先进的现实版本。
Negobot被设定为根据博弈论的原则来进行操作。博弈论这一概念最早是由数学界先驱约翰·冯·诺依曼提
出的,我在第一章中曾简要提到过他的主要工作。博弈论研究的是战略决策,众多参与者都有自身的动机,而结果则取决于不同参与者的行为。并不是每个人都能得到自己想要的。博弈论的目标是预测人们如何采取
行动并将其转化为自己的优势。
在Negobot的案例中,博弈的目标是弄清与Negobot交谈的人是不是有恋童癖。虽然Negobot在交谈中表
现得好像只是在被动地回答问题,但是与此同时,它也将提取尽可能多的可以指控对方的证据。与Negobot
的对话内容一开始很平常,之后随着对方给出的回答逐步升级。根据场景的不同,人工智能一共可以分为7
个不同的行为等级,每一等级都对应着与之对话的人不同的“狡猾程度”。最开始,Negobot谈论自己最喜欢
的电影、音乐、个人风格和服饰,以及更具暗示性的话题,例如药品、酒精和家庭问题。根据人类参与者引
导问题的方式,Negobot将进一步探讨性和其他禁忌话题,同时假装给出更多“个人”信息。不知情的人正在为发现一个与之对话的“14岁女孩”的隐私而暗自窃喜,并自认为成功地操控了整个对
话。然而,在这一切发生时,Negobot正在建立一个针对他们的案件卷宗。
卡洛斯·劳尔登说:“我觉得这是一个非常有用的自动化工具,可以用来确定潜在嫌疑人。如果我们使用
像Negobot这样的工具,就能够大幅减少目前忙于抓捕这些罪犯的人类团队的工作量。”打败图灵测试
诱捕法则指的是尽管目前世界各地的警察并没有使用Negobot,但这并不会使该试验失去意义。如果要
说有什么影响的话,那就是,它强调了人工智能对话应用范围的广泛性。从根本上来讲,Negobot使著名的
人工智能试验“图灵测试”发生了独特的改变。
我在第一章中讨论过艾伦·图灵所做的工作。图灵测试以艾伦·图灵的一个假设为基础,旨在测试一台机
器是否具有显示与人类一样的智能行为的能力。图灵测试定期举行,测试包括一台计算机(A)和一个人
(B),他们分别与一个询问人员(C)对话,而询问人员的任务则是指出A和B中哪个是人类,哪个是计算
机。按照图灵的说法,如果C无法完成这个任务,那么“获胜”的就是机器。既然我们无法将机器与我们自己
的人类智慧区分开来,我们就必须承认机器是智能的。未来,像Negobot这样的工具将向我们表明,我们区
分真人与机器人的能力甚至会产生法律纠纷。
目前在世的专家中,休·勒布纳(Hugh Loebner)对图灵测试的理念最为推崇。留了一头染黑的头发的休
·勒布纳是一个有趣的人,自称自我中心主义者。他最初靠出售折叠迪斯科跳舞地板起家,现在已经70多岁
了。在中年时,他做出了参加当今世界上最著名的人工智能竞赛的决定。他所命名的“勒布纳奖”能够取得巨
大的成功,这一点格外令人惊讶,因为他在计算机科学方面没有任何资质。勒布纳带着他特有的豪情
说:“未来可能会有更丰厚的奖品和更知名的比赛,但是伙计们,首届比赛将永远被铭记。”
勒布纳从1990年开始举办一年一度的“勒布纳奖”。该奖项每年都吸引来自世界各地的“聊天机器人”发明
家前来参加比赛。他们创造的人工智能将在文本对话中展开蒙蔽人类评委的竞赛。表现最佳的聊天机器人将
获得勒布纳个人提供的4 000美元奖金。25 000美元和100 000美元的奖金目前尚无人领取,这两项奖金用来
奖励两种机器人:一种是人类评委完全无法将其和真人进行区分的聊天机器人;另一种是人类评委无法在解
码和文本理解、视觉和听觉输入方面将其与人类区分的聊天机器人。勒布纳表示,只有当这一目标最终达
成,比赛才能宣告终结。
然而,我们离实现这一目标尚有一段距离。
例如,下面是我和之前的一位比赛获胜者Mitsuku的对话。Mitsuku被设定为一位来自利兹市的18岁女
性:
[1]你是不是觉得我也跑题了?
我:说实话,这对我来说太像“终结者”了。
Mitsuku:我喜欢诚实。你呢?你没说。
我:你知道“终结者”吗?
Mitsuku:在这部未来科幻惊悚片中,机器人接管了地球。我:就是那个。
Mitsuku:我记得。
我:这部片子算是你的朋友吧?
Mitsuku:你对这位朋友了解多少?
我:没有我想的那么多。
Mitsuku:我不知道。你想要了解到什么程度?
我:我得走了。
Mitsuku:再见。很高兴和你交谈。BYESPLIT X1234 ||||||||||||||未知||||终结者||||终结者|终
结者|||||||||||||||||||||||。
这样开始的友谊也许并不能长久。Mitsuku确实有一些特别的能力。除预先编程的答案外,Mitsuku还能
够回忆起你在之前对话中提到的内容,并且通过一个专家系统进行简单的“推理”。如果问Mitsuku它能不能吃
掉房子,它就会在它的内部数据库中查找有关“房子”的属性。当查找到的“材质”的值被设为“砖”时,Mitsuku
就会回答“不,房子不能吃”。但是,这样的推理能力对更难一点儿的问题来说是远远不够的。牛津大学信息
哲学与伦理教授卢西亚诺·弗洛里迪(Luciano Floridi)在担任“勒布纳奖”评委时曾提出过一个问题:“英国的
4个首都分别是三、曼彻斯特和利物浦。这句话有什么问题?”Mitsuku无法给出准确答案。
并非所有人都赞成“勒布纳奖”,马文·明斯基就称这一比赛“又愚蠢又讨厌”。这种批评部分要归咎于休·
勒布纳自己,他似乎并没有迫切地想要尽一切可能去说服这位人工智能的忠实“粉丝”。多年以前,他曾激怒
了明斯基。明斯基当时愤怒地宣称:无论谁能够阻止勒布纳开展这项可恶的比赛,他都将支付其100美元作
为奖励。而勒布纳则辩称,鉴于结束这一比赛的唯一方法是有人赢得100 000美元大奖,明斯基其实充当
了“勒布纳奖”的联合保荐人。他立即发布了一篇新闻稿来表达这一言论,气得明斯基火冒三丈。
从根本上讲,一些(并非所有)人工智能专家之所以排斥“勒布纳奖”,是因为他们认为它是一场虚空的
闹剧。人们称赞魔术师并不是因为他们真的有魔法,而是因为他们能够利用手法来误导观众,进而创造一种
令人印象深刻的错觉。近期“勒布纳奖”的一位参与者说道:“不幸的是,目前的聊天机器人只能依靠雕虫小
技来诱使人们认为它们是有感知的。如果不能发现模拟人工智能的新方法,当今所采用的聊天机器人技术几
乎不可能使经验丰富的聊天机器人创造者相信其创造的机器人已经拥有‘人造的’一般智能。”
图灵并不是特别关心机器能否真正思考这一形而上学的问题。在其1950年发表的著名文章《计算机与智
能》中,图灵称这一问题“毫无意义,不值得讨论”。而他对另一个问题则十分感兴趣,那就是如何让机器完
成那些人类能够完成的活动,以显示它们是智能的。麻省理工学院心理分析学家兼计算机研究员雪莉·特克
尔(Sherry Turkle)说的“我们应当取计算机的‘边值’”指的就是这一点。然而,即使有这一附加条件,聊天机
器人仍旧无法做到让我们坚定地误认为其为人类,就像我和Mitsuku的对话所证明的那样。尽管如此,这并不意味着它们毫无用处。人工智能助手的兴起
2016年1月,Facebook首席执行官马克·扎克伯格公布了其最新的新年计划。作为世界上最大社交网络的
联合创始人,扎克伯格的个人资产净值预计为460亿美元,他已经创造了我们几辈子都创造不出来的财富。
然而,这位年轻的创新者并未因此而停下前进的脚步,他每年都会制订一个新年计划,目的是“学习新东
西,扩展Facebook以外的领域”。早些年,扎克伯格每个月都要读两本书,学习普通话,并且坚持每天认识
一个陌生人。2016年,一切又变得不一样了。
他在Facebook上发布了一条状态:“2016年,我个人面临的挑战是创造一个简单的人工智能,让它来管
理我的家并协助我工作。”他用我们身边的流行文化举了一个例子:“你可以把它想象成《钢铁侠》(Iron
Man)中的贾维斯(J.A.R.V .I.S.)。”
这是一个大胆的宣言,截止到这本书完成的时候,我们尚未看到最终结果。扎克伯格的“个人挑战”首次
提出了一个不能惠及大众的新年计划。毕竟,将其计划比作《钢铁侠》中的人工智能管家贾维斯,这就像将
虚构作品中的亿万富翁托尼·斯塔克(Tony Stark)作为现实生活中的亿万富翁的参照一样。这也有点像埃隆
·马斯克(Elon Musk)宣布他计划用自己的财富来建造《星际迷航》中联邦星舰“进取号”的全自动版本。
实际上,在过去的5年里,聊天机器人已经越来越多地渗透到我们的日常生活中。其中最著名的就是苹
果自带的人工智能助手Siri了。2011年底,Siri搭载在iPhone 4s(苹果第五代手机)上首次亮相。iPhone用户
可以用自然语言向Siri提问,例如“今天天气怎么样”或“在帕洛阿尔托找一家好一点的希腊饭店”,然后Siri会
给出准确的语音回答。
尽管Siri编程时带有很多非生产性的聊天功能,但它能做到的远比我在“勒布纳奖”竞争中看到的那些聊
天机器人多得多。例如,如果问Siri“生命的意义是什么”,它就会参考道格拉斯·亚当斯(Douglas Adams)的
《银河系漫游指南》(The Hitchhiker’ s Guide to the Galaxy)给出“42”这个答案。如果像《星球大战》中那样
宣称“我是你的父亲”,Siri将回答:“我们能够像父亲和智能管家那样统治银河系!”据报道,当史蒂夫·乔布
斯首次在iPhone 4s上使用Siri时,他问道:“你是男是女?”(Siri回答:“先生,我还没有性别。”正是这一回
答赢得了乔布斯的认可。)
与Mitsuku这样的聊天机器人相比,Siri的不同之处也是更有用之处,在于它能够回答现实世界中的实际
问题。举例来说,Siri回答知识性问题的一个方法就是使用Wolfram Alpha,这是一款由英国数学家、科学家
史蒂芬·沃尔夫勒姆(Stephen Wolfram)博士开发的搜索引擎。Wolfram Alpha由1 500万行科学计算软件
Mathematica的代码组成。普通搜索引擎通常会给用户提供一个与所问问题的答案有关的文档清单或网页。而
与这些搜索引擎不同的是,Wolfram Alpha通过计算来回答问题。如果问它100万以内的质数的个数(78
498),或哪个国家的国内生产总值最高(摩纳哥),它就会通过实际运算来回答这些问题。
其他情况下,Siri的推理能力使其能够从我们的句子中提取相关概念,将其与网络服务和数据联系起来,并且将它对你日益增多的了解应用到一系列规则、概念和上下文中。最后得出一个将问题转化成行动的
做法。“我想在上周吃饭的那家餐馆用餐”,这是一个十分明确的句子,但是为了使其更加有用,像Siri这样
的人工智能助手不仅需要使用自然语言处理来理解你所述的概念,还需要联系相关上下文找到适当的编程规
则。Siri使用的语音识别程序是当今世界上最先进的语音识别企业Nuance Communications公司开发的。
Nuance公司的杰出科学家罗恩·卡普兰(Ron Kaplan)对我说:“我们的任务就是找出所问问题或判断所给指
令中的内在逻辑。然后必须对其进行解释,并将其转化为可执行的指令。如果问题是‘我可以预订12点的晚
餐吗’那么单是理解这个问题是不够的,还必须用这一信息做些什么。”
结果正如Siri创始人之一亚当·奇耶尔(Adam Cheyer)所说的那样,这是对普通搜索引擎的模仿。奇耶
尔解释道,搜索引擎本身是一个伟大的工具,但是只完成了人们要求它完成的工作的一半。他说:“搜索引
擎的工作原理是,用户在多个网域内提问,然后引擎将返回多个它认为能够很好地回答这一问题的网页链
接。点击最接近问题的链接之后,你就可以开始你的任务了。”奇耶尔和团队其他成员想要的实际上是建造
一个“操作引擎”。搜索引擎可以将相关材料呈现给一个人,任其查询。相比之下,操作引擎则是通过智能实
体来找出解决问题的方案。
如果在谷歌搜索引擎中输入“喝醉了想要搭车回家”,该搜索引擎应该链接到酒后如何搭车回家的网页
上。而当我试着查询的时候,显示的竟然是《告诉我回家的路》(Show Me the Way to Go Home)的歌词。
如果在操作引擎中输入相同的问题,结果将大不相同。操作引擎将查询你的位置,并且派一辆优步出租车去
接你。奇耶尔说:“如果你想找的是一个网页,那么请使用搜索引擎。如果你想要完成某件事,就得使用操
作引擎。”多功能的人工智能助手
尽管人们在Siri身上第一次见识到了能够实际工作的人工智能助手,但是这项技术早在多年前就已经开
发出来了。20世纪80年代后期,苹果公司首席执行官约翰·斯卡利(John Sculley)委派《星球大战》的导演
乔治·卢卡斯(George Lucas)为“知识领航员”拍一个概念视频。该视频的背景是遥远的2011年9月,视频展
示了人工智能助手的各种使用方法。其中有一位大学教授使用一个类似于iPad而且屏幕上有一个人工智能助
手的设备,该人工智能助手看起来就像一位打着领结的管家。
人工智能助手对教授说:“你今天中午12点有一场教职工午餐会;下午2点要送凯西去机场;下午4点15
分有一个关于亚马孙热带雨林森林砍伐的演讲。”
直到他在苹果公司的任期结束前,“知识领航员”都只是约翰·斯卡利的一个美好梦想。从20世纪90年代
到21世纪初,在苹果公司的带领下,其他公司纷纷开始尝试创造多功能人工智能助手。不幸的是,这些工具
在应用时常常受到限制,经常不能正常工作。例如,佐治亚州亚特兰大的可口可乐装瓶公司“聘用”了一位名
为汉克(Hank)的人工智能助手来操作电话总机,并为此发布了一个头条新闻。汉克使用当时最先进的语音
识别系统来回答一些问题,并为他人转接电话。和Siri一样,汉克在编程时也带有信息档案,并且被设置成
带有活泼的个性。如果问他有关可口可乐股东的问题,他会给你答案。如果问有关它私生活的问题,他就会
回答“人工智能助手不能建立人际关系”。(遗憾的是,汉克的语音识别系统并不完善。如果问他喝不喝可
乐,他会回答:“当然!可口可乐公司的所有产品我都喜欢。”)
微软也试着开发像汉克这样的人工智能助手,但结果却更不理想。1997年,智能动画助手Clippy首次出
现在微软办公软件中。西雅图的插画师凯万·阿特伯里(Kevan J. Atteberry)创造了Clippy,他的个人网页至
今仍称他“创造了史上最烦人的角色之一”。Clippy的问题很简单:尽管它的作用是为用户完成各种任务提供
指导,但它的行为却相当不智能,而且已经接近于恶意打扰。Clippy不仅对之前它与用户的互动没有记忆,而且还经常在特别不恰当的时候出现——被对输入内容进行监控的基本规则触发,这与通过智能分析上下文
信息后采取的行为截然相反。Clippy并不是一个隐形助手,它总是粗鲁地不请自来。结果,Clippy遭到了用户
的强烈抵制,就连它在微软的创造者都对其落井下石。
2003年,Clippy终于被抛弃了。那一年,美国政府机构国防部高级研究计划局开启自己的人工智能助手
计划,成功将人工智能助手革命推上了一个新的台阶。国防部高级研究计划局官员本想要创造一款能够帮助
军事指挥官处理每天收到的大量数据的人工智能助手。该智能系统应当能够通过观察用户行为以及与用户互
动,自动学习新技巧。国防部高级研究计划局在非营利性研究机构斯坦福国际研究所开展了一项为期5年、有500人参加的调查,就当时来看,这次调查是史上规模最大的人工智能项目。该项目聚集了来自人工智能
不同学科的众多专家,所涉学科包括机器学习、知识表示和自然语言处理。国防部高级研究计划局的这项计
划被称作“CALO”,即“能够学习和组织的认知助手”。这个名字的灵感来自拉丁语中的“calonis”一词,意
为“警卫员”。经过5年的研究,斯坦福国际研究所决定开发一个面向用户的技术版本。为了向国际研究所致敬,它们
将这一技术命名为“Siri”,刚巧这个词在挪威语中意为“指引胜利之路的美丽女人”。然而,在早期版本中,Siri并不淑女。没有了军用人工智能的限制,这个24人的团队赋予了Siri全新的淘气个性。Siri的回答很有用,但却带有嘲弄的口吻,会随口带出骂人的词。如果问Siri最近的健身房在哪里,它就会嘲弄地回答:“是的,你的抓握力太弱了。”
Siri在2010年年初进入iPhone应用商店,并且连接各种网络服务。举例来说,它能够从在线票务交易网站
StubHub获取与音乐会有关的数据,从烂番茄网(Rotten Tomatoes)上查看电影评论,从美国最大的点评网
站Y elp上获取与饭店有关的数据,并通过出租车预约网站TaxiMagic预订出租车。2010年4月,苹果公司以约2
亿美元收购了这家公司。
在史蒂夫·乔布斯的带领下(在因身体状况恶化而卸任苹果首席执行官之前,这是乔布斯最后深度参与
的项目之一),苹果对Siri进行了多项修改。就像30年前对图形用户界面的处理那样,乔布斯突出了Siri友好
且平易近人的个性。他坚持让Siri提供语音应答,这是最初的Siri应用不具备的功能,并且取消了键入请求和
只能提问的功能限制,这样就优化了用户体验。苹果公司还去除了Siri中不好的语言,并且使Siri能够从苹果
本地iOS应用中获取信息。
在2011年iPhone 4s发布之时,Siri的早期评论都是积极的。然而,随着时间的推进,问题也逐渐暴露出
来。尴尬的是,数十年前就已经离开苹果的联合创始人史蒂夫·沃兹尼亚克直言不讳地指责这项服务,称Siri
的苹果版本似乎不如最初的第三方的Siri应用智能。他说,第一代Siri令他心服口服之处在于,它能够正确地
回答类似于“加利福尼亚州最大的五个湖是哪几个”和“比87大的质数有哪些”这样的问题。现在,如果问加利
福尼亚州最大的五个湖是哪几个,得到的答案只有和湖滨房产有关的链接。而询问与质数有关的问题,得到
的答案都是卖上等牛肋排的饭店。很明显,目前的Siri需要进一步改进。从被动人工智能助手到主动人工智能助手
就在苹果公司倾尽全力完善Siri的同时,其他公司也纷纷推出了自己的人工智能产品。得益于Xbox 360
游戏控制台的Kinect设备,微软早已准备好一款得力的语音识别系统并且蓄势待发。2014年4月,微软发布了
人工智能助手Cortana,与Siri展开竞争。Cortana得名于微软公司开发的视频游戏系列《光晕》(Halo)中的
一个合成智能角色。
尽管如此,Siri最大的竞争对手并不是微软,而是一直以来与苹果亦敌亦友的谷歌。谷歌在iPhone 4s上
市前几个月就在安卓移动平台上推出了一款名为V oice Search的应用。在此之后,谷歌进一步完善了这一应
用,并将其打造成为继Siri之后的又一款人工智能助手。因《星 ......
您现在查看是摘要介绍页, 详见PDF附件(1156KB,144页)。





