人工智能学家
科技导报
战略前沿技术整理
作者:万赟,美国休斯敦大学维多利亚分校
人工智能诞生
年英美合作的电影《模仿游戏》讲述了英国数学家艾伦·图灵60年前在二战期间帮助设计电子计算机破译纳粹德国军事密码的真实故事。不过影片的名字与图灵在电影中的事迹并没有直接关系,而是来自当时英国流行的游戏。游戏中一男一女分别躲在幕后,参加游戏的人向他们两个人不断提问题,他们通过无法识别笔迹的笔答方式来回答,提问题的人根据回答来判断这两个人的性别。年图灵在《计算机与智能》[1]一文中借用这个游戏做为判断计算机是否具有人类智能的标准,也就是把一个人和一台计算机放在幕后,让测试人员通过提问来判断哪一个是计算机,如果判断错误的话,就认为计算机通过了图灵测试,具有人的智能。后来人工智能学者将图灵这篇论文中描述的计算机称为图灵机,这一测试方式称为图灵测试(注:图灵本人曾经预测随着足够多内存的出现,50年内(也就是到年)计算机能够达到图灵机的标准)。40年后的年英国剑桥大学为了推动图灵机的实现设立了总额为10万美元的图灵测试比赛(TheLeobnerPrize),每年举办一次,直到有人能够设计出达到标准的图灵机为止,结果16年后的今天比赛仍在继续。尽管如此,图灵测试为人工智能领域的发展竖立起一个目标。随着几代人工智能学者的不断研究,逐渐认识到人脑的高度复杂性和计算机的局限性。这些发现帮助我们不断把人工智能技术应用到生产和生活的诸多方面。
第二次世界大战期间,英国军方需要尽快破译纳粹德国军事密码,图灵参与并主导了英国电子计算机的研制。同时期美国科学家也投入到计算机的研制工作。战后电子计算机开始从纯军事领域转向民用,很多具有不同学术背景的专家聚拢到计算机的应用领域,其中不乏青年才俊。年夏天,一批学者聚集在达特茅斯学院召开了一次关于人工智能的研讨会,该会议成为人工智能领域正式创立的标志。会议的召集人是达特茅斯学院的数学系助理教授麦卡锡(JohnMcCarthy),参与人包括明斯基(MarvinMinsky),西蒙(HerbertSimon)以及西蒙的合作伙伴纽厄尔(AllenNewell)。由于不同的学术背景和对智能以及实现智能的不同看法,人工智能从一开始就形成两类不同的流派和方法。
第一类是以西蒙和纽厄尔代表的理性学派。这一学派认为人脑与计算机可以看成信息处理器。计算机的智能和人脑的智能主要表现在对抽象化问题的解决上。任何能够以一定的逻辑规则描述的问题都可以通过人工智能程序来计算解决,尤其是对人脑来说过于复杂的逻辑问题。西蒙有一段时间专门研究公司里人们的行为决策,他发现由于认知能力的限制,人在做决策时并不像经济学里的理性人描述地那样,能够总是去寻求最优解,大多数情况下是寻找能够满足最低要求的解决方案。他将这一现象称为“满意解(satisficing)”,用来区别对理性人所假设的“最优解(optimizing)”。他认为这一现象产生的原因是人理性的有限性或者说是有边界的理性(boundedrationality)。在这一观念的影响下,他认为计算机带来的人工智能可以大大延伸人类理性。按照这一思路,西蒙和纽厄尔在人工智能领域取得了不少成果。年他们设计的逻辑机程序成功证明了罗素和怀特海所著的《数学原理》一书提出的52个定理中的38个,其中不少证明比原书中的更加精彩。根据对逻辑机的研究,年他们又设(generalproblemsolver),希望以此来解决任何可以形式化的符号问题(定理证明、几何问题及国际象棋对抗等)。
西蒙所代表的理性流派虽然在机器定理证明和简单逻辑问题解决(比如汉诺塔问题)上取得了显著的成就,但一旦面对复杂的问题,有限的计算机内存空间很快就因为探索问题解决空间时考虑不同路径带来的组合爆炸而无法进行下去。由于同样的原因,很多人工智能专家认为计算机程序虽然可以击败人类国际象棋冠军,但可能永远无法击败人类围棋冠军,因为后者的探索空间太大(图1)。
图1无论是国际象棋还是围棋,目前都是通过对树结构空间的广度b(每一步可能的下法)与深度d(总回合)搜索相结合进行判断(bd),国际象棋的搜索维度(广度35;深度80)远远少于围棋(广度;深度)
与西蒙他们的理性学派在方法上形成对比的是感性学派。感性学派简单说就是通过对脑神经的模拟来获得人工智能。
人脑神经元一般由细胞体、树突和轴突组成。树突用来接收其他神经元传递过来的信息,轴突及其顶端的突触则用来传递信息给其他神经元。年加拿大神经心理学家赫布提出理论,解释了人脑在学习过程中脑神经元发生的变化。赫布理论认为如果一个神经元持续激活另一个神经元,这种持续重复的刺激可以导致突触传递效能的增加。具体表现为前者的轴突将会生长出突触小体(如果已有,则会继续长大),并和后者的胞体相连接,形成记忆痕迹。当时正在哈佛读本科的明斯基受到启发,产生了制作一个电子模拟神经网络实现人工智能的想法。年在美国心理学大师米勒的帮助下,明斯基和帕尔特(SeymourPapert)获得了美国海军经费资助设计出世界上第1台用来对迷宫求解的电子神经网络(SNARC),包含40个电子神经和若干内存。每一个电子神经元由6个真空管和一个马达组成,整个设备使用了多个真空管(图2)。这一贡献使明斯基被认为是人工神经网络的先驱。
图2SNARC使用的真空管是当时电子计算机的基本原件,每一个真空管通过开和关两种状态代表一个比特的信息
最早把神经网络原理成功应用到图像识别的是康奈尔大学的心理学教授罗森布拉特。他和明斯基都毕业于纽约布朗克斯科学高中,而且是后者的学长。年他利用神经网络原理成功制做了电子感知机(Perceptron,图3),该设备因为能够读入并识别简单的字母和图像而在当时引起轰动,使得很多专家预测在几年后计算机将具备思考功能。
图3年,罗森布拉特根据赫布原理用IBM完成了感知机的仿真。后来用马克1号制作了上面这台基于感知机的神经计算机,成功实现了一些英文字母的识别。年6月23日该神经计算机进行了公众展示,该计算机与一个能够摄取个像素(20x20)的感光板相连
明斯基和罗森布拉特设计的人工神经网络以及后来人工智能专家在计算机上虚拟生成的更复杂的人工神经网络,都是通过模拟人脑神经细胞的记忆结构来实现的。由于神经网路链接的权重分布需要根据输入的信息不断调整,但是调整过程对外界来说是一个黑盒子,所以在设计不同的人工神经网络时,除了遵循一些基本原则外,更多需要通过经验和直觉来进行,据此有人称人工神经网络的设计为一门“艺术”而非“科学”,与西蒙等所倡导的理性学派形成了显著区别。
难以逾越的局限
20世纪50年代人工智能的诞生和流行除了与电子计算机的问世有直接联系外,也与当时美苏冷战有很大关联。年美苏冷战期间美国军方希望计算机产生的人工智能能够自动翻译俄语情报和资料,所以对在这一领域的突破赋予很高的期望,投入了大量的财力和人力。除了海军和空军,20世纪60年代初期互联网先驱立克里德在美国国防部高级计划署任职期间,每年资助麻省理工(明斯基)、卡梅(西蒙和纽厄尔)和斯坦福(麦卡锡)数百万美元的经费从事计算机以及人工智能方面的研究。
而人工智能的研发在经历了前面描述的这些突破后很快就变得停滞不前,最主要的原因是计算机内存和运算速度的限制。比如20世纪60年代末SDC公司奎利恩(RossQuillian)等设计的颇为成功的自然语言翻译程序所使用的计算机内存最多只能同时导入20个单词。年,从事机器人研究的人工智能专家莫拉维克(HansMoravec)估计仅仅让计算机具备人的视网膜识别物体的边界和探测移动的功能就需要至少10亿次/s的运算能力,但当时最快的超级计算机的运算速度也仅有万~10万次/s。
除了计算能力的限制外,绝大多数人工智能应用,比如图像和声音的识别,需要通过大量的学习才能达到一定的准确率。20世纪60年代数据库本身还处于发展阶段,根本没有积累如此多的数据,这与40年后深度学习出现时互联网上已经存在了海量信息所提供的学习环境是无法比拟的。于是从年美国政府组织的自动语言处理调查委员会给出ALPAC报告后[2],人工智能开始遇冷。年英国政府发布了剑桥大学教授莱特希尔的人工智能调查报告[3],给第一轮人工智能的发展正式划上了句号。
专家与超算
第一代人工智能系统的兴起与衰落让人们对人工智能系统有了更丰富的认识。20世纪80年代出现的专家系统是人工智能第2阶段发展过程中最有代表性的例子。
西蒙和纽厄尔在设计人工智能系统时注重系统的特定形式和推理机制,但是这类系统往往无法解决纯逻辑推理外的具体生产领域问题,这是因为它们缺少这些领域的具体知识。于是20世纪80年代的人工智能领域开始把研究的重点放在为不同的系统提供它们所在领域的专业知识上,试图通过专业知识与推理机制相结合来达到专家水平。西蒙的学生,被称为专家系统之父的费根鲍姆将其总结为智能系统的强大来自于它们所掌握的知识而不是具体的规则和理论。
最早获得商业成功的专家系统是卡梅大学为DEC开发的用户订单配置系统。20世纪70年代诞生于麻省理工林肯实验室的DEC公司相当于20世纪90年代的戴尔,它是最早利用半导体和集成线路技术把大型机体积变小,价格变低,从而让学校和小公司也可以使用计算机的创新公司。因为在它之前的很多计算机公司已倒闭,为了不吓走风投资本,它的商业模式采取了提供计算机配件,让用户可以自由组装的方式,因此受到大学和研究机构用户的青睐。随着订单的不断增加,DEC开始面临一个问题:销售人员经常搞错用户选购计算机时需要的各种配件(当时都是以人工方式生成),造成了运营成本的增加。于是卡梅大学帮助DEC开发了XCON(订单专家)系统。年,DEC开始使用该系统后通过与销售人员互动积累了0多条配置规则,运行6年共处理了8万多笔订单,准确率高达95%~98%,为DEC公司节省了0多万美元的成本。
20世纪80年代,摩尔定律带来的内存容量和CPU运算速度的指数增长、关系数据库技术的成熟、个人计算机和局域网技术的普及等因素也是促成专家系统全面开花的重要前提。因为计算机成本的不断下降,企业不同部门开始各自的局域网内搭建需要的专家系统,在客观上造成了对这些系统的需求。这些利好因素再加上像早期XCON这类系统的成功,使得人工智能领域通过专家系统进入第2次高速发展阶段。
专家系统的成功再次引发了学术泡沫。不少人认为专家系统可以很快应用到软件开发上,实现软件开发的自动化。面对这次学术大跃进,也有不少头脑冷静者。年北卡罗来纳大学教堂山分校计算机系主任布鲁克斯发表了一篇后来成为计算机学术历史上经典的论文“没有银弹”[4]。在这篇论文里布鲁克斯质疑了已经膨胀多年的关于自动编程可以很快实现的学术泡沫。后来他在《人月神话》一书中结合当年开发IBM操作系统的经历,进一步阐述了大型软件工程的复杂性(图4)。
图4布鲁克斯的名著《人月神话》,封面用深陷沥青湖无法脱身的3只野兽来比喻大型软件开发过程的复杂性
布鲁克斯在20世纪60年代曾经担任IBM大型机操作系统的开发负责人,对大型软件工程的复杂性有着切身体会。他以一个孕妇需要10个月才能生出一个孩子,但是10个孕妇加在一起也不可能在一个月生出一个孩子来比喻软件开发的不可避免的复杂性。他认为当时没有任何技术或者管理方式能够让编程效率在10年内增长10倍,事实也的确如此。布鲁克斯发表这篇论文直接或间接导致了人工智能的第2次低潮。因为这时专家系统没能再有大的突破。
专家系统在20世纪80年代的瓶颈除了计算机软硬件本身的限制外,还有其他因素。比如每个公司和研究团队研发的专家系统都是自成体系的封闭系统,没有开源软件和公开的数据标准来共享数据和策略,所以任何2个专家系统之间无法相互协作。另外尽管大家认识到专家系统中知识的重要性,但是知识体系的复杂性远远超过预期。直到20世纪90年代,学术界和产业界才通过系统地分析人类知识结构,发现其庞大性以及知识本身的显性和隐性之分[5]。20世纪90年代后期曾经有不少人工智能学者试图把人类的全部知识通过共享的方式构建到一个数据库里,但是就像受到诅咒的巴别塔一样,这一领域最有希望的两位学者先后英年早逝[6]。
专家系统可以看做是理性流派的进一步发展。神经网络做为感性流派在这一时期虽然没有专家系统那样成功,也取得了一些进步。比如神经网络的架构从以前的输入层加输出层的单层结构转变为添加了中间的隐层。这一变化使得神经网络可以解决更加复杂的分类问题。
层数的增加为各个层的神经节点连接的权重选取带来新的困难。反向传播算法(backpropagation)的出现在一定程度上解决了权重选取问题。另外计算机运算能力的提高使得多层神经网络的计算成为可能,在此基础上分支联结主义(connectionism)开始流行。通过分布式计算为多层神经网络提供架构支持成为新的发展方向。
与感性流派的神经网络相关的新人工智能(NouvelleAI)思想也在这一时期出现。持新人工智能观点的学者认为,人工智能在过去30多年时间里把人类智慧狭义地理解为基于符号处理的智能模型是错误的,因为人类独有的很多智慧是无意识的技能和直觉,并不需要推理。该领域的主要学者莫拉维克(HansMoravec)举例说:要让计算机如成人般地下棋是相对容易的,但是要让计算机有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的[7]。这一观点不仅认为模拟人脑是研究人工智能的基础,还进一步认为人工智能的培育和发展需要通过不断感知外界环境,根据环境做出反应来循序渐进地进行。这一过程中需要的并不是大量的推理,而是对外界信息的大量获取和快速处理。
还需要提及的是专家系统及人工神经网络维度的深化推动了超级计算技术的发展。从这一领域衍生出的计算机集群技术成为20世纪90年代信息领域高科技公司的计算平台,而这些平台又成为新一代人工智能技术的硬件基础。当然人工智能的再度发展还需要一个重要的因素,这一因素到了20世纪90年代才出现,这就是万维网。
网络人工智能
互联网的前身阿帕网起源于美苏冷战。20世纪80年代阿帕网已经通过大学和研究所等机构渗透到民间。年欧洲量子物理实验中心工作的伯纳斯李向实验中心正式提交了一份后来被称为“万维网蓝图”的报告[8]。这份报告提出了万维网框架的运行机制和实施方案。年11月,他在NeXT工作站上制作了第一个万维网浏览器和第一个网络服务器,随后编写了执行万维网项目细节的网页,至此世界上第1个万维网站诞生。
年1月美国伊利诺大学为浏览万维网网站开发的UNIX版本马赛克浏览器被放到该大学计算中心的免费FTP服务器上,不到两个月的时间就被下载了上万次。年12月《纽约时报》商业版头版介绍了马赛克,称其将创造一个全新的产业。马赛克的流行使得覆盖互联网的万维网成为新的连接世界的平台,也引发了以硅谷为中心的电子商务革命。年1月马赛克刚出现时,全世界只有50个万维网服务器,10月份达到个,年6月份增加到0个,万维网开始以指数增长。
在万维网流行了3年后的年,斯坦福2个研究生发现用解n元一次方程组的办法,可以把万维网的所有网页按照重要性进行排名,从而解决了网络用户面对以指数增长的网页信息进行有效搜索的难题,他们后来成立了谷歌公司[9]。差不多在相同的时间,刚上线一年多的亚马逊与明尼苏达大学的几位计算机专家合作,开始分析每个用户在其网站上购买的商品,并与其他用户的购买商品进行比较和关联,用得到的结果来个性化对网站浏览用户的商品推荐[10]。
谷歌的佩奇排名(PageRank)和亚马逊的协同过滤(collaborativefiltering)推荐系统的共同特点是它们都通过使用简单的数学原理来处理海量数据达到目的。这种看似简单的指导思想解决了很多专家聚集在一起都很难解决的问题。这就是互联网时代超大规模并行计算所带来的网络人工智能的共同特点。
不同的是,网络人工智能不再使用昂贵的超级计算机,而是用大量联结在一起的廉价服务器甚至是个人计算机来取得相同甚至更好的效果。在知识来源上,网络人工智能往往依靠成千上万的大众点滴贡献(crowdsourcing)而不是专家智慧。比如谷歌在计算网页的排名时使用的是不同网页之间的超文本链接信息,而这些链接是用户在创建网页时提供的。亚马逊的数据来源则是每个用户购买的商品信息。这些在个人看来再简单不过的信息被整合到一起进行处理后发挥出巨大的潜力,也使得数据挖掘成为网络人工智能的流行用语和代名词。
网络人工智能给人类社会带来的不仅是日常生活的方便,它们在很大程度上开始从各个方面影响社会发展进程。谷歌的搜索结果可以决定一个人的言论被