人工智能新时代:核心技术与行业赋能
上QQ阅读APP看书,第一时间看更新

1.2 人工智能的三起两落

人工智能在发展过程中已经经历了三次高潮、两次低谷。也就是说,人工智能的“泡沫”已经破灭了两次。下面回顾一下人工智能“三起两落”的坎坷发展史,以便从中积累经验,窥探人工智能的未来发展趋势。

1.2.1 第一次起落分析

1956—1974年是人工智能的第一次起落期。在1956年人工智能学科诞生后,赫伯特·西蒙乐观地预测20年内会诞生完全智能的机器。虽然这个目标最终没有达成,但在当时掀起了人工智能研究热潮。

1963年,美国高级研究计划局投入了200万美元支持麻省理工学院、卡内基梅隆大学的人工智能研究组进行人工智能相关研究工作,启动了MAC(Mathematics and Computation,数学与计算)项目。这个项目是麻省理工学院计算机科学与人工智能实验室的前身,早期的计算机科学与人工智能人才都来源于此,这个项目也取得了一些实验成果。

1964—1966年,约瑟夫·维森班开发了第一个自然语言对话程序——ELIZA。这个程序能够通过简单的模式匹配和对话规则进行任何主题的英文对话。

1967—1972年,日本早稻田大学研制出第一个人形机器人Wabot-1。它可以与人类进行简单的对话,还可以在室内走动和抓取物体。1980年更新的第二版Wabot-2,还增加了阅读乐谱和演奏电子琴的功能。

由于计算能力有限,加之科学家最初的预测过于乐观,导致人们在人工智能方面取得的成果和期望有巨大的落差。20世纪70年代,公众对人工智能研究的热情开始减退,一些组织和机构开始削减对人工智能的投资。20世纪70年代中期,人工智能的发展进入第一次低谷期。

1.2.2 第二次起落分析

1980—1987年是人工智能的第二次起落期。专家系统和人工神经网络的兴起,让人工智能迎来了第二次发展浪潮。

1980年,卡内基梅隆大学研发了一套基于规则开发的专家系统——XCON程序,帮助迪吉多公司的客户自动选择计算机组件,为该公司节约了大量成本。在巨大的商业价值的刺激下,工业领域也掀起研究人工智能的热潮。1982年,日本通商产业省启动了“第五代计算机”计划,目标是利用大规模的并行计算来建设通用人工智能平台。10年间这个项目花费了500亿日元,但还是未能达到预期目标。

专家系统的出现让一些较为简单的问题有了解决方案,如人脸识别、手写识别等。即使是当时最困难的问题—大词表连续语音识别,在实验室中也有“基本可用”的解决方案。但在跨越“基本可用”到“实用”之间的鸿沟方面,十几年都没有实现进一步突破,于是大家对人工智能的发展又转向悲观。

1984年,在AAAI会议上,罗杰·单克和马文·明斯基提出“AI寒冬”即将到来。与此同时,各机构和组织对人工智能的投资减少,人工智能进入了第二次衰落期。

1.2.3 第三次兴起分析

在人工智能进入第二次衰落期之前,深度学习的前身——人工神经网络取得了重大进展。1986年,戴维·鲁梅哈特、杰弗里·辛顿等人推广了保罗·韦尔博斯发明的反向传播算法,使得大规模神经网络训练成为可能。反向传播算法使神经网络隐藏层可以学习数据输入的有效表达,这是神经网络乃至深度学习的核心思想。

虽然当时受制于计算机性能,人工智能未实现工业级应用,但人工神经网络的发展为人工智能的第三次兴起和爆发奠定了基础。

2006年以前,由于反向传播算法存在一些缺陷,如收敛速度慢、容易陷入局部最优解、梯度消失等,它无法训练层数太深的神经网络。这让当时关于深度神经网络的很多研究都以失败告终,而人工神经网络也只有一层或两层的隐藏层。

直到2006年,杰弗里·辛顿等人提出深度信念网,对如何有效训练具有相当深度的人工神经网络给出了答案,引发了人工神经网络新一轮的发展热潮。随后,深度信念网又被辛顿等人命名为“深度学习”。

深度学习是人工神经网络的一个分支,但它与浅层神经网络有较大的区别,它的特点主要有以下几个。

(1)深度学习是层数较多的大规模神经网络,能实现非常复杂的非线性多分类映射关系,体现出一定的智能性。

(2)深度学习对原始数据集中蕴含的样本特性进行逐层抽样,不断发现高层的特征,减少特征的维数,从而在“神经元”的基础上实现复杂的系统功能。

(3)深度学习的神经网络规模大,神经元数量多,只有具备大规模并行计算条件的软硬件,才能支撑起深度学习的神经网络。

(4)深度学习网络是一个非常复杂的非线性系统,要降低结构风险,就必须使用大量样本进行训练,确保训练集上的经验风险足够小。

可见,深度学习的发展需要建立在强大算力、海量数据的基础上,这也解释了为什么近10年关于深度学习的研究才开始出成果。

目前,深度学习的理论研究还处于起步阶段,但在应用方面已显现出巨大价值。从2011年开始,微软研究院和谷歌(Google)研究深度学习在语音识别领域的应用,最终使语音识别错误率降低了20%~30%,语音识别领域的研究有了突破性进展。2012年,深度学习在图像识别领域取得惊人的成果,错误率从26%降到15%。

深度神经网络的结构越来越复杂,业界从网络深度和网络结构两方面不断对其进行探索,以提高其性能。例如,2014年,谷歌提出Inception网络结构;2015年,微软提出残差网络结构;2016年,黄高等人提出密集连接网络结构。随着神经网络层数不断增加,其学习效果越来越好。2015年,微软提出的ResNet凭借152层的网络深度在图像分类的准确率上首次超过人眼。

为了丰富深度神经网络节点功能,业界探索并提出了新型神经网络节点。2017年,辛顿提出“胶囊网络”概念,将胶囊作为网络节点,克服了卷积神经网络没有空间分层和推理能力等局限。2018年,DeepMind、谷歌大脑、麻省理工学院联合提出“图网络”概念,赋予深度学习因果推理能力。

深度神经网络模型大、运算量大,难以部署到手机、摄像头、可穿戴设备等终端类设备上。为了解决这个问题,目前业界采用模型压缩技术对已训练好的模型做修剪和设计更精细的模型。为了降低深度学习算法建模及调参过程的门槛,业界提出了自动化机器学习技术,实现了深度神经网络的自动化设计。

深度学习与强化学习的融合催生了深度强化学习技术,该项技术融合了深度学习的感知能力和强化学习的决策能力,克服了强化学习只适用于低维状态的缺陷,可以直接从高维原始数据学习控制策略。

为了减少训练深度神经网络模型需要的数据量,业界还引入了迁移学习的理论,从而催生了深度迁移学习技术。所谓迁移学习,指的是利用数据、任务或模型间的相似性,将旧领域的模型应用于新领域的一种学习过程,以实现用少量的数据达到最好的学习效果。

目前,我国在深度学习领域缺乏重大原创性研究成果,基础理论研究不足。例如,胶囊网络、图网络等概念都是由美国专家提出,深度强化学习方面最新的研究成果也都是由DeepMind和OpenAI等外国公司的研究人员提出。因此,我国要加强深度强化学习等前沿技术的研究,提出更多原创性成果,增强在全球人工智能领域的学术研究影响力。