2024 年诺贝尔物理学奖“使用人工神经网络进行机器学习”是什么?
2024 年诺贝尔物理学奖“利用人工神经网络进行机器学习”是什么?

2024/12/04
2024 年诺贝尔物理学奖“使用人工神经网络进行机器学习”
?
-当前人工智能基础技术-
用科学的眼光来看,
社会关注的真正原因
什么是使用人工神经网络的机器学习?
使用人工神经网络 (ANN) 的机器学习是“ChatGPT”等当前人工智能 (AI) 的基础技术。神经网络可以翻译成日语“神经网络”,指的是人脑的基本结构,是许多神经细胞(神经元)复杂的互连结构。受这种机制的启发,最新的人工智能中使用了使用大量数据训练大规模人工神经网络的技术。今年该奖项的两位获奖者因其基础性成就而受到高度赞扬,包括通过将 ANN 与 20 世纪 80 年代的统计物理学联系起来扩大了物理学的范围,以及利用他们的物理学知识提出了一种新的 ANN。此后,人工神经网络发展成为一种被称为“深度学习”的技术,现在被应用于科技领域,例如荣获今年诺贝尔化学奖的“蛋白质设计和三维结构预测”。它是作为通用型智力生产技术应用于工业和社会各个领域,对我们的生活产生巨大影响的技术。
2024 年诺贝尔物理学奖授予约翰·霍普菲尔德(美国普林斯顿大学名誉教授)和杰弗里·辛顿(加拿大多伦多大学名誉教授)。理论物理学家霍普菲尔德先生设计了一种以他的名字命名的新人工神经网络。 Hinton 开发了这一技术,并开创了导致当今生成式人工智能的研究。这两项成果拓展了物理学的范围,并且是导致人工智能的研究,目前人工智能正在应用于各个领域,并对社会产生重大影响。我们向自 20 世纪 80 年代以来一直从事人工智能和机器学习研究的人工智能研究中心机器学习研究组客座研究员麻生秀树询问了该奖项的意义以及对他的研究将产生的影响。
实现联想记忆的“Hopfield Network”
许多研究人员对诺贝尔物理学奖被授予与人工智能基础技术相关的信息技术领域的研究感到惊讶,但可以肯定的是,与物理的相互作用在人工神经网络(ANN)及其高级形式深度学习的进步中发挥了作用。霍普菲尔德先生的工作可以说是一个很好的例子。
ANN研究历史悠久; 1943 年,Warren McCulloch 和 Walter Pitts 发表了一个简化神经元行为的数学模型,并表明可以使用由少量连接模型组成的网络来计算逻辑函数。单个神经元接收来自其他神经元的信号,进行简单的处理并将其输出,但通过改变神经元的连接方式,可以执行各种类型的信息处理。 1958 年,弗兰克·罗森普拉特 (Frank Rosenplatt) 提出了感知器 (Perceptron),这是一种具有学习能力的用于模式识别的 ANN。当一个神经元接收到来自其他神经元的信号时,它会分配权重来确定应该优先考虑哪个神经元的信号。学习机制会自动更改连接权重,以便网络的输出与正确答案相匹配。然而,到了 20 世纪 70 年代,人们发现学习能力有限,人们普遍感到失望,人工神经网络的研究陷入停滞,尤其是在美国。
20世纪80年代,霍普菲尔德先生改变了这一局面。他于 1982 年宣布的“Hopfield Network”表明“联想记忆”可以使用人工神经网络来实现。当不完整的数据输入到存储了多种数据模式的Hopfield网络并且网络交换信号时,将恢复存储的最接近的一种模式。之所以被称为“联想记忆”,是因为它类似于人类通过将记忆中不确定的部分进行一系列联想来回忆整个事件的方式。
利用 Hopfield 网络实现“联想记忆”的机制示意图
物理研究与人工神经网络研究的交流与发展
实现联想记忆的人工神经网络的研究始于20世纪70年代,日本中野薰、甘利俊一等人发表了论文。针对这些先前的研究,霍普菲尔德先生将统计物理理论应用于人工神经网络来分析它们的行为。具体来说,人工神经元被比作微小的磁铁(旋转),伊辛模型以数学方式表达了它们的相互作用,用于分析回忆模式的过程。他们表明,可以利用统计物理学的知识来分析人工神经网络的行为。
这项研究为ANN研究开辟了新的可能性,成为具有物理学背景的研究人员参与ANN研究的机会。像霍普菲尔德本人一样,物理学研究人员发现了超越传统物理学界限的新研究领域的吸引力和潜力。在日本,筱本茂(Shigeru Shinomoto)、鹿岛正介(Shosuke Kabashima)和因量子退火研究而闻名的西森秀寿(Hidetoshi Nishimori)等物理学家已经开始使用人工神经网络进行信息处理的研究。
如今,深度学习和人工神经网络已经成为物理研究不可或缺的工具。它具有广泛的应用,包括分析从粒子物理实验和天文观测中获得的数据、估计新材料的性能以及高度准确的天气预报。我想这一点也支撑了我们获得这个奖项。
通过学习概率分布生成数据的“玻尔兹曼机”
1985年,另一位获奖者辛顿先生受霍普菲尔德网络的启发,提出了一种名为“玻尔兹曼机”的人工神经网络。玻尔兹曼机表明,通过向 Hopfield 网络引入随机行为,可以生成与用于学习的数据相似或不同的新数据。这项研究可以说是通向当今生成式人工智能的第一步。
Hopfield网络输出的是它通过学习记住的数据。例如,如果你记住了手写数字 1 的图像,那么通过联想回忆起来的就是该图像。相比之下,玻尔兹曼机可以从不同人写的数字1的许多图像中学习如何写出因人而异的数字1。结果,学习后的玻尔兹曼机能够输出以学习数据中未找到的方式写入的“1”图像。这就像在平均写作风格中添加概率噪声。
此操作背后的想法是,手写的“1”图像根据某种数学规则(概率分布)随机出现。玻尔兹曼机可以通过学习许多手写“1”图像的概率分布来获得生成新数据的能力。这个想法与当前一代人工智能相同。顺便说一下,玻尔兹曼机这个名字源于统计力学中使用“玻尔兹曼分布”来表达这种概率分布,而发明这种分布的路德维希·玻尔兹曼是一位著名的物理学家,据说是统计物理学的奠基人。
展示利用多层人工神经网络“深度学习”进行高性能人工智能开发的可能性
当时的玻尔兹曼机很难训练,使用它们的人数也没有增加。此后,ANN研究逐渐衰落,20世纪90年代再次进入“寒冬期”。 Hinton 先生是解决这一问题的人。而且,这其中的关键是改进玻尔兹曼机的技术。
Hinton 先生在如何训练多层人工神经网络方面找到了突破。现代人工智能中使用的人工神经网络具有许多神经元分层堆叠的结构。 “深度学习”一词指的是“多层”,多层 ANN 称为深度神经网络 (DNN)。原来的DNN存在问题。粗略地说,ANN的信息处理能力随着层数的增加而增加,但当时众所周知,增加层数会导致学习失败。
2006年,Hinton先生提出了一种解决这个问题并训练多层ANN的方法。这是一种训练 ANN(“深度信念网络”)的方法,它是一种玻尔兹曼机,其中大量两层 ANN(“受限玻尔兹曼机”)堆叠在一起,一次两层。通过这一点,Hinton 展示了开发像今天这样的大规模、高性能人工神经网络的可能性。
通过多层人工神经网络(玻尔兹曼机的扩展)实现“深度学习”的系统图片
当时的学习方法需要付出很大的努力,比如每一层都重复学习,最后再学习整层,现在已经不再使用了。随着随后技术的进步,一次性训练多层人工神经网络成为可能。其中使用的学习算法(“反向传播”)也在 1986 年的一篇论文中提出,Hinton 是该论文的作者之一。类似的学习方法在20世纪60年代被几位研究人员提出,包括前面提到的Amari先生,但在1990年代之后,ANN研究再次衰退,甚至在包括我在内的许多研究人员停止进行ANN研究之后,Hinton先生和他的同事们仍在继续他们的研究,最终导致了当今高性能AI的实际应用。
创造进一步的发展
我认为“利用人工神经网络的机器学习”获得诺贝尔物理学奖这一事实表明了基于深度学习的人工智能技术的巨大社会影响。深度学习的有效性通过2012年举办的国际图像识别竞赛中获得高精度的研究而被世人广泛认识,这也是Hinton实验室的成果。
由于谷歌此后在深度学习研发方面处于领先地位,包括收购了 Hinton 等人创办的风险投资公司以及英国深度学习风投公司 DeepMind(由 2024 年诺贝尔化学奖获得者之一 Demis Hassabis 创立),你可能会有这样的印象:深度学习研究是由拥有海量数据并投入大量资金的公司进行的。不过,我认为即使是一个规模不大的研究组织也可以做一些事情,比如OpenAI,这个组织规模不大,从互联网上收集数据并开发了ChatGPT。
例如,当前许多文本生成人工智能都使用谷歌研究人员开发的称为“Transformer”的人工神经网络结构作为基础,但那里可能还有改进的空间。目前,生成式人工智能正在发展成为一种“多模态”人工智能,不仅处理语言之间的关系,还处理图像和音频等多种类型信息之间的关系,但 Transformer 最初是用于语言处理的 ANN,我认为它们将语言、图像和视频相互链接的能力仍然不足(AIST 杂志“什么是多模式 AI?”)。
考虑如何减少学习所需的大量计算也很重要。通过增加数据量和使模型变得更大来提高准确性和容量很重要,但我们正在接近极限,所以我认为我们需要下一个突破,比如新的ANN结构或学习方法。
与ANN相关的许多基本思想和技术,包括获得该奖项的研究,诞生于20世纪60年代至1980年代,但花了半个多世纪才投入实际应用。与此同时,人工神经网络的研究并不总是主要在美国取得进展。正如已经提到的,美国的研究在 20 世纪 70 年代有所下降,但在日本,诞生了许多深度学习的开创性研究,其中包括 Amari 的工作。 Hinton 和他的团队在 2012 年图像识别竞赛中使用的“卷积神经网络”技术也是基于福岛邦彦 (Kunihiko Fukushima) 在 1979 年提出的 ANN“neocognitron”。为了创造进一步的技术进步,在全世界范围内推进研究和开发非常重要。
在AIST,来自世界各地的数百名研究人员正在以2015年成立的人工智能研究中心为中心进行人工智能研究和开发。最近,公式驱动的学习技术,利用人工数据训练大规模人工神经网络、人工神经网络在内窥镜检查中的应用用于大规模语言处理的 ANN(大规模语言模型),并且也在进行人工智能跨领域应用的研究。希望您继续关注我们。