2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

图片

图片

文章来源:机器之心编辑部

强化学习先驱 Andrew Barto 与 Richard Sutton 获得今年的 ACM 图灵奖。

人工智能学者,再次收获图灵奖!

图片

刚刚,计算机学会(ACM)宣布了 2024 年的 ACM A.M. Turing Award(图灵奖)获得者:Andrew Barto 和 Richard Sutton。

他们都是对强化学习做出奠基性贡献的著名研究者,Richard Sutton 更是有「强化学习之父」的美誉。Andrew Barto 则是 Sutton 的博士导师。自 1980 年代起,两位学者在一系列论文中提出了强化学习的主要思想,还构建了强化学习的数学基础,并开发了强化学习的重要算法。两人合著的《Reinforcement Learning: An Introduction》一直是强化学习领域最经典的教材之一。 

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学荣休教授。Richard Sutton 是阿尔伯塔大学计算机科学教授,同时也是 Keen Technologies 的研究科学家。

ACM 图灵奖常被称为「计算机领域的诺贝尔奖」,奖金为 100 万美元,由谷歌公司提供资金支持。该奖项以提出计算数学基础的英国数学家艾伦・图灵命名。

强化学习,当今 AI 突破的原点

图片

说起强化学习,我们可以想起最近引爆全球 AI 技术爆发的 DeepSeek R1,其中的强化学习算法 GRPO 赋予了大模型极强的推理能力,且不需要大量监督微调,是 AI 性能突破的核心。

再往前看,在围棋上超越人类的 AlphaGo 也是利用强化学习自我博弈训练出的策略。可以说最近的几次 AI 突破,背后总有强化学习的身影。

人工智能领域通常会比较关注智能体的构建 —— 即可以感知和行动的实体。更智能的智能体能够选择更好的行动方案。因此,想出比其他方案更好行动方案概念,对 AI 非常关键。借用自心理学和神经科学的「奖励」— 词,表示向智能体提供的与其行为质量相关的信号。强化学习(RL)是在这种信号下学习更成功行为的过程。

通过奖励学习的理念对动物训练师来说已有数千年历史。后来,艾伦・图灵 1950 年的论文《计算机械与智能》提出了「机器能思考吗?」的问题,并提出了基于奖励和惩罚的机器学习方法。

图灵报告说他进行了一些初步实验,Arthur Samuel 也在 1950 年代后期开发了一个能通过自我对弈学习的跳棋程序。但在接下来的几十年里,AI 的这一方向进展甚微。

直至 1980 年代初,受心理学观察的启发,Andrew Barto 和他的博士生 Richard Sutton 开始将强化学习作为一个通用问题框架进行构建。

他们借鉴了马尔可夫决策过程(MDP)提供的数学基础,在这个框架中,智能体在随机环境中做出决策,每次转换后收到奖励信号,并最大化其长期累积奖励。

与标准 MDP 理论假设智能体知道一切不同,RL 框架允许环境和奖励是未知的。RL 的最小信息需求,结合 MDP 框架的通用性,使 RL 算法可以应用于广泛的问题。

Andrew Barto 和 Richard Sutton 联手或者协同他人,都开发了许多 RL 基本算法。其中包括他们最重要的贡献 —— 时间差分学习(该算法为解决奖励预测问题取得了重要进展),以及策略梯度方法和使用神经网络作为表示学习函数的工具。他们还提出了结合学习和规划的智能体设计,展示了获取环境知识作为规划基础的价值。

同样有影响力的是他们的教科书《Reinforcement Learning: An Introduction》(1998),它仍然是该领域的标准参考,被引用超过 79,000 次。这本书让数千名研究人员理解并为这一新兴领域做出贡献,至今仍激发着计算机科学领域的许多重要研究活动。

图片

尽管 Barto 和 Sutton 的算法是数十年前开发的,但通过将强化学习与深度学习(由 2018 年图灵奖获得者 Bengio、Hinton、LeCun 开创)相结合,强化学习的实际应用已在过去十五年中取得重大进展。于是,深度强化学习技术应运而生。

强化学习最著名的例子是 AlphaGo 计算机程序在 2016 年和 2017 年战胜了顶级人类围棋选手。另一个近期重大成就是聊天机器人 ChatGPT。

ChatGPT 是一个经过两阶段训练得到的大型语言模型(LLM),其中第二阶段采用了一种名为「基于人类反馈的强化学习(RLHF)」的技术,其作用是可以让模型输出符合人类期望。

强化学习在许多其他领域也取得了成功,其中之一是机器人运动技能学习。通过强化学习,机器手可以学会操作物体和解决物理问题;并且这种学习过程可在模拟中完成,然后再迁移到现实世界。

强化学习适用的领域还包括网络拥堵控制、芯片设计、互联网广告、优化、全球供应链优化、改进聊天机器人的行为和推理能力,甚至改进矩阵乘法算法 —— 这是计算机科学中最古老的问题之一。

最后,强化学习还反过来助力了神经科学的发展 —— 强化学习正是受到了该学科的启发。最近的研究,包括 Barto 的研究成果,已经表明 AI 领域开发的某些强化学习算法可为涉及人类大脑中多巴胺系统的广泛发现提供最佳解释。

「Barto 和 Sutton 的工作展示了将多学科方法应用于我们领域长期挑战的巨大潜力,」ACM 主席 Yannis Ioannidis 解释道。「从认知科学和心理学到神经科学的研究领域启发了强化学习的发展,这为 AI 领域的一些最重要进展奠定了基础,并让我们更深入地了解大脑如何工作。Barto 和 Sutton 的工作不是我们已经超越的垫脚石。强化学习继续发展,并为计算和许多其他学科的进一步发展提供了巨大潜力。用我们领域最负盛名的奖项表彰他们是非常恰当的。」

「在 1947 年的一次演讲中,艾伦・图灵表示『我们想要的是一台能从经验中学习的机器』」,谷歌高级副总裁 Jeff Dean 指出。「Barto 和 Sutton 开创的强化学习直接回应了图灵的挑战。他们的工作是过去几十年 AI 进步的关键。他们开发的工具仍然是 AI 繁荣的中心支柱,带来了重大进步,吸引了大量年轻研究人员,并推动了数十亿美元的投资。RL 的影响将持续到未来。谷歌很荣幸赞助 ACM 图灵奖并表彰那些塑造了改善我们生活的技术的个人。」

图片

作者背景

Andrew G. Barto

Andrew Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授。他于 1977 年作为博士后研究助理在马萨诸塞大学阿默斯特分校开始职业生涯,此后担任过多个职位,包括副教授、教授和系主任。Barto 在密歇根大学获得数学学士学位(优等),并在那里获得了计算机与通信科学的硕士和博士学位。

Barto 的荣誉包括马萨诸塞大学神经科学终身成就奖、IJCAI 研究卓越奖(Research Excellence Award)和 IEEE 神经网络学会先驱奖。他是电气和电子工程师协会(IEEE)会士和美国科学促进会(AAAS)会士。

Richard S. Sutton

Richard S. Sutton 是阿尔伯塔大学计算机科学教授、Keen Technologies(一家总部位于德克萨斯州达拉斯的通用人工智能公司)的研究科学家,以及阿尔伯塔机器智能研究所(Amii)的首席科学顾问。Sutton 从 2017 年到 2023 年是 DeepMind 的杰出研究科学家。在加入阿尔伯塔大学之前,他曾于 1998 年至 2002 年在新泽西州 Florham Park 的 AT&T 香农实验室人工智能部门担任首席技术人员。

Sutton 与 Andrew Barto 的合作始于 1978 年,当时在马萨诸塞大学阿默斯特分校,Barto 是 Sutton 的博士和博士后导师。Sutton 在斯坦福大学获得心理学学士学位,在马萨诸塞大学阿默斯特分校获得计算机与信息科学的硕士和博士学位。

Sutton 的荣誉包括获得 IJCAI 研究卓越奖、加拿大人工智能协会终身成就奖和马萨诸塞大学阿默斯特分校的杰出研究成就奖。Sutton 是伦敦皇家学会会士、人工智能促进协会会士和加拿大皇家学会会士。

参考链接

https://x.com/TheOfficialACM/status/1897225672935735579

https://amturing.acm.org/

图书介绍

▊《强化学习(第2版)》

【加】Richard S. Sutton(理查德·桑顿) 【美】Andrew G. Barto(安德鲁·巴图)

  • 强化学习领域奠基性经典著作!

  • 人工智能行业的强化学习圣经!

    《强化学习(第2版)》作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。适合所有对强化学习感兴趣的读者阅读、收藏。

    在第2版中,随着强化学习近来的蓬勃发展,作者补充了很多新的内容:人工神经网络、蒙特卡洛树搜索、平均收益最大化……涵盖了当今最关键的核心算法和理论。不仅如此,作者还以真实世界的应用为例阐述了这些内容。

限时优惠,快快抢购吧!

互动有奖

按以下方式与博文菌互动,即有机会获赠图书!

活动方式:在评论区留言参与“你对这本书的看法”等话题互动,届时会在参与的小伙伴中抽取多名幸运鹅赠送本期图书一本一份!包邮!

活动时间:截至3月11日开奖。

快快拉上你的小伙伴参与进来吧~~

(0)
wd123_cnwd123_cn
上一篇 2025年3月10日 上午9:43
下一篇 2025年3月10日 上午9:44

相关文章

  • Hokulea号独木舟:夏威夷文化复兴的象征

    夏威夷的美国殖民者曾一度在学校中禁止使用夏威夷语。一些夏威夷原住民试图用碱液漂白皮肤。许多人相信波利尼西亚航海者是偶然漂到这些岛屿上的。 Hokulea号的诞生 然而,半个世纪前启航的一艘独木舟帮助将夏威夷文化从羞耻的源头转变为自豪的象征,复兴了通过解读星星、波浪和天气来航海的技能。这艘名为Hokulea的双体帆船,以夏威夷语中的大角星命名,甚至影响了数十年…

    2025年3月8日
  • 爱尔兰风味美食之旅:16道经典食谱,让你足不出户品尝地道爱尔兰

    爱尔兰以其啤酒、音乐和令人叹为观止的风景而闻名,而其美食也毫不逊色。爱尔兰菜肴以其丰盛和健康的特点而著称,深深植根于该国的文化和历史之中。简单的食材——通常是当地采购的——被用来制作舒适、饱腹和美味的菜肴。 从香肠和土豆泥到腌牛肉和卷心菜,这里有16道经典的爱尔兰食谱,适合一年中的任何时候,最好搭配一杯冰镇的吉尼斯黑啤酒。 爱尔兰特色美食 1. 爱尔兰苏打面…

    2025年3月17日
  • 科学家首次利用光子成功观测超固态量子物质

    超固态是一种量子物质形态,它同时表现出超流体(零粘度)和空间有序结构(如晶体)的特性。虽然通常由超冷原子形成,但科学家最近首次使用光子成功观测到了这种量子态物质。这一突破性研究由意大利莱切的CNR Nanotec纳米技术研究所的科学家领导,相关成果发表在《自然》杂志上。 超固态的发现 超固态是一种既具有超流体特性(零粘度),又具有类似晶体结构的量子物质状态。…

    2025年3月12日
  • 纽约布鲁克林一民宅发生火灾,消防员心脏骤停命悬一线

    突发火情:布鲁克林多层住宅燃起熊熊烈焰 周日,纽约市布鲁克林区拉斐特大道1133号一栋多层住宅突发火灾,现场浓烟滚滚,火势迅速蔓延,消防部门接警后立即派遣超过100名消防员赶往现场进行扑救。 消防员英勇奋战:不幸心脏骤停,情况危急 在紧张的灭火过程中,一名纽约市消防局(FDNY)的消防员突发心脏骤停。据官方消息,目前该消防员仍在医院接受治疗,情况十分危急。 …

    2025年3月17日
  • 如何在家中种植猫薄荷:让你的猫咪享受自然的乐趣

    种植蔬菜和香草为自家厨房增添乐趣的同时,别忘了你的猫咪伴侣。猫薄荷(Nepeta cataria)是一种多年生草本植物,属于薄荷科;虽然它可以作为观赏植物,但主要是为了猫咪的享受而种植。幸运的是,你可以在室内和室外种植这种植物——只需按照以下步骤操作,你和你的猫咪很快就能收获猫薄荷。 专家介绍 Angelika Zaber,Online Turf的草坪护理专…

    2025年3月8日
  • 梅西建功,替补奇兵绝杀!迈阿密国际2-1逆转亚特兰大联

    在周日晚间于梅赛德斯-奔驰体育场举行的一场激动人心的比赛中,凭借着梅西的先拔头筹以及替补球员法法·皮考特的终场前绝杀,迈阿密国际队以2-1的比分逆转战胜了亚特兰大联队。 比赛概况 皮考特的这粒进球是他在本赛季的首次亮相中的首个进球。在比赛的第89分钟,皮考特接到了后卫约尔迪·阿尔巴的助攻,成功破门,这也是阿尔巴本赛季的第二次助攻。梅西则在比赛的第20分钟打入…

    2025年3月17日