清华大学张钹院士团队获腾讯开悟大赛总冠军

2022.04.28

公司动态

近日，第二届腾讯开悟多智能体强化学习大赛（以下简称“开悟大赛”）决赛圆满落幕。本届大赛于2021年9月1日正式启动，来自全国顶尖高校的20多支团队参赛，经过半年多的比拼，共有四支队伍进入决赛。经过激烈角逐，由清华大学计算机系教授、瑞莱智慧首席科学家张钹院士创建的TSAIL课题组领衔团队（队员：陈华玉、严谕梓、沈晓腾、周浩天、黄彬，指导教师：阎栋、苏航、朱军），荣获本届大赛总冠军。

“开悟”大赛创新性地将人工智能科研与电子竞技结合，自创办以来就备受关注。本届赛事沿用此前面向高校的邀请赛制，并进一步扩大开放规模，20多所知名高校受邀参赛。参赛选手需要通过编写程序，利用人工智能技术，在游戏《王者荣耀》中进行对抗。参赛队伍需要在指定的时间内，在给定的资源下训练出最优模型，并最终部署好使用最优模型的AI服务器，提交系统完成1V1、3V3对局挑战。

游戏一直是人工智能最为理想的训练场之一。《王者荣耀》是一款需要玩家根据复杂多变的战场情况实时反应，制定策略的游戏，要求玩家掌握并融合实时感知、分析、理解、推理、决策等多种能力。因此，如何设计人工智能的行为权重、操作触发条件，以及决策是否正确的反馈机制就成为了比赛制胜的关键。而且，人工智能如果能够在如此复杂的游戏环境中，学会实时感知、分析、理解、推理、决策和行动，就可能在复杂多变的真实环境中发挥更大作用。

比赛过程中需要解决两个难点：首先，王者荣耀有着巨大的观察空间与动作空间，这让智能体随机探索难以得到正反馈。第二，3v3比赛时，团队之间对抗需要依靠零和博弈机制实现，但现实场景中，设置团队因子过高或者零和博弈，会让学习过程变得十分不稳定。为此，团队综合利用课程学习（curriculum learning）和强化学习等前沿技术，设计了一个高效稳定的学习算法，提高了智能体的团队合作能力。

针对该赛事的挑战所提出的解决方法，与瑞莱智慧深耕第三代人工智能技术的思路一致。团队在引导智能体高效学习、优化算法等方面，体现出了第三代人工智能的主要特征：利用知识、数据、算法和算力等核心要素，保证算法在对抗环境下的可靠运行，为应对复杂问题中的不确定性建模与推断提供可能，建模能力更加可靠鲁棒，以便建立新的可解释和鲁棒的理论与方法，从而发展出安全、可信、可靠和可扩展的人工智能技术。

分享文章