沟通咨询
提交成功

朱军教授团队共发表7篇论文,位居世界第二

2020.04.30
技术专栏

2020年4月25日-30日,机器深度学习领域顶级会议——国际表征学习大会(ICLR,International Conference on Learning Representations)正式举行。

 

根据此前发布的论文接收结果,RealAI首席科学家朱军教授带领的TSAIL团队共发表 7 篇,位居世界第二,朱军教授与佐治亚理工学院宋乐教授并列 ICLR 2020 华人贡献榜首位。

 

 

由于受到全球范围疫情爆发的影响,本届ICLR完全改为线上“云”会议,但这丝毫没有影响全球人工智能学者和研究人员的热情。据统计,本届会议共有2594篇投稿、687篇收录,接收率为 26.5% 。相比去年的1591篇论文投稿,今年也将会是ICLR史上规模最大的一次会议。

 

在所有收录的论文中,共有48篇被接收为口头报告论文,107篇被接收为亮点论文,532篇作为墙报论文。TSAIL团队发表的7篇文章包括一篇口头报告论文(收录率低于1.9%),一篇亮点论文(收录率低于6%)。

 

作为深度学习领域的国际顶级会议之一,ICLR论文评审的透明性和广泛性独树一帜,被认为是业界做得最公开的一个会议,当然,这也意味着论文被接收的难度之大。在此背景下,TSALL团队的亮眼成绩也再度展现了清华学者在人工智能领域国际领先的科研硬实力。

 

其实,在人工智能顶级会议和期刊上,清华大学的成果长期位居国际前列。根据全球计算机科学专业排名榜CSRankings发布的2010-2020共10年间AI科研成果客观排名,清华大学名列世界第二,其中,朱军教授名列清华第一。

 

TSAIL团队长期从事机器学习、贝叶斯统计等基础理论、高效算法及相关应用研究,在国际重要期刊与会议发表学术论文 100 余篇。此次被接收的7篇论文涵盖博弈论、强化学习、对抗鲁棒学习、贝叶斯深度学习等前沿领域。我们将7篇文章提前做了整理,下面逐篇做亮点解读。

 

No.1 
标题: 多智能体强化学习的后验采样:求解不完全信息的扩展型博弈

 

摘要:强化学习(RL)是通过从与环境的迭代交互中获取信息来改进策略,目前设计RL算法的一个典型问题就是如何实现以最少的交互次数找到最优策略。强化学习的后验采样(PSRL)为未知环境下的决策问题提供了一个有用框架。比如在单智能体强化学习(SARL)中,PSRL采用最大期望回报作为交互策略,被视为最优方法之一。不过尽管PSRL在单智能体强化学习问题上表现良好,但如何将PSRL应用于多智能体强化学习问题却尚未得到研究。

 

本文将PSRL拓展到具有不完全信息(TEGI)的二人零和博弈,这是一类多智能体强化学习任务 (MARL)。这里的不完全信息意味着主体可以保留私有信息,比如扑克游戏中私有卡的规则设置,针对不完全信息扩展型博弈的研究对于众多应用具有实际意义。本文主要提出将PSRL与反事实遗憾最小化算法(CFR)相结合,其中CFR是TEGI在已知环境下的领先算法,这为不完全信息拓展式博弈中的RL问题设计了一种有效的新交互策略。

 

论文链接:https://openreview.net/pdf?id=Syg-ET4FPS

 

No.2
标题: Lazy-CFR:不完全信息扩展型博弈中快速且接近最优的遗憾最小化算法

 

摘要:反事实遗憾最小化(CFR)方法是解决具有不完全信息的二人零和博弈的有效方法。但是CFR的一个限制就是它需要在每一轮中遍历整个游戏树,这在大型游戏中非常耗时。目前用于提高CFR算法速度的方法主要有两类:基于剪枝的CFR(Pruning-based CFR)和蒙特卡洛CFR (MC-CFR) ,但这两种方法都有所局限。

 

本文主要提出一种新算法Lazy-CFR,通过利用延迟更新技术来避免CFR遍历整个游戏树。Lazy-CFR将时间范围划分为若干段,仅在每段开头更新策略,并在每段内保持策略不变,从而实现只需要访问游戏树的一小部分即可。将Lazy-CFR与普通CFR算法相比较发现,两者的虚拟遗憾值基本相同,但Lazy-CFR遗憾最小化的上界接近最优,而且在收敛速度上,Lazy-CFR显著快于普通CFR算法。

 

论文链接:https://openreview.net/pdf?id=rJx4p3NYDB

 

No.3
标题: SVQN:SequentialVariational Soft Q-Learning Networks

 

摘要:部分可观测马尔可夫决策过程(POMDP)是现实世界中应用广泛的决策模型,该模型主要基于过去观察的信息来做出最佳决策。标准强化学习算法不适用于求解部分可观测马尔可夫决策过程,因为它难以推断出未观察到的状态。

 

本文主要提出一种新的POMDP算法,称为SVQN(SequentialVariational Soft Q-Learning Networks),该算法在统一的图模型下能够结构化隐性推理和最大熵强化学习(MERL) ,并对两个模块进行了联合优化。本文也进一步设计了一个深度递归神经网络以减少算法的计算复杂性。实验结果表明,SVQN能够基于过去的信息来实现有效的推理决策,在一些具有挑战性的任务上效果也优于其他基线。同时SVQN具有随时间推移的泛化能力,对观测扰动也具有较强的鲁棒性。

 

论文链接:https://openreview.net/pdf?id=r1xPh2VtPB

 

No.4
标题: 利用混合推理(MI)更好地防御对抗样本攻击

 

摘要:众所周知,对抗样本能够很容易欺骗深度神经网络,这主要由于神经网络在输入样本附近的非线性。混合训练模型则提供了一种有效的防御机制,在训练中引入了全局线性行为,从而提升模型的泛化性能和鲁棒性。但是,此前混合训练的模型只是对输入样本做直接分类,并不能够很好的利用引入的全局线性,所以面对对抗样本攻击时只是被动防御。

 

本文主要对混合训练模型开发了一个名为“混合推理”(Mixup Inference)新推理原理,将输入样本与其他随机纯净样本混合,如果输入样本是对抗性的,则缩小并传递等效扰动。通过在CIFAR-10和CIFAR-100数据集上验证表明,MI可以进一步提高由混合训练模型及其变体训练模型的鲁棒性。

 

论文链接:https://openreview.net/pdf?id=ByxtC2VtPB

 

No.5
标题: 对Softmax交叉熵损失函数提升对抗鲁棒性的再思考

 

摘要:先前的工作表明,提高机器学习模型的对抗鲁棒的泛化性往往需要更大的样本复杂度,例如常用的CIFAR-10数据集可以训练一个高精度的分类模型,但往往难以训练出对抗鲁棒的模型。但收集新的训练数据成本较高,因此通过在特征空间中选择引入高样本密度的区域来集中利用给定数据,能够获得局部足够样本进行对抗鲁棒的学习。本文首先分析表明Softmax交叉熵(SCE)损失函数及其变体传递了不恰当的监督信号,这促使学习获得的特征点在训练过程中稀疏地散布在整个空间中。

 

在此思路的启发上,本文主要提出MMC损失函数(Max-Mahalanobis)方法,以明确诱发密集的特征区域提高对抗鲁棒性。也就是说,MMC损失函数促使模型专注于有序和紧凑的学习表示,这些表示聚集在预先设定的最优中心周围,用于不同的类。根据经验证明,即使在强自适应攻击下,应用MMC损失函数也能显著提高鲁棒性,同时在不需要额外计算的情况下,在纯净输入样本上保持与SCE损失相当的高精度。

 

论文链接:https://openreview.net/pdf?id=Byg9A24tvB

 

No.6
标题: SUMO:隐变量模型对数边际概率的无偏估计

 

摘要:隐变量模型是用于表述数据分布和理解高维数据的强大工具,能够高度结构化概率先验。近年来,如何将深度神经网络与非线性概率隐含模型相结合以提高模型的可解释性成为一大热门研究方向。但要隐变量模型的参数拟合工作很具有挑战性,需要对边际似然的对数进行高质量的估计。本文主要构造了一个无偏估计的对数边际似然,在相同的期望计算成本下,无偏估计可以训练隐变量模型,并获得比下限估计更高的测试对数似然。更重要的是,在存在问题的情况下,该无偏估计允许优先使用下界估计进行优化。这一方法可应用包括后验推理的隐变量建模和高维空间的强化学习,在高维空间中,该方法构建的模型具有高表达性,采样效率也更高。

 

论文链接:
https://openreview.net/attachment?id=SylkYeHtwr&name=original_pdf

 

No.7
标题: 使用ADVIL来减少训练MRF的烦恼

 

摘要:本文提出了一种对抗变分推理学习(AdVIL,Adversarial Variational Inference and Learning )的黑盒学习算法,能够在一般的马尔可夫随机域(MRF)中进行推理和学习。AdVIL采用两种变分分布来近似推断隐含变量并估计MRF的配分函数。这两个可变的分布提供了MRF的负对数似然估计作为极小极大优化问题,可以通过随机梯度下降来解决。AdVIL在某些条件下被证明具有收敛性。一方面,与对比散度相比,AdVIL对模型结构的假设最少,可以处理更广泛的MRF类别。另一方面,与现有的黑盒方法相比,AdVIL提供了更严格的对数配分函数估计,并获得了更好的经验结果。

 

论文链接:https://openreview.net/pdf?id=Sylgsn4Fvr

 

近年来,在人工智能顶级会议中,中国学者的研究力量正快速崛起。其中清华大学人工智能团队拥有着比肩世界顶级名校团队的科研创新能力,并且始终保持对前沿技术的敏感和基础技术的研发先手,多次在人工智能领域最前沿的竞技舞台上取得亮眼成绩。 

 

而且作为国内最早从事人工智能技术研究的高校机构之一,清华大学不仅涌现出一批学术大咖、学术新星,还积极推动学术界与工业界的深度融合,孵化出一批新兴AI企业,促进人工智能产学研结合。可以预见,这些“中国科技新力量”将在未来支撑起中国人工智能行业新一轮的产业变革。