赵兴宇 报道
11月29日18点30分,上海交通大学刘卫东教授应邀为统计学学科所有研究生及导师开展专业学术讲座。讲座以腾讯会议形式进行,由amjs澳金沙门线路首页院长孔新兵教授主持。
刘卫东教授是上海交通大学特聘教授,国家杰出青年科学基金获得者,中国工业与应用数学学会理事。主要研究方向为统计学和机器学习等,目前已在AOS、JASA、JRSSB、Biometrika、JMLR、ICML、IJCAL、IEEE TSP等专业顶尖期刊/会议上发表论文六十余篇。主持国家重点研发计划课题1项,国家杰出青年科学基金1项,国家优秀青年科学基金1项。
本次讲座的主题是“Online Estimation and Inference for Robust Policy Evaluation in Reinforcement Learning”。在讲座中,刘卫东教授首先介绍了强化学习的学习背景,通过冰湖问题和山地车问题两个实例进一步讲解强化学习的概念机理。与传统机器学习文献不同,刘卫东教授的研究侧重于对使用强化学习算法计算的参数估计进行统计推断。许多现有的分析都基于假设随机奖励遵循标准分布,从而局限了它们的适用性。为了解决这一问题,他在统一框架内同时处理了outlier contamination和heavy-tailed rewards的问题,引入了强化学习中robust statistics的概念。提出了一种在线稳健策略评估过程,并基于其Bahadur表示建立了估计量的极限分布。此外,他们还设计了fully-online的过程,以高效地进行基于渐近分布的统计推断。这一研究弥补了强化学习中稳健策略和统计推断之间的鸿沟,为策略评估提供了更为可靠的方法。
互动环节中,吕绍高教授提出了outline的稳健问题的讨论,周兴才教授对于Huber损失估计中是否对参数做选择提出问题,孔新兵教授对于模型中的参数提出问题并展开讨论。孔新兵教授指出,对于强化学习与统计学的学习,期待未来更多的交流探讨。