计算机科学与技术学院吕帅副教授等人的论文“Sampling Diversity Driven Exploration with State Difference Guidance”(状态差异指导、采样多样性驱动的探索)被人工智能领域重要国际期刊Expert Systems with Applications(中科院1区)录用。论文第一作者为吕帅副教授指导的2019级硕士生路笳艺,其他作者为2018级硕士生韩帅、2020级硕士生康勐、2020级硕士生张峻伟,通讯作者为吕帅副教授。
探索是深度强化学习的关键,尤其是在带有稀疏奖励或欺骗性奖励的环境中。基于内在奖励的探索可以应对这些环境,但是现有方法很少同时考虑全局交互动态和局部环境变化。本文提出了一种用于离策略学习的内在奖励,不仅从全局视角鼓励智能体执行尚未被完全学习的动作,还从局部视角指导智能体触发显著的环境变化。本文还提出了将内在奖励与外在奖励相结合的双行动者-双评论家(double-actors-double-critics)框架,该框架可应用于基于行动者-评论家方法的离策略学习算法。在MuJoCo基准环境中对本文方法进行了全面评估,同时对内在奖励进行了充分的消融实验和量化分析。实验结果表明:本文方法可以在带有密集奖励、稀疏奖励和欺骗性奖励的环境中进行有效的探索,同时也验证了双行动者-双评论家框架的优越性和合理性。
计算机科学与技术学院吕帅副教授等人的论文“NROWAN-DQN: A Stable Noisy Network with Noise Reduction and Online Weight Adjustment for Exploration”(NROWAN-DQN:利用降噪和在线权重调整得到稳定的用于探索的噪声网络)被人工智能领域重要国际期刊Expert Systems with Applications(中科院1区)录用。论文第一作者为吕帅副教授指导的2018级硕士生韩帅,其他作者为2017级博士生周文博、2019级硕士生路笳艺、2018级硕士生刘京,通讯作者为吕帅副教授。
深度强化学习的应用越来越广泛,尤其是在各种复杂的控制任务中。噪声对强化学习的探索至关重要,合适的噪声不仅可以避免由于缺乏探索而导致的局部最优解,还可以防止过度扰动导致的学习不稳定。噪声网络可以为强化学习带来更有效的探索,使智能体可以在训练开始时更随机地选取动作,在随后的学习过程中产生稳定的输出。然而,这种趋势也不意味着总能为智能体找到稳定的策略,反而降低了效率和稳定性。为了解决上述问题,本文提出了NROWAN-DQN,即兼具降噪和在线权重调整的NoisyNet-DQN。本文为NoisyNet-DQN设计了新的噪声正则化方法,以降低输出层的噪声,设计了一种在线权重调整策略。在四个标准测试域中对算法进行了评估,并分析了超参数的性质。实验结果表明:NROWAN-DQN在所有测试域表现优异,同时具有更好的稳定性。NROWAN-DQN的奖励方差显著降低,尤其是在动作敏感的环境中,这意味着在某些需要高稳定性的环境中,NROWAN-DQN比NoisyNet-DQN更合适。