高校合作申请流程
回报分解仿真环境Demo制作

课题背景

目前强化学习算法已经应用在包括游戏AI等很多领域的方法决策中,成为最优可能实现通用人工智能(AGI)的深度学习算法,而作为强化学习的基础,马尔科夫决策过程(MDP)成为目前研究的热点。 回报延迟的解决办法是MDP研究领域的一个重要分支,回报延迟会造成估计的方差变大,从而使强化学习的效果恶化。针对回报延迟的一个解决办法就是回报分解,基于此,我们提出了本课题,希望能够实现一个回报分解的仿真环境,能够实现对回报延迟的MDP进行可视化的回报分解,并提升模型的学习效果

功能描述

  1. 1.
    实现一个可视化的回报分解仿真环境
  2. 2.
    仿真环境是一个延迟回报问题,可以通过仿真环境展示最终回报的分解过程
  3. 3.
    能够展示回报分解对强化学习模型训练效果的提升作用
  4. 4.
    其他功能

问题挑战

  1. 1.
    可视化的强化学习仿真环境
  2. 2.
    延迟回报的分解方法和展示方法
  3. 3.
    回报分解如何作用于模型训练

Demo评审

  1. 1.
    功能完整性,完成功能描述所列举的功能
  2. 2.
    功能创新性,创造性设计功能描述中列举的功能,或者设计了其他创造性的功能
  3. 3.
    技术新颖性,所用技术新颖
  4. 4.
    技术难度,开发功能和使用技术具有一定的难度

联系我们