# 回报分解仿真环境Demo制作

## 课题背景

目前强化学习算法已经应用在包括游戏AI等很多领域的方法决策中，成为最优可能实现通用人工智能(AGI)的深度学习算法，而作为强化学习的基础，马尔科夫决策过程(MDP)成为目前研究的热点。 回报延迟的解决办法是MDP研究领域的一个重要分支，回报延迟会造成估计的方差变大，从而使强化学习的效果恶化。针对回报延迟的一个解决办法就是回报分解，基于此，我们提出了本课题，希望能够实现一个回报分解的仿真环境，能够实现对回报延迟的MDP进行可视化的回报分解，并提升模型的学习效果

## 功能描述

1. 实现一个可视化的回报分解仿真环境
2. 仿真环境是一个延迟回报问题，可以通过仿真环境展示最终回报的分解过程
3. 能够展示回报分解对强化学习模型训练效果的提升作用
4. 其他功能

## 问题挑战

1. 可视化的强化学习仿真环境
2. 延迟回报的分解方法和展示方法
3. 回报分解如何作用于模型训练

## Demo评审

1. 功能完整性，完成功能描述所列举的功能
2. 功能创新性，创造性设计功能描述中列举的功能，或者设计了其他创造性的功能
3. 技术新颖性，所用技术新颖
4. 技术难度，开发功能和使用技术具有一定的难度

## 联系我们

<hztaojianrong@corp.netease.com> <hzshenxudong@corp.netease.com>
