伏羲实验室用户画像组开放课题
Search…
概述
开放研究课题
游戏玩家进入的下一个游戏场景预测
MMORPG游戏服务器的合并模拟预测
基于游戏虚拟社交空间的玩家时空序列预测
基于多源数据融合的游戏玩家状态预测
MMORPG中的虚拟游戏道具价格预测
结合因果推断的时序预测
游戏玩家流失预测
游戏玩家流失原因分析
基于玩家角色轨迹的游戏外挂检测
基于玩家社交图谱的游戏外挂检测
基于玩家行为序列的游戏外挂检测
基于游戏客户端截图的FPS透视挂检测
在线游戏中的半监督异常交易群体检测
在线游戏中的交易网络子图匹配
可解释的外挂检测
个性化礼包生成与个性化礼包推荐
基于玩家实时交互的游戏道具推荐
游戏玩家时装商品搭配推荐
基于游戏社交关系的玩家-帮会关系预测
基于游戏战场中行为序列的玩家竞技风格挖掘
基于游戏战场中行为序列的动作价值评估
面向全局优化的游戏玩家组队匹配
游戏数据场景下的稳定学习框架
数据众包质量控制方法研究
开放工程课题
模型可解释性应用Demo制作
用户行为序列可视化系统Demo制作
因果分析仿真环境Demo制作
基于区块链技术的数据加密和流转框架Demo制作
游戏联邦学习框架Demo制作
画像标签体系可视化Demo制作
回报分解仿真环境Demo制作
用户关系图谱可视化系统Demo制作
游戏AutoML框架Demo制作
游戏背景知识
游戏基础
游戏玩法知识
游戏玩家分类
MMORPG元素
CCG元素
SPG元素
游戏数据集描述
伏羲游戏数据集
MMORPG1
ACT1
CCG1
SPG1
TAB1
高校合作申请流程
高校合作申请流程
Powered By
GitBook
回报分解仿真环境Demo制作
课题背景
目前强化学习算法已经应用在包括游戏AI等很多领域的方法决策中,成为最优可能实现通用人工智能(AGI)的深度学习算法,而作为强化学习的基础,马尔科夫决策过程(MDP)成为目前研究的热点。 回报延迟的解决办法是MDP研究领域的一个重要分支,回报延迟会造成估计的方差变大,从而使强化学习的效果恶化。针对回报延迟的一个解决办法就是回报分解,基于此,我们提出了本课题,希望能够实现一个回报分解的仿真环境,能够实现对回报延迟的MDP进行可视化的回报分解,并提升模型的学习效果
功能描述
1.
实现一个可视化的回报分解仿真环境
2.
仿真环境是一个延迟回报问题,可以通过仿真环境展示最终回报的分解过程
3.
能够展示回报分解对强化学习模型训练效果的提升作用
4.
其他功能
问题挑战
1.
可视化的强化学习仿真环境
2.
延迟回报的分解方法和展示方法
3.
回报分解如何作用于模型训练
Demo评审
1.
功能完整性,完成功能描述所列举的功能
2.
功能创新性,创造性设计功能描述中列举的功能,或者设计了其他创造性的功能
3.
技术新颖性,所用技术新颖
4.
技术难度,开发功能和使用技术具有一定的难度
联系我们
[email protected]
[email protected]
开放工程课题 - Previous
画像标签体系可视化Demo制作
Next - 开放工程课题
用户关系图谱可视化系统Demo制作
Last modified
4mo ago
Copy link
Outline
课题背景
功能描述
问题挑战
Demo评审
联系我们