伏羲实验室用户画像组开放课题
  • 概述
  • 开放研究课题
    • 游戏玩家进入的下一个游戏场景预测
    • MMORPG游戏服务器的合并模拟预测
    • 基于游戏虚拟社交空间的玩家时空序列预测
    • 基于多源数据融合的游戏玩家状态预测
    • MMORPG中的虚拟游戏道具价格预测
    • 结合因果推断的时序预测
    • 游戏玩家流失预测
    • 游戏玩家流失原因分析
    • 基于玩家角色轨迹的游戏外挂检测
    • 基于玩家社交图谱的游戏外挂检测
    • 基于玩家行为序列的游戏外挂检测
    • 基于游戏客户端截图的FPS透视挂检测
    • 在线游戏中的半监督异常交易群体检测
    • 在线游戏中的交易网络子图匹配
    • 可解释的外挂检测
    • 个性化礼包生成与个性化礼包推荐
    • 基于玩家实时交互的游戏道具推荐
    • 游戏玩家时装商品搭配推荐
    • 基于游戏社交关系的玩家-帮会关系预测
    • 基于游戏战场中行为序列的玩家竞技风格挖掘
    • 基于游戏战场中行为序列的动作价值评估
    • 面向全局优化的游戏玩家组队匹配
    • 游戏数据场景下的稳定学习框架
    • 数据众包质量控制方法研究
  • 开放工程课题
    • 模型可解释性应用Demo制作
    • 用户行为序列可视化系统Demo制作
    • 因果分析仿真环境Demo制作
    • 基于区块链技术的数据加密和流转框架Demo制作
    • 游戏联邦学习框架Demo制作
    • 画像标签体系可视化Demo制作
    • 回报分解仿真环境Demo制作
    • 用户关系图谱可视化系统Demo制作
    • 游戏AutoML框架Demo制作
  • 游戏背景知识
    • 游戏基础
    • 游戏玩法知识
    • 游戏玩家分类
    • MMORPG元素
    • CCG元素
    • SPG元素
  • 游戏数据集描述
    • 伏羲游戏数据集
    • MMORPG1
    • ACT1
    • CCG1
    • SPG1
    • TAB1
  • 高校合作申请流程
    • 高校合作申请流程
Powered by GitBook
On this page
  • 课题背景
  • 功能描述
  • 问题挑战
  • Demo评审
  • 联系我们

Was this helpful?

  1. 开放工程课题

回报分解仿真环境Demo制作

课题背景

目前强化学习算法已经应用在包括游戏AI等很多领域的方法决策中,成为最优可能实现通用人工智能(AGI)的深度学习算法,而作为强化学习的基础,马尔科夫决策过程(MDP)成为目前研究的热点。 回报延迟的解决办法是MDP研究领域的一个重要分支,回报延迟会造成估计的方差变大,从而使强化学习的效果恶化。针对回报延迟的一个解决办法就是回报分解,基于此,我们提出了本课题,希望能够实现一个回报分解的仿真环境,能够实现对回报延迟的MDP进行可视化的回报分解,并提升模型的学习效果

功能描述

  1. 实现一个可视化的回报分解仿真环境

  2. 仿真环境是一个延迟回报问题,可以通过仿真环境展示最终回报的分解过程

  3. 能够展示回报分解对强化学习模型训练效果的提升作用

  4. 其他功能

问题挑战

  1. 可视化的强化学习仿真环境

  2. 延迟回报的分解方法和展示方法

  3. 回报分解如何作用于模型训练

Demo评审

  1. 功能完整性,完成功能描述所列举的功能

  2. 功能创新性,创造性设计功能描述中列举的功能,或者设计了其他创造性的功能

  3. 技术新颖性,所用技术新颖

  4. 技术难度,开发功能和使用技术具有一定的难度

联系我们

hztaojianrong@corp.netease.com hzshenxudong@corp.netease.com

Previous画像标签体系可视化Demo制作Next用户关系图谱可视化系统Demo制作

Last updated 3 years ago

Was this helpful?