伏羲实验室用户画像组开放课题
Search…
概述
开放研究课题
游戏玩家进入的下一个游戏场景预测
MMORPG游戏服务器的合并模拟预测
基于游戏虚拟社交空间的玩家时空序列预测
基于多源数据融合的游戏玩家状态预测
MMORPG中的虚拟游戏道具价格预测
结合因果推断的时序预测
游戏玩家流失预测
游戏玩家流失原因分析
基于玩家角色轨迹的游戏外挂检测
基于玩家社交图谱的游戏外挂检测
基于玩家行为序列的游戏外挂检测
基于游戏客户端截图的FPS透视挂检测
在线游戏中的半监督异常交易群体检测
在线游戏中的交易网络子图匹配
可解释的外挂检测
个性化礼包生成与个性化礼包推荐
基于玩家实时交互的游戏道具推荐
游戏玩家时装商品搭配推荐
基于游戏社交关系的玩家-帮会关系预测
基于游戏战场中行为序列的玩家竞技风格挖掘
基于游戏战场中行为序列的动作价值评估
面向全局优化的游戏玩家组队匹配
游戏数据场景下的稳定学习框架
数据众包质量控制方法研究
开放工程课题
模型可解释性应用Demo制作
用户行为序列可视化系统Demo制作
因果分析仿真环境Demo制作
基于区块链技术的数据加密和流转框架Demo制作
游戏联邦学习框架Demo制作
画像标签体系可视化Demo制作
回报分解仿真环境Demo制作
用户关系图谱可视化系统Demo制作
游戏AutoML框架Demo制作
游戏背景知识
游戏基础
游戏玩法知识
游戏玩家分类
MMORPG元素
CCG元素
SPG元素
游戏数据集描述
伏羲游戏数据集
MMORPG1
ACT1
CCG1
SPG1
TAB1
高校合作申请流程
高校合作申请流程
Powered By
GitBook
数据众包质量控制方法研究
课题背景
随着AI模型逐渐成熟,进一步改进模型结构带来的边际效益趋窄,而干净一致的训练数据则能够有效提高落地效果。对此,以数据为中心的AI(Data-Centric AI)受到广泛关注。
为获取高质量数据,国内现有的数据标注服务模式通常依靠熟练标注员,直接对样本产出标注结果。该过程极为定制化,对于有AI服务需求的个人及小微企业,推广难度很大。同时,依赖遍布全球的零工,AMT(Amazon Mechanical Turk)等数据众包(Crowdsourcing)平台则能够更灵活便捷地提供个性化标注服务,这为解决数据标签难获取问题带来了一套可用方案。但是,在众包平台商业化道路上,其质量控制问题仍普遍存在。
更高的数据质量及更快捷的数据获取方式能够极大推动AI落地,本课题聚焦数据众包平台质量控制方法,围绕真值推断、用户画像、准确度保证等问题,具有非常重要的研究和应用价值。
问题定义
图1:数据众包问题案例
图1展示了一个典型的数据众包任务案例。任务发起方按照一定任务拆解原则,定义问题和选项,众包C端人员接单并回答问题。
真值推断:由于接单人员能力区别,回答为正确答案的概率不同,因此首要任务真值推断,即为如何将不一致的回答聚合为真实标签
用户画像:C端人员所擅长题目类型不同,刻画用户画像做到合适的人答合适的题,能够有效改善众包质量
准确度保证:给定准确度要求,是否可以提前估计要达到目标准确度,大致需要的标注人员数量或标注成本;反之,给定标注成本约束,是否可以预先估计能够达到的准确度指标
问题挑战
用户画像信息如何定义、维护及使用
如何最大化利用已知信息来建模并推导真值
诸如单选、多选、判断、数值等不同类型试题,是否存在统一的用户画像表达方式
如何引入领域信息
在标注开展前是否可能预估标注质量
隐测试如何植入
被标注数据本身信息是否可用于提高真值推断结果
评价指标
选择、判断题主要通过以下指标进行评估: Accuracy、Precision、Recall、AUC
数值问题主要通过以下指标进行评估: RMSE、MSE、MAPE
数据集描述
字段
类型
描述
task_id
string
任务ID
usr_id
string
标注员ID
label_time
string
打标时间
label_latency
string
题目耗时
label
string
标注员标注结果
联系我们
有任何问题,请联系
[email protected]
开放研究课题 - Previous
游戏数据场景下的稳定学习框架
Next - 开放工程课题
模型可解释性应用Demo制作
Last modified
4mo ago
Copy link
Outline
课题背景
问题定义
问题挑战
评价指标
数据集描述
联系我们