数据众包质量控制方法研究

课题背景

随着AI模型逐渐成熟,进一步改进模型结构带来的边际效益趋窄,而干净一致的训练数据则能够有效提高落地效果。对此,以数据为中心的AI(Data-Centric AI)受到广泛关注。

为获取高质量数据,国内现有的数据标注服务模式通常依靠熟练标注员,直接对样本产出标注结果。该过程极为定制化,对于有AI服务需求的个人及小微企业,推广难度很大。同时,依赖遍布全球的零工,AMT(Amazon Mechanical Turk)等数据众包(Crowdsourcing)平台则能够更灵活便捷地提供个性化标注服务,这为解决数据标签难获取问题带来了一套可用方案。但是,在众包平台商业化道路上,其质量控制问题仍普遍存在。

更高的数据质量及更快捷的数据获取方式能够极大推动AI落地,本课题聚焦数据众包平台质量控制方法,围绕真值推断、用户画像、准确度保证等问题,具有非常重要的研究和应用价值。

问题定义

图1展示了一个典型的数据众包任务案例。任务发起方按照一定任务拆解原则,定义问题和选项,众包C端人员接单并回答问题。

  • 真值推断:由于接单人员能力区别,回答为正确答案的概率不同,因此首要任务真值推断,即为如何将不一致的回答聚合为真实标签

  • 用户画像:C端人员所擅长题目类型不同,刻画用户画像做到合适的人答合适的题,能够有效改善众包质量

  • 准确度保证:给定准确度要求,是否可以提前估计要达到目标准确度,大致需要的标注人员数量或标注成本;反之,给定标注成本约束,是否可以预先估计能够达到的准确度指标

问题挑战

  • 用户画像信息如何定义、维护及使用

  • 如何最大化利用已知信息来建模并推导真值

  • 诸如单选、多选、判断、数值等不同类型试题,是否存在统一的用户画像表达方式

  • 如何引入领域信息

  • 在标注开展前是否可能预估标注质量

  • 隐测试如何植入

  • 被标注数据本身信息是否可用于提高真值推断结果

评价指标

  • 选择、判断题主要通过以下指标进行评估: Accuracy、Precision、Recall、AUC

  • 数值问题主要通过以下指标进行评估: RMSE、MSE、MAPE

数据集描述

字段类型描述

task_id

string

任务ID

usr_id

string

标注员ID

label_time

string

打标时间

label_latency

string

题目耗时

label

string

标注员标注结果

联系我们

有任何问题,请联系 liuhaoyu03@corp.netease.com

Last updated