数据众包质量控制方法研究
Last updated
Last updated
随着AI模型逐渐成熟,进一步改进模型结构带来的边际效益趋窄,而干净一致的训练数据则能够有效提高落地效果。对此,以数据为中心的AI(Data-Centric AI)受到广泛关注。
为获取高质量数据,国内现有的数据标注服务模式通常依靠熟练标注员,直接对样本产出标注结果。该过程极为定制化,对于有AI服务需求的个人及小微企业,推广难度很大。同时,依赖遍布全球的零工,AMT(Amazon Mechanical Turk)等数据众包(Crowdsourcing)平台则能够更灵活便捷地提供个性化标注服务,这为解决数据标签难获取问题带来了一套可用方案。但是,在众包平台商业化道路上,其质量控制问题仍普遍存在。
更高的数据质量及更快捷的数据获取方式能够极大推动AI落地,本课题聚焦数据众包平台质量控制方法,围绕真值推断、用户画像、准确度保证等问题,具有非常重要的研究和应用价值。
图1展示了一个典型的数据众包任务案例。任务发起方按照一定任务拆解原则,定义问题和选项,众包C端人员接单并回答问题。
真值推断:由于接单人员能力区别,回答为正确答案的概率不同,因此首要任务真值推断,即为如何将不一致的回答聚合为真实标签
用户画像:C端人员所擅长题目类型不同,刻画用户画像做到合适的人答合适的题,能够有效改善众包质量
准确度保证:给定准确度要求,是否可以提前估计要达到目标准确度,大致需要的标注人员数量或标注成本;反之,给定标注成本约束,是否可以预先估计能够达到的准确度指标
用户画像信息如何定义、维护及使用
如何最大化利用已知信息来建模并推导真值
诸如单选、多选、判断、数值等不同类型试题,是否存在统一的用户画像表达方式
如何引入领域信息
在标注开展前是否可能预估标注质量
隐测试如何植入
被标注数据本身信息是否可用于提高真值推断结果
选择、判断题主要通过以下指标进行评估: Accuracy、Precision、Recall、AUC
数值问题主要通过以下指标进行评估: RMSE、MSE、MAPE
task_id
string
任务ID
usr_id
string
标注员ID
label_time
string
打标时间
label_latency
string
题目耗时
label
string
标注员标注结果
有任何问题,请联系 liuhaoyu03@corp.netease.com