> For the complete documentation index, see [llms.txt](https://fuxi-up-research.gitbook.io/open-project/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://fuxi-up-research.gitbook.io/open-project/research_topics/crowdsourcing_quality_control.md).

# 数据众包质量控制方法研究

## 课题背景

随着AI模型逐渐成熟，进一步改进模型结构带来的边际效益趋窄，而干净一致的训练数据则能够有效提高落地效果。对此，以数据为中心的AI（Data-Centric AI）受到广泛关注。

为获取高质量数据，国内现有的数据标注服务模式通常依靠熟练标注员，直接对样本产出标注结果。该过程极为定制化，对于有AI服务需求的个人及小微企业，推广难度很大。同时，依赖遍布全球的零工，AMT（Amazon Mechanical Turk）等数据众包（Crowdsourcing）平台则能够更灵活便捷地提供个性化标注服务，这为解决数据标签难获取问题带来了一套可用方案。但是，在众包平台商业化道路上，其质量控制问题仍普遍存在。

更高的数据质量及更快捷的数据获取方式能够极大推动AI落地，本课题聚焦数据众包平台质量控制方法，围绕真值推断、用户画像、准确度保证等问题，具有非常重要的研究和应用价值。

## 问题定义

![图1：数据众包问题案例](https://noterminus.gitee.io/image_bed/images/crowdsourcing.png)

图1展示了一个典型的数据众包任务案例。任务发起方按照一定任务拆解原则，定义问题和选项，众包C端人员接单并回答问题。

* 真值推断：由于接单人员能力区别，回答为正确答案的概率不同，因此首要任务真值推断，即为如何将不一致的回答聚合为真实标签
* 用户画像：C端人员所擅长题目类型不同，刻画用户画像做到合适的人答合适的题，能够有效改善众包质量
* 准确度保证：给定准确度要求，是否可以提前估计要达到目标准确度，大致需要的标注人员数量或标注成本；反之，给定标注成本约束，是否可以预先估计能够达到的准确度指标

## 问题挑战

* 用户画像信息如何定义、维护及使用
* 如何最大化利用已知信息来建模并推导真值
* 诸如单选、多选、判断、数值等不同类型试题，是否存在统一的用户画像表达方式
* 如何引入领域信息
* 在标注开展前是否可能预估标注质量
* 隐测试如何植入
* 被标注数据本身信息是否可用于提高真值推断结果

## 评价指标

* 选择、判断题主要通过以下指标进行评估： Accuracy、Precision、Recall、AUC
* 数值问题主要通过以下指标进行评估： RMSE、MSE、MAPE

## 数据集描述

| 字段             | 类型     | 描述      |
| -------------- | ------ | ------- |
| task\_id       | string | 任务ID    |
| usr\_id        | string | 标注员ID   |
| label\_time    | string | 打标时间    |
| label\_latency | string | 题目耗时    |
| label          | string | 标注员标注结果 |

## 联系我们

有任何问题，请联系 <liuhaoyu03@corp.netease.com>