12 min read

长工时和低工资:中国数据标注行业的劳动状况

作者:Bea Lind

编者前言:这是一位来自英国的研究者Bea Lind的投稿,Ta在今年初曾实地在中国多个地方的职业学校、数据标注公司进行田野调查,了解中国AI行业背后的劳动状况。Ta与小报分享了自己的研究初步发现,并计划再次前往中国进行更深入的研究。工劳小报很感谢Ta的分享,并且,如果作为读者的你曾在数据标注行业打过工或了解该行业,我们也想邀请你填写文末的问卷,或者与Bea Lind直接联系,成为受访者。AI行业背后基层打工者的声音需要被听到!

基于我的博士研究,以下文章描述了人工智能供应链中最劳动密集的部分——数据标注行业的劳动条件。今年早些时候,我从英国前往中国,研究了中国数据标注行业的发展及其工人的经历。世界各地的数据标注员的声音大多未被听见,他们的劳动条件也基本未被公开审查。一些学者,如玛丽·格雷(Mary Gray)和锡达特·苏里(Siddharth Suri)在2019年称这些工人为“幽灵工人”。我希望我的研究能揭示导致这一行业劳动条件恶化的驱动因素,并展现劳动抗争的广阔可能性。只要这种抗争得到释放,便能加强工人团结,迫使资方改善条件,最终让“幽灵工人”这个学术表达不再有任何意义。

AI背后的数据标注员是谁?

数据标注员整天坐在电脑前,在像澳鹏(Aopeng)和数据堂(Datatang)这样的平台上标记大量数据。这些任务可以是简单的,比如识别图片中的人物或车辆;也可以是复杂的,比如标注医疗扫描中的疾病。这些标注为AI应用的开发奠定了基础,如聊天机器人、自动驾驶汽车、智能安防系统和医疗诊断工具等。

数据标注行业的外包市场始于2011年,并在2015年开始迅速增长。大约在这一时期,互联网公司开始与内陆省份的地方政府合作,如山西、河南、四川和贵州,建立数据标注基地。如今,这些省份拥有最多的数据标注公司,从小型工坊(员工少于20人)到拥有数千名员工的大型企业不等。

Viola Zhou和Caiwei Chen在2023年的研究中发现,学生占据了数据标注行业20%至30%的劳动力。然而,在我访问的公司中,这一比例高达90%。对于这些学生来说,在数据标注公司实习是毕业的必要条件。百度等公司利用实习生作为廉价劳动力来源。比如,2022年,百度与甘肃酒泉的一所职业学校合作,建立了一个数据标注中心,迫使160多名学生参加数据标注实习(Zhou & Chen,2023)。

严峻的就业市场和创纪录的青年失业率导致许多学生在学期期间自愿从事数据标注工作,以丰富简历和赚取额外收入。我在田野调查中遇到的许多学生选择这个行业是因为它的灵活性(兼职学生工通常可以选择自己的工作时间)。一位曾经从事建筑行业的工人解释道,虽然工资低,但这份工作没有那么费体力,工人们也可以更频繁地休息。

然而,兼职数据标注工作的灵活性付出了沉重的代价。由于公司不需要为兼职工人提供稳定的标注任务,他们可以在需要时招募这些工人,并在不需要时将他们抛弃。由于这种工作不稳定性,学生们常常感到有压力,在工作旺季时不得不加班加点。一些公司经理告诉我,兼职数据标注员通常在家工作,他们可以连续工作,甚至包括夜班。换句话说,灵活的劳动制度使公司能够增加劳动强度,并延长工作时间。

虽然全职工人(大多是应届毕业生)通常能获得稳定的工作任务,但他们也受到更严格的纪律约束。通常要求每天至少工作8-10小时,每周工作6天,并且工作速度由数据标注公司决定。如果他们未能达到标准,就会被要求加班,但没有加班费。加班的情况经常发生,因为工人被要求完成额外的无偿任务。例如,如果客户认为他们的工作质量不佳,工人必须重新标注数据,但不会因此获得额外报酬。此外,在公司接受一个项目之前进行的试用通常也是无偿的,意味着工人必须无偿工作。此外,工人还被要求进行新的任务培训,这些培训也是无偿的。由于大多数项目都相对较短(平均1-2个月),工人们通常每月都要接受培训。我采访的一位正式工人解释说,她有时为一个仅持续一个月的项目进行了30小时的无偿培训。她估算自己每周的工作时间(包括有偿和无偿的任务)约为72小时。

无论是学生工人还是全职工人,通常都没有受到《劳动合同法》的保护。因此,他们无法享受社会保障、加班工资或公平工资的权利——工人们的工资经常低于最低工资标准。

恶性循环的工资下降

大多数数据标注员按件计酬,即他们的月薪取决于完成的标注任务数量,学生的单件任务工资通常比正式工人低。我采访的经理和工人估算,行业中全职工人的平均月工资在2000到2600元之间。然而,如Zhou & Chen(2023)和Xu Shuang(2024)所示,许多工人的工资甚至低于这一平均水平,即使他们全职工作。

正式工人的工资曾经高得多——Xiaojun Feng(2020)估算,2018年时,行业的平均月薪在4000至5000元之间。随着更多学生和应届毕业生涌入行业,数据标注员之间的竞争加剧,使公司得以压低所有工人的工资。我采访的一位全职工人解释说,尽管他的工作时间保持不变,但他的月薪从2021年的5000元降到了今天的3500元。

随着工资的下降,工作速度却在加快,在某些情况下几乎令人难以承受。通过平台追踪工人的动作并不断提高工作要求,公司推动工人增加每日完成的标注数量。在某些情况下,平台甚至会将效率较低的工人踢出,从而加剧了工人之间的竞争,进一步加剧了失业的恐惧。

在短时间内完成任务的压力增加了工人的压力。一位工人告诉我,“压力很大,我总是觉得自己没有时间”。一位数据标注公司的经理也证实了这一情况,解释道,“工作量非常非常大。工作非常不健康……这工作越来越难了!但工资却一直在下降!”

危机中的抗争新机遇

人工智能行业的投资最近有所下降,这反过来推动了AI公司延迟支付数据标注供应商的款项;许多项目已经完成了一年,仍未结算。这导致了数据标注行业的危机,企业破产和工资拖欠达到顶峰。我采访的一位公司老板估计,今年有成千上万的数据标注员未能按时(或根本没有)收到工资。

此外,企业难以留住技术工人,这进一步加剧了危机。工人不愿忍受低薪和恶劣的工作条件,导致了高流动率。事实上,工人们通常在行业中工作3-6个月后便离开。这影响了公司的利润,因为招聘和培训成本增加了,新员工的工作效率较低,进一步降低了许多公司的整体效率。根据我与一些业内人士的交谈,劳动力不足,特别是能够使用高级技术工具高效完成复杂任务的工人短缺,导致行业停滞不前。

这展示了工人的结构性力量,他们拒绝忍受恶劣工作条件对行业产生了不利影响。如果工人们能够利用这种力量向资方施压,集体行动或许能够迫使AI公司改善工资和工作条件。

肯尼亚的数据标注员说“不”!

由数据标注员Richard Mathenge(2024)共同制作的一部近期纪录片表明,在非洲的数据标注员中,一场激励人心的运动正在兴起,推动科技巨头改善工作条件并保护工人权利。2023年初,美国外包公司Sama的肯尼亚内罗毕分公司工人开始抗议,要求提高工资和减少工作时间。抗议者还与肯尼亚其他公司的数据标注员交流,并成立了一个WhatsApp小组,讨论他们恶劣的工作条件以及如何应对。2023年年中,小组成员在内罗毕见面,决定成立工会以争取他们的诉求。该组织迅速扩展到肯尼亚以外的地区,吸引了约500名非洲各地的成员。随着工人组织力量的增强,公司老板和肯尼亚政府的反应也愈发强硬:Sama解雇了抗议工人,而肯尼亚政府则拒绝法律承认该工会。然而,这并未阻止数据标注员继续组织,争取改善工作条件。这场斗争仍在进行,尽管科技巨头努力压制,但该行业的第一个工会正在不断壮大。

在争取改善工作条件的斗争中,不同国家的数据标注员面临独特的挑战。比如,中国的数据标注员必须找到方法克服全职工人与兼职学生工人之间的分化。在我的田野调查中,我发现学生工人往往与正式工人分开工作,要么在家,要么在不同的办公空间,而且分配的任务也不同。换句话说,公司将劳动力分散开来,消除了工人之间建立联系的需求(除了小工作组内的沟通)。在这种情况下,组织工人的任务困难重重,但并非不可能。中国特有的另一个挑战是高度发达的外包系统,它通过多层中介公司隐藏了上游企业(如百度和比亚迪)。往往,数据标注公司的直接负责人将工资拖欠和工作条件恶化归咎于上游雇主。由于上游公司被隐藏,工人们经常不知道向哪里提出投诉,就像我采访的一位试图向劳动局投诉的工人一样。

通过我的研究,我希望进一步揭示数据标注行业的结构和工作条件,以及潜在的抗争力量。如果您是或曾经是数据标注员,并希望为深化我们对这一行业的理解做出贡献,请考虑填写以下匿名调查。如果您愿意提供更深入的见解并与我分享您的经历,欢迎通过 [email protected] 与我联系,我们可以在线上或线下进行访谈。所有数据都会完全匿名处理,您将不会在我未来的写作中被识别。

填写问卷:https://forms.office.com/r/936ALTKPpL

资料来源