
业内人士告诉《高工智能汽车》,自动化数据标注在目前的行业内还属于一个”遥远的梦”,在可预见的时期内,数据标注还将以人为主。
由于数据庞大又开源,ImageNet 很快成为成为研究图像识别的首选。但尽管如此, ImageNet 也有自己的弱点:标注框太大、标注方式少和不时出现的错误,使它难以被用来训练实际应用的算法模型。
从以上可以看出,即使是业内最强大的图像识别库,数据标注都是通过人工完成的。因此,其它宣传数据标注自动化的,可信度较低。
业内人士透露,数据标注是一个简单又困难的事情。简单之处在于,确定了筛选规则以后,操作人员只需依规操作即可,没有执行上的难度,而困难之处在于,数据标注本质上是要获得更准确,更精细化的数据结果,高质量的数据是业内急需的。
但数据标注本身是一项枯燥的工作,工作人员需要对大量数据不断进行重复劳动,数据的一致性很难保证。
而这些数据标注的工作,本身是为了提升机器学习的能力,因此这部分工作只能由人来完成,人与机器之间的鸿沟,正是机器要跨越的。
数据标注公司目前的做法,是雇佣部分专业的标注人员,然后再外聘一些兼职的人员,共同完成订单。由于人工成本高昂,大部分数据标注公司,都将公司设在了三线以下的城市。
专业人员跟兼职人员的工作能力,还是存在一定的差距的。为了保证数据标注的质量,通常数据标注公司还会设立审核团队,对标注后的数据进行把关。
数据的采集、标注都是专业性很强的工作,必须有针对性的对每个素材进行专业指导。培训的过程包括了解目标 - 学习规则 - 线上培训&录像学习 - 实际场景练习 - 达标考试 - 进行工作 - 纠错讲解&改错(如果错误严重、产出不达标会打回规则学习阶段)。审核方面公司会采用多重交叉审核审核机制进行标注与审核,严格把控标注的每一道流程 。
业内人士表示,进行数据标注的人力成本还是较高,以语音数据为例,客户通常会提供完整有效的数据音频,然后以完成的有效时间段计量价格。
音频通常会包含方言,杂音等,标注人员有时需要反复听音频,才能完成音频转文字的工作。一小时的音频,常常需要一天才能完成,业内给出的价格通常在300元左右。
这个市场完全是自由市场,甲乙双方一方面要兼顾成本、质量等因素,另一方面也要考虑到人力成本,由于技术含量低,上升空间小,做数据标注工作的大部分都是短期工,从业人员积极性低,面临较大的人才流失问题。资本市场的博弈,最终要找到一个平衡点,让工人愿意留下来继续工作。
众包下的半自动化
资本逐利,为了降成本,提效率,无论数据标注公司还是客户,都在想办法提升数据标注的效率。
人们谈到更多的便是数据标注自动化,但业内人士表示,数据标注自动化是一个伪命题,除却技术可行性,完成自动化所需要的人才,在业内都属凤毛麟角。
本质上而言,大公司是最有实力做这部分工作的,但现实是大公司的数据标注业务,基本都外包给了小工司来做。而小公司,则还沉浸在人海战术中。
数据标注公司要提高标注的效率,以及降低成本,目前所努力的方向基本是众包、半自动化。所谓的众包,类似于国外高精地图的采集,即公司将订单发放到网上,让拥有闲暇时间的网友来合力完成数据标注的工作,中间可能会涉及到给予一些奖励,但相比现在的线下重劳力模式,已经减轻了不少成本。
但众包的形式,对数据标注的工作流程,有了更高的要求。网络用户完成数据标注,一定要简单,快速,容易上手,由此才能普及。目前的数据标注过程,需要人工画框,打标签,还需要后续的人工审核,整个流程较为复杂。
业内人士表示,现在能提高效率的工作,便是开发一套网上系统,将标注工作简单化、标准化,为标注人员尽量减少一些重复简单的工作。
开发这样一套系统,需要专业的研发人员,而大部分数据标注公司,鲜少拥有余力来进行这一部分纯粹投入、研发。因此,数据标注公司未来的目标是能够实现半自动化的数据标注,而这背后,还仍然要依靠众包。
所谓的自动化标注,本身是一个伪命题,如果数据都能通过自动化标注了,那本质上已经不需要标注了,因为人工智能已经有了如人一般的识别能力。而这一天什么时候会到来?众所期待~
作者:高工智能汽车