人工智能数据标注有前途吗 (人工智能数据标注是干什么的)

最近经常听见别人说数据标注(英文:data annotation),各大招聘网站上无论是兼职还是全职各种各样的招聘信息,好些都有数据标注这样一个职位,但是呢工作内容各有不同。有的是文本分类、有的是语音翻译、有的是图片处理、还有其它的等等,内容不太一样但是统一叫做数据标注,所以很多人产生困惑什么时数据标注呢,那么今天我们就来聊聊数据标注,方便大家对数据标注这个行业的了解。

一. 数据标注的起源和发展

数据标注是人工智能的衍生职业,在了解数据标注之前大家需要对人工智能有一个基本的了解。1946年,全球第一台通用计算机ENIAC诞生。它最初是为美军作战研制,每秒能完成5000次加法,400次乘法等运算。ENIAC为人工智能的研究提供了物质基础。而人工智能这个概念最早是由约翰.麦卡锡于1956年在达特茅斯会议上提出的,意指让机器人有人一样的智能行为。

在人工智能被提及的60度余年里起起落落,在约翰.麦卡锡首次提出人工这个概论时专家学者尤为看好,甚至觉得十年之内机器人可以超越人类。然20世纪70年代后期,人们却逐渐发现之前的理论与模型只能解决一些简单问题,同时由于运算能力不足,人工智能的第一次浪潮偃旗息鼓,迎来了突如其来的冬天。

此后经过短暂的沉寂后,随着20世纪80年代两层神经元网络(BP网络)的兴起开始焕发出新的生机并迎来了第二次浪潮。在此期间,语音识别、语音翻译以及感知机模式成了其中的典型代表。然,这些看上去很普通的应用离我们的生活仍旧很远,人工智能进入了第二次寒冬。

而第三次浪潮的开始于1997年,IBM公司的国际象棋电脑深蓝DeepBlue战胜了国际象棋世界冠军卡斯帕罗夫。2006年“神经网络之父”Geoffrey Hinton提出的深度学习技术,并于2010年该技术大货,推动了人工智能的第三次浪潮。

纵观人工智能的发展,在期初的两次浪潮中,人工智能起起伏伏,但是并未真真的走入人们的生活,而且当时量级比较小,为人工智能提供数据的数据标注工作需要由研究的工程师完成,非常的浪费时间与人力,且不能成为独立的职业。但是当第三次浪潮的到来,数据标注需求量开始变得非常的多,2011年数据标注的外包市场开启,2017年进入爆发阶段,数据标注才开始渐渐的进入人们的视野。、

二. 数据标注涉及的几个概念

1. 数据标注(data annotati

对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作行为,为待标注数据添加标签,生产满足机器学习训练要求的机器可读数据编码。

2. 标签(label)

标注数据的特征、类别和属性等,建立数据及机器学习训练所需求的数据标识联系。

3. 数据标注员(data labeler)

对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作的工作人员

4. 标注工具(annotation tool)

即标注人员处理标注任务时需要使用到的工具,线上工具或是线下工具。标注工具按照自动化程度分手动、半自动和自动三种。

三. 数据标注分类

1.语音标注

语音标注是当前数据标注中的一重要分支,主要是基于语音识别、声纹识别、语音合成等建模与测试需要,需要对数据进行发音人角色标注、环境场景标注、多语种标注、ToBBI(Tones and Break Indices)韵律标注、体系标注、情感标注、噪声标注等。

2. 图像标注

目前图像标注的主要应用场景非常广泛,安全识别、智能驾驶、交通、教育、医学研究等。目前主要的标注方式有拉框、打点、多边形区域、抠图、划线、2D标注、3D标注、分类等等标注方式。

3. 文本标注

文本标注即自然语音处理是人工智能的分支科学,为了满足自然语言的不同层次处理,文本标注便是关键了。简单来说就是对语言分类分词标注,语义判断、文本翻译、情感标注、拼音标注等等,可以提高自然语言准确率的文本模型,主要应用于智能机器人在线机器人,聊天机器人,智能对话系统等。

4. 视频标注

目前视频标注主要针对于动态视频处理,主要标注方式有分类、节选、抽帧、翻译等。

四. 数据标注流程

对人工智能数据标注的理解是什么,人工智能的职业定位有哪些

1. 数据采集

数据采集是数据标注的首要环节,即需要对一个场景进行研究时 所需的数据。比较常见的是通过互联网获取公开的数据集与专业数据集。公开数据集是政府、科研机构等对外开放的资源,获取比较简单,而专业数据往往更耗费人力物力,有时需要通过人工采集、购买所得,或者通过拍摄、录制等自主手段所得。

2. 数据清洗

当我们的数据采集到后并不能直接做为标注数据,有些数据是不完整的、不一致、有噪点等。所以这时就需要数据清洗了,一般清洗方式主要是去掉重、无关的、异常与缺失的数据,最大限度的统一数据并且与主题相符合的标注格式,更精准提升数据模型与算法。

3. 数据标注

数据采集清洗后进入整个数据标注流程中最核心的一个环节。

4. 数据质检

数据标注人员在数据标注完成之后,进入质检流程由质检员查漏补缺,因为人工处理的数据很难达到百分百准确,所以需要将数据标注不符合规范数据进行修改。通过质检后的数据,才是真正的完成了整个数据标注的流程数据才可使用。

以上便是本人对数据标注的一些浅显了解,希望大家能通过此文对数据标注有所了解。感谢大家关注,以后会为大家带来更多与数据标注相关的信息。