数据标注平台分析与使用经验 (数据安全合规有哪些要求)

数据标注是指使用自动化工具通过分类、画框、注释等等对收集来的数据进行标记以形成可供计算机识别分析的优质数据的过程。

简单地来讲,数据标注就是通过对数据贴标签、做记号、标颜色或划重点的方式,标注出其中目标数据的不同点、相似点或类别,以此达到让机器学习的功能。

数据标注相关政策,数据标注内容安全

比如,我们要让机器学习认知飞机,机器没经过学习前,是无法识别出飞机的,因此,我们必须对飞机图片进行标注,并打上标签注明“这是一架飞机”,当机器获得大量打上标签的飞机图片进行学习之后,我们再给机器一个飞机的图片,机器就能知道这是一架飞机了。

如果数据是人工智能的血液,那么,数据只有加上标注才有意义。

数据标注相关政策,数据标注内容安全

数据标注的痛点

早先,这些标注数据都是那些研究AI算法的工程师在实验室中完成的,但是随着人工智能在商用场景的落地,待标注的数据越来越多时,显然无法仅仅依靠工程师们来标注数据了。而且,数据标注业务偏标准化,对数据标注员的专业要求也不高。基于此,一些专门的数据标注众包平台和数据标注公司就应运而生了。

与此同时,随着AI、自动驾驶、金融、大数据等行业的快速发展,需要海量高质量的标注数据作为支撑,也因此, 数据标注平台要标注的数据变得更多、更复杂,甚至一些行业还会涉及敏感数据,如某智能产品用户的一些个人隐私数据等。 而这些也正成为数据标注行业不可忽视的痛点。

数据标注相关政策,数据标注内容安全

以数影星球的某一客户为例。该客户有一个数据标注团队,承接各类AI标注业务,其中涉及较多的数据标注场景就是自动驾驶点云标注、智能音箱的语音标注等。由于数据标注业务比较标准化,该客户在山西、贵州等地使用了大量的外包人员。

此前,该客户就面临着这些痛点:

一是,标注场地比较分散, 要接入某一办公网的标注平台比较麻烦,外包团队也不能使用其VPN的权限,并且VPN无法支持大并发,而专线和固定IP线路的成本又太高。

二是,标注的对象都是相对敏感的数据, 例如车厂的自动驾驶道路数据、智能音箱类产品的个人语音对话数据等,出于用户隐私安全和合规的要求,要防止这些数据泄露出去。

三是, 该客户曾经考虑过使用云桌面产品来解决上述的两个痛点,但是自动驾驶点云标注对显卡有要求,GPU云桌面成本太高,普通云桌面又无法满足性能要求。因而,不得不放弃这一想法。

数据标注相关政策,数据标注内容安全

数影星球的解决方案

为了帮助该数据标注平台解决上述痛点,数影星球结合领先的零信任架构技术经验,为其提供了针对数据标注行业场景的定制型数影方案。

在提供的方案中,数影星球做了这几件关键的事:

1、数影星球在该数据标注平台服务的VPC内的ECS上部署数影零信任网关。

2、当用户使用数影办公平台通过零信任网关访问该数据标注平台时,其他浏览器没法访问该数据标注平台。

3、给该客户的外包员工开通数影账号,并把该数据标注平台的账号绑定到数影账号上。

4、当该客户的外包员工打开数影办公平台,登录数影账号,点击该数据标注平台时,在不知账密的情况下就能直接登录平台工作。

借助该解决方案,数据标注平台实现了高效、合规、降本的需求。例如,以较低成本实现了 外包场地安全访问数据标注平台 的目的;数据标注平台账号密码不用告诉外包员工,而且, 外包员工可在数影办公平台上直接登录数据标注平台, 提高了外包员工的工作效率;同时,基于 数影办公平台防*载下**、防拷贝的特性 ,数据标注平台上的数据不能被复制、截图等,达到了数据安全合规的要求。另外,外包的方式可以大范围继续推广,降低了用工成本。

数据标注相关政策,数据标注内容安全

业内人都知道,人工智能是需要被人为教导训练而成的。也正因如此,人工智能行业有句话:有多少智能,背后就有多少人工。数据标注这项工作与无人驾驶、人脸支付、智能家居、智慧医疗等前沿科技有着紧密的联系。不难预见,数据标注市场的需求量将伴随这些产业的发展迎来井喷式增长,而对于如何保障数据安全,除了一些物理手段,更需要利用技术从源头保障数据安全。