
每一个企业级的人 都置顶了 中国软件网
中国软件网 为你带来最新鲜的行业干货

本文作者│欧小刚
微信号│oyg0001
联系邮箱│oxg@soft6.com
3月29日,在山城重庆两江新区举行了首届“亚洲大数据可视分析峰会”,海云数据在大会上发布了一项有意思的技术——唇语识别,探讨了AI技术应用场景的构建,以及将AI与可视分析技术相结合的可能性。唇语识别是个什么鬼,AI又怎么和可视分析勾搭上的?在这届大会上听到一些有意思的观点,对海云在唇语识别领域的探索有了一些了解,也受到一些启发。下面我把从本届可视分析峰会上带回来的一些思考,来跟大家做个分享,探讨一下海云在唇语识别领域的布局,更进一步的分析下AI和可视分析的场景应用。
海云开创中文唇语识别先河
首先介绍下什么是唇语识别,唇语识别是一项集机器视觉和自然语言处理于一体的技术,它使用机器视觉技术,从图像和视频中识别出人脸,并提取出人口型的变化特征,将这些数据输入到唇语识别模型中,识别出讲话人口型对应的发音,最终计算出讲话人要表达的意思。
唇语识别技术在国外已有先例,但国内还没发展起来。成熟的唇语识别系统需要建立在大量人脸特征样本的基础上,并通过带记忆的深度神经网络才能保证结果的最大准确性。因此,鉴于人种的生物特征和不同语言的差异,国外的唇语识别系统并不能简单的搬到国内。面对这样的市场空白,海云数据携手重庆市公安研究所开始了中文唇语识别系统的研发工作。
自2016年12月以来,海云研究院经过多次的技术攻关,结合海云的数据业务形态,对唇语识别核心技术及应用进行了深度探索,打破了原先只能识别英语的技术局限。海云数据开创了中文唇语识别模型的研究先河,并将中文唇语识别模型的准确率提高到70%左右。
为什么会是海云数据首先来做中文唇语识别
AI领域那么多企业,为什么是海云来做唇语识别?目前国内主流的AI发展基本上都聚焦在类似于无人驾驶、语音识别、人脸识别这些领域,很少有AI企业关注到唇语识别这样的应用场景。但在海云数据CEO冯一村看来,AI的春天一定是在细分领域中,而细分领域一定是建立在理解用户诉求、理解用户业务基础上的。
海云数据首先实现中文唇语识别,可以从必要性和可能性两个方面来考虑:
第一,研究唇语识别是海云数据业务延生和商业模式变现的必然。海云为什么这么重视唇语识别,是因为唇语分析将成为海云数据整个产业价值变现的催化器。在冯一村看来,海云数据是一个典型创业型公司,用接近四年时间从三个人成长到今天300人的规模。从商业模式上来讲,这个时候海云数据已经完成从0到1的过程,接下来是1到10的工作。 0到1要解决技术产品原型验证、商业模式闭环设计;而1到10要解决商业变现的问题,如果没有办法变现问题,那被淘汰只是时间问题。
第二,在可视分析领域长期的积累,让海云数据拥有做唇语识别的独特优势。海云数据通过近几年在公共安全、交通、军工、智慧城市四个领域的深耕,不断挖掘这些领域用户对AI的真实需求,发现了唇语识别这一AI蓝海。更重要的是,唇语识别能与海云数据的可视分析进行强*绑捆**。海云数据在可视分析领域的技术积累,以及在公安领域的数据积累和服务经验,对于其研发唇语识别系统提供重要的助力。所以,在业务需求和技术能力正好匹配的情况下,海云数据率先在唇语识别领域进行突破。
海云数据是如何玩转唇语识别的
唇语识别作为典型场景,怎么来实现可视分析与AI的结合呢?这一部分我们来具体看看海云数据是怎么来做的。
海云数据针对公安系统特征,开发出智警大数据可视分析决策平台。与其他领域不同的是,公安系统中视频和图像信息量很大,并且在安全态势分析和案情分析中视频和图像的作用尤为关键。

在视频分析中,除了画面信息外,视频中人物的语音信息也十分关键。比如视频中案件相关人员说了什么话,在案情分析中很可能发挥重要作用。公安系统的视频一般是通过摄像头拍摄的,而人物活动地点一般离摄像头有一定的距离,直接在录像中很难听清楚里面的人说了什么,这给语音信息提取带来很大难度。但是,视频中人物说话时候的嘴型是可以看清楚的,如果能通过读取人物嘴型变化来分析出语言信息,将极大的丰富公安系统能获取的信息。

我们可以看到,海云数据通过在人的嘴巴上部署很多识别位点,通过这些位点判断嘴型,进而判断视频中人所讲出来的一些关键性内容,这种关键性内容会巨大释放视频图像里面的信息。以公共安全或者交通举例,大量非结构化数据都沉淀在数据库当中,这些数据全部都是以纯图片或视频形式存在,很难传递图片和视频背后的数据信息。当海云数据把唇语识别这个技术拿出来的时候,在AI领域不仅能识别图像,还能识别图像和视频中的声音。最终,海云的AI和可视分析系统就能从声音、图象、视频、空间、地理信息各种纬度进行综合态势的判断,最大化挖掘数据价值。
值得提出的是,这个技术无论在美国还是在中国,都是比较前沿的。美国硅谷有一个团队专门做唇语识别,他们大约训练了5000万小时的BBC节目。因为数据量越大训练的准确度越高,数据质量越高判断逻辑越准确。因此,输入海量优质的数据,对唇语识别系统进行训练,就显得尤为关键。截止到今天,海云数据已经累计训练了1万小时新闻式的唇语节目,来提升判断嘴型的准确度。目前海云数据的唇语识别系统在英文方面已经做到了80%的准确度,在中文方面则已经做到71%的准确度。当整个系统的识别准确率达到90%甚至95%以上时,就可以投入实战了。

在冯一村看来,唇语识别的技术进程可以分为三个阶段:第一个阶段是技术原型阶段,初步验证技术的可行性。目前海云数据已经走过第一阶段,已经取得一定的成果;第二阶段是实现技术的产品化,要将技术进行产业应用,就必须首先将技术产品化,通过成熟的产品来为客户提供服务,进一步得到市场的认可。海运数据在唇语识别领域即将进入第二阶段;第三阶段是实现实战化的场景应用,一个好的技术、好的产品到了最后一定是要解决具体问题,解决具体问题就一定要投入实战。像可视分析一样,将唇语识别技术和产品在具体的业务场景中进行应用,满足用户需求,将是海云数据未来发力的重要方向。
透过唇语识别看AI场景化应用
上面谈到了海云数据在唇语识别领域的探索和取得的成果,我们不妨把视角再放大点,其实唇语识别是图像和视频识别的一种,而图像和视频识别又只是AI的一个应用领域。为了更清楚的了解唇语识别与AI的关系,我们有必要对AI做一个全景式的展示。为此,我们作出如下的AI技术及应用图谱。

可以看到,整个AI技术和应用领域大致可分为三个层级:最下面的是AI系统的底层支撑,包括硬件领域的CPU、GPU以及一些专门的AI芯片,另外算法方面有比较传统的统计学习和迁移学习等算法,以及最近发展势头良好的深度神经网络算法;在底层支撑上面,是AI的一些核心技术领域,主要有自然语言学习、语音识别、图像和视频识别、情感分析以及机器学习等方面;再往上就是具体的AI应用了,包括工业机器人和各种服务机器人,各种智能搜索和推荐系统,各种专家系统以及无人驾驶等。唇语识别也是其中的一个应用领域,并且与图像、视频识别以及自然语言处理技术密切相关。
大数据可视分析和AI有什么关系,他们的结合点在哪里?
AI系统最为关键的有几个方面:芯片等硬件提供的强大计算能力;算法提供的核心智能;海量优质的数据不断对AI系统进行训练,提升系统智能水平和准确性;找到有价值的AI应用场景。另一方面,从数据生命周期的角度来看,大数据领域最为核心的就是数据分析挖掘以及数据可视化和数据应用。

从上图中可以看到,大数据和AI是相辅相成的:一方面,AI系统智能水平的提升离不开大量数据的训练;另一方面,从数据生命周期的角度来看,数据分析和挖掘是整个大数据产业链的技术核心,而这离不开AI的支持。并且,不管是对大数据还是AI而言,有价值的应用场景始终是推动技术和产业发展的关键,只有找到好的应用场景,才能实现技术的商业价值,也才能将技术和产业推向深入。
在海云数据CEO冯一村看来,AI是激发大数据产业活力的关键。大数据时代真正要得到春天般的发展,只有通过AI的应用才能真正刺激整个大数据万亿级市场的开拓。并且,未来有潜力的AI应用在于各个细分领域,唇语识别就是一个蓝海市场,这也是海云数据发力唇语识别的战略出发点。
海云数据的可视分析优势结合AI技术能力,从中文唇语识别发力,将大幅提升其在公共安全、军事情报、身份识别、残障教育等领域的竞争力。具体来看:公安领域,通过唇语识别,补全摄像头记录视频的关键信息,为破案提供新的线索;通过唇语识别,对于无法说话的残障人士,可以将其唇语实时转换成语音或者文字,实现他们“说出来”的梦想;军事情报领域,通过唇语识别,可以远距离的观察敌方交流信息,获得重要的情报线索。可以预见,将唇语识别与数据可视分析结合起来,将在多个领域发挥重要作用。