读天书说人话,换个角度聊热点。大家好,我是喵咖。
技术诞生有偶然因素,但是技术在哪里发扬光大,总是跟地域和文化因素相关。比如有个说法说,短信最早被芬兰的诺基亚给推广起来,是因为芬兰半年极昼半年极夜,你就不能判断要联系的对方是什么作息时间,贸然打电话过去就不太礼貌,所以就先发个短信等对方睡醒。那么日本在通话方面有什么习惯呢?去过日本旅游坐过地铁的朋友都有体会,他们手机基本都是震动,一般不在车上接电话,实在不行也是先非常小声的“莫西莫西”简单讲几句就挂掉了。说的好听叫做不想麻烦别人,实际也是不想被窥探隐私。

有需求就有供应, 东京大学University of Tokyo和索尼电脑研究院Sony Computer Science Institute合作,研究出了一款闭嘴也能说话的贴片。原理是在喉咙周围的皮肤上贴上传感器,利用喉咙和下颚的皮肤震动,就能将口形转化为语音。

之前做研究的时候是用的超声成像,判断的喉部变化,看着比较吓人,拿个超声探头怼着喉咙,不知道的以为要饮弹自尽。新一代的改用喉咙周边的皮肤上贴上一个加速度传感器,获取下颚、舌肌运动引起的从下颚到喉咙的皮肤颤动信息,然后用AI深度学习,最终实现将无声语音转换为语音输入的无声语音交互(Silent Speech Interaction,SSI)。

事实上,贴片判别声音的技术早年也是军工技术,是给前线炮兵指挥官用的。开炮的时候震天响,什么麦克风电话机都变摆设了,只有带着耳机和传声贴片才能实现前线和后方的沟通。当然那会儿只有非常简单的几个指令,比如开炮,停火,撤退之类。而现在通过AI学习,就能真正把自然语言表现出来。
还是那句话,索尼*法大**好~等着哪天产品面试,语音助手估计才能真正进入日常生活。毕竟现在的语音助手实在太傻,总能看到坐在窗口晒着太阳的人拿起苹果问“hi siri,今天天气如何?”实在太尬了,就不会朝着窗外看一眼么?还有三星那个,“hi,bixby”,赶上绕口令了。

不过要有也是日文和英文先出,他们音阶多,冗余信息重组。中文同音异意情况太多,估计识别没那么好做吧。
引文:
1, SottoVoce: An Ultrasound Imaging-Based Silent SpeechInteraction Using Deep Neural Networks https://dl.acm.org/doi/10.1145/3290605.3300376
2,The University of Tokyo and Sony have developed a sensor that allowspeople who can’t speak to “talk” https://www.smalltechnews.com/archives/113403