


文 | Congerry、Blink162
ChatGPT注入高级智力,“哑巴傻狗”变“聪明狗狗”。
今日,波士顿动力在YouTube上发布了一段长达8分多钟的视频,展示其四足机器人Spot的语言能力,视频中的狗子还操着一口流利的伦敦腔。
视频精华再此↓↓
,时长 01:08
这都是归功于ChatGPT,自Spot面世以来,高灵活程度和协调程度让其可以做出很多高难度动作,例如翻跟头、跳舞等……但它之前并不会“说话”。
现在继承了GPT,Spot化身“导游”,用英国口音与员工聊天,带他们参观公司的设施。

正如演示中所示,该机器人能够回答问题,甚至可以像木偶一样张开“嘴巴”,让它看起来像是真的在说话。

波士顿动力公司使用了OpenAI的ChatGPT API以及一些开源的大语言模型来训练它的反应。
其实不止语言能力,ChatGPT的注入让Spot整体反应都变得更智能、更交互。
也因此,Spot在说“Follow me”(跟着我)的时候,会自动做出转身引路的动作。

在人指着一些需要解说的物品时,Spot也会立马抬头看向所指物品,然后进行解答:

波士顿动力给Spot安装了扬声器,还增加了文本转语音功能。
为了打造不同的个性,波士顿动力公司对Spot的代码稍作了修改。然后,狗子就会完全修改它的输出,从它的口音到组织句子的方式,再到声音的音调,甚至连它转头的方式似乎也随着它的个性而变化。

Spot的技术原理
机器狗是如何化身导游的?
简而言之,就是机器狗Spot在环境中行走探索,通过视觉观察识别物体,然后利用视觉问答(VQA)或图像描述模型生成物体的文本描述,最后用大型语言模型(LLM)根据这些描述进行扩展和详细解释,完成从视觉到语言的转换过程。

具体来说,研究人员首先为机器人提供了一个带有标注的3D地图,上面标出了不同位置的简短描述。
机器人利用自身的定位系统确定周围的标注,并将其与其他环境信息一起输入大型语言模型,由模型合成为不同的命令,如“说”、“询问”、“去往”或“标注”等。

大楼各部分的三维地图,其中标注了给 LLM 提供的位置:1 “demo_lab/balcony”; 2 “demo_lab/levers”; 3 “museum/old-spots”; 4 “museum/atlas”; 5 “lobby”; 6 “outside/entrance”.
Spot机器狗已经具备强大的自主移动能力,所以重点是搭建一些基础硬件集成和多个协同的软件模型,完成从视觉到语言的转换,实现交互式导游。

1 – Spot EAP 2;2 – 扬声器 V2;3 – 蓝牙音箱;4 – 点臂和夹具相机
为了实现语音交互,Spot机器狗身上安装了Respeaker V2麦克风阵列,通过USB连接到Spot的内部计算单元EAP 2上。麦克风阵列可以进行语音采集和*放播**。
Spot本身缺乏摄像头,想要实现视觉能力,研究人员使用了一个点臂夹具安装在Spot背部,夹具上连接了一个摄像头。这样Spot就可以通过点臂来控制摄像头拍摄周围环境。
Spot的移动和基本控制是通过其自身的计算单元EAP 2实现的。但是更复杂的交互式导游需要额外的计算能力,所以使用了一个外部计算机(台式机或笔记本电脑),通过Spot的软件开发工具包(SDK)与Spot进行通信控制。
在外部计算机上运行了多个软件模块进行协同工作:语音识别模块捕获语音并转换为文本,视觉问答模块分析图像并生成描述,语言生成模块将多个输入合成连贯的语言输出。
如何让Spot说话外放呢?研究人员使用了一个蓝牙音箱连接到计算机上,语言生成模块输出的语音通过蓝牙音箱进行*放播**。
为了使 Spot 具备对话技能,研发人员使用了GPT-3.5和GPT-4与Spot SDK相结合,并进行了简单的指令微调,让机器狗具备了初级导游判断和对话功能。

想要实现Spot与环境和受众进行交互,研究人员结合了视觉问答、语音识别、语音合成和动作控制等多项技术。
具体来说,研究人员首先通过集成视觉问答模型分析Spot摄像头拍摄的图像,生成图片内容描述和回答简单问题,从而获得场景的视觉信息。
同时,Spot集成了语音识别系统Whisper,可以实时将麦克风收集到的语音转换成文本,实现“听觉”功能。
为了让交互更加自然,研究人员设置了唤醒词,当检测到唤醒词时会激活语音识别与交互。收到问题后利用云服务的文本转语音能力,可以让Spot用语音方式作出回答。
此外,通过检测近处的人员,研究人员可以控制Spot的手臂面向交互对象。手臂和抓手的装饰也增强了交互的体验。
通过视觉问答和语音识别作为输入,以及语音合成和动作控制作为输出,Spot机器狗获得了基本的视听交互和说话能力,可以用作为初级的导游机器人对话。

Spot的意外情况,好像具备了简单的自我决策能力
实验过程中,研究人员还发现了一个奇怪的现象。
当研究人员向机器狗询问Marc Raibert(波士顿动力执行董事)是谁时?
它回答:“我不知道他是谁,让我们去服务台问一问吧。”
到了服务台,机器狗继续向服务人员询问Marc Raibert是谁?
而当研发人员提问:你的父母是谁?机器狗走向了Spot V1和Big Dog的展示区,并认为这些机器人是它的父辈们。
实际上,它们之间确实有关联。

看到spot的表现,有网友表示这样的情况会越来越普遍。



也有网友已经为Spot找了“新工作”。


而spot学会说话也把未来感拉满了。

如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包不限量哟~