chatgpt机器语言被屏蔽 (chatgpt会让人类科技爆发吗)

🏷️ 头部科技 ✍️ 聚焦人工智能、机器人、生物医药等领域的科技创新，未来已来。 📅 2026-03-18T17:37:40+00:00

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

文 | Congerry、Blink162

ChatGPT注入高级智力，“哑巴傻狗”变“聪明狗狗”。

今日，波士顿动力在YouTube上发布了一段长达8分多钟的视频，展示其四足机器人Spot的语言能力，视频中的狗子还操着一口流利的伦敦腔。

视频精华再此↓↓

，时长 01:08

这都是归功于ChatGPT，自Spot面世以来，高灵活程度和协调程度让其可以做出很多高难度动作，例如翻跟头、跳舞等……但它之前并不会“说话”。

现在继承了GPT，Spot化身“导游”，用英国口音与员工聊天，带他们参观公司的设施。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

正如演示中所示，该机器人能够回答问题，甚至可以像木偶一样张开“嘴巴”，让它看起来像是真的在说话。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

波士顿动力公司使用了OpenAI的ChatGPT API以及一些开源的大语言模型来训练它的反应。

其实不止语言能力，ChatGPT的注入让Spot整体反应都变得更智能、更交互。

也因此，Spot在说“Follow me”（跟着我）的时候，会自动做出转身引路的动作。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

在人指着一些需要解说的物品时，Spot也会立马抬头看向所指物品，然后进行解答：

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

波士顿动力给Spot安装了扬声器，还增加了文本转语音功能。

为了打造不同的个性，波士顿动力公司对Spot的代码稍作了修改。然后，狗子就会完全修改它的输出，从它的口音到组织句子的方式，再到声音的音调，甚至连它转头的方式似乎也随着它的个性而变化。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

Spot的技术原理

机器狗是如何化身导游的？

简而言之，就是机器狗Spot在环境中行走探索，通过视觉观察识别物体，然后利用视觉问答(VQA)或图像描述模型生成物体的文本描述，最后用大型语言模型(LLM)根据这些描述进行扩展和详细解释，完成从视觉到语言的转换过程。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

具体来说，研究人员首先为机器人提供了一个带有标注的3D地图，上面标出了不同位置的简短描述。

机器人利用自身的定位系统确定周围的标注，并将其与其他环境信息一起输入大型语言模型，由模型合成为不同的命令，如“说”、“询问”、“去往”或“标注”等。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

大楼各部分的三维地图，其中标注了给 LLM 提供的位置：1 “demo_lab/balcony”; 2 “demo_lab/levers”; 3 “museum/old-spots”; 4 “museum/atlas”; 5 “lobby”; 6 “outside/entrance”.

Spot机器狗已经具备强大的自主移动能力，所以重点是搭建一些基础硬件集成和多个协同的软件模型，完成从视觉到语言的转换，实现交互式导游。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

1 – Spot EAP 2；2 – 扬声器 V2；3 – 蓝牙音箱；4 – 点臂和夹具相机

为了实现语音交互，Spot机器狗身上安装了Respeaker V2麦克风阵列，通过USB连接到Spot的内部计算单元EAP 2上。麦克风阵列可以进行语音采集和*放播**。

Spot本身缺乏摄像头，想要实现视觉能力，研究人员使用了一个点臂夹具安装在Spot背部，夹具上连接了一个摄像头。这样Spot就可以通过点臂来控制摄像头拍摄周围环境。

Spot的移动和基本控制是通过其自身的计算单元EAP 2实现的。但是更复杂的交互式导游需要额外的计算能力，所以使用了一个外部计算机(台式机或笔记本电脑)，通过Spot的软件开发工具包(SDK)与Spot进行通信控制。

在外部计算机上运行了多个软件模块进行协同工作：语音识别模块捕获语音并转换为文本，视觉问答模块分析图像并生成描述，语言生成模块将多个输入合成连贯的语言输出。

如何让Spot说话外放呢？研究人员使用了一个蓝牙音箱连接到计算机上，语言生成模块输出的语音通过蓝牙音箱进行*放播**。

为了使 Spot 具备对话技能，研发人员使用了GPT-3.5和GPT-4与Spot SDK相结合，并进行了简单的指令微调，让机器狗具备了初级导游判断和对话功能。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

想要实现Spot与环境和受众进行交互，研究人员结合了视觉问答、语音识别、语音合成和动作控制等多项技术。

具体来说，研究人员首先通过集成视觉问答模型分析Spot摄像头拍摄的图像，生成图片内容描述和回答简单问题，从而获得场景的视觉信息。

同时，Spot集成了语音识别系统Whisper，可以实时将麦克风收集到的语音转换成文本，实现“听觉”功能。

为了让交互更加自然，研究人员设置了唤醒词，当检测到唤醒词时会激活语音识别与交互。收到问题后利用云服务的文本转语音能力，可以让Spot用语音方式作出回答。

此外，通过检测近处的人员，研究人员可以控制Spot的手臂面向交互对象。手臂和抓手的装饰也增强了交互的体验。

通过视觉问答和语音识别作为输入，以及语音合成和动作控制作为输出，Spot机器狗获得了基本的视听交互和说话能力，可以用作为初级的导游机器人对话。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

Spot的意外情况，好像具备了简单的自我决策能力

实验过程中，研究人员还发现了一个奇怪的现象。

当研究人员向机器狗询问Marc Raibert（波士顿动力执行董事）是谁时？

它回答：“我不知道他是谁，让我们去服务台问一问吧。”

到了服务台，机器狗继续向服务人员询问Marc Raibert是谁？

而当研发人员提问：你的父母是谁？机器狗走向了Spot V1和Big Dog的展示区，并认为这些机器人是它的父辈们。

实际上，它们之间确实有关联。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

看到spot的表现，有网友表示这样的情况会越来越普遍。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

也有网友已经为Spot找了“新工作”。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

而spot学会说话也把未来感拉满了。

chatgpt会让人类科技爆发吗,chatgpt让数字机器人说话

如果您有什么想说的，欢迎屏幕前你们在评论区留言讨论！我们将为点赞、评论、关注的同学们送上红包不限量哟~