阿里巴巴最新人工智能 (阿里巴巴人工智能)

阿里巴巴人工智能模型,阿里人工智能语言模型名称

中国IT巨头阿里巴巴集团旗下的阿里云智能1日宣布，推出人工智能助手“通义听悟(Tongyi Tingwu)”，并已开始开放测试。通义听悟是基于阿里巴巴大规模语言模型“通义千问(Tongyi Qianwen)”开发的人工智能应用。主要可以对音频和视频内容进行文字检索、检索、归纳整理等，还可以自动生成文本、总结采访内容、从ppt中提取数据等。

通义听悟是基于阿里巴巴大规模语言模型“通义千问(Tongyi Qianwen)”开发的人工智能应用。主要可以对音频和视频内容进行文字检索、检索、归纳整理等，还可以自动生成文本、总结采访内容、从ppt中提取数据等。

通义听悟的前身是公司内部名为“听悟”的产品。可以从会议和声音内容中实时转录文字，从去年年末开始实施了限定的封闭测试。阿里云智慧CTO周靖人表示，通义听悟集合了阿里巴巴最先进的语音和语言技术。例如，该公司最新的工业语音识别模型实现了中文数据集的最高识别精度。另外，还导入了自主开发的对话者验证模型，即使是10人以上参加的对话，也能区分对话者。另外，由于整合了通义千问，还可以概括出1万字以上的音视频内容。

阿里云智慧CTO周靖人表示，通义听悟集合了阿里巴巴最先进的语音和语言技术。例如，该公司最新的工业语音识别模型实现了中文数据集的最高识别精度。另外，还导入了自主开发的对话者验证模型，即使是10人以上参加的对话，也能区分对话者。另外，由于整合了通义千问，还可以概括出1万字以上的音视频内容。

在通义听悟，用户只要上传音频、视频数据，就能完成对录音内容的转录。试了一下，发现打字速度也很快。如果是1 ~ 2小时的语音数据，大概几分钟就能完成转录。转录结束后，除了翻译(只在中文和英语之间)、摘要和分段之外，还要整理说话人的意见，制作ToDo列表。

据阿里云介绍，通义听悟今后将继续增加基于大规模语言模型的功能。例如，可以一键提取视频内容中使用的ppt幻灯片，对于用户提出的有关语音、视频内容的问题，人工智能助手可以归纳出相应的段落。

值得注意的是，通义听悟将以浏览器插件等多种形式提供。如果在Chrome中安装插件的话，即使是没有字幕的视频内容也可以实时添加两国语言的字幕。转换成文字的文本还可以作为字幕文件*载下**，媒体工作者可以在后期制作中使用。

阿里巴巴的数字协作办公场所“DingTalk”的在线会议功能中也加入了通义听悟。与以往单纯的文字记录不同，它精选了会议的要点，制作了完整的文档，有效地提高了公司内部的业务效率。据说在会议中也会整理会议记录和摘要。

通义听悟分为个人版、法人版两种。另外,将来是阿里巴巴的搜索应用程序“夸克(quark)”和“阿里云盘”(aliyundrive.com)等通过提供服务的计划。阿里云表示，法人版已经在阿里巴巴集团内部广泛使用。通义听悟的这些功能可用于会议、讲课、研修、面试等，如果能导入各种软件，将会发现巨大的商机。