
阿里巴巴最近推出了一种基于音频驱动的肖像视频生成框架,名为EMO(Emote Portrait Alive)。这种技术允许用户将一张照片和一段音频(无论是说话、唱歌还是Rap)输入到系统中,然后系统就会生成一个具有生动表情的AI视频。视频的长度取决于输入的音频长度。
EMO团队来自阿里巴巴智能计算研究院,团队成员包括Linrui Tian,Qi Wang,Bang Zhang和Liefeng Bo等四位作者。其中,Liefeng Bo是阿里巴巴通义实验室XR实验室的负责人,他在加入阿里之前曾在亚马逊西雅图总部担任首席科学家,并在京东数字科技集团AI实验室担任首席科学家。
EMO并不是阿里在AIGC领域的首次成果,之前的成果还包括能让全世界的小猫小狗跳洗澡舞的AnimateAnyone,以及能让AI一键换装的OutfitAnyone。
EMO的效果令人印象深刻,无论是让肖像唱歌(不同风格的肖像和歌曲)、让肖像开口说话(不同语种),还是各种“张冠李戴”的跨演员表演,EMO的表现都非常出色。
总的来说,EMO的出现让我们离“发给AI一个剧本,输出整部电影”的目标更近了一步。