10分钟!*耐基卡**梅隆教你构建K12教育场景下的多媒体信息检索系统

本篇文章为CMU 论文《Text, Speech,and Vision for Video Segmentation: The Informedia Project》论文的解读。

10分钟!*耐基卡**梅隆教你构建K12教育场景下的多媒体信息检索系统

CMU 多媒体视频切分

本篇论文阐述了在数字视频库建设中使用到的三个核心技术:图像场景分析技术,语音信号文本处理技术以及自然语言处理。通过集成使用以上这些技术CMU针对K12教育场景的多媒体数字图书馆可以支持海量多媒体数据的搜索和查询,通过返回关联视频片段的方式,节省用户的学习时间成本

1 系统介绍

下面是CMU K12场景多媒体数字图书馆项目的整体架构图。

10分钟!*耐基卡**梅隆教你构建K12教育场景下的多媒体信息检索系统

Informedia数字视频系统整体架构

多媒体数据库创建

多媒体数据库检索

用户可以基于文本输入和口语进行多媒体内容检索,基于关键字仅仅返回相关的片段。

10分钟!*耐基卡**梅隆教你构建K12教育场景下的多媒体信息检索系统

2.视频分割

在Informedia 数字图书馆中大多是一些1小时左右教学视频录像,为了高效的访问整个视频中的相关内容,我们将原始视频切分成为了很多的小段,系统针对查询很少会直接返回整个1小时的水平。

Informedia数字图书馆创建过程采用了三个级别的视频切割。

第一个级别“video paragraph”,一个基于共同内容包含一系列场景(series of scenes)的视频片段。

第二个级别是在video paragraph中找出一个关键场景(key scene)。

第三个级别是在关键场景中找出一个关键帧(representative frame)作为静态展示。

2.1 视频分段(Video paragraphs)

当用户需要获取查询结果的时候,系统需要决定返回多少内容,视频的起始和结束切割点如何决定?这些问题都可以通过用户检索查询词 来决定,同样也决定于“视频段落”。理想情况下返回的切割点正好发生在内容变换的切换点。

2.2 独特场景切割(Individual scenes)

在语音和自然语言定义的边界(视频段)上通过图像处理的方式切分成各校的基于场景(scene)的段。在一个场景中的所有图像帧将被用来提取icon。

2.3 关键帧icon提取(Frame icons)

提取icon主要为静态呈现目的。用户可以通过同时并行查看不同段落的icon,确认内容是否与查询相关,从而快速确定相关内容。

3.主要技术

3.1 文本分析

a.通过字幕或者人工标注的时间对齐的文本,可以发现一些自然的结构标记,比如使用标点符号来作为视频分割的粒度依据。

b. 通过TF/IDF技术来识别关键词。

3.2 语音分析

语音分析之操作Video中的音频部分。通过语音识别技术我们可以获取文本,尽管里面可能包含一些错误。通过静音和语音信号的低能量区域可以检测话题(topics)和多个对话者之间的场景转换。

语音识别(Recogniton)

实现语音转文本功能。使用Triphones建模,Viterbi解码和trigram语言模型。

语音分割(Acoustic Segmentation)

检测句子建的停顿,我们使用一个经过修改的信噪比(SNR)技术。

10分钟!*耐基卡**梅隆教你构建K12教育场景下的多媒体信息检索系统

Modificationed Sinal to Noise ratio

为了防止异常的长片段,我们强制系统在30 秒至少有一个间断(break)。

3.3 图像分析

图像分析主要用来进行标识场景(scene)变换(或间断break)和关键帧icon生成。

通过直方图分析(Histogram comparative difference Analysis) 和光流(Optical Flow)分析,对视频进行场景划分和关键帧icon生成。

10分钟!*耐基卡**梅隆教你构建K12教育场景下的多媒体信息检索系统

场景分段和关键帧icon提取

4.技术集成

通过语音识别技术进行语音文本获取和基于静音(音频低能量区域)进行paragraph切分。文本被送到自然语言处理系统,关键词被标识出来。关键词和与其对应的视频段落位置被索引到了目录中。用户查询时,通过用户关键词查询语音文本,除了返回最佳匹配外周围的视频段落也被返回。视频段落由文本和关键词标识通过自然语言处理技术产生。在段落中最重要关键字标识最重要的场景。场景边界由图像颜色直方图 differences 和光流分析共同决定。

转载声明:

本文为头条号作者深度视野整理发布,任何个人或组织未经授权不得转载。

违规转载将追究法律责任。