CVIU2023:计算机视觉中的上下文理解:综述

论文收录于 Computer Vision and Image Understanding 2023

论文题目：

Context Understanding in Computer Vision: A Survey

论文地址：

https://arxiv.org/abs/2302.05011

摘要

背景信息在许多计算机视觉任务中起着重要的作用，如目标检测、视频动作检测、图像分类等，脱离上下文识别单个物体或动作有时非常具有挑战性，而上下文信息可能有助于极大地提高对场景或事件的理解。外观上下文信息，例如物体背景的颜色或形状，可以提高物体在场景中的识别精度，语义上下文(例如，空桌子上的键盘vs.桌面计算机旁边的键盘)将提高准确性并排除不相关的事件，不存在于图像本身中的上下文信息，例如捕获图像的时间或位置，也可以帮助决定是否应该发生某些事件或操作。其他类型的上下文(例如建筑物的结构)也将提供额外的信息，以提高准确性，在这项调查中，回顾了计算机视觉任务中使用的不同上下文信息，我们将上下文分为不同的类型和不同的层次。我们还回顾了可用的机器学习模型和图像/视频数据集，可以使用上下文信息，此外，我们主要在基于图像和基于视频两类任务中比较了基于上下文的集成和无上下文的集成，最后，本文总结了未来在语境学习和利用方面的一些有前景的方向。

1. 简介

上下文不仅是指与目标对象或事件本身的外观有关的任何信息，还包括场景中的其他对象或事件，视觉的或非视觉的,背景信息在许多计算机视觉任务中起着重要的作用，如目标检测、视频动作检测、图像分类等。在这些任务中，上下文信息可以为识别和理解提供重要线索,脱离上下文识别单个对象或动作有时可能具有挑战性，但是上下文信息可以通过提供额外的信息来帮助提高对场景或事件的理解，外观上下文信息，例如背景中物体背景的颜色或形状，可以提高物体的识别精度。语义上下文(例如，空桌子上的键盘vs.桌面计算机旁边的键盘)将提高准确性并排除不相关的事件，其他上下文信息，如捕获图像的时间或位置，这些不在图像本身中，也可以帮助决定是否应该发生某些事件或动作，具有不同感官测量的上下文信息，例如建筑物的D结构，也将提供额外的信息来提高精度。本调查概述了各种计算机视觉任务中的上下文理解，以及如何在不同的方法中使用上下文，图1显示了调查的概述，我们首先将语境分为几种不同的类型:空间语境、时间语境和其他语境，然后我们研究不同层次上上下文的使用:先验知识层次、全局特征层次和局部特征层次。

CVIU2023:计算机视觉中的上下文理解:综述

人类和机器可能会以不同的方式对待环境，人类有能力探测和识别物体，并在各种环境中轻松地执行其他视觉任务。这些环境包括遮挡、照明变化、不同的视点，这些仍然是计算机视觉解决方案建模和推理的挑战，语境被人类有效地、毫不费力地用来感知现实世界。即使物体是模糊的，不能孤立地识别，人类也可以借助上下文立即识别出目标(图2)，与人类相比，上下文建模仍然是计算机视觉的挑战，我们将在第2节讨论上下文在人类视觉和计算机视觉中的作用。

CVIU2023:计算机视觉中的上下文理解:综述

在计算机视觉任务中，上下文已被以各种方式使用，对象的同时出现会影响目标对象或事件的存在，物体之间的空间关系(例如，画在墙上)提供了目标位置的线索。时间信息，如附近的帧，以前的剪辑可以帮助预测未来会发生什么，来自场景的语义上下文潜在地表明了一个对象或事件在特定场景中而在其他场景中不存在的可能性，它可以是空间语义的，也可以是时间语义的。其他上下文，如图像采集元数据中的非视觉信息(如日期、环境、位置)，也可以作为上下文信息使用，在第3节中，我们回顾了基于上下文的方法，并讨论了三种主要类型的上下文:空间上下文、时间上下文和其他上下文。

内在信息，如相机参数，非视觉信息，如目标或事件的描述，以及来自图像或视频的元数据，都可以作为先验知识上下文，这些先验知识可以指示一个目标(例如，客厅里的电视)或一个事件(例如，在停车场停车)，我们应该在场景中预期，什么不应该出现在场景中(例如，足球场上的西瓜)。图像识别可以使用来自整个场景的全局上下文，是前面提到的目标识别的前提，来自目标或事件本身的局部上下文具有明显的特征，可用于检测和识别目标或事件。对于小目标，由于缺乏局部上下文表示或特征不明显，它也可以用于全局上下文和先验知识，我们将在第4节进一步讨论不同层次的上下文，并回顾如何在基于上下文的方法中使用这些上下文。

许多基于上下文的方法使用深度学习方法，在基于上下文的集成中，不同类型的网络体系结构被用作主干，为了训练深度卷积神经网络，提出了五种不同的卷积网络结构。在回顾的文献中，ResNet和VGGNet是基于上下文的方法中使用最多的架构，许多研究要么使用现有的ResNet和VGGNet来利用上下文信息，要么使用改进的版本来更好地与任务相关的上下文结合，图卷积网络(Graph Convolutional Network, GCN)由于其独特的图结构，被用于建模目标与其他对象之间的空间关系，以及不同对象类别之间的语义关系，在第5节中，我们回顾了在基于上下文的方法中使用的深度卷积网络架构。

许多数据集已经被提出并广泛应用于计算机视觉任务中，如目标检测、图像分类和视频事件识别等，虽然许多先进的方法在大规模数据集上具有良好的性能，但这些方法缺乏利用这些数据集提供的丰富的上下文信息，在第6节中，我们将这些数据集分为图像数据集和视频数据集，并通过进一步提供包含哪些上下文信息的详细信息来审查数据集。

此外，我们将各种基于上下文的集成分为两类:基于图像的上下文集成和基于视频的上下文集成，空间上下文和语义上下文主要用于基于图像的上下文集成，它们可以提供位置、环境、天气等信息，并导致潜在的性能改进。基于视频的语境集成通过时间语境融合空间语境和语义语境，时间维度上的上下文可以作为目标对象或事件的先验知识，这可以提高无上下文方法的性能。，全局上下文和局部上下文用于提取场景和目标对象或事件的特征在第7节中，我们提供了不同计算机视觉任务中一些基于表示上下文的集成的细节，并比较了基于图像的上下文集成(第7.1.6节)和基于视频的上下文集成(第7.2.4节)的性能，本文还从(1)人类的相似性、(2)准确性和(3)数据和时间的效率(章节7.3)方面总结了所综述作品的优点。

综上所述，本调查论文的组织结构如下，第2节概述了上下文信息在人类视觉中的重要性(2.1)以及上下文如何在计算机视觉中使用(2.2)，第3节讨论了三种主要类型的上下文:空间上下文(3.1)，时间上下文(3.2)和其他上下文(3.3)，第4节将上下文分为三个层次:先验知识层次(4.1)、全局上下文层次(4.2)和局部上下文层次(4.3)，我们在第5节中回顾了一些在基于上下文的方法中使用的流行的深度卷积网络架构，第6节将讨论可以使用上下文信息的常用数据集，第7节介绍如何在基于图像的任务和基于视频的任务中集成上下文，基于上下文的方法的性能比较将在7.1.6小节中讨论基于图像的上下文方法和7.2.4小节中讨论基于视频的上下文方法，第7.3节也概述了评审工作的优点，最后，我们在第8部分总结了我们的调查，并提供了一组有前景的未来方向。

2. 语境的作用

人类和机器对待环境的方式是不同的，我们的大脑不仅处理眼睛发出的信号，还会受到所看到的丰富背景的影响，即使在大量遮挡、光照变化和各种视点等情况下，人类也能对物体或事件进行定位和识别，这仍然是计算机视觉面临的一大挑战。这种差距可能是由于训练数据和测试数据的差异造成的，机器是在特定背景下的特定物体或事件的图像或视频上进行训练的，但模型可能用于完全不同背景下的图像或视频，而人类的视觉系统对大的场景变化(有或没有物体或事件，环境变化，外观变化等)非常有经验，然而，几十年来，机器视觉模型和算法已经被探索以系统的方式理解上下文，希望像人类一样，以各种形式进行计算机视觉任务。

在本节中，我们将回顾上下文在人类视觉和计算机视觉中的作用，我们讨论了人类视觉和计算机视觉之间的上下文理解的差异，并解释了为什么上下文推理对计算机视觉仍然具有挑战性，但却是至关重要的，本文回顾了以前工作中的例子，以解释为什么上下文对人类和机器都很重要。

2.1. 人类视觉中的情境

人类使用视觉环境毫不费力地感知现实世界，我们所看到的不仅是基于眼睛发送给大脑的信号，而且还受到周围环境的强烈影响，视觉刺激呈现在我们之前的知识和预期中。物体的内在特征(形状、颜色、纹理等)在我们眼睛的视网膜图像中与场景背景的对比提供了足够的信息来确定物体是什么，在正常情况下，人类也可以很容易地识别物体，然而，当一个物体孤立地出现在它周围的场景中时，识别这个物体就变得不可靠了。最近的一篇综述(Vo, 2021)讨论了人类如何记忆场景中的物体。我们过去的经验在与现实环境互动时成为关键，我们的混合记忆提供了一种场景语法，这是关于物体倾向于在哪里的一般知识，以及关于存储在情景记忆中的特定场景的更具体的记忆，在现实世界的搜索过程中，诸如可能发现物体的场景区域之类的知识提供了强大的上下文线索，图2显示了孤立对象和上下文中同一对象的示例。当键盘离开办公环境时，人们几乎认不出来了，但在办公场景内，我们可以识别显示器前面的物体是键盘，甚至周围的区域都是模糊的，背景提供了关键信息，帮助我们更快、更准确地从视觉上找到和识别物体。

上下文包含了丰富的信息，不仅包括自然场景和物体之间的相互关系，还包括物体相对于场景的相对位置或场景中物体的共同出现，除了视觉形式的语境，非视觉信息也可以提供重要的线索，例如，不需要看图像，如果我们知道图像中有一艘船，我们可以很容易地猜测图像中有河流或海洋，人类甚至可以只描述一个物体或事件就能画出一幅画，无论是物体与场景之间的视觉信息，还是语义相关物体之间的关系，都能使人受益。

如果一个物体出现在不相关的场景中呢?行为研究表明，出现在熟悉背景中的物体可以比出现在不寻常场景中的物体更准确、更快地被检测到，在不寻常场景中，物体可以被人类观察者清楚地孤立地识别出来，在这种情况下，语境可能会对识别产生误导，从而不能提供有用的信息，图3显示，在不同的语境下，同一个斑点可以被解释为汽车、行人、电话、瓶子甚至鞋子。

CVIU2023:计算机视觉中的上下文理解:综述

然而，自然场景中的上下文信息提供了关键信息，帮助我们更快、更准确地从视觉上找到和识别物体，孤立地识别不了的物体，当它出现在相关的上下文场景中时，就能被识别出来，除了对象本身之外，上下文还可以作为对象可用的补充，人类还可以推断出关于场景的信息，这将有助于解释场景的其他部分，我们不仅可以利用视觉环境，也可以利用非视觉环境，轻松地建立对象之间的层次关系。

到目前为止，人类似乎总是比机器表现得更好，造成这种性能差距的一个潜在原因是人类和机器具有不同质的学习机制，机器通常是在包含特定上下文对象的图像上学习，数据量有限，而人类每天在现实世界中查看不同上下文的对象，另一个原因是，计算机视觉试图模仿人类的视觉，但在我们大脑的帮助下，人类的视觉更加先进，我们不仅可以分别学习上下文和对象，而且可以很容易地在对象和它们的上下文之间建立联系和关系。相比之下，计算机视觉在建模对象和上下文之间的关系方面仍然具有挑战性，当对象与其周围的上下文具有弱相关性时，在存在更多信息的对象特征时，上下文可能难以学习，另一方面，如果物体与其上下文有很强的相关性(例如，客厅通常有一台电视)，物体可以随着上下文有效地学习，这些变化使得机器很难系统地、独立地学习上下文，背景在人类视觉和计算机视觉之间也有不同的表现形式。

2.2. 计算机视觉中的上下文

虽然我们可以毫不费力地使用人类视觉系统的上下文，但对物体和关系的上下文推理仍然是计算机视觉的挑战和关键，如图4所示，机器算法可以清晰地识别出物体:骑手(黑色盒子)、自行车(橙色盒子)和头盔(Y黄色盒子)，仅仅捕捉到这些信息，平行关系(一个人骑自行车)和等级关系(头盔附属于头部)就消失了。

CVIU2023:计算机视觉中的上下文理解:综述

给定现实世界的图像或视频，计算机视觉系统的最终目标是确定呈现什么视觉元素和结构，这些元素如何相互关联，并对视觉输入中正在发生的事情有一个完整的理解。视觉理解很难定义和评估，因此研究人员专注于解决更集中、更专业、更低层次的问题，如物体检测或图像分类，物体识别并不是一个孤立的过程，因为它可能受到其他物体的存在以及场景的整体上下文的影响，全局上下文提供了丰富的信息源，有助于提高识别任务的性能。

为了在图像中建立关系并理解场景，计算机视觉任务中使用了不同的上下文信息，许多任务，如目标检测，视频事件识别，视频动作检测，场景图生成，数据增强，图像分类和图像修补使用全局上下文和语义关系来生成场景图。

来自对象本身和邻域的上下文已用于对象检测，数据增强和图像修补引入了一种分层上下文模型来识别视频中的事件，尽管上下文信息已经被以不同的方式使用，并且比无上下文方法获得了更多的成功，但如果对象出现在不相关的场景中，上下文可能会产生误导(图3)。Sun等人利用十字路口路边坡道的共现性来检测城市街道区域缺少的路边坡道，不同语境在各种计算机视觉任务中得到了广泛的应用。

对对象和关系进行上下文推理是计算机视觉的关键，上下文推理是将物体的外观与空间关系、语义关系或先验知识相结合，解决视觉任务，一些包含上下文信息的神经网络架构已经成功应用于上述计算机视觉任务，证明了比无上下文方法更好的性能，一些方法通过利用场景之间的语义关系和空间关系，将图形模型与神经网络结合起来进行结构推理，对象及其属性，尽管机器视觉不能像人类那样高度系统地理解上下文，但在计算机视觉任务中，上下文已经以各种形式和不同的集成方式被有效地使用。

3.主要上下文类型

上下文信息可以来自所考虑的对象或事件的外观，如形状、颜色、纹理等，也可以来自与对象或事件的外观没有直接关系的任何其他信息或数据，如环境(内部或外部)、位置(教室、餐厅、健身房等)和描述(喝咖啡、骑自行车等)等，我们将语境分为三大类:空间语境、时间语境和其他语境，如图5所示。

CVIU2023:计算机视觉中的上下文理解:综述

空间语境是事物与事件之间的空间关系，如共现关系、二维空间关系、空间语义约束等，时间上下文是指时间上的近距离信息，可以是短时间内视频的近距离帧，也可以是几个月或几年里捕捉到的类似场景，或者是时间上的语义约束。语义上下文可以指示一个对象或事件应该在某些场景中找到，而不是在其他场景中，在语言模型中，语义语境可以用来描述空间语境或时间语境，我们将语义语境分为空间语境和时间语境两种类型。其他语境包括其他既不是空间也不是时间的语义语境，以及来自其他形态的语境线索，如音频、热、天气等，以及来自利用和目的的语境信息，在各种计算机视觉任务中，有时会结合使用三种类型的上下文。

在本节中，我们将概述三种主要的上下文类型，我们详细描述了每种上下文类型，以及它们在不同计算机视觉任务中的表示方式。

3.1. 空间语境

空间上下文可以定义为相对于场景中的其他对象，在某些位置找到对象而不在其他位置找到对象的可能性，汽车在路上，不在海里，如果一块玻璃不在墙上，那么它就不是一扇窗户，图像中的物体应该与图像中的其他物体保持合理的关系。空间语境可以提供关于这些空间知识的信息，在场景中引入对象之间关系的最简单方法之一是共现，空间知识，如“一只鸟在天空中飞翔”，可以直接转化为场景中物体之间的空间关系，根据常识，某些物品(如砧板、电视)应该更频繁地出现在某些地方(如厨房和客厅)，空间语境通常指:

1.对象当前时间和位置的环境。

2. 目标对象周围的相关上下文。

3.到达目的地的路径/方向。

4. 事件发生在对象周围。

我们如何安排这些上下文和目标对象之间的关系?下面我们将讨论在上下文建模和上下文推理中有效使用的两种主要空间上下文表示:共现和2-D空间表示，除了这两种表示，我们还将讨论空间语义上下文，语义约束可以限制对象之间的空间关系。

3.1.1. 同现表示

共现现象是在视觉场景中引入物体之间关系的最简单方法之一，上下文交互，如“汽车出现在道路上”，可以直接翻译为对象标签之间的上下文关系，在这种情况下，图像中某个对象类的存在(例如，道路)在统计上影响目标对象(例如，汽车)的存在，给定一个标记了许多对象的数据集，构建上下文矩阵来计算标签的共现次数是很简单的，这种共现矩阵可以很容易地转换。众所周知，某些物体(如电脑显示器、床)在某些地方(分别为办公室和卧室)出现的频率更高，从这些学会的共现统计数据出发，Rabinovich等人设计了条件随场论(CRF)的相互作用势，以测量被检测对象之间的上下文一致性，有趣的是，“语义上下文”和“共现”这两个术语有时可以互换使用。Carbonetto, Freitas和Barnard提出的统计模型也可以学习概念之间的共现(例如，图像标题词)，然而，在他们的模型中，马尔可夫随机场(MRF)相互作用势仅估计在相邻的图像片段之间(例如，物体斑点)。

不仅是共现，Wang et al 给出了共现函数和发生函数的正式定义，这些函数提供了以给定标记像素为中心的不同区域上标签的概率分布，也许这个方案中最有趣的想法是通过使用发生(而不仅仅是共发生)将两个独立的标签集联系起来，这将形状和外观标签集成到形状和外观上下文描述符中。图6给出了一个示例，目的是确定红色边框中的男性是否属于同一身份，然而，由于在不同的场景中，人的外表会有很大的变化，所以结果通常是不确定的，在这种情况下，模型观察到绿色包围框中的同一个人出现在两个场景中，因此可以更有把握地判断红色包围框中的人属于同一身份，因此，绿色包围框中的人起着积极的作用，而场景中的其他人则是噪声上下文。

CVIU2023:计算机视觉中的上下文理解:综述

还可以在物体部分之间进行发生分析(例如，将鼻子和嘴巴作为面部的一部分进行检测)，在这种情况下，各部分之间的相对位置是至关重要的。Fink和Perona 通过使用面部部分(左眼、右眼、嘴、鼻子、整张脸)的个体检测和它们的空间安排来检测人脸，因此，他们在每次增强迭代中处理M个实体，并计算M个映射，给出每个实体出现在图像中不同位置的可能性，通过使用所有的似然映射作为后续增强迭代的额外输入通道，组合人脸部分成为可能，因此，用于眼睛检测的似然图可以用于进一步检测嘴巴，用于面部检测的似然图可以帮助检测多个面部，因为面部倾向于在考虑的数据集中水平对齐，本文采用大语境窗口来分析这种共现关系和空间关系。

Perko和Leonardis提出了另一种类似的方法，通过估计图像中心有行人的其他行人位置的二维概率分布，来学习街道场景中行人之间的水平对齐，Yang等人最近的一项工作提出了用于人脸检测的Faceness-Net，Faceness-Net没有使用整个面部，而是考虑使用面部各部分的空间结构和共存作为上下文线索来检测面部，如图7所示，一张脸考虑了眼睛、鼻子、嘴巴和头发的同时出现。利用面部各部分的空间关系生成面部各部分，例如，头发应该长在眼睛上面，嘴巴应该只长在鼻子下面，等等。

CVIU2023:计算机视觉中的上下文理解:综述

3.1.2. 二维空间表示

Marques et al将二维关系分为三类:(1)方向关系2 .距离关系3、拓扑关系。为了更好地理解空间上下文如何在计算机视觉任务中使用，我们将重点放在(1)方向关系和(3)拓扑关系上。方向关系表示一个对象(主对象)相对于另一个对象(引用对象)的方向，如果一个参照系是已知的，这种关系就可以被定义，通常，基本方向(E,N,S,W)及其细化方向(NE, NW,SW, SE)可以(默认地)用作外部参照系。人们也可以假设在图像空间中有一个内在的参考方向(例如，一个人可以谈论一个物体在建筑物的“右边”)，相对垂直位置(“上面”，“下面”)经常被使用，并且判断具有足够的鉴别性来检测传统数据集中的对象，如PASCAL，其中水平位置不需要携带太多的鉴别信息。

距离关系提供了绝对像素(例如鸟距离地面300像素)或相对距离(例如鸟距离地面约1500m)的测量，在归一化图像空间中，一些距离可以用(绝对)像素表示(例如，物体A距离物体B大约200像素)。Heitz和Koller还引用了一些人类知识，例如“汽车停在离建筑物20英尺远的地方”，这突出了用单幅图像进行2D空间推理的局限性，因为需要3D几何背景来捕捉这种关系。更常见的是，相对测量导致二维定性关系，如“近”、“远”或“等距”，在一般情况下，为这种关系确定正确的规模和相关的阈值是一项困难的任务，但在特定于领域的应用程序中是容易处理的。

拓扑关系描述了一个对象与其邻居之间的关系，通过考虑对象的内部、边界和外部来正式定义，交集关系如“触摸”、“重叠”、“包含”(在、内部)和“交叉”在实践中经常使用，一些作者还提出了一个稍微微妙的版本(“encloses”)的简单关系“contains”，人们还应该注意到，最简单的拓扑关系是当两个区域/对象“不相交”时，当然，所有这些空间安排还可以进一步结合，例如，Singhal et al 使用“远高于”和“远低于”来混合方向和距离关系。它们还混合了“左”和“右”关系，并引入了较弱的“旁边”关系，Heitz和Koller 还结合了所有类型的关系(八个方向关系，两个不同的距离和一个拓扑“在”关系)，生成25个候选关系，从中提取最有用的关系，所有这些空间关系都可以很容易地用语言形式来描述。

3.1.3. 空间语义语境

在上述讨论中，空间上下文被编码为与其他对象的共现或二维空间关系，语义上下文可以更普遍有效地描述这些空间关系，下文将详细介绍语义上下文，事实上，大多数空间语境的研究方法都在一定程度上使用了语义语境。

语义上下文对应的是一个对象在某些场景中被找到的可能性，而不是在其他场景中，在空间语境方面，语义语境可以提供场景中物体之间空间关系的约束。物体具有典型的环境，例如浴室中的浴缸或卧室中的床。早期作品中的语义上下文来源来自共同的专家知识，这将识别系统限制在一个狭窄的领域，只允许有限数量的方法来处理现实世界场景的不确定性。另一方面，带注释的图像数据库和外部知识库可以处理更一般的真实世界图像情况，当从这些来源学习语义关系时，也发生了类似的演变:预定义的规则被作为像素特征和共现矩阵学习隐式语义关系的方法所取代，语义上下文在场景图生成任务中大量使用来描述不同物体之间的空间关系(图8)。

从强标记训练数据中可以获得空间语义上下文，使用语义上下文进行场景图形生成任务，他们指出，即使对象检测器可以检测到场景中出现的所有对象，它仍然无法理解语义关系。

丰富的语义语境可以表明物体之间具体的空间关系，有助于加深对视觉场景的理解，这些语义上下文可以指示场景中对象的共现，如果我们知道图像中有一个骑马的人，我们就可以很容易地建立空间关系，比如共现关系(图像中有一个骑马的人和一匹马)和二维空间关系(骑马的人在房子上;骑手的头上可能会有一个头盔)在图8中，提出的模型以图像为输入，输出为由对象类别、对象类别的包围框以及对之间的语义关系组成的场景图，该模型不再在训练过程中孤立地推断每个对象，而是传递丰富的语义上下文信息来改进其预测，另一项工作通过使用训练数据中的标签共现作为语义上下文先验来执行多标签图像分类任务，以建模每个对象类别之间的关系。

场景、事件或其他物体存在等非视觉形式的空间语义语境也可以帮助预测物体的存在，如图9，Rabinovich的工作所示，错误标记的“Lemon”通过强化语义上下文约束(在网球比赛场景中)被改进为纠正“Tennis”。为了加强空间语义上下文，作者使用从谷歌集获得的外部知识(而不是从图像中直观地获得)来生成对象类别之间的语义上下文约束。Palmer 研究了视觉场景的先前呈现对识别简单呈现的现实世界物体的图形的影响，他发现，如果目标(例如一条面包)出现在一个合适的场景(例如厨房柜台)之后，观察者在对象分类任务中的准确性会提高，而如果场景对象配对不合适(例如厨房柜台和低音鼓)，则会降低。

CVIU2023:计算机视觉中的上下文理解:综述

在某些任务中，地理信息也可以作为空间语义上下文，Aodha等人提出了一种使用地理位置作为空间先验的方法，来估计给定对象类别出现在该位置的概率，图10显示了的框架，为了识别图像中是否存在物种，作者使用了从元数据中提取的空间上下文(纬度，长，日)，此外，他们使用贝叶斯模型作为基本模型，并使用不同的网络来处理图像分类和来自元数据的时空上下文。

CVIU2023:计算机视觉中的上下文理解:综述

3.2. 时间上下文

在常识上，时间上下文可以理解为视频中的信息，例如附近的帧，以前的剪辑或最近捕获的视频，许多作品使用视频中的时间上下文来提高性能，然而，对于一些计算机视觉任务，例如物种分类，动物运动，来自附近帧或最近视频的时间上下文是不够的，将需要更长的时间上下文(几个月或几年)来帮助完成这些任务，较长的时间背景源可以提供有用的信息，例如物种在不同时间段的运动模式，这将更好地表明场景中物体的存在。

我们首先回顾两类时间背景:视频中的时间背景和跨月的时间背景，许多作品通过使用附近的帧作为时间上下文来关注视频，在计算机视觉任务中，跨月的时间上下文较少使用。我们进一步回顾了时间语义上下文，其中时间信息主要以非视觉形式提供，作为任务的时间线索，下面，我们将详细介绍这三个类别中的不同作品。

3.2.1. 短期时间上下文(视频)

短期时间上下文是指时间上的近距离信息，例如视频的近距离帧，在给定图像之前/之后捕获的图像，或者来自类似场景和捕获时间的视频数据，有时单纯的时间语境无法提供足够的信息，因此空间语境、语义语境等其他语境线索与时间语境同时使用。

时间线索在视频相关任务中被广泛应用，由于视频的附近帧可能对目标有更好的特征表示，最近的一项工作研究了如何利用局部时间上下文来增强严重遮挡的行人的表示。关键思想是沿着时间轴搜索具有鉴别特征的无遮挡或低遮挡行人样本(即可靠行人)，如果存在，则利用它们来弥补当前帧中严重遮挡行人的信息缺失，如图11所示。由于严重遮挡行人与非/轻度遮挡行人的外观存在很大差异，很难将两者联系起来，因此作者利用局部时空语境来匹配不同遮挡程度的行人，不仅嵌入了时间信息，还嵌入了被遮挡行人与轻度遮挡行人之间不同部位的空间语境。

CVIU2023:计算机视觉中的上下文理解:综述

Yan et al 使用时间上下文进行人员搜索任务，作者提出了一种图形学习框架，从包含目标人物的框架中使用上下文人物对，对目标人物的相似性进行建模，视频事件识别旨在从视频中识别事件的时空视觉模式。Wang等人提出了一种视频均匀识别的系列工作，作者提出了一种建立在时间语境基础上的层次语境模型，前一事件的前一上下文、语义上下文和特征级上下文的组合为当前事件的预测提供了时间支持，它还优于现有的上下文方法，并利用了多层上下文。

3.2.2. 长期时间上下文(跨月或年)

长时间上下文被用作视频中的邻居帧或大的时间尺度，从更广泛的时间信息角度来看，在基于视频的任务中，时间上下文并不局限于短时间内的附近帧，它也可以在较长时间内(如数月或数年)发挥作用，这可以为基于视频的任务提供长期的时间一致性。这些时间信息用于物种识别任务，Beery et al 提出了上下文R-CNN，它利用时间上下文来改进对象检测，而不考虑帧率或采样不规则性，背景R-CNN利用来自同一台摄像机的最多一个月的图像作为背景，以确定可能出现的对象并识别它们。图12所示为在具有挑战性的数据中确定物种的示例，其中图像中的动物较小且难以识别，它利用静态相机拍摄的图像之间的高度相关性来提高具有挑战性的数据的性能，并提高对新相机部署的泛化，而无需额外的人类数据标记。Aodha等人引入了一个时空框架，该框架联合建模了空间上下文(位置之间的关系)、时间上下文(一年的时间)和语义上下文(摄影师，以及多个不同对象类别的存在)，在测试时，给定一张图像以及它拍摄的时间和地点，模型的目标是估计它包含的类别，即P(y|I, x)。该框架结合了长期的时间背景(月到年)，其中包含了丰富的物种历史信息，帮助模型成功区分具有相似外观的物种。

CVIU2023:计算机视觉中的上下文理解:综述

3.2.3. 时间语义语境

语义上下文也可以是时间信息，这些上下文通常由数据集提供或嵌入在元数据中。iNatualist数据集不仅包括物种的图像，还包括描述、位置、时间和日期以及观察者识别，这些都嵌入到元数据中。时间和日期信息可以作为一个时间先验来帮助识别图像中的物种，也可以跟踪物种的运动。一项工作使用长达一年的非自然主义数据来帮助识别特定位置的物种，并跟踪物种的运动，示例如图13所示。

CVIU2023:计算机视觉中的上下文理解:综述

语义上下文也可以作为时间线索，帮助在视频任务中发现活动，在视频任务的时间基础中使用语义上下文来确定时间边界，如图14所示，视频序列中有两个活动:女人穿过房间，女人在沙发上看书。如果没有语义描述，就很难将这两个活动关联为一个事件，正如语义描述所提供的:女人拿着书穿过房间，坐在沙发上阅读，人类可以很容易地将这两种活动联系起来，并准确地确定时间边界。此外，由于不同的视觉外观和不同的时间尺度，语义引导对视频中的活动定位也很重要，在这种情况下，语义上下文作为时间指示器，帮助相关视频片段随着时间的推移相互关联。

CVIU2023:计算机视觉中的上下文理解:综述

3.3. 其他上下文

如空间语境(第3.1节)和时间语境(第3.2节)所述，语义语境通常对场景中对象的存在提供约束。例如，如果我们知道一个篮球比赛的事件，我们期望在特定的场景中看到特定的物体:篮球场上的篮球和篮球架，我们预计冬天会下雪，这些语义上下文还表示空间信息(章节3.1.3)和时间信息(章节3.2.3)。另一方面，还有一些语义语境既不是空间的，也不是时间的。在其他关系中，如功能、目的或意图，上下文可以指示某些动作或对象的发生，还有来自(或用于)其他模式的上下文信息，如音频、文本、热和天气等，这对计算机视觉任务很有帮助。

在本节中，我们将其他语境分为其他语义语境、其他关系中的语境和其他形式中的语境，语义语境既可以是空间语境，也可以是时间语境。其他语义上下文只描述对象的依赖关系，没有任何空间信息和时间信息，在其他关系和其他模式中也有上下文，这也可以在计算机视觉任务中提供关键线索，不同的作品将在这三个类别中进行审查。

3.3.1. 其他语义语境

还有一些语义语境既不是空间语境也不是时间语境，这类语义语境只表示对象的存在，没有任何空间信息和时间信息。在多标签图像识别任务中的一项工作使用标签依赖关系对语义关系建模，如图15所示，作者使用训练数据集中的标签来构建图像中每个对象之间的关系，没有使用任何空间或时间信息，训练数据集中的标签在不知道物体的位置和图像场景的情况下，提供了物体之间的排他语义关系。

CVIU2023:计算机视觉中的上下文理解:综述

另一项工作(Zhu等人，2021)在对象检测任务中使用语义空间投影来建模语义关系，以帮助学习对象的视觉信息。该框架利用数据集中所有类的词嵌入构建语义空间，然后将学习到的对象视觉特征投影到语义空间中，以提高检测精度，该框架没有使用对象之间的空间关系，只使用语义上下文来构建语义空间，没有任何空间或时间信息。

3.3.2. 使用环境

剪刀的功能是切割，杯子是用来装饮料的，这类上下文提供对象或操作的功能或目的，尽管它们很重要，但这些关系在计算机视觉任务中很少使用。最近的一项工作介绍了功能对应的问题，其目的是为给定的任务找到两个对象之间的对应集，任何两个可以用来执行某个动作的对象都可以用来建立对应关系。如图16所示，由于两个锤子(类内)都可以用来拔钉子，所以两个物体之间可以建立功能对应关系。同样的功能对应也可以产生在分类间的物体上，比如勺子和煎锅，因为它们都可以用来舀东西，人类擅长预测次要功能(例如，螺丝刀可以用来清除打印机卡纸)，而不仅仅是主要功能(例如螺丝用螺丝刀)，使用功能关系的上下文对功能对应进行建模可以帮助预测对象的新使用。

CVIU2023:计算机视觉中的上下文理解:综述

另一项工作使用人类意图来检测社会场景图像中的人-物交互(HOIs)。人类通常根据他们的意图来引导他们的注意力和移动他们的身体。其目的还包括人-物交互的信息。图17显示了一个例子，其中的意图对于理解HOI非常有用。场景中的人注视着他正在与之互动的杯子周围的HOI区域，此外，他的姿势含蓄地传达了他的意图，这项工作利用上下文区域，并使用空间上下文(从身体关节到实例的相对距离)合并人体姿势信息。

CVIU2023:计算机视觉中的上下文理解:综述

3.3.3. 其他模式的上下文

也有其他模式的背景，可用于计算机视觉任务，当我们听到狗叫时，我们可以估计出狗的位置和方向。当我们听一段没有视频的演讲时，我们也可以通过读唇来找到演讲的视频片段，因为演讲(音频)和嘴唇运动之间的相关性为语言理解提供了强有力的线索。音频已用于事件定位任务和平面图重建任务。图18显示了(Purushwalkam et al, 2021)的一个例子，作者使用一段短视频在房子里行走，重建平面图的可见部分，而不需要进入每个房间。来自不同房间的音频被用作上下文来推断盲区的几何属性以及房间的功能(例如，摄像机右侧墙后的洗衣机声音表明洗衣房)。

CVIU2023:计算机视觉中的上下文理解:综述

除了音频，热能也可以提供信息，当人们在黑暗的道路上开车时，很难看到路边的野生动物和行人，热传感器与视觉摄像头相结合，可以很容易地检测和定位它们，以降低引起事故的风险。热能还可以为野生动物管理提供关键信息，例如估算动物数量。一项工作使用热作为背景，并结合图像来估计加拿大东部的海豹，该方法在保持最小模型建立时间的同时，有效地识别了聚类中的密封性，弥补了计算机视觉的不足。视觉信息也可以是其他模式的背景。Sabir et al 利用文本与视觉上下文信息之间的语义关系在自然场景中执行文本识别任务，作者首先使用现成的文本检测器来提出预测的文本，然后使用对象分类器来预测场景中出现的对象，视觉上下文作为先验，根据视觉上下文与被预测词的语义关系来细化被预测文本的排序，如图19所示，最终的顶级单词police被视觉上下文信息红绿灯所偏向。

CVIU2023:计算机视觉中的上下文理解:综述

3.4. 主要上下文类型概述

在本节中，我们主要回顾三种类型的语境:空间语境、时间语境和其他语境。空间上下文可以定义为相对于场景中的其他对象，在某些位置找到一个对象而在其他位置找不到对象的可能性。我们进一步将空间上下文表示分为三类:共现、二维空间关系和语义关系。时间语境是指与时间相关的信息，它可以分为短期的、长期的或随时间变化的语义关系。一般来说，语义上下文对应的是一个对象在某些场景中被找到的可能性，而不是在其他场景中。语义语境可以是跨时间的空间语境和时间语境，也可以两者都不是，使用中的上下文可以揭示对象或操作的功能或目的。其他模式的上下文，如音频和热，也可以为一些计算机视觉任务提供信息。在现有的基于上下文的方法中，所有这些类型的上下文都以各种组合的方式使用，图20显示了使用上下文信息时的主要上下文类型和相关任务。

CVIU2023:计算机视觉中的上下文理解:综述

4. 上下文的层次

上下文也可以用不同的级别表示，我们将上下文分为三个层次:先验知识水平、全局水平和局部水平。先验知识是指在看到场景或事件之前获得的知识，如位置、时间、天气等，作为计算机视觉任务的先验知识。全局上下文利用视觉场景作为全局信息，提供对象之间的空间布局、语义关系等上下文信息，局部语境包括对象本身的内在语境和对象周围的区域或对象的外在语境。

如图21所示，全局级上下文可以包括对象的局部级上下文，这些局部上下文可以进一步从局部区域中提取出来，先验知识可以作为全局场景的先验，全局上下文也可以以先验知识的形式表示对象或事件的发生。先验知识还可以为局部环境提供重要信息，这些信息可以作为计算机视觉任务的线索，如物体识别和物体检测，在这节中，我们提供了每个上下文级别的详细信息，以及它们如何在不同的计算机视觉任务中使用。

CVIU2023:计算机视觉中的上下文理解:综述

4.1. 先验知识

先验知识层面的语境是指在看到场景或事件之前所获得的知识，它反映的是位置、时间等环境，可以作为事先预测视觉场景中是否会发生某些事件或检测到某些对象。例如，如果我们在看到场景之前就知道场景中有一个酒店建筑和一个公交车站，我们可以很容易地猜测酒店建筑上出现的文字可能与公交车站广告上出现的文字不同，这些上下文信息被视为高级上下文信息，此外，相邻图像之间的上下文也可以提供高级信息。这两个上下文都将为任务推断提供先验信息。考虑到在图像或视频中可能不会直接提取先验知识，它可能来自于之前的事件，用于临时支持或元数据，作为分析当前场景的先验信息。

发生在停车场的事件和发生在游乐场的事件是不同的，滑梯应该出现在游乐场，汽车应该出现在停车场，等等。来自整个场景的先验知识可以提供事件的先验概率。

一系列关于视频事件识别的工作从两个方面使用了先验层次的上下文:当前场景的上下文和之前事件的时间支持。当前场景的先验上下文反映了环境，如位置(如停车场，商店入口)和时间(如中午，黑暗)，可以作为特定事件是否会发生的先验，以前事件的先前上下文可以为当前事件的预测提供时间支持，这些先验上下文为事件识别任务提供了重要线索。

在不同的场景中，前一层上下文可能有所不同，例如，我们可以很容易地预料到办公室里可能有椅子或桌子，另一方面，我们期望在室外场景中出现红绿灯、道路和建筑物，空间先验可以是另一个先验层次的上下文，例如，沿路的路灯通常具有规则的形状和大小，这表明路灯的本地环境(外观，交通灯周围的物体等)可能是相关的。

先验层次上下文也可以来自其他来源，如元数据、场景描述等，而不是整个场景本身，如图22所示，该工作(Mac Aodha et al, 2019)将从元数据中提取的地理位置信息作为空间信息，并将其作为物种识别的先验知识，这种先验知识还可以为识别某些地区出现的物种提供有用的背景。

CVIU2023:计算机视觉中的上下文理解:综述

4.2. 全局上下文级别

全局上下文利用场景配置(图像作为一个整体)作为跨类别的全局信息的额外来源，通过全局图像特征的平均值，可以估计场景图像的结构，提供空间布局属性的统计摘要。例如，图2中的显示器旁边应该出现一个键盘。Rabinovich的研究表明，通过结合背景的统计数据，上下文成为对象类别的一个全局特征。例如，冰箱通常出现在厨房中，因此冰箱通常的背景是相似的。在了解了对象类别的这样一个全局特征之后，我们可以推断出一个潜在的对象标签:如果背景类似于客厅，那么感兴趣的部分可能是一台电视。背景或场景提供了在场景中找到物体的可能性(例如，在客厅中不太可能找到一辆车)。它还可以指示物体可能出现的相对位置(例如道路上的汽车，人行道上的行人等)。全局上下文的知识可以帮助识别场景中的单个物体，但在全局上下文中识别单个物体也可以帮助估计场景类别。将这一理念融入物体识别的一种方法是了解每个物体在特定场景类别中出现的可能性。通过使用全局上下文信息，可以大大提高目标识别性能。但是，对于当前人工选择的场景数据集将会有限制，一个例子是城市景观数据集，数据集的主要来源是来自欧洲城市的街景，它适用于不同的计算机视觉任务，如行人检测和语义分割。对于真实世界的应用程序，全局上下文是有限的，并且在类似场景(如不同城市的街道)之间共享上下文可能具有挑战性。例如，在不同地点(欧洲和美国)之间会有非常不同的全球背景特征，街道的结构也可能非常不同。

如果你看到一个微波炉，这个位置最有可能是在厨房里，如果你在厨房里，你会有很大的概率看到一个微波炉。Oliva和Torralba 的工作讨论了环境对物体识别任务的影响。全局上下文和其中的对象可以相互影响，然而，一些物体(人脸、汽车、人物等)可能会根据其出现的位置而有不同的背景场景。例如，一辆车可以在路上，也可以在停车场。一个人可以出现在室内或室外，白天或晚上，在这种情况下，背景或场景不能正确地指示物体，图23(a)(c)显示了这一限制。

CVIU2023:计算机视觉中的上下文理解:综述

全局上下文的另一个限制是，如果一个对象出现在不相关的场景中，它可能会产生误导(图24)。Choi等人提出了一种用于环境外检测的环境模型，其中对象对于图像中的给定场景来说是不寻常的。最近的另一项工作(介绍了一个上下文外数据集，并提出了一个用于上下文外对象识别的上下文推理模型。

CVIU2023:计算机视觉中的上下文理解:综述

4.3. 局部上下文级别

局部上下文是指物体本身和周围局部区域的上下文，如颜色、形状、与背景的对比、纵横比和其他物体等。局部上下文特征可以捕获不同的局部关系，如像素、区域和对象交互。如上所述，在全局上下文层面，如果对象出现在不相关的场景中，上下文可能会产生误导。因此，局部上下文可以更好地影响图像中潜在对象的存在，而不是测量全局级别的特征。对于像汽车这样的大物体，即使汽车在游泳池中，物体本身的局部特征也会更加明显(图24左下角的图像)。对于较小的物体，如飞翔的小鸟，其周围区域可以在天空的背景下提供重要的信息(如图25所示)。

CVIU2023:计算机视觉中的上下文理解:综述

本地上下文也可以指示对象的位置，可以使用空间上下文来捕获此信息。周围区域内物体之间的空间背景有助于:(1)大多数物体由其他物体支撑，例如汽车在路上，行人由人行道或地面支撑;(2)对象不是孤立出现的，具有共同功能的物体往往出现在附近，并具有一定的空间关系，例如鼠标出现在键盘旁边，餐椅出现在餐桌旁边等;(3)全局场景的结构倾向于有一个共同的布局，例如楼梯应该出现在门的下面，它应该出现在场景的下半部分。天空应该出现在建筑物的上方，它应该出现在场景的上半部分。Torralba等人也表明，由局部上下文所指示的垂直空间关系通常比水平空间关系具有更大的信息量。

本地上下文也有助于小对象检测，由于小物体的视觉特征少，结构简单，因此从复杂场景中检测小物体具有挑战性。目前流行的检测器主要通过提取更好的内部特征来提高检测性能，这些方法在大/中型目标上取得了令人满意的检测性能，但在小目标上的检测性能仍然不尽如人意。在这种情况下，利用周围场景中的当地环境是非常有益的。当物体在一个简单的场景中，外观没有严重的变化时，可以通过物体的特征很好地定位和识别。然而，当视觉信息受损、模糊或不完整(如图像含有噪声、光照条件差、物体被遮挡或截断)时，仅依靠物体自身特征很难完成检测任务，这时，视觉上下文信息就成为重要的信息源。对于小一点的物体，比如一只飞翔的小鸟，周围的区域可以在天空的背景下提供重要的信息(如图25所示)。

尽管全局上下文可以帮助指示对象的存在和对象之间的空间表示，但如果场景中对象的数量增加，全局上下文不能很好地区分场景，因为许多对象可能共享相同的场景，并且场景可能看起来彼此相似，局部上下文表示仍然是以对象为中心的，它需要对象识别作为第一步，这与全局上下文不同。

4.4. 上下文级别总结

在本节中，我们从三个不同的层次回顾上下文:先验知识层次、全局上下文层次和局部上下文层次。图26用一个真实的图像示例说明了这三个层次，先验知识水平是指通常在看到所考虑的图像之前所获得的上下文信息。它反映的是位置和时间等环境，可以作为预测某些事件是否会发生或某些对象是否会被检测到的前提，全局上下文利用场景配置本身(图像作为一个整体)作为跨类别的全局信息的额外来源，通过全局图像特征的平均值，可以估计场景图像的结构，提供空间布局属性的统计摘要。局部特征级上下文是指物体本身和周围局部区域的上下文，如颜色、形状、与背景的对比、纵横比和其他物体等。在不同的计算机视觉任务中，不同的方法使用了所有这些上下文级别，但它们都有局限性。

CVIU2023:计算机视觉中的上下文理解:综述

5. 基于上下文方法中的卷积网络

大多数使用上下文信息的方法都使用深度学习方法，由于机器学习领域的一些先驱，卷积网络在基于图像的任务和基于视频的任务中都进入了计算机视觉研究。介绍了不同的网络体系结构，它们不仅是最先进的无上下文方法的主干，而且是基于上下文的方法的主干，这些深度模型主要用于图像中的特征提取，或对象或事件类别之间的关系建模。许多作品通过使用现有的网络体系结构或这些体系结构的修改版本来集成多个上下文信息，在基于上下文的方法中，不同的上下文类型，如空间上下文(空间关系)、语义上下文(语义推理)已经集成在这些网络架构上。

基于上下文的方法中不同卷积网络架构的使用如图27所示，背景信息广泛地集成在基于图像的任务中，ResNet是基于上下文的方法中使用最多的卷积网络架构。原因之一是ResNet跳过了卷积层的连接，避免了梯度消失的问题。这样可以从网络中提取出更好的上下文特征，提高上下文集成的性能，在本节中，我们将回顾基本卷积网络架构如何在不同计算机任务中基于上下文的方法中使用。

CVIU2023:计算机视觉中的上下文理解:综述

AlexNet (2012): AlexNet 使用ReLu激活函数加速训练速度。它还使用了dropout正则化来减少过拟合问题，AlexNet的另一个特点是它重叠池，以减少网络的规模。它是经典的卷积神经网络结构之一，AlexNet主要用于全局上下文(章节4.2)对整个图像进行特征提取。

GoogLeNet (2014): GoogLeNet(图29)由22层深度CNN架构组成，与AlexNet类似，GoogleNet主要用于全局上下文对整个图像进行特征提取(章节4.2)。

CVIU2023:计算机视觉中的上下文理解:综述

VGGNet (2014): VGGNet 在一个非常统一的架构中包含13个卷积层和3个完全连接层，它主要用作图像的特征提取器。VGGNet使用全局上下文(章节4.2)进行图像特征提取，使用局部上下文(章节4.3)进行区域特征提取。VGGNet已用于不同计算机视觉任务中基于上下文的方法，如图像识别、物体检测和场景图形生成。

CVIU2023:计算机视觉中的上下文理解:综述

ResNet (2015): ResNet的主要思想是通过使用剩余块引入具有跳过连接的架构，以克服梯度消失的问题。不同深度(18到152)的ResNet已被用作计算机视觉任务的骨干特征提取器。它使用全局上下文(章节4.2)和局部上下文(章节4.3)进行图像特征提取和局部区域特征提取。ResNet已广泛应用于基于图像的上下文集成，以及基于视频的上下文集成，示例如图31所示。

CVIU2023:计算机视觉中的上下文理解:综述

图卷积网络(2017):Kipf and Welling 首次引入了图卷积网络(GCN)来对图中的节点进行半监督分类。GCN也被用于解决计算机视觉任务，如图像分类，视觉关系检测和场景图形生成等等。由于GCN的独特结构，它已被用于空间语义关系建模，二维空间表示和共现在不同的计算机视觉任务中，主要使用空间上下文(3.1节)。

CVIU2023:计算机视觉中的上下文理解:综述

总之，这些卷积网络在各种计算机视觉任务中使用上下文方面显示出了巨大的潜力。然而，所有的网络都有数百万个参数，因此，当训练数据有限时，网络很容易过拟合。如图27所示，我们用饼图展示了基于上下文的方法如何使用这些卷积网络架构。ResNet和VGGNet是基于图像的上下文集成和基于视频的上下文集成中使用最多的网络，它们经常被用作视觉特征提取的主干。GCN在场景图生成任务中大量使用，来建模场景中对象的语义关系，它也被用于人的搜索任务，用来建模目标人与目标周围人之间的空间关系，这些模型还可以在大规模标记数据集上进行预训练，以获得某些计算机视觉任务的初始参数。

6. 基于上下文的方法中使用的数据集

本节是在基于上下文的方法中使用的数据集的摘要，我们将数据集分为两类:图像数据集和视频数据集。图像数据集16已用于各种任务，如目标检测、图像识别、文本检测、视觉关系检测、场景图形生成、语义分割和人脸检测等。视频数据集主要用于视频动作识别、视频事件识别、人物搜索、行人检测和物体检测等。在这里，我们列出了表1中的两种类型的数据集，以及使用的大小、类的数量、标签类型和上下文类型/级别的信息。

CVIU2023:计算机视觉中的上下文理解:综述

6.1. 图像数据集

Caltech Camera Traps(Beery et al, 2018):加州理工学院相机陷阱(CCT)是一个从美国西南部140个相机位置收集的数据集，有21种动物类别的标签，主要是在物种层面(最常见的标签是负鼠、浣熊和土狼)，大约有66K个边界注释。

CelebFaces Attributes (Liu et al, 2015): CelebFaces Attributes (CelebA)是一个拥有超过200K张名人图片的大规模面部属性数据集，每张图片有40个属性注释。这个数据集中的图像涵盖了大的姿势变化和背景杂波。CelebA多样性大，数量大，注释丰富，包括10177个身份，202599个人脸图像，5个地标位置，每张图像40个二进制属性注释。

Chars74K (de Campos et al, 2009): Chars74K是自然图像中字符识别的基准数据集。数据集包括64个类(0-9,a-z, a-z)， 7705个从自然图像中获得的字符，3410个使用平板电脑手绘的字符，62992个从计算机字体合成的字符，总共超过74K张图像。

Cityscapes(Cordts et al, 2016):Cityscapes是一个用于城市街道场景语义理解的大型数据库。该数据集为8个类别中的30个类提供了语义、实例化和密集的像素注释。城市景观数据集由5000张细标注图像和20000张粗标注图像组成，所有数据都是在50个白天天气条件良好的城市采集的。它还提供行人的边界框注释，以及雾和雨条件下的图像增强。

COCO (Lin et al, 2014):上下文中的常见对象，被称为COCO，是用于对象检测、分割和字幕的大规模数据集。该数据集由328K张图像组成，其中超过220K张图像被标记，它有150万个对象实例，80个对象类别(人、车、椅子等)和91个物品类别(天空、街道、草地等)，每张图片也有5个说明。

CUHKSYSU(Xiao et al, 2017):CUHKSYSU是一个大规模的人物搜索基准数据集，它涵盖了数百个来自街头和电影快照的场景。数据集包含超过18K帧和8432个身份。该数据集还包含两个子集:低分辨率子集和遮挡子集，用于评估各种因素对人物搜索的影响。

Curb Ramp (Hara et al, 2014):Curb Ramp 数据集是用于路边匝道检测的小型数据集。它包含1086谷歌街景全景，来自北美四个城市:华盛顿特区，巴尔的摩，洛杉矶和萨斯卡通(加拿大)，每张全景图有1024x2048像素，它为现有的路沿坡道提供边界框标签，每张图片平均有四个路边坡道，数据集还包含缺失路沿坡道区域的边界框标签。

ImageNet (Deng et al, 2009): ImageNet是一种用于视觉对象识别研究的图像数据集，它有超过14M个注释图像，有超过1M个对象级边界框注释图像，每个图像都被分配了一个类标签。

iNaturalist (Van Horn et al, 2018): iNaturalist数据集包含来自5089个自然细粒度类别的670K多张图像，这些类别分为13个超类，包括植物、昆虫、鸟类、哺乳动物等。这是一个高度不平衡的数据集，从最大的超级类别植物(来自2101个类别的196K张图像)到最小的超级类别原生动物(来自4个类别的381张图像)。

Labelme (Russell et al, 2008): Labelme是一个用于图像分类的小数据集，它由来自8个类别的2688张图像组成，其中1000个由Amazon Mechanical Turk (AMT)的注释器标记，其余用于验证和测试。

MSRC-21 (Shotton et al, 2009): MSRC-21是一个用于对象分割的图像数据集，它包含21个对象类的591张图像，所有图像大约是320 × 240像素。

Pascal VOC (Everingham et al, 2010): Pascal可视化对象类(VOC)数据集总共包含20个对象类别，该数据集中的每张图像都有像素级分割注释、包围框注释和对象类注释，该数据集已被广泛用作对象检测、语义分割和分类任务的基准。它有1464张用于训练的图像，1449张用于验证的图像和一个私有测试集。

SUN 09 (Choi et al, 2011): SUN 09是一个基于上下文识别的数据集，该数据集包含12.000个注释图像，涵盖了大量的场景类别(室内和室外)，200多个对象类别和152.000个注释对象实例。每张图像平均包含7个不同的注释对象，每个对象的平均占用是图像大小的5%。

SVT (Wang et al, 2011):街景文本数据集，简称SVT，是一种用于文本检测的街道图像数据集。SVT数据集由从谷歌街景中收集的图像组成，其中每张图像都在图像拍摄地点附近的企业的单词周围标注了边界框。数据集包含350张图片(来自20个不同的城市)和725个标记单词。该数据集还包含三个子集:SVT-SPOT(单词定位)、SVT-WORD(单词识别)和SVT-CHAR(字符识别)。

Visual Genome(Krishna et al, 2017):Visual Genome是一个数据集，一个知识库，是将结构化图像概念与语言连接起来的持续努力。它是最大的图像、对象、属性和关系描述数据集。每张图像上平均有35个物体。该数据集包含5.4亿个对象描述、1.7亿个问题回答对、2.8亿个属性和2.3亿个关系。

VQA (Antol et al, 2015):视觉问答，简称VQA，是一个包含关于图像的开放式问题的数据集。这些问题需要对视觉、语言和常识的理解才能回答。VQA数据集包含超过265K张图像和每张图像至少3个问题(平均5.4个问题)，每个问题有10个基本事实答案，VQA还提供了使用的自动评估度量。

Wider Faces (Yang et al, 2016): Wider FACE数据集是一个人脸检测基准数据集，其中的图像从公开可用的Wider数据集中选择。wide Faces数据集包含32K张图像和超过393K张标记的面部，如样本图像所示，在规模、姿势和遮挡方面具有高度可变性，WIDER FACE数据集基于61个事件类进行组织。

6.2. 视频数据集

AVA (Gu et al, 2018): AVA数据集是原子视觉动作的视频数据集，它在430个15分钟的电影片段中注释了80个原子视觉动作，动作在空间和时间上进行了本地化，总共生成了1.62M的动作标签，每个人经常出现多个标签。

City Cam (Zhang et al, 2017): City Cam是大型城市摄像头视频的公共数据集，具有低分辨率(352x240)、低帧率(每秒1帧)和高遮挡，车辆有60K的限位箱，它涵盖了多个摄像机和不同的天气条件。

KAIST (Hwang et al, 2015): KAIST是一个多光谱行人检测基准，KAIST数据集由来自车辆的95K色热对(640x480, 20Hz)组成，所有对都是手动注释的(人、人、骑车人)，用于103K个注释和1182个独特的行人，注释还包括边界框之间的时间对应关系。

Snapshot Serengeti (Swanson et al, 2015): Snapshot Serengeti数据集是一个用于动物分类的数据集，该数据集包含大约2.65M个相机陷阱图像序列。有61个分类，主要是在物种层面上。常见的标签是角马、斑马和汤姆逊瞪羚。

UCF101 (Soomro et al, 2012): UCF是最大的动作识别数据集，UCF101数据集来自YouTube，包含101个动作类别，超过13K个视频。101个类别被划分为不同的类型:人物互动、仅身体运动、人与人互动、演奏乐器和运动。所有的视频都有固定的帧率25 FPS和分辨率320x240。

UT-Interaction (Ryoo和Aggarwal, 2010)是一个用于人类交互识别的视频数据集，UTInteraction数据集包含连续执行6类人与人之间互动的视频:握手、指、拥抱、推、踢和拳击。有20个视频序列，每个视频长度约为1分钟。每个视频至少包含一次交互执行，平均每个视频有8次人类活动执行。该视频的帧率为30帧/秒，分辨率为720x480。

VIRAT (Oh et al, 2011): VIRAT数据集是用于视频事件识别的视频数据集，它包含了学校停车场、商店入口、户外用餐区和建筑工地的监控摄像头拍摄的8个多小时的视频。数据集中定义了六种人-车交互事件类型(装载车辆、卸载车辆、打开后备箱、关闭后备箱、上车和下车)和五种其他交互事件类型(手势、携带物体、跑步、进入设施和退出设施)。

7. 上下文融合

在本节中，我们将回顾上下文信息的情况集成在各种计算机视觉任务中主要有两个方面:基于图像的任务和基于视频的任务。我们关注的是中集成各种上下文信息的机制一些代表性的任务。我们进一步比较了审查上下文集成在以下几个方面:任务、骨干模型，使用上下文类型，使用上下文级别。还为一些使用上下文和不使用上下文的任务提供了性能比较。

空间语境在基于图像的任务中被大量使用，通过整合不同对象之间的空间关系或对象内部不同部分的空间关系来提取上下文特征，位置等空间语义上下文作为先验知识，其他语义上下文，如对象关系描述、对象外观、标签共现等，被用作图像识别和对象检测等任务的对象存在约束，一些作品使用长期(月到年)的时间背景作为预测当前物体外观的历史信息。

时间上下文是基于视频任务的主要上下文来源，时间语境不仅为当前场景提供了前世线索，还以语言形式和视觉形式承载着语义语境和空间语境，这些上下文可以帮助解决基于视频的任务中的一些挑战，如严重遮挡行人检测、视频事件识别、时态查询接地等。我们在这些基于视频的任务中回顾代表性上下文集成任务的详细信息。

在本节中，我们将回顾如何将上下文信息集成到各种计算机视觉任务中，主要分为两类:基于图像的任务和基于视频的任务，我们将重点讨论在一些代表性任务中集成各种上下文信息的机制，我们进一步从以下方面比较了回顾的上下文集成:任务、骨干模型、使用的上下文类型、使用的上下文级别，还提供了一些任务的性能比较

7.1. 基于图像的集成

空间上下文和语义上下文在基于图像的上下文集成中被大量使用，一些工作还使用时间上下文作为先验来提高性能。在本节中，我们详细回顾了不同基于图像的任务中的一些代表性工作，并提供了所有回顾的方法的总结以及其中一些方法的性能比较。表2从任务、骨干深度神经网络(DNN)模型、使用的上下文类型、使用的上下文级别和使用上下文的机制等方面总结了所有基于图像的上下文集成工作。

CVIU2023:计算机视觉中的上下文理解:综述

7.1.1. 人脸检测

Yang等人提出了用于人脸检测的Faceness-Net，FacenessNet没有使用整张脸，而是考虑使用面部部分的空间结构和排列作为检测面部的上下文线索，在遮挡和姿势变化的情况下，分别对每个面部部位进行评分。

Faceness-Net的流程包括三个阶段，即生成上下文的分度图，根据人脸分数对候选窗口进行排名，以及优化人脸检测的人脸建议。在如图33(a)所示的第一阶段中，使用完整的图像作为5个cnn的输入:头发，眼睛，鼻子，嘴巴，胡子，每个CNN输出一个上下文比例图，以指示图像*特中**定面部组件的空间位置。在第二阶段，给定一组候选边界框，网络根据不同面部部位的空间关系，根据上下文分度图对这些边界框进行排序，例如，头发应该长在眼睛上面，嘴巴应该只长在鼻子下面，等等。在最后一阶段，通过训练多任务CNN来优化候选边界盒，其中人脸分类和边界盒回归联合优化。FacenessNet在具有挑战性的FDDB基准上实现了90.99%的高召回率，比最先进的方法高出2.91%。Faceness-Net利用人脸成分之间的空间关系来优化人脸检测。然而，对于Faceness-Net来说，小尺寸的脸仍然是一个挑战，因为眼睛、鼻子或嘴巴等面部部位几乎无法与小尺寸的脸区分开来。在这种情况下，该网络的效率与之前的CNN人脸检测器相当，Faceness-Net还使用了更多的数据，并由于多个CNN架构而增加了计算成本。

CVIU2023:计算机视觉中的上下文理解:综述

Li等人观察到上下文可以揭示更多的线索，使识别更容易，提出了分层上下文模型用于人类属性识别任务。与Faceness-Net类似，分层上下文模型同时包含全局级上下文(整个场景)和局部级上下文(人体部位)，用于最终的人类属性识别，我们之前在第4节中讨论过。

7.1.2. 图像识别

图像识别是计算机视觉中的一项基本和实用的任务，其目的是预测图像中存在的物体，最近的几项工作使用上下文信息作为识别对象的重要线索。Aodha等人指出，外观信息本身往往不足以准确区分细粒度的视觉类别，他们进一步提出了细粒度图像分类任务，即对图像中的物体种类进行分类，不仅要考虑空间上下文，还要考虑时间上下文，如图10所示，作者利用了额外的时空上下文信息，即图像的拍摄地点和时间。该模型还以一种可解释的方式自然地捕捉位置与物体、物体与物体、拍照者与物体、拍照者与位置之间的关系，他们的方法在结合先验和图像分类器时显示出了很大的改进。

多标签图像分类是对图像中出现的一组对象进行预测。多标签任务更具挑战性。由于对象通常在物理世界*共中**现，Chen等人使用图卷积网络从先验标签依赖关系中建模共现关系。图卷积网络使用关系描述符A在节点之间传播信息，作者以条件概率的形式对标签相关依赖进行建模，然后将其输入到图卷积网络中。通过使用标签外观应用共现关系，该模型始终比以前的竞争方法获得更好的性能。该模型利用空间语义上下文的优势，获得了更好的性能。然而，当数据集足够大且对象高度相关时，标签共现可以精确地描述对象关系，如果数据集很小，它可能不能很好地工作，因为共现不能提供准确的对象关系。其结构如图34所示。

CVIU2023:计算机视觉中的上下文理解:综述

最近的一项工作研究了上下文在何处、何时以及如何调节识别的十个关键属性，包括上下文的数量、上下文和对象分辨率、上下文的几何结构、上下文一致性和上下文调制的时间动态，以模拟上下文信息在图像分类中的作用。作者进一步提出了一种双流架构，动态地合并对象和上下文信息，并依次推理目标对象的类标签。

7.1.3. 图像修复

图像修补是一种基于图像其余部分预测任意缺失区域的工作，为了正确预测缺失区域，网络需要学习常见物体的颜色和结构等常识。Pathak et al 训练了一个卷积神经网络来生成任意图像区域的内容，前提是其周围的上下文。上下文编码器学习一种表示，它不仅捕获外观，还捕获视觉结构的语义。整个管道是一个编码器-解码器体系结构，编码器是一个卷积神经网络，可以从周围环境中预测场景中缺失的部分，然后，解码器使用从编码器中学到的特征生成图像缺失区域的像素。为了完成这一任务，编码器和解码器都需要了解缺失部分的周围局部环境，由于编码器-解码器结构的大量参数，该模型的效率略低。

CVIU2023:计算机视觉中的上下文理解:综述

7.1.4. 目标检测

图像的上下文包含了关于自然场景和物体如何相互关联的丰富信息，这样的上下文信息有可能使一个连贯的理解自然场景和图像。然而，尽管上下文模型只是利用上下文信息的众多方法之一，但它的评价主要基于对象识别性能的提高。Choi et al 提出了一个新的场景理解问题，它感兴趣的是寻找“脱离上下文”的场景和对象，检测“脱离上下文”的对象和场景是具有挑战性的，因为只有当对象之间的关系被仔细和精确地建模时，才能检测到上下文违反。

如图36所示，作者提出了一个图模型，将全局上下文、对象共现、对象间空间关系等不同上下文信息结合起来，它们的上下文机制计算每个对象出现的概率和每次检测正确的可能性。在SUN09 数据集上的结果表明，背景信息在场景理解中起着非常重要的作用，无论是目标识别还是脱离背景的目标检测。但是，这项工作的主要局限性在于，当模型用于检测脱离上下文的对象时，它在支持上下文上大量回复，忽略了置信度高的检测，从而导致模型检测结果不正确。

CVIU2023:计算机视觉中的上下文理解:综述

另一项工作表明，对物体周围的视觉环境进行适当建模对于将它们置于正确的环境中至关重要，该模型估计特定类别的对象在给定邻域的情况下出现在盒子内的可能性，然后自动在图像上找到合适的位置来放置新对象并进行数据增强。模型(图37)选择一个图像进行增强，1)生成200个候选框，覆盖该图像。然后，2)对于每个盒子，它找到一个完全包含盒子的邻域，裁剪这个邻域并掩盖掉所有落在包围框内的像素;然后，这个带有屏蔽像素的“邻域”被馈送给上下文神经网络模块，3)对象实例被匹配到对对象类别的存在具有高置信度分数的框。最后，4)它选择最多两个实例，重新缩放并混合到选定的包围框中。然后，生成的图像用于训练目标检测器。作者进一步评估了他们的上下文模型，用于数据增强VOC12数据集的子集，他们的实验表明，上下文驱动的数据增强对视觉上下文至关重要的类别(飞机、鸟、船、公共汽车、猫、牛、马)的影响比一些一般类别(椅子、桌子、人、火车)更大，因为一般类别如人、桌子等。可以出现在各种不同的场景中，然而，这项工作的局限性在于它使用CNN网络来执行数据增强，这可能会增加计算成本，并在场景中引入错误表示的对象。

CVIU2023:计算机视觉中的上下文理解:综述

先验知识在目标检测中也起着重要作用，Fang等人提出了一种新的知识感知对象检测框架，可以将外部知识(如知识图)集成到任何对象检测算法中。背景知识通常可以组织为知识图，这是一种能够对现实世界的概念及其交互进行建模的数据结构，该框架考虑了一个知识图来建模语义一致性，它可以更好地泛化到一对概念，即使它们没有任何边相连。该框架采用语义一致性的概念对知识进行量化和泛化，通过重新优化过程来提高对象检测，以达到与先验知识更好的一致性，为目标检测任务提供了既考虑视觉环境又考虑先验知识环境的上下文感知方法。

Mottaghi et al研究了上下文在现有最先进的检测和分割方法中的作用，他们设计了一种新颖的类别级对象检测器，它既利用每个候选检测的局部上下文，也利用场景级别的全局上下文，该模型同时利用了外观和语义分割，它还通过对完整映像中出现的上下文类进行评分来合并全局上下文。

上下文不仅可以用来检测对象，还可以帮助预测对象应该存在的位置，即使没有对象实例。Sun执行了一项新颖的视觉任务:找到图像中缺失的物体，作者提出了一个Siamese训练的全卷积上下文网络(SFC)(图38)，网络首先使用上下文网络q生成一个上下文热图。这个热图显示了一个对象应该出现在哪里，然后使用任意目标检测器生成目标检测结果。下一步是将检测框转换为二进制映射，方法是将0分配给检测框区域，否则为1。这个二进制地图显示了没有找到对象的地方，此外，在上下文热图和二进制映射之间执行逐元素的乘法。生成的地图显示了一个物体根据上下文应该出现的区域，但探测器什么也没发现。最后，根据生成的地图从图像中裁剪高分区域(高于预设阈值)，这些区域就是物体缺失的区域。基于十字路口路沿物的局部上下文和共现情况，可以并行生成SFC网络的上下文地图和目标检测器的检测结果，为上下文信息与目标对象的结合提供了一种更高效、有效的方法，这项工作大量使用了当地环境和空间环境，而没有任何全球环境，这可以指示出斜坡的位置。

CVIU2023:计算机视觉中的上下文理解:综述

最近的一项工作研究了利用语义上下文和视觉信息，并将显式关系推理引入到少数镜头物体检测的学习中。词嵌入用于表示每个类标签，在基类和新类之间嵌入语义关系一致性。如果已知新类“自行车”与“摩托车”外形相似，可以与“人”互动，可以携带“瓶子”，那么学习“自行车”的概念就比仅仅使用几个图像容易得多。这种明确的语义关系语境在视觉语境难以获取的情况下显得尤为重要。这个少射探测器是建立在Faster R-CNN之上的，从数据集中所有对应类的词嵌入构建语义空间，并通过关系推理模块进行扩充。总体框架如图39所示，该工作试图缩小视觉信息和语言信息之间的领域差距。但是，当更多的图像可用时，视觉信息变得更加精确，而语言信息则开始具有误导性，如何正确地对视觉语言关系进行建模以缩小领域差距仍然是一个挑战。

CVIU2023:计算机视觉中的上下文理解:综述

7.1.5. 场景图生成

当今最先进的深度学习模型，如Faster R-CNN， Yolo等，主要解决了孤立地检测和识别单个物体的问题。然而，即使是一个完美的物体探测器，也很难察觉一个人喂马和一个人站在马旁边之间的细微差别。这些对象之间丰富的语义关系在很大程度上尚未被这些模型开发。为了理解视觉场景，一个关键步骤是构建一个结构化的表示，即场景图，它捕获对象及其语义关系。场景图不仅为识别任务提供了上下文线索，而且在更广泛的高层次视觉任务中提供了价值。不同上下文在场景图生成任务中得到了广泛的应用，场景图生成的目标是从图像中生成具有视觉基础的场景图。

Xu等人提出了一种使用rnn生成场景图的模型，并学习通过消息传递迭代改进其预测，该模型可以利用空间上下文和语义关系作为线索，对对象及其关系进行更好的预测。给定一个图像作为输入，该模型首先使用区域建议网络(Region Proposal Network, RPN)生成一组对象建议，然后将提取的对象区域特征传递给一个新的图推理模块。模型的输出是一个场景图，其中包含一组本地化的对象，每个对象的类别，以及每对对象之间的关系类型。该模型还使用全局级上下文和局部级上下文来本地化对象，然而，正如他们在论文中提到的，如果迭代次数增加，性能会下降，因为噪声消息开始渗透到图中并阻碍预测，因此，该框架需要一个解决噪声消息传递问题的方案。

CVIU2023:计算机视觉中的上下文理解:综述

Yang等人使用图卷积网络来捕获对象和关系之间的上下文信息，在图41中，“汽车”和“轮子”之间的关系比“轮子”和“建筑”之间的关系更有可能。此外，通常发生在对象之间的关系类型也高度依赖于这些对象，例如车轮在汽车上。注意图卷积网络(aGCN)通过更新每个对象和基于局部邻居上下文的关系表示，在图中传播高阶上下文，在这项工作中，作者使用空间上下文类型来建模对象之间的关系，采用全局上下文和局部上下文进行区域建议和对象本地化。

CVIU2023:计算机视觉中的上下文理解:综述

建模场景图(或一些研究人员称之为主题)的挑战之一在于设计一种有效的机制来编码全局上下文，可以直接通知局部预测因子(即对象和关系)。为了克服这一挑战，Zellers等人引入了堆叠Motif网络(MOTIFNET)。该网络建立在Faster R-CNN的基础上，用于预测边界盒区域。跨边界区域的全局上下文通过双向LSTM计算和传播，然后由另一个LSTM使用，该LSTM根据整体上下文和所有先前的标签标记每个边界区域。在每个阶段之间，使用双向lstm计算全局上下文，然后用于后续阶段。在第一阶段，检测器提出边界区域，然后计算和传播边界区域之间的上下文信息(对象上下文)。全局上下文用于预测边界框的标签。给定边界框和标签，模型构造一个新的表示(边缘上下文)，为边缘预测提供全局上下文。最后，通过将上下文化的头部、尾部和联合边界区域信息与外部积结合起来，为边缘分配标签，整体结构如图42所示。正如作者在他们的论文中所述，如果检测器失败，将导致级联失败，无法预测物体的任何关系边，因此，为了更好地生成场景图，模型需要克服检测精度。

CVIU2023:计算机视觉中的上下文理解:综述

7.1.6. 基于图像的上下文集成性能

我们比较了不同上下文集成在对象检测任务上的性能，这是在两个数据集上执行的:PASCAL VOC07和MSCOCO数据集。比较了不同上下文集成的性能与上下文自由基线模型，PASCAL VOC，即PASCAL可视对象类，包含20个对象类别。几种具有上下文集成的目标检测模型在此数据集上进行了性能评估。

PASCAL VOC的性能如表3所示，总体而言，所有上下文集成的性能优于无上下文基线模型(+4%到+20.1%)。语境整合是从仅仅整合空间语义语境到整合(空间语义语境、全局层面语境和局部层面语境)的结合。所有模型都使用ConvNets将上下文信息集成到无上下文模型中。特征融合注意力模型在PASCAL VOC数据集上实现了最佳性能。我们还比较了MSCOCO 数据集上的上下文集成与上下文自由模型。内部-外部语境模型整合了语境学习的三个组成部分，特征融合组件用于捕获对象的局部上下文，上下文推理组件利用易检测对象和难检测对象之间的语义关系来改进区域建议，上下文特征增强组件用于从上下文推理组件中学习区域建议之间的空间成对关系。然后，该模型生成与区域建议相关联的全局特征信息，以进行最终分类，如表3所示，与上下文无关模型相比，性能有了显著的改进。

CVIU2023:计算机视觉中的上下文理解:综述

7.2. 视频集成

在基于视频的语境集成中，时间维度包含了空间语境和语义语境，基于视频的任务大量使用具有目标对象或事件之间空间关系的时间上下文来进行更好的预测。在本节中，我们回顾了最近使用上下文信息的代表作品，并提供了所有已审查的基于视频的上下文集成的概述。表4从任务、骨干深度神经网络(DNN)模型、使用的上下文类型、使用的上下文级别和使用上下文的机制等方面总结了基于视频的上下文集成中的所有综述工作。

CVIU2023:计算机视觉中的上下文理解:综述

7.2.1. 行人检测

检测被严重遮挡的行人对于现实世界的应用至关重要，比如自动驾驶系统。这项任务面临两个主要挑战:(1)由于缺失/不完整的观察，严重遮挡的行人很难与背景区分;(2)探测器很少有关于如何聚焦部分遮挡行人的可见部分的线索。尽管有人尝试使用注意力、特征转换和基于部分的检测来解决遮挡问题，但他们没有利用单张图像之外的额外上下文信息。最近的一项工作通过视频中行人的时间背景来利用局部背景，通过聚合局部背景特征来增强行人探测器对遮挡的检测。该模型沿时间顺序迭代搜索其相关的局部上下文，形成上下文管。此外，该模型利用局部时空背景，使用新的时间判别嵌入模块和基于部分的关系模块来匹配不同闭塞程度的行人。总体而言，该工作结合了空间上下文、时间上下文和全局级别上下文来克服行人遮挡问题，这也优于基准数据集上的无上下文方法。但是，该框架对一些超参数非常敏感，如果参数变大，结果会变差，可以设计一个更好的训练过程来找到最佳的超参数组合。

CVIU2023:计算机视觉中的上下文理解:综述

7.2.2. Temporal Query Grounding

视频中临时接地语言查询的任务是对给定语言(句子)对应的最佳匹配视频段进行临时本地化，如图44所示。这需要视觉理解和语言理解，以往的工作使用预定义的滑动窗口扫描视频，这可能会影响语义边界的精度，通过使用时态语义上下文和短期时态上下文，可以提供更准确的边界，为了使视频中的时间语义上下文和短期时间上下文相互配合，Wang等提出了一个端到端的上下文边界感知模型，用于临时接地语言查询任务，该模型通过建模当前框架与其邻居之间的关系，聚合了时间语义上下文和短期时间上下文，所提出的上下文模块操作在已经集成了查询和视频信息的层上。因此，它使网络能够“感知”周围的局部环境，并在当前步骤进行预测之前收集可靠的上下文证据。这与以前的上下文建模不同，以前的上下文建模只考虑视觉上下文，而忽略了语义上下文的影响。时间上下文依赖既提供了对象之间的语义关系，也提供了与背景不同的局部视觉上下文。借助其本地上下文，活动可以更好地本地化，时间语境和时间语义语境是提高该框架精度的关键线索。

CVIU2023:计算机视觉中的上下文理解:综述

7.2.3. 视频事件识别

背景在视频事件识别中也起着至关重要的作用，视频事件识别旨在从视频中识别事件的时空视觉模式。由于类内变化和图像分辨率低等问题，识别监控视频中的事件仍然具有挑战性，不同的上下文信息可以帮助解决这些挑战。在这里，可以将上下文视为与事件识别任务没有直接关系的信息，但可以利用上下文来改进传统的数据驱动和以目标为中心的事件识别。Wang and Ji发表了一篇系列文章，关注视频事件识别任务，通过整合多层上下文。Wang等人定义了视频事件识别任务中的三个层次的上下文:先验层次、语义层次和特征层次，先验级上下文捕获事件的先验信息，即位置、时间、天气等先验知识。这些先验知识可以指示视频中可能出现的场景状态。时间上下文也被视为事件中的先验知识支持，它可以在给定先前事件的情况下为当前事件的预测提供支持。空间语义上下文可以捕捉事件实体之间的语义交互，如人下车、人打开后备箱等。本文中的特征级上下文定义为局部级上下文(视觉外观)和其他语义上下文(交互)，时态上下文用于通过事件连接特性级上下文。Wang等人还引入了一个分层上下文模型来学习所有这些特征，以便更好地预测和识别视频事件。

CVIU2023:计算机视觉中的上下文理解:综述

7.2.4. 基于视频的上下文集成性能

对于基于视频的上下文集成，我们在目标检测、行人检测、人物搜索和视频动作识别四个不同的任务上与无上下文模型进行了比较。对于这些任务，在不同的视频数据集上执行评估:加州理工学院摄像机陷阱用于对象检测，KAIST用于遮挡行人检测，PRW用于人员搜索，UCF101用于视频动作检测。

表5显示了基于视频的上下文集成的性能结果，主要评价指标为mAP (mean average precision)。从结果来看，所有具有上下文集成的方法在目标检测(+19.5%)、人物搜索(+12.1%)和视频动作检测(+9.3%)方面都比无上下文模型有很大的改进。对于闭塞行人检测，评价指标为行人缺失率，缺失率越低，检测效果越好。管状特征聚合网络在重度闭塞(HO)和部分闭塞(PO)类别上有较大改进，在合理类别上略有改进，背景在基于视频的任务中也扮演着关键角色。

CVIU2023:计算机视觉中的上下文理解:综述

7.3. 上下文集成的优点

我们进一步研究了所有审查工作的一些关键优点，表6总结了所有综述的作品在基于图像的上下文集成和基于视频的上下文集成方面的优点，包括人类相似性、性能准确性和对数据和时间的效率。

CVIU2023:计算机视觉中的上下文理解:综述

对于基于图像的上下文集成，我们观察到所有的作品都可以达到与以前最先进的方法相同甚至更好的性能。对于人脸检测、人类属性识别和人与对象交互等任务，上下文信息更有效，比无上下文方法的性能更好。Faceness-Net产生了更多类似人类的行为:当人类看一张图像时，我们也会试图寻找明显的特征，如眼睛、鼻子、头发和嘴巴，以便在图像中找到正确的脸。另一项关于图像修补的工作也是类似人类的。当我们试图填充图像中的一个洞时，我们会观察洞的周围区域，并尝试猜测洞的形状和颜色，这种方法的结果也类似于人类艺术家(图35)。大多数基于图像的上下文集成工作将上下文信息实现到深度学习模型中，并与上下文无关方法的特征进行聚合，以获得更好的性能。虽然深度学习模型试图模仿我们的大脑神经元，但大多数作品都不是明显的类似人类的行为方法。在表6中，每种方法的人的相似性分为高，中，低。在准确率和效率方面，我们可以看到，大多数基于图像的作品在使用相同的数据量和计算成本(在表格中的efficiency列中用→表示)的情况下，与上下文无关的方法相比，可以获得更好的性能(表中accuracy列中的Medium或High)。许多作品需要更多的数据和/或时间(在表中用↑表示)来实现相同的性能，尽管少数作品需要更少的数据(↓)。对于后者，利用上下文信息进行数据增强和语义关系推理，可以用较少的数据实现较高的性能。

对于基于视频的上下文集成，所有审查的工作都显著优于最先进的无上下文方法(如表6中精度列中的高所示)。R-CNN 利用长期时态上下文来改进具有挑战性的数据的对象检测，这些背景信息也有助于专家在现实世界中具有挑战性的场景中识别物种。另一项工作观察了目标人物和上下文人物(此人与目标人物出现在不同场景)的共现情况，可以为识别目标人物提供更多的置信度评分。我们人类在现实世界中使用类似的方法来寻找目标人物，为了在视频中聚合具有时间支持的上下文信息，所有这些方法在训练过程中使用了更多的数据和更长的训练时间(如表中↑所示)。

8. 结论与未来方向

在这项调查中，我们回顾了如何在基于上下文的计算机视觉任务方法中理解和集成上下文，本调查涵盖了最近基于图像的任务和基于视频的任务中的上下文集成。我们将上下文分为三种主要类型和三个级别，并回顾了用于上下文集成的基本深度学习架构和数据集，我们根据不同的标准对数据集进行分类。

最后，我们对上下文整合的结果进行了比较，综上所述，在不同的计算机视觉任务中，上下文方法取得了巨大的成功，并优于无上下文方法。在基于图像的任务和基于视频的任务中，上下文信息已经在无上下文方法的基础上得到了集成和利用，并取得了巨大的成功，性能都超过了无上下文方法。但是，如何更好地将上下文融入到各种任务中，还有待进一步改进。以下是关于我们如何在计算机视觉研究中更好地利用上下文的一些潜在的未来方向。

上下文数据增强:我们已经回顾了许多使用不同类型和不同级别的上下文信息的作品，上下文已用于不同的任务，如目标检测，图像识别，行人检测等。大多数上下文集成都集中在如何将上下文特性聚合到与上下文无关的方法中，从而潜在地提高性能。尽管与无上下文的方法相比，上下文已经取得了巨大的成功，但是很少有人关注使用上下文信息进行数据增强。据我们所知，只有一项已发表的工作使用语义上下文和局部级上下文来增强小对象的数据。目前的数据增强技术包括翻转、旋转、裁剪和平移，不能解决小对象检测的挑战，以及许多最先进的上下文无关方法仍然面临着这一挑战。背景整合中的许多研究已经表明上下文确实可以帮助检测小物体，但没有更好的方法来增强小物体的数据，我们期望有更多的方法来利用上下文进行数据扩充。

填补上下文分类法中的空白:本调查提供的上下文分类法包括三种类型:空间、时间和其他，以及三个层次:先验、全局和局部。通过研究分类法，我们可以确定尚未完全探索的领域。例如，无论是长期时态语境还是时态语义语境，作品都较少。除了空间和时间之外，其他类型的上下文需要更多的关注，特别是其他模式和功能/意图/目的，在系统架构方面，convNets 主要用于视觉特征提取，忽略了非视觉特征。虽然有一些工作，建模视觉语境和非视觉语境之间的关系，但更好地表示视觉-其他语境关系以缩小领域差距仍然具有挑战性，仍然需要专门为上下文学习和利用而设计的新体系结构。

通用上下文集成管道:在基于图像的任务和基于视频的任务中，上下文以不同的方式集成，许多基于图像的上下文集成和基于视频的上下文集成将上下文信息实现到骨干模型中，并与从上下文无关方法中提取的特征进行聚合。深度学习方法主要有四个阶段:数据预处理(含标注)、模型训练、后处理和结果评估。上下文信息要么在训练阶段聚合，要么在后处理阶段使用。关于我们如何在整个过程阶段中整合上下文，还没有提出通用的管道，尽管可以在单个阶段或多个阶段中使用不同的上下文集成，但是需要一个通用管道来指导上下文集成。

上下文评估:许多计算机视觉任务使用标准评估指标来评估模型的性能，例如用于对象检测的IOU。在现实世界中描述准确率并不一定等同，例如，如果一个人试图找到门上的旋钮，一个估计的旋钮位置(门的左边或右边)可能比准确的旋钮位置(门的左边1.5米高)更有用，不仅目标检测任务需要基于实际应用需求的上下文评估，其他计算机视觉任务也可能受益。