cvpr2023鏁版嵁澧炲己 (杩佺Щ瀛︿範cvpr2023)

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

论文题目:

Class-Incremental Exemplar Compression for Class-Incremental Learning

摘要

基于示例的类增量学习(CIL)在每个增量阶段使用新类的所有样本但旧类的少量样本来微调模型,其中“少量样本”遵守有限的内存预算。在本文中,我们打破了这种“少镜头”的限制,基于一个简单但令人惊讶的有效想法:通过下采样非判别像素来压缩样本,并将“多镜头”压缩样本保存在存储器中。在不需要任何手动注释的情况下,我们通过在类激活图(CAM)的判别像素上生成0-1掩码来实现这种压缩。我们提出了一种称为类增量掩模(CIM)的自适应掩模生成模型,以明确地解决使用CAM的两个困难:1)将CAM的热图转换为具有任意阈值的0-1掩模,由于总内存是固定的,导致在判别像素的覆盖率和样本数量之间的权衡;以及2)最优阈值对于不同的对象类是不同的,这在CIL的动态环境中尤其明显。我们通过双层优化问题对CIM模型与传统CIL模型进行了交替优化。我们对包括Food-101、ImageNet-100和ImageNet-1000在内的高分辨率CIL基准进行了广泛的实验,并表明通过CIM使用压缩样本可以实现新的最先进的CIL精度,例如,在10段ImageNet-1000上比FOSTER高4.8个百分点。

代码https://github.com/xfflzl/CIM-CIL.

1.简介

动态人工智能系统具有持续学习的性质,可以学习新的类数据。他们被期望适应新的类别,同时保持旧类别的知识,即没有遗忘问题。为了评估这一点,Rebuffi等人提出了以下类别增量学习(CIL)协议。模型训练经历了多个阶段,每个阶段都添加了新的类数据并丢弃了旧的类数据,并且根据所有可见类的测试数据来评估结果模型。保留旧类知识的一种简单方法是在内存中保留一些旧类示例,并在后续阶段使用它们来重新训练模型。样本的数量通常是有限的,例如,每类5~20个样本,因为CIL中的总内存是严格预算的,例如2k个样本。这导致了新旧类之间的严重数据不平衡,例如,每个旧类20个,而每个新类1.3k(在ImageNet-1000上),如图1a所示。因此,训练总是由新类别主导,而旧类别会出现遗忘问题。Liu等人试图通过参数化和提取样本来缓解这个问题,而不增加样本的数量(图1b)。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

Wang等人通过使用JPEG均匀压缩样本图像,在样本的质量和数量之间进行权衡(图1c),如图1d所示,我们的方法也是基于图像压缩的。其想法是仅对非判别像素(例如,背景)进行下采样,并将判别像素(即,前景对象的代表性线索)保持为原始像素。通过这种方式,我们在增加样本数量时不会牺牲样本的鉴别性。特别地,我们的目标是在CIL的动态环境中进行自适应压缩,其中直觉是,由于模型需要更多的视觉线索来对增加的类进行分类,因此后期需要更保守(即更少的下采样)。

为了实现选择性和自适应压缩,我们需要判别像素的位置标签,在没有额外标记的情况下,我们通过利用模型自己对判别特征的“注意力”,即类激活图(CAM),自动生成标签。我们将这种方法作为一种可行的基线,并在此基础上提出了一种称为类增量掩蔽(CIM)的自适应版本。具体来说,对于每个输入图像(带有其类标签),我们使用其特征图和分类器权重(对应于其类标签的权重),通过通道乘法、聚合和归一化来计算CAM。然后,我们应用硬阈值来生成0-1掩码。我们注意到,当在CIL的动态环境中生成掩码时,最优超参数(如阈值的值和激活函数的选择)在不同的类别以及不同的增量阶段都会发生变化。我们的自适应版本CIM通过参数化掩码生成模型并在所有增量阶段以端到端的方式对其进行优化来解决这一问题。在每个阶段,学习的CIM模型自适应地生成类和阶段特定的掩码,我们发现,与使用传统CAM相比,基于这些掩模的压缩样本具有更强的代表性。

从技术上讲,我们有两个模型需要优化,即CIL模型和CIM模型,2这两个模型不能单独优化,因为它们依赖于计算:1)CIM模型压缩样本以输入到CIL模型中;2) 这两个模型共享网络参数,我们利用全局双层优化问题(BOP)在两个层次上交替训练过程。该BOP经历了所有增量培训阶段。特别地,对于每个阶段,我们执行具有两个步骤的局部BOP来调整CIM模型的参数:1)用压缩的样本作为输入来训练临时模型;和2)取消注释的验证损失注意,我们不使用掩码标签来进行图像压缩,因为存储它们是昂贵的,相反,我们将掩码展开为边界框,如第4节所述。,CIM模型实际上是CIL模型中的一个插件分支,详见第4.2节。

计算被按压的新数据,并且反向传播梯度以优化CIM的参数,为了评估CIM,我们在Food101、ImageNet-100和ImageNet-1000这三个高分辨率基准上,通过将其插入最近的CIL方法 LUCIR、DER和FOSTER,进行了广泛的实验。我们发现,CIM使用压缩样本带来了一致且显著的改进,例如,在ImageNet1000的5阶段和10阶段设置中,分别比SOTA方法FOSTER高4.2%和4.8%,总内存预算为5k个样本。

2.相关工作

类增量学习(CIL) 在CIL中,有三条主要的工作线来解决灾难性的遗忘问题。基于正则化的方法在其目标函数中应用差异(新旧模型之间)惩罚项,例如,通过比较输出logits、中间特征和预测热图。基于参数隔离的方法在每个新的增量阶段增加模型参数,以防止参数覆盖导致的知识遗忘。其中一些提出逐步扩大神经网络的规模,以学习新的数据。其他冻结了部分网络参数(以维护旧的类知识),以缓解知识覆盖的问题。

基于回放的方法假设有明确的内存预算,允许在内存中使用少数旧类示例。示例可以用于在每个新阶段重新训练模型。这种重新训练通常包括两个步骤:一个步骤在所有新的类数据和旧的类样本上训练模型,另一个步骤用平衡子集微调模型(即每个类使用相同数量的样本)。

专注于内存优化的基于回放的方法与我们的工作密切相关,提出了一种双层优化框架,在丢弃当前新的类数据之前将其提取为样本。其目的是在不增加样本数量的情况下提高样本的质量。另一项工作旨在通过使用JPEG算法的图像压缩在样本的质量和数量之间进行权衡,即,对每个样本进行均匀的下采样。我们的作品与这两部作品有三个方面的不同,1) 我们基于CIM的图像压缩自动分割样本中的判别像素,并仅对非判别像素进行下采样,它几乎没有削弱范例的代表性。2) 我们的方法通过减少每个样本的内存消耗来增加旧类样本的多样性(即数量)。3) 我们的方法具有自适应图像压缩策略,非常适合CIL的动态环境。

类激活映射(CAM) 是一种简单而有效的弱监督对象定位方法,它的模型只使用图像级别的标签进行训练,并且可以在前景对象上生成像素级别的掩码。具体地,掩码是对由特征图和分类器权重产生的热图进行硬阈值处理的结果。高级CAM变体包括Grad CAM、ReCAM、AdvCAM等。我们的CIM基于普通CAM,因为它在计算上简单高效。

双层优化问题(BOP) 旨在解决嵌套优化问题,其中外层优化服从内层优化的结果。它在广泛的机器学习领域显示出了有效性,如超参数选择和元学习。为了处理CIL任务,利用BOP交替优化CIL模型和参数化样本的参数,应用BOP来学习CIL模型中塑性和弹性分支的聚合权重。在我们的工作中,我们使用BOP来解决CIL模型和参数化类增量掩码(CIM)模型的优化,其中CIM是(CIL模型中的)插件分支,只使用很少的额外参数。

3.初步

以下是标准CIL的训练流程,假设有N个学习阶段,在第1阶段,我们加载包含c1类的所有训练样本的数据D1,并使用D1来训练初始分类模型(θ1,ω1),其中θ1和ω1分别表示特征提取器和分类器的参数。当训练完成时,我们在c1类的测试样本上评估模型性能,在第二阶段之前,由于CIL的严格内存预算,我们丢弃了大部分训练样本。换句话说,我们在存储器中只保留从D1中选择的少数训练样本E1(即,样本)。选择样本的一种常见方法被称为特征群,并已在许多相关工作中使用。我们在这项工作中也采用了它。在第i阶段(i≥2),我们从存储器中加载所有样本E1:i−1=E1Ş···ŞEi−1,并通过先前的模型(θi−1,ωi−1)初始化当前模型(θi,ωi)。我们使用E1:i−1和新来的数据Di(包含ci个新类)来训练(θi,ωi),然后,我们使用迄今为止看到的所有P类的测试集来评估当前模型。之后,我们丢弃Di中的大多数训练样本,并在存储器中留下很少的样本Ei。很明显,这种丢弃会在后续阶段导致新旧类之间的严重数据不平衡,在下文中,我们将介绍我们对这个问题的解决方案。

4.方法

如图1d所示,我们通过为旧类保存大量压缩样本来缓解数据不平衡问题,在旧类中,我们利用像素选择性压缩,即仅对非判别像素进行下采样。为了实现这一点,理想的情况是我们对前景对象进行像素级定位。然而,现实的情况是,这种本地化标签昂贵,大多数CIL基准没有标签,如果使用标签,与其他CIL方法进行比较是不公平的。

在没有额外标记的情况下,我们引入了一种基于CAM的掩模生成方法,并在此基础上,在第4.1节中提供了像素选择性压缩的基线解决方案。CIL中掩模生成的问题是,最优生成超参数(如硬阈值)在动态环境中发生变化(随着类别和阶段数量的增加),因此,希望具有自适应掩模生成过程。为此,我们在第4.2节中提出了类增量掩码(CIM)—一种可学习的掩码生成模型。

4.1.基于CAM的压缩管道

为大规模数据集(例如ImageNet)生成像素级标签并非易事。使用类激活映射(CAM)是一种简单的解决方案,计算成本很低。它的关键思想是利用分类模型本身的激活:在特征图上,激活的像素比未激活的像素更有鉴别力来识别对象,其中“激活”意味着高激活值,并且与对象的分类权重有很强的相关性。在通过CAM定位激活的像素后,我们可以在它们上生成0-1掩模,例如,通过对它们的归一化值进行硬阈值处理,然后将掩模上采样到输入图像的大小。

从CAM到0-1掩码 我们在以下步骤中提取CAM,给定来自Di的图像x及其基本真值类标签y,设F(x;θi)表示特征提取器输出的特征块θi,ωi,y表示分类器中y类的分类权重ωi。x的CAM为:

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

其中min(·)和max(·)运算用于归一化,然后,我们将MCAM上采样到图像x的大小,并使用相同的符号。MCAM中的每个值表示模型在特定像素位置处的激活强度。按照弱监督语义分割工作中生成0-1掩码的方法,我们在MCAM的所有值上应用硬阈值τ(在0和1之间),得到0-1掩码Mτ:Mτ=I(MCAM>τ),其中I(·)是指示函数。在Mτ中,1s表示判别像素的位置,例如前景像素,模型基于这些像素进行预测。而0主要表示可以下采样的背景像素或非判别像素,因为它们对预测的贡献很小。

在生成0-1个掩码之后,将它们作为压缩的元信息保存在存储器中是理想的。然而,这在CIL中是无效或不可行的。原因有两个1) 用于保存图像大小掩码的空间是不可忽略的。每个掩码像素都是一个一位布尔值,一个掩码占用一个RGB图像的大约1/3×8=1/24的内存。2) 掩模包括具有不规则形状的激活区域,因此,对剩余区域执行任何标准下采样算法都是不平的。

从0-1掩码到边界框(BBox) 一个简单的解决方法是生成一个紧边界框(bbox)来覆盖Mτ中1s的位置,并使用bbox进行压缩。具体而言,给定Mτ,我们获得边界框的坐标表示为:

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

其中h和w分别表示Mτ上1的垂直坐标和水平坐标,我们强调,B仅由四个整数组成,与Mτ相比,所占用的内存开销可以忽略不计。此外,我们将Mτ中的(激活区域的)不规则形状“重塑”为矩形B,因此我们对矩形外像素的下采样操作变得很容易。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

使用BBox压缩 给定前景上的图像及其边界框,通过对边界框外的像素进行下采样来实现压缩,具体而言,如图2所示,我们将图像x压缩为~x,如下所示,

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

其中,MB是根据B的二进制掩码,即,MB的值在B内为1,否则为0。xη是具有下采样率η(η>1)的x的完全下采样版本 表示元素乘积,+表示元素相加,二者都和+被独立地施加在每个RGB通道上。为压缩图像~x分配的存储器如下,

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

其中HB和WB分别是B的高度和宽度,H和W分别是原始图像x的高度和宽度。m~x总是小于1,其中1表示保存一个原始图像x的存储单元,因此,我们可以在相同的内存预算内保存更多的压缩示例。我们将第i阶段中的压缩样本集表示为~Ei。

压缩伪影 上述压缩将伪影引入到压缩图像中,即在边界框边缘周围存在分辨率突变。从频谱分析的角度来看,这种突变携带噪声和高频分量,并削弱了后续阶段的模型训练。我们通过实现以下数据增强来减轻这些伪影的影响: 在每个训练时期,我们使用相同的下采样率将Di的随机子集转换为具有基于CAM的边界框的压缩图像,使用这种增强使模型能够用压缩图像“模拟”训练,并学会对压缩伪影保持不变

4.2.类增量掩码(CIM)

理想情况下,掩模生成过程需要在CIL环境中的不同阶段进行调整,该过程涉及两个超参数:掩蔽阈值和网络激活函数的选择。首先,对于阈值,搜索它的最优值(对于所有类)并非易事,网格搜索是直观的,但当CIL中类的数量增加时,它在计算上是昂贵的。其次,对于激活函数,CIL方法的标准网络使用ReLU,并且没有对其进行优化。我们通过在CIL模型中除了现有的ReLU函数之外,还应用可学习的激活函数来解决这个问题。在物理上,我们有一个神经网络,而在逻辑上,我们(在每个增量阶段)有两个模型要学习:具有ReLU激活的传统CIL模型和具有可学习激活的自适应掩码生成模型。因此,我们将我们的方法类称为基于增量掩蔽(CIM)的CIL。在下文中,我们详细介绍了网络设计和优化流水线。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

网络设计 图3展示了我们基于CIM的CIL中的一个示例网络体系结构,所提出的CIM通过逻辑上添加一个网络分支来扩展网络主干,其中只有激活函数是可学习的(例如,Padéactivation Units(PAU4)),并且权重层的参数是从原始分支复制的。该设计的动机是He等人和Bochkovskiy等人的工作,这表明具有可学习激活函数的层可以灵活地处理不同网络块上的对象(定位)信息。不同之处在于,我们应用这种灵活性来实现不同CIL相位的自适应掩模生成。我们将第i阶段的CIM参数(即可学习激活函数中的参数)表示为φi,我们通过全局BOP优化CIL模型(θi,ωi)和CIM模型φi,如下所述。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

优化管道 我们展示了算法1中的总体优化流程,该流程由两个优化级别组成:任务级别和掩码级别,前者用于CIL,后者用于CIM。注意,为了保持统一的符号,我们进一步定义了~E0=∅。

1) 任务级优化 该级别旨在优化CIL模型(θi,ωi),以解决手头的CIL任务。可以写成:

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

其中λ是学习率,我们遵循基线方法中CIL训练损失LCIL的实施。这意味着,当将CIM插入不同的基线方法时,我们使用不同的训练损失。

2) 掩码级别优化 该级别旨在优化CIM模型φi,以生成自适应压缩掩码。它被制定为本地BOP:

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

等式6b表示内部级别的优化,它用使用φi压缩的数据~Di(φi)训练θi,并收敛为θ*i。等式6a表示外部级别的优化。它基于原始数据Di上θ*i得出的验证损失。R(φi)是表示内存限制的约束,µ是它的权重,在下文中,我们详细阐述了这两个级别的实施细节。

在内部优化中,我们使用压缩数据训练临时CIL模型,具体而言,我们首先使用CIM模型φi生成的掩码将新的类数据Di压缩为~Di(φi)。然后,我们将内部级优化实现为一步梯度下降(使用CIL训练损失),如下所示:

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

其中β1是θi的学习率。

外层优化的目的是优化φi,使临时模型(θ+i,ωi)(用压缩数据训练)对原始数据Di的验证损失较低,为了实现这一点,我们在原始数据Di上反向传播损失,以将φi更新为:

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

其中LCE表示softmax交叉熵损失,β2是φi的学习率,这训练φi来捕捉新类图像中最具鉴别力的特征。约束R(φi)由φi实现为生成掩码上的正则化项。正则化项的动机是使掩模覆盖范围更小,从而压缩图像占用更少的内存。

我们从经验上观察到,通过上述优化流程,φi的输出激活映射很容易崩溃,即不同的图像具有相同的映射。为了解决这个问题,我们在等式8中添加了一个关于φi的交叉熵损失项,将其正则化,以产生图像特定的激活图:

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

其中µ0是权重。

局限性 我们的CIM学习为CIL中的样本压缩生成自适应掩码,它有三个限制,作为未来的工作。1) 它无法调整任何先前阶段的样本,因为验证数据(这些样本的原始数据)不再可访问。2) 它为CIL模型引入了数百个激活参数,尽管与模型参数相比,这不是一个显著的开销。3) 图像压缩对于低分辨率数据集(例如,32×32 CIFAR-100)没有那么大意义。这是因为压缩参数(例如,CIM的参数)占用的内存和低分辨率图像的RGB像素是可比较的,使用内存保存更多图像更有意义。

5.实验

我们将CIM纳入两种基线CIL方法(即DER和FOSTER),并在三个数据集上一致地提高其模型性能。下面,我们介绍数据集和实验设置(第5.1节),然后是结果和分析(第5.2节)

5.1.实验设置

数据集 我们用高分辨率图像在三个标准CIL基准上进行实验。1) Food-101由101个食品类别组成,每个类别有750个培训样本和250个测试样本,所有图像的最大边长为512个像素。2) ImageNet-1000是一个有1000个类的大型数据集,每个类有大约1300个训练样本和50个测试样本。3) ImageNet-100是从ImageNet-1000中随机采样的100类子集,具有固定的NumPy随机种子(1993),我们在补充材料中提供了这些数据集的其他细节,例如图像大小和预处理方法。

协议 根据最近的CIL工作,我们使用了两种协议:从头开始学习(LFS)和从一半学习(LFH)。在LFS中,模型在所有N个阶段中观察到相同数量的类,其中N可选地为5、10和20。在LFH中,在第1阶段的一半类(例如,ImageNet-1000的500个类)上训练模型。然后,它在随后的N个阶段中均匀地学习剩余的类,其中N可以是5、10和25。在这两个协议中,在每个阶段的训练之后,我们在所有可见类的测试数据上评估结果模型。我们的最终报告包括所有阶段的平均精度和最后阶段的精度,这表明了模型遗忘的程度。我们将每个实验进行三次,并报告平均结果。

内存预算 有两种内存预算设置。1) 在“固定”设置中,当当前阶段的新示例被添加到内存中以维持“固定内存预算”时,我们会删除一些旧的类示例。在此设置中,我们将Food-101的总内存设置为2020个样本,将ImageNet-100的总内存设为2000个样本。对于ImageNet-1000,我们有两个选项—5000个样本和20000个样本。2) 在“增长”设置中,在所有阶段为每个类分配恒定的内存预算,因此当新的类出现时会增加额外的内存。在此设置中,我们将所有数据集的预算设置为每类20个样本,我们在LFS实验中应用“固定”设置,在LFH实验中使用“生长”设置。

实施细节 我们的实现基于标准深度学习库PyTorch和图像处理库OpenCV,我们在所有实验中使用18层ResNet作为网络主干θ,使用全连接层作为分类器ω。我们使用与相关工作中相同的CIL训练超参数进行公平比较:1)第一阶段有200个epoch,随后阶段有170个epoch;2) 学习率λ初始化为0.1,并通过余弦退火调度器降低到零;3) 部署SGD优化器,动量因子设置为0.9,权重衰减设置为0.0005。对于压缩相关超参数,我们将掩蔽阈值τ设置为0.6,下采样率η设置为4.0。为了建立CIM模型,我们应用阶数为m=5和n=4的PAU作为可学习的激活层。用于CIM的优化模型φ(即掩码级优化),我们最初将β1设置为0.1,将β2设置为0.01,并根据λ的调度器将其减少到零,µ和µ0分别设置为0.1和0.2。为了平滑训练,我们将φ的梯度范数裁剪为不大于1。我们在补充材料中报告了超参数敏感性分析的结果。

5.2结果和分析

与现有技术相比 在表1中,我们总结了两个数据集(Food-101和ImageNet-100)和两个CIL协议(LFS和LFH)的实验结果。从表中,我们有以下观察结果。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

1) 我们基于CIM的CIL持续改进了FOSTER的最先进方法,在所有设置中都有清晰的裕度。例如,我们的方法在ImageNet-100上平均超过它1.4个百分点,在Food-101上平均超过2.0个百分点。2) 当N变大时,我们基于CIM的CIL实现了更显著的改进,例如,在ImageNet-100(LFH)上,当N=5和N=25时,我们的方法分别将FOSTER提高了0.9和3.3个百分点。3) 我们基于CIM的CIL在Food-101上持续实现了更大的改进(比ImageNet-100)。它在Food-101上提高了2.1个百分点的基线,而在ImageNet-100(N=10,LFS)上提高了1.4个百分点。这表明,当一个类的代表性视觉线索来自它的一些组件时,例如,类“蛋糕”的“奶油”时,我们的方法特别有效。

表2显示了大规模数据集ImageNet-1000在不同内存设置(M=20k和M=5k)下的结果。我们可以看到,我们基于CIM的CIL持续改进FOSTER。令人印象深刻的是,它在更严格的内存设置(M=5k)方面实现了更多的改进。具体而言,当M=5k时,它将FOSTER的平均精度提高了4.5个百分点,显著高于M=20k(1.0)。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

消融研究 表3显示了消融结果,第一块:基准线。第1行为基线FOSTER。第2行显示了添加伪影增强的结果(见第4.1节),它表明直接应用这种增强不会改善甚至损害模型。请注意,以下方框中的模型都使用了这种增强功能。第二块:激活方法,第3-6行显示了使用不同的激活方法来压缩示例的结果,行3是对所有像素进行下采样(即,没有区域被激活),第4行是随机选择激活区域。第5行仅激活中心区域(原始图像的14),而第6行使用原始CAM。将它们与第1行进行比较,我们可以看到使用压缩的示例可以改进CIL模型。第4行优于第3-5行,验证了使用模型的激活来生成压缩样本更可靠。第三块:优化方法,第7-9行位于第6行的顶部,是应用不同优化策略的结果。第7行是使用保留集(数据集的10%)手动选择τ,第8行是联合训练CIL和CIM模型(针对每个输入批次)。第9行是建议使用全局BOP的方法。第四块:基于CIM的CIL的两种变体,第10-11行是第9行的两种变体,在第10行中,只有CIM的最后一个块中的激活层是可学习的,并且之前的块使用ReLU。与第9行相比,第10行的性能稍差,第11行显示了在判别区域上添加弱下采样(η0=2.0)的版本,在此基础上保存了更多的压缩样本,它的性能与第9行相当,但增加了成本。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

与其他基于压缩的方法相比 表4显示了我们与两种基于压缩的方法的比较结果:Mnemonics和MRDC。我们可以看到,我们的方法在所有设置中都始终优于它们,这是因为我们的方法在以相位自适应的方式提高样本的数量(方差)的同时,没有牺牲样本的鉴别性。然而,这两种相关方法要么在存储器中保留固定数量的样本,要么使用统一的图像压缩,而不考虑不同增量阶段*特中**定类的性质。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

可视化(CAM与CIM) 图4给出了两个可视化示例,“阿富汗猎犬”和“靛蓝鸟”,每个都有激活图和边界框。第一列显示了它们在早期阶段出现的各自令人困惑的类,CIM学会将注意力集中在有区别的(即不同于混淆的类)区域。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

不同大小对象的结果 表5显示了小型、中型和大型对象的结果,这些尺寸分类是根据ImageNet对象本地化挑战进行的。我们计算了每个级别的bbox覆盖率,并将覆盖率最高的前30个级别定为“大”,覆盖率最低的后30个级别设为“小”,其余40个级别为“中”。有趣的是,我们的方法对小物体实现了最高的改进(超过基线)。我们的解释是,小物体(比大物体)从图像压缩中受益更多,因为它们的图像包含更多的背景像素进行下采样。

cvpr2023鐗瑰緛鎻愬彇,杩佺Щ瀛︿範cvpr2023

6.结论

我们为CIL引入了一种新的样本压缩方法,使我们能够保存更具代表性的样本,但不会增加内存预算。我们通过对以CAM掩模为边界的图像的非判别像素进行下采样来实现这种压缩。为了生成自适应掩码,我们提出了一种新的方法CIM,该方法显式地参数化掩码生成模型,并在增量阶段以端到端的方式对其进行优化。我们的方法在多个基线上实现了一致的性能改进,可以作为一个灵活的即插即用模块。