该论文发表于NIPS 2023,题目为《DiffKendall: A Novel Approach for Few-Shot Learning
with Differentiable Kendall’s Rank Correlation》。
上海交通大学的Kaipeng Zheng为此文第一作者。上海交通大学的Weiran Huang为此文的通讯作者。
论文链接:https://papers.nips.cc/paper_files/paper/2023/hash/9b01333262789ea3a65a5fab4c22feae-Abstract-Conference.html
少样本学习(FSL)旨在使在基础数据集上训练的模型适应之前从未见过的类别的新任务。FSL中常使用例如余弦相似度的几何相似性度量来衡量两个特征的相似性。然而,具有高度几何相似性的特征却可能带有不同的语义。本文证明了在FSL中特征通道的重要性排名是比几何相似度更可靠的指标。使用Kendall等级相关性替代几何相似性并设计了一个元训练可微损失用于解决Kendall等级相关性的不可微问题。通过大量实验验证了该方法在FSL上的有效性。
研究背景
深度学习在图像分类上取得显著进展,然而获取大规模标记数据集的成本却十分昂贵,这使得人们开始关注少样本学习。本研究发现,与基础数据集相比,在新的数据集上提取的特征值会更小和更集中,如图1所示。在这种情况下,使用几何相似性会难以分清通道的重要性。分类将由极少数具有大值的通道主导,而占大部分的小值通道得不到充分利用。举例:狗原型特征为(1, 0.28, 0.2),狼原型特征为(1, 0.25, 0.28),测试图像为(0.8, 0.27, 0.22)。使用余弦距离会误认为测试图像更接近狼原型(距离0.0031)而非狗原型(距离0.0034)。使用特征通道重要性排序则能够区分,测试图像和狗原型具有相同通道排序(1,2,3),而狼原型为(1,3,2)。
图1 特征通道值分布和不同数据集间特征通道值方差
方法与结果分析
一个常见的FSL任务通过计算查询样本x和标签为k的类原型ck的相似度来实现分类:
sim()表示相似度函数,fθ为特征提取器,t用于缩放变换。
对于两个n维向量,Kendall 的排名相关性系数可以定义为表现出一致排序与不一致排序的通道对 (xi, xj) 和 (yi, yj) 之间的差异,即:
其中,Ncon 表示重要性排序一致的通道对的数量,即 (xi > xj) ∧ (yi > yj) 或 (xi < xj) ∧ (yi < yj),Ndis 反映排序不一致的通道对的数量 由 (xi > xj) ∧ (yi < yj) 或 (xi < xj) ∧ (yi > yj) 表示。 Ntotal 表示通道对的总数。
为解决通道重要性排名计算不可微的问题,本文提出用平滑函数逼近Kendall排名相关性,提出了可微的Kendall排名相关性,从而能够直接在训练中优化。其公式为:
N0为通道对总数,α为超参数,当α趋于正无穷时,上述两式的值无限逼近,即:
本研究先验证了使用Kendall相关性系数相对于余弦相似度的提升,如表1所示,可见仅在测试阶段将最初使用的余弦相似度替换为Kendall秩相关性就能在多个数据集上取得提升。
随后是通道消融研究,该研究的目标是揭示使用Kendall排序相关性能实现性能提升的原因。通过设置不同的阈值对特征中不同取值的通道进行屏蔽,来分别测试在仅利用特征当中取值小的通道和取值大的通道在小样本任务上的性能。结果如图2所示:
图2 通道消融实验
左图显示当屏蔽取值小的通道时,Kendall排序相关性与余弦相似度性能相近;但解除屏蔽后,Kendall排序相关性明显优于余弦相似度。右图中,当屏蔽取值大的通道时,Kendall排序相关性性能显著超过余弦相似度。这说明Kendall排序相关性是通过增强小值通道在分类中的作用来提升分类性能的。
最后还做了可视化分析,如图3所示。可以看出当仅利用小值通道时,Kendall 的排名相关性捕获了查询样本中的判别性特征。 相反,余弦相似度忽略了这些关键特征,进一步说明Kendall排序相关性是通充分发挥小值通道在FSL分类中的作用来提升性能的。
图3 可视化分析
结论
本文揭示了FSL中新样本特征的关键属性:大多数通道值小且分布紧密,使得区分它们的重要性变得困难。因此,使用通道重要性排名的相关性替代常用的几何相似性度量来确定语义相似性的方法可以提升分类的性能,并可能与其他使用几何相似性度量的先进方法结合实现进一步改进。
撰稿人:马一鸣
审稿人:李景聪