该论文发表于IEEE Transactions on Neural Networks and Learning Systems (TNNLS),题目为《Augmented Sparse Representation for Incomplete Multiview Clustering》。
四川大学的Jie Chen为该文的第一作者,四川大学的王朱教授为通讯作者。
论文链接:https://ieeexplore.ieee.org/document/9881218
论文概要
不完整多视图聚类(IMVC)旨在充分利用多个不完整视图的互补信息,将数据划分为不同的组。现有的大多数基于矩阵因式分解或子空间学习的方法都试图恢复缺失的视图或对缺失的特征进行估算,以提高聚类性能。然而,由于缺乏先验知识(如标签信息或数据分布),尤其是当缺失的视图或特征完全损坏时,这个问题就很难解决。在本文中,我们提出了一种用于 IMVC 的增强稀疏表示(ASR)方法。我们首先介绍了一种判别式稀疏表示学习(DSRL)模型,该模型学习多个视图的稀疏表示,用于测量现有特征的相似性。DSRL 模型分别通过整合稀疏正则化项和共识正则化项来探索互补信息和一致信息。与此同时,它还能从原始样本中学习辨别字典。然后,我们提出了一种相似性融合方案,即稀疏表示的稀疏性增强融合,以获得不同视图的稀疏性增强相似性矩阵,从而进行光谱聚类。在多个数据集上的实验结果表明了所提出的 ASR 方法对 IMVC 的有效性。
研究背景
近年来,人们提出了许多 MVC 方法来利用多视图数据的内在结构。这些方法通常为 MVC 学习通用数据表示、通用指标矩阵或兼容多个视图的联合图。Chen 等人提出了多视图低秩表示(LRR)方法,用于发现对称约束下的多视图低维结构。然而,大多数研究通常假定样本的所有特征在多个视图中都是可用和紧密对齐的。实际上,收集所有样本的完整视图是一个难以解决的问题,原因是多方面的,例如数据收集的高成本和采集设备的例外情况。因此,某些样本的特征并不会出现在所有视图中。这种数据被称为不完整的多视图数据。这给大多数现有的 MVC 方法带来了困难,使其难以利用不完整视图中的一致和互补信息。此外,由于某些视图中的样本特征缺失,无法直接鼓励多个视图中不同聚类的多样性。因此,减少缺失特征对不完整多视图聚类(IMVC)性能的负面影响是一个具有挑战性的问题。
研究方法
研究人员提出了一种用于 IMVC 的增强稀疏表示(ASR)方法。拟议方法的流程图如图 1 所示。
具体来说就是引入了一种判别稀疏表征学习(DSRL)模型,该模型充分利用自表达特性来学习多视图的稀疏表征。同时,DSRL 模型会从原始样本中学习一个判别字典,并采用多个视图的稀疏表示来测量现有特征的相似性。然后研究人员提出了一种相似性融合方案,即稀疏表示的稀疏性增强融合,以获得跨不同视图的稀疏性增强相似性矩阵,该矩阵保留了每对样本之间的相似性,用于光谱聚类。此外研究人员还展示了 ASR 方法的收敛性分析和复杂性分析。
1. 针对不完整多视图的判别稀疏表示学习
对于不完整的多视图数据,研究人员首先通过学习稀疏表示来探索不同视图之间的互补信息,同时忽略缺失特征的基础信息。然后研究人员考虑到一个视图中缺失特征的列索引可能与另一个视图中缺失特征的列索引完全不同,因此为不完整多视图的不同稀疏表示设计了一种相似性配准规则。当利用高维数据的自表达特性时,判别字典在稀疏表示学习中起着至关重要的作用。因此,研究人员又在稀疏表示模型中引入了判别字典学习,它能够从原始样本中学习一个判别字典,而不是将所有样本作为一个字典。
2. 稀疏表示的稀疏性增强融合
有了不完整多视图数据的稀疏表示,可以在不调整参数的情况下手动执行稀疏表示的稀疏性增强融合。研究人员首先为 IMVC 提出一种简单而有效的稀疏表示融合方案:通过平均多个视图中稀疏表示的非零元素来获得融合的稀疏表示结果。从图连接性的角度来看,多个视图中稀疏表示的融合结果仍然是稀疏的,这就保证了同一聚类中样本的高相关性。其中所用算法如下图所示。
研究结果
研究人员在公开的 IMVC 数据集上评估ASR 方法,使用六个多视图基准数据集来评估所提出的方法。表 I 总结了这些数据集的重要统计数据,最终得出下述结果。
研究人员在六个多视图数据集上对所提出的算法进行了评估。表 II 显示了 ASR 算法和竞争方法在不同缺失率数据集上的 ACC(%)、NMI(%)和 F-measure (%)的平均值和标准偏差。如表 II 所示,与实验中的其他算法相比,ASR 算法在 ACC、NMI 和 F-measure 方面一直取得最佳结果。同样,在其他四个数据集上,ASR 方法在 NMI 和 F-measure 方面也优于其他竞争方法。这证实了在实验中,就 ACC、NMI 和 F-measure 而言,提出的方法在不同的遗漏率下都非常有效。
此外,研究人员还对所提算法的运行时间进行了评估,结果如表 III 所示。我们可以看到,EE-IMVC 的运行效率高于其他算法。在 ASR 算法中,随着缺失率的增加,所提算法的运行时间显著下降。此外,在 Flower17、ProteinFold 和 100leaves 数据集中,ASR 方法在缺失率为 50% 的情况下获得了第二好的运行时间。
2. 参数敏感性分析
研究人员通过实验研究了 ASR 算法的参数 α 和 β 对 ACC 和 NMI 的影响。选择了两个具有代表性的数据集(BBC 和 ProteinFold 数据集)进行了参数敏感性分析。图 2-5 显示了 ASR 方法的参数 α 和 β 对 ACC 和 NMI 的影响。从图 2-5 中可以看出,ASR 方法在较大的 β 范围和固定的 α 范围内对不同的缺失率都有良好的表现,这表明 ASR 方法可以在较大的 β 范围内获得相对稳定的性能。在没有任何先验知识的情况下,为不同数据集选择合适的 α 范围仍然是一个未决问题。幸运的是,为稀疏性增强相似性矩阵选择一个合适的 SR 可以在一定程度上帮助我们缓解这个问题。
3. 稀疏性效果
图 6 和图 7 显示了使用稀疏性增强融合方法学习到的稀疏性增强相似性矩阵的 SR 随 α 和 β 的不同组合而变化的情况。在 BBC 和 ProteinFold 数据集上,所提出的方法在α和β的较大范围内都能获得相对稳定的 SR。此外,所提方法的 SR 稳定性还可以在不同的缺失率下得到证明。结合图 2-5 中的聚类结果,满意的聚类结果通常属于 SR 变化轻微波动的区域。这也证明了稳定的 SR 有利于在实际应用中确定 α 和 β。
4. 收敛性分析
图 8 和图 9 分别显示了算法 2 和算法 3 在 BBC 和 ProteinFold 数据集上不同缺失率下的收敛曲线。图中 x 轴表示迭代次数,y 轴表示算法 2 和算法 3 各收敛条件的绝对值。从图 8 可以看出,虽然算法 2 的收敛稳定性还在理论研究中,但算法 2 通常在几十次迭代后就能快速收敛;此外,在理论上也证明了算法 3 的收敛稳定性。图 9 显示了算法 3 在 BBC 和 ProteinFold 数据集上的收敛曲线。很明显,目标函数值可以很快达到稳定状态,通常在三次迭代之内。这些结果表明,所提出的方法总是能快速收敛。
结论
本研究提出了一种ASR 算法并在此算法中集成了 DSRL 模型和 IMVC 的稀疏性增强融合方案。在 DSRL 模型中,稀疏正则化项和共识正则化项分别用于探索多视图之间的互补信息和一致信息。所提出的方法充分利用多视图数据中现有特征的自表达特性,灵活地学习多视图的单个稀疏表示,同时学习判别字典并提高了稀疏表示的紧凑性。这种方法与现有的大多数 IMVC 方法完全不同,后者要么用零填充,要么用平均特征值代替缺失特征值。实验验证了相似性矩阵 SR 的有效性和重要性。通过稀疏表示的稀疏性增强融合,可以得到不同视图的稀疏性增强相似性矩阵,从而保留了每对样本之间的相似性。
撰稿人:李鑫
审稿人:梁瑾