该论文发表于IEEE Transactions on Cybernetics (CAAI A类),题目为《Relative Fuzzy Rough Approximations for Feature Selection and Classification》
东北大学秦皇岛分校的副教授安爽为此文第一作者,中国人民大学赵素云教授和徐州工程学院的李丕余教授为通讯作者。
论文链接:https://xploreqa.ieee.org/document/9552622
概要:
模糊粗糙集(FRS)理论通常用于衡量数据的不确定性。然而,当数据分布的类别密度差异较大时,该理论的效果不佳。为了解决这一问题,本文首次提出了一种相对距离度量来适应这种数据分布。基于此度量,引入了一种相对FRS模型,以弥补经典FRS的不足。随后,定义了正区域、负区域和边界区域,使用相对FRS来衡量数据的不确定性。此外,还定义了相对模糊依赖度,以评估特征对决策的重要性。基于所提出的特征评估方法,本文设计了一种特征选择算法,并构建了一个基于最大正区域的分类器。分类原则是:未标记样本将被分配到对应于最大正区域程度的类别。实验结果表明,相对模糊依赖度是一种有效且高效的特征评估指标,所提出的特征选择算法在性能上优于一些经典算法。此外,实验还表明,本文所设计的分类器性能略优于KNN分类器,实验证明了基于最大正区域的分类器是有效且可行的。
研究背景:
FRS理论是一种有效且流行的工具,用于测量样本的不确定性,常被应用于降维、分类、回归分析等领域。然而,当数据分布的类别密度差异较大时,经典FRS模型的效果不佳。这是因为经典FRS在定义上下近似时未考虑数据分布信息。换句话说,经典 FRS对数据分布较为敏感。这种敏感性会在实践中对 FRS 理论的泛化性能产生负面影响。因此,有必要弥补经典 FRS 模型的这一缺陷,使其能够适应不同的数据分布。
研究方法:
本文设计了一种特征选择算法(Algorithm 1),并构建了一个基于最大正区域的分类器。该特征选择算法可以分为两个步骤,第一步是对特征进行排序,第二步是确定特征约简。在特征排序过程中,使用特征的重要性作为评估指标,并采用前向贪心搜索作为搜索策略。当没有特征满足Sig(f , B, D) > 0或所有特征都已被选取时,排序过程结束。最后,根据特征子集的分类准确率来确定约简集。这里采用的分类器是KNN分类器。
基于最大正区域的分类器的伪代码(Algorithm 2)如下所示,
实验结果:
1. 基于最大正区域特征选择的实验结果
实验通过扰乱原始数据集的样本标签来生成噪声数据集。实验中的噪声水平为0%、2%、4%、…、18%、20%。其中,原始数据的噪声水平为0%。在具有k%噪声的数据集中,随机修改k%样本的类别标签。曲线形状越一致,表明该特征评估方法的鲁棒性越高。图8显示了在八个数据集上的鲁棒性评估结果,其中FD是经典FRS的模糊依赖函数;γB(D) 是相对模糊依赖函数,表示单一特征对决策的相对依赖性。图8表明,相比于FD,γB(D) 在评估单一特征时表现出更强的鲁棒性。
接下来,实验测试了特征选择算法的有效性,实验使用KNN分类器辅助特征选择。实验结果如表II所示,其中MPR-FRFS为基于最大正区域的模糊粗糙特征选择算法、FRSDM-AR为基于距离度量的模糊粗糙属性约简算法、FMI-MD-FS和MFD-FS分别是基于最大模糊互信息和最大模糊依赖的特征选择算法、CFS和RELIEF为两种经典的特征选择算法,此外,指标F-num为所选特征的数量、Acc为使用 KNN 分类器计算的分类准确率。实验结果表明,MPR-FRFS 算法选择的特征数量少于其他算法,但分类性能良好,验证了其在特征选择任务中的有效性。
2. 基于最大正区域分类器的实验结果
首先使用基于模糊互信息的特征选择算法对特征进行排序,然后在排序后的特征子集.
实验采用留一法(leave-one-out)预测样本的类别标签,并使用 FMI-MD-FS 算法对特征进行排序。表中的“Acc”表示数据集在选取前“F-num”个特征时的分类准确率。为了比较分类器在类别不平衡数据集上的表现,实验还引入了Matthew相关系数(MCC),MCC的计算公式如下所示。
MCC 值越大,表示分类器性能越好。实验结果如表三所示,结果表明MPR分类器的性能与KNN分类器相当,甚至略优于KNN。相比于SVM和FRSCBR,MPR分类器在分类性能上表现更好。
总结:
本文提出了一种相对FRS模型,用于处理类别密度差异较大的数据。首先,研究引入了相对距离,并通过理论分析表明该距离特别适用于类别密度差异较大的数据分布。在此基础上,构建了相对FRS模型,该模型定义了决策类别的正区域、负区域和边界区域。这些度量在分类任务中能够有效评估样本的不确定性,尤其是在数据分布的类别密度差异十分显著时。
本文还设计了一种基于最大正区域的特征选择算法。该算法采用贪心搜索策略,以特征的重要性为评价指标,生成特征序列,并选出与最高分类准确率对应的特征子集。实验结果表明,该算法选出的特征在分类任务中表现良好。
最后,本文设计了一种基于最大正区域的MPR分类器。该分类器通过计算无标签样本对不同类别的正区域程度来确定其所属类别,并将样本标记为正区域程度最大的类别。与KNN、SVM和FRSCBR分类器相比,MPR分类器能够达到相同或更好的分类效果,实验结果证明了MPR分类器的有效性和可行性。