该论文发表于IEEE Transactions on Pattern Analysis and Machine Intelligence,题目为《A Multi-Level Interpretable Sleep Stage Scoring System by Infusing Experts’ Knowledge Into a Deep Network Architecture》。
此文的作者是美国加利福尼亚大学Hamid Niknazar和Sara C. Mednick。
论文链接:https://ieeexplore.ieee.org/abstract/document/10436701
近年来,深度学习在计算机视觉、图像与信号处理等领域展现出极大的潜力和效率。然而,算法决策和结果的不可解释性阻碍了其在用户应用中的推广,尤其是在医疗决策等高风险领域。本研究的目标是设计一个可解释的深度学习系统,用于对脑电图(EEG)时间序列进行分类,以实现透明的睡眠阶段评分系统。我们开发了一种基于核卷积层的可解释深度神经网络,该卷积层是基于专家进行多导睡眠图分析时使用的睡眠评分原则而设计的。系统的解释分为四个层次,从EEG信号的微观结构到不同睡眠阶段之间的宏观过渡。实验结果表明,该系统的性能优于以往研究,并且学习的信息与专家的知识一致。
二、研究背景
深度学习系统在某些情况下的表现可以与人类专家相媲美,甚至超越他们。然而,由于深度学习的“黑箱”性质,它们缺乏透明性和可解释性,这在高风险领域(如医疗诊断)中尤其受到批评。设计一个用户可以理解和解释的深度学习系统可以缓解这一问题,特别是在具有标准化输入数据模式的任务中,例如多导睡眠图。睡眠阶段评分是一项重要的诊断工具,专家们通过分析电生理信号对睡眠阶段进行视觉评分,但这一过程既复杂又耗时,且存在主观性。因此,自动化睡眠阶段评分系统的开发是非常必要的。近年来,深度学习技术,尤其是卷积神经网络和循环神经网络,已在计算机视觉、自然语言处理和电生理信号处理中表现出极大的潜力。根据R&K和AASM标准,夜间记录可以根据PSG信号评分为不同的睡眠阶段,专家在评分时不仅要分析单个片段,还要考虑相邻片段的特征。
在视觉睡眠评分领域,准确分类睡眠阶段对于理解睡眠模式和相关障碍至关重要。传统的评分方法依赖于EEG频率子带和对特定波形的细致分析。Gabor函数作为信号和图像处理中的重要工具,通过捕捉信号的频率、相位和包络来提取关键特征。在深度学习中,将Gabor函数作为卷积核嵌入网络的初始层,可以显著提高特征提取的能力,并增加模型的可解释性。这种可解释性在睡眠阶段评分等需要领域专家知识的应用中尤其重要。本研究中,我们利用Gabor函数的模式捕捉能力,旨在提升睡眠阶段评分模型的可解释性和准确性,从而为更准确的睡眠分析做出贡献。
本论文提出在网络的第一层使用宽卷积核,以直接生成符合专家知识的输入模式,提升模型的可解释性和性能。相比于传统的CNN架构,此设计可以更有效地减少过拟合风险,并使模型的解释性更接近于专家的理解。通过在网络架构中融入专家知识,系统不仅能提高自动睡眠阶段评分的性能,还能增加其可解释性。
三、研究方法
专家在识别睡眠阶段时,主要依据特定的EEG波形和频率范围,包括慢波(约1 Hz)、α波(8–13 Hz)、θ波(3–7 Hz)、梭形波(15–18 Hz的梭形活动爆发)、K复合波(大双相波)以及运动伪迹。同时,也会观察EOG中的慢速和快速眼动。为了模拟这些特定波形的识别,作者设计了一个基于Gabor函数的可训练核层,而不是使用常规的CNN架构作为特征提取器。Gabor函数通过调整参数,可以拟合EEG和EOG波形,公式如下:
其中,u为时间偏移,σ为高斯包络的标准差,fff 为主频率。通过设置这些参数,Gabor函数能够有效地建模EEG和EOG波形。
Gabor层(GL)被定义为:
其中,GLi(t)是该层输出信号的第i通道,Gi(t∗) 是具有特定参数的Gabor函数波形,X(t)是输入信号(EEG/EOG),⋆ 表示交叉相关运算。Gabor层类似于一维卷积层,使用Gabor函数作为其滤波器,Gabor核的参数是可训练的。信号通过后,Gabor层的输出表示特定波形(Gabor核)在时间上的幅值。
结合睡眠专家的见解和既定的睡眠阶段评分手册,睡眠分期过程可以简化为三个主要步骤。首先,识别与睡眠相关的微观模式,如睡眠依赖的波形和子频带。其次,每个30秒的PSG片段会独立地分配一个睡眠阶段,与相邻片段无关。最后,根据邻近片段的上下文,对已分配的阶段进行细化。基于这些步骤,我们提出了一个两步的睡眠分期架构,特别强调使用Gabor函数作为受限卷积核。选择Gabor函数作为CNN初始层的卷积核,主要是因为多项研究表明Gabor函数在捕捉主要EEG模式方面的优势。我们为Gabor核选择了2秒的时间长度,以便涵盖核心子频带频率和关键睡眠微观结构,如慢波和梭形波。
1. 网络架构
图三展示了两个模型。在单个时间段网络模型里,第一层包含两个Gabor层(GLs),分别用于处理EEG和EOG信号。EEG信号的GL有32个核,EOG信号的GL有8个核。每个Gabor层的输出是N个一维信号,其中N是核的数量。这些输出信号表示Gabor核与输入信号的交叉相关结果。第二层称为混合层(Mixing Layer),是一维卷积层,卷积核大小为1。混合层将GLs的输出进行混合,以便为后续的CNN架构提供输入,进行特征提取和分类。在多时间段网络模型里,单个时间段网络输出的当前EEG和EOG数据(第n个时间段)以及前后四个时间段的数据(On-4到On-1,On+1到On+4)被用作多时间段网络的输入。多时间段网络包含两个长短期记忆层(LSTM)和一个全连接层(FC)用于分类。第一个LSTM层(LSTM1)在前向方向处理第一级网络的输出,第二个LSTM层(LSTM2)在反向方向处理。
表I列出了单个时间段网络的详细信息及每层的属性。训练过程分为两个主要步骤:首先,使用30秒的EEG和EOG数据段训练单个时间段网络。然后,将训练集的单个时间段网络输出用于训练多时间段网络。考虑到睡眠周期的性质和睡眠阶段的不同分布,训练过程中使用了一种概率方法来构建小批量数据,以避免网络输出倾向于有较多数据段的阶段。训练过程中,小批量数据的大小设为16,并基于随机选择的时间段数据构建小批量数据,采用均匀概率分布。在单时间段网络(Single-Epoch Network)中的可训练参数包括Gabor层(GLs)的Gabor核参数,以及卷积层和全连接层的参数。训练过程中使用的损失函数是交叉熵(Cross Entropy),它结合了负对数似然(Negative Log-Likelihood)和SoftMax函数的对数,定义如下:
其中,O[k]是网络输出向量的第 k 个元素,class是由专家标记的得分类别。在单时间段网络训练完成后,使用所有训练数据的输出 On作为训练数据来训练多时间段网络(Multi-Epoch Network)。在多时间段网络的训练过程中,使用了与单时间段网络相同的损失函数、学习率初始化和调整方法,以及优化算法。
四、解释方法
使用具有可训练参数的Gabor函数作为第一层的核,迫使单时间段网络学习与睡眠评分过程相关的波形。因此,经过训练过程优化后的波形可以用于解释网络的学习知识。GL(Gabor层)的输出包括在输入信号上应用的Gabor核,它可以显示输入信号与核波形之间的相关性,从而表示核波形在输入信号中的时间分布。
尽管GL的输出对于解释来说是有意义的,但每个输出时间序列中的幅度无法与其他输出进行比较。网络的后续层和GL的输出值不能直接表示每个波形对网络输出的贡献。可以使用基于目标输出的GL输出的局部梯度作为归一化权重。因此,网络输出对GL输出时间序列的敏感性可以通过计算目标输出(O[class])对每个Gabor层输出样本(GLi(t))的导数来测量,如公式(4)所示。
这里的敏感性(Sen(t))类似于显著性图技术,但它是相对于GL的输出。GL的输出时间序列与网络输出之间的关系非常复杂、非线性,并且取决于输入。我们将从线性近似中导出的方程视为输出对每个GL输出的敏感性。敏感性仅显示输出变化对GL输出变化的依赖性。将GL输出值与敏感性相乘,可以表示GL输出对网络输出的功能性影响,作为一种归因图(attribution map)。因此,我们使用GL输出与敏感性正值相乘的平方和来量化每个Gabor核对网络输出的正向功能性影响的强度,如公式(5)和(6)所示。
步进函数 θ(.) 是一个阶跃函数,而 EffX(t) GLi→O[class] 则表示在给定输入 X(t) (可以是 EEG 或 EOG 信号) 时,第 i 个 Gabor 核对输出中第 class 元素的正向功能效应。仅使用敏感度中的正值,建立了 Gabor 层的输出与模型主要输出之间的直接联系,即 GL 输出值的增加会增加相对输出,并且通过 softmax 函数,提高相关输出的概率。根据设计的架构,不同层次的解释是基于 EffX(t) GLi→O[class] (t) 时间序列 (Eff(t)) 和 EffX(t) GLi→O[class] (Eff) 从上到下(总体到细节)的解释(图 4)进行定义的。
分期过程: 在第一级分期过程层次上,基于单周期网络设计中考虑的逻辑,并在第一层中使用 Gabor 核,在经过有效的训练过程后,我们假设系统将找到 Gabor 核的优化参数集,从而可以解释 EEG 信号中各个波形对检测到的睡眠阶段的影响。因此,通过对所有测试周期中所有 Gabor 核的 Eff 进行加权平均,可以将每个核 (第 i 个核) 对睡眠分期过程的影响量化为 Effi,作为一个定性衡量标准,如公式(7)所示。
其中 Nj 是睡眠阶段 j 中测试周期的总数,δ(.) 是单位脉冲函数,O[classX] 是相对输入信号 (X(t)) 的实际睡眠阶段。Effi 是对真实输出类别的正向功能效应的平均值,可以表示每个 Gabor 核在决策过程中整体上的定性影响。为了以定量的方式衡量核对睡眠阶段评分过程的影响,我们定义了每个 Gabor 核在选择的睡眠阶段中具有最大效应的次数加权值 νi,公式(8)用于表示第 i 个 Gabor 核的定量影响。
其中,νi 与第 i 个核在睡眠阶段评分过程中具有最高正向功能效应 (Eff) 的次数呈线性关系。
阶段:下一个层级专注于各个睡眠阶段(阶段层级)。类似于公式 (7) 和 (8),每个波形对每个睡眠阶段的影响可以分别在数量和质量上进行测量。通过分别对每个睡眠阶段中的每个核的 Eff 值进行平均,可以量化每个核波形对特定睡眠阶段的整体定性影响,记作 Effji, 如公式(9)所示。
在每个核的每个阶段中计算 Eff 值并对这些值进行排序后,我们计算了每个核对选择特定睡眠阶段影响最大的次数,记作 νji,如公式(10)所示。
其中,νj i 代表第 i 个核在 j 类睡眠阶段中具有最高正功能效应 (Eff) 的次数。
信号:解释的下一层级关注信号,采用两种不同的方法。通过比较单期和多期网络的输出,我们可以观察系统何时考虑周围的周期进行评分。此外,通过分别平均 EEG 和 EOG 信号的所有核的 Eff 值,可以评估 EEG 和 EOG 信号对检测当前睡眠阶段的重要性。
EEG 随时间变化:在最终层级(EEG 随时间变化层级),使用 EEG 相关核的 Eff(t) 来展示每种波形在何时以及多大程度上影响所选择的睡眠阶段。
五、实验介绍
A. 数据
本研究使用了三个 PSG 数据集:Physionet Sleep-EDF、Physionet EDF-20 和 DREAMS。Physionet Sleep-EDF 数据集是主要的数据集,因为它包含了更多的记录,并且每个受试者有两晚的记录,有助于评估方法的性能和解释能力。其他两个数据集则用于比较方法的性能。
1. EDF 扩展数据集: 包含 78 名健康受试者的 153 个 PSG 记录,每个记录包括两个 EEG 通道、一个 EOG 通道(采样率 100 Hz)和一个 EMG 通道(采样率 1 Hz)。除了三个受试者外,每个记录都涵盖了两个连续的昼夜周期(共 20 小时)。这些记录根据 R&K 手册被分为六个睡眠阶段,但在本文中,S3 和 S4 阶段被合并为 SWS。数据集的划分方法包括:
(1) 夜间保留 k 折交叉验证: 将 75 名受试者的记录分为 120 个训练记录和 30 个测试记录,确保测试集中仅有一个连续记录,并覆盖所有受试者。其余记录作为验证集。
(2) 受试者保留 k 折交叉验证: 使用 60 名受试者的记录作为训练集,15 名受试者的记录作为测试集,其余受试者的记录作为验证集。
(3) 记录保留法: 随机选择 15 个记录作为测试集,3 个记录作为验证集,135个记录作为训练集。此方法用于展示训练过程中学到的知识和解释能力。
2. EDF-20 数据集: 作为 EDF 扩展数据集的子集,包含 20 个 PSG 记录,具有相同的信号特性。使用留一法(LOO)进行验证,即每次将一个记录作为测试数据,其余记录用于训练,计算所有测试的平均性能。
3. DREAMS 数据集: 包括 20 名健康受试者的整晚 PSG 记录,记录包含至少两个 EOG 通道、三个 EEG 通道和一个下颚 EMG 通道,采样频率为 200 Hz。使用一个 EOG 通道和一个重新参考的 EEG 通道,并将其重新采样到 100 Hz。
首先,使用 EDF 扩展数据集,通过夜间保留和受试者保留的交叉验证方法训练了单周期网络和多周期网络。在训练完成后,系统的整体性能在每个折叠上进行了 5 次独立测试。表 III 和表 IV 展示了这两种方法下系统的混淆矩阵和评估结果。在实验和解释过程中,使用了 Adam 算法 [75],初始学习率为 0.000625(0.01/每小批量大小),小批量大小为 16。损失函数采用交叉熵,验证集占每次交叉验证的 3%。学习率每 5000 次迭代后降低一次,并且每 1000 次迭代进行一次验证,以避免过拟合。同时,Gabor 核心的频率 f 限制在 0 至 35 Hz 之间。在训练过程中,小批量样本从训练子集随机选择,并根据每个类别的样本数量的倒数进行归一化,以克服类别分布不平衡的问题。
混淆矩阵中的元素 (i, j) 显示了实际为睡眠阶段 i 的样本被误分类为阶段 j 的比例 (%)。系统的表现通过召回率和精确度进行评估。提出的方法在夜间保留和受试者保留验证中,SWS 阶段的召回率最佳,而 S2 阶段最差;在觉醒阶段则表现出最高的精确度和 F1 分数。为了防止对样本较多的阶段(如觉醒阶段)产生偏倚,使用了基于概率的样本选择方法,接近的召回值表明该方法有效。该架构在 EDF 扩展数据集的夜间保留交叉验证中实现了 92.33% 的准确率、0.85 的 Kappa 系数和 85.41% 的 MF1 分数;在受试者保留交叉验证中则为 90.08% 的准确率、0.81 的 Kappa 系数和 80.81% 的 MF1 分数。单周期网络在夜间保留和受试者保留验证中的平均 Kappa 分别为 0.75 和 0.72。引入多周期网络后,Kappa 分数提高了约 0.1,显著提升了分类性能。图 5 展示了单周期和多周期网络的睡眠评分示例。
表 V 中的混淆矩阵数据显示,在单周期网络的输出基础上使用多周期网络提高了大多数情况下的阶段评分性能。总体而言,从整体评分来看,使用多周期网络提高了系统性能,并在出现分歧的情况下,多周期网络纠正了检测。S1-觉醒和 REM-觉醒(On − O* n)配对是分歧最多的情况,在超过 95.5% 的情况下,多周期网络纠正了检测。另一方面,最糟糕的情况是觉醒-S1 和 S2-S1 配对,其中多周期网络分别在 80% 和 53.5% 的分歧情况下错误地将输出更改为 S1。本研究提出的架构还使用 EDF-20 和 DREAMS 数据集进行了训练,并分别通过 LOO 交叉验证方法进行评估。该方法在 EDF-20 数据集上实现了 93.9% 的准确率、0.88 的 Kappa 和 83.34% 的 MF1(表 S3 显示了 EDF-20 数据集的结果混淆矩阵)。在 DREAMS 数据集上,经过训练和评估后,网络在 LOO 交叉验证中实现了 88.09% 的准确率、0.84 的 Kappa 和 86.96% 的 MF1(表 S4 显示了 DREAMS 数据集的结果混淆矩阵)。
C. 比较分析:
表 VI 展示了本文提出的方法与最近一些使用 Physionet EDF-20 数据集和相同验证方法的深度学习研究的整体性能比较。
大多数以往研究(表 VI 中列出的所有研究)采用的交叉验证方法中,测试记录与所有记录的比例不超过 0.1。而在本研究中,EDF-Expanded 数据集的比例约为 0.2,表明本研究在更为严苛的条件下进行了测试,并且在整体性能上优于表 VI 中的其他研究。此外,由于许多睡眠分期系统仅使用单个 EEG 通道数据,我们在实验中移除了 EOG Gabor 层,仅使用单个 EEG 通道对提出的方法进行了训练和评估。表 VI 展示了在这两种条件下使用 EDF-20 数据集的结果(单通道 EEG 的结果见表 S5)。无论是使用 EEG 和 EOG 信号,还是仅使用 EEG 信号,提出的方法在表现上都优于表 VI 中的所有其他研究。
我们还在 DREAMS 数据集上重复了这两种实验条件(EEG-EOG 信号与仅使用 EEG 信号),两项实验的结果分别见表 S4 和 S6。表 VII 比较了我们的方法与其他在 DREAMS 数据集上使用相同数据集的方法的表现。表 VII 的结果显示,提出的方法在两种实验条件下的表现均优于其他研究。一般来说,S1 阶段是最难检测的睡眠阶段[85],也是不同评分者之间一致性最低的阶段[14]。表 VIII 列出了在不考虑主要方法(浅层学习或深度学习)的情况下,提出的方法在 S1 阶段的性能与其他研究的比较。
D. 研究解读
本系统通过使用 EDF-Expanded 数据集和记录保留评估方法进行了训练和测试,旨在提高系统的知识学习能力和用户的可解释性。训练的目标不仅是构建自动化的睡眠分期系统,更是创建能够辅助应用解释的经过良好训练的网络。结果显示,系统达到了 92.25% 的准确率,84.1% 的 MF1 分数和 0.85 的 Kappa 系数,表明其表现优异。
在解读的第一层级,单时段网络中优化后的 Gabor 核心代表了标准的睡眠评分波形。通过训练,这些核心的参数得到了优化,以匹配 EEG 和 EOG 信号中的关键波形。卷积操作模拟了核心波形在输入信号中的能量计算,因而训练后的 Gabor 核心能够有效捕捉用于睡眠分期的优化波形。
图 6 展示了优化后的 Gabor 核心覆盖了广泛的频率范围,其中一些与典型的 EEG 波形(如慢波、θ波和纺锤波)完美匹配。虽然优化后的核心代表了睡眠分期过程中重要的波形,但其对决策过程的影响程度是不同的。图 7 显示,某些 Gabor 核心(如核心 18,类似慢波和 δ 波)对决策过程影响最大,而其他核心则可能因冗余信息未对分期产生显著影响。
另一方面,图 7中的结果显示,一些 Gabor 核心并不重要,因为训练过程无法优化它们或它们的信息是冗余的,而其他优化核心提供了足够的信息用于决策。例如,Gabor 核心 6、13、16、20 和 21 没有得到良好优化,在分期过程中并没有显著影响。相比之下,Gabor 核心 3、7、8、10、18、19、26、27 和 28 几乎相等,具有慢波形式,表现为低通滤波器,但除了核心 8、10、18 外,其他核心由于信息冗余可能没有对分期过程产生显著影响。
图 8 显示了各核函数在不同睡眠阶段的影响范围,其中显著差异通过配对 t 检验(p 值 < 0.05)标出。图 8(a) 中的核函数 2 表示高频波形,其影响从清醒到 SWS 阶段逐渐减小。图 8(b)、(d)、(e) 和 (g) 显示了与慢波(SW)类似的波形分布,表明 SW 对 S2 和 SWS 阶段的检测至关重要。核函数 4 和 23(图 8(c) 和 (h))主要频率为 4 Hz,作为带通滤波器,对 REM 阶段的影响最大。而核函数 24(图 8(i))的纺锤波形对 S2 和 SWS 阶段的影响最显著。
进一步分析表明,EEG 和 EOG 信号对输出的影响可以通过核函数的影响量来衡量。图 9 展示了不同睡眠阶段中 EEG/EOG 影响比的变化,结果表明,REM 和 S1 阶段对 EOG 信号的依赖性显著高于其他阶段。图 10 则展示了不同睡眠阶段中最具影响力的 Gabor 核函数的时间序列,揭示了纺锤波和 SW 在阶段检测中的重要性。
E. Gabor层的效果
我们评估了 Gabor 层在提出方法中的效果。首先,将 Gabor 层替换为相同长度的一维卷积层,并使用 EDF-20 数据集进行了 LOO 交叉验证。结果显示,去除 Gabor 层的网络性能下降,准确率为 84%,Kappa 系数为 0.77,低于含 Gabor 层的网络。对比训练过程,尽管去除 Gabor 层的网络初期收敛较快,但含 Gabor 层的网络在泛化能力和整体性能上表现更好,验证集损失更低,Kappa 值更高。去除 Gabor 层后,虽然一维卷积层能提取类似信息,但滤波器缺乏特定的可解释性,导致网络可解释性大幅下降,仅能依赖显著性图等敏感度方法。
六、结论
本研究虽然主要关注于睡眠阶段的评分,但其提出的方法也适用于其他具有明确输入模式的任务,以构建可解释的系统。在机器学习的应用中,通常存在两种类型:一种是有明确决策流程的,另一种则没有。本研究通过融合专家知识和标准化的决策流程,不仅增强了模型的可解释性,也提升了其性能。我们开发了一种深度学习系统,专门用于睡眠阶段的评分,该系统整合了标准波形特征、相邻时段信息以及EOG(眼电图)信号。新定义的卷积层采用了Gabor函数作为核心,通过多种交叉验证和不同数据集的测试,验证了系统的性能和泛化能力。实验结果表明,该方法在更为严格的评估标准下依然表现出色。Gabor函数的引入增强了系统的可解释性,因为它与多种已知的EEG波形特征相吻合。研究结果证实,该方法不仅提升了评分性能,也增强了模型的可解释性。未来工作可以探索利用负梯度来量化不同核对输出的反向影响,并研究输入信号中未包含的波形对模型的影响。
撰稿人:郑泽昆
审稿人:王斐