融合脑电与眼动追踪的多模态脑机接口：开辟意识障碍患者辅助交流新途径

脑机接口与混合智能研究小组

更多动态

2599

2024-10-15

该论文发表于IEEE Transactions on Neural Systems and Rehabilitation Engineering (JCR Q1，中科院二区，CAAI B类期刊)，题目为《A Hybrid BCI Integrating EEG and Eye-tracking for Assisting Clinical Communication in Patients with Disorders of Consciousness》。

华南师范大学人工智能学院易子怡为此文第一作者，华南师范大学潘家辉教授和南方医科大学珠江医院谢秋幼主任为通讯作者。

论文链接：https://ieeexplore.ieee.org/document/10613902

一、背景

意识障碍（disorders of consciousness, DOC）是一种严重的临床疾病。错误诊断病人的意识状态不仅会造成严重的医学后果，还会带来伦理问题。交流能力和视觉能力是评估意识状态水平的两个重要指标。但传统的临床评估方法，如昏迷恢复量表（CRS-R），严重依赖患者缺乏的运动行为能力，误诊风险较高。例如，患者的微弱眼动可能被医生忽视。眼动追踪技术，能够检测各种眼动（例如，注视定位、扫视运动和瞳孔变化），可能是一个有用的辅助手段。

脑机接口（BCI）技术结合脑电信号（EEG）和眼动信息直接检测大脑神经活动，能为客观评估DOC患者残余意识提供有效途径。特别地，开发一个高效可靠的多模态BCI仍然是一项挑战，例如在多模态信息融合、小样本数据特征挖掘及对微意识患者的适用性上。为克服现有技术的局限性，提高BCI系统性能，本研究提出了一种新的多模态BCI系统。该系统结合了P300电位检测与眼动追踪技术，旨在为DOC患者提供更准确、更低门槛的交流方式与意识诊断工具。

二、方法

新型交流范式

患者主要通过注意力和注视来进行二元是/否交流。具体来说，系统向DOC患者展示情境定向问题，同时在问题下方的左右两侧显示文字块“是”和“否”。随机闪烁的文字块和对应的语音播报作为视觉和听觉刺激。实验要求患者选择性地专注于正确答案的刺激。刺激呈现时，相应文本块的文字颜色从蓝色变为绿色，背景颜色从黑色变为白色，亮度从1.27 cd/m²增加到90.76 cd/m²。每次刺激持续300毫秒，间隔700毫秒，刺激阶段共持续20秒。随机的视听刺激可诱发P300事件相关电位（ERP）。不同的目标位置会导致眼动注视位置的不同。此外，文字块亮度的变化会改变受试者的瞳孔大小，并且这种变化的程度会随着注意力的集中而增加。通过检测、分析刺激中产生的P300信号和眼动信号（注视位置、瞳孔反应）可识别患者选择专注的文字块。

图 1 在线交流BCI范式

2. 多模态目标识别网络（MTRN）

多模态目标识别网络(MTRN)包括三个模块：（1）双流特征提取模块；（2）多模态注意力模块；（3）原型分类器。

图 2数据处理总体流程与MTRN总体结构

（1）双流特征提取模块

双流特征提取模块由两个独立的多尺度卷积神经网络组成，分别用于EEG和眼动数据的特征提取。

EEG特征提取模块的多尺度卷积神经网络主要包括6层结构。L1空间卷积层：通过空间滤波和非线性激活相结合来提高信号的信噪比，去除冗余的空间信息。L2时间卷积层：通过安排两个并行卷积层来捕获更多的差异化特征。两个卷积层的卷积核大小不同，该策略可以帮助提取不同的时态数据，并提高这些特征的有效性。L3集成层：整合L2层提取的特征。整合后的特征包含更多的全局信息，同时仍保留脑电信号的局部信息。L4最大池化层：去除冗余特征，保留域特征。L5和L6为两个连续全连接层，在最后一层全连接层中，输出所有输入样本的代表性EEG特征。眼动信号特征提取模块的多尺度卷积神经网络主要包括7层操作。其结构与EEG特征提取模块相似，只新增一个卷积层，用于细粒度特征提取。上述网络的所有卷积层都包括卷积、批量归一化及激活操作。批量归一化可减少内部协变量偏差，避免饱和问题，并确保更快的训练速度。

（2）多模态注意力模块

多模态注意力模块的任务是整合双流输出，自适应地强调重要特征，同时消除冗余。该模块采用跨通道软注意力机制。具体来说，引入一个紧凑特征z来指导准确和自适应的特征选择。为提高效率和降维，采用了一个简单的全连接层和缩减比率来控制特征维度。在紧凑特征的指导下，利用softmax函数可实现跨通道软注意选择不同空间尺度的信息。最后通过注意力加权可实现自适应地捕捉多模态数据中有价值的信息。

（3）分类器

MTRN使用基于余弦距离的原型网络作为分类器，用于专注目标的识别。在交流任务中，原型分类器的工作可以被描述为二元分类任务，区分阳类（目标）和阴类（非目标）。该分类器的工作原理是，样本的嵌入围绕其类原型聚类，并通过识别最相似的类原型来对查询样本的嵌入F进行分类。在本发明中，原型是通过平均训练集中来自同一类的所有样本的特征而得到的。对于识别“最相似的类原型”，模型通过在度量空间计算类原型与样本嵌入之间的余弦距离来进行识别。在MTRN中，分类器通过均方误差损失函数进行优化。

3. 实验

实验设备：使用32电极脑电帽和SynAmps²放大器（Compumedics, Neuroscan, Inc., Australia）以250 Hz的采样频率记录EEG信号。为去除噪音，进行了50 Hz的陷波滤波。使用眼动追踪眼镜（SMI ETG 2w, Germany）记录眼球运动数据。场景视图和眼睛视图的采样率为60Hz，分辨率分别为1280×960和320×240。

实验人员：研究团队共招募10名健康志愿者与10名意识障碍患者（包括1例闭锁综合征（LIS）、8例微意识状态（MCS）、1例植物状态（VS））。所有患者均在实验前一周内进行了CRS-R意识状态评估。

表格 1患者信息

Patient	Gender	Clinical diagnosis	Age	Time since Injury (months)	CRS-R (subscores)
P1	F	MCS	56	12	17 (3-4-5-2-1-2)
P2	M	MCS	14	7	9 (1-3-2-1-0-2)
P3	F	MCS	17	8	9 (1-3-2-1-0-2)
P4	M	LIS	43	3	17(4-5-2-1-2-3)
P5	F	MCS	54	2	12 (3-3-2-1-0-2)
P6	M	VS/UWS	66	2	6 (0-1-2-1-0-2)
P7	F	MCS	18	19	10 (1-3-2-2-0-2)
P8	M	MCS	31	6	17 (3-4-5-2-1-2)
P9	M	MCS	17	9	10 (1-3-2-2-0-2)
P10	F	MCS	72	5	13 (2-3-5-1-0-2)

CRS-R评分子表包括: 视觉、听觉、运动、言语、交流和觉醒功能。

实验过程：由于病人容易疲劳，因此实验被安排在两天进行，中间休息两天。实验分为离线训练和在线测试两个阶段，离线训练:在进行在线交流实验之前，每个受试者先完成一个包含10个trial的训练实验，以收集数据来训练MTRN。在离线训练中，模型不提供结果反馈。在线测试:每位参与者尽量进行5次在线交流测试，每次测试由10个trial组成。在线测试的设置和过程与离线训练相似，不同之处在于，在线实验中，MTRN会对采集的数据进行实时处理，并在刺激结束时反馈测试结果（即患者的答案选择）。

数据预处理：脑电信号预处理流程包括：使用0.1-20 Hz带通滤波去除噪音，使用100ms基线校准减少信号偏移、通过降采样与标准化来避免不同模态数据间量纲的影响。眼动信号的预处理流程包括计算眼动特征，3次样条插值拟合缺失的眼动数据，补充缺失的距离特征和降采样。

三、结果

为验证MTRN的性能，除在线测试外，本研究还对MTRN进行了消融实验和对比实验，也对各模型计算了常用的指标来进行性能评估。

1. 健康被试实验结果

所有健康受试者的在线交流准确率均达到100%，远高于显著性阈值(P≤0.05)，这证明了本文多模态BCI的可靠性。
基于多模态的系统，无论采用SVM还是MTRN的变体，均比仅基于P300或眼动追踪的系统具有更高的准确性。这表明多模态系统优于单模态系统，证实了多模态通信设计的有效性。
单模态条件下，MTRN的性能优于对比模型SVM和EEGNet/EyeNet，这意味着MTRN具有优越的特征提取和分类能力。
目标刺激后，健康被试的左/右瞳孔平均分别缩小0.5mm/0.54mm。
MTRN在每种模式下的各项指标（灵敏度、特异性、精确度、F1分数、准确性等）都超过了其他对比模型和消融模型，证明了它对P300ERP和眼动反应的分类能力，也证明了自适应注意力策略和基于原型分类技术的有效性。

2. 病人实验结果

五名患者（4名MCS和1名LIS；响应组）在在线交流实验中取得了显著效果（P≤0.05），平均准确率为76.1±7.9%。这表明这5名患者具有一定的意识水平，可通过BCI进行简单交流。无响应患者（另外5名患者）的平均准确率为60.0±2%，略高于50%的随机水平。
在响应组5名患者中，2名患者在实验前的CRS-R交流子量表中获得0分。实验结果表明医生对患者交流能力的评估可能出现了误判，这也意味着本文提出的多模态BCI有望对这一极具挑战性的患者群体的进行辅助交流。
对于响应组患者，无论是在单模态还是多模态条件下，MTRN的整体准确性在对比模型中取得了最高准确性。这展示了MTRN强大的数据融合和分类能力。
目标刺激后,响应组患者的左/右瞳孔平均分别缩小0.11mm/0.11mm。这表明患者有注意但无法持续注意目标刺激，与实验观察结果一致。
在响应组患者的ERP波形图中，可观察到P300电位被不同程度诱发。并且部分患者的ERP波形具有明显的变异性。这表明患者在不同实验之间的状态差异较大，也突出了在分析神经反应时考虑个体差异和生理状态的重要性。

所有的实验结果表明，结合脑电和眼动追踪技术，有望提升BCI系统性能，可为DOC患者提供更准确的诊断和沟通手段。眼动追踪技术的成功使用也为其在意识障碍领域的应用提供了新的可能性。

撰稿人：易子怡

审稿人：潘家辉

登录用户可以查看和发表评论，请前往登录或注册。