本篇学习报告的内容为:基于多模态深度学习的HER2阳性乳腺癌预后风险预测。HER2阳性乳腺癌是一种高度异质性的肿瘤,约30%的患者在曲妥珠单抗靶向治疗后仍有复发和转移的风险。因此,预测个体预后情况对进一步开展精准治疗具有重要意义,论文作者提出了一种新型的多模态深度学习方法,将H&E(即苏木精和伊红,两种常用于病理组织处理的染色剂)图像和临床信息结合起来,准确评估HER2阳性乳腺癌患者的复发和转移风险。
一、 研究背景
2020年,乳腺癌占全人类恶性肿瘤的12%,已然超过肺癌成为全球最常见的恶性肿瘤,其中HER2阳性乳腺癌约占25-30% ,且HER2阳性乳腺癌具有高度侵袭性,具有容易发生脑转移,预后不良的特点。约20% 的HER2阳性乳腺癌患者在接受包括化疗和曲妥珠单抗在内的辅助治疗后仍会出现复发和转移。目前,临床医生只能根据受体表达、肿瘤大小、淋巴结转移、发病年龄等临床病理因素来识别复发风险并制定治疗方案,这种工作不仅耗时耗力,而且主观性强,不利于患者的预后治理。因此,迫切需要为这种特殊类型的癌症建立预测模型,以预测HER2阳性乳腺癌患者的复发和转移的风险。
二、 实验材料与预处理
作者一共采集了两个数据集,第一个是从2010年至2018年在中国医学科学院肿瘤医院招募了127名已知复发和转移信息的HER2阳性乳腺癌患者,记录他们手术后经由染色的病理组织全切片图像与临床数据用以训练模型,其中临床数据包括:淋巴结(LMN);雌激素受体(ER);孕激素受体(PR);肿瘤分期(Tumor stage)等。第二个是从癌症基因组图谱(TCGA)中下载所有可用的HER2阳性乳腺癌患者数据(包括复发与未复发的)作为独立的测试数据集以评估模型的性能。
由于标本制备过程中诸多工艺的不同,组织病理学图像的颜色和成像经常发生变化。因此,在训练模型之前,我们需要对图像进行了归一化处理,然后用秩和检验法来检验颜色归一化前后图像的基本特征(包括①ASM ②对比度 ③熵 ④同质性 ⑤平均值 ⑥不相似性 ⑦ 差异性),如图1所示,经过色彩归一化后,图像的这些基本特征发生了明显的变化,处理后的图像更有利于模型的训练。
图1.切片图像处理前后各个基本特征对比
三、 实验流程
图2.模型训练与验证
图2展示的是模型的训练与验证流程。作者一共做了三个对比实验:①仅使用临床数据 ②仅使用图像数据 ③使用临床数据+图像数据。
训练阶段:将全切片图像划分为多个512*512大小的patch,分别放入预训练模型中。此处作者采用了诸多常用的预训练模型,如ResNet18/50,VGG16/19,AlexNet,Inception_v3等等。而对于临床信息,若当前采用的图像与临床数据同属一名患者,则使用随机森林法来验证各项临床数据特征的重要性。将两种模态数据通过多模态紧凑双线性融合(Multimodal Compact Bilinear),再将融合结果送入线性层之前的BN层,取交叉验证的一个子集的ROC曲线计算AUC,以AUC作为模型的衡量指标。
验证阶段:作者将一名患者的全切片的图像切分成若干与训练阶段同等大小的patch,将每一个patch 分别与临床数据融合后放入模型中,计算复发的可能性。一名患者的复发或转移风险概率即为所有patch可能性的平均值,大于0.5则判断为复发患者,小于0.5则判断为非复发患者。
四、实验结果
图3中展示了图像特征与临床特征的相关性,坐标颜色表示横坐标特征和纵坐标特征之间的相关程度。结果表明,部分临床特征与H&E图像特征正相关。如肿瘤分期与LMN有较强相关性,PR状态与ER状态有较强相关性,复发与肿瘤分期的相关性高于与其他临床特征和影像学特征的相关性。
图4(a)和(b)分别展示了训练集与测试集的ROC曲线和AUC。可以看到,临床数据结合H&E图像信息的AUC分别为76% 和72% ,敏感性和特异性分别为67% 和83% ,远远高于单独使用临床数据或图像的预测值。实验表明,H&E图像和临床信息的融合有助于提高模型的预测能力。为了进一步验证预测方法的性能,作者还对训练数据集进行了生存可能性预测(图5)。如图5(a)所示,若仅用临床数据预测,复发和非复发样本的存活率没有明显差异。然而,在结合临床数据和H&E图像信息后,复发和非复发样本的存活率随着天数增长有了明显的差异(图5(b),p = 0.039)。
图3.图像特征与临床特征的相关性
图4.实验结果
图5.患者生存可能性分析
五、学习总结
作者通过对比实验成功证明了基于H&E染色组织病理学图像和临床信息的深度学习可以预测乳腺癌的复发和转移,为深度学习的常规临床应用提供了一个新的方向。同时,这篇论文也展现了多模态在计算机辅助诊断(Computer-aided diagnosis)的应用前景。在之前的研究中,大多数工作都是做基于图像数据集的分类任务,比如判断肿瘤为良性或恶性的二分类任务或是基于图像纹理及空间上下文的多分类任务,对于病人的其他数据采用较少,一方面是因为乳腺癌相关的数据集大多只有图像,临床数据的获取较为困难。另一方面是在做乳腺癌检测时,病理组织图像才是医生最关注的材料。事实上,像临床数据,病人既往病史,精神状态等因素,均可以作为辅助因素来协助模型更加准确的作出判断。
论文来源:Yang J, Ju J, Guo L, et al. "Prediction of HER2-positive breast cancer recurrence and metastasis risk from histopathological images and clinical information via multimodal deep learning" . Computational and structural biotechnology journal.
论文链接:https://doi.org/10.1016/j.csbj.2021.12.028
攥稿人:林烁彬
审稿人:何乐为