基于SHAP的MRI影像组学预测乳腺癌Luminal型和non-Luminal型

赵玲1 罗锐1 尹龙洲1 周莉1 陈正国通讯作者

电子科技大学医学院附属绵阳医院·绵阳市中心医院（四川省绵阳市）621099

摘要

目的：研究结合SHAP分析与MRI影像组学，通过机器学习技术提高乳腺癌亚型识别的准确性。方法：对乳腺癌MRI数据进行组学分析，运用Boruta、LASSO和RFE筛选关键特征，以KNN建立分类模型，并采用五折交叉验证评估性能。同时，应用SHAP深入解释模型预测。结果：鉴定三个关键影像组学特征，模型AUC为0.788，准确率达0.743，显示出优良预测能力。SHAP分析揭示了特征对模型决策的具体贡献。结论：本研究构建的乳腺癌亚型预测模型具高准确度和解释性，为乳腺癌精确诊断提供有效工具。

关键词

乳腺癌；分子亚型；影像组学；机器学习

正文

引言

乳腺癌是全球女性最常见的恶性肿瘤之一，给公共卫生带来严重挑战^[^1]。其发病率不断上升，治疗和预后与分子亚型紧密相关。Luminal和non-Luminal亚型的鉴别对个性化治疗和预后预测极为关键，如Luminal A亚型对化疗反应差，而内分泌治疗较有效^[^2]。目前，尽管免疫组化是分子亚型评估的标准方法，但MRI影像组学显示了以非侵入性方式进行乳腺癌分型的潜力^[^3]。然而，机器学习在乳腺癌分类中的应用受其不透明性影响^[^4]。

本研究旨在结合MRI影像组学与SHAP可解释性分析，开发既准确又透明的模型，协助临床医生精确区分乳腺癌亚型，提供精确诊断的有力工具。

1. 资料与方法

1.1 临床资料

本研究获得医院伦理委员会批准，所有患者均已知情同意。研究时间为2022年5月至2023年5月，纳入经病理活检确认的乳腺癌患者且完成新辅助治疗前的DCE-MRI检查。排除标准包括资料缺失、多病灶或双侧患者，以及图像质量不足者。

1.2 影像组学特征提取

两位放射科医生使用3D Slicer软件对DCE-MRI图像中肿瘤进行ROI勾画。后续利用Python提取了影像组学特征，包括一阶特征、灰度共生、依赖、运行长度、大小区域矩阵、灰度差异及形状特征。

1.3 特征筛选和预测模型构建

本研究采用Boruta、LASSO和RFE三种方法进行特征选择：Boruta通过随机森林确认关键特征；LASSO通过带惩罚项的回归选择特征；RFE迭代排除最弱特征以优化模型。通过这些方法筛选出关键影像组学特征，增强了特征选择的稳定性和可信度。使用KNN分类器和五折交叉验证构建了预测模型。此外，运用SHAP分析量化了特征对预测的具体贡献，以评估其重要性。

2. 结果

2.1 患者一般资料统计

本研究共入组了70名患者（43 ± 27岁）。其中，Luminal亚型共43人，27人为non-Luminal亚型。

表1 患者的临床病理特征

Characteristics	Luminal (N=43)	Non-Luminal (N=27)
Age, mean ± s, years	51.65 ± 6.74	53.44 ± 7.40
ER status
Negative	2 (4.65%)	27 (100.00%)
Positive	41 (95.35%)	0
PR status
Negative	18 (41.86%)	27 (100.00%)
Positive	25 (58.14%)	0
HER2 status
Negative	30 (69.77%)	14 (51.85%)
Positive	13 (30.23%)	13 (48.15%)
Ki-67 status
Negative	12 (27.91%)	5 (18.52%)
Positive	31 (72.09%)	22 (81.48%)

2.2 特征降维

通过Boruta方法，我们鉴定了四个关键组学特征，LASSO筛选优化至三个，而RFE排名了十个最重要特征。结合三种方法的结果，最终选定了三个共有特征用于后续模型分析。

2.3 预测模型性能比较

表2和图1展示了KNN模型在预测Luminal和non-Luminal中的预测性能，AUC为0.788 (0.671-0.883)。准确率为0.743，敏感度和特异度分别为0.837和0.593。

表2 模型预测性能

模型	AUC	准确率	敏感度	特异度
KNN	0.788 (0.671-0.883)	0.743 [52/70]	0.837 [36/43]	0.593 [16/27]

图1 KNN预测模型ROC曲线

2.4 基于SHAP的预测模型可解释性分析

我们运用了SHAP方法进行了集成模型的可解释性分析。所有患者特征的SHAP值均值可视化表明三个特征的重要性接近，其中Feature104最为关键。SHAP图展示了每位患者的特征贡献，颜色深浅反映特征大小，横轴SHAP值大小反映预测趋向，直观地展示了模型的决策依据。

图2 基于SHAP的特征重要性分析

图3 基于SHAP的特征决策可视化

3. 结论

本研究结合非侵入性MRI影像组学、机器学习及SHAP分析，提高乳腺癌亚型分类精度。采用Boruta、LASSO和RFE特征选择方法构建了一个减少过拟合、稳定且准确的模型，并通过五折交叉验证确保了KNN分类器的泛化能力。SHAP分析揭示了特征影响，增强了模型决策的透明度。虽模型整体表现良好，但特异性和敏感性有提升空间。考虑乳腺癌异质性，后续可能需进一步验证优化。研究成果为个性化治疗和预后提供有力支持，证明了预测模型在区分Luminal和non-Luminal亚型中的应用潜力。

参考文献

[1] 徐吟雪,张蕾,乔熙雯等.ADC类药物治疗乳腺癌疗效与安全性的Meta分析[J].中国药房,2023,34(20):2540-2544.

[2] 王世科,孙冬,郭大静等.基于DCE-MRI的影像组学在预测乳腺癌Luminal型和非Luminal型中的价值[J].重庆医科大学学报,2019,44(07):933-937.DOI:10.13406/j.cnki.cyxb.002175.

[7] Siviengphanom S, Gandomkar Z, Lewis SJ, et al. Mammography-based Radiomics in Breast Cancer: A Scoping Review of Current Knowledge and Future Needs. Academic Radiology 2022;29(3):1228-1247.

[4] 刘璐璐,李军.乳腺癌分子亚型的影像学研究进展[J].影像研究与医学应用,2023,7(02):13-15+19.

[5] 李俊峰,张小琼,马滔等.基于XGBoost和SHAP的可解释性滑坡位移预测模型[J/OL].工程地质学报:1-16[2023-11-01].https://doi.org/10.13544/j.cnki.jeg.2022-0856.

[6] 贾潇瑶.融合CatBoost和SHAP的乳腺癌预测及特征分析[J].计算机与现代化,2023(10):32-38.
第一作者简介：

姓名：赵玲（1990年-），女，四川绵阳人，主治医师；主要从事肿瘤影像学及人工智能。

通信作者简介：

姓名：陈正国（1976年-），男，四川绵阳人，副主任医师；主要从事肿瘤影像学及人工智能。

...

阅读全文