基于SHAP的MRI影像组学预测乳腺癌Luminal型和non-Luminal型
摘要
关键词
乳腺癌;分子亚型;影像组学;机器学习
正文
引言
乳腺癌是全球女性最常见的恶性肿瘤之一,给公共卫生带来严重挑战[1]。其发病率不断上升,治疗和预后与分子亚型紧密相关。Luminal和non-Luminal亚型的鉴别对个性化治疗和预后预测极为关键,如Luminal A亚型对化疗反应差,而内分泌治疗较有效[2]。目前,尽管免疫组化是分子亚型评估的标准方法,但MRI影像组学显示了以非侵入性方式进行乳腺癌分型的潜力[3]。然而,机器学习在乳腺癌分类中的应用受其不透明性影响[4]。
本研究旨在结合MRI影像组学与SHAP可解释性分析,开发既准确又透明的模型,协助临床医生精确区分乳腺癌亚型,提供精确诊断的有力工具。
1. 资料与方法
1.1 临床资料
本研究获得医院伦理委员会批准,所有患者均已知情同意。研究时间为2022年5月至2023年5月,纳入经病理活检确认的乳腺癌患者且完成新辅助治疗前的DCE-MRI检查。排除标准包括资料缺失、多病灶或双侧患者,以及图像质量不足者。
1.2 影像组学特征提取
两位放射科医生使用3D Slicer软件对DCE-MRI图像中肿瘤进行ROI勾画。后续利用Python提取了影像组学特征,包括一阶特征、灰度共生、依赖、运行长度、大小区域矩阵、灰度差异及形状特征。
1.3 特征筛选和预测模型构建
本研究采用Boruta、LASSO和RFE三种方法进行特征选择:Boruta通过随机森林确认关键特征;LASSO通过带惩罚项的回归选择特征;RFE迭代排除最弱特征以优化模型。通过这些方法筛选出关键影像组学特征,增强了特征选择的稳定性和可信度。使用KNN分类器和五折交叉验证构建了预测模型。此外,运用SHAP分析量化了特征对预测的具体贡献,以评估其重要性。
2. 结果
2.1 患者一般资料统计
本研究共入组了70名患者(43 ± 27岁)。其中,Luminal亚型共43人,27人为non-Luminal亚型。
表1 患者的临床病理特征
Characteristics | Luminal (N=43) | Non-Luminal (N=27) |
Age, mean ± s, years | 51.65 ± 6.74 | 53.44 ± 7.40 |
ER status | ||
Negative | 2 (4.65%) | 27 (100.00%) |
Positive | 41 (95.35%) | 0 |
PR status | ||
Negative | 18 (41.86%) | 27 (100.00%) |
Positive | 25 (58.14%) | 0 |
HER2 status | ||
Negative | 30 (69.77%) | 14 (51.85%) |
Positive | 13 (30.23%) | 13 (48.15%) |
Ki-67 status | ||
Negative | 12 (27.91%) | 5 (18.52%) |
Positive | 31 (72.09%) | 22 (81.48%) |
2.2 特征降维
通过Boruta方法,我们鉴定了四个关键组学特征,LASSO筛选优化至三个,而RFE排名了十个最重要特征。结合三种方法的结果,最终选定了三个共有特征用于后续模型分析。
2.3 预测模型性能比较
表2和图1展示了KNN模型在预测Luminal和non-Luminal中的预测性能,AUC为0.788 (0.671-0.883)。准确率为0.743,敏感度和特异度分别为0.837和0.593。
表2 模型预测性能
模型 | AUC | 准确率 | 敏感度 | 特异度 |
KNN | 0.788 (0.671-0.883) | 0.743 [52/70] | 0.837 [36/43] | 0.593 [16/27] |
图1 KNN预测模型ROC曲线
2.4 基于SHAP的预测模型可解释性分析
我们运用了SHAP方法进行了集成模型的可解释性分析。所有患者特征的SHAP值均值可视化表明三个特征的重要性接近,其中Feature104最为关键。SHAP图展示了每位患者的特征贡献,颜色深浅反映特征大小,横轴SHAP值大小反映预测趋向,直观地展示了模型的决策依据。
图2 基于SHAP的特征重要性分析
图3 基于SHAP的特征决策可视化
3. 结论
本研究结合非侵入性MRI影像组学、机器学习及SHAP分析,提高乳腺癌亚型分类精度。采用Boruta、LASSO和RFE特征选择方法构建了一个减少过拟合、稳定且准确的模型,并通过五折交叉验证确保了KNN分类器的泛化能力。SHAP分析揭示了特征影响,增强了模型决策的透明度。虽模型整体表现良好,但特异性和敏感性有提升空间。考虑乳腺癌异质性,后续可能需进一步验证优化。研究成果为个性化治疗和预后提供有力支持,证明了预测模型在区分Luminal和non-Luminal亚型中的应用潜力。
参考文献
[1] 徐吟雪,张蕾,乔熙雯等.ADC类药物治疗乳腺癌疗效与安全性的Meta分析[J].中国药房,2023,34(20):2540-2544.
[2] 王世科,孙冬,郭大静等.基于DCE-MRI的影像组学在预测乳腺癌Luminal型和非Luminal型中的价值[J].重庆医科大学学报,2019,44(07):933-937.DOI:10.13406/j.cnki.cyxb.002175.
[7] Siviengphanom S, Gandomkar Z, Lewis SJ, et al. Mammography-based Radiomics in Breast Cancer: A Scoping Review of Current Knowledge and Future Needs. Academic Radiology 2022;29(3):1228-1247.
[4] 刘璐璐,李军.乳腺癌分子亚型的影像学研究进展[J].影像研究与医学应用,2023,7(02):13-15+19.
[5] 李俊峰,张小琼,马滔等.基于XGBoost和SHAP的可解释性滑坡位移预测模型[J/OL].工程地质学报:1-16[2023-11-01].https://doi.org/10.13544/j.cnki.jeg.2022-0856.
[6] 贾潇瑶.融合CatBoost和SHAP的乳腺癌预测及特征分析[J].计算机与现代化,2023(10):32-38.
第一作者简介:
姓名:赵玲(1990年-),女,四川绵阳人,主治医师;主要从事肿瘤影像学及人工智能。
通信作者简介:
姓名:陈正国(1976年-),男,四川绵阳人,副主任医师;主要从事肿瘤影像学及人工智能。
...