基于SHAP的MRI影像组学预测乳腺癌Luminal型和non-Luminal型

期刊: 健康文摘 DOI: PDF下载

赵玲1 罗锐1 尹龙洲1 周莉1 陈正国通讯作者

电子科技大学医学院附属绵阳医院·绵阳市中心医院(四川省绵阳市)621099

摘要

目的:研究结合SHAP分析与MRI影像组学,通过机器学习技术提高乳腺癌亚型识别的准确性。 方法:对乳腺癌MRI数据进行组学分析,运用Boruta、LASSO和RFE筛选关键特征,以KNN建立分类模型,并采用五折交叉验证评估性能。同时,应用SHAP深入解释模型预测。 结果:鉴定三个关键影像组学特征,模型AUC为0.788,准确率达0.743,显示出优良预测能力。SHAP分析揭示了特征对模型决策的具体贡献。 结论:本研究构建的乳腺癌亚型预测模型具高准确度和解释性,为乳腺癌精确诊断提供有效工具。


关键词

乳腺癌;分子亚型;影像组学;机器学习

正文


引言

乳腺癌是全球女性最常见的恶性肿瘤之一,给公共卫生带来严重挑战[1]。其发病率不断上升,治疗和预后与分子亚型紧密相关。Luminalnon-Luminal亚型的鉴别对个性化治疗和预后预测极为关键,如Luminal A亚型对化疗反应差,而内分泌治疗较有效[2]。目前,尽管免疫组化是分子亚型评估的标准方法,但MRI影像组学显示了以非侵入性方式进行乳腺癌分型的潜力[3]。然而,机器学习在乳腺癌分类中的应用受其不透明性影响[4]

本研究旨在结合MRI影像组学与SHAP可解释性分析,开发既准确又透明的模型,协助临床医生精确区分乳腺癌亚型,提供精确诊断的有力工具。

1. 资料与方法

1.1 临床资料

本研究获得医院伦理委员会批准,所有患者均已知情同意。研究时间为20225月至20235月,纳入经病理活检确认的乳腺癌患者且完成新辅助治疗前的DCE-MRI检查。排除标准包括资料缺失、多病灶或双侧患者,以及图像质量不足者。

1.2 影像组学特征提取

两位放射科医生使用3D Slicer软件对DCE-MRI图像中肿瘤进行ROI勾画。后续利用Python提取了影像组学特征,包括一阶特征、灰度共生、依赖、运行长度、大小区域矩阵、灰度差异及形状特征。

1.3 特征筛选和预测模型构建

本研究采用BorutaLASSORFE三种方法进行特征选择:Boruta通过随机森林确认关键特征;LASSO通过带惩罚项的回归选择特征;RFE迭代排除最弱特征以优化模型。通过这些方法筛选出关键影像组学特征,增强了特征选择的稳定性和可信度。使用KNN分类器和五折交叉验证构建了预测模型。此外,运用SHAP分析量化了特征对预测的具体贡献,以评估其重要性。

2. 结果

2.1 患者一般资料统计

本研究共入组了70名患者(43 ± 27岁)。其中,Luminal亚型共43人,27人为non-Luminal亚型。

 

1 患者的临床病理特征

Characteristics

Luminal (N=43)

Non-Luminal (N=27)

Age, mean ± s, years

51.65 ± 6.74

53.44 ± 7.40

ER status



Negative

2 (4.65%)

27 (100.00%)

Positive

41 (95.35%)

0

PR status



Negative

18 (41.86%)

27 (100.00%)

Positive

25 (58.14%)

0

HER2 status



Negative

30 (69.77%)

14 (51.85%)

Positive

13 (30.23%)

13 (48.15%)

Ki-67 status



Negative

12 (27.91%)

5 (18.52%)

Positive

31 (72.09%)

22 (81.48%)

 

2.2 特征降维

通过Boruta方法,我们鉴定了四个关键组学特征,LASSO筛选优化至三个,而RFE排名了十个最重要特征。结合三种方法的结果,最终选定了三个共有特征用于后续模型分析。

2.3 预测模型性能比较

2和图1展示了KNN模型在预测Luminalnon-Luminal中的预测性能,AUC0.788 (0.671-0.883)。准确率为0.743,敏感度和特异度分别为0.8370.593

 

2 模型预测性能

模型

AUC

准确率

敏感度

特异度

KNN

0.788 (0.671-0.883)

0.743 [52/70]

0.837 [36/43]

0.593 [16/27]

 

 

1 KNN预测模型ROC曲线

 

2.4 基于SHAP的预测模型可解释性分析

我们运用了SHAP方法进行了集成模型的可解释性分析。所有患者特征的SHAP值均值可视化表明三个特征的重要性接近,其中Feature104最为关键。SHAP图展示了每位患者的特征贡献,颜色深浅反映特征大小,横轴SHAP值大小反映预测趋向,直观地展示了模型的决策依据。

 

 

2 基于SHAP的特征重要性分析

 

 

3 基于SHAP的特征决策可视化

3. 结论

本研究结合非侵入性MRI影像组学、机器学习及SHAP分析,提高乳腺癌亚型分类精度。采用BorutaLASSORFE特征选择方法构建了一个减少过拟合、稳定且准确的模型,并通过五折交叉验证确保了KNN分类器的泛化能力。SHAP分析揭示了特征影响,增强了模型决策的透明度。虽模型整体表现良好,但特异性和敏感性有提升空间。考虑乳腺癌异质性,后续可能需进一步验证优化。研究成果为个性化治疗和预后提供有力支持,证明了预测模型在区分Luminalnon-Luminal亚型中的应用潜力。

 

参考文献

[1] 徐吟雪,张蕾,乔熙雯等.ADC类药物治疗乳腺癌疗效与安全性的Meta分析[J].中国药房,2023,34(20):2540-2544.

[2] 王世科,孙冬,郭大静等.基于DCE-MRI的影像组学在预测乳腺癌Luminal型和非Luminal型中的价值[J].重庆医科大学学报,2019,44(07):933-937.DOI:10.13406/j.cnki.cyxb.002175.

[7] Siviengphanom S, Gandomkar Z, Lewis SJ, et al. Mammography-based Radiomics in Breast Cancer: A Scoping Review of Current Knowledge and Future Needs. Academic Radiology 2022;29(3):1228-1247.

[4] 刘璐璐,李军.乳腺癌分子亚型的影像学研究进展[J].影像研究与医学应用,2023,7(02):13-15+19.

[5] 李俊峰,张小琼,马滔等.基于XGBoostSHAP的可解释性滑坡位移预测模型[J/OL].工程地质学报:1-16[2023-11-01].https://doi.org/10.13544/j.cnki.jeg.2022-0856.

[6] 贾潇瑶.融合CatBoostSHAP的乳腺癌预测及特征分析[J].计算机与现代化,2023(10):32-38.
第一作者简介:

姓名:赵玲(1990-),女,四川绵阳人,主治医师主要从事肿瘤影像学及人工智能。

通信作者简介:

姓名:陈正国1976-),男,四川绵阳人,副主任医师主要从事肿瘤影像学及人工智能。

 


...


阅读全文