Sign In

Interpretable Heart Disease Prediction via a Weighted Ensemble Model: A Large-Scale Study with SHAP and Surrogate Decision Trees

Created by
  • Haebom
Category
Empty

저자

Md Abrar Hasnat, Md Jobayer, Md. Mehedi Hasan Shawon, Md. Golam Rabiul Alam

개요

심혈관 질환(CVD) 위험 예측을 위해 LightGBM, XGBoost, CNN을 결합한 가중 앙상블 모델을 개발하여 Heart Disease Health Indicators Dataset에 대한 대규모 분석을 수행했습니다. 데이터 전처리를 통해 229,781명의 환자 데이터를 사용했으며, 클래스 불균형을 해결하고 22개의 특징을 25개로 확장했습니다. 앙상블 모델은 테스트 AUC 0.8371(p=0.003)을 달성하여 개별 모델보다 통계적으로 유의미한 성능 향상을 보였으며, 높은 재현율(80.0%)을 통해 선별 검사에 적합합니다. 또한, 설명 가능성을 위해 대리 의사 결정 트리와 SHAP를 활용했습니다.

시사점, 한계점

시사점:
다양한 학습 아키텍처를 결합하여 강력한 예측 성능을 달성했습니다.
SHAP 및 대리 의사 결정 트리를 통해 임상적 해석 가능성을 제공합니다.
공중 보건 선별 검사에서의 실제 적용 가능성을 시사합니다.
한계점:
논문에 구체적인 한계점 언급은 없음.
👍