Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Feature selection strategies for optimized heart disease diagnosis using ML and DL models

Created by
  • Haebom
Category
Empty

저자

Bilal Ahmad, Jinfu Chen, Haibao Chen

개요

본 연구는 심장병 진단을 위한 효과적인 예측 모델 개발을 목표로, 상호 정보(MI), 분산분석(ANOVA), 카이제곱 검정을 이용한 특징 선택 기법의 영향을 평가했습니다. 심장병 관련 임상 지표 데이터셋을 사용하여, 로지스틱 회귀, 랜덤 포레스트, 나이브 베이즈, 의사결정 트리, KNN, SVM, 그리고 다양한 심층 학습 모델 등 총 11가지 머신러닝 및 딥러닝 모델의 예측 성능을 정밀도, 재현율, AUC 점수, F1 점수, 정확도를 통해 비교 분석했습니다. 그 결과, 특히 신경망과 같은 고급 모델에서 MI가 다른 특징 선택 기법보다 우수한 성능을 보였으며, 82.3%의 정확도와 0.94의 재현율을 달성했습니다. 로지스틱 회귀와 랜덤 포레스트도 MI를 사용했을 때 성능이 향상되었습니다. 반면, KNN과 SVM은 특징 선택 기법에 관계없이 낮은 성능을 나타냈습니다. 나이브 베이즈와 의사결정 트리는 ANOVA와 카이제곱 검정을 사용했을 때도 상대적으로 높은 정확도를 보여 계산 효율성이 높은 대안으로 제시되었습니다. 본 연구는 심장병 예측을 위한 특징 선택 기법의 종합적인 비교 분석을 제공하며, 알고리즘 선택에 따른 적절한 특징 선택 기법의 중요성을 강조합니다.

시사점, 한계점

시사점:
MI 기반 특징 선택이 심장병 예측 모델의 정확도 및 재현율 향상에 효과적임을 확인했습니다. 특히, 고급 모델(신경망)에서 그 효과가 더욱 두드러졌습니다.
로지스틱 회귀 및 랜덤 포레스트 모델에서도 MI 기반 특징 선택의 성능 향상 효과를 확인했습니다.
나이브 베이즈와 의사결정 트리는 계산 효율성이 높으면서도 상대적으로 준수한 성능을 보여 대안으로 활용 가능성을 제시했습니다.
본 연구는 심장병 진단을 위한 더욱 정확하고 효율적인 예측 모델 개발에 기여할 수 있는 실질적인 지침을 제공합니다.
적절한 특징 선택 기법의 선택이 모델 성능 최적화에 중요한 역할을 한다는 것을 보여줍니다.
한계점:
사용된 데이터셋의 특성에 따라 결과가 일반화되지 않을 수 있습니다. 다른 데이터셋을 이용한 추가 연구가 필요합니다.
KNN과 SVM의 낮은 성능에 대한 추가적인 분석이 필요합니다.
평가된 모델의 종류 및 특징 선택 방법이 제한적일 수 있습니다. 다양한 모델과 기법을 포함한 추가 연구가 필요합니다.
👍