본 논문은 기계 학습을 이용한 생활 습관병 발병 예측에서 데이터셋 변화(dataset shift) 문제를 해결하기 위해 OOD(Out-of-Distribution) 데이터를 거부하는 새로운 방법인 ODROP(Out-of-Distribution Reject Option for Prediction)을 제안합니다. ODROP은 OOD 탐지 모델을 통합하여 예측 단계에서 OOD 데이터를 배제함으로써 예측 정확도를 높입니다. 실제 건강검진 데이터셋(Hirosaki와 Wakayama)을 사용하여 당뇨병, 이상지질혈증, 고혈압 발병 예측 과제에 ODROP을 적용하고, AUROC-거부율 곡선을 통해 효과를 평가했습니다. 다양한 OOD 탐지 방법 중 변분 오토인코더(variational autoencoder)가 가장 안정적이고 AUROC 향상 효과가 컸으며, Wakayama 데이터셋에서 당뇨병 예측의 AUROC는 0.80에서 0.90으로, 이상지질혈증 예측의 AUROC는 0.70에서 0.76으로 향상되었습니다. 또한, SHAP 클러스터링을 이용하여 예측에 영향을 미치는 데이터셋 변화와 그렇지 않은 변화를 분류했습니다. 본 연구는 실제 의료 데이터에 OOD 탐지를 적용한 최초의 연구로, 데이터셋 변화 상황에서 질병 예측 모델의 정확성과 신뢰성을 크게 향상시킬 가능성을 보여줍니다.
시사점, 한계점
•
시사점:
◦
실제 의료 데이터에서 데이터셋 변화 문제를 해결하기 위한 효과적인 방법인 ODROP 제시
◦
OOD 탐지 모델을 활용하여 질병 예측 모델의 정확도와 신뢰성 향상
◦
변분 오토인코더 기반 OOD 탐지 방법의 우수성 확인
◦
SHAP 클러스터링을 이용한 데이터셋 변화의 유형 분류
◦
기존 기계학습 기반 질병 예측 모델의 한계점 개선 가능성 제시
•
한계점:
◦
사용된 데이터셋의 일반화 가능성에 대한 추가 검증 필요
◦
다른 OOD 탐지 방법과의 더욱 포괄적인 비교 연구 필요
◦
ODROP의 계산 비용 및 실제 의료 현장 적용 가능성에 대한 추가 연구 필요
◦
SHAP 클러스터링을 통한 데이터셋 변화 유형 분류의 객관성 및 신뢰도에 대한 추가 검토 필요