본 논문은 의료 영상 분야에서 사전 훈련된 거대 언어 모델의 활용을 위한 새로운 데이터 선택 기법을 제안합니다. 기존의 파인튜닝 과정에서 어노테이션 비용, 개인정보 보호 문제, 그리고 혼란 변수의 부정적 영향 등의 어려움을 해결하기 위해, 혼란 변수를 고려한 데이터 선택 전략을 개발했습니다. 이 전략은 먼저 데이터 내 혼란 변수를 식별하고, 제한된 데이터 크기 내에서 혼란 변수의 영향을 최소화하면서 데이터의 자연스러운 분포를 유지하는 거리 기반 데이터 선택 전략을 사용합니다. 다양한 의료 영상 모달리티에 대한 광범위한 실험을 통해 제안된 방법의 우수성을 검증하고, 다른 데이터 선택 방법에 비해 혼란 변수의 영향을 줄이고 파인튜닝 효율을 향상시키는 효과를 보여줍니다.