본 논문은 의료 분야의 대규모 언어 모델(LLM)이 실제 의료 환경에서 맥락 인식 능력 부족으로 인해 성능이 저하되는 문제를 해결하기 위해, 데이터 기반의 Multifaceted Self-Refinement (MuSeR) 방법을 제안한다. MuSeR은 역할, 지리적 위치, 의도, 정보의 모호성 등 다양한 속성을 가진 질의 생성기를 통해 실제 사용자 맥락을 시뮬레이션하고, LLM이 응답을 자체 평가 및 개선하며, 이를 통해 맥락 인식 능력을 강화한다. HealthBench 데이터셋 평가 결과, MuSeR은 LLM의 전반적인 성능을 향상시켰으며, 특히 맥락 인식 측면에서 두드러진 개선을 보였다. 또한, 지식 증류를 통해 작은 모델 (Qwen3-32B)이 더 큰 모델의 성능을 능가하여 HealthBench 및 어려운 하위 집합에서 모든 오픈 소스 LLM 중 새로운 SOTA를 달성했다.