본 논문은 의료 분야의 대규모 언어 모델(LLM)이 실제 의료 환경에서 맥락 인식 능력이 부족한 문제를 해결하기 위해, 자기 평가 및 개선을 통해 세 가지 주요 측면(의사 결정, 의사소통, 안전)에서 LLM의 맥락 인식을 강화하는 데이터 기반 접근 방식인 Multifaceted Self-Refinement (MuSeR)을 제안한다. MuSeR은 속성 조건 쿼리 생성기를 사용하여 다양한 실제 사용자 맥락을 시뮬레이션하고, LLM이 쿼리에 응답한 후 자체 평가 및 개선을 수행하며, 쿼리와 개선된 응답을 사용하여 지도 학습 미세 조정을 수행한다. HealthBench 데이터셋에 대한 평가 결과는 제안된 방법이 여러 측면에서 LLM 성능을 크게 향상시켰으며, 특히 맥락 인식 측면에서 두드러진 성과를 보였음을 보여준다. 또한 지식 증류를 통합하여 더 작은 백본 LLM의 성능을 해당 교사 모델보다 높여 HealthBench 및 하드 서브셋에서 모든 오픈 소스 LLM 중 새로운 SOTA를 달성했다.