본 논문은 대규모 언어 모델(LLM)의 추론 시 시스템 프롬프트가 다국어 환경에서 정확하고 견고한 동작을 유도하는 방법에 대한 연구를 제시합니다. 다국어 환경에서 시스템 프롬프트를 평가하기 위해 4차원 평가 프레임워크를 제안하고, 5개 언어, 3개 LLM, 3개 벤치마크에 대한 대규모 실험을 수행했습니다. 그 결과, CoT, 감정, 시나리오와 같은 특정 프롬프트 구성 요소가 견고한 다국어 동작과 관련이 있음을 발견했습니다. 또한, 다국어 설정을 위한 프롬프트 최적화 프레임워크를 개발하여 모든 지표를 5-10% 향상시키는 프롬프트를 자동으로 발견할 수 있음을 보였습니다. 마지막으로, 1,000만 개 이상의 추론 단위를 분석하여 더 나은 성능의 시스템 프롬프트가 더 구조적이고 일관된 추론 패턴을 유도하고 불필요한 언어 전환을 줄인다는 것을 확인했습니다.