본 연구는 LLM의 다국어 응답에 대한 이해와 안전성 확보의 필요성을 강조하며, 다양한 언어 환경에서 최첨단 및 선도적인 오픈 소스 모델의 응답을 5가지 차원에서 평가합니다. 5점 척도와 판사 LLM을 사용하여 응답의 정확성과 일관성을 측정합니다. 연구 결과는 GPT-5가 전반적으로 가장 높은 점수를 받았으며, 다른 모델들은 언어 및 범주별로 더 많은 불일치를 보였습니다. 특히, '동의 및 자율성'과 '유해 방지 및 안전' 범주에서 GPT가 각각 3.56점과 4.73점으로 가장 높은 점수를 기록했고, Gemini 2.5 Pro는 1.39점과 1.98점으로 가장 낮은 점수를 기록했습니다.