Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Measuring Moral LLM Responses in Multilingual Capacities

Created by
  • Haebom

저자

Kimaya Basu, Savi Kolari, Allison Yu

LLM의 다국어 응답 평가 연구

개요

본 연구는 LLM의 다국어 응답에 대한 이해와 안전성 확보의 필요성을 강조하며, 다양한 언어 환경에서 최첨단 및 선도적인 오픈 소스 모델의 응답을 5가지 차원에서 평가합니다. 5점 척도와 판사 LLM을 사용하여 응답의 정확성과 일관성을 측정합니다. 연구 결과는 GPT-5가 전반적으로 가장 높은 점수를 받았으며, 다른 모델들은 언어 및 범주별로 더 많은 불일치를 보였습니다. 특히, '동의 및 자율성'과 '유해 방지 및 안전' 범주에서 GPT가 각각 3.56점과 4.73점으로 가장 높은 점수를 기록했고, Gemini 2.5 Pro는 1.39점과 1.98점으로 가장 낮은 점수를 기록했습니다.

시사점, 한계점

시사점:
다국어 환경에서의 LLM 응답 평가의 중요성을 강조합니다.
GPT-5가 전반적으로 우수한 성능을 보였지만, 다른 모델들은 개선의 여지가 있음을 시사합니다.
'동의 및 자율성', '유해 방지 및 안전'과 같은 민감한 범주에서의 성능 차이를 보여줍니다.
한계점:
언어적 변화가 LLM 응답에 미치는 영향에 대한 추가적인 연구 필요성을 제기합니다.
특정 범주에서 모델 간의 성능 차이가 큽니다.
다양한 모델 및 언어에 대한 추가적인 테스트가 필요합니다.
👍