Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Truth Knows No Language: Evaluating Truthfulness Beyond English

Created by
  • Haebom

저자

Blanca Calvo Figueras, Eneko Sagarzazu, Julen Etxaniz, Jeremy Barnes, Pablo Gamallo, Iria De Dios Flores, Rodrigo Agerri

개요

본 논문은 바스크어, 카탈루냐어, 갈리시아어, 스페인어로 된 TruthfulQA 벤치마크의 전문 번역 확장판을 소개합니다. 대규모 언어 모델(LLM)의 진실성 평가는 주로 영어로 수행되었으나, 본 연구는 12개의 최첨단 오픈 LLM을 평가하여 언어 간 진실성 유지 능력을 조사합니다. 인간 평가, 객관식 지표, LLM-as-a-Judge 스코어링을 사용하여 기본 모델과 지시어 튜닝 모델을 비교 분석하며, LLM의 성능은 영어에서 가장 우수하고 바스크어(자원이 가장 부족한 언어)에서 가장 저조하지만, 언어 간 진실성 차이는 예상보다 작다는 것을 밝힙니다. LLM-as-a-Judge가 객관식 지표보다 인간 판단과 더 높은 상관관계를 보이며, 정보성이 진실성 평가에 중요한 역할을 한다는 점도 제시합니다. 기계 번역이 진실성 벤치마크를 다른 언어로 확장하는 실행 가능한 방법임을 보여주고, 보편적인 지식 질문이 맥락 및 시간 의존적 질문보다 언어 간 성능이 더 우수하다는 점을 강조하며, 문화적, 시간적 변동성을 고려한 진실성 평가의 필요성을 제기합니다. 데이터셋과 코드는 오픈 라이선스로 공개됩니다.

시사점, 한계점

시사점:
다양한 언어에 대한 LLM의 진실성 평가를 위한 새로운 벤치마크 제공.
기계 번역을 활용한 진실성 벤치마크 확장의 효용성 제시.
LLM-as-a-Judge 스코어링의 유용성 확인 및 정보성의 중요성 강조.
언어 간 진실성 차이가 예상보다 작다는 발견.
문화적, 시간적 변동성을 고려한 진실성 평가의 필요성 제기.
공개된 데이터셋 및 코드를 통한 연구의 재현성 및 확장성 확보.
한계점:
평가 대상 언어의 제한 (바스크어, 카탈루냐어, 갈리시아어, 스페인어).
기계 번역의 정확성 및 한계에 대한 추가적인 검토 필요.
다양한 LLM 아키텍처 및 크기에 대한 포괄적인 비교 분석 부족 가능성.
문화적, 시간적 변동성에 대한 더욱 심층적인 분석 필요.
👍