Language Models' Factuality Depends on the Language of Inquiry

작성자

Haebom

카테고리

비어 있음

저자

Tushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

개요

다국어 언어 모델(LMs)은 언어 간에 사실적 지식을 일관되게 상기해야 하지만, 한 언어에 정확한 정보가 있더라도 종종 언어 간 지식 전이에 실패합니다. 예를 들어, 아랍어로 질문했을 때는 라셰드 알 샤샤이가 사우디아라비아 출신임을 정확하게 식별하는 LM이 영어나 스와힐리어로 질문했을 때는 일관되게 실패하는 경우가 있습니다. 이러한 한계를 체계적으로 조사하기 위해, 13개 언어에 걸쳐 1만 개의 국가 관련 사실로 구성된 벤치마크를 제시하고, 사실 회상 점수, 지식 전이 가능성 점수, 그리고 언어 간 사실 지식 전이 가능성 점수라는 세 가지 새로운 지표를 제안하여 다양한 언어에서 LM의 사실 회상 및 지식 전이 가능성을 정량화합니다. 본 연구 결과는 최첨단 LM의 근본적인 약점, 특히 모델이 서로 다른 언어 간에 지식을 효과적으로 전이하지 못하는 언어 간 일반화에서의 실패로 인해 사용된 언어에 민감한 불일치 성능을 보여줍니다. 본 연구 결과는 LM이 언어별 사실 신뢰성을 인식하고 언어 간 가장 신뢰할 수 있는 정보를 활용해야 함을 강조합니다. 향후 다국어 지식 전이 연구를 위한 벤치마크와 평가 프레임워크를 공개합니다.