로그인

Language Models' Factuality Depends on the Language of Inquiry

작성자
  • Haebom
카테고리
비어 있음

저자

Tushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

개요

다국어 언어 모델(LMs)은 언어 간에 사실적 지식을 일관되게 상기해야 하지만, 한 언어에 정확한 정보가 있더라도 종종 언어 간 지식 전이에 실패합니다. 예를 들어, 아랍어로 질문했을 때는 라셰드 알 샤샤이가 사우디아라비아 출신임을 정확하게 식별하는 LM이 영어나 스와힐리어로 질문했을 때는 일관되게 실패하는 경우가 있습니다. 이러한 한계를 체계적으로 조사하기 위해, 13개 언어에 걸쳐 1만 개의 국가 관련 사실로 구성된 벤치마크를 제시하고, 사실 회상 점수, 지식 전이 가능성 점수, 그리고 언어 간 사실 지식 전이 가능성 점수라는 세 가지 새로운 지표를 제안하여 다양한 언어에서 LM의 사실 회상 및 지식 전이 가능성을 정량화합니다. 본 연구 결과는 최첨단 LM의 근본적인 약점, 특히 모델이 서로 다른 언어 간에 지식을 효과적으로 전이하지 못하는 언어 간 일반화에서의 실패로 인해 사용된 언어에 민감한 불일치 성능을 보여줍니다. 본 연구 결과는 LM이 언어별 사실 신뢰성을 인식하고 언어 간 가장 신뢰할 수 있는 정보를 활용해야 함을 강조합니다. 향후 다국어 지식 전이 연구를 위한 벤치마크와 평가 프레임워크를 공개합니다.

시사점, 한계점

시사점:
다국어 언어 모델의 언어 간 지식 전이 능력의 한계를 체계적으로 밝힘.
언어 간 사실적 지식 전이를 정량화하기 위한 새로운 평가 지표 제시.
최첨단 다국어 언어 모델의 언어 간 일반화 능력 부족을 확인.
다국어 언어 모델의 향상을 위한 새로운 연구 방향 제시 (언어별 사실 신뢰성 인식 및 신뢰할 수 있는 정보 활용).
다국어 지식 전이 연구를 위한 새로운 벤치마크 및 평가 프레임워크 제공.
한계점:
제시된 벤치마크가 국가 관련 사실에만 집중되어 있어, 다른 유형의 지식에 대한 일반화 가능성이 제한적일 수 있음.
13개 언어만 포함되어 있어, 더욱 다양한 언어에 대한 추가 연구가 필요함.
본 연구에서 제시된 지표가 모든 유형의 지식 전이 문제에 적용 가능한지에 대한 추가 검증이 필요함.
👍