Sign In

ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer

Created by
  • Haebom
Category
Empty

저자

Omer Goldman, Uri Shaham, Dan Malkin, Sivan Eiger, Avinatan Hassidim, Yossi Matias, Joshua Maynez, Adi Mayrav Gilady, Jason Riesa, Shruti Rijhwani, Laura Rimell, Idan Szpektor, Reut Tsarfaty, Matan Eyal

개요

본 논문은 다국어 대규모 언어 모델(LLM)의 교차 언어 지식 전달 능력을 측정하는 새로운 방법론과 데이터셋 ECLeKTic을 제시합니다. ECLeKTic은 12개 언어의 위키피디아를 활용하여, 특정 언어의 위키피디아에만 존재하는 정보에 대한 질문을 다른 언어로 번역하여 생성된 다국어 폐쇄형 질의응답(CBQA) 데이터셋입니다. 이를 통해 LLM이 특정 언어에서 습득한 지식을 다른 언어로 전달할 수 있는 능력을 평가합니다. 실험 결과, 최첨단 LLM들조차도 지식을 효과적으로 전달하는 데 어려움을 겪는다는 것을 보여줍니다.

시사점, 한계점

시사점:
다국어 LLM의 교차 언어 지식 전달 능력 평가를 위한 새로운 벤치마크 데이터셋 ECLeKTic 제시
최첨단 LLM들이 교차 언어 지식 전달에 어려움을 겪는다는 사실을 실험적으로 증명
다국어 LLM의 지식 표현 및 전달 방식에 대한 이해 증진에 기여
한계점:
위키피디아 정보에 의존하여 지식의 균일한 분포를 가정하는 점
위키피디아에 없는 지식에 대한 LLM의 성능 평가는 제한적
평가 대상 LLM의 종류와 수가 제한적일 수 있음
👍