Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish

Created by
  • Haebom
Category
Empty

저자

Chengxuan Xia, Qianye Wu, Hongbin Guan, Sixuan Tian, Yilun Hao, Xiaoyu Wu

개요

본 논문은 영어와 같은 고자원 언어에서 뛰어난 성과를 거둔 대규모 언어 모델(LLM)의 성능을, 저자원 및 형태론적으로 복잡한 언어에서 평가합니다. 특히 Cantonese, 일본어, 터키어를 포함하는 새로운 다국어 벤치마크를 제시하고, GPT-4o, GPT-4, Claude 3.5 Sonnet, LLaMA 3.1, Mistral Large 2, LLaMA-2 Chat 13B, Mistral 7B Instruct 등 7개의 최첨단 LLM을 평가했습니다. 벤치마크는 개방형 질문 응답, 문서 요약, 영어-X 번역, 문화적 맥락의 대화 등 4가지 다양한 작업을 포함합니다. 모델 성능을 평가하기 위해 인간 평가(유창성, 사실 정확성, 문화적 적절성 평가)와 자동 지표(BLEU, ROUGE 등)를 결합했습니다.

시사점, 한계점

가장 큰 상용 모델(GPT-4o, GPT-4, Claude 3.5)은 일반적으로 언어 및 작업 전반에서 우수한 성능을 보이지만, 문화적 뉘앙스 이해와 형태론적 일반화에는 여전히 격차가 존재합니다.
GPT-4o는 다국어 작업에서도 강력한 성능을 보여주며, Claude 3.5 Sonnet은 지식 및 추론 벤치마크에서 경쟁력 있는 정확도를 달성했습니다.
모든 모델은 터키어의 교착어 형태론이나 광동어의 구어체 등, 각 언어의 고유한 언어적 과제에 어느 정도 어려움을 겪습니다.
더 작은 오픈 소스 모델(LLaMA-2 13B, Mistral 7B)은 유창성과 정확도 면에서 뒤쳐지며, 이는 자원 불균형을 강조합니다.
본 논문은 보다 문화적으로 인식하고 언어적으로 일반화 가능한 LLM 개발에 대한 시사점을 제시합니다.
벤치마크 및 평가 데이터는 재현성과 추가 연구를 위해 공개되었습니다.
👍