Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multilingual LLMs Are Not Multilingual Thinkers: Evidence from Hindi Analogy Evaluation

Created by
  • Haebom

저자

Ashray Gupta, Rohan Joseph, Sunny Rai

개요

본 논문은 인도어인 힌디어에 대한 대규모 언어 모델(LLM)의 추론 능력을 평가하기 위한 새로운 벤치마크인 힌디어 유추 테스트 세트(HATS)를 제안한다. HATS는 인도 정부 시험에서 출제된 405개의 객관식 문제로 구성되며, 다양한 프롬프팅 전략을 사용하여 최첨단 다국어 LLM을 벤치마킹한다. 특히, 인지적 유추 추론 이론을 활용한 grounded Chain of Thought 접근 방식을 제시하여 힌디어 유추 문제에 대한 모델 성능을 향상시킨다. 실험 결과, 프롬프팅 전략에 관계없이 영어 프롬프트를 사용했을 때 모델 성능이 가장 우수한 것으로 나타났다. 본 연구는 힌디어 LLM 추론 능력 평가를 위한 중요한 자원 부족 문제를 해결한다.

시사점, 한계점

시사점:
힌디어를 포함한 인도어에 대한 LLM의 추론 능력 평가를 위한 새로운 벤치마크(HATS) 제공.
grounded Chain of Thought 접근 방식을 통한 LLM의 힌디어 유추 문제 해결 능력 향상.
다국어 LLM의 언어 일반화 능력에 대한 이해 증진.
영어 프롬프트의 효과성 확인.
한계점:
HATS는 인도 정부 시험 문제에 기반하므로, 일반적인 힌디어 유추 문제를 완벽하게 반영하지 못할 수 있음.
현재 연구는 특정한 LLM과 프롬프팅 전략에 국한되어, 다른 모델이나 전략에 대한 일반화 가능성은 제한적임.
영어 프롬프트의 우수성에 대한 추가적인 분석 및 이유 규명이 필요함.
👍