Sign In

The Riddle of Reflection: Evaluating Reasoning and Self-Awareness in Multilingual LLMs using Indian Riddles

Created by
  • Haebom
Category
Empty

저자

Abhinav P M, Ojasva Saxena, Oswald C, Parameswari Krishnamurthy

개요

본 논문은 대규모 언어 모델(LLM)이 비영어권 언어에서 문화적 기반 추론을 수행할 수 있는 정도를 탐구한다. 7개의 주요 인도 언어(벵골어, 구자라트어, 힌디어, 칸나다어, 말라얄람어, 타밀어, 텔루구어)에서 LLM의 추론 및 자기 평가 능력을 조사한다. 전통적인 수수께끼와 문맥 재구성 변형을 결합한 다국어 수수께끼 데이터 세트를 도입하고, Gemini 2.5 Pro, Gemini 2.5 Flash, Mistral-Saba, LLaMA 4 Scout, LLaMA 4 Maverick의 5가지 LLM을 7가지 프롬프트 전략으로 평가한다. 수수께끼 해결 성능을 평가한 결과, Gemini 2.5 Pro가 전반적으로 가장 우수했지만, 소수 샷 방법은 미미한 이득을 보였으며, 언어에 따라 정확도가 현저히 달랐다. 또한 추론 일관성을 측정하기 위해 자기 평가 실험을 실시한 결과, 모델의 초기 정확도가 자신의 실수를 식별하는 능력과 반비례 관계에 있다는 중요한 사실을 발견했다. Gemini 2.5 Pro와 같은 상위 모델은 과신(4.34% 진음성률)하는 반면, LLaMA 4 Scout와 같은 하위 모델은 훨씬 더 자기 인식적(42.09% 진음성률)이었다.

시사점, 한계점

시사점:
다국어 추론 능력에 명확한 격차가 존재함.
효율적인 추론뿐만 아니라, 자신의 한계를 인식하는 모델의 필요성을 강조함.
Gemini 2.5 Pro가 가장 우수한 성능을 보였지만, 언어별 정확도 차이가 컸음.
모델의 초기 정확도와 자기 평가 능력 간의 역 상관 관계를 발견함.
한계점:
few-shot 방법이 유의미한 성능 향상을 가져오지 못함.
특정 언어에 대한 성능 편향이 존재할 수 있음.
자기 평가 실험 결과의 해석에 추가적인 고려가 필요함.
👍