Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning

Created by
  • Haebom

저자

Jaedong Hwang, Kumar Tanmay, Seok-Jin Lee, Ayush Agrawal, Hamid Palangi, Kumar Ayush, Ila Fiete, Paul Pu Liang

개요

대규모 언어 모델(LLM)은 수학, 사실적 질문 응답, 코드 생성과 같은 분야에서 뛰어난 성능을 보이지만, 다양한 언어로 이러한 작업을 수행하는 능력은 아직 개발이 덜 되었다. 특히 스와힐리어 또는 태국어와 같은 저자원 언어의 경우, LLM은 종종 프롬프트를 잘못 해석하거나 영어로 추론하는 경우가 많다. 이러한 고자원 언어에 대한 암묵적인 편향은 사실적 정확성, 해석 가능성 및 신뢰성을 저해한다. 본 논문에서는 다중 규모 다국어 정렬과 기계 번역된 질문에 대한 언어 일관성 보상을 결합하여, 모델이 대상 언어로 직접적이고 정확하게 추론하도록 훈련하는 새로운 방법인 M2A를 제안한다. 또한, 기존 다국어 벤치마크는 최종 답변만 평가하여, 의도한 언어로 추론이 발생하는지 여부를 간과한다. 이러한 격차를 해소하기 위해, 지리 기반 다국어 사실적 추론 벤치마크인 GeoFact-X를 영어, 힌디어, 일본어, 스와힐리어 및 태국어의 추론 추적과 함께 도입한다. 결과적으로 M2A는 수학적 및 사실적 추론 작업 모두에서 다국어 추론 충실도를 크게 향상시켰으며, 추론 인식 다국어 강화 학습이 강력한 상호 언어 일반화를 위해 중요하다는 것을 강조한다.

시사점, 한계점

M2A 방법론을 통해 다국어 추론 능력을 향상시킴.
GeoFact-X 벤치마크를 통해 다국어 추론 평가의 새로운 기준을 제시.
추론 인식 다국어 강화 학습의 중요성을 강조.
저자원 언어에 대한 LLM의 성능 개선 가능성을 제시.
해당 논문에서 제시된 방법론이 다른 언어 및 작업에 얼마나 일반화될 수 있는지에 대한 추가적인 연구가 필요함.
현재 벤치마크가 5개 언어로 제한되어 있어 더 많은 언어에 대한 평가가 필요함.
👍