Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Cross-lingual Collapse: How Language-Centric Foundation Models Shape Reasoning in Large Language Models

Created by
  • Haebom

저자

Cheonbok Park, Jeonghoon Kim, Joosung Lee, Sanghwan Bae, Jaegul Choo, Kang Min Yoo

개요

본 논문은 다국어 대규모 언어 모델(LLM)의 사고 과정(CoT)에서 우세한 사전 훈련 언어로 회귀하는 현상인 '다국어 붕괴(Cross-lingual Collapse)'를 확인합니다. 강화 학습 기반의 대규모 추론 모델(LRM)은 중간 추론 과정을 노출시켜 강력한 논리적 추론 성능을 달성하지만, 다국어 추론 메커니즘은 아직 완전히 밝혀지지 않았습니다. 본 연구는 중국어, 한국어, 우크라이나어로 번역된 GSM8K 및 SimpleRL-Zoo 데이터셋을 사용하여 다국어 LRM을 GRPO(Group-Relative Policy Optimization)로 미세 조정하며, 작업 정확도와 추론 과정의 언어 일관성을 모니터링했습니다.

시사점, 한계점

시사점:
GRPO는 사전 훈련 언어 불균형을 빠르게 증폭시켜 저자원 언어를 침식시킵니다.
언어 일관성 보상은 이러한 붕괴를 완화하지만, 정확도를 5~10%p 저하시킵니다.
다국어 붕괴는 심각하고 대부분 돌이킬 수 없으며, 후속 미세 조정으로 원래 목표 언어 추론 능력을 회복하기 어렵습니다.
모든 언어가 추론에 대해 동등하게 훈련되는 것은 아닙니다.
보상 형성, 데이터 난이도, 사전 훈련 사전 지식이 다국어 추론에 미치는 영향을 밝힙니다.
한계점:
특정 데이터셋과 언어에 국한된 결과일 수 있습니다.
다국어 붕괴 현상에 대한 더욱 심층적인 메커니즘 분석이 필요합니다.
다국어 붕괴를 효과적으로 해결할 수 있는 새로운 방법론 개발이 필요합니다.
👍