Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

Created by
  • Haebom

저자

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques

개요

본 논문은 인간의 개입 없이 언어 모델이 자기 학습을 통해 추론 능력을 향상시키는 새로운 프레임워크인 SPIRAL을 제안합니다. SPIRAL은 언어 모델들이 상호 제로섬 게임을 통해 지속적으로 향상된 버전의 자신과 대결하며 학습하는 자기 대결(self-play) 방식을 사용합니다. 이를 통해 인간이 문제와 답을 일일이 제공하거나 보상 체계를 설계할 필요가 없어집니다. 대규모 자기 대결 학습을 위해, 본 논문에서는 완전 온라인 방식의 다턴, 다에이전트 강화 학습 시스템과 역할 조건부 이점 추정(RAE) 기법을 제안합니다. Kuhn Poker 게임을 통해 Qwen3-4B-Base 모델을 학습시킨 결과, 수학 추론 및 일반 추론 능력이 각각 8.6%, 8.4% 향상되었으며, 25,000개의 전문가 게임 기록을 이용한 SFT보다 성능이 뛰어났습니다. 이는 체계적인 분해, 기댓값 계산, 사례별 분석 등의 인지 패턴을 통해 이루어졌음을 분석 결과 보여줍니다. 다양한 게임(틱택토, Kuhn Poker, 간단한 협상)을 이용한 학습은 각 게임이 특정 추론 능력을 향상시키는 효과를 가져왔습니다. 강력한 추론 모델(DeepSeek-R1-Distill-Qwen-7B)에 SPIRAL을 적용한 결과에서도 평균 2.0%의 성능 향상이 나타났습니다. 이는 제로섬 게임이 일반화 가능한 추론 능력을 자연스럽게 발전시킨다는 것을 보여주는 결과입니다.

시사점, 한계점

시사점:
인간의 개입 없이 언어 모델의 추론 능력을 향상시키는 새로운 방법 제시.
제로섬 게임을 이용한 자기 대결 학습이 추론 능력 향상에 효과적임을 증명.
학습된 추론 능력이 다양한 문제에 일반화됨을 확인.
효율적인 다에이전트 강화 학습 시스템 및 RAE 기법 제안.
한계점:
현재는 특정 유형의 게임에 국한된 결과. 다양한 유형의 게임 및 문제에 대한 일반화 가능성에 대한 추가 연구 필요.
자기 대결 학습 과정에서 발생할 수 있는 과적합 문제에 대한 추가적인 분석 필요.
특정 언어 모델에 대한 결과이며, 다른 모델에 대한 일반화 가능성에 대한 검증 필요.
장기적인 학습 및 더욱 복잡한 게임에 대한 적용성에 대한 추가 연구 필요.
👍