Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Escaping the Verifier: Learning to Reason via Demonstrations

Created by
  • Haebom
Category
Empty

저자

Locke Cai, Ivan Provilkov

개요

본 논문은 task-specific verifier 없이 전문가 시연만으로 강력한 추론 능력을 학습하는 방법을 제시한다. RARO (Relativistic Adversarial Reasoning Optimization)는 정책(생성자)과 상대주의적 비평가(판별자) 간의 적대적 상호 작용을 통해 Inverse Reinforcement Learning을 사용한다. 정책은 전문가의 답변을 모방하고, 비평가는 정책과 전문가 답변을 비교 및 구별하도록 학습된다. RARO는 정책과 비평가를 RL을 통해 지속적으로 함께 훈련시키며, 안정적인 학습을 위한 주요 기술을 식별한다.

시사점, 한계점

시사점:
전문가 시연만으로도 강력한 추론 성능을 달성할 수 있음을 입증.
task-specific verifier가 없는 경우에도 효과적인 추론 학습을 가능하게 함.
Countdown, DeepMath, Poetry Writing과 같은 다양한 평가 과제에서 기존의 verifier-free baseline보다 우수한 성능을 보임.
verifier 기반 RL과 유사한 견고한 scaling 추세를 보임.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍