Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Better LLM Reasoning via Dual-Play

Created by
  • Haebom
Category
Empty

저자

Zhengxin Zhang, Chengyu Huang, Aochong Oliver Li, Claire Cardie

개요

PasoDoble는 외부 감독 없이 자체적으로 학습하는 새로운 LLM 듀얼 플레이 프레임워크입니다. Proposer는 정답과 함께 어려운 질문을 생성하고 Solver는 이를 해결하려고 시도합니다. Proposer는 질문의 품질과 다양성을 위해 사전 학습 데이터 세트에서 지식을 얻습니다. 보상 해킹을 방지하기 위해 Proposer는 Solver의 한계를 밀어내는 유효한 질문을 생성하는 것에 대해 보상을 받으며, Solver는 질문을 올바르게 해결하는 것에 대해 보상을 받습니다. 훈련 안정성을 높이기 위해 Proposer와 Solver 업데이트를 분리하는 선택적 오프라인 패러다임을 도입했습니다. 실험 결과는 PasoDoble가 LLM의 추론 성능을 향상시킬 수 있음을 보여줍니다.

시사점, 한계점

외부 감독 없이 LLM 훈련 가능
추론 성능 향상
Proposer와 Solver의 상호 작용을 통해 학습
Reward hacking 및 훈련 불안정성 문제를 해결하기 위한 기술 도입
제안된 방법론의 일반화 능력은 추가 연구가 필요함
실험 결과가 다른 LLM 아키텍처 및 작업에 대해 어떻게 일반화될 수 있는지 불분명함
프로젝트 페이지에서 자세한 내용 확인 가능 (https://hcy123902.github.io/PasoDoble)
👍