Learning from Failures in Multi-Attempt Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Stephen Chung, Wenyu Du, Jie Fu
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 강화 학습(RL)을 적용한 기존 연구(DeepSeek R1)를 확장하여, 질문응답 과제를 다중 시도 설정으로 변경한 연구입니다. 모델은 질문당 단일 응답 대신 여러 번의 시도를 하며, 잘못된 응답 후 피드백을 받습니다. 이를 통해 모델은 이전 시도를 개선하고 검색 효율을 높일 수 있습니다. 실험 결과, 다중 시도 과제로 훈련된 소규모 LLM은 평가 시 시도 횟수가 증가함에 따라 정확도가 크게 향상됨을 보여줍니다. (수학 벤치마크에서 1회 시도 시 45.6%에서 2회 시도 시 52.5%로 향상). 반면, 표준 단일 회차 과제로 훈련된 동일한 LLM은 미미한 향상만 보였습니다(42.3%에서 43.2%로 향상). 이는 다중 시도 과제로 훈련된 LLM이 수학 벤치마크에서 약간 더 나은 성능을 달성하고 사용자 피드백에 따라 응답을 더 효과적으로 개선하는 방법을 학습함을 시사합니다. 전체 코드는 https://github.com/DualityRL/multi-attempt 에서 확인할 수 있습니다.