Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reinforcement Learning vs. Distillation: Understanding Accuracy and Capability in LLM Reasoning

Created by
  • Haebom

저자

Minwu Kim, Anubhav Shrestha, Safal Shrestha, Aadim Nepal, Keith Ross

개요

본 논문은 검증 가능한 보상을 사용한 강화 학습(RLVR)과 지식 증류가 언어 모델의 추론 능력에 미치는 영향을 조사합니다. RLVR은 어려운 문제의 정확도를 희생하여 쉬운 문제의 정확도만 향상시키므로 추론 능력 향상에는 실패하지만, 쉬운 문제에 대한 성공 확률을 높이고 새로운 고품질 응답을 생성한다는 것을 보여줍니다. 반면 지식 증류는 새로운 지식이 도입될 때만 추론 능력을 향상시키며, 새로운 지식 없이 추론 패턴만 학습할 경우 RLVR과 유사하게 쉬운 문제의 정확도만 향상시킵니다. 이는 RLVR과 지식 증류가 언어 모델의 추론 행동을 형성하는 메커니즘에 대한 이해를 제공합니다.

시사점, 한계점

시사점:
RLVR은 쉬운 문제의 정확도 향상에는 효과적이나, 어려운 문제의 정확도를 희생하여 전체적인 추론 능력 향상에는 기여하지 않음을 밝힘.
RLVR은 쉬운 문제에 대한 성공 확률 증가뿐 아니라, 기존에는 없던 고품질 응답을 생성함을 보임.
지식 증류는 새로운 지식이 추가될 때 추론 능력 향상에 효과적이나, 새로운 지식 없이 추론 패턴만 학습 시 RLVR과 유사한 효과를 보임.
응답 품질을 평가하기 위한 더욱 신뢰할 수 있는 지표 개발의 필요성 제기.
한계점:
연구는 소규모 모델 설정에서 수행되었으므로, 대규모 모델에 대한 일반화 가능성은 제한적임.
응답 품질 평가를 위한 더욱 견고한 지표가 필요함.
👍