Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

Created by
  • Haebom

저자

Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Huijie Lv, Ming Zhang, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang

개요

본 논문은 강화학습(RL)을 이용한 대규모 언어 모델(LLM)의 추론 능력 향상 연구에 대한 신뢰성 문제를 제기한다. 기존 연구는 Qwen2.5 계열 모델에서 무작위 또는 잘못된 보상 신호를 사용하더라도 성능 향상을 보였다고 주장하지만, 이는 MATH-500, AMC, AIME와 같은 벤치마크의 데이터 오염 가능성 때문에 신뢰할 수 없을 수 있다는 점을 지적한다. 따라서, 임의의 길이와 난이도를 가진 완전히 깨끗한 산술 문제를 생성하는 RandomCalculation이라는 새로운 데이터셋을 제시하고, 이를 통해 정확한 보상 신호만이 모델의 수학적 추론 능력을 향상시킨다는 것을 보여준다. 또한 MATH-500과 RandomCalculation 벤치마크에서 관찰된 성능 차이에 대한 심층 분석을 수행하고, 향후 연구에서는 오염되지 않은 벤치마크를 사용하고 다양한 모델 계열을 테스트할 것을 제안한다.

시사점, 한계점

시사점:
강화학습을 이용한 LLM의 추론 능력 향상 연구에서 데이터 오염의 심각성을 밝힘.
데이터 오염이 없는 새로운 벤치마크 RandomCalculation을 제시함.
정확한 보상 신호만이 LLM의 수학적 추론 능력을 향상시킨다는 것을 증명함.
향후 연구를 위한 신뢰할 수 있는 평가 방법론 제시 (오염되지 않은 벤치마크 사용 및 다양한 모델 계열 테스트).
한계점:
RandomCalculation 데이터셋이 특정 영역(산술 문제)에 국한됨.
분석에 사용된 모델이 Qwen2.5 계열에 집중되어 일반화 가능성에 대한 추가 연구 필요.
다른 유형의 보상 신호나 강화학습 방법에 대한 일반화 가능성에 대한 추가 연구 필요.
👍