본 논문은 강화학습(RL)을 이용한 대규모 언어 모델(LLM)의 추론 능력 향상 연구에 대한 신뢰성 문제를 제기한다. 기존 연구는 Qwen2.5 계열 모델에서 무작위 또는 잘못된 보상 신호를 사용하더라도 성능 향상을 보였다고 주장하지만, 이는 MATH-500, AMC, AIME와 같은 벤치마크의 데이터 오염 가능성 때문에 신뢰할 수 없을 수 있다는 점을 지적한다. 따라서, 임의의 길이와 난이도를 가진 완전히 깨끗한 산술 문제를 생성하는 RandomCalculation이라는 새로운 데이터셋을 제시하고, 이를 통해 정확한 보상 신호만이 모델의 수학적 추론 능력을 향상시킨다는 것을 보여준다. 또한 MATH-500과 RandomCalculation 벤치마크에서 관찰된 성능 차이에 대한 심층 분석을 수행하고, 향후 연구에서는 오염되지 않은 벤치마크를 사용하고 다양한 모델 계열을 테스트할 것을 제안한다.
시사점, 한계점
•
시사점:
◦
강화학습을 이용한 LLM의 추론 능력 향상 연구에서 데이터 오염의 심각성을 밝힘.
◦
데이터 오염이 없는 새로운 벤치마크 RandomCalculation을 제시함.
◦
정확한 보상 신호만이 LLM의 수학적 추론 능력을 향상시킨다는 것을 증명함.
◦
향후 연구를 위한 신뢰할 수 있는 평가 방법론 제시 (오염되지 않은 벤치마크 사용 및 다양한 모델 계열 테스트).
•
한계점:
◦
RandomCalculation 데이터셋이 특정 영역(산술 문제)에 국한됨.
◦
분석에 사용된 모델이 Qwen2.5 계열에 집중되어 일반화 가능성에 대한 추가 연구 필요.