Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning
Created by
Haebom
Category
Empty
저자
Junsong Li, Jie Zhou, Yutao Yang, Bihao Zhan, Qianjun Pan, Yuyang Ding, Qin Chen, Jiang Bo, Xin Lin, Liang He
개요
본 논문은 인공지능 기술을 활용하여 학생들의 수학 문제 풀이 과정을 단계별로 자동 채점하는 방법을 제시합니다. 기존 연구들이 문제 전체에 대한 최종 답안만을 평가하는 것과 달리, 본 논문에서는 수학 문제 해결 과정의 각 단계에 대한 세부 피드백을 제공하는 방법에 초점을 맞춥니다. 이를 위해 강화 학습(Reinforcement Learning, RL) 기반의 새로운 방법인 StepAMC를 제안합니다. StepAMC는 단계별 자동 채점을 텍스트 분류 문제로 변환하여 강화 학습 문제로 해결함으로써 대규모 언어 모델(LLM)의 추론 능력을 향상시킵니다. 또한, RL의 안정성을 높이기 위해 공간 제약 정책 네트워크를 설계하고, 이진 형태의 사람의 피드백을 연속적인 값으로 변환하는 세분화된 보상 네트워크를 도입합니다. 두 개의 벤치마크 데이터셋에 대한 실험 결과, 제안된 모델이 기존 11개의 강력한 기준 모델보다 성능이 우수함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델의 추론 능력 향상을 위한 강화 학습 기반의 새로운 접근법 제시.
◦
수학 문제 해결 과정의 단계별 자동 채점을 위한 효과적인 방법 제안.
◦
기존 방법보다 우수한 성능을 보이는 모델 개발.
◦
세분화된 피드백을 통한 학습 효과 증대 가능성 제시.
•
한계점:
◦
제안된 모델의 성능 평가는 특정 벤치마크 데이터셋에 국한됨. 다양한 유형의 수학 문제 및 데이터셋에 대한 추가적인 실험이 필요.