본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위한 경량의 사후 검증 방법인 에너지 결과 보상 모델(EORM)을 제안합니다. EORM은 사슬 추론(CoT) 프롬프팅으로 생성된 여러 후보 답안에 대해 에너지 기반 모델(EBM)을 활용하여 결과 레이블만으로 스칼라 에너지 점수를 할당합니다. 낮은 에너지 점수를 정답에 할당하도록 학습하여, 간접적으로 일관된 추론을 선호하도록 유도합니다. GSM8k와 MATH와 같은 수학 벤치마크에서 Llama 3 8B와 같은 LLM의 정확도를 상당히 향상시키며(GSM8k에서 90.7%, MATH에서 63.7%), 무차별적 샘플링과 비교하여 성능이 동등하거나 우수함을 보입니다.
시사점, 한계점
•
시사점:
◦
LLM의 수학적 추론 능력 향상을 위한 효과적이고 경량의 사후 검증 방법 제시.
◦
결과 레이블만을 사용하여 EBM을 훈련시키는 효율적인 방법 제안.
◦
무차별적 샘플링에 비해 계산 비용이 적으면서 동등하거나 우수한 성능 달성.
◦
GSM8k 및 MATH 벤치마크에서 LLM의 정확도를 상당히 향상.
•
한계점:
◦
EORM은 CoT 프롬프팅에 의존적이며, CoT 자체의 한계를 극복하지는 못함.
◦
제안된 방법이 다른 유형의 추론 문제에 얼마나 일반화될 수 있는지에 대한 추가 연구 필요.