Sign In

Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models

Created by
  • Haebom
Category
Empty

저자

Joykirat Singh, Tanmoy Chakraborty, Akshay Nambi

개요

본 논문은 대규모 언어 모델(LLM)의 복잡한 다단계 수학 문제 해결 능력의 한계를 극복하기 위해, 자기 진화적 데이터 생성 파이프라인인 SPHERE를 제안합니다. SPHERE는 자기 생성, 자기 수정, 다양성 유도의 세 단계를 통해 소규모 언어 모델(SLM)의 추론 능력을 향상시킵니다. 자체적으로 문제 해결 단계를 구성하고, 오류를 식별 및 수정하며, 다양한 추론 경로를 생성하여 모델의 강건성을 높입니다. MATH 500, GSM8K, AIME, AMC, Olympiad 등의 벤치마크 평가 결과, SPHERE로 훈련된 모델은 기본 모델보다 성능이 크게 향상되었으며, 특정 벤치마크에서는 GPT-4o와 동등하거나 능가하는 성능을 보였습니다. 이는 자기 진화적 모델이 SLM과 최첨단 LLM 간의 추론 능력 차이를 줄일 수 있음을 보여줍니다.

시사점, 한계점

시사점:
자기 진화적 데이터 생성을 통해 소규모 언어 모델의 수학적 추론 능력을 효과적으로 향상시킬 수 있음을 보여줌.
기존의 정적 파인튜닝이나 프롬프트 엔지니어링 방식보다 우수한 성능을 달성.
SLM의 수학적 추론 능력을 향상시켜 LLM과의 성능 격차를 줄임으로써, 수학적 AI의 신뢰성, 확장성, 효율성을 높일 수 있음.
다양한 수학 문제 해결 벤치마크에서 GPT-4o 수준의 성능 달성.
한계점:
SPHERE의 성능은 사용된 기본 SLM의 성능에 의존적일 수 있음.
다양한 유형의 수학 문제에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
고품질 선호도 데이터 부족 문제는 여전히 존재하며, SPHERE의 자기 수정 과정의 정확성에 영향을 미칠 수 있음.
SPHERE의 자기 진화 과정의 계산 비용이 높을 수 있음.
👍