Sign In

LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

Created by
  • Haebom
Category
Empty

저자

Toby Simonds, Akira Yoshiyama

개요

LADDER(Learning through Autonomous Difficulty-Driven Example Recursion) 프레임워크는 대규모 언어 모델이 복잡한 문제의 점진적으로 단순화된 변형 문제를 자체적으로 생성하고 해결함으로써 자기 주도 학습을 통해 문제 해결 능력을 향상시키는 방법을 제시합니다. 기존의 방식과 달리, LADDER는 기존 데이터셋이나 사람의 피드백 없이 모델 자체의 능력을 활용하여 더 쉬운 문제 변형을 생성합니다. 수학적 적분 문제에서 Llama 3.2 3B 모델의 정확도를 1%에서 82%로 향상시켰고, Qwen2.5 7B Deepseek-R1 Distilled 모델을 사용하여 MIT 적분 경시대회 예선 시험에서 73%의 정확도를 달성했습니다. 추가적으로 제시된 TTRL(Test-Time Reinforcement Learning)은 추론 시험 문제의 변형에 강화 학습을 적용하여 Qwen2.5 7B Deepseek-R1 Distilled 모델의 정확도를 90%까지 향상시켜 OpenAI o1의 성능을 뛰어넘었습니다. 이러한 결과는 아키텍처 확장이나 사람의 감독 없이 자기 주도적인 전략적 학습이 상당한 성능 향상을 달성할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
대규모 언어 모델의 자기 주도 학습을 통한 문제 해결 능력 향상 가능성을 제시.
기존 데이터셋이나 사람의 개입 없이 모델 자체의 능력을 활용하여 성능 향상을 달성.
수학적 적분 문제와 같은 복잡한 문제 해결에 효과적인 새로운 학습 프레임워크 제시.
TTRL을 통해 추론 단계에서의 성능 향상 가능성 제시.
아키텍처 확장이나 인간 감독 없이도 성능 향상이 가능함을 보여줌.
한계점:
현재는 수학적 적분 문제에만 적용되었으므로 다른 영역으로의 일반화 가능성은 추가 연구 필요.
LADDER 및 TTRL의 효율성과 확장성에 대한 추가적인 분석 필요.
특정 문제 유형에 편향될 가능성.
TTRL의 경우, 추론 시간에 추가적인 연산이 필요하므로 실시간 응용에는 제약이 있을 수 있음.
👍