Sign In

LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

Created by
  • Haebom
Category
Empty

저자

Toby Simonds, Akira Yoshiyama

개요

LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) 프레임워크는 대규모 언어 모델이 복잡한 문제의 점진적으로 간단한 변형 문제를 자체적으로 생성하고 해결함으로써 자기 주도 학습을 통해 문제 해결 능력을 자율적으로 향상시키는 것을 가능하게 합니다. 기존의 방법들과 달리 LADDER는 정제된 데이터셋이나 사람의 피드백 없이 모델 자체의 능력을 활용하여 더 쉬운 문제 변형을 생성합니다. 수학적 적분 문제에서 Llama 3.2 3B의 정확도를 1%에서 82%로 향상시켰고, Qwen2.5 7B Deepseek-R1 Distilled 모델을 사용하여 MIT 적분 경시대회 예선 시험에서 73%의 정확도를 달성했습니다. 또한, 추론 시험 문제의 변형 문제에 대해 강화 학습을 수행하는 TTRL (Test-Time Reinforcement Learning)을 도입하여 Qwen2.5 7B Deepseek-R1 Distilled 모델이 MIT 적분 경시대회 예선 시험에서 90%의 최첨단 점수를 달성하여 OpenAI o1의 성능을 능가했습니다. 이러한 결과는 아키텍처 확장이나 사람의 감독에 의존하지 않고 자기 주도적 전략적 학습이 상당한 성능 향상을 달성할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
대규모 언어 모델의 자기 주도 학습을 통한 문제 해결 능력 향상 가능성을 제시합니다.
정제된 데이터셋이나 사람의 개입 없이 모델 자체의 능력을 활용하여 학습 효율을 높일 수 있습니다.
TTRL을 통해 추론 단계에서 성능을 추가적으로 향상시킬 수 있음을 보여줍니다.
아키텍처 확장이나 인간 감독 없이도 상당한 성능 향상을 달성할 수 있음을 시사합니다.
한계점:
LADDER 및 TTRL의 효과는 수학적 적분 문제에 국한되어 다른 도메인으로의 일반화 가능성은 추가적인 연구가 필요합니다.
문제의 단순화 과정이 항상 효율적이지는 않을 수 있으며, 문제의 본질적인 어려움을 잘 반영하지 못할 가능성이 존재합니다.
TTRL은 추론 시간에 추가적인 계산 비용을 발생시킬 수 있습니다.
특정 모델과 문제 유형에 대한 결과이므로 다른 모델이나 문제 유형에 대한 일반화 성능은 검증되어야 합니다.
👍