LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) 프레임워크는 대규모 언어 모델이 복잡한 문제의 점진적으로 간단한 변형 문제를 자체적으로 생성하고 해결함으로써 자기 주도 학습을 통해 문제 해결 능력을 자율적으로 향상시키는 것을 가능하게 합니다. 기존의 방법들과 달리 LADDER는 정제된 데이터셋이나 사람의 피드백 없이 모델 자체의 능력을 활용하여 더 쉬운 문제 변형을 생성합니다. 수학적 적분 문제에서 Llama 3.2 3B의 정확도를 1%에서 82%로 향상시켰고, Qwen2.5 7B Deepseek-R1 Distilled 모델을 사용하여 MIT 적분 경시대회 예선 시험에서 73%의 정확도를 달성했습니다. 또한, 추론 시험 문제의 변형 문제에 대해 강화 학습을 수행하는 TTRL (Test-Time Reinforcement Learning)을 도입하여 Qwen2.5 7B Deepseek-R1 Distilled 모델이 MIT 적분 경시대회 예선 시험에서 90%의 최첨단 점수를 달성하여 OpenAI o1의 성능을 능가했습니다. 이러한 결과는 아키텍처 확장이나 사람의 감독에 의존하지 않고 자기 주도적 전략적 학습이 상당한 성능 향상을 달성할 수 있음을 보여줍니다.