LADDER(Learning through Autonomous Difficulty-Driven Example Recursion) 프레임워크는 대규모 언어 모델이 복잡한 문제의 점진적으로 단순화된 변형 문제를 자체적으로 생성하고 해결함으로써 자기 주도 학습을 통해 문제 해결 능력을 향상시키는 방법을 제시합니다. 기존의 방식과 달리, LADDER는 기존 데이터셋이나 사람의 피드백 없이 모델 자체의 능력을 활용하여 더 쉬운 문제 변형을 생성합니다. 수학적 적분 문제에서 Llama 3.2 3B 모델의 정확도를 1%에서 82%로 향상시켰고, Qwen2.5 7B Deepseek-R1 Distilled 모델을 사용하여 MIT 적분 경시대회 예선 시험에서 73%의 정확도를 달성했습니다. 추가적으로 제시된 TTRL(Test-Time Reinforcement Learning)은 추론 시험 문제의 변형에 강화 학습을 적용하여 Qwen2.5 7B Deepseek-R1 Distilled 모델의 정확도를 90%까지 향상시켜 OpenAI o1의 성능을 뛰어넘었습니다. 이러한 결과는 아키텍처 확장이나 사람의 감독 없이 자기 주도적인 전략적 학습이 상당한 성능 향상을 달성할 수 있음을 보여줍니다.