LADDER(Learning through Autonomous Difficulty-Driven Example Recursion)는 LLMs가 자기 주도 학습을 통해 문제 해결 능력을 자율적으로 향상시키는 프레임워크입니다. 복잡한 문제의 점진적으로 간단한 변형 문제를 반복적으로 생성하고 해결함으로써, 강화 학습을 통해 더 어려운 문제를 해결하는 방법을 점진적으로 학습합니다. 이러한 자기 개선 과정은 검증 가능한 보상 신호에 의해 안내되어 모델이 자신의 솔루션을 평가할 수 있도록 합니다. 기존의 접근 방식처럼 정교한 데이터 세트나 사람의 피드백이 필요하지 않고, 모델 자체의 능력을 활용하여 샘플 질문의 더 쉬운 변형을 생성합니다. 수학적 적분 과제에서 LADDER의 효과를 입증하였으며, Llama 3B 모델의 정확도를 학부 수준 문제에서 1%에서 82%로 향상시켰고, 7B 매개변수 모델이 MIT 적분 대회에서 모델 크기에 비해 최첨단 성능(70%)을 달성하도록 했습니다. 또한, 테스트 시점에 테스트 문제의 변형을 생성하고 강화 학습을 적용하여 성능을 더욱 향상시키는 TTRL(Test-Time Reinforcement Learning)이라는 방법을 제시했습니다. 테스트 중에 관련 문제를 추가로 생성하고 해결함으로써, TTRL은 7B 모델이 85%의 점수를 달성하여 o1을 능가하게 합니다. 이러한 결과는 건축적 확장이나 인간의 감독에 의존하지 않고 전략적인 자기 주도 학습이 상당한 능력 향상을 달성할 수 있음을 보여줍니다.