Sign In

LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

Created by
  • Haebom
Category
Empty

저자

Toby Simonds, Akira Yoshiyama

개요

LADDER(Learning through Autonomous Difficulty-Driven Example Recursion)는 LLMs가 자기 주도 학습을 통해 문제 해결 능력을 자율적으로 향상시키는 프레임워크입니다. 복잡한 문제의 점진적으로 간단한 변형 문제를 반복적으로 생성하고 해결함으로써, 강화 학습을 통해 더 어려운 문제를 해결하는 방법을 점진적으로 학습합니다. 이러한 자기 개선 과정은 검증 가능한 보상 신호에 의해 안내되어 모델이 자신의 솔루션을 평가할 수 있도록 합니다. 기존의 접근 방식처럼 정교한 데이터 세트나 사람의 피드백이 필요하지 않고, 모델 자체의 능력을 활용하여 샘플 질문의 더 쉬운 변형을 생성합니다. 수학적 적분 과제에서 LADDER의 효과를 입증하였으며, Llama 3B 모델의 정확도를 학부 수준 문제에서 1%에서 82%로 향상시켰고, 7B 매개변수 모델이 MIT 적분 대회에서 모델 크기에 비해 최첨단 성능(70%)을 달성하도록 했습니다. 또한, 테스트 시점에 테스트 문제의 변형을 생성하고 강화 학습을 적용하여 성능을 더욱 향상시키는 TTRL(Test-Time Reinforcement Learning)이라는 방법을 제시했습니다. 테스트 중에 관련 문제를 추가로 생성하고 해결함으로써, TTRL은 7B 모델이 85%의 점수를 달성하여 o1을 능가하게 합니다. 이러한 결과는 건축적 확장이나 인간의 감독에 의존하지 않고 전략적인 자기 주도 학습이 상당한 능력 향상을 달성할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
LLMs의 자기 주도 학습을 통한 문제 해결 능력 향상 가능성 제시
수학적 적분 문제 해결 성능의 괄목할 만한 향상 (Llama 3B 모델 정확도 1% → 82%, 7B 모델 MIT 적분 대회 70% → 85%)
대규모 데이터셋이나 인간의 개입 없이 모델 자체의 능력을 활용한 학습 가능성 증명
TTRL을 통한 테스트 시간 성능 향상
한계점:
현재는 수학적 적분 문제에만 적용되었으므로 다른 유형의 문제에 대한 일반화 가능성 검증 필요
LADDER의 효율성 및 확장성에 대한 추가적인 연구 필요
TTRL의 계산 비용 및 복잡성 고려 필요
다양한 문제 유형에 대한 성능 평가 필요
👍