본 논문은 대규모 언어 모델(LLM)의 다운스트림 자연어 처리(NLP) 작업 성능 향상을 위해 강화 학습 기반 적응형 계획 프레임워크(RLAP)를 제안합니다. 기존의 다단계 계획 방법들은 작업 단계의 순서를 미리 설정하거나 각 단계에서 여러 경로를 시도하지만, 작업 인스턴스의 언어적 특징을 고려하지 못하고 LLM의 내재적 계획 능력에 의존하여 최적이 아닌 결과를 초래합니다. RLAP는 NLP 작업을 마르코프 의사 결정 과정(MDP)으로 모델링하고, LLM을 환경에 직접 통합하여 경량 Actor 모델을 통해 강화 학습으로 상태와 행동으로 구성된 자연어 시퀀스에 대한 Q-값을 추정합니다. 이를 통해 MDP 내 각 시퀀스의 언어적 특징을 고려하고, Actor 모델과 LLM의 상호 작용을 통해 각 작업 인스턴스에 대한 최적의 하위 작업 순서를 결정합니다. 세 가지 유형의 NLP 작업과 여러 데이터 세트에 대한 실험을 통해 RLAP의 효과성과 강건성을 검증합니다.