AdaReasoner는 다양한 추론 및 문제 해결 작업(농담 생성부터 수학적 추론까지)을 처리하기 위해 적절한 설정(온도, 추론 단계 등)을 필요로 하는 대규모 언어 모델(LLM)을 위한 플러그인입니다. 기존 프롬프트 방식은 일반적인 고정된 설정을 사용하지만, 작업별 최적화에는 부족합니다. AdaReasoner는 강화 학습(RL) 프레임워크를 사용하여 몇 번의 시도만으로도 추론 설정을 최적화하는 정책 모델을 학습합니다. 요인화된 행동 공간과 목표 지향적 탐색 전략, 그리고 사전 훈련된 보상 모델을 결합하여 LLM에 관계없이 적응적 추론 설정을 자동화합니다. 빠른 수렴과 하한선 정책 차이에 대한 이론적 보장을 갖추고 있으며, 다양한 LLM과 추론 작업에서 기존 방식보다 성능이 우수하고, 분포 외 강건성을 유지하며, 맞춤형 프롬프트를 통해 지식 집약적 작업에서 성능 향상을 가져옵니다.