본 논문은 상호작용 환경에서 다회차 에이전트 계획에 대한 대규모 언어 추론 모델의 적용에 있어 직면하는 두 가지 근본적인 문제점, 즉 다루기 어려운 크레딧 할당 문제와 지나치게 많은 계산 비용이 드는 상세한 단계별 추론 기록 문제를 해결하기 위해 BPO(Bootstrapping, Extrapolation, and Refinement) 프레임워크를 제안한다. BPO는 장기간, 희소 보상 환경을 위한 강력한 추론 모델을 개발하기 위해 자기 개선 데이터 플라이휠을 구축하는 3단계 프레임워크로, 장단기 사고 연쇄 융합을 사용한 계획 사원수를 이용하여 효율적인 추론을 부트스트래핑하고, 복잡성 계층화 커리큘럼 학습을 통해 분포 외 작업으로 외삽하며, 마지막으로 보상 게이트 거절 샘플링을 통해 선택된 경험에 대해서만 학습하여 모델을 반복적으로 개선한다. ALFWorld, ScienceWorld, WebShop 실험 결과, 본 접근 방식이 토큰 효율성을 크게 향상시키면서 최첨단 성능을 달성함을 보여준다.