대규모 언어 모델(LLM)은 어려운 AI 문제 해결에 큰 진전을 이루었지만, 계산 및 API 비용이 증가했습니다. 본 논문은 다양한 비용/정확도 트레이드 오프를 가진 여러 LLM 모델을 에이전트 방식으로 결합하는 새로운 전략을 제안합니다. 이는 오케스트레이션 모델에 의해 결정된 순서대로 모델과 도구를 실행하여 사용자가 지정한 신뢰도 수준을 유지하면서 비용을 최소화합니다. 이 제약 조건은 컨포멀 예측을 사용하여 보장됩니다. 이를 위해, 본 논문은 제약 조건 정책 최적화와 오프 정책 강화 학습 및 온라인 컨포멀 예측의 최근 발전을 통합하는 훈련 패러다임인 Conformal Constrained Policy Optimization (CCPO)를 제안합니다. CCPO는 비용 인식 정책(점수 함수)과 적응형 임계값을 공동으로 최적화합니다. 두 개의 멀티 홉 질문 응답 벤치마크에서 CCPO는 신뢰도를 저해하지 않으면서 다른 비용 인식 기준선 및 LLM 기반 방법보다 최대 30%의 비용 절감을 달성합니다. 본 연구는 신뢰성을 유지하면서 훨씬 더 비용 효율적인 LLM 에이전트를 배포하기 위한 원칙적이고 실용적인 프레임워크를 제공합니다.