Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Conformal Constrained Policy Optimization for Cost-Effective LLM Agents

Created by
  • Haebom
Category
Empty

저자

Wenwen Si, Sooyong Jang, Insup Lee, Osbert Bastani

개요

대규모 언어 모델(LLM)은 어려운 AI 문제 해결에 큰 진전을 이루었지만, 계산 및 API 비용이 증가했습니다. 본 논문은 다양한 비용/정확도 트레이드 오프를 가진 여러 LLM 모델을 에이전트 방식으로 결합하는 새로운 전략을 제안합니다. 이는 오케스트레이션 모델에 의해 결정된 순서대로 모델과 도구를 실행하여 사용자가 지정한 신뢰도 수준을 유지하면서 비용을 최소화합니다. 이 제약 조건은 컨포멀 예측을 사용하여 보장됩니다. 이를 위해, 본 논문은 제약 조건 정책 최적화와 오프 정책 강화 학습 및 온라인 컨포멀 예측의 최근 발전을 통합하는 훈련 패러다임인 Conformal Constrained Policy Optimization (CCPO)를 제안합니다. CCPO는 비용 인식 정책(점수 함수)과 적응형 임계값을 공동으로 최적화합니다. 두 개의 멀티 홉 질문 응답 벤치마크에서 CCPO는 신뢰도를 저해하지 않으면서 다른 비용 인식 기준선 및 LLM 기반 방법보다 최대 30%의 비용 절감을 달성합니다. 본 연구는 신뢰성을 유지하면서 훨씬 더 비용 효율적인 LLM 에이전트를 배포하기 위한 원칙적이고 실용적인 프레임워크를 제공합니다.

시사점, 한계점

시사점:
LLM 사용 비용을 최대 30%까지 절감하는 실질적인 방법론 제시
컨포멀 예측을 활용하여 신뢰도 보장
비용 효율적인 LLM 에이전트 배포를 위한 프레임워크 제공
제안된 CCPO 방법론은 비용 인식 정책과 적응형 임계값을 공동으로 최적화
한계점:
두 개의 멀티 홉 질문 응답 벤치마크에 대한 실험 결과만 제시됨. 다른 문제 도메인으로의 일반화는 추가적인 연구 필요.
오케스트레이션 모델의 성능과 비용 효율성에 미치는 영향에 대한 추가적인 분석 필요.
CCPO의 하이퍼파라미터 튜닝 및 학습 안정성에 대한 추가적인 연구 필요.
👍