Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DEPO: Dual-Efficiency Preference Optimization for LLM Agents

Created by
  • Haebom
Category
Empty

저자

Sirui Chen, Mengshi Zhao, Lei Xu, Yuying Zhao, Beier Zhu, Hanwang Zhang, Shengjie Zhao, Chaochao Lu

개요

대규모 언어 모델(LLM) 에이전트의 추론 및 의사 결정 능력 향상에도 불구하고, 풍부한 추론은 종종 긴 사고 사슬(CoT)로 이어져 실제 시나리오에서의 상호 작용 효율성을 저해합니다. 본 논문에서는 LLM 에이전트 효율성에 대한 체계적인 정의가 부족하다는 점을 지적하고, (i) 단계별 효율성(단계별 토큰 최소화)과 (ii) 궤적별 효율성(작업 완료에 필요한 단계 수 최소화)으로 구성된 이중 효율성을 제안합니다. 이 정의를 기반으로, DEPO라는 이중 효율성 선호도 최적화 방법을 제안하며, 이는 간결한 응답과 적은 단계 수를 공동으로 보상합니다. WebShop 및 BabyAI 실험에서 DEPO는 토큰 사용량을 최대 60.9%, 단계 수를 최대 26.9%까지 줄이는 동시에 성능을 최대 29.3% 향상시켰습니다. 또한 DEPO는 3개의 out-of-domain 수학 벤치마크에도 일반화되며, 데이터의 25%만으로 학습했을 때도 효율성 이점을 유지합니다.

시사점, 한계점

시사점:
LLM 에이전트의 효율성에 대한 새로운 정의 제시 (이중 효율성).
DEPO라는 이중 효율성 선호도 최적화 방법 제안.
WebShop, BabyAI 및 out-of-domain 수학 벤치마크에서 DEPO의 효과 입증 (토큰, 단계 수 감소 및 성능 향상).
데이터 효율성 입증 (데이터 25%만으로도 효율성 유지).
한계점:
논문 내용 요약에 따라, 한계점에 대한 직접적인 언급은 없음.
DEPO 방법의 다른 도메인 또는 작업에 대한 일반화 가능성에 대한 추가 연구 필요.
특정 LLM 아키텍처 또는 데이터셋에 대한 의존성 여부 확인 필요.
👍