Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

Created by
  • Haebom
Category
Empty

저자

Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang

개요

LoCoBench-Agent는 현실적인 장문 문맥 소프트웨어 엔지니어링 워크플로우에서 LLM 에이전트를 평가하기 위해 특별히 설계된 포괄적인 평가 프레임워크입니다. LoCoBench의 8,000개 시나리오를 대화형 에이전트 환경으로 확장하여 다중 턴 대화, 도구 사용 효율성, 오류 복구, 확장된 개발 세션 전반에 걸친 아키텍처 일관성을 체계적으로 평가합니다. 8개의 전문 도구와 10K~1M 토큰 범위의 문맥 길이를 평가하며, 9개의 측정 지표를 통해 이해도와 효율성을 측정합니다.

시사점, 한계점

에이전트는 놀라운 장문 문맥 강건성을 보입니다.
이해력과 효율성 사이에는 음의 상관관계가 있는 트레이드 오프가 존재합니다.
대화 효율성은 모델에 따라 크게 다르며, 전략적인 도구 사용 패턴이 고성능 에이전트를 차별화합니다.
본 논문은 LLM 에이전트 벤치마크로서 자율 소프트웨어 개발을 발전시키는 데 기여합니다.
👍