Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization

Created by
  • Haebom

저자

Weiwei Sun, Shengyu Feng, Shanda Li, Yiming Yang

개요

LLM 기반 에이전트가 소프트웨어 엔지니어링 및 머신러닝 연구 분야에서 주목받고 있지만, 조합 최적화(CO) 발전에 대한 역할은 상대적으로 덜 연구되었다. 본 논문은 체계적인 조사를 위한 포괄적인 벤치마크 부재로 인해 구조화되고 제약이 많은 문제 해결에 대한 LLM 에이전트의 잠재력에 대한 이해가 부족하다는 점을 강조한다. 이를 해결하기 위해 다양한 도메인과 복잡성 수준에서 가져온 36가지 실제 CO 문제를 포함하는 CO-Bench라는 벤치마크 모음을 소개한다. CO-Bench는 엄격한 LLM 에이전트 조사를 지원하기 위해 구조화된 문제 공식화와 큐레이션된 데이터를 포함한다. 기존의 사람이 설계한 알고리즘에 대해 여러 에이전트 프레임워크를 평가하여 기존 LLM 에이전트의 강점과 한계를 밝히고 향후 연구를 위한 유망한 방향을 제시한다. CO-Bench는 https://github.com/sunnweiwei/CO-Bench 에서 공개적으로 이용 가능하다.

시사점, 한계점

시사점: 다양한 도메인과 복잡성 수준의 실제 CO 문제를 포함하는 포괄적인 벤치마크인 CO-Bench를 제공하여 LLM 기반 에이전트의 조합 최적화 문제 해결 능력에 대한 체계적인 연구를 가능하게 함. 기존 알고리즘과의 비교 평가를 통해 LLM 에이전트의 강점과 약점을 파악하고 향후 연구 방향 제시.
한계점: 벤치마크에 포함된 문제의 종류와 범위가 LLM 에이전트의 전반적인 성능을 완벽하게 반영하지 못할 수 있음. 평가에 사용된 에이전트 프레임워크의 다양성이 부족할 수 있음. 새로운 LLM 아키텍처 및 훈련 방법론의 발전에 따라 벤치마크의 적절성이 변화할 수 있음.
👍