CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization
Created by
Haebom
저자
Weiwei Sun, Shengyu Feng, Shanda Li, Yiming Yang
개요
LLM 기반 에이전트가 소프트웨어 엔지니어링 및 머신러닝 연구 분야에서 주목받고 있지만, 조합 최적화(CO) 발전에 대한 역할은 상대적으로 덜 연구되었습니다. 본 논문은 체계적인 조사를 위한 종합적인 벤치마크 부재로 인해 구조화되고 제약이 많은 문제 해결에 대한 LLM 에이전트의 잠재력에 대한 이해가 부족함을 강조합니다. 이를 해결하기 위해 다양한 도메인과 복잡성 수준에서 가져온 36개의 실제 CO 문제를 포함하는 벤치마크 모음인 CO-Bench를 소개합니다. CO-Bench는 엄격한 LLM 에이전트 조사를 지원하기 위해 구조화된 문제 공식화 및 큐레이션된 데이터를 포함합니다. 기존의 사람이 설계한 알고리즘과 비교하여 여러 에이전트 프레임워크를 평가하여 현재 접근 방식의 주요 강점과 한계를 밝히고 미래 연구를 위한 유망한 방향을 제시합니다. CO-Bench는 https://github.com/sunnweiwei/CO-Bench 에서 공개적으로 이용 가능합니다.
시사점: 실제 CO 문제를 다루는 LLM 기반 에이전트의 성능을 체계적으로 평가할 수 있는 벤치마크(CO-Bench)를 제공합니다. 다양한 에이전트 프레임워크의 강점과 한계를 밝히고, 향후 연구 방향을 제시합니다. 공개적으로 이용 가능한 벤치마크를 통해 LLM 기반 CO 연구를 활성화할 수 있습니다.
•
한계점: 현재 벤치마크에 포함된 문제의 수와 다양성이 향후 더 확장될 필요가 있습니다. 평가된 에이전트 프레임워크의 종류가 제한적일 수 있으며, 더욱 다양한 접근 방식을 포함한 추가적인 연구가 필요합니다. LLM 기반 에이전트의 일반화 능력 및 확장성에 대한 추가적인 조사가 필요합니다.