John Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang
개요
본 논문은 언어 모델(LM)이 명시적인 지침 없이 열린 목표를 달성하기 위해 반복적으로 코드를 개발할 수 있는지 평가하는 새로운 벤치마크인 CodeClash를 소개합니다. CodeClash는 LM이 경쟁적인 목표를 달성하기 위해 멀티 라운드 토너먼트에서 경쟁하는 방식으로, 에이전트는 코드를 편집하고 코드베이스는 점수 최대화, 자원 획득 또는 생존과 같은 목표를 기반으로 승자가 결정되는 코드 아레나에서 경쟁합니다. 1680개의 토너먼트에서 8개의 LM을 평가한 결과, 모델은 다양한 개발 스타일을 보였지만 전략적 추론과 장기적인 코드베이스 유지 관리 측면에서 근본적인 한계를 보였습니다.
시사점, 한계점
•
LM은 목표 지향적인 코드 개발에서 다양한 개발 스타일을 보임.
•
LM은 전략적 추론 능력에 한계가 있음.
•
LM은 장기적인 코드베이스 유지 관리에 어려움을 겪음 (코드베이스가 복잡해지고 중복됨).
•
최고의 LM도 전문가 프로그래머에게 매 라운드 패배.
•
CodeClash는 자율적인 목표 지향 코드 개발 연구를 발전시키기 위해 공개 소스로 제공됨.