Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Vibe Coding Beat Graduate CS Students? An LLM vs. Human Coding Tournament on Market-driven Strategic Planning

Created by
  • Haebom
Category
Empty

저자

Panayiotis Danassis, Naman Goel

개요

대규모 언어 모델(LLM) 기반 코드 생성의 급속한 발전에 따라, 기존 벤치마크의 한계를 지적하고, 계획, 최적화, 전략적 상호작용을 필요로 하는 현실 세계 문제에 대한 LLM의 능력을 평가하는 새로운 벤치마크를 제시합니다. 실제 물류 최적화 문제(경매, 픽업, 배송 문제)를 기반으로 하는 다중 에이전트 추론 기반 벤치마크를 통해 40개의 LLM 기반 에이전트와 17개의 인간 코딩 에이전트 간의 경쟁을 평가합니다. 실험 결과, 인간 코딩 에이전트가 월등한 성능을 보였으며, LLM이 제공된 최적의 솔루션을 개선하는 데 실패하는 등, LLM이 현실 세계에서 경쟁력 있는 코드를 생성하는 데 어려움을 겪고 있음을 확인했습니다.

시사점, 한계점

시사점:
LLM 기반 코드 생성 모델의 현실 세계 문제 해결 능력에 대한 새로운 평가 방법론 제시.
LLM의 경쟁력 있는 코드 생성 능력에 대한 한계점을 명확히 함.
추론 기반 코드 합성을 강조하는 새로운 평가의 필요성 제기.
한계점:
단일 도메인(물류 최적화) 문제에 국한된 벤치마크.
다양한 LLM 모델의 성능 편차에 대한 심층 분석 부족.
LLM 성능 향상을 위한 구체적인 개선 방향 제시 미흡.
👍