SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

작성자

Haebom

카테고리

Empty

저자

Gabriel Orlanski, Devjeet Roy, Alexander Yun, Changho Shin, Alex Gu, Albert Ge, Dyah Adila, Nicholas Roberts, Frederic Sala, Aws Albarghouthi

💡 개요

본 논문은 소프트웨어 개발의 반복적인 특성을 반영하여, 기존의 단발성 벤치마크가 숨기고 있는 코딩 에이전트의 설계 문제점을 드러내고자 합니다. 이를 위해, 에이전트가 스스로의 해결책을 반복적으로 확장하며 아키텍처 결정을 요구하는 새로운 벤치마크인 SlopCodeBench를 제안합니다. 실험 결과, 현재 코딩 에이전트들은 장기 반복 작업에서 심각한 코드 퇴화(구조적 침식 및 코드 중복 증가)를 겪으며, 인간 개발자가 작성한 코드에 비해 품질이 현저히 떨어지는 것으로 나타났습니다.

🔑 시사점 및 한계

•

반복적 작업에서의 코드 퇴화 측정: SlopCodeBench는 반복적인 코드 확장이 코딩 에이전트의 코드 품질에 미치는 영향을 최초로 정량적으로 측정할 수 있는 기반을 제공합니다.

•

에이전트 아키텍처 설계의 중요성: 제안된 벤치마크는 단순히 기능 구현을 넘어, 장기적인 코드 유지보수성과 확정성을 고려한 아키텍처 설계의 중요성을 강조합니다.

•

현재 에이전트의 한계 및 향후 연구 방향: 현재 코딩 에이전트들이 장기 반복 작업에서 심각한 코드 퇴화를 겪는다는 점을 확인했으며, 향후에는 이러한 퇴화를 완화하고 코드 품질을 유지하는 에이전트 설계 및 학습 방법론 개발이 필요합니다.

PDF 보기

Made with Slashpage