CentaurEval: Benchmarking Human-in-the-Loop Value in Agentic Coding

작성자

Haebom

카테고리

Empty

저자

Hanjun Luo, Chiming Ni, Jiaheng Wen, Zhimu Huang, Yiran Wang, Bingduo Liao, Sylvia Chung, Yingbin Jin, Xinfeng Li, Wenyuan Xu, XiaoFeng Wang, Hanan Salam

💡 개요

본 논문은 LLM 기반 코딩 에이전트의 등장으로 변화하는 개발 패러다임을 평가하기 위한 새로운 벤치마크인 CentaurEval을 제안합니다. CentaurEval은 인간의 추론과 AI의 효율성을 결합해야만 해결 가능한 "협업 필수" 문제 템플릿을 통해 인간-AI 협업의 가치를 측정합니다. 실험 결과, 인간 또는 AI 단독으로는 낮은 성공률을 보였지만, 인간-AI 협업은 성공률을 크게 향상시켰으며, 이는 전통적인 인간-도구 관계를 넘어선 새로운 협업 파트너십의 등장을 시사합니다.

🔑 시사점 및 한계

•

LLM 기반 코딩 에이전트의 등장에 따라 인간-AI 협업의 가치를 측정할 수 있는 새로운 평가 방법론의 필요성을 제시합니다.

•

인간과 AI가 서로의 강점을 활용하여 시너지를 창출하는 "공동 추론" 파트너십의 가능성을 보여줍니다.

•

본 연구에서 제안된 벤치마크와 평가 방법은 향후 LLM 기반 코딩 에이전트의 개발 및 평가에 중요한 지침이 될 수 있습니다.

•

450개의 동적 태스크 생성은 제한적이며, 실제 개발 환경에서 발생하는 더욱 다양하고 복잡한 문제를 포괄하기 위한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage