HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding

작성자

Haebom

카테고리

Empty

저자

Hanjun Luo, Chiming Ni, Jiaheng Wen, Zhimu Huang, Yiran Wang, Bingduo Liao, Sylvia Chung, Yingbin Jin, Xinfeng Li, Wenyuan Xu, XiaoFeng Wang, Hanan Salam

💡 개요

본 논문은 LLM 기반 코딩 에이전트의 등장으로 변화하는 개발 패러다임을 반영하여, 인간과 AI의 협업 코딩 시너지를 측정하는 새로운 벤치마크인 HAI-Eval을 제안합니다. HAI-Eval은 단독으로는 풀기 어려운 "협업 필수" 문제 템플릿을 사용하여 인간과 AI의 효과적인 협력을 통해 해결 가능한 과제를 생성하며, 이를 통해 기존 평가 방식의 한계를 극복합니다. 실험 결과, 인간-AI 협업이 단독으로 수행하는 것보다 훨씬 높은 성공률을 보였으며, 이는 인간과 AI 간의 상호 추론 파트너십이 emergent함을 시사합니다.

🔑 시사점 및 한계

•

인간과 AI의 코딩 협업 능력을 측정하는 표준화된 벤치마크의 필요성을 제시하며, 미래 코딩 에이전트 평가의 새로운 방향을 제시합니다.

•

인간과 AI 간의 협력이 기존의 인간-도구 계층 구조를 넘어선 새로운 형태의 파트너십을 형성할 수 있음을 시사합니다.

•

현재 벤치마크는 특정 유형의 협업 문제에 초점을 맞추고 있으며, 실제 개발 과정에서 발생하는 다양한 종류의 인간-AI 상호작용을 모두 포괄하기에는 제한적일 수 있습니다.

PDF 보기

Made with Slashpage