HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding

Created by

Haebom

저자

Hanjun Luo, Chiming Ni, Jiaheng Wen, Zhimu Huang, Yiran Wang, Bingduo Liao, Sylvia Chung, Yingbin Jin, Xinfeng Li, Wenyuan Xu, XiaoFeng Wang, Hanan Salam

개요

LLM 기반 코딩 에이전트의 발전으로 인해 기존 평가 시스템의 한계가 발생하여, 인간-AI 협업을 측정하기 위한 새로운 벤치마크 HAI-Eval을 소개함. HAI-Eval은 인간과 AI의 협업을 통해 해결 가능한 "Collaboration-Necessary" 문제 템플릿을 사용하여, 인간과 LLM의 시너지를 측정하는 것을 목표로 함. 45개의 템플릿과 표준화된 IDE, 재현 가능한 툴킷을 제공하며, 인간 45명과 5개의 최첨단 LLM을 대상으로 실험을 진행하여 인간-AI 협업의 효과를 입증함.

시사점, 한계점

•

시사점:

◦

HAI-Eval을 통해 인간-AI 협업의 효과를 정량적으로 평가할 수 있는 새로운 벤치마크를 제시함.

◦

인간과 LLM의 상호 작용을 통해 문제 해결 능력이 향상됨을 확인함.

◦

전통적인 인간-도구 계층 구조를 넘어, 인간과 AI의 공동 추론 파트너십 가능성을 제시함.

◦

AI 시대의 핵심 개발자 역량 평가를 위한 프레임워크를 제공함.

•

한계점:

◦

논문에 구체적인 한계점에 대한 언급은 없음.

PDF 보기

Made with Slashpage