LLM 기반 코딩 에이전트의 발전으로 인해 기존 평가 시스템의 한계가 발생하여, 인간-AI 협업을 측정하기 위한 새로운 벤치마크 HAI-Eval을 소개함. HAI-Eval은 인간과 AI의 협업을 통해 해결 가능한 "Collaboration-Necessary" 문제 템플릿을 사용하여, 인간과 LLM의 시너지를 측정하는 것을 목표로 함. 45개의 템플릿과 표준화된 IDE, 재현 가능한 툴킷을 제공하며, 인간 45명과 5개의 최첨단 LLM을 대상으로 실험을 진행하여 인간-AI 협업의 효과를 입증함.
시사점, 한계점
•
시사점:
◦
HAI-Eval을 통해 인간-AI 협업의 효과를 정량적으로 평가할 수 있는 새로운 벤치마크를 제시함.
◦
인간과 LLM의 상호 작용을 통해 문제 해결 능력이 향상됨을 확인함.
◦
전통적인 인간-도구 계층 구조를 넘어, 인간과 AI의 공동 추론 파트너십 가능성을 제시함.