UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI
Created by
Haebom
Category
Empty
저자
Darvin Yi, Teng Liu, Mattie Terzolo, Lance Hasson, Ayan Sinh, Pablo Mendes, Andrew Rabinovich
개요
본 논문은 대규모 언어 모델(LLM) 에이전트의 실제 역량, 적응성 및 인간 협업 능력을 평가하기 위한 동적 벤치마크인 UpBench를 소개합니다. Upwork 노동 시장의 실제 직무를 기반으로 하는 UpBench는 실제 작업 활동과 재정적 결과에 기반한 평가를 제공합니다. 전문 프리랜서가 각 직무를 상세한 수용 기준에 따라 분해하고, AI 제출물을 기준별 피드백과 함께 평가하는 루브릭 기반 평가 프레임워크를 활용합니다. UpBench는 인간-AI 협업 연구를 지원하며, 온라인 작업의 변화를 반영하여 정기적으로 과제를 업데이트합니다.
시사점, 한계점
•
시사점:
◦
실제 노동 시장 데이터를 기반으로 LLM 에이전트의 실질적인 역량을 평가하는 새로운 벤치마크 제공
◦
세분화된 평가를 위한 루브릭 기반 프레임워크를 통해 모델의 강점, 약점, 지시 준수 능력 분석 가능