Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UpBench: A Dynamically Evolving Real-World Labor-Market Agentic Benchmark Framework Built for Human-Centric AI

Created by
  • Haebom
Category
Empty

저자

Darvin Yi, Teng Liu, Mattie Terzolo, Lance Hasson, Ayan Sinh, Pablo Mendes, Andrew Rabinovich

개요

본 논문은 대규모 언어 모델(LLM) 에이전트의 실제 역량, 적응성 및 인간 협업 능력을 평가하기 위한 동적 벤치마크인 UpBench를 소개합니다. Upwork 노동 시장의 실제 직무를 기반으로 하는 UpBench는 실제 작업 활동과 재정적 결과에 기반한 평가를 제공합니다. 전문 프리랜서가 각 직무를 상세한 수용 기준에 따라 분해하고, AI 제출물을 기준별 피드백과 함께 평가하는 루브릭 기반 평가 프레임워크를 활용합니다. UpBench는 인간-AI 협업 연구를 지원하며, 온라인 작업의 변화를 반영하여 정기적으로 과제를 업데이트합니다.

시사점, 한계점

시사점:
실제 노동 시장 데이터를 기반으로 LLM 에이전트의 실질적인 역량을 평가하는 새로운 벤치마크 제공
세분화된 평가를 위한 루브릭 기반 프레임워크를 통해 모델의 강점, 약점, 지시 준수 능력 분석 가능
인간 전문성을 데이터 파이프라인 전체에 통합하여 실제 전문 표준에 대한 충실도 유지
동적 업데이트를 통해 변화하는 온라인 작업 환경에 적응하는 에이전트 평가 가능
AI와 인간의 협업을 위한 프레임워크 제시
한계점:
구체적인 한계점은 논문에 직접적으로 명시되지 않았음 (추후 연구를 통해 밝혀질 수 있음)
👍