FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks
Created by
Haebom
저자
Atsunori Moteki, Shoichi Masui, Fan Yang, Yueqi Song, Yonatan Bisk, Graham Neubig, Ikuo Kusajima, Yasuto Watanabe, Hiroyuki Ishida, Jun Takahashi, Shan Jiang
개요
본 논문은 현실 세계 현장 작업을 위한 에이전트 AI 벤치마크인 FieldWorkArena를 제안합니다. 기존의 에이전트 AI 벤치마크는 웹 작업 평가에 국한되어 실제 작업 환경의 복잡성을 충분히 반영하지 못하는 한계가 있었습니다. 본 논문에서는 실제 작업 환경 벤치마크를 위해 에이전트 AI가 가져야 할 새로운 액션 공간을 정의하고, 다양한 실제 작업에서 에이전트 AI의 성능을 평가하기 위해 기존 방법보다 개선된 평가 함수를 제시합니다. 실제 공장 및 창고에서 촬영한 비디오와 문서 데이터셋을 사용하며, 현장 작업자 및 관리자와의 인터뷰를 바탕으로 작업을 구성했습니다. GPT-4o와 같은 다중 모달 LLM(MLLM)의 특성을 고려한 성능 평가가 가능함을 확인하였으며, 제안된 새로운 평가 방법의 효과 및 한계점을 파악했습니다. 데이터셋(HuggingFace)과 평가 프로그램(GitHub)은 제공된 웹사이트에서 다운로드 가능합니다.