FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks
Created by
Haebom
저자
Atsunori Moteki, Shoichi Masui, Fan Yang, Yueqi Song, Yonatan Bisk, Graham Neubig, Ikuo Kusajima, Yasuto Watanabe, Hiroyuki Ishida, Jun Takahashi, Shan Jiang
개요
본 논문은 실제 현장 작업을 대상으로 하는 에이전트 AI를 위한 벤치마크인 FieldWorkArena를 제안합니다. 실제 작업 환경에서 발생할 수 있는 안전 및 건강 사고, 제조 관련 사고를 모니터링하고 보고해야 하는 에이전트 AI에 대한 수요 증가에 따라, 웹 작업 평가에 국한된 기존 벤치마크의 한계를 극복하기 위해 실제 작업 환경의 복잡성을 고려한 새로운 벤치마크를 제시합니다. 실제 공장 및 창고에서 촬영된 비디오와 문서 데이터셋을 사용하며, 현장 작업자 및 관리자와의 인터뷰를 바탕으로 작업을 구성했습니다. GPT-4o와 같은 다중 모달 대규모 언어 모델(MLLM)의 특성을 고려한 성능 평가의 실현 가능성을 확인하고, 제안된 평가 방법의 효과와 한계를 파악했습니다. 데이터셋(HuggingFace)과 평가 프로그램(GitHub)은 공개적으로 제공됩니다.