GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding
Created by
Haebom
Category
Empty
저자
Dongping Chen, Yue Huang, Siyuan Wu, Jingyu Tang, Liuyi Chen, Yilin Bai, Zhigang He, Chenlong Wang, Huichi Zhou, Yiqiang Li, Tianshuo Zhou, Yue Yu, Chujie Gao, Qihui Zhang, Yi Gui, Zhen Li, Yao Wan, Pan Zhou, Jianfeng Gao, Lichao Sun
개요
본 논문은 다양한 GUI 환경(웹, 모바일, 데스크탑 소프트웨어, 다중 창 상호작용 등)에서 동적인 웹 콘텐츠와 다단계 작업을 포함하는 시간적 정보를 인식하는 강력한 GUI 에이전트 개발을 목표로 한다. 현존하는 다중 모달 대규모 언어 모델(MLLM) 기반 에이전트들이 정적인 환경과 단순한 도메인에만 적용 가능하다는 한계를 지적하며, 이를 극복하기 위해 다양한 GUI 시나리오와 질문 유형을 포함하는 새로운 데이터셋 GUI-World를 제시한다. GUI-World를 이용하여 이미지 및 비디오 LLM의 성능을 평가한 결과, 동적 GUI 콘텐츠 이해에 어려움을 보이며, 특히 비디오 LLM은 데이터셋 부족으로 인해 모든 GUI 관련 작업에서 성능이 저조함을 확인했다. 따라서, 미세 조정된 비디오 LLM인 GUI-Vid를 GUI 지향형 어시스턴트로 활용하여 성능 향상을 시도하였으나, 기저 LLM의 성능 한계로 인해 비디오 LLM을 GUI 에이전트로 활용하는 데는 여전히 어려움이 있음을 결론짓고, 동적 GUI 콘텐츠 이해에 대한 향후 연구 방향을 제시한다. 데이터셋과 코드는 공개적으로 제공된다.
시사점, 한계점
•
시사점:
◦
동적 GUI 콘텐츠 이해의 중요성과 어려움을 제시하고, 이를 위한 새로운 데이터셋 GUI-World를 공개.
◦
기존 MLLM의 동적 GUI 콘텐츠 이해 능력의 한계를 실험적으로 밝힘.
◦
미세 조정된 비디오 LLM(GUI-Vid)을 활용한 GUI 에이전트 구현 시도를 통해 향후 연구 방향 제시.
•
한계점:
◦
기저 LLM의 성능 한계로 인해 비디오 LLM을 GUI 에이전트로 활용하는 데 어려움 존재.
◦
GUI-Vid의 성능 향상에도 불구하고, 여전히 동적 GUI 콘텐츠 이해에 대한 추가적인 연구 필요.