Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

Created by
  • Haebom

저자

Yuhang Liu, Pengxiang Li, Congkai Xie, Xavier Hu, Xiaotian Han, Shengyu Zhang, Hongxia Yang, Fei Wu

개요

본 논문은 GUI 환경에서 작업 자동화를 위한 다중 모달 대규모 언어 모델(MLLM) 기반 GUI 에이전트인 InfiGUI-R1을 제시한다. 기존 접근 방식의 한계인 수동 설계된 추론 템플릿과 반응적 행위자(Reactive Actor) 모델의 부족한 추론 깊이를 극복하기 위해, Actor2Reasoner 프레임워크를 기반으로 추론 중심의 두 단계 학습 방식을 제안한다. 첫 번째 단계인 추론 주입(Reasoning Injection) 단계에서는 공간 추론 증류(Spatial Reasoning Distillation)를 통해 MLLM에 시각-공간 정보와 논리적 추론을 통합하는 능력을 부여한다. 두 번째 단계인 심사숙고 향상(Deliberation Enhancement) 단계에서는 강화 학습을 통해 하위 목표 안내(Sub-goal Guidance)와 오류 복구 시나리오 구성(Error Recovery Scenario Construction)을 활용하여 에이전트의 추론 능력을 향상시킨다. 실험 결과, InfiGUI-R1은 GUI 기반 작업에서 강력한 성능을 보였다.

시사점, 한계점

시사점:
MLLM 기반 GUI 에이전트의 추론 능력 향상을 위한 새로운 프레임워크(Actor2Reasoner) 제시
공간 추론 증류를 통한 시각-공간 정보와 논리적 추론의 효과적인 통합
하위 목표 안내 및 오류 복구 시나리오 구성을 통한 강화 학습 기반 추론 능력 향상
InfiGUI-R1의 우수한 GUI 작업 수행 성능 검증
한계점:
Actor2Reasoner 프레임워크의 일반화 성능에 대한 추가적인 연구 필요
다양한 GUI 환경 및 작업에 대한 확장성 검증 필요
오류 복구 시나리오 구성의 효율성 및 일반화 가능성에 대한 추가 연구 필요
현재 모델의 복잡성 및 훈련 비용에 대한 분석과 개선 필요
👍