본 논문은 GUI 환경에서 작업 자동화를 위한 다중 모달 대규모 언어 모델(MLLM) 기반 GUI 에이전트인 InfiGUI-R1을 제시한다. 기존 접근 방식의 한계인 수동 설계된 추론 템플릿과 반응적 행위자(Reactive Actor) 모델의 부족한 추론 깊이를 극복하기 위해, Actor2Reasoner 프레임워크를 기반으로 추론 중심의 두 단계 학습 방식을 제안한다. 첫 번째 단계인 추론 주입(Reasoning Injection) 단계에서는 공간 추론 증류(Spatial Reasoning Distillation)를 통해 MLLM에 시각-공간 정보와 논리적 추론을 통합하는 능력을 부여한다. 두 번째 단계인 심사숙고 향상(Deliberation Enhancement) 단계에서는 강화 학습을 통해 하위 목표 안내(Sub-goal Guidance)와 오류 복구 시나리오 구성(Error Recovery Scenario Construction)을 활용하여 에이전트의 추론 능력을 향상시킨다. 실험 결과, InfiGUI-R1은 GUI 기반 작업에서 강력한 성능을 보였다.
시사점, 한계점
•
시사점:
◦
MLLM 기반 GUI 에이전트의 추론 능력 향상을 위한 새로운 프레임워크(Actor2Reasoner) 제시