Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Efficient Training Pipeline for Reasoning Graphical User Interface Agents

Created by
  • Haebom
Category
Empty

저자

Georgios Pantazopoulos, Eda B. Ozyi\u{g}it

개요

본 논문은 자연어 쿼리로부터 이미지 영역을 찾아내는 시각적 근거 찾기(Visual Grounding)에 대한 연구를 소개합니다. 특히, 기존의 대규모, 노이즈가 많은 합성 데이터셋에 의존하는 방법론의 한계를 극복하고자, 모델 기반 데이터 필터링과 파라미터 효율적인 미세 조정을 결합한 효율적인 학습 파이프라인을 제안합니다. 480만 개의 합성 예제로부터 정제된 12,000개의 깨끗하고 다양한 인스턴스를 활용하여, 30억 개의 파라미터를 가진 시각-언어 모델을 지도 학습, 사고 연쇄 기반 미세 조정, 그리고 그룹 상대 정책 최적화를 통한 강화 학습 방식으로 훈련했습니다. 필터링된 데이터를 사용한 경량화된 학습 전략을 통해 훈련된 모델은 ScreenSpot, Multimodal-Mind2Web, AndroidControl과 같은 벤치마크에서 더 큰 규모의 기존 모델과 동등하거나 더 나은 성능을 달성했습니다.

시사점, 한계점

시사점:
데이터 필터링과 파라미터 효율적인 미세 조정을 통해, 대규모 데이터셋 없이도 강력한 시각적 근거 찾기 모델을 구축할 수 있음을 입증했습니다.
제안하는 방법론은 컴팩트하면서도 강력한 멀티모달 추론 에이전트 개발을 가능하게 합니다.
ScreenSpot, Multimodal-Mind2Web, AndroidControl 등 주요 벤치마크에서 기존 모델 대비 우수한 성능을 보였습니다.
한계점:
데이터 필터링 과정에서 잘못된 데이터 제거에 대한 정량적 지표가 부족할 수 있습니다.
다른 도메인 및 태스크로의 일반화 성능에 대한 추가적인 연구가 필요합니다.
모델의 실제 적용 시 계산 비용 및 효율성에 대한 추가적인 분석이 필요합니다.
👍