Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning

Created by
  • Haebom

저자

Hang Wu, Hongkai Chen, Yujun Cai, Chang Liu, Qingwen Ye, Ming-Hsuan Yang, Yiwei Wang

개요

본 논문은 다양한 시각적 요소, 공간적 혼잡, 언어의 모호성으로 인해 어려움을 겪는 그래픽 사용자 인터페이스(GUI)에서 자연어 질의를 기반으로 하는 문제를 다룹니다. DiMo-GUI라는 학습이 필요없는 GUI 기반 프레임워크를 제시하는데, 이는 동적 시각적 기반 및 모달 인식 최적화라는 두 가지 핵심 전략을 활용합니다. GUI를 단일 이미지로 처리하는 대신, 텍스트 요소와 아이콘 요소로 입력을 분할하여 일반적인 비전-언어 모델을 사용하여 각 모달리티를 독립적으로 추론합니다. 예측이 모호하거나 잘못된 경우, DiMo-GUI는 모델의 초기 예측을 중심으로 후보 초점 영역을 생성하고 점진적으로 하위 영역으로 확대하여 기반 결과를 개선함으로써 동적으로 주의를 집중합니다. 이러한 계층적 개선 과정은 추가적인 학습이나 주석 없이 시각적으로 혼잡한 레이아웃의 모호성을 해소하는 데 도움이 됩니다. 표준 GUI 기반 벤치마크에서 접근 방식을 평가하고 기준 추론 파이프라인보다 일관된 개선을 보여줌으로써 모달리티 분리와 영역 중심 추론을 결합하는 효과를 강조합니다.

시사점, 한계점

시사점:
학습이 필요 없는 GUI 기반 프레임워크를 제시하여, 데이터 수집 및 어노테이션에 대한 비용을 절감할 수 있습니다.
모달리티 분리와 영역 중심 추론을 결합하여, 시각적으로 혼잡한 GUI에서도 효과적으로 자연어 질의를 처리할 수 있습니다.
기존 기반 추론 파이프라인보다 성능이 향상됨을 실험적으로 증명하였습니다.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다. 다양한 GUI 디자인과 복잡도에 대한 로버스트성을 더욱 검증해야 합니다.
특정 유형의 GUI 또는 질의에 대해서는 성능이 저하될 가능성이 있습니다. 더욱 광범위한 실험을 통해 한계점을 명확히 파악해야 합니다.
복잡한 GUI 또는 모호한 질의에 대한 처리 성능 및 효율성에 대한 추가적인 분석이 필요합니다.
👍