[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces

Created by
  • Haebom

저자

El Hassane Ettifouri, Jessica Lopez Espejel, Laura Minkova, Tassnim Dardouri, Walid Dahhane

개요

본 논문은 그래픽 사용자 인터페이스(GUI)와 같은 합성 이미지에서의 시각적 그라운딩 문제를 해결하는 Instruction Visual Grounding (IVG) 방법을 제안합니다. 기존의 시각적 그라운딩 연구가 주로 사실적인 이미지에 집중한 것과 달리, 본 논문은 자연어 명령어와 GUI 화면을 입력받아 명령어 실행 대상 요소의 좌표를 찾는 데 초점을 맞춥니다. 이를 위해 LLMs, 객체 탐지 모델, OCR 모듈을 결합한 IVGocr과, 다중 모드 아키텍처를 사용한 end-to-end 접근 방식인 IVGdirect 두 가지 방법을 제안하며, 각 방법에 대한 전용 데이터셋을 함께 공개합니다. 또한, 기존의 CPS 지표를 완화한 새로운 평가 지표인 CPV를 제시하고, 최종 테스트 데이터셋을 공개하여 향후 연구를 지원합니다.

시사점, 한계점

시사점:
GUI 내 객체 식별을 위한 새로운 접근 방식인 IVG 제안
GUI 자동화 상호작용을 위한 AI 에이전트 개발에 기여
소프트웨어 테스팅, 접근성, HCI 분야 발전 가능성 제시
두 가지 IVG 방법 (IVGocr, IVGdirect) 및 전용 데이터셋 제공
새로운 평가 지표 CPV 제안 및 공개 데이터셋 제공을 통한 향후 연구 지원
한계점:
제안된 방법 및 데이터셋의 일반화 성능에 대한 추가적인 검증 필요
다양한 GUI 스타일 및 복잡도에 대한 로버스트성 평가 필요
CPV 지표의 한계 및 다른 평가 지표와의 비교 분석 필요
실제 GUI 환경에서의 성능 평가 및 적용 연구 필요
👍