Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents

Created by
  • Haebom

저자

Yunseok Jang, Yeda Song, Sungryull Sohn, Lajanugen Logeswaran, Tiange Luo, Dong-Ki Kim, Kyunghoon Bae, Honglak Lee

개요

본 논문은 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)의 발전에 따라 GUI 시각 에이전트 개발에 대한 관심이 높아짐에 따라, 다양한 실제 모바일 OS 탐색을 담은 2만 개의 교육 비디오에서 31만 3천 개의 주석이 달린 프레임으로 구성된 대규모 데이터셋 MONDAY (Mobile OS Navigation Task Dataset for Agents from YouTube)를 제시합니다. MONDAY를 사전 훈련 단계에 포함한 모델은 기존 단일 OS 데이터셋으로 훈련된 모델보다 뛰어난 플랫폼 간 일반화 성능을 보여주며, 보이지 않는 모바일 OS 플랫폼에서 평균 18.11%p의 성능 향상을 달성합니다. 또한 모바일 플랫폼의 발전에 따라 데이터셋을 지속적으로 확장하기 위해 공개적으로 이용 가능한 비디오 콘텐츠를 활용하여 수동 주석 없이 포괄적인 작업 데이터셋을 생성하는 자동화 프레임워크를 제시합니다. 이 프레임워크는 강력한 OCR 기반 장면 탐지(95.04% F1 점수), 거의 완벽한 UI 요소 탐지(99.87% 적중률), 그리고 다양한 인터페이스 구성에서 신뢰할 수 있는 작업 시퀀스를 추출하는 새로운 다단계 작업 식별을 포함합니다. 본 논문에서는 모바일 OS 탐색 분야의 미래 연구를 촉진하기 위해 MONDAY 데이터셋과 자동화된 수집 프레임워크를 모두 공개합니다.

시사점, 한계점

시사점:
대규모 모바일 OS 탐색 데이터셋 MONDAY를 제공하여 GUI 시각 에이전트 연구에 크게 기여.
MONDAY를 활용한 모델이 기존 모델 대비 우수한 플랫폼 간 일반화 성능과 성능 향상을 보임.
자동화된 데이터셋 확장 프레임워크를 통해 지속적인 데이터셋 업데이트 가능.
강력한 OCR 기반 장면 탐지 및 UI 요소 탐지 기술 제시.
한계점:
데이터셋의 편향성에 대한 분석 및 해결 방안 제시 부족.
자동화 프레임워크의 일반화 가능성 및 다양한 모바일 OS 및 UI에 대한 적용성에 대한 추가적인 검증 필요.
데이터셋의 크기 및 다양성 향상을 위한 지속적인 노력 필요.
프레임워크의 오류 처리 및 품질 관리에 대한 자세한 설명 부족.
👍