Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents

Created by
  • Haebom

저자

Yuxiang Chai, Siyuan Huang, Yazhe Niu, Han Xiao, Liang Liu, Dingyu Zhang, Shuai Ren, Hongsheng Li

개요

AMEX는 일반적인 모바일 GUI 제어 에이전트를 위한 대규모 데이터셋입니다. 104,000개 이상의 고해상도 모바일 앱 스크린샷으로 구성되며, GUI 상호작용 요소 지정, GUI 화면 및 요소 기능 설명, 단계별 GUI 작업 체인이 포함된 복잡한 자연어 지침 등 세 가지 수준의 주석이 포함되어 있습니다. 기존 데이터셋(Rico, AitW 등)보다 더 자세하고 상세한 정보를 제공하며, SPHINX Agent 모델을 미세 조정하여 AMEX의 효과를 보여줍니다.

시사점, 한계점

시사점: 모바일 GUI 제어 에이전트 연구에 기여할 수 있는 대규모, 다중 주석 데이터셋을 제공합니다. 기존 데이터셋보다 상세한 주석을 통해 더욱 정교한 모델 학습이 가능합니다. SPHINX Agent 모델의 성능 향상을 통해 데이터셋의 유용성을 검증했습니다.
한계점: 데이터셋의 규모는 크지만, 모든 종류의 모바일 앱과 상호작용을 완벽하게 커버하지 못할 수 있습니다. 주석의 정확성 및 일관성에 대한 평가가 추가적으로 필요합니다. 특정 유형의 앱이나 상호작용에 편향이 있을 가능성이 존재합니다.
👍