Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces

Created by
  • Haebom

저자

Reuben A. Luera, Ryan Rossi, Franck Dernoncourt, Samyadeep Basu, Sungchul Kim, Subhojyoti Mukherjee, Puneet Mathur, Ruiyi Zhang, Jihyung Kil, Nedim Lipka, Seunghyun Yoon, Jiuxiang Gu, Zichao Wang, Cindy Xiong Bearfield, Branislav Kveton

개요

본 논문은 사용자 인터페이스(UI) 디자인 과정에서 다중 모드 대규모 언어 모델(MLLMs)이 초기 평가자 역할을 할 수 있는지 연구한다. 특히 자원 제약이 있는 초기 탐색 단계에서 MLLMs이 인간의 선호도를 얼마나 잘 모방하여 개별 UI를 평가하고 비교할 수 있는지에 초점을 맞춘다. 30개의 UI에 대해 GPT-4o, Claude, Llama를 벤치마킹하고, 크라우드소싱 플랫폼에서 얻은 데이터를 사용하여 인간의 판단과 비교 분석했다.

시사점, 한계점

MLLMs은 일부 UI 요소에 대해 인간의 선호도를 근사하게 나타낼 수 있다.
MLLMs은 다른 UI 요소에 대해서는 인간의 판단과 차이를 보였다.
MLLMs은 초기 UX 연구를 보완하는 데 잠재력이 있다.
MLLMs의 한계점은 아직 존재하며, 모든 측면에서 인간의 판단을 대체할 수 없다.
👍