Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ProgRM: Build Better GUI Agents with Progress Rewards

Created by
  • Haebom

저자

Danyang Zhang, Situo Zhang, Ziyue Yang, Zichen Zhu, Zihan Zhao, Ruisheng Cao, Lu Chen, Kai Yu

개요

본 논문은 대규모 언어 모델(LLM) 기반 그래픽 사용자 인터페이스(GUI) 에이전트의 한계점을 해결하기 위해 새로운 보상 모델을 제안합니다. 기존의 결과 보상 모델(ORM)은 정교한 피드백을 제공하지 못하고 실패한 시퀀스의 유용한 단계까지 과도하게 처벌하는 문제점이 있습니다. 이를 해결하고자, 본 논문에서는 각 단계의 작업 완료 진행 상황을 예측하여 밀집된 정보성 중간 보상을 제공하는 진행 보상 모델(ProgRM)을 제안합니다. 진행 보상 레이블 주석 작업의 어려움을 해결하기 위해 최장 공통 부분 수열(LCS) 기반의 자체 주석 알고리즘을 설계하여 주요 단계를 식별하고 진행 상황 레이블을 할당합니다. 실험 결과, ProgRM으로 훈련된 에이전트가 기존의 최첨단 LLM 및 ORM으로 훈련된 에이전트보다 성능이 우수함을 보여줍니다.

시사점, 한계점

시사점:
LLM 기반 GUI 에이전트의 성능 향상에 기여하는 새로운 진행 보상 모델(ProgRM) 제시
효율적인 LCS 기반 자체 주석 알고리즘을 통해 진행 상황 레이블 주석 문제 해결
ProgRM을 사용하여 훈련된 에이전트가 기존 모델보다 우수한 성능을 달성
공개적으로 코드를 제공하여 연구의 재현성 및 확장성 확보에 기여 (수락 후)
한계점:
LCS 기반 자체 주석 알고리즘의 일반화 성능 및 다양한 작업에 대한 적용 가능성에 대한 추가 연구 필요
제안된 모델의 성능이 특정 데이터셋이나 작업에 편향될 가능성 존재
실험 코드의 공개는 논문 수락 이후로, 현재는 결과의 검증에 한계가 존재.
👍