Sign In

GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation

Created by
  • Haebom
Category
Empty

저자

Tao Liu, Chongyu Wang, Rongjie Li, Yingchen Yu, Xuming He, Bai Song

개요

다중 모드 대규모 언어 모델(MLLM) 기반 GUI 탐색 에이전트의 한계를 해결하기 위해, 구조화된 추론, 액션 예측, 히스토리 요약을 체계적으로 통합하는 추론 강화 프레임워크를 제안합니다. 이 프레임워크를 기반으로 GUI 에이전트 GUI-Rise를 구축하여, 유사 레이블된 트라젝토리와 그룹 상대 정책 최적화(GRPO)를 활용한 강화 학습을 통해 훈련했습니다. GUI-Rise는 히스토리 인식 목표를 포함한 특수 보상을 사용하며, 요약 품질을 후속 액션 성능과 직접 연결합니다. 표준 벤치마크에서 동등한 훈련 데이터 조건 하에 최첨단 결과를 달성했으며, 특히 도메인 밖 시나리오에서 강력한 성능을 보였습니다.

시사점, 한계점

시사점:
구조화된 추론, 액션 예측, 히스토리 요약의 통합을 통해 GUI 탐색 에이전트의 성능을 향상시킴.
도메인 밖 시나리오에서 강력한 일반화 성능을 보여줌.
히스토리 인식 목표를 활용하여 요약 품질과 액션 성능 간의 직접적인 연결을 확립함.
GUI-Rise 에이전트가 다른 에이전트보다 더 나은 결과를 냄.
한계점:
훈련 데이터 조건이 동일할 때만 최첨단 결과를 달성했음.
코드 및 추가 정보는 https://leon022.github.io/GUI-Rise 에서 확인 가능함. (구체적인 한계는 논문에서 추가적으로 확인 필요)
👍