본 논문은 오픈 소스 GUI 에이전트가 장기 탐색 작업에서 폐쇄 소스 시스템에 뒤처지는 문제를 해결하기 위해 GUI-Libra라는 새로운 훈련 방법을 제안합니다. 기존 훈련 방식의 두 가지 주요 한계점인 (1) 부족한 고품질, 행동 정렬 추론 데이터와 (2) 부분 검증 가능한 RL 훈련 문제를 극복하고자 합니다. GUI-Libra는 행동 정렬 추론 데이터셋 구축 및 필터링, 행동 인지형 SFT(Supervised Fine-Tuning), 그리고 KL 정규화를 활용한 RL 훈련을 통해 성능 향상을 이끌어냅니다.
🔑 시사점 및 한계
•
고품질 행동 정렬 추론 데이터의 중요성: 81K 규모의 GUI 추론 데이터셋 구축 및 공개를 통해 데이터의 질적 향상이 GUI 에이전트 성능 개선에 핵심적임을 보여줍니다.
•
추론과 행동 정렬의 효과적인 결합: 행동 인지형 SFT를 통해 추론 과정과 실제 행동 간의 연관성을 강화하고, grounding 성능을 향상시키는 방법을 제시합니다.
•
부분 검증 가능성 환경에서의 RL 안정화: KL 정규화와 성공 기반 스케일링을 통해 부분적으로만 검증 가능한 RL 환경에서도 에이전트의 안정적인 학습과 온라인 성능 예측력을 높이는 방안을 제시합니다.
•
한계점: 제안된 방법론이 특정 유형의 GUI 작업에 더 효과적일 수 있으며, 실제 복잡하고 동적인 환경에서의 일반화 성능에 대한 추가적인 검증이 필요합니다. 또한, 데이터 구축 및 필터링 과정에 대한 인간의 개입이 여전히 필요할 수 있습니다.