Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning

Created by
  • Haebom

저자

Lang Feng, Weihao Tan, Zhiyi Lyu, Longtao Zheng, Haiyang Xu, Ming Yan, Fei Huang, Bo An

개요

본 논문은 강화학습(RL)을 이용하여 시각언어모델(VLM) 에이전트를 온라인으로 미세조정하는 방법을 제시합니다. 기존 방법들의 한계점인 열린 끝의 텍스트 행동 공간과 행동 생성의 비-end-to-end 특성으로 인한 탐색 공간 폭발 문제를 해결하기 위해, 반사실적 소프트 강화학습(CoSo)을 제안합니다. CoSo는 모든 토큰에 균일한 불확실성을 할당하는 기존 방법과 달리, 반사실적 추론을 활용하여 개별 토큰의 사후 처리된 행동에 대한 인과적 영향을 동적으로 평가합니다. 행동에 중요한 토큰의 탐색을 우선시하고 의미적으로 중복되거나 영향이 적은 토큰의 영향을 줄임으로써, 더욱 목표 지향적이고 효율적인 온라인 전개 과정을 가능하게 합니다. 이론적 분석을 통해 CoSo의 수렴성과 정책 개선 보장을 증명하고, 안드로이드 기기 제어, 카드 게임, 구현된 AI 등 다양한 에이전트 작업에 대한 광범위한 실험적 평가를 통해 CoSo의 효과를 뒷받침합니다.

시사점, 한계점

시사점:
VLM 에이전트의 온라인 미세조정을 위한 효율적인 새로운 방법인 CoSo 제안
반사실적 추론을 활용하여 탐색 공간 폭발 문제 해결
행동에 중요한 토큰에 집중하여 탐색 효율 향상
안드로이드 기기 제어, 카드 게임, 구현된 AI 등 다양한 작업에서 성능 향상 확인
CoSo의 수렴성과 정책 개선 보장에 대한 이론적 분석 제공
소스 코드 공개
한계점:
논문에서 구체적으로 언급된 한계점은 없음. 추가적인 실험이나 다양한 환경에서의 적용 가능성에 대한 추가 연구가 필요할 수 있음.
👍