본 논문은 강화학습(RL)을 이용하여 시각언어모델(VLM) 에이전트를 온라인으로 미세조정하는 방법을 제시합니다. 기존 방법들의 한계점인 열린 끝의 텍스트 행동 공간과 행동 생성의 비-end-to-end 특성으로 인한 탐색 공간 폭발 문제를 해결하기 위해, 반사실적 소프트 강화학습(CoSo)을 제안합니다. CoSo는 모든 토큰에 균일한 불확실성을 할당하는 기존 방법과 달리, 반사실적 추론을 활용하여 개별 토큰의 사후 처리된 행동에 대한 인과적 영향을 동적으로 평가합니다. 행동에 중요한 토큰의 탐색을 우선시하고 의미적으로 중복되거나 영향이 적은 토큰의 영향을 줄임으로써, 더욱 목표 지향적이고 효율적인 온라인 전개 과정을 가능하게 합니다. 이론적 분석을 통해 CoSo의 수렴성과 정책 개선 보장을 증명하고, 안드로이드 기기 제어, 카드 게임, 구현된 AI 등 다양한 에이전트 작업에 대한 광범위한 실험적 평가를 통해 CoSo의 효과를 뒷받침합니다.