Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Created by
  • Haebom

저자

Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye

개요

본 논문은 검증 가능한 결과 보상을 사용한 강화 학습(RLVR)을 통해 대규모 언어 모델(LLM)의 사고 과정(CoT) 추론을 효과적으로 확장한 연구에 대해 다룬다. 하지만 시각적 환경에서 목표 지향적 행동 추론을 위한 시각-언어 모델(VLM) 에이전트 훈련에 대한 효과는 아직 명확하지 않다. 본 연구는 24 점 게임과 ALFWorld의 구현된 작업과 같은 복잡한 카드 게임에 대한 광범위한 실험을 통해 이 문제를 조사한다. 결과 보상에만 기반한 보상을 사용할 경우, RL은 VLM에서 CoT 추론을 유도하지 못하고, 대신 '사고 붕괴' 현상을 야기한다는 것을 발견했다. 사고 붕괴는 에이전트의 사고 다양성의 급격한 감소, 상태와 무관하고 불완전한 추론, 그리고 그에 따른 잘못된 행동으로 이어져 음의 보상을 초래한다. 사고 붕괴를 해결하기 위해, 본 논문은 프로세스 지도의 필요성을 강조하고 각 RL 단계에서 에이전트의 추론을 평가하고 개선하는 자동 교정기를 제안한다. 이 간단하고 확장 가능한 GTR(Guided Thought Reinforcement) 프레임워크는 밀집된 단계별 사람의 라벨링 없이 추론과 행동을 동시에 훈련한다. 실험 결과, GTR은 다양한 시각적 환경에서 LLaVA-7b 모델의 성능과 일반화를 크게 향상시켜 기존 최고 성능 모델보다 3~5배 높은 작업 성공률을 달성하며, 특히 더 작은 모델 크기를 가지고 있다.

시사점, 한계점

시사점:
결과 보상만으로는 VLM에서 CoT 추론을 유도하기 어렵다는 것을 밝힘.
사고 붕괴 현상을 규명하고, 이를 해결하기 위한 GTR 프레임워크 제안.
GTR을 통해 LLaVA-7b 모델의 성능 및 일반화 향상을 실험적으로 증명.
기존 최고 성능 모델보다 훨씬 작은 모델 크기로 높은 성능 달성.
밀집된 단계별 사람의 라벨링이 필요 없는 자동화된 프로세스 제시.
한계점:
제안된 GTR 프레임워크의 일반화 능력에 대한 추가적인 검증 필요.
다양한 시각적 환경 및 작업에 대한 더 폭넓은 실험 필요.
사고 붕괴 현상의 근본적인 원인에 대한 추가적인 연구 필요.
자동 교정기의 성능 및 한계에 대한 심층적인 분석 필요.
👍