본 논문은 사전 훈련된 자기회귀형 시각-언어-행동(VLA) 모델을 하류 작업에서 개선하기 위해 온라인 강화 학습(RL)을 활용하는 알고리즘적이고 체계적인 프레임워크인 VLA-RL을 제시합니다. 제한된 상태만 방문한 오프라인 데이터를 사용하는 기존 VLA 모델의 분포 외 상황에서의 실행 실패 문제를 해결하기 위해, 테스트 시점에 온라인으로 수집된 데이터를 개선하는 탐색 기반 방법을 제안합니다. 자기회귀형 VLA 훈련을 위한 궤적 수준 RL 공식화를 도입하고, 희소 보상 문제를 해결하기 위해 자동으로 추출된 작업 세그먼트에 주석이 달린 의사 보상 레이블을 사용하여 사전 훈련된 시각-언어 모델을 로봇 프로세스 보상 모델로 미세 조정합니다. 안정성과 효율성을 높이기 위한 커리큘럼 선택 전략, GPU 균형 벡터화 환경, 배치 디코딩, 비평가 워밍업 등의 구현 결과도 제시합니다. LIBERO의 40가지 어려운 로봇 조작 작업에서 OpenVLA-7B가 기존 최고 성능 기준 모델보다 4.5% 향상된 성능을 보이고, $\pi_0$-FAST와 같은 고급 상용 모델과 유사한 성능을 달성함을 보여줍니다. 테스트 시간 최적화의 이점을 관찰하여 로봇 공학에서 추론 확장 법칙의 초기 징후를 보여줍니다.