본 논문은 대규모 데이터셋으로 사전 훈련된 Vision-Language-Action (VLA) 모델이 다양한 환경, 작업 및 로봇 플랫폼에서 강력한 일반화 능력을 보여주지만, 새로운 환경에서 작업별 미세 조정이 여전히 필요하며, 이는 주로 정적 궤적 데이터셋을 사용하는 지도 학습 미세 조정(SFT)에 의존한다는 점을 지적합니다. SFT는 로봇이 환경과 상호 작용하거나 실제 실행으로부터 피드백을 활용할 수 없다는 한계가 있습니다. 따라서 본 논문은 폐쇄 루프 상호 작용을 가능하게 하고 학습된 정책을 작업 목표에 직접적으로 정렬하는 강화 학습(RL)을 제안합니다. GRPO의 아이디어에서 영감을 받아, 단계별 및 궤적 수준의 이점 신호를 융합하는 Trajectory-wise Group Relative Policy Optimization (TGRPO) 방법을 제시합니다. TGRPO는 GRPO의 그룹 수준 이점 추정을 개선하여 VLA의 온라인 강화 학습 훈련에 더 적합하게 만듭니다. libero-object 벤치마크의 10가지 조작 작업에 대한 실험 결과는 TGRPO가 다양한 기준 방법보다 일관되게 우수한 성능을 보이며, 여러 시나리오에서 더욱 강력하고 효율적인 정책을 생성할 수 있음을 보여줍니다.