본 논문은 로봇 공학 분야에서 Vision-Language-Action (VLA) 모델의 적용 가능성을 연구하며, 특히 일반적인 목적의 조작을 달성하는 데 초점을 맞춥니다. ACT, OpenVLA-OFT, RDT-1B, π0 등 4개의 대표적인 VLA 모델을 시뮬레이션 환경과 ALOHA Mobile 플랫폼에서 4가지 조작 작업을 수행하며 벤치마킹하여 경험적 결과를 보고합니다. 정확도와 효율성, 적응성, 언어 지시 따르기 정확도를 평가하는 표준화된 평가 프레임워크를 구축하고, π0가 out-of-distribution 시나리오에서 우수한 적응성을 보이며 ACT가 in-distribution에서 가장 높은 안정성을 제공함을 확인합니다.