본 논문은 로봇 조작에서의 일반화 측정 및 평가의 어려움을 해결하기 위해, 시각적, 의미적, 행동적 일반화를 중심으로 하는 로봇 조작을 위한 일반화 분류 체계인 STAR-Gen을 제안합니다. STAR-Gen은 기존 연구에서 제시된 대부분의 일반화 개념을 포괄하며, Bridge V2 데이터셋을 기반으로 구축된 실제 환경 벤치마크를 통해 검증됩니다. 다양한 최첨단 모델을 평가하여 STAR-Gen의 유용성을 실증하고, 기존 비전-언어-행동 모델의 의미적 일반화 어려움 등을 보여줍니다. STAR-Gen과 평가 지침은 로봇 분야의 일반화 연구 진행 상황의 전파 및 평가를 개선하여 모델 설계 및 향후 데이터 수집 노력을 안내하는 데 기여할 것으로 기대됩니다.