본 논문은 로봇 조작 정책의 학습 및 일반화 능력에 중추적인 역할을 하는 시각적 표현에 대해 연구합니다. 기존 방법들이 전역적 또는 밀집된 특징에 의존하는 반면, 이러한 표현은 종종 작업 관련 및 무관한 장면 정보를 뒤섞어 분포 변화 시 강건성이 제한됩니다. 본 연구는 시각적 입력을 완성된 개체 집합으로 분할하는 구조화된 대안으로 개체 중심 표현(OCR)을 조사하여 조작 작업과 더 자연스럽게 정렬되는 귀납적 편향을 도입합니다. 단순한 것부터 복잡한 것까지 다양한 시뮬레이션 및 실제 조작 작업에서 다양한 시각적 인코더(개체 중심, 전역 및 밀집 방법)를 벤치마킹하고, 조명, 질감 및 방해 요소의 변화를 포함한 다양한 시각적 조건에서 일반화 능력을 평가합니다. 연구 결과, OCR 기반 정책은 작업 특정 사전 훈련 없이도 일반화 설정에서 밀집 및 전역 표현보다 우수한 성능을 보입니다. 이러한 통찰력은 OCR이 동적이고 실제 로봇 환경에서 효과적으로 일반화되는 시각 시스템을 설계하기 위한 유망한 방향임을 시사합니다.