본 논문에서는 혼잡한 환경에서 로봇 조작 정책의 성능을 평가하기 위한 평가 프로토콜을 제안합니다. 심리물리학적 관점에서 접근하여 환경적 요인, 방해 요소의 양, 특성 및 배열을 고려하는 통합된 혼잡도 척도를 사용합니다. 이 척도를 사용하여 초현실적인 시뮬레이션 및 실제 환경에서 평가 시나리오를 체계적으로 구축하고, 특히 Vision-Language-Action (VLA) 모델을 대상으로 광범위한 실험을 수행합니다. 실험 결과는 장면 혼잡도가 성능에 미치는 상당한 영향, 최대 34%까지 성능 저하, 그리고 서로 다른 VLA 정책이 고유한 취약성을 가지고 성공 시나리오에 대한 일치도가 낮음을 보여줍니다. 또한 제안된 혼잡도 척도가 성능 저하의 효과적인 지표임을 보이고 방해 요소의 양과 가림 효과의 영향을 분석합니다. 마지막으로, 데이터 강화에 따른 미세 조정이 효과적이지만 혼잡도가 성능에 미치는 모든 부정적인 영향을 동일하게 해결하지는 못함을 보여줍니다.