본 논문은 시각-언어 모델(VLMs)의 규범적 추론 능력을 향상시키고 평가하기 위해, 인간 상호작용의 1인칭 시점 비디오를 기반으로 한 1,853개의 다단계 객관식 질문으로 구성된 새로운 데이터셋 $\epsilon$을 제시합니다. 데이터셋은 안전, 프라이버시, 근접성, 예의범절, 협력, 조정/선제적 행동, 의사소통/가독성 등 7가지 범주의 규범적 행동을 평가합니다. 대규모 데이터셋 구축을 위해 비디오 샘플링, 자동 답변 생성, 필터링, 인간 검증을 활용하는 새로운 파이프라인을 제안합니다. 실험 결과, 최첨단 VLMs는 $\epsilon$에서 최대 54%의 정확도를 보이는 반면, 인간은 92%의 정확도를 보여, VLMs의 규범 이해 능력 부족을 드러냅니다. 특히 안전, 프라이버시, 협업 및 의사소통 능력 부족에 대한 위험성을 강조하며, 검색 기반 생성(RAG) 방법을 통해 $\epsilon$을 활용하여 VLMs의 규범적 추론 능력을 향상시킬 수 있음을 보여줍니다.