EgoNormia $\epsilon$는 물리적 및 사회적 맥락에서 규범을 이해하고 추론하는 능력을 평가하기 위해 제작된 1,853개의 이고중심 비디오 데이터셋입니다. 각 비디오에는 규범적 행동의 예측과 정당화를 평가하는 두 개의 관련 질문이 포함되어 있으며, 규범적 행동은 안전, 프라이버시, 근접성, 예의, 협력, 조정/주도성, 의사소통/가독성의 7가지 범주로 분류됩니다. 본 논문에서는 이 데이터셋을 대규모로 구축하기 위한 새로운 파이프라인(비디오 샘플링, 자동 답변 생성, 필터링, 사람 검증)을 제안하고, 최첨단 VLM(Vision-Language Model)들이 규범 이해 능력이 부족함을 보여줍니다 (EgoNormia에서 최대 45%의 정확도, 사람은 92%). 또한, 검색 기반 생성 방법을 통해 EgoNormia를 활용하여 VLM의 규범적 추론 능력을 향상시킬 수 있음을 보여줍니다.