EgoNormia $\epsilon$는 물리적, 사회적 맥락에서 규범에 기반한 행동의 예측과 정당화를 평가하는 1,853개의 1인칭 시점 상호작용 비디오 데이터셋이다. 각 비디오에는 규범적 행동을 평가하는 두 개의 관련 질문이 포함되어 있으며, 규범적 행동은 안전, 프라이버시, 근접성, 예의범절, 협력, 조정/선제적 행동, 의사소통/가독성의 7가지 범주로 분류된다. 대규모 데이터셋 구축을 위해 비디오 샘플링, 자동 답변 생성, 필터링, 사람 검증을 활용하는 새로운 파이프라인을 제안한다. 현존 최고 수준의 시각-언어 모델(VLMs)은 EgoNormia에서 최대 45%의 점수를 얻은 반면, 사람은 92%의 점수를 얻어, VLMs의 규범 이해 능력이 부족함을 보여준다. 분석 결과, 실제 에이전트에 적용될 경우 안전, 프라이버시, 협업 및 의사소통 능력 부족에 대한 상당한 위험이 있음을 강조한다. 또한 검색 기반 생성 방법을 통해 EgoNormia를 사용하여 VLMs의 규범적 추론을 향상시킬 수 있음을 보여준다.