EGONORMIA $\epsilon$는 인간 상호작용의 시점 영상에 기반한 1,853개(EGONORMIA-verified는 200개)의 객관식 문제(MCQ)로 구성된 새로운 데이터셋입니다. 이 데이터셋은 시각-언어 모델(VLMs)의 규범적 추론 평가 및 개선을 위해 고안되었으며, 안전, 프라이버시, 근접성, 예의범절, 협력, 조정/선제적 행동, 의사소통/가독성 등 7가지 규범 범주를 포함합니다. 본 논문에서는 원시 시점 영상으로부터 규범 기반 MCQ를 생성하는 새로운 파이프라인을 제안하고, 최첨단 VLMs가 규범에 대한 이해가 부족하며 EGONORMIA에서 최대 66%, EGONORMIA-verified에서 최대 68%의 정확도를 보인다는 것을 보여줍니다. 또한, EGONORMIA를 이용한 단순 검색 기반 생성(RAG) 방법을 통해 VLMs의 규범적 추론을 개선할 수 있음을 실험적으로 보여줍니다.