Sign In

EgoNormia: Benchmarking Physical Social Norm Understanding

Created by
  • Haebom
Category
Empty

저자

MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

개요

EgoNormia $\epsilon$는 물리적, 사회적 맥락에서 규범에 기반한 행동의 예측과 정당화를 평가하는 1,853개의 1인칭 시점 상호작용 비디오 데이터셋이다. 각 비디오에는 규범적 행동을 평가하는 두 개의 관련 질문이 포함되어 있으며, 규범적 행동은 안전, 프라이버시, 근접성, 예의범절, 협력, 조정/선제적 행동, 의사소통/가독성의 7가지 범주로 분류된다. 대규모 데이터셋 구축을 위해 비디오 샘플링, 자동 답변 생성, 필터링, 사람 검증을 활용하는 새로운 파이프라인을 제안한다. 현존 최고 수준의 시각-언어 모델(VLMs)은 EgoNormia에서 최대 45%의 점수를 얻은 반면, 사람은 92%의 점수를 얻어, VLMs의 규범 이해 능력이 부족함을 보여준다. 분석 결과, 실제 에이전트에 적용될 경우 안전, 프라이버시, 협업 및 의사소통 능력 부족에 대한 상당한 위험이 있음을 강조한다. 또한 검색 기반 생성 방법을 통해 EgoNormia를 사용하여 VLMs의 규범적 추론을 향상시킬 수 있음을 보여준다.

시사점, 한계점

시사점:
물리적, 사회적 맥락에서 규범적 추론 능력을 평가하기 위한 새로운 데이터셋 EgoNormia $\epsilon$ 제시.
최첨단 VLMs의 규범 이해 능력 부족을 실험적으로 증명.
실제 에이전트 적용 시 안전, 프라이버시, 협업 및 의사소통 부족의 위험성 제기.
검색 기반 생성 방법을 통한 VLMs의 규범적 추론 향상 가능성 제시.
한계점:
데이터셋의 규모(1,853개 비디오)가 상대적으로 작을 수 있음.
규범적 행동의 범주가 제한적일 수 있음.
자동 답변 생성 및 필터링 과정에서 발생할 수 있는 오류 가능성.
👍