Sign In

EgoNormia: Benchmarking Physical Social Norm Understanding

Created by
  • Haebom
Category
Empty

저자

MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

개요

EgoNormia $\epsilon$는 물리적 및 사회적 맥락에서 규범을 이해하고 추론하는 능력을 평가하기 위해 제작된 1,853개의 이고중심 비디오 데이터셋입니다. 각 비디오에는 규범적 행동의 예측과 정당화를 평가하는 두 개의 관련 질문이 포함되어 있으며, 규범적 행동은 안전, 프라이버시, 근접성, 예의, 협력, 조정/주도성, 의사소통/가독성의 7가지 범주로 분류됩니다. 본 논문에서는 이 데이터셋을 대규모로 구축하기 위한 새로운 파이프라인(비디오 샘플링, 자동 답변 생성, 필터링, 사람 검증)을 제안하고, 최첨단 VLM(Vision-Language Model)들이 규범 이해 능력이 부족함을 보여줍니다 (EgoNormia에서 최대 45%의 정확도, 사람은 92%). 또한, 검색 기반 생성 방법을 통해 EgoNormia를 활용하여 VLM의 규범적 추론 능력을 향상시킬 수 있음을 보여줍니다.

시사점, 한계점

시사점:
물리적, 사회적 맥락에서 규범적 추론 능력을 평가할 수 있는 새로운 데이터셋 EgoNormia $\epsilon$을 제시.
최첨단 VLM의 규범 이해 능력의 부족과 그로 인한 안전, 프라이버시, 협력 및 의사소통 부족의 위험성을 제기.
검색 기반 생성 방법을 활용한 VLM의 규범적 추론 능력 향상 가능성을 제시.
한계점:
EgoNormia $\epsilon$ 데이터셋의 규모가 상대적으로 작을 수 있음. (1,853개의 비디오)
데이터셋의 편향성 및 일반화 가능성에 대한 추가적인 분석 필요.
제안된 검색 기반 생성 방법의 효율성 및 일반화 가능성에 대한 추가적인 연구 필요.
👍