Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EgoNormia: Benchmarking Physical Social Norm Understanding

Created by
  • Haebom

저자

MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

개요

EGONORMIA $\epsilon$는 1,853개(EGONORMIA-verified는 200개)의 객관식 문제(MCQ)로 구성된 새로운 데이터셋으로, 인간 상호작용의 자기중심적 비디오에 기반한 규범적 추론 평가 및 개선을 위한 것입니다. 7가지 규범 범주(안전, 프라이버시, 근접성, 예의범절, 협력, 조정/능동성, 의사소통/가독성)를 포함하며, 원시 자기중심적 비디오에서 맥락 기반 MCQ를 생성하는 새로운 파이프라인을 제안합니다. 현재 최첨단 VLMs는 EGONORMIA에서 최대 54%, EGONORMIA-verified에서 65%의 점수를 얻어 견고한 규범 이해가 부족함을 보여주며, 특히 안전 및 프라이버시 측면에서 실제 에이전트에 VLMs를 사용할 때 상당한 위험이 있음을 시사합니다. 또한, EGONORMIA를 사용한 단순한 검색 기반 생성(RAG) 방법을 통해 VLMs의 규범적 이해를 향상시킬 수 있음을 보여줍니다.

시사점, 한계점

시사점:
자기중심적 비디오에 기반한 규범적 추론 평가를 위한 새로운 대규모 데이터셋 EGONORMIA $\epsilon$ 제시.
현재 최첨단 VLMs의 규범적 추론 능력의 부족과 실제 적용 시 안전 및 프라이버시 위험을 밝힘.
EGONORMIA를 활용한 RAG 기반 방법을 통해 VLMs의 규범적 추론 성능 향상 가능성 제시.
한계점:
EGONORMIA-verified 데이터셋의 규모가 상대적으로 작음(200개).
RAG 기반 방법의 성능 향상이 얼마나 일반화될 수 있는지에 대한 추가 연구 필요.
다양한 문화적 배경이나 상황을 충분히 반영하지 못할 가능성.
👍