Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EgoNormia: Benchmarking Physical Social Norm Understanding

Created by
  • Haebom

저자

MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

개요

EGONORMIA $\epsilon$는 인간 상호작용의 시점 영상에 기반한 1,853개(EGONORMIA-verified는 200개)의 객관식 문제(MCQ)로 구성된 새로운 데이터셋입니다. 이 데이터셋은 시각-언어 모델(VLMs)의 규범적 추론 평가 및 개선을 위해 고안되었으며, 안전, 프라이버시, 근접성, 예의범절, 협력, 조정/선제적 행동, 의사소통/가독성 등 7가지 규범 범주를 포함합니다. 본 논문에서는 원시 시점 영상으로부터 규범 기반 MCQ를 생성하는 새로운 파이프라인을 제안하고, 최첨단 VLMs가 규범에 대한 이해가 부족하며 EGONORMIA에서 최대 66%, EGONORMIA-verified에서 최대 68%의 정확도를 보인다는 것을 보여줍니다. 또한, EGONORMIA를 이용한 단순 검색 기반 생성(RAG) 방법을 통해 VLMs의 규범적 추론을 개선할 수 있음을 실험적으로 보여줍니다.

시사점, 한계점

시사점:
시각-언어 모델의 규범적 추론 능력 평가를 위한 새로운 대규모 데이터셋 EGONORMIA $\epsilon$ 제시.
최첨단 VLMs의 규범 이해 수준이 낮다는 것을 실험적으로 증명, 특히 안전 및 프라이버시 측면에서 실제 적용 시 위험성 제기.
EGONORMIA 기반 RAG 방법을 활용한 VLMs의 규범적 추론 개선 가능성 제시.
시점 영상 기반 규범적 추론 데이터셋 생성을 위한 새로운 파이프라인 제안.
한계점:
EGONORMIA-verified 데이터셋의 크기가 상대적으로 작음(200개).
RAG 방법을 통한 개선 효과가 제한적일 수 있음. 더욱 정교한 방법론이 필요할 수 있음.
데이터셋의 규범 범주가 완벽하지 않을 수 있으며, 실제 세계의 다양한 규범을 모두 포괄하지 못할 수 있음.
데이터셋의 편향성에 대한 분석 부족.
👍