# SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning

### 저자

Fanqi Kong, Weiqin Zu, Xinyu Chen, Yaodong Yang, Song-Chun Zhu, Xue Feng

### 💡 개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 사회적 상호작용 이해 및 추론 능력을 종합적으로 평가하기 위한 새로운 비디오 벤치마크인 SIV-Bench를 제안합니다. SIV-Bench는 사회 관계 이론에 기반하여 사회적 장면 이해, 사회적 상태 추론, 사회적 역학 예측의 세 가지 주요 영역을 포괄하는 2,792개의 비디오 클립과 5,455개의 질문-답변 쌍으로 구성됩니다. 실험 결과, 최신 MLLM은 사회적 장면 이해에서는 비교적 좋은 성능을 보였으나, 사회적 상태 추론 및 사회적 역학 예측에서는 어려움을 겪었으며, 특히 관계 추론에서의 혼란이 주요 병목 현상으로 나타났습니다.

### 🔑 시사점 및 한계

- **사회적 상호작용 이해 능력 평가의 중요성 강조**: MLLM이 인간 수준의 사회적 지능을 갖추기 위해서는 기존의 언어 및 비전 이해를 넘어 사회적 관계, 감정, 행동 예측 등 복잡한 사회적 맥락을 이해하고 추론하는 능력이 필수적임을 시사합니다.

- **MLLM의 현재 한계점 규명**: 최신 MLLM이 사회적 상태 추론 및 동적 행동 예측과 같은 고차원적 추론 능력에서 부족함을 드러내며, 인간 사고와의 불일치 및 추론 깊이 부족이 성능 저하의 원인임을 보여줍니다.

- **데이터셋 및 평가 프레임워크 제공**: SIV-Bench는 MLLM의 사회적 상호작용 이해 능력 발전을 위한 통일된 테스트베드를 제공하며, 향후 연구 방향을 제시합니다. 오디오 및 자막 정보가 추론 집약적인 작업에서 MLLM의 성능 향상에 기여할 수 있음을 발견했습니다.

- **한계점**: 논문에서 제안된 벤치마크의 포괄성에도 불구하고, 실제 인간의 사회적 상호작용은 훨씬 더 복잡하고 미묘한 요소를 포함할 수 있습니다. 또한, MLLM의 추론 과정 분석은 여전히 초기 단계이며, 인간 사고와의 불일치 및 추론 깊이 부족의 근본적인 원인에 대한 심층적인 탐구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2506.05425)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
