# From Scene to Object: Text-Guided Dual-Gaze Prediction

### 저자

Zehong Ke, Yanbo Jiang, Jinhao Li, Zhiyuan Liu, Yiqian Tu, Qingwen Meng, Heye Huang, Jianqiang Wang

### 💡 개요

본 논문은 자율주행 시 운전자 시선 예측의 정확도를 높이기 위해 객체 수준의 세밀한 주석이 부족한 기존 데이터셋의 한계를 지적합니다. 이를 해결하기 위해 저자들은 Segment Anything Model 3 (SAM3)과 멀티모달 대규모 언어 모델을 활용하여 객체 수준의 운전자 주석 데이터셋인 G-W3DA를 새롭게 구축했습니다. 또한, 제안된 DualGaze-VLM 모델은 데이터셋의 품질을 기반으로 의미론적 쿼리의 숨겨진 상태를 추출하고 시각적 특징을 동적으로 조절하여 안전이 중요한 시나리오에서 기존 최고 성능 모델 대비 최대 17.8%의 SIM 향상을 달성했습니다.

### 🔑 시사점 및 한계

- 운전자 시선 예측을 위한 고품질의 객체 수준 주석 데이터셋 구축의 중요성과 가능성을 제시합니다.

- 멀티모달 대규모 언어 모델과 객체 분할 모델을 결합하여 텍스트 기반의 정밀한 인지 모델링이 가능함을 보여줍니다.

- 제안된 DualGaze-VLM 모델은 객체 수준의 시선 예측에서 뛰어난 성능을 보이며, 실제 운전 상황에서의 인간과 유사한 인지 과정을 모방할 수 있음을 입증했습니다.

- 해당 연구는 자율주행 시스템의 해석 가능성과 안전성을 향상시키는 데 기여할 잠재력을 가집니다.

- 현재 데이터셋 구축 방법론이 특정 도구(SAM3)에 의존하고 있어, 범용적인 적용 가능성에 대한 추가적인 검증이 필요할 수 있습니다.

- 실제 주행 환경의 다양성 및 복잡성을 완벽하게 반영하기 위한 추가적인 데이터 증강 및 모델 개선이 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2604.20191)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).