Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

작성자

Haebom

카테고리

Empty

저자

Logan Mann, Ajit Saravanan, Ishan Dave, Shikhar Shiromani, Saadullah Ismail, Yi Xia, Emily Huang

💡 개요

본 연구는 비전-언어 모델(VLM)의 신뢰성이 주의 맵의 집중도와 직접적으로 연결된다는 직관을 검증합니다. 연구진은 VLM Reliability Probe(VRP)라는 통합적인 기계론적 파이프라인을 통해 LLaVA-1.5, PaliGemma, Qwen2-VL 모델을 분석한 결과, 주의 구조는 모델의 정확도 예측에 거의 기여하지 못하는 반면, 후반부 연산에서 나타나는 은닉 상태의 기하학적 구조와 자가 일관성이 신뢰성을 더 잘 나타낸다는 것을 발견했습니다. 특히, 모델 구조에 따라 신뢰성이 집중되거나 분산되는 방식이 달라진다는 것을 신경망 수준에서 규명했습니다.

🔑 시사점 및 한계

•

주의 맵에 대한 과신 금지: VLM의 신뢰성은 주의 맵의 집중도보다는 은닉 상태의 기하학적 특성, 레이어 간 마진 형성, 그리고 희소한 후반 레이어 회로에서 더 잘 파악할 수 있습니다.

•

신뢰성 탐색 시점: 신뢰성은 연산 후반부에서 더 명확하게 파악되며, 은닉 상태에 대한 선형 탐색이나 여러 추론을 통한 자가 일관성이 좋은 지표가 될 수 있습니다.

•

모델 구조에 따른 신뢰성 분포 차이: 모델 아키텍처, 특히 주의 융합 방식(late-fusion vs early-fusion)이 신뢰성 정보의 집중 및 분산 방식에 영향을 미치며, 이는 모델의 견고성과 관련이 있습니다.

•

한계점: 연구는 30억~70억 매개변수의 소형 VLM을 대상으로 했으므로, 더 큰 모델에서는 결과가 다를 수 있습니다. 또한, '신뢰성'이라는 개념을 단일 정확도 라벨로 정의하고 측정하는 데 있어 잠재적인 단순화가 있을 수 있습니다.

PDF 보기

Made with Slashpage