Sign In

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Logan Mann, Ajit Saravanan, Ishan Dave, Shikhar Shiromani, Saadullah Ismail, Yi Xia, Emily Huang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λΉ„μ „-μ–Έμ–΄ λͺ¨λΈ(VLM)의 신뒰성이 주의 맡의 집쀑도와 μ§μ ‘μ μœΌλ‘œ μ—°κ²°λœλ‹€λŠ” 직관을 κ²€μ¦ν•©λ‹ˆλ‹€. 연ꡬ진은 VLM Reliability Probe(VRP)λΌλŠ” 톡합적인 기계둠적 νŒŒμ΄ν”„λΌμΈμ„ 톡해 LLaVA-1.5, PaliGemma, Qwen2-VL λͺ¨λΈμ„ λΆ„μ„ν•œ κ²°κ³Ό, 주의 κ΅¬μ‘°λŠ” λͺ¨λΈμ˜ 정확도 μ˜ˆμΈ‘μ— 거의 κΈ°μ—¬ν•˜μ§€ λͺ»ν•˜λŠ” 반면, ν›„λ°˜λΆ€ μ—°μ‚°μ—μ„œ λ‚˜νƒ€λ‚˜λŠ” 은닉 μƒνƒœμ˜ κΈ°ν•˜ν•™μ  ꡬ쑰와 μžκ°€ 일관성이 신뒰성을 더 잘 λ‚˜νƒ€λ‚Έλ‹€λŠ” 것을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. 특히, λͺ¨λΈ ꡬ쑰에 따라 신뒰성이 μ§‘μ€‘λ˜κ±°λ‚˜ λΆ„μ‚°λ˜λŠ” 방식이 λ‹¬λΌμ§„λ‹€λŠ” 것을 신경망 μˆ˜μ€€μ—μ„œ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
주의 맡에 λŒ€ν•œ κ³Όμ‹  κΈˆμ§€: VLM의 신뒰성은 주의 맡의 μ§‘μ€‘λ„λ³΄λ‹€λŠ” 은닉 μƒνƒœμ˜ κΈ°ν•˜ν•™μ  νŠΉμ„±, λ ˆμ΄μ–΄ κ°„ λ§ˆμ§„ ν˜•μ„±, 그리고 ν¬μ†Œν•œ ν›„λ°˜ λ ˆμ΄μ–΄ νšŒλ‘œμ—μ„œ 더 잘 νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ‹ λ’°μ„± 탐색 μ‹œμ : 신뒰성은 μ—°μ‚° ν›„λ°˜λΆ€μ—μ„œ 더 λͺ…ν™•ν•˜κ²Œ νŒŒμ•…λ˜λ©°, 은닉 μƒνƒœμ— λŒ€ν•œ μ„ ν˜• νƒμƒ‰μ΄λ‚˜ μ—¬λŸ¬ 좔둠을 ν†΅ν•œ μžκ°€ 일관성이 쒋은 μ§€ν‘œκ°€ 될 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λͺ¨λΈ ꡬ쑰에 λ”°λ₯Έ μ‹ λ’°μ„± 뢄포 차이: λͺ¨λΈ μ•„ν‚€ν…μ²˜, 특히 주의 μœ΅ν•© 방식(late-fusion vs early-fusion)이 μ‹ λ’°μ„± μ •λ³΄μ˜ 집쀑 및 λΆ„μ‚° 방식에 영ν–₯을 미치며, μ΄λŠ” λͺ¨λΈμ˜ 견고성과 관련이 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν•œκ³„μ : μ—°κ΅¬λŠ” 30μ–΅~70μ–΅ λ§€κ°œλ³€μˆ˜μ˜ μ†Œν˜• VLM을 λŒ€μƒμœΌλ‘œ ν–ˆμœΌλ―€λ‘œ, 더 큰 λͺ¨λΈμ—μ„œλŠ” κ²°κ³Όκ°€ λ‹€λ₯Ό 수 μžˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, 'μ‹ λ’°μ„±'μ΄λΌλŠ” κ°œλ…μ„ 단일 정확도 라벨둜 μ •μ˜ν•˜κ³  μΈ‘μ •ν•˜λŠ” 데 μžˆμ–΄ 잠재적인 λ‹¨μˆœν™”κ°€ μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘