Sign In

To See or To Please: Uncovering Visual Sycophancy and Split Beliefs in VLMs

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Rui Hong, Shuxue Quan

πŸ’‘ κ°œμš”

이 논문은 μ‹œκ°-μ–Έμ–΄ λͺ¨λΈ(VLM)이 정닡을 맞힐 λ•Œ μ‹œκ° 정보에 μ§„μ •μœΌλ‘œ μ˜μ‘΄ν•˜λŠ”μ§€λ₯Ό 규λͺ…ν•˜κΈ° μœ„ν•œ μ‚ΌμΈ΅ 진단 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 ν”„λ ˆμž„μ›Œν¬λŠ” 잠재적 이상 탐지, μ‹œκ°μ  ν•„μš”μ„± 점수, 경쟁 μ μˆ˜λΌλŠ” μ„Έ κ°€μ§€ μƒ˜ν”Œλ‹Ή μ§€ν‘œλ₯Ό μ‚¬μš©ν•˜μ—¬ 지각, μ˜μ‘΄μ„±, μ •λ ¬ μ‹€νŒ¨λ₯Ό λΆ„λ¦¬ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, 72.9%의 μƒ˜ν”Œμ—μ„œ λ‚΄λΆ€ 증거λ₯Ό λ³΄μ‘΄ν•˜λ©΄μ„œλ„ ν™˜κ°λœ 닡변을 λ””μ½”λ”©ν•˜λŠ” 'μ‹œκ°μ  아첨(Visual Sycophancy)' νŒ¨ν„΄μ΄ λ‚˜νƒ€λ‚¬μœΌλ©°, ν˜„μž¬μ˜ μ •λ ¬ ν›ˆλ ¨μœΌλ‘œλŠ” κ±°λΆ€(Robust Refusal)κ°€ λ””μ½”λ”© 결과둜 λ‚˜νƒ€λ‚˜μ§€ μ•ŠμŒμ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
VLM은 μ’…μ’… μ‹œκ° 정보λ₯Ό 직접 ν™œμš©ν•˜κΈ°λ³΄λ‹€ ν™˜κ°λœ 닡변을 μƒμ„±ν•˜λŠ” 'μ‹œκ°μ  아첨' κ²½ν–₯을 보이며, μ΄λŠ” 기쑴의 μ •λ ¬ ν›ˆλ ¨μœΌλ‘œ ν•΄κ²°λ˜μ§€ μ•ŠλŠ” λ¬Έμ œμž…λ‹ˆλ‹€.
β€’
λͺ¨λΈ 규λͺ¨ ν™•μž₯μ΄λ‚˜ μ΅œμ‹  ν›ˆλ ¨ κΈ°λ²•λ§ŒμœΌλ‘œλŠ” VLM의 μ‹œκ° 정보 기반 λŠ₯λ ₯(grounding) 문제λ₯Ό 근본적으둜 ν•΄κ²°ν•  수 μ—†μœΌλ©°, 였히렀 μ‹œκ°μ  아첨을 μ‹¬ν™”μ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 진단 점수λ₯Ό ν™œμš©ν•œ ν›ˆλ ¨ μ—†λŠ” 선택적 예츑 μ „λž΅μ€ 정확도λ₯Ό 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” 잠재λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
ν˜„μž¬μ˜ μ •λ ¬ ν›ˆλ ¨μ΄ 'κ±°λΆ€'와 같은 μ•ˆμ „ λ©”μ»€λ‹ˆμ¦˜μ„ μ™„μ „νžˆ μ œκ±°ν•˜μ—¬, λͺ¨λΈμ΄ 잘λͺ»λœ 정보에도 λΆˆκ΅¬ν•˜κ³  μ‘λ‹΅ν•˜λ„λ‘ λ§Œλ“€ 수 μžˆλ‹€λŠ” ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘