Sign In

Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models

Created by
  • Haebom
Category
Empty

μ €μž

Jialin Wu, Wei Shi, Han Shen, Peigui Qi, Kunsheng Tang, Zhicong Huang, Binghao Wang, Zhou Yang

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ λΉ„μ „-μ–Έμ–΄ λͺ¨λΈ(LVLMs)은 객체 ν™˜κ°(hallucination) ν˜„μƒμ— μ·¨μ•½ν•˜λ©°, μ΄λŠ” μ‹œκ°μ  νŠΉμ§•κ³Ό 사전 ν•™μŠ΅λœ ν…μŠ€νŠΈ ν‘œν˜„μ΄ κΉŠμ€ 신경망 κ³„μΈ΅μ—μ„œ μ–½νžˆκΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. λ³Έ 논문은 μ–½νžŒ 정보λ₯Ό λͺ…μ‹œμ μœΌλ‘œ μž¬ν™œμ„±ν™”ν•˜λŠ” ν›ˆλ ¨ μ—†λŠ” ν”„λ ˆμž„μ›Œν¬μΈ REVISλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. REVISλŠ” 잠재 곡간 κΈ°ν•˜ν•™μ„ ν™œμš©ν•˜μ—¬ μˆœμˆ˜ν•œ μ‹œκ° 정보 벑터λ₯Ό μΆ”μΆœν•˜κ³ , μ–΅μ œκ°€ λ°œμƒν•˜λŠ” μ •ν™•ν•œ κΉŠμ΄μ—μ„œλ§Œ μ΅œμ†Œν•œμ˜ μ—°μ‚° λΉ„μš©μœΌλ‘œ ν¬μ†Œ κ°œμž…μ„ μˆ˜ν–‰ν•˜μ—¬ μ‹œκ° 정보λ₯Ό λ³΅μ›ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LVLMs의 객체 ν™˜κ° 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ‹œκ° μ •λ³΄μ˜ μ–΅μ œ λ©”μ»€λ‹ˆμ¦˜μ„ μ΄ν•΄ν•˜κ³  이λ₯Ό κ΅μ •ν•˜λŠ” μƒˆλ‘œμš΄ ν›ˆλ ¨ μ—†λŠ” ν”„λ ˆμž„μ›Œν¬(REVIS)λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
REVISλŠ” 잠재 κ³΅κ°„μ˜ κΈ°ν•˜ν•™μ  속성을 ν™œμš©ν•˜μ—¬ 효율적으둜 μ‹œκ° 정보λ₯Ό λ³΅μ›ν•˜λ©°, 객체 ν™˜κ°μ„ μ•½ 19% κ°μ†Œμ‹œν‚€λŠ” 효과λ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법둠은 μ—°μ‚° λΉ„μš©μ΄ μ μœΌλ©΄μ„œλ„ λͺ¨λΈμ˜ 일반적인 μΆ”λ‘  λŠ₯λ ₯은 μœ μ§€ν•œλ‹€λŠ” μž₯점을 κ°€μ§‘λ‹ˆλ‹€.
β€’
REVISκ°€ λ‹€μ–‘ν•œ LVLMs μ•„ν‚€ν…μ²˜μ™€ λ°μ΄ν„°μ…‹μ—μ„œ μ–Όλ§ˆλ‚˜ νš¨κ³Όμ μΈμ§€μ— λŒ€ν•œ 좔가적인 탐ꡬ가 ν•„μš”ν•˜λ©°, κ°œμž…μ˜ 정밀도λ₯Ό λ”μš± ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” λ°©μ•ˆμ΄ 연ꡬ될 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘