Sign In

Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhengtao Zou, Ya Gao, Jiarui Guan, Bin Li, Pekka Marttinen

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ λΉ„μ „-μ–Έμ–΄ λͺ¨λΈ(LVLM)은 ν…μŠ€νŠΈ 생성 μ‹œ μ‹œκ°μ  정보 ν¬μ„μœΌλ‘œ 인해 ν™˜κ° ν˜„μƒμ΄ λ°œμƒν•˜λŠ” 문제λ₯Ό κ²ͺμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 λͺ¨λΈμ˜ 사전 ν•™μŠ΅ μž”μ°¨ μ—…λ°μ΄νŠΈμ—μ„œ μΆ”μΆœν•œ 'CARD'λΌλŠ” μ‹œκ°μ  증거 λ°©ν–₯을 λ™μ μœΌλ‘œ μ£Όμž…ν•˜λŠ” RUDDER ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜μ—¬ 이λ₯Ό ν•΄κ²°ν•©λ‹ˆλ‹€. Beta GateλΌλŠ” μ μ‘ν˜• 게이트λ₯Ό 톡해 μ‹œκ°μ  액컀가 ν•„μš”ν•œ κ²½μš°μ—λ§Œ μ μš©λ˜μ–΄ ν™˜κ°μ„ 효과적으둜 μ™„ν™”ν•˜λ©΄μ„œλ„ 높은 처리 속도λ₯Ό μœ μ§€ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹œκ° 정보 희석 문제 ν•΄κ²°: RUDDERλŠ” μ‹œκ°μ  액컀λ₯Ό μ§€μ†μ μœΌλ‘œ μ œκ³΅ν•˜μ—¬ LVLM의 ν™˜κ° ν˜„μƒμ„ 효과적으둜 μ€„μž…λ‹ˆλ‹€.
β€’
μ €λΉ„μš© 고효율: κΈ°μ‘΄ 방법둠에 λΉ„ν•΄ μƒλ‹Ήν•œ μ§€μ—° μ‹œκ°„ 증가 없이 ν™˜κ° μ™„ν™” μ„±λŠ₯을 λ‹¬μ„±ν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ λͺ¨λΈ 및 μž‘μ—… 적용 κ°€λŠ₯μ„±: LLaVA, Idefics2 λ“± λ‹€μ–‘ν•œ LVLM μ•„ν‚€ν…μ²˜μ™€ μ—¬λŸ¬ λ²€μΉ˜λ§ˆν¬μ—μ„œ μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
κΈ°μ‘΄ 연ꡬ λŒ€λΉ„ λͺ…ν™•ν•œ κ°œμ„ μ : CHAIR_S 및 CHAIR_i μ μˆ˜μ—μ„œ 평균 20% μ΄μƒμ˜ μƒλŒ€μ  κ°μ†Œλ₯Ό 보이며, κΈ°μ‘΄ λŒ€λΉ„ μƒλ‹Ήν•œ ν™˜κ° κ°μ†Œ 효과λ₯Ό μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
Beta Gate의 효과: μ μ‘ν˜• 게이트 λ©”μ»€λ‹ˆμ¦˜μ€ μ‹œκ°μ  힌트의 적용 μ‹œμ μ„ μ‘°μ ˆν•˜μ—¬ λΆˆν•„μš”ν•œ κ°œμž…μ„ λ°©μ§€ν•˜κ³  λͺ¨λΈμ˜ 신뒰도λ₯Ό λ†’μž…λ‹ˆλ‹€.
πŸ‘