haebom
Sign In
Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models
Created by
Haebom
Category
Empty
μ μ
Jialin Wu, Wei Shi, Han Shen, Peigui Qi, Kunsheng Tang, Zhicong Huang, Binghao Wang, Zhou Yang
π‘ κ°μ
λκ·λͺ¨ λΉμ -μΈμ΄ λͺ¨λΈ(LVLMs)μ κ°μ²΄ νκ°(hallucination) νμμ μ·¨μ½νλ©°, μ΄λ μκ°μ νΉμ§κ³Ό μ¬μ νμ΅λ ν μ€νΈ ννμ΄ κΉμ μ κ²½λ§ κ³μΈ΅μμ μ½νκΈ° λλ¬Έμ λλ€. λ³Έ λ Όλ¬Έμ μ½ν μ 보λ₯Ό λͺ μμ μΌλ‘ μ¬νμ±ννλ νλ ¨ μλ νλ μμν¬μΈ REVISλ₯Ό μ μν©λλ€. REVISλ μ μ¬ κ³΅κ° κΈ°ννμ νμ©νμ¬ μμν μκ° μ 보 벑ν°λ₯Ό μΆμΆνκ³ , μ΅μ κ° λ°μνλ μ νν κΉμ΄μμλ§ μ΅μνμ μ°μ° λΉμ©μΌλ‘ ν¬μ κ°μ μ μννμ¬ μκ° μ 보λ₯Ό 볡μν©λλ€.
π μμ¬μ λ° νκ³
β’
LVLMsμ κ°μ²΄ νκ° λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μκ° μ 보μ μ΅μ λ©μ»€λμ¦μ μ΄ν΄νκ³ μ΄λ₯Ό κ΅μ νλ μλ‘μ΄ νλ ¨ μλ νλ μμν¬(REVIS)λ₯Ό μ μν©λλ€.
β’
REVISλ μ μ¬ κ³΅κ°μ κΈ°ννμ μμ±μ νμ©νμ¬ ν¨μ¨μ μΌλ‘ μκ° μ 보λ₯Ό 볡μνλ©°, κ°μ²΄ νκ°μ μ½ 19% κ°μμν€λ ν¨κ³Όλ₯Ό 보μμ΅λλ€.
β’
μ μλ λ°©λ²λ‘ μ μ°μ° λΉμ©μ΄ μ μΌλ©΄μλ λͺ¨λΈμ μΌλ°μ μΈ μΆλ‘ λ₯λ ₯μ μ μ§νλ€λ μ₯μ μ κ°μ§λλ€.
β’
REVISκ° λ€μν LVLMs μν€ν μ²μ λ°μ΄ν°μ μμ μΌλ§λ ν¨κ³Όμ μΈμ§μ λν μΆκ°μ μΈ νκ΅¬κ° νμνλ©°, κ°μ μ μ λ°λλ₯Ό λμ± ν₯μμν¬ μ μλ λ°©μμ΄ μ°κ΅¬λ νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage