Sign In

Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

Created by
  • Haebom
Category
Empty

μ €μž

Omer Faruk Deniz, Ruiyu Mao, Ruochen Li, Yapeng Tian, Latifur Khan

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)μ—μ„œ λ°œμƒν•˜λŠ” 높은 μ—°μ‚° λΉ„μš© 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, LLM 자체λ₯Ό μ••μΆ•μ˜ κ°€μ΄λ“œλ‘œ ν™œμš©ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ Attention-Driven Self-Compression (ADSC) 기법은 LLM의 μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜λ§Œμ„ μ‚¬μš©ν•˜μ—¬ μ μ§„μ μœΌλ‘œ λΉ„μ „ 토큰 수λ₯Ό 쀄이며, 이λ₯Ό 톡해 정보 μž¬κ΅¬μ„± 및 압좕을 μœ λ„ν•©λ‹ˆλ‹€. ADSCλŠ” 좔가적인 λͺ¨λ“ˆμ΄λ‚˜ λ³΅μž‘ν•œ 점수 계산 없이 κΈ°μ‘΄ LLM 및 FlashAttentionκ³Ό μ™„λ²½ν•˜κ²Œ ν˜Έν™˜λ˜λ©΄μ„œλ„ νš¨μœ¨μ„±κ³Ό μ„±λŠ₯을 λ™μ‹œμ— ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 κΉŠμ€ λ ˆμ΄μ–΄μ—μ„œ μžμ—°μŠ€λŸ½κ²Œ λ°œμƒν•˜λŠ” λΉ„μ „-ν…μŠ€νŠΈ 정보 전달 νŠΉμ„±μ„ ν™œμš©ν•˜μ—¬, λ³„λ„μ˜ 토큰 μ€‘μš”λ„ 평가 없이도 효과적인 토큰 압좕이 κ°€λŠ₯함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
기쑴의 사전 LLM λ˜λŠ” νœ΄λ¦¬μŠ€ν‹± 기반 토큰 제거 방식 λŒ€λΉ„, ADSCκ°€ 더 높은 μΌλ°˜μ„±κ³Ό νš¨μœ¨μ„±, 그리고 정확도λ₯Ό λ‹¬μ„±ν•œλ‹€λŠ” 것을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€. 특히 높은 μ••μΆ•λ₯ μ—μ„œλ„ μ„±λŠ₯ μ €ν•˜κ°€ μ λ‹€λŠ” μž₯점을 κ°€μ§‘λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ ADSCλŠ” νŠΉμ • λ ˆμ΄μ–΄μ—μ„œμ˜ κ· μΌν•œ 토큰 λ‹€μš΄μƒ˜ν”Œλ§μ„ 톡해 병λͺ© ν˜„μƒμ„ μœ λ„ν•˜λŠ”λ°, ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” μ••μΆ• λΉ„μœ¨ 및 λ‹€μš΄μƒ˜ν”Œλ§ μœ„μΉ˜λ₯Ό λ™μ μœΌλ‘œ μ‘°μ ˆν•˜μ—¬ μ„±λŠ₯을 λ”μš± μ΅œμ ν™”ν•  수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.
πŸ‘