Sign In

Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Ruiying Peng, Xueyu Wu, Jing Lei, Lu Hou, Yuanzheng Ma, Xiaohui Li

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)이 μž₯μ‹œκ°„ μΆ”λ‘  κ³Όμ •μ—μ„œ μ‹œκ°μ  정보에 λŒ€ν•œ 주의λ ₯이 λΆ„μ‚°λ˜μ–΄ λ°œμƒν•˜λŠ” '지각 손상' 문제λ₯Ό λ‹€λ£Ήλ‹ˆλ‹€. 연ꡬ진은 μ΄λŸ¬ν•œ ν˜„μƒμ˜ 원인이 μΆ”λ‘  λ‹¨κ³„μ—μ„œ μ‹œκ°μ  μ£Όμ˜κ°€ 질문과 κ΄€λ ¨λœ μ˜μ—­μ—μ„œ λ²—μ–΄λ‚˜ ν©μ–΄μ§€λŠ” '주의 λΆ„μ‚°'μž„μ„ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 질문 κ΄€λ ¨ μ˜μ—­μ— 주의λ₯Ό μ§‘μ€‘ν•˜λ„λ‘ ν•˜λŠ” ν›ˆλ ¨ μ—†λŠ” 'μ‹œκ° μ˜μ—­ μ•ˆλ‚΄ 주의(VRGA)' ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
MLLM의 μž₯μ‹œκ°„ μΆ”λ‘  μ‹œ λ°œμƒν•˜λŠ” μ‹œκ°μ  주의 λΆ„μ‚° ν˜„μƒμ΄ '지각 손상'의 μ£Όμš” μ›μΈμž„μ„ 밝히고, 이λ₯Ό μ •λŸ‰μ μœΌλ‘œ λΆ„μ„ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν›ˆλ ¨ 없이 적용 κ°€λŠ₯ν•œ VRGA ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해 MLLM의 μ‹œκ°μ  주의λ₯Ό μ œμ–΄ν•˜μ—¬ μΆ”λ‘  정확도λ₯Ό ν–₯μƒμ‹œν‚€κ³  μ‹œκ°μ  κ·Όκ±° μ œμ‹œ λŠ₯λ ₯을 κ°œμ„ ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 방법은 MLLM이 μ‹œκ° 정보λ₯Ό μ²˜λ¦¬ν•˜λŠ” 방식을 μ΄ν•΄ν•˜λŠ” 데 μ€‘μš”ν•œ 톡찰을 μ œκ³΅ν•˜λ©°, 해석 κ°€λŠ₯ν•œ AI 연ꡬ에 κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
VRGA ν”„λ ˆμž„μ›Œν¬μ˜ νš¨κ³Όκ°€ νŠΉμ • μ’…λ₯˜μ˜ μΆ”λ‘ μ΄λ‚˜ λ³΅μž‘ν•œ μ‹œκ°μ  상황에 μ–΄λ–»κ²Œ μ μš©λ μ§€λŠ” μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘