haebom
Sign In
Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Ruiying Peng, Xueyu Wu, Jing Lei, Lu Hou, Yuanzheng Ma, Xiaohui Li
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ©ν°λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(MLLM)μ΄ μ₯μκ° μΆλ‘ κ³Όμ μμ μκ°μ μ 보μ λν μ£Όμλ ₯μ΄ λΆμ°λμ΄ λ°μνλ 'μ§κ° μμ' λ¬Έμ λ₯Ό λ€λ£Ήλλ€. μ°κ΅¬μ§μ μ΄λ¬ν νμμ μμΈμ΄ μΆλ‘ λ¨κ³μμ μκ°μ μ£Όμκ° μ§λ¬Έκ³Ό κ΄λ ¨λ μμμμ λ²μ΄λ ν©μ΄μ§λ 'μ£Όμ λΆμ°'μμ κ·λͺ νμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μ§λ¬Έ κ΄λ ¨ μμμ μ£Όμλ₯Ό μ§μ€νλλ‘ νλ νλ ¨ μλ 'μκ° μμ μλ΄ μ£Όμ(VRGA)' νλ μμν¬λ₯Ό μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
MLLMμ μ₯μκ° μΆλ‘ μ λ°μνλ μκ°μ μ£Όμ λΆμ° νμμ΄ 'μ§κ° μμ'μ μ£Όμ μμΈμμ λ°νκ³ , μ΄λ₯Ό μ λμ μΌλ‘ λΆμνμ΅λλ€.
β’
νλ ¨ μμ΄ μ μ© κ°λ₯ν VRGA νλ μμν¬λ₯Ό ν΅ν΄ MLLMμ μκ°μ μ£Όμλ₯Ό μ μ΄νμ¬ μΆλ‘ μ νλλ₯Ό ν₯μμν€κ³ μκ°μ κ·Όκ±° μ μ λ₯λ ₯μ κ°μ νμ΅λλ€.
β’
μ μλ λ°©λ²μ MLLMμ΄ μκ° μ 보λ₯Ό μ²λ¦¬νλ λ°©μμ μ΄ν΄νλ λ° μ€μν ν΅μ°°μ μ 곡νλ©°, ν΄μ κ°λ₯ν AI μ°κ΅¬μ κΈ°μ¬ν©λλ€.
β’
VRGA νλ μμν¬μ ν¨κ³Όκ° νΉμ μ’ λ₯μ μΆλ‘ μ΄λ 볡μ‘ν μκ°μ μν©μ μ΄λ»κ² μ μ©λ μ§λ μΆκ° μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage