haebom
Sign In
Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ©ν°λͺ¨λ¬ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(MLLMs)μ΄ μ΄λ―Έμ§μ μμ μΈλΆ μ¬νμ νμ νλ λ° μ΄λ €μμ κ²ͺλ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ Vision-OPDλΌλ μλ‘μ΄ νλ μμν¬λ₯Ό μ μν©λλ€. Vision-OPDλ μ΄λ―Έμ§μ νΉμ λΆλΆμ μ€μ¬μΌλ‘ νμ΅λ λͺ¨λΈμ λ₯λ ₯μ μ 체 μ΄λ―Έμ§μ λν μ΄ν΄λ‘ μ μ΄μν€λ μ¨-ν΄λ¦¬μ μκΈ° μ¦λ₯ λ°©μμ μ¬μ©ν©λλ€. μ΄λ₯Ό ν΅ν΄ μΈλΆ μ§λλ λꡬ μμ΄λ λͺ¨λΈμ΄ μκ°μ νλμ μ΄μ μ λ΄μ¬ννλλ‘ νμ¬ λ―ΈμΈν μκ°μ μ΄ν΄ λ₯λ ₯μ ν₯μμν΅λλ€.
π μμ¬μ λ° νκ³
β’
MLLMsμ λ―ΈμΈ μκ°μ μ΄ν΄ λ₯λ ₯ λΆμ‘±μ΄ 'μ§μμ μΈμ'κ³Ό 'μ 체μ μΈμ' κ°μ 격차μμ λΉλ‘―λλ€λ μ€μν κ΄μ°°μ μ μν©λλ€.
β’
μΈλΆ μ§λλ λꡬ μμ΄λ MLLMμ μ체 λ₯λ ₯μ νμ©νμ¬ μ±λ₯μ ν₯μμν€λ ν¨κ³Όμ μΈ μκΈ° μ¦λ₯ λ°©λ²λ‘ μ μ μνμ΅λλ€.
β’
λ€μν λ²€μΉλ§ν¬μμ κΈ°μ‘΄μ λκ·λͺ¨ λͺ¨λΈλ€λ³΄λ€ κ²½μλ ₯ μκ±°λ μ°μν μ±λ₯μ λ¬μ±νλ©° λ―ΈμΈ μκ°μ μ΄ν΄ λ₯λ ₯μ μ μ¦νμ΅λλ€.
β’
λ³Έ μ°κ΅¬λ νΉμ λ°μ΄ν°μ λ° MLLM μν€ν μ²μ λν κ²°κ³Όλ₯Ό μ μνλ©°, λ€λ₯Έ μ νμ MLLMμ΄λ λ€μν λ°μ΄ν°μ μ λν μΌλ°ν κ°λ₯μ±μ λν μΆκ° μ°κ΅¬κ° νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage