haebom
Sign In
Listener-Rewarded Thinking in VLMs for Image Preferences
Created by
Haebom
Category
Empty
μ μ
Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets
π‘ κ°μ
μ΄ λ Όλ¬Έμ ν μ€νΈ-μ΄λ―Έμ§ μμ± λͺ¨λΈμ΄ μΈκ°μ μλμ λΆν©νλλ‘ νκΈ° μν΄ μκ°μ μ νΈλλ₯Ό νμ΅νλ 보μ λͺ¨λΈμ μΌλ°ν μ±λ₯ λΆμ‘± λ¬Έμ λ₯Ό ν΄κ²°νκ³ μ ν©λλ€. κΈ°μ‘΄ κ°ννμ΅ λ°©λ²λ‘ (GRPO)μμ λ°κ²¬λ μΆλ‘ κ³Όμ μμμ μ€λ₯λ₯Ό κ°μ νκΈ° μν΄, '리μ€λ'λΌκ³ λΆλ¦¬λ λ 립μ μΈ λΉμ -μΈμ΄ λͺ¨λΈμ΄ μΆλ‘ κ³Όμ μ μ¬νκ°νμ¬ λ³΄μ μ νΈλ₯Ό μ‘°μ νλ μλ‘μ΄ λ¦¬μ€λ κ°ν νμ΅ νλ μμν¬λ₯Ό μ μν©λλ€. μ΄ λ°©λ²μ μΆλ‘ μ μ νμ±λΏλ§ μλλΌ λ 립μ μΈ λͺ¨λΈμκ² μ€λλ ₯ μλ μ€λͺ μ μμ±νλλ‘ μ₯λ €νλ©°, μ΄λ―Έμ§ μ νΈλ λ²€μΉλ§ν¬ λ° λκ·λͺ¨ μΈκ° μ νΈλ λ°μ΄ν°μ μμ λ°μ΄λ μ±λ₯ ν₯μμ 보μ¬μ£Όμμ΅λλ€.
π μμ¬μ λ° νκ³
β’
λ°μ΄ν° ν¨μ¨μ μΈ νμ΅:
리μ€λ κΈ°λ° λ³΄μ λ°©μμ 볡μ‘ν μ£Όμ νμ΄νλΌμΈ μμ΄λ λ°μ΄ν° ν¨μ¨μ μΌλ‘ λΉμ -μΈμ΄ λͺ¨λΈμ λ―Έλ¬ν μΈκ° μ νΈλμ λ§μΆ μ μλ νμ₯ κ°λ₯ν κ²½λ‘λ₯Ό μ 곡ν©λλ€.
β’
μΆλ‘ μ νλ λ° μ€λͺ μ μ λ’°μ± ν₯μ:
λͺ¨λΈμ΄ λ¨μν μ¬λ°λ₯΄κ² μλ΅νλ κ²μ λμ΄, λ 립μ μΈ λͺ¨λΈμ΄ μ€λλ ₯ μλ€κ³ νλ¨ν μ μλ μ€λͺ μ μμ±νλλ‘ μ λνμ¬ μΆλ‘ μ μ νμ±κ³Ό μ λ’°λλ₯Ό λμ λλ€.
β’
νκ³μ :
리μ€λ λͺ¨λΈ μ체μ μ±λ₯μ΄λ νΈν₯μ΄ μ΅μ’ 보μ λͺ¨λΈμ μν₯μ λ―ΈμΉ μ μμΌλ©°, 리μ€λ λͺ¨λΈμ μ¬νκ° κ³Όμ μ΄ κ³μ°μ μΌλ‘ λ λ§μ μμμ μꡬν μ μμ΅λλ€.
PDF 보기
Made with Slashpage