haebom
Sign In
GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lechao Zhang, Xuhong Wang, Jie Yang, Zhonglong Zheng, Yuanjie Zheng, Xin Tan, Wei Liu
π‘ κ°μ
κΈ°μ‘΄ VLM μμ΄μ νΈλ μ€νμλ νμ€ν¬μμ λ€μ€ ν΄μ μκ°μ μΈμ§μ νλ μ€νμ νμλ‘ νμ§λ§, GRPOμ κ°μ κ³ κΈ RL μκ³ λ¦¬μ¦μ ν¨κ³Όμ μΌλ‘ νμ©νμ§ λͺ»νμ΅λλ€. λ³Έ λ Όλ¬Έμμλ GRPOμ νμ΅ μν μꡬμ¬νμ μννκΈ° μν΄ κΆ€μ μ μν-νλ μνλ‘ λΆν΄νκ³ μ΄λ€ κ°μ μ΄μ μ κ³μ°νλ GROW νλ μμν¬λ₯Ό μ μν©λλ€. μ΄λ₯Ό ν΅ν΄ μ₯κΈ°κ°μ 컨ν μ€νΈμ λ Έμ΄μ¦ λ¬Έμ λ₯Ό ν΄κ²°νκ³ , Minecraft νμ€ν¬μμ SOTA μ±λ₯μ λ¬μ±νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
μ€νμλ VLM μμ΄μ νΈμ λ€μ€ ν΄ RL νμ΅μμ GRPO μκ³ λ¦¬μ¦μ ν¨μ¨μ±μ λμ΄λ μλ‘μ΄ νλ μμν¬(GROW)λ₯Ό μ μνμ΅λλ€.
β’
κΆ€μ μ μν-νλ μν λ¨μλ‘ λΆν΄νμ¬ νμ΅ ν¨μ¨μ±μ κ°μ νκ³ , κΈ°μ‘΄ GRPOμ νκ³λ₯Ό 극볡ν μ μμμ μ΄λ‘ μ μΌλ‘ λΆμνκ³ μ€νμ μΌλ‘ μ μ¦νμ΅λλ€.
β’
λ³Έ μ°κ΅¬λ GRPOμ κ°μ κ³ κΈ RL μκ³ λ¦¬μ¦μ VLM μμ΄μ νΈμ 볡μ‘ν μ€νμλ νμ€ν¬μ μ μ©νλ λ° κΈ°μ¬νλ©°, ν₯ν λ μ κ΅ν VLM μμ΄μ νΈ κ°λ°μ λν κ°λ₯μ±μ μ΄μ΄μ€λλ€.
β’
(νκ³μ λλ ν₯ν κ³Όμ ): λ€μν μ€νμλ νκ²½μμμ μΌλ°ν μ±λ₯ κ²μ¦, λ 볡μ‘ν νκ²½μμμ ν¨μ¨μ± λ° μμ μ± κ°μ , κ·Έλ¦¬κ³ GROW νλ μμν¬λ₯Ό νμ©ν VLM μμ΄μ νΈμ νν λ° νμ΅ μ λ΅ μ΅μ ν λ±μ΄ ν₯ν μ°κ΅¬ κ³Όμ κ° λ μ μμ΅λλ€.
PDF 보기
Made with Slashpage