Sign In

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lechao Zhang, Xuhong Wang, Jie Yang, Zhonglong Zheng, Yuanjie Zheng, Xin Tan, Wei Liu

πŸ’‘ κ°œμš”

κΈ°μ‘΄ VLM μ—μ΄μ „νŠΈλŠ” μ˜€ν”ˆμ›”λ“œ νƒœμŠ€ν¬μ—μ„œ 닀쀑 ν„΄μ˜ μ‹œκ°μ  인지와 행동 싀행을 ν•„μš”λ‘œ ν•˜μ§€λ§Œ, GRPO와 같은 κ³ κΈ‰ RL μ•Œκ³ λ¦¬μ¦˜μ„ 효과적으둜 ν™œμš©ν•˜μ§€ λͺ»ν–ˆμŠ΅λ‹ˆλ‹€. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” GRPO의 ν•™μŠ΅ μƒ˜ν”Œ μš”κ΅¬μ‚¬ν•­μ„ μ™„ν™”ν•˜κΈ° μœ„ν•΄ ꢀ적을 μƒνƒœ-행동 μƒ˜ν”Œλ‘œ λΆ„ν•΄ν•˜κ³  이듀 κ°„μ˜ 이점을 κ³„μ‚°ν•˜λŠ” GROW ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 μž₯κΈ°κ°„μ˜ μ»¨ν…μŠ€νŠΈμ™€ λ…Έμ΄μ¦ˆ 문제λ₯Ό ν•΄κ²°ν•˜κ³ , Minecraft νƒœμŠ€ν¬μ—μ„œ SOTA μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ˜€ν”ˆμ›”λ“œ VLM μ—μ΄μ „νŠΈμ˜ 닀쀑 ν„΄ RL ν•™μŠ΅μ—μ„œ GRPO μ•Œκ³ λ¦¬μ¦˜μ˜ νš¨μœ¨μ„±μ„ λ†’μ΄λŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬(GROW)λ₯Ό μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ꢀ적을 μƒνƒœ-행동 μƒ˜ν”Œ λ‹¨μœ„λ‘œ λΆ„ν•΄ν•˜μ—¬ ν•™μŠ΅ νš¨μœ¨μ„±μ„ κ°œμ„ ν•˜κ³ , κΈ°μ‘΄ GRPO의 ν•œκ³„λ₯Ό 극볡할 수 μžˆμŒμ„ 이둠적으둜 λΆ„μ„ν•˜κ³  μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” GRPO와 같은 κ³ κΈ‰ RL μ•Œκ³ λ¦¬μ¦˜μ„ VLM μ—μ΄μ „νŠΈμ˜ λ³΅μž‘ν•œ μ˜€ν”ˆμ›”λ“œ νƒœμŠ€ν¬μ— μ μš©ν•˜λŠ” 데 κΈ°μ—¬ν•˜λ©°, ν–₯ν›„ 더 μ •κ΅ν•œ VLM μ—μ΄μ „νŠΈ κ°œλ°œμ— λŒ€ν•œ κ°€λŠ₯성을 μ—΄μ–΄μ€λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제): λ‹€μ–‘ν•œ μ˜€ν”ˆμ›”λ“œ ν™˜κ²½μ—μ„œμ˜ μΌλ°˜ν™” μ„±λŠ₯ 검증, 더 λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œμ˜ νš¨μœ¨μ„± 및 μ•ˆμ •μ„± κ°œμ„ , 그리고 GROW ν”„λ ˆμž„μ›Œν¬λ₯Ό ν™œμš©ν•œ VLM μ—μ΄μ „νŠΈμ˜ νƒν—˜ 및 ν•™μŠ΅ μ „λž΅ μ΅œμ ν™” 등이 ν–₯ν›„ 연ꡬ κ³Όμ œκ°€ 될 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘