Sign In

RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism

Created by
  • Haebom
Category
Empty

μ €μž

Zhong Guan, Haoran Sun, Yongjian Guo, Shuai Di, Xiaodong Bai, Jing Long, Tianyun Zhao, Mingxi Luo, Chen Zhou, Yucheng Guo, Qiming Yang, Wanting Xu, Wen Huang, Yunxuan Ma, Hongke Zhao, Likang Wu, Xiaotie Deng, Xi Xiao, Sheng Wen, Yicheng Gong, Junwu Xiong

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ²”μš© κ΅¬ν˜„ μ§€λŠ₯의 핡심인 Vision-Language-Action (VLA) λͺ¨λΈμ˜ ν›ˆλ ¨ νš¨μœ¨μ„±μ„ κ°œμ„ ν•˜κΈ° μœ„ν•΄ μ™„μ „ 비동기 κ°•ν™”ν•™μŠ΅ ν›ˆλ ¨ ν”„λ ˆμž„μ›Œν¬μΈ RL-VLA$^3$λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. RL-VLA$^3$λŠ” ν™˜κ²½ μƒν˜Έμž‘μš©, 둀아웃 생성, μ •μ±… μ—…λ°μ΄νŠΈ μ „ 과정을 λΉ„λ™κΈ°μ μœΌλ‘œ μ²˜λ¦¬ν•˜μ—¬ μžμ› ν™œμš©λ„λ₯Ό κ·ΉλŒ€ν™”ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 κΈ°μ‘΄ 동기식 방식 λŒ€λΉ„ μƒλ‹Ήν•œ μ²˜λ¦¬λŸ‰ ν–₯상을 λ‹¬μ„±ν•˜κ³  λ›°μ–΄λ‚œ ν™•μž₯성을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
VLA λͺ¨λΈ ν›ˆλ ¨μ˜ 고질적인 병λͺ© ν˜„μƒμΈ ν›ˆλ ¨ νš¨μœ¨μ„±μ„ 근본적으둜 κ°œμ„ ν•  수 μžˆλŠ” μ™„μ „ 비동기 ν”„λ ˆμž„μ›Œν¬λ₯Ό 졜초둜 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν™˜κ²½ μƒν˜Έμž‘μš©, 둀아웃 생성, μ •μ±… μ—…λ°μ΄νŠΈ λ“± VLA ν›ˆλ ¨ νŒŒμ΄ν”„λΌμΈμ˜ 각 단계λ₯Ό λΉ„λ™κΈ°μ μœΌλ‘œ λΆ„λ¦¬ν•˜κ³  μ΅œμ ν™”ν•˜μ—¬ μžμ› ν™œμš©λ„λ₯Ό 높이고 μ²˜λ¦¬λŸ‰μ„ κ·ΉλŒ€ν™”ν•©λ‹ˆλ‹€.
β€’
LIBERO λ²€μΉ˜λ§ˆν¬μ—μ„œ μ΅œλŒ€ 59.25%의 μ²˜λ¦¬λŸ‰ ν–₯상을 λ‹¬μ„±ν–ˆμœΌλ©°, μ΅œμ ν™” μ‹œ 126.67%κΉŒμ§€ μ¦κ°€ν•˜λŠ” 것을 ν™•μΈν•˜μ—¬ μ‹€νš¨μ„±μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” λΉ„λ™κΈ°ν™”μ˜ 각 ꡬ성 μš”μ†Œμ— λŒ€ν•œ 효과λ₯Ό κ²€μ¦ν–ˆμ§€λ§Œ, μ‹œμŠ€ν…œ λ³΅μž‘μ„± μ¦κ°€λ‘œ μΈν•œ κ΅¬ν˜„ 및 λ””λ²„κΉ…μ˜ 어렀움이 μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ VLA λͺ¨λΈ 및 ν™˜κ²½μ— λŒ€ν•œ 검증은 μ΄λ£¨μ–΄μ‘ŒμœΌλ‚˜, μ‹€μ œ λ³΅μž‘ν•˜κ³  동적인 μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘