Sign In

Multimodal Reinforcement Learning with Adaptive Verifier for AI Agents

Created by
  • Haebom
Category
Empty

μ €μž

Reuben Tan, Baolin Peng, Zhengyuan Yang, Hao Cheng, Oier Mees, Theodore Zhao, Andrea Tupini, Isar Meijier, Qianhui Wu, Yuncong Yang, Lars Liden, Yu Gu, Sheng Zhang, Xiaodong Liu, Lijuan Wang, Marc Pollefeys, Yong Jae Lee, Jianfeng Gao

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ©€ν‹°λͺ¨λ‹¬ κ°•ν™”ν•™μŠ΅(MMRL) μ—μ΄μ „νŠΈκ°€ μ΅œμ’… 결과뿐만 μ•„λ‹ˆλΌ μΆ”λ‘  κ³Όμ • μžμ²΄μ— λŒ€ν•œ ν’λΆ€ν•œ 보상을 받을 수 μžˆλ„λ‘ ν•˜λŠ” μƒˆλ‘œμš΄ 보상 μ—μ΄μ „νŠΈμΈ Argosλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. ArgosλŠ” 각 μƒ˜ν”Œμ— λŒ€ν•΄ μ μ‘μ μœΌλ‘œ λ‹€μ–‘ν•œ 평가 ν•¨μˆ˜λ₯Ό μ„ νƒν•˜μ—¬ μ΅œμ’… 응닡 정확도, 참쑰된 개체 및 ν–‰λ™μ˜ μ‹œκ³΅κ°„μ  μœ„μΉ˜, μΆ”λ‘  κ³Όμ •μ˜ ν’ˆμ§ˆμ„ λ™μ‹œμ— ν‰κ°€ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 SFT 데이터 νλ ˆμ΄μ…˜ 및 RL ν›ˆλ ¨ μ „λ°˜μ— 걸쳐 μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 크게 ν–₯μƒμ‹œν‚€κ³  ν›ˆλ ¨ λ°μ΄ν„°μ˜ λ…Έμ΄μ¦ˆ λ¬Έμ œμ™€ 보상 해킹을 μ™„ν™”ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
기쑴의 μ΅œμ’… κ²°κ³Ό 기반 λ³΄μƒλ§ŒμœΌλ‘œλŠ” λ©€ν‹°λͺ¨λ‹¬ μΆ”λ‘  μ—μ΄μ „νŠΈμ˜ ν•™μŠ΅μ— ν•œκ³„κ°€ μžˆμŒμ„ μ§€μ ν•˜κ³ , μΆ”λ‘  과정에 λŒ€ν•œ ν’λΆ€ν•œ λ³΄μƒμ˜ μ€‘μš”μ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.
β€’
ArgosλŠ” λ‹€μ–‘ν•œ 평가 ν•¨μˆ˜λ₯Ό μ μ‘μ μœΌλ‘œ ν™œμš©ν•˜μ—¬ μ΅œμ’… 결과뿐만 μ•„λ‹ˆλΌ μ‹œκ³΅κ°„μ  이해도와 μΆ”λ‘  κ³Όμ •μ˜ ν’ˆμ§ˆκΉŒμ§€ ν‰κ°€ν•¨μœΌλ‘œμ¨ μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 획기적으둜 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
SFT ν›„ κ°•ν™”ν•™μŠ΅λ§ŒμœΌλ‘œλŠ” μ—μ΄μ „νŠΈκ°€ 비정상적인 μ†”λ£¨μ…˜μœΌλ‘œ μˆ˜λ ΄ν•˜λŠ” κ²½ν–₯이 μžˆμŒμ„ 보여주며, 온라인 κ²€μ¦μ˜ ν•„μš”μ„±μ„ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
ArgosλŠ” 보상 해킹을 쀄이고, νŒŒλ ˆν†  μ΅œμ μ„± κ°œλ…μ„ 톡해 이둠적 효과λ₯Ό λ’·λ°›μΉ¨ν•©λ‹ˆλ‹€.
πŸ‘