haebom
Sign In
Multimodal Reinforcement Learning with Adaptive Verifier for AI Agents
Created by
Haebom
Category
Empty
μ μ
Reuben Tan, Baolin Peng, Zhengyuan Yang, Hao Cheng, Oier Mees, Theodore Zhao, Andrea Tupini, Isar Meijier, Qianhui Wu, Yuncong Yang, Lars Liden, Yu Gu, Sheng Zhang, Xiaodong Liu, Lijuan Wang, Marc Pollefeys, Yong Jae Lee, Jianfeng Gao
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λ©ν°λͺ¨λ¬ κ°ννμ΅(MMRL) μμ΄μ νΈκ° μ΅μ’ κ²°κ³ΌλΏλ§ μλλΌ μΆλ‘ κ³Όμ μ체μ λν νλΆν 보μμ λ°μ μ μλλ‘ νλ μλ‘μ΄ λ³΄μ μμ΄μ νΈμΈ Argosλ₯Ό μ μν©λλ€. Argosλ κ° μνμ λν΄ μ μμ μΌλ‘ λ€μν νκ° ν¨μλ₯Ό μ ννμ¬ μ΅μ’ μλ΅ μ νλ, μ°Έμ‘°λ κ°μ²΄ λ° νλμ μ곡κ°μ μμΉ, μΆλ‘ κ³Όμ μ νμ§μ λμμ νκ°ν©λλ€. μ΄λ₯Ό ν΅ν΄ SFT λ°μ΄ν° νλ μ΄μ λ° RL νλ ¨ μ λ°μ κ±Έμ³ μμ΄μ νΈμ μ±λ₯μ ν¬κ² ν₯μμν€κ³ νλ ¨ λ°μ΄ν°μ λ Έμ΄μ¦ λ¬Έμ μ 보μ ν΄νΉμ μνν©λλ€.
π μμ¬μ λ° νκ³
β’
κΈ°μ‘΄μ μ΅μ’ κ²°κ³Ό κΈ°λ° λ³΄μλ§μΌλ‘λ λ©ν°λͺ¨λ¬ μΆλ‘ μμ΄μ νΈμ νμ΅μ νκ³κ° μμμ μ§μ νκ³ , μΆλ‘ κ³Όμ μ λν νλΆν 보μμ μ€μμ±μ κ°μ‘°ν©λλ€.
β’
Argosλ λ€μν νκ° ν¨μλ₯Ό μ μμ μΌλ‘ νμ©νμ¬ μ΅μ’ κ²°κ³ΌλΏλ§ μλλΌ μ곡κ°μ μ΄ν΄λμ μΆλ‘ κ³Όμ μ νμ§κΉμ§ νκ°ν¨μΌλ‘μ¨ μμ΄μ νΈμ μ±λ₯μ νκΈ°μ μΌλ‘ ν₯μμν΅λλ€.
β’
SFT ν κ°ννμ΅λ§μΌλ‘λ μμ΄μ νΈκ° λΉμ μμ μΈ μ루μ μΌλ‘ μλ ΄νλ κ²½ν₯μ΄ μμμ 보μ¬μ£Όλ©°, μ¨λΌμΈ κ²μ¦μ νμμ±μ μ μ¦ν©λλ€.
β’
Argosλ 보μ ν΄νΉμ μ€μ΄κ³ , νλ ν μ΅μ μ± κ°λ μ ν΅ν΄ μ΄λ‘ μ ν¨κ³Όλ₯Ό λ·λ°μΉ¨ν©λλ€.
PDF 보기
Made with Slashpage