haebom
Sign In
Dynamic-TreeRPO: Breaking the Independent Trajectory Bottleneck with Structured Sampling
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Xiaolong Fu, Lichen Ma, Zipeng Guo, ShiPing Dong, Lan Yang, Tan Lit Sin, Gaojing Zhou, Yu He, Jingling Fu, Shizhe Zhou, Junshi Huang, Jason Li
π‘ κ°μ
λ³Έ λ Όλ¬Έμ ν μ€νΈ-μ΄λ―Έμ§ μμ±μμ κ°ννμ΅(RL) κΈ°λ°μ νλ¦ λ§€μΉ λͺ¨λΈμ΄ κ²ͺλ νμ ν¨μ¨μ± λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ 'Dynamic-TreeRPO'λ₯Ό μ μνλ€. μ΄ λ°©λ²λ‘ μ μ¬λΌμ΄λ© μλμ° μνλ§μ νΈλ¦¬ ꡬ쑰 κ²μμΌλ‘ νμ₯νκ³ , κ° κΉμ΄μ λ°λΌ λμ μΌλ‘ λ Έμ΄μ¦ κ°λλ₯Ό μ‘°μ νλ λ°©μμ μ¬μ©νλ€. μ΄λ₯Ό ν΅ν΄ κ³μ° μ€λ²ν€λλ₯Ό μ€μ΄λ©΄μλ νμ λ€μμ±μ λμ΄κ³ , SFTμ RLμ ν΅ν©ν 'LayerTuning-RL'μ ν΅ν΄ νμ΅ ν¨μ¨μ±μ κ°μ νμ¬ μμ± νμ§κ³Ό μ¬λ μ νΈλ μΌμΉλλ₯Ό ν₯μμμΌ°λ€.
π μμ¬μ λ° νκ³
β’
ν μ€νΈ-μ΄λ―Έμ§ μμ±μμ RLμ νμ λ³λͺ© νμμ νΈλ¦¬ ꡬ쑰 μνλ§κ³Ό λμ λ Έμ΄μ¦ μ‘°μ μ ν΅ν΄ ν¨κ³Όμ μΌλ‘ ν΄κ²°ν μ μμμ 보μ¬μ€λ€.
β’
SFTμ RL ν¨λ¬λ€μμ λμ μΌλ‘ ν΅ν©νλ LayerTuning-RL μ κ·Ό λ°©μμ κΈ°μ‘΄μ λ³λ μ¬μ νμ΅ λ°©λ² λλΉ ν¨μ¨μ±κ³Ό μ±λ₯μ ν₯μμν¨λ€.
β’
μ μλ λ°©λ²μ κΈ°μ‘΄ μ΅μ λͺ¨λΈ λλΉ μμ± νμ§, μλ―Έλ‘ μ μΌκ΄μ±, μ¬λ μ νΈλ μΌμΉλμμ μλΉν μ±λ₯ ν₯μμ 보μμΌλ©°, νμ΅ ν¨μ¨μ± λν ν¬κ² κ°μ λμλ€.
β’
νΈλ¦¬ ꡬ쑰 κ²μ λ° λμ λ Έμ΄μ¦ κ°λ μ€κ³μ λν μΆκ°μ μΈ μ΅μ νμ μΌλ°μ μΈ νλ¦ λ§€μΉ λͺ¨λΈμ λν μ μ© κ°λ₯μ± νμμ΄ ν₯ν κ³Όμ κ° λ μ μλ€.
PDF 보기
Made with Slashpage