haebom
Sign In
Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models
Created by
Haebom
Category
Empty
μ μ
Shiting Huang, Zecheng Li, Yu Zeng, Qingnan Ren, Zhen Fang, Qisheng Su, Kou Shi, Lin Chen, Zehui Chen, Feng Zhao
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΆλ‘ λ₯λ ₯ ν₯μμ μν κ°ννμ΅(RLVR) λ°©λ²λ‘ μ νκ³μ μ μ§μ ν©λλ€. κΈ°μ‘΄ RLVRμ μ€λ₯μ μμΈμ νμ νκ³ κ²½νμ λ΄μ¬ννλ λ©ν νμ΅ κ³Όμ μ΄ λΆμ‘±νμ¬ μΈλ°ν μ μ© ν λΉκ³Ό μ¬μ¬μ© κ°λ₯ν μ§μ νμ±μ μ μ½μ΄ μλ€λ μ μ λ°κ²¬νμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄, μ μλ€μ κ³Όκ±° μ€λ₯μμ νμλ μ¬μ¬μ© κ°λ₯ν μ§μμΈ "λ©ν κ²½ν"μ λͺ¨λΈμ νλΌλ―Έν° λ©λͺ¨λ¦¬μ ν΅ν©νλ μλ‘μ΄ νλ μμν¬μΈ Meta-Experience Learning (MEL)μ μ μν©λλ€.
π μμ¬μ λ° νκ³
β’
MELμ LLMμ μκΈ° κ²μ¦ λ₯λ ₯μ νμ©νμ¬ μ¬λ°λ₯Έ μΆλ‘ κ²½λ‘μ μ€λ₯κ° λ°μν κ²½λ‘λ₯Ό λμ‘° λΆμνκ³ , μ΄λ₯Ό μΌλ°ν κ°λ₯ν λ©ν κ²½νμΌλ‘ μμ½ν©λλ€.
β’
μμ½λ λ©ν κ²½νμ λͺ¨λΈμ νλΌλ―Έν° λ©λͺ¨λ¦¬μ ν΅ν©λμ΄, μ¬λ°λ₯Έ μΆλ‘ κ³Ό μλͺ»λ μΆλ‘ μ¬μ΄μ 격차λ₯Ό ν΄μνκ³ ν¨κ³Όμ μΈ μ§μ μ¬μ¬μ©μ μ΄μ§ν©λλ€.
β’
μ€ν κ²°κ³Ό, MELμ λ€μν λͺ¨λΈ ν¬κΈ°μμ μΌκ΄μ μΌλ‘ 3.92%~4.73%μ Pass@1 μ±λ₯ ν₯μμ λ³΄μ¬ LLMμ μΆλ‘ λ₯λ ₯μ ν¬κ² κ°μ ν¨μ μ μ¦νμ΅λλ€.
β’
ν₯ν κ³Όμ λ‘λ λ©ν κ²½νμ νμ΅νλ κ³Όμ μμ λ°μν μ μλ μΆκ°μ μΈ λ³΅μ‘μ±μ΄λ, λ€μν μ’ λ₯μ μ€λ₯μ λν λ©ν κ²½ν νμ΅μ μΌλ°ν κ°λ₯μ±μ νꡬνλ κ²μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage