haebom
Sign In
Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics
Created by
Haebom
Category
Empty
μ μ
Leheng Sheng, Wenchang Ma, Ruixin Hong, Xiang Wang, An Zhang, Tat-Seng Chua
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΆλ‘ λ₯λ ₯ ν₯μμ μν΄ μ€μν μν μ νλ Chain-of-Thought(CoT) μΆλ‘ μ ν¨κ³Όμ μΌλ‘ 보μνλ λ°©λ²λ‘ μ μ΄λ €μμ μ£Όλͺ©ν©λλ€. κΈ°μ‘΄ λ°©μμ μΈκ°μ λ§μ λ μ΄λΈλ§ λ Έλ ₯μ΄ νμνλ©°, κ³ μ λ 보μ λͺ¨λΈμ CoT λΆν¬μ λ³νλ 보μ ν΄νΉμ μ·¨μ½νλ€λ λ¨μ μ κ°μ§λλ€. μ΄μ μ μλ€μ μΈκ°μ μ£Όμ μμ΄λ μ€μ€λ‘ λ°μ νλ μμ¨μ μΈ CoT 보μ λ°©μμ μ μνλ©°, μ΄λ₯Ό ν΅ν΄ κΈ°μ‘΄μ κ²°κ³Ό μ€μ¬ κ°ν νμ΅ κΈ°λ²μ λ₯κ°νλ μ±λ₯μ λ¬μ±ν©λλ€.
π μμ¬μ λ° νκ³
β’
μΈκ° μ£Όμ μμ΄λ CoT μΆλ‘ μ ν¨κ³Όμ μΌλ‘ 보μν μ μλ μμ¨μ μΈ λ°©λ²λ‘ (RLCER)μ μ μν©λλ€.
β’
μ€μ€λ‘ μ μνκ³ λ°μ νλ 루λΈλ¦(rubrics)μ ν΅ν΄ CoT μΆλ‘ μ λν μ λ’°ν μ μλ μ§λ μ νΈλ₯Ό μ 곡ν©λλ€.
β’
μ μλ λ°©λ²λ‘ μ κ²°κ³Ό μ€μ¬ κ°ν νμ΅ κΈ°λ²λ³΄λ€ μ°μν μ±λ₯μ 보μ΄λ©°, ν둬ννΈ ννΈλ‘ μ¬μ©λ κ²½μ° μΆλ‘ μμ μ±λ₯λ ν₯μμν΅λλ€.
β’
νμ¬ μ°κ΅¬λ CoT μΆλ‘ μ νμ§μ νκ°νκΈ° μν 루λΈλ¦ μμ± λ° μ§ν λ©μ»€λμ¦μ μΌλ°ν κ°λ₯μ± λ° λ€μν μΆλ‘ μμ μ λν μ μ© λ²μλ₯Ό μΆκ°μ μΌλ‘ νμν΄μΌ ν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage