haebom
Sign In
ReflectRM: Boosting Generative Reward Models via Self-Reflection within a Unified Judgment Framework
Created by
Haebom
Category
Empty
μ μ
Kai Qin, Liangxin Liu, Yu Liang, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Houde Liu, Daiting Shi
π‘ κ°μ
μ΄ μ°κ΅¬λ μΈκ° νΌλλ°± κΈ°λ° κ°ν νμ΅(RLHF)μμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μ λ ¬ νμ§μ κ²°μ νλ μμ± λ³΄μ λͺ¨λΈ(GRM)μ νκ³λ₯Ό ν΄κ²°ν©λλ€. κΈ°μ‘΄ GRMμ΄ κ²°κ³Όλ§ κ°λ νλ κ²κ³Ό λ¬λ¦¬, μ μλ ReflectRMμ λΆμ κ³Όμ μ νμ§κΉμ§ νκ°νκΈ° μν΄ 'μκΈ° μ±μ°°' λ©μ»€λμ¦μ λμ ν©λλ€. μ΄λ μλ΅ μ νΈλμ λΆμ μ νΈλλ₯Ό ν΅ν©μ μΌλ‘ λͺ¨λΈλ§νμ¬ λ μ ννκ³ μμ μ μΈ λ³΄μ μμΈ‘μ κ°λ₯νκ² ν©λλ€.
π μμ¬μ λ° νκ³
β’
GRM νμ΅μ λΆμ κ³Όμ μ νμ§μ ν΅ν©ν¨μΌλ‘μ¨ LLM μ λ ¬μ μ νμ±κ³Ό μ λ’°μ±μ ν¬κ² ν₯μμν¬ μ μμ΅λλ€.
β’
μκΈ° μ±μ°° λ©μ»€λμ¦μ μλ΅ μ νΈλμ λΆμ μ νΈλμ μνΈ κ°ν ν¨κ³Όλ₯Ό ν΅ν΄ λͺ¨λΈμ μ±λ₯μ λμ± μ¦μ§μν΅λλ€.
β’
ReflectRMμ κΈ°μ‘΄ GRM λλΉ μ¬κ°ν λ¬Έμ μλ μμΉ νΈν₯μ ν¨κ³Όμ μΌλ‘ μννμ¬ λ³΄λ€ μμ μ μΈ νκ°μλ‘μμ μν μ μνν©λλ€.
β’
μ μλ λ°©λ²λ‘ μ νμ΅ λ³΅μ‘μ±κ³Ό κ³μ° λΉμ© μ¦κ° κ°λ₯μ±μ λν μΆκ°μ μΈ νκ΅¬κ° νμνλ©°, λ€μν LLM μν€ν μ² λ° νμ€ν¬μ λν μΌλ°ν μ±λ₯ κ²μ¦μ΄ μꡬλ©λλ€.
PDF 보기
Made with Slashpage