haebom
Sign In
ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training
Created by
Haebom
Category
Empty
μ μ
Yu Liang, Liangxin Liu, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Daiting Shi
π‘ κ°μ
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΈκ° μ νΈλμ λ§μΆκΈ° μν μμ± λ³΄μ λͺ¨λΈ(GRM)μ λμ ννλ ₯κ³Ό μ μ°μ±μ μ 곡νμ§λ§, λΉμΌ μΈκ° μ£Όμ λ°μ΄ν°μ λΆμμ ν μκΈ° νμ΅μ νκ³λ₯Ό κ°μ§λλ€. λ³Έ λ Όλ¬Έμ μ΄λ¬ν λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μΈκ° μ£Όμ μμ΄λ ν¨κ³Όμ μ΄κ³ μμ μ μΈ GRM νλ ¨μ κ°λ₯νκ² νλ ConsistRM νλ μμν¬λ₯Ό μ μν©λλ€. ConsistRMμ μκ°μ μΌκ΄μ±μ κ°λ μ λ’°ν μ μλ μμ¬ λ μ΄λΈμ μμ±νλ 'μΌκ΄μ± μΈμ λ΅λ³ 보μ'κ³Ό μ¬λ¬ λΉν κ°μ μλ―Έλ‘ μ μΌκ΄μ±μ νκ°νμ¬ λ―ΈμΈνκ³ μ°¨λ³νλ 보μμ ν λΉνλ 'μΌκ΄μ± μΈμ λΉν 보μ'μ λμ ν©λλ€.
π μμ¬μ λ° νκ³
β’
μΈκ° μ£Όμ μμ΄λ GRM νλ ¨μ μμ μ±κ³Ό μ±λ₯μ ν₯μμν¬ μ μλ μλ‘μ΄ μκΈ° νμ΅ νλ μμν¬λ₯Ό μ μν©λλ€.
β’
μ μλ 'μΌκ΄μ± μΈμ' 보μ λ©μ»€λμ¦μ μΆλ ₯ μΌκ΄μ±μ λμ΄κ³ μ λ ₯ μμλ‘ μΈν μμΉ νΈν₯μ μννλ λ° ν¨κ³Όμ μ λλ€.
β’
μ μλ λ°©λ²λ‘ μ κΈ°μ‘΄ μκΈ° νμ΅ κΈ°λ²μ λΆμμ μ± λ° λ³΄μ ν΄νΉ λ¬Έμ λ₯Ό ν΄κ²°ν μ μ¬λ ₯μ κ°μ§λλ€.
β’
ν₯ν μ°κ΅¬μμλ λ€μν LLM μν€ν μ² λ° λ 볡μ‘ν μΈκ° μ νΈλ λ°μ΄ν°μ μ λν ConsistRMμ μΌλ°ν μ±λ₯μ νκ°ν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage