haebom
Sign In
ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Wanghan Xu, Yuhao Zhou, Hengyuan Zhao, Shuo Li, Dianzhi Yu, Zhenfei Yin, Yaowen Hu, Fengli Xu, Wanli Ouyang, Wenlong Zhang, Lei Bai
π‘ κ°μ
λ³Έ μ°κ΅¬λ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ΄ μ¬μ©μμ λΉνμ μλͺ»λ λ°©ν₯μΌλ‘ μ νλλ λ¬Έμ , μ¦ μ²μμλ μ λ΅μ μ μνμ§λ§ λΉν μ΄ν νλ¦° λ΅λ³μΌλ‘ μ νλλ νμμ μ£Όλͺ©ν©λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μ΅μ’ λ΅λ³μ μ νμ±λ³΄λ€λ ν΄ κ°μ μ νλ μ νμ ν΅μ¬ λ¬Έμ λ‘ μ€μ νκ³ , μ΄λ₯Ό ν΄κ²°νλ μ ν μΈμ κ°ν νμ΅ νλ μμν¬μΈ ReCritμ μ μν©λλ€. ReCritμ ν¨κ³Όμ μΈ μμ κ³Ό λ§Ήλͺ©μ μΈ μΆμ’ μ ꡬλΆνκ³ , κ³Όνμ μΆλ‘ μμ LLMμ μ λ’°μ±μ λμ΄λ λ° κΈ°μ¬ν©λλ€.
π μμ¬μ λ° νκ³
β’
μ ν μΈμ κ°ν νμ΅μ μ€μμ±
: κ³Όνμ μΆλ‘ μμ LLMμ μ±λ₯μ λ¨μν μ΅μ’ λ΅λ³μ μ νμ±λΏλ§ μλλΌ, μ¬μ©μμ λΉνμ μΌλ§λ μ μ μνκ³ μ νλλ₯Ό μ μ§νλμ§μ λ¬λ €μμ΅λλ€. ReCritμ μ΄λ¬ν μ ν κ³Όμ μ λͺ νν μΈμνκ³ νμ΅νλ κ²μ μ€μμ±μ μ μ¦νμ΅λλ€.
β’
λ§Ήλͺ©μ μΆμ’ (Sycophancy) λ°©μ§ λ° κ²¬κ³ μ± ν보
: ReCritμ μ μ©ν μμ κ³Ό λ§Ήλͺ©μ μΈ μΆμ’ μ ꡬλΆνμ¬, LLMμ΄ μλͺ»λ λΉνμλ νλ€λ¦¬μ§ μκ³ κ²¬κ³ μ±μ μ μ§νλλ‘ λμ΅λλ€. μ΄λ κ³Όνμ μΆλ‘ μ μ λ’°λλ₯Ό λμ΄λ λ° νμμ μ λλ€.
β’
μ€μ©μ μΈ μνΈμμ© νλ ¨
: λμ λΉλκΈ° λ‘€μμκ³Ό 꼬리 μ μ μλ£ κΈ°λ²μ ν΅ν΄ μνΈμμ© νλ ¨μ ν¨μ¨μ±μ λμ¬, μ€μ μ μ© κ°λ₯μ±μ νλνμ΅λλ€.
β’
λ°μ΄ν° ν¨μ¨μ± λ° μΌλ°ν
: ReCritμ νν, 물리, μ§κ΅¬κ³Όν λ± λ€μν κ³Όνμ μΆλ‘ λ²€μΉλ§ν¬μμ μ±λ₯ ν₯μμ 보μ¬, μ μλ λ°©λ²λ‘ μ μΌλ°ν κ°λ₯μ±μ μμ¬ν©λλ€.
PDF 보기
Made with Slashpage