haebom
Sign In
ESTAR: Early-Stopping Token-Aware Reasoning For Efficient Inference
Created by
Haebom
Category
Empty
μ μ
Junda Wang, Zhichao Yang, Dongxu Zhang, Sanjit Singh Batra, Robert E. Tillman
π‘ κ°μ
λκ·λͺ¨ μΆλ‘ λͺ¨λΈ(LRM)μ κΈ΄ μ¬κ³ κ³Όμ (chain-of-thought)μ μμ±νμ¬ λμ μ±λ₯μ λ¬μ±νμ§λ§, μ΄λ―Έ μ λ΅μ λλ¬ν νμλ λΆνμν μΆλ‘ μ μννμ¬ μ°μ°μ λλΉνλ κ²½μ°κ° λ§μ΅λλ€. λ³Έ λ Όλ¬Έμ ESTAR(Early-Stopping for Token-Aware Reasoning)λ₯Ό μ μνμ¬ μ΄λ¬ν μΆλ‘ μ μ€λ³΅μ±μ νμ§νκ³ μ€μμΌλ‘μ¨ μ νλλ₯Ό ν¬μνμ§ μμΌλ©΄μ ν¨μ¨μ±μ κ°μ ν©λλ€.
π μμ¬μ λ° νκ³
β’
μΆλ‘ κ³Όμ μμ λ μ΄μ μ λ³΄κ° νμ μλ€κ³ νλ¨λλ©΄ μ‘°κΈ°μ μ€λ¨νλ λ©μ»€λμ¦μ LRMμ μΆλ‘ ν¨μ¨μ±μ ν¬κ² ν₯μμν¬ μ μμ΅λλ€.
β’
μ μλ ESTARλ μ νλλ₯Ό μ μ§νλ©΄μλ μΆλ‘ κΈΈμ΄λ₯Ό μ½ 3.7λ°° κ°μμν€λ ν¨κ³Όλ₯Ό 보μμΌλ©°, μ΄λ μ€μ§μ μΈ μ°μ°λ κ°μλ‘ μ΄μ΄μ§λλ€.
β’
ESTARλ λ€μν μΆλ‘ μμ μ κ±Έμ³ μ°μν μΌλ°ν μ±λ₯μ 보μ¬, LRMμ ν¨μ¨μ± κ°μ μ μν λ²μ©μ μΈ λ°©λ²λ‘ μΌλ‘ νμ©λ μ μμ΅λλ€.
β’
ν₯ν κ³Όμ λ‘λ λ€μν κ·λͺ¨μ μ’ λ₯μ LRMμ λν ESTARμ μ μ© κ°λ₯μ±μ μΆκ°μ μΌλ‘ νμνκ³ , λμ± μ κ΅ν μ‘°κΈ° μ€λ¨ μμ νμ§ λ° λ³΄μ 체κ³λ₯Ό κ°λ°νλ κ²μ΄ μμ΅λλ€.
PDF 보기
Made with Slashpage