Sign In

ESTAR: Early-Stopping Token-Aware Reasoning For Efficient Inference

Created by
  • Haebom
Category
Empty

μ €μž

Junda Wang, Zhichao Yang, Dongxu Zhang, Sanjit Singh Batra, Robert E. Tillman

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μΆ”λ‘  λͺ¨λΈ(LRM)은 κΈ΄ 사고 κ³Όμ •(chain-of-thought)을 μƒμ„±ν•˜μ—¬ 높은 μ„±λŠ₯을 λ‹¬μ„±ν•˜μ§€λ§Œ, 이미 정닡에 λ„λ‹¬ν•œ 후에도 λΆˆν•„μš”ν•œ 좔둠을 μˆ˜ν–‰ν•˜μ—¬ 연산을 λ‚­λΉ„ν•˜λŠ” κ²½μš°κ°€ λ§ŽμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 ESTAR(Early-Stopping for Token-Aware Reasoning)λ₯Ό μ œμ•ˆν•˜μ—¬ μ΄λŸ¬ν•œ μΆ”λ‘ μ˜ 쀑볡성을 νƒμ§€ν•˜κ³  μ€„μž„μœΌλ‘œμ¨ 정확도λ₯Ό ν¬μƒν•˜μ§€ μ•ŠμœΌλ©΄μ„œ νš¨μœ¨μ„±μ„ κ°œμ„ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μΆ”λ‘  κ³Όμ •μ—μ„œ 더 이상 정보가 ν•„μš” μ—†λ‹€κ³  νŒλ‹¨λ˜λ©΄ 쑰기에 μ€‘λ‹¨ν•˜λŠ” λ©”μ»€λ‹ˆμ¦˜μ€ LRM의 μΆ”λ‘  νš¨μœ¨μ„±μ„ 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ ESTARλŠ” 정확도λ₯Ό μœ μ§€ν•˜λ©΄μ„œλ„ μΆ”λ‘  길이λ₯Ό μ•½ 3.7λ°° κ°μ†Œμ‹œν‚€λŠ” 효과λ₯Ό λ³΄μ˜€μœΌλ©°, μ΄λŠ” μ‹€μ§ˆμ μΈ μ—°μ‚°λŸ‰ κ°μ†Œλ‘œ μ΄μ–΄μ§‘λ‹ˆλ‹€.
β€’
ESTARλŠ” λ‹€μ–‘ν•œ μΆ”λ‘  μž‘μ—…μ— 걸쳐 μš°μˆ˜ν•œ μΌλ°˜ν™” μ„±λŠ₯을 보여, LRM의 νš¨μœ¨μ„± κ°œμ„ μ„ μœ„ν•œ λ²”μš©μ μΈ λ°©λ²•λ‘ μœΌλ‘œ ν™œμš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ κ³Όμ œλ‘œλŠ” λ‹€μ–‘ν•œ 규λͺ¨μ™€ μ’…λ₯˜μ˜ LRM에 λŒ€ν•œ ESTAR의 적용 κ°€λŠ₯성을 μΆ”κ°€μ μœΌλ‘œ νƒμƒ‰ν•˜κ³ , λ”μš± μ •κ΅ν•œ μ‘°κΈ° 쀑단 μ‹œμ  탐지 및 보상 체계λ₯Ό κ°œλ°œν•˜λŠ” 것이 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘