Sign In

Are More Tokens Rational? Inference-Time Scaling in Language Models as Adaptive Resource Rationality

Created by
  • Haebom
Category
Empty

μ €μž

Zhimin Hu, Riya Roshan, Sashank Varma

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  μ‹œ κ³„μ‚°λŸ‰ ν™•μž₯이 μžμ› 합리성을 μœ λ°œν•˜λŠ”μ§€μ— λŒ€ν•΄ νƒκ΅¬ν•©λ‹ˆλ‹€. 특히, λͺ…λ Ήμ–΄ νŠœλ‹(IT) λͺ¨λΈκ³Ό κ°•ν™” ν•™μŠ΅ 기반의 λŒ€κ·œλͺ¨ μΆ”λ‘  λͺ¨λΈ(LRM)을 λŒ€μƒμœΌλ‘œ, λͺ…μ‹œμ μΈ 계산 λΉ„μš© 보상 없이도 νƒœμŠ€ν¬ λ³΅μž‘μ„±μ— 따라 μΆ”λ‘  μ „λž΅μ΄ λ³€ν™”ν•˜λŠ” 것을 κ΄€μ°°ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 μΆ”λ‘  μ‹œκ°„ ν™•μž₯이 μžμ› 합리성을 λ‚΄μž¬μ μœΌλ‘œ λ°œν˜„μ‹œν‚¬ 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM은 νƒœμŠ€ν¬μ˜ λ³΅μž‘μ„±μ— 따라 μ—°μ‚° μ „λž΅μ„ λ™μ μœΌλ‘œ μ‘°μ ˆν•˜λ©°, μ΄λŠ” λͺ…μ‹œμ μΈ λΉ„μš© 보상 없이도 λ‚˜νƒ€λ‚˜λŠ” μžμ› ν•©λ¦¬μ„±μ˜ μ¦κ±°μž…λ‹ˆλ‹€.
β€’
LRM은 IT λͺ¨λΈλ³΄λ‹€ XOR 및 XNOR ν•¨μˆ˜μ™€ 같이 λ³΅μž‘ν•œ 논리 ν•¨μˆ˜μ— λŒ€ν•΄ 더 κ°•κ±΄ν•œ μΆ”λ‘  λŠ₯λ ₯을 λ³΄μž…λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” νŠΉμ • νƒœμŠ€ν¬μ— κ΅­ν•œλ˜μ—ˆμœΌλ―€λ‘œ, λ‹€μ–‘ν•œ λ³΅μž‘μ„±κ³Ό μ œμ•½ 쑰건 ν•˜μ—μ„œμ˜ κ΄‘λ²”μœ„ν•œ μΆ”λ‘  νƒœμŠ€ν¬μ— λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘