Sign In

Compute Aligned Training: Optimizing for Test Time Inference

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Adam Ousherovitch, Ambuj Tewari

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 ν…ŒμŠ€νŠΈ μ‹œμ  μΆ”λ‘  μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ ν›ˆλ ¨ λͺ©ν‘œλ₯Ό ν…ŒμŠ€νŠΈ μ‹œμ  μ „λž΅κ³Ό μΌμΉ˜μ‹œν‚€λŠ” 'Compute Aligned Training' 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. 기쑴의 SFT 및 RL 방식이 κ°œλ³„ μƒ˜ν”Œμ˜ κ°€λŠ₯성을 μ΅œμ ν™”ν•˜λŠ” 것과 달리, μ œμ•ˆλœ 방법은 μΆ”λ‘  μ „λž΅μ„ κΈ°λ³Έ 정책에 λŒ€ν•œ μ—°μ‚°μžλ‘œ κ°œλ…ν™”ν•˜μ—¬ ν•΄λ‹Ή μ „λž΅ 적용 μ‹œ μ„±λŠ₯을 κ·ΉλŒ€ν™”ν•˜λŠ” μƒˆλ‘œμš΄ 손싀 ν•¨μˆ˜λ₯Ό λ„μΆœν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 ν…ŒμŠ€νŠΈ μ‹œμ μ—μ„œμ˜ μ„±λŠ₯ ν–₯상이 ν‘œμ€€ ν›ˆλ ¨ 방식보닀 훨씬 λ›°μ–΄λ‚˜λ‹€λŠ” 것을 κ²½ν—˜μ μœΌλ‘œ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 ν…ŒμŠ€νŠΈ μ‹œμ  μΆ”λ‘  μ „λž΅μ„ ν›ˆλ ¨ 과정에 직접 ν†΅ν•©ν•˜μ—¬ μ‹€μ§ˆμ μΈ μ„±λŠ₯ ν–₯상을 μ΄λŒμ–΄λ‚Ό 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ ν…ŒμŠ€νŠΈ μ‹œμ  μ „λž΅(예: 집계, 필터링)에 맞좰 ν›ˆλ ¨ λͺ©ν‘œλ₯Ό μ‘°μ •ν•¨μœΌλ‘œμ¨ LLM의 λ²”μš©μ„±μ„ 높일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 손싀 ν•¨μˆ˜ 섀계 및 검증이 λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 λ³΅μž‘ν•œ μΆ”λ‘  μ „λž΅μ— λŒ€ν•΄μ„œλ„ ν™•μž₯될 수 μžˆμ„μ§€μ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘