Sign In

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

Created by
  • Haebom
Category
Empty

μ €μž

Ved Sriraman, Adam Block

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ–Έμ–΄ λͺ¨λΈμ˜ μΆ”λ‘  μ‹œ μ •λ ¬(inference-time alignment)에 널리 μ‚¬μš©λ˜λŠ” Best-of-N (BoN) μƒ˜ν”Œλ§ κΈ°λ²•μ˜ 톡계적 μ΅œμ μ„±μ— λŒ€ν•΄ μž¬κ³ ν•œλ‹€. κΈ°μ‘΄ 이둠 연ꡬ와 달리 μ‹€μ œ 적용 사둀λ₯Ό 더 잘 λ°˜μ˜ν•˜λŠ” κ°€μ • ν•˜μ—μ„œ, BoN이 승λ₯ (win-rate) μΈ‘λ©΄μ—μ„œ μ΅œμ μž„μ„ μž…μ¦ν•˜λ©° μ‹€μš©μ  μ„±κ³΅μ˜ 이유λ₯Ό μ„€λͺ…ν•œλ‹€. λ˜ν•œ, 보상 ν•΄ν‚Ή(reward hacking)을 μ œκ±°ν•˜λ©΄μ„œλ„ 톡계적 μ„±λŠ₯을 μœ μ§€ν•˜λŠ” BoN의 κ°œμ„ λœ λ³€ν˜•μ„ μ œμ•ˆν•œλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
BoN μƒ˜ν”Œλ§μ€ μ‹€μ œ ν™˜κ²½μ—μ„œ 승λ₯ μ„ κ·ΉλŒ€ν™”ν•˜λŠ” 데 μžˆμ–΄ κ³„μ‚°μ μœΌλ‘œλ‚˜ ν†΅κ³„μ μœΌλ‘œ 졜적일 수 μžˆλ‹€.
β€’
κΈ°μ‘΄ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ μ ‘κ·Ό 방식은 승λ₯ μ„ κ³ λ €ν•  λ•Œ ν†΅κ³„μ μœΌλ‘œ μ°¨μ„ μ±…μž„μ΄ μž…μ¦λ˜μ—ˆλ‹€.
β€’
μ œμ•ˆλœ BoN λ³€ν˜•μ€ 보상 ν•΄ν‚Ή 문제λ₯Ό ν•΄κ²°ν•˜λ©΄μ„œλ„ 졜적의 승λ₯  μ„±λŠ₯을 μœ μ§€ν•œλ‹€.
β€’
보상 λͺ¨λΈμ˜ μ •ν™•μ„±κ³Ό μ°Έμ‘° λͺ¨λΈμ˜ ν’ˆμ§ˆμ΄ BoN의 μ„±λŠ₯에 μ€‘μš”ν•œ 영ν–₯을 λ―ΈμΉœλ‹€.
πŸ‘