λ³Έ λ
Όλ¬Έμ μΈμ΄ λͺ¨λΈμ μΆλ‘ μ μ λ ¬(inference-time alignment)μ λ리 μ¬μ©λλ Best-of-N (BoN) μνλ§ κΈ°λ²μ ν΅κ³μ μ΅μ μ±μ λν΄ μ¬κ³ νλ€. κΈ°μ‘΄ μ΄λ‘ μ°κ΅¬μ λ¬λ¦¬ μ€μ μ μ© μ¬λ‘λ₯Ό λ μ λ°μνλ κ°μ νμμ, BoNμ΄ μΉλ₯ (win-rate) μΈ‘λ©΄μμ μ΅μ μμ μ
μ¦νλ©° μ€μ©μ μ±κ³΅μ μ΄μ λ₯Ό μ€λͺ
νλ€. λν, 보μ ν΄νΉ(reward hacking)μ μ κ±°νλ©΄μλ ν΅κ³μ μ±λ₯μ μ μ§νλ BoNμ κ°μ λ λ³νμ μ μνλ€.