Sign In

Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment

Created by
  • Haebom
Category
Empty

μ €μž

Hsiang Hsu, Eric Lei, Chun-Fu Chen

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  μ‹œμ  μ •λ ¬μ—μ„œ λ°œμƒν•˜λŠ” 낙관적(reward hacking λ°œμƒ κ°€λŠ₯) 및 비관적(탐색 λΆ€μ‘±) μ „λž΅μ˜ 근본적인 λ”œλ ˆλ§ˆλ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ 보상 λΆ„ν¬μ˜ 꼬리 νŠΉμ„±μ— 따라 졜적 μ „λž΅μ΄ 달라짐을 이둠적으둜 규λͺ…ν•˜κ³ , Tsallis λ°œμ‚°μ„ 쑰절 κ°€λŠ₯ν•œ μ •κ·œν™” ν•­μœΌλ‘œ μ‚¬μš©ν•˜λŠ” μ μ‘ν˜• ν”„λ ˆμž„μ›Œν¬μΈ Best-of-Tails (BoT)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. BoTλŠ” ν”„λ‘¬ν”„νŠΈλ³„λ‘œ 보상 꼬리 λΆ„ν¬μ˜ 무거움을 λ™μ μœΌλ‘œ ν‰κ°€ν•˜κ³  탐색과 μ •λ ¬ 였λ₯˜ κ°„μ˜ κ· ν˜•μ„ μ‘°μ ˆν•˜μ—¬ μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ •κ·œν™” ν•­μ˜ 꼬리 뢄포 μ˜μ‘΄μ„±μ„ 톡해 낙관적 및 비관적 μΆ”λ‘  μ‹œμ  μ •λ ¬ μ „λž΅μ˜ κ· ν˜•μ„ λ™μ μœΌλ‘œ 맞좜 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
Tsallis λ°œμ‚°κ³Ό Hill μΆ”μ •κΈ°λ₯Ό ν™œμš©ν•˜μ—¬ ν”„λ‘¬ν”„νŠΈλ³„λ‘œ 보상 λͺ¨λΈμ˜ 신뒰도λ₯Ό ν‰κ°€ν•˜κ³ , 탐색 λ²”μœ„λ₯Ό μ‘°μ ˆν•¨μœΌλ‘œμ¨ LLM의 μΆ”λ‘  μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ BoT ν”„λ ˆμž„μ›Œν¬λŠ” μˆ˜ν•™, 객관식 μΆ”λ‘ , 인간 μ„ ν˜Έλ„ 평가 λ“± λ‹€μ–‘ν•œ νƒœμŠ€ν¬μ—μ„œ 기쑴의 κ³ μ • μ „λž΅ 기반 방법둠보닀 λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€.
β€’
보상 λͺ¨λΈμ˜ μ •ν™•μ„±κ³Ό 꼬리 뢄포 μΆ”μ •μ˜ μ•ˆμ •μ„±μ΄ BoT ν”„λ ˆμž„μ›Œν¬μ˜ μ„±λŠ₯에 μ€‘μš”ν•œ 영ν–₯을 λ―ΈμΉ  수 μžˆμŠ΅λ‹ˆλ‹€. ν–₯ν›„ 보상 λͺ¨λΈμ˜ λΆˆν™•μ‹€μ„±μ„ 더 효과적으둜 λ‹€λ£¨λŠ” λ°©μ•ˆμ— λŒ€ν•œ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘