Sign In

Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Hyunji Nam, Haoran Li, Natasha Jaques

πŸ’‘ κ°œμš”

λ³Έ 논문은 μΆ”κ°€ 데이터 없이 LLM의 μ„±λŠ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄ ν”„λ‘¬ν”„νŠΈμ™€ 응닡 κ°„μ˜ μƒν˜Έ μ •λ³΄λŸ‰μ„ μ΅œλŒ€ν™”ν•˜λŠ” μƒˆλ‘œμš΄ 방법둠인 MIPO (Mutual Information Preference Optimization)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. MIPOλŠ” μ˜¬λ°”λ₯Έ ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•œ 긍정적 응닡과 λ¬΄μž‘μœ„ ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•œ 뢀정적 응닡을 μƒμ„±ν•˜μ—¬ μ„ ν˜Έλ„ μŒμ„ κ΅¬μΆ•ν•˜κ³ , 이λ₯Ό 톡해 LLM의 ν”„λ‘¬ν”„νŠΈ-응닡 μƒν˜Έ μ •λ³΄λŸ‰μ„ κ·ΉλŒ€ν™”ν•˜λŠ” ν•™μŠ΅μ„ μˆ˜ν–‰ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, MIPOλŠ” 특히 κ°œμΈν™” νƒœμŠ€ν¬μ—μ„œ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ³΄μ˜€μœΌλ©°, μΆ”κ°€ λ°μ΄ν„°λ‚˜ μ™ΈλΆ€ 감독 없이도 검증 κ°€λŠ₯ν•œ μ˜μ—­μ—μ„œλ„ μœ μ˜λ―Έν•œ μ„±λŠ₯ κ°œμ„ μ„ κ°€μ Έμ™”μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ™ΈλΆ€ λ°μ΄ν„°λ‚˜ 감독 없이 LLM 자체의 μ‹ ν˜Έλ§ŒμœΌλ‘œ μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” μƒˆλ‘œμš΄ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
κ°œμΈν™”λΏλ§Œ μ•„λ‹ˆλΌ μˆ˜ν•™, 객관식 μ§ˆμ˜μ‘λ‹΅κ³Ό 같은 검증 κ°€λŠ₯ν•œ μ˜μ—­μ—μ„œλ„ MIPO의 효과λ₯Ό ν™•μΈν•˜μ—¬ 적용 λ²”μœ„λ₯Ό λ„“ν˜”μŠ΅λ‹ˆλ‹€.
β€’
MIPOκ°€ μƒμ„±ν•˜λŠ” 뢀정적 μ‘λ‹΅μ˜ ν’ˆμ§ˆμ΄ μƒν˜Έ μ •λ³΄λŸ‰ μ΅œλŒ€ν™” 및 μ„±λŠ₯ ν–₯상에 λ―ΈμΉ˜λŠ” 영ν–₯을 더 깊이 λΆ„μ„ν•˜κ³ , 뢀정적 응닡 생성 μ „λž΅μ„ μ΅œμ ν™”ν•˜λŠ” 것이 ν–₯ν›„ κ³Όμ œμž…λ‹ˆλ‹€.
πŸ‘