Sign In

PRL: Prompts from Reinforcement Learning

Created by
  • Haebom
Category
Empty

μ €μž

Pawe{\l} Batorski, Adrian Kosmala, Paul Swoboda

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 λŠ₯λ ₯을 μ΅œλŒ€ν•œ ν™œμš©ν•˜κΈ° μœ„ν•œ 핡심 과제인 효과적인 ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ κ°•ν™”ν•™μŠ΅(RL) 기반의 μžλ™ ν”„λ‘¬ν”„νŠΈ 생성 방법둠인 PRL(Prompts from Reinforcement Learning)을 μ œμ•ˆν•©λ‹ˆλ‹€. PRL은 ν›ˆλ ¨ 쀑에 보지 λͺ»ν–ˆλ˜ μƒˆλ‘œμš΄ few-shot 예제λ₯Ό 생성할 수 μžˆλ‹€λŠ” μ μ—μ„œ κΈ°μ‘΄ 방법둠과 μ°¨λ³„ν™”λ©λ‹ˆλ‹€. ν…μŠ€νŠΈ λΆ„λ₯˜, λ‹¨μˆœν™”, μš”μ•½ λ“± λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ μ΅œμ²¨λ‹¨ μ„±λŠ₯을 λ‹¬μ„±ν•˜λ©°, 특히 λΆ„λ₯˜ μž‘μ—…μ—μ„œ APE 및 EvoPrompt λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€κ³ , μš”μ•½ 및 λ‹¨μˆœν™” μž‘μ—…μ—μ„œλ„ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 κΈ°λ‘ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 잠재λ ₯을 λŒμ–΄λ‚΄κΈ° μœ„ν•œ 효과적인 ν”„λ‘¬ν”„νŠΈ 생성을 μžλ™ν™”ν•˜λŠ” μƒˆλ‘œμš΄ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
인간이 μΈμ§€ν•˜κΈ° μ–΄λ €μš΄ λ―Έλ¬˜ν•œ 의미둠적 λ‹¨μ„œλ₯Ό ν™œμš©ν•˜μ—¬ LLM의 λ™μž‘μ„ 효과적으둜 μœ λ„ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ μ μš©μ„± 검증이 ν–₯ν›„ 과제둜 λ‚¨μ•„μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘