λ³Έ λ
Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ λ₯λ ₯μ μ΅λν νμ©νκΈ° μν ν΅μ¬ κ³Όμ μΈ ν¨κ³Όμ μΈ ν둬ννΈ μμ§λμ΄λ§ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ κ°ννμ΅(RL) κΈ°λ°μ μλ ν둬ννΈ μμ± λ°©λ²λ‘ μΈ PRL(Prompts from Reinforcement Learning)μ μ μν©λλ€. PRLμ νλ ¨ μ€μ λ³΄μ§ λͺ»νλ μλ‘μ΄ few-shot μμ λ₯Ό μμ±ν μ μλ€λ μ μμ κΈ°μ‘΄ λ°©λ²λ‘ κ³Ό μ°¨λ³νλ©λλ€. ν
μ€νΈ λΆλ₯, λ¨μν, μμ½ λ± λ€μν λ²€μΉλ§ν¬μμ μ΅μ²¨λ¨ μ±λ₯μ λ¬μ±νλ©°, νΉν λΆλ₯ μμ
μμ APE λ° EvoPrompt λλΉ μ°μν μ±λ₯μ 보μκ³ , μμ½ λ° λ¨μν μμ
μμλ μλΉν μ±λ₯ ν₯μμ κΈ°λ‘νμ΅λλ€.