본 논문은 강화학습 기반의 새로운 프롬프트 생성 방법인 PRL(Prompts from Reinforcement Learning)을 제시합니다. 기존의 프롬프트 엔지니어링은 전문가의 직관과 섬세한 이해를 필요로 하지만, PRL은 학습 과정에서 보지 못한 새로운 몇-샷 예시를 생성할 수 있습니다. 텍스트 분류, 단순화, 요약 작업에서 기존 방법들(APE, EvoPrompt)보다 우수한 성능을 달성하며, 특히 분류 작업에서는 APE보다 2.58%, EvoPrompt보다 1.00% 향상된 성능을 보였고, 요약 작업에서는 평균 ROUGE 점수를 APE보다 4.32, EvoPrompt보다 2.12 향상시켰으며, 단순화 작업에서는 SARI 점수를 APE보다 6.93, EvoPrompt보다 6.01 향상시켰습니다. 코드는 깃허브에 공개되어 있습니다.