Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prior Prompt Engineering for Reinforcement Fine-Tuning

Created by
  • Haebom

저자

Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul

개요

본 논문은 강화 학습 미세 조정(Reinforcement Fine-Tuning, RFT)에서 사전 프롬프트 엔지니어링(Prior Prompt Engineering, pPE)의 효과를 조사합니다. 기존 RFT 연구는 주로 알고리즘, 보상 설계, 데이터 관리에 초점을 맞춘 반면, pPE, 즉 훈련 중 질의 앞에 추가되는 지침(예: 단계별 추론 유도)의 설계는 충분히 연구되지 않았습니다. 본 논문에서는 다양한 pPE 접근 방식이 RFT 후 LMs(Language Models)에 서로 다른 행동을 내재화하도록 유도할 수 있는지 조사합니다. 추론 시 프롬프트 엔지니어링(Inference-time Prompt Engineering, iPE)에서 사용되는 다섯 가지 전략(추론, 계획, 코드 기반 추론, 지식 회상, null-example 활용)을 pPE로 변환하여 Qwen2.5-7B 모델에 적용하고, AIME2024, HumanEval+, GPQA-Diamond 등의 벤치마크에서 성능을 평가합니다. 실험 결과, 모든 pPE 훈련 모델이 iPE 프롬프트 모델보다 우수한 성능을 보였으며, 특히 null-example pPE 접근 방식이 가장 큰 성능 향상을 달성하고 AIME2024 및 GPQA-Diamond에서 가장 높은 성능 향상을 보였습니다. 또한 행동 분류 프레임워크를 활용하여 서로 다른 pPE 전략이 모델에 서로 다른 행동 스타일을 심어준다는 것을 보여줍니다.

시사점, 한계점

시사점:
pPE가 RFT의 중요한 요소임을 밝힘.
다양한 iPE 전략을 pPE로 적용하여 모델 성능 향상 가능성을 제시.
null-example pPE 접근 방식의 우수성을 증명.
pPE가 모델의 행동 스타일을 제어하는 데 효과적임을 보임.
향후 RFT 연구에서 pPE의 중요성을 강조.
한계점:
특정 모델(Qwen2.5-7B)과 벤치마크에 대한 결과이므로 일반화에 한계가 있음.
다른 LMs나 다른 RFT 알고리즘에 대한 추가 연구가 필요.
pPE 전략 간의 상호 작용 및 최적 조합에 대한 추가 연구가 필요.
pPE의 계산 비용 및 효율성에 대한 분석이 부족.
👍