Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Demonstration Selection for In-Context Learning via Reinforcement Learning

Created by
  • Haebom

저자

Xubin Wang, Jianfei Wu, Yichen Yuan, Deyu Cai, Mingzhe Li, Weijia Jia

개요

본 논문은 소수 샷 프롬프팅 시나리오에서 텍스트 분류 및 추론과 같은 인 컨텍스트 학습(ICL)에 적합한 작업을 위한 다양한 참조 데모 선택을 최적화하기 위해 강화 학습(RL) 프레임워크를 활용하는 새로운 접근 방식인 Relevance-Diversity Enhanced Selection (RDES)을 제시합니다. RDES는 Q-학습 및 PPO 기반 변형과 같은 프레임워크를 사용하여 다양성(레이블 분포로 정량화)과 작업 목표와의 관련성을 모두 극대화하는 데모를 동적으로 식별합니다. 이 전략은 참조 데이터의 균형 잡힌 표현을 보장하여 정확성과 일반화 성능을 향상시킵니다. 다양한 추론 작업을 포함한 여러 벤치마크 데이터 세트에 대한 광범위한 실험을 통해 RDES가 10개의 기존 기준선보다 성능을 크게 향상시킨다는 것을 보여줍니다. 평가에는 선택된 데이터 세트에서 다양한 수의 데모에 대한 성능 분석이 포함됩니다. 또한, Chain-of-Thought(CoT) 추론을 통합하여 예측 성능을 더욱 향상시키는 것을 조사합니다. 결과는 RL이 적응형 데모 선택 및 ICL의 과제 해결에 잠재력이 있음을 강조합니다.

시사점, 한계점

시사점:
강화학습을 활용한 다양성 및 관련성을 고려한 데모 선택 방법(RDES) 제시
다양한 데이터셋과 LLM에서 기존 방법 대비 성능 향상 확인
CoT 추론과의 결합을 통한 추가적인 성능 향상 확인
소수 샷 학습 환경에서의 ICL 성능 향상에 대한 새로운 가능성 제시
한계점:
제시된 방법의 계산 비용 및 효율성에 대한 추가적인 분석 필요
다양한 작업 및 데이터셋에 대한 일반화 성능에 대한 추가적인 연구 필요
RDES의 다양성 측정 지표 및 관련성 평가 방식에 대한 추가적인 검토 필요
사용된 LLM이 모두 closed-source 또는 open-source로 접근성 제한이 있을 수 있음. 더욱 다양하고 포괄적인 LLM에 대한 실험이 필요함.
👍