Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Compute-Optimal Many-Shot In-Context Learning

Created by
  • Haebom

저자

Shahriar Golchin, Yanfei Chen, Rujun Han, Manan Gandhi, Tianli Yu, Swaroop Mishra, Mihai Surdeanu, Rishabh Agarwal, Chen-Yu Lee, Tomas Pfister

개요

본 논문은 수백만 토큰까지 처리 가능한 장문맥 대규모 언어 모델(LLM)에서 다수 샷 학습(many-shot ICL) 시, 효율적인 데모 선택 전략을 제안합니다. 기존의 무작위 데모 선택 방식은 추론 비용이 높고, 성능 향상이 제한적이라는 문제점을 가지고 있습니다. 본 논문에서는 테스트 샘플과 유사한 소수의 데모와 캐싱된 다수의 무작위 데모를 결합하는 방법과, k-means 클러스터링을 이용하여 테스트 샘플 표현의 중심점을 기반으로 데모를 선택하는 두 가지 전략을 제시합니다. Gemini Pro와 Flash 모델을 사용한 실험 결과, 제안된 전략은 무작위 선택보다 성능이 우수하며, 기존 최고 성능의 선택 방식과 비슷하거나 뛰어난 성능을 보이는 동시에 추론 비용을 최대 10배까지 줄일 수 있음을 보여줍니다. 또한, 서로 다른 기준에 따라 데모 선택 비율을 조정하여 성능과 추론 비용 간의 균형을 맞출 수 있음을 확인했습니다.

시사점, 한계점

시사점:
다수 샷 학습에서 데모 선택 전략을 개선하여 성능 향상과 추론 비용 절감을 동시에 달성할 수 있음을 보여줌.
제안된 두 가지 전략은 간단하고 구현이 용이하며, 실제 적용 가능성이 높음.
데모 선택 비율 조정을 통해 성능과 추론 비용 간의 트레이드오프를 효과적으로 관리할 수 있음.
한계점:
제안된 전략의 효과는 특정 LLM과 데이터셋에 국한될 수 있음.
더 다양한 LLM과 데이터셋에 대한 추가적인 실험이 필요함.
k-means 클러스터링 등의 방법에 대한 매개변수 조정이 성능에 영향을 미칠 수 있음.
👍