Towards Compute-Optimal Many-Shot In-Context Learning
Created by
Haebom
저자
Shahriar Golchin, Yanfei Chen, Rujun Han, Manan Gandhi, Tianli Yu, Swaroop Mishra, Mihai Surdeanu, Rishabh Agarwal, Chen-Yu Lee, Tomas Pfister
개요
본 논문은 수백만 토큰까지 처리 가능한 장문맥 대규모 언어 모델(LLM)에서 다수 샷 학습(many-shot ICL) 시, 효율적인 데모 선택 전략을 제안합니다. 기존의 무작위 데모 선택 방식은 추론 비용이 높고, 성능 향상이 제한적이라는 문제점을 가지고 있습니다. 본 논문에서는 테스트 샘플과 유사한 소수의 데모와 캐싱된 다수의 무작위 데모를 결합하는 방법과, k-means 클러스터링을 이용하여 테스트 샘플 표현의 중심점을 기반으로 데모를 선택하는 두 가지 전략을 제시합니다. Gemini Pro와 Flash 모델을 사용한 실험 결과, 제안된 전략은 무작위 선택보다 성능이 우수하며, 기존 최고 성능의 선택 방식과 비슷하거나 뛰어난 성능을 보이는 동시에 추론 비용을 최대 10배까지 줄일 수 있음을 보여줍니다. 또한, 서로 다른 기준에 따라 데모 선택 비율을 조정하여 성능과 추론 비용 간의 균형을 맞출 수 있음을 확인했습니다.
시사점, 한계점
•
시사점:
◦
다수 샷 학습에서 데모 선택 전략을 개선하여 성능 향상과 추론 비용 절감을 동시에 달성할 수 있음을 보여줌.
◦
제안된 두 가지 전략은 간단하고 구현이 용이하며, 실제 적용 가능성이 높음.
◦
데모 선택 비율 조정을 통해 성능과 추론 비용 간의 트레이드오프를 효과적으로 관리할 수 있음.