Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives

Created by
  • Haebom

저자

Xiaoqing Zhang, Ang Lv, Yuhan Liu, Flood Sung, Wei Liu, Jian Luan, Shuo Shang, Xiuying Chen, Rui Yan

개요

본 논문은 대규모 언어 모델(LLM)의 몇 번의 시도만으로 학습하는 컨텍스트 내 학습(ICL)에서, 시도 횟수가 증가함에 따라 성능이 정체되거나 저하되는 현상을 다룹니다. 이 현상의 주요 원인으로 부적절한 음의 로그 우도(NLL) 최적화 목표와 증가하는 데이터 노이즈를 지적합니다. 이를 해결하기 위해, 차별화된 학습과 가중치 재조정을 통해 모델 성능을 향상시키는 새로운 최적화 방법인 DrICL을 제시합니다. DrICL은 전역적으로는 차별화된 학습을 통해 NLL 목표를 최적화하여 다수 시도 성능을 제로샷 수준을 능가하도록 하고, 국소적으로는 강화 학습에서 영감을 받은 누적 이점을 활용하여 다수 시도 데모의 가중치를 동적으로 조정하여 노이즈 데이터의 영향을 완화합니다. 또한, 다양한 다수 시도 분포를 가진 다중 작업 데이터셋의 부족을 인식하여, 1~350회의 시도 횟수를 포함하는 최대 8,000 토큰의 시퀀스를 다루는 50개 작업의 대규모 벤치마크인 Many-Shot ICL Benchmark(ICL-50)를 개발합니다. 실험 결과, DrICL을 통해 향상된 LLM은 다양한 작업에서 다수 시도 설정에서 상당한 성능 향상을 달성함을 보여줍니다. 코드와 데이터셋을 공개하여 다수 시도 ICL에 대한 추가 연구를 촉진하고자 합니다.

시사점, 한계점

시사점:
LLM의 다수 시도 ICL 성능 저하 문제에 대한 새로운 해결책(DrICL) 제시.
차별화된 학습과 가중치 재조정을 통한 효과적인 최적화 전략 제안.
다수 시도 ICL 연구를 위한 대규모 벤치마크(ICL-50) 제공.
다수 시도 설정에서 LLM 성능을 상당히 향상시킴을 실험적으로 입증.
코드와 데이터셋 공개를 통한 연구 활성화.
한계점:
ICL-50 벤치마크의 일반화 가능성에 대한 추가 검증 필요.
DrICL의 성능이 특정 유형의 작업이나 데이터에 편향될 가능성.
다수 시도 ICL에 대한 더욱 심도있는 이론적 분석 필요.
👍