Sign In

Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context

Created by
  • Haebom
Category
Empty

저자

Taejong Joo, Diego Klabjan

개요

Transformer 모델은 파라미터 업데이트 없이 데모에 의존하여 새로운 작업에 적응하는 놀라운 문맥 내 학습(ICL) 능력을 보여주었습니다. ICL이 일반적인 학습자로서 작업별 모델보다 성능이 우수할 수 있다는 실증적, 이론적 증거가 있지만, ICL이 원리 기반 학습 알고리즘에 비해 문맥 내에서 얼마나 최적으로 학습하는지는 불분명합니다. 이 문제를 조사하기 위해, 각 프롬프트가 계층적 분포에서 도출된 대상 함수를 정의하는 독특한 회귀 작업을 정의하는 메타 ICL 프레임워크를 사용했습니다. 이 프레임워크 내에서, 베이즈 최적 추정기를 포함한 원리 기반 학습 알고리즘과 비교하여 ICL의 샘플 복잡성을 다양한 성능 요구 사항 하에서 벤치마킹했습니다.

시사점, 한계점

ICL은 처음에는 베이즈 최적 추정기의 효율성과 일치하지만, 긴 문맥에서는 효율성이 크게 저하됩니다.
정보 이론적 분석을 통해 효율성 감소가 ICL에 내재되어 있음을 보였습니다.
ICL을 보편적인 문제 해결사로 채택할 때의 트레이드오프를 명확히 했습니다.
효율성 감소 없이, 즉석에서 적응하는 새로운 방식의 동기 부여가 필요합니다.
👍