Lizhe Fang, Yifei Wang, Khashayar Gatmiry, Lei Fang, Yisen Wang
개요
본 논문은 자동회귀 대규모 언어 모델의 핵심 기능인 문맥 내 학습(ICL)이 상호 독립성과 무관하게 문맥 예시의 순서에 민감하다는 문제점을 다룹니다. 기존 연구들은 순열 불변성을 달성하는 ICL의 여러 변형 알고리즘을 제시했지만, 표준 자동회귀 ICL 알고리즘과 비교할 만한 성능을 보이지 못했습니다. 본 논문에서는 불변 ICL 알고리즘 설계에서 정보 누출 방지와 문맥 상호 의존성이라는 두 가지 중요한 요소를 밝히고, 이 두 가지 특성을 동시에 만족하는 불변 ICL(InvICL) 방법론을 제안합니다. 실험 결과, InvICL은 다양한 입력 길이에서 우수한 일반화 능력을 보이며 기존의 불변 및 비불변 모델들을 대부분의 벤치마크 데이터셋에서 능가하는 것으로 나타났습니다. 코드는 https://github.com/PKU-ML/InvICL 에서 확인할 수 있습니다.