Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Drift No More? Context Equilibria in Multi-Turn LLM Interactions

Created by
  • Haebom
Category
Empty

저자

Vardhan Dongre, Ryan A. Rossi, Viet Dac Lai, David Seunghyun Yoon, Dilek Hakkani-Tur, Trung Bui

개요

본 논문은 대규모 언어 모델(LLM)이 장기간의 대화에서 겪는 문맥 드리프트 현상을 연구하고, 이를 이해하기 위한 동적 프레임워크를 제시한다. 문맥 드리프트를 테스트 모델과 목표 일관성을 유지하는 참조 모델 간의 토큰 수준 예측 분포의 KL 발산으로 정의하고, 복원력과 제어 가능한 개입을 갖는 경계가 있는 확률적 과정으로 해석하는 재귀 모델을 제안한다. 합성 데이터와 $\tau$-Bench와 같은 현실적인 시뮬레이션을 사용하여 실험을 수행하여, 문맥 드리프트가 걷잡을 수 없는 성능 저하가 아닌, 제어 가능한 평형 현상임을 밝힌다.

시사점, 한계점

시사점:
장기간의 대화에서 LLM의 문맥 드리프트는 제어 가능한 평형 현상으로 이해할 수 있다.
간단한 알림 개입을 통해 드리프트를 효과적으로 줄일 수 있다.
제안된 프레임워크는 문맥 드리프트 연구 및 완화의 기초를 제공한다.
한계점:
실험은 합성 데이터 및 시뮬레이션 환경에 국한되어 실제 사용 사례로의 일반화에 한계가 있을 수 있다.
제안된 개입의 효과는 특정 모델 및 작업에 따라 달라질 수 있다.
본 연구는 드리프트의 근본적인 원인을 완전히 규명하지 못할 수 있다.
👍