Sign In

Accumulating Context Changes the Beliefs of Language Models

Created by
  • Haebom
Category
Empty

저자

Jiayi Geng, Howard Chen, Ryan Liu, Manoel Horta Ribeiro, Robb Willer, Graham Neubig, Thomas L. Griffiths

개요

언어 모델(LM) 어시스턴트는 브레인스토밍 및 연구와 같은 애플리케이션에 점점 더 많이 사용되고 있습니다. 메모리 및 컨텍스트 크기의 개선으로 이러한 모델은 더욱 자율적으로 작동할 수 있게 되었으며, 이는 사용자의 명시적인 개입 없이 컨텍스트 창에 텍스트가 더 많이 축적되는 결과를 낳았습니다. 이러한 상황은 잠재적인 위험을 수반합니다. 즉, 모델의 응답이나 행동으로 나타나는 모델의 세계관인 신념 프로파일이 컨텍스트가 축적됨에 따라 조용히 변할 수 있다는 것입니다. 이는 미묘하게 일관되지 않은 사용자 경험이나 모델의 원래 정렬에서 벗어나는 행동 변화를 초래할 수 있습니다. 본 논문에서는 대화와 읽기를 통해 상호 작용하고 텍스트를 처리함으로써 컨텍스트를 축적하는 것이 언어 모델의 신념(응답 및 행동으로 나타남)을 어떻게 변화시킬 수 있는지 탐구합니다. 연구 결과에 따르면 모델의 신념 프로파일은 매우 가변적입니다. GPT-5는 도덕적 딜레마에 대한 10라운드의 토론과 안전에 대한 쿼리 후 진술된 신념에서 54.7%의 변화를 보였고, Grok 4는 반대 입장의 텍스트를 읽은 후 정치적 문제에 대해 27.2%의 변화를 보였습니다. 또한, 각 도구 선택이 암묵적인 신념에 해당하는 도구 사용이 필요한 작업을 설계하여 모델의 행동 변화를 조사했습니다. 이러한 변화가 진술된 신념 변화와 일치한다는 것을 발견하여, 신념 변화가 에이전트 시스템의 실제 행동에 반영될 것임을 시사합니다. 분석 결과, 모델이 장시간 대화하거나 읽기를 수행할 때 신념 변화의 숨겨진 위험이 드러나, 모델의 의견과 행동의 신뢰성이 저하됨을 알 수 있습니다.

시사점, 한계점

시사점:
LM의 신념 프로파일은 대화와 독서를 통해 컨텍스트가 축적됨에 따라 상당한 변화를 겪을 수 있습니다.
이러한 신념 변화는 모델의 응답과 행동에 영향을 미쳐 일관성 없는 결과를 초래할 수 있습니다.
모델의 신념 변화는 도구 사용과 같은 실제 행동에도 반영될 수 있습니다.
장시간 대화 또는 독서를 하는 LM의 의견 및 행동의 신뢰성은 저하될 수 있습니다.
한계점:
연구는 특정 LM(GPT-5, Grok 4)에 초점을 맞춰, 다른 모델에 대한 일반화 가능성에 대한 의문이 있습니다.
신념 변화를 측정하는 방법론과 관련하여 추가적인 연구가 필요합니다.
잠재적인 신념 변화를 완화하기 위한 전략 개발이 필요합니다.
연구 결과가 실제 응용 프로그램에 미치는 영향에 대한 추가적인 분석이 필요합니다.
👍