Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Don't Think of the White Bear: Ironic Negation in Transformer Models Under Cognitive Load

Created by
  • Haebom
Category
Empty

저자

Logan Mann, Nayan Saxena, Sarah Tandon, Chenhao Sun, Savar Toteja, Kevin Zhu

개요

본 논문은 'X를 언급하지 마시오'와 같은 부정 지시가 인간 사고에서 역설적으로 X의 접근성을 증가시키는 '반동적 반등' 현상을 대규모 언어 모델(LLM)에서도 확인하고, 이를 연구한 결과를 제시한다. 두 가지 실험을 통해 부정 지시 후 방해 텍스트(의미적, 구문적, 반복적)에 따른 반등 강도를 측정하고, 모델이 중립적/부정적 프레이밍을 구분하는 능력이 반등 지속성에 미치는 영향을 분석했다. 또한, 회로 추적 분석을 통해 반등 현상을 일으키는 메커니즘을 밝히고, LLM에서 반등 현상을 탐구하기 위한 데이터셋 ReboundBench를 공개한다.

시사점, 한계점

부정 지시 직후 반등 현상이 일관되게 발생하며, 방해 텍스트의 종류에 따라 그 강도가 달라짐.
의미적 또는 긴 방해 텍스트는 반등을 강화하고, 반복적인 텍스트는 억제를 지원함.
모델의 극성 분리 능력이 클수록 반등 현상이 오래 지속됨.
회로 추적 분석을 통해 반등을 일으키는 메커니즘을 규명함. (초기 레이어는 억제, 중간 레이어는 증폭)
ReboundBench 데이터셋을 통해 LLM에서의 반등 현상 연구를 지원함.
연구의 한계점은 명시되지 않음.
👍