Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Anchors in the Machine: Behavioral and Attributional Evidence of Anchoring Bias in LLMs

Created by
  • Haebom
Category
Empty

저자

Felipe Valencia-Clavijo

개요

본 논문은 대규모 언어 모델(LLM)에서 관찰되는 인지 편향이 표면적인 모방인지, 더 깊은 확률 변화인지를 밝히기 위해 앵커링 편향을 연구합니다. 앵커링 편향은 고전적인 인간 판단 편향으로, LLM의 내부 메커니즘과 기여도를 탐구하는 데 중점을 둡니다. 논문은 (1) 로그 확률 기반 행동 분석, (2) Shapley 값 기여 분석, (3) 앵커링 편향 민감도 점수를 활용하여 앵커링 효과를 측정합니다. Gemma-2B, Phi-2, Llama-2-7B에서 앵커링 효과가 확인되었으며, 앵커가 재가중치에 영향을 미침을 밝혔습니다. 또한 모델 규모에 따른 민감도 차이와 프롬프트 디자인에 따른 기여 효과의 변동성을 확인했습니다.

시사점, 한계점

시사점:
LLM에서 앵커링 편향이 강력하게 나타남을 입증.
앵커링 편향의 메커니즘과 기여도를 정량적으로 분석.
행동 및 기여 분석을 통합한 새로운 평가 지표(Anchoring Bias Sensitivity Score) 제시.
LLM의 안전성 및 해석 가능성 연구에 기여.
다른 인지 편향 연구에도 적용 가능한 프레임워크 제시.
한계점:
모델 규모에 따라 앵커링 편향 민감도에 차이가 존재.
프롬프트 디자인에 따라 기여 효과가 달라지는 취약성.
LLM을 인간 대체물로 취급하는 것에 대한 주의 필요성.
👍