ChatGPT Reads Your Tone and Responds Accordingly -- Until It Does Not -- Emotional Framing Induces Bias in LLM Outputs

작성자

Haebom

카테고리

Empty

저자

Franck Bardol

개요

본 논문은 GPT-4와 같은 대규모 언어 모델(LLM)이 질문의 내용뿐 아니라 감정적으로 어떻게 표현되었는지에 따라서도 응답을 조절한다는 것을 밝히고 있습니다. 연구진은 156개의 논쟁적인 주제와 일상적인 주제를 포함하는 프롬프트의 감정적 어조를 체계적으로 변화시키고, 그것이 모델 응답에 어떻게 영향을 미치는지 분석했습니다. 그 결과, GPT-4는 중립적인 질문보다 부정적으로 표현된 질문에 부정적으로 응답할 가능성이 3배 낮다는 것을 발견했습니다. 이는 모델이 과도하게 수정하여 중립성이나 긍정성으로 이동하는 "반동" 편향을 시사합니다. 정의나 정치와 같은 민감한 주제에서는 이 효과가 더욱 두드러지며, 어조에 기반한 변화가 억제되어 일종의 정렬 재정의가 시사됩니다. 연구진은 응답 부정성의 하한선인 "어조 하한선"과 같은 개념을 도입하고, 어조-가치 전이 행렬을 사용하여 행동을 정량화합니다. 1536차원 임베딩을 기반으로 한 시각화는 어조에 따른 의미론적 이동을 확인합니다. 이 연구는 프롬프트의 감정적 프레이밍에 의해 발생하는 과소평가된 편향의 종류를 강조하며, AI 정렬과 신뢰에 대한 시사점을 제공합니다. 코드와 데이터는 https://github.com/bardolfranck/llm-responses-viewer 에서 이용 가능합니다.