Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Multifaceted Analysis of Negative Bias in Large Language Models through the Lens of Parametric Knowledge

Created by
  • Haebom
Category
Empty

저자

Jongyoon Song, Sangwon Yu, Sungroh Yoon

개요

본 논문은 대규모 언어 모델(LLM)이 이진 결정 작업(예: 예/아니요 질문 응답)에서 과도하게 부정적인 응답을 생성하는 경향인 부정 편향을 연구한다. 기존 연구는 부정 편향을 유발하는 부정적 어텐션 헤드 감지에 집중했지만, 본 연구는 LLM이 부정적 응답의 의미보다 프롬프트 형식에 더 많은 영향을 받는 형식 수준의 부정 편향을 보인다는 것을 밝혀냈다. 모델의 매개변수 지식을 기반으로 데이터 세트를 분류하여 평가 세트를 구성하는 파이프라인을 도입하고, 모델이 질문에 답할 충분한 지식이 없을 때 부정적인 응답을 생성하는 지름길 행동을 식별했다. 관련 컨텍스트 제공 및 "모르겠습니다" 옵션 제공은 부정 편향을 줄이는 반면, 사고 과정 프롬프트는 편향을 증폭시키는 경향이 있음을 확인했다. 또한, 프롬프트 유형에 따라 부정 편향의 정도가 달라짐을 보였다.

시사점, 한계점

LLM의 부정 편향이 프롬프트 형식에 크게 영향을 받음을 밝힘.
모델의 지식 부족이 부정 편향을 유발하는 주요 원인임을 확인.
관련 컨텍스트 제공과 "모르겠습니다" 옵션은 부정 편향 감소에 효과적.
사고 과정 프롬프팅은 부정 편향을 악화시킬 수 있음.
부정 편향 정도는 프롬프트 유형에 따라 달라짐.
평가 세트 구성 파이프라인을 제시하여 부정 편향 연구에 기여.
부정 편향 완화를 위한 추가 연구 및 개선 필요.
👍