Investigating Thinking Behaviours of Reasoning-Based Language Models for Social Bias Mitigation

작성자

Haebom

카테고리

Empty

저자

Guoqing Luo, Iffat Maab, Lili Mou, Junichi Yamagishi

💡 개요

본 연구는 추론 기반 대규모 언어 모델(LLM)이 복잡한 작업을 수행할 때 내재된 사고 과정을 통해 사회적 편견을 증폭시키는 현상을 탐구합니다. 두 가지 주요 실패 패턴, 즉 편견 정당화를 위한 고정관념 반복과 편향된 서사를 뒷받침하기 위한 무관한 정보 주입을 발견했습니다. 이를 바탕으로 모델이 자체 추론을 특정 실패 패턴에 대해 검토하도록 유도하는 경량의 프롬프트 기반 완화 방법을 제안합니다.

🔑 시사점 및 한계

•

추론 기반 LLM에서 발생하는 사회적 편견 증폭 메커니즘을 명확히 규명했습니다.

•

편견 완화를 위한 효과적인 프롬프트 기반 접근 방식의 가능성을 제시합니다.

•

제안된 방법론의 효과성을 다양한 벤치마크에서 입증했지만, 실제 복잡한 시나리오에서의 적용 가능성 및 다른 편향 완화 기법과의 비교 연구가 필요합니다.

PDF 보기

Made with Slashpage