# Mitigating Cognitive Bias in RLHF by Altering Rationality

### 저자

Tiffany Horter, Andrew Markham, Niki Trigoni, Serena Booth

### 💡 개요

본 논문은 인간 피드백 강화 학습(RLHF)에서 발생하는 인지 편향 문제를 해결하기 위해 합리성(rationality) 파라미터인 베타를 동적으로 조정하는 새로운 접근 방식을 제안합니다. 거대 언어 모델(LLM)을 판사로 활용하여 인지 편향의 존재 가능성을 평가하고, 편향되거나 신뢰할 수 없는 판단을 반영하는 비교를 효과적으로 가중치를 낮춤으로써, 편향된 선호도를 가진 데이터셋에서도 더 합리적인 하류 모델을 학습할 수 있음을 보여줍니다.

### 🔑 시사점 및 한계

- RLHF 학습 시 인간 피드백의 불완전성과 인지 편향을 고려하여 합리성 파라미터(베타)를 동적으로 조정하는 것이 중요합니다.

- LLM을 활용하여 편향된 피드백을 식별하고 가중치를 조정함으로써, 더 견고하고 합리적인 보상 모델을 학습할 수 있습니다.

- 본 연구는 편향된 데이터셋에서도 성능 향상을 입증했지만, LLM 판사의 정확성 및 잠재적 편향, 그리고 다양한 인지 편향 유형을 포괄하는 방법에 대한 추가 연구가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.06895)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).