본 논문은 두 팔 베르누이 밴딧(TABB) 과제에서 인간 행동이 긍정적 편향과 확인 편향으로 설명된다는 기존 연구에 대해 재검토한다. 연구진은 주관적인 베이즈 추론을 통해 에이전트가 신념을 업데이트하더라도, 비대칭 학습률을 가진 표준 Q-러닝 모델을 적용하면 여전히 두 가지 편향이 나타난다는 것을 발견했다. 베이즈 추론을 효과적인 Q-러닝 알고리즘으로 해석하면, 학습률은 감소하지만 대칭적이다. 마스터 방정식을 이용한 확률적 동역학 분석을 통해 확인 편향과 편향되지 않은 감소하는 학습률이 동일한 행동적 특징을 생성함을 보였다. 마지막으로, 감소하는 학습률의 인공물과 진정한 인지적 편향을 구분하기 위한 실험적 프로토콜을 제안한다.