본 연구는 생성자와 예측자가 협력적으로 훈련되는 자기 합리화 프레임워크를 조사합니다. 생성자는 원시 입력에서 가장 유익한 부분을 추출하고, 예측자는 선택된 부분집합을 입력으로 사용합니다. 하지만 이러한 협력적 게임은 합리화 추출 과정에서 의도치 않은 표본 편향을 유발할 수 있다는 점을 밝힙니다. 구체적으로 생성자는 원래 데이터셋에서 의미적으로 관련이 없더라도 선택된 합리화 후보와 레이블 간에 잘못된 상관관계를 만들 수 있습니다. 이러한 편향의 기원을 이론적 분석과 실험적 증거를 통해 설명하고, 공격 기반 상관관계 검사 방법 및 예측자가 상관관계를 학습하지 못하도록 하는 지침을 제시합니다. 여섯 개의 텍스트 분류 데이터셋과 두 개의 그래프 분류 데이터셋, 그리고 세 가지 네트워크 아키텍처(GRUs, BERT, GCN)를 사용한 실험을 통해 제안된 방법이 최근의 합리화 방법들을 능가하며, 대표적인 LLM(llama3.1-8b-instruct)과 비교 가능하거나 더 나은 결과를 달성함을 보여줍니다.