본 연구는 생성기와 예측기의 협력 게임으로 구성된 자기 합리화 프레임워크를 조사합니다. 생성기는 원시 입력에서 가장 유익한 부분을 추출하고, 예측기는 선택된 부분집합을 입력으로 사용합니다. 생성기와 예측기는 예측 정확도를 극대화하도록 협력적으로 훈련됩니다. 이 논문에서는 협력 게임이 의도치 않게 합리화 추출 중에 샘플링 편향을 도입할 수 있다는 잠재적인 문제점을 먼저 밝힙니다. 특히, 생성기는 원래 데이터셋에서 의미적으로 관련이 없더라도 선택된 합리화 후보와 레이블 사이에 잘못된 상관관계를 의도치 않게 생성할 수 있습니다. 이어서, 상세한 이론적 분석과 경험적 증거를 사용하여 이러한 편향의 기원을 설명합니다. 연구 결과는 공격을 통해 이러한 상관관계를 검사하는 방향을 제시하며, 이를 바탕으로 예측기가 상관관계를 학습하지 못하도록 하는 지침을 추가로 제시합니다. 세 가지 네트워크 아키텍처(GRUs, BERT, GCN)를 사용하여 6개의 텍스트 분류 데이터셋과 2개의 그래프 분류 데이터셋에 대한 실험을 통해 제안된 방법이 최근의 합리화 방법보다 성능이 훨씬 뛰어날 뿐만 아니라 대표적인 LLM(llama3.1-8b-instruct)과 비슷하거나 더 나은 결과를 달성함을 보여줍니다.