본 논문은 최근 대규모 언어 모델(LLM)이 추론 과정에서 여전히 편향성을 활용하여 일반화 성능이 저하될 수 있다는 점을 지적합니다. 기존의 일반화 성능 평가 벤치마크는 각 데이터에 하나의 편향만 포함하는 반면, 실제 응용에서는 하나의 데이터에 여러 유형의 편향이 존재할 수 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 각 데이터에 다섯 가지 유형의 편향을 포함하는 다중 편향 벤치마크를 제안합니다. 기존 LLM과 편향 제거 방법을 이 벤치마크로 평가한 결과, 여러 유형의 편향을 동시에 제거하는 데 어려움이 있음을 보였습니다. 따라서, 본 논문은 인과 효과 추정을 기반으로 하는 다중 편향 제거 방법(CMBE)을 제안합니다. CMBE는 여러 유형의 편향의 인과 효과를 동시에 추정하고, 추론 과정에서 의미 정보와 편향이 미치는 총 인과 효과에서 편향의 인과 효과를 제거합니다. 실험 결과, CMBE가 여러 유형의 편향을 효과적으로 동시에 제거하여 LLM의 일반화 성능을 향상시킬 수 있음을 보여줍니다.