MiMu: Mitigating Multiple Shortcut Learning Behavior of Transformers
Created by
Haebom
저자
Lili Zhao, Qi Liu, Wei Chen, Liyi Chen, Ruijun Sun, Min Hou, Yang Wang, Shijin Wang
개요
본 논문은 경험적 위험 최소화(ERM) 모델이 학습 과정에서 특징과 레이블 간의 허위 상관관계에 의존하여 단축 학습(shortcut learning) 행동을 보임으로써 강건한 일반화 성능을 저해하는 문제를 다룹니다. 기존 연구는 주로 단일 단축 학습을 식별하거나 완화하는 데 초점을 맞추었지만, 실제 시나리오에서는 데이터 내 단서가 다양하고 알 수 없습니다. 본 논문은 실증 연구를 통해 모델이 다양한 정도로 여러 단축 학습에 의존함을 밝히고, 특히 강력한 단축 학습에 더 많이 의존할수록 일반화 능력이 저하됨을 보여줍니다. 이러한 문제를 해결하기 위해, 본 논문은 Transformer 기반 ERM에 통합된 새로운 방법인 MiMu를 제안합니다. MiMu는 다중 단축 학습 행동을 완화하기 위해 자체 보정 전략과 자체 개선 전략을 통합합니다. 소스 모델에서는 자체 보정 전략을 통해 모델이 단축 학습에 의존하지 않고 과도한 예측을 하지 않도록 합니다. 타겟 모델에서는 자체 개선 전략을 통해 여러 단축 학습에 대한 의존도를 줄입니다. 임의 마스크 전략은 부분적인 어텐션 위치를 임의로 마스킹하여 특정 영역에 집중하는 대신 타겟 모델의 초점을 다양화합니다. 동시에 적응형 어텐션 정렬 모듈은 사후 어텐션 맵이나 감독 없이 보정된 소스 모델과 어텐션 가중치를 정렬합니다. 자연어 처리(NLP)와 컴퓨터 비전(CV)에 대한 광범위한 실험을 통해 MiMu가 강건한 일반화 능력을 향상시키는 효과를 보여줍니다.
시사점, 한계점
•
시사점:
◦
다양한 단축 학습에 대한 모델의 의존성을 밝히고 이를 완화하는 새로운 방법인 MiMu 제안.
◦
자체 보정 및 자체 개선 전략을 통해 단축 학습 문제 해결에 대한 새로운 접근 방식 제시.