Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MiMu: Mitigating Multiple Shortcut Learning Behavior of Transformers

Created by
  • Haebom

저자

Lili Zhao, Qi Liu, Wei Chen, Liyi Chen, Ruijun Sun, Min Hou, Yang Wang, Shijin Wang

개요

본 논문은 경험적 위험 최소화(ERM) 모델이 학습 과정에서 특징과 레이블 간의 허위 상관관계에 의존하여 단축 학습(shortcut learning) 행동을 보임으로써 강건한 일반화 성능을 저해하는 문제를 다룹니다. 기존 연구는 주로 단일 단축 학습을 식별하거나 완화하는 데 초점을 맞추었지만, 실제 시나리오에서는 데이터 내 단서가 다양하고 알 수 없습니다. 본 논문은 실증 연구를 통해 모델이 다양한 정도로 여러 단축 학습에 의존함을 밝히고, 특히 강력한 단축 학습에 더 많이 의존할수록 일반화 능력이 저하됨을 보여줍니다. 이러한 문제를 해결하기 위해, 본 논문은 Transformer 기반 ERM에 통합된 새로운 방법인 MiMu를 제안합니다. MiMu는 다중 단축 학습 행동을 완화하기 위해 자체 보정 전략과 자체 개선 전략을 통합합니다. 소스 모델에서는 자체 보정 전략을 통해 모델이 단축 학습에 의존하지 않고 과도한 예측을 하지 않도록 합니다. 타겟 모델에서는 자체 개선 전략을 통해 여러 단축 학습에 대한 의존도를 줄입니다. 임의 마스크 전략은 부분적인 어텐션 위치를 임의로 마스킹하여 특정 영역에 집중하는 대신 타겟 모델의 초점을 다양화합니다. 동시에 적응형 어텐션 정렬 모듈은 사후 어텐션 맵이나 감독 없이 보정된 소스 모델과 어텐션 가중치를 정렬합니다. 자연어 처리(NLP)와 컴퓨터 비전(CV)에 대한 광범위한 실험을 통해 MiMu가 강건한 일반화 능력을 향상시키는 효과를 보여줍니다.

시사점, 한계점

시사점:
다양한 단축 학습에 대한 모델의 의존성을 밝히고 이를 완화하는 새로운 방법인 MiMu 제안.
자체 보정 및 자체 개선 전략을 통해 단축 학습 문제 해결에 대한 새로운 접근 방식 제시.
NLP와 CV 분야에서 MiMu의 효과를 실험적으로 검증.
단축 학습 문제 해결을 위한 새로운 연구 방향 제시.
한계점:
MiMu의 성능이 특정 데이터셋이나 모델 아키텍처에 의존할 가능성.
다양한 종류의 단축 학습에 대한 일반화 성능 평가 필요.
실제 응용 분야에서의 MiMu 적용 및 효과에 대한 추가 연구 필요.
자체 보정 및 자체 개선 전략의 매개변수 조정에 대한 추가적인 연구가 필요할 수 있음.
👍