Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Token Masking Improves Transformer-Based Text Classification

Created by
  • Haebom

저자

Xianglong Xu, John Bowen, Rojin Taheri

개요

Transformer 기반 모델의 텍스트 분류 성능 향상을 위해 입력 토큰 마스킹 기법을 제안합니다. 제안하는 토큰 마스킹 정규화는 입력 토큰을 확률 p로 특수 토큰 [MASK]로 임의로 대체하는 간단하지만 이론적으로도 타당한 방법입니다. 이는 훈련 중 확률적 섭동을 도입하여 암묵적인 그래디언트 평균화를 유도하고, 모델이 더 깊은 토큰 간 의존성을 포착하도록 장려합니다. 다양한 모델(mBERT, Qwen2.5-0.5B, TinyLlama-1.1B)을 사용한 언어 식별 및 감정 분석 실험에서 표준 정규화 기법보다 일관된 성능 향상을 보였으며, p = 0.1이 일반적인 기본값으로 적합함을 확인했습니다. 성능 향상은 (1) 입력 섭동에 의한 과적합 감소 및 (2) 그래디언트 수준의 평활화에 의한 암묵적 앙상블 효과 두 가지로 설명합니다.

시사점, 한계점

시사점:
토큰 마스킹 정규화는 Transformer 기반 모델의 텍스트 분류 성능을 향상시키는 간단하고 효과적인 방법임을 제시합니다.
입력 섭동과 그래디언트 평활화라는 두 가지 메커니즘을 통해 과적합을 줄이고 모델 일반화 성능을 향상시킬 수 있음을 보여줍니다.
다양한 모델과 작업에서 일관된 성능 향상을 보임으로써 폭넓은 적용 가능성을 시사합니다.
p=0.1을 기본 마스킹 확률로 제시하여 실제 적용에 대한 가이드라인을 제공합니다.
한계점:
제안된 방법의 효과는 특정 작업과 모델에 따라 다를 수 있으며, 최적의 마스킹 확률은 실험적으로 결정되어야 합니다.
더욱 다양한 작업과 모델에 대한 실험이 필요하며, 대규모 모델에 대한 적용 결과가 추가적으로 제시되어야 합니다.
마스킹 확률 p의 결정에 대한 이론적인 근거가 부족합니다.
다른 정규화 기법과의 비교 분석이 더욱 심도 있게 이루어질 필요가 있습니다.
👍