Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Length-Induced Embedding Collapse in PLM-based Models

Created by
  • Haebom

저자

Yuqi Zhou, Sunhao Dai, Zhanshuo Cao, Xiao Zhang, Jun Xu

개요

본 논문은 PLM 기반 모델의 텍스트 임베딩이 긴 텍스트에서 성능 저하를 보이는 현상을 "Length Collapse" 라고 명명하고, 이 현상의 원인과 해결 방안을 제시합니다. Length Collapse는 긴 텍스트의 임베딩이 서로 유사하게 군집화되는 현상으로, 짧은 텍스트와 긴 텍스트 간의 분포 불일치를 야기하여 다운스트림 작업의 성능 저하를 초래합니다. 본 논문에서는 셀프 어텐션 메커니즘이 저주파 필터 역할을 하며, 텍스트 길이가 증가할수록 저주파 필터링이 강화되어 임베딩이 저주파 성분을 더 많이 유지하게 되는 것을 이론적으로 분석합니다. 이로 인해 입력 토큰 특징이 유사해지고, 결국 긴 텍스트의 임베딩이 군집화되는 Length Collapse 현상이 발생합니다. 이 문제를 해결하기 위해, 본 논문에서는 긴 텍스트와 짧은 텍스트 간의 저주파 필터링 속도 차이를 줄이는 TempScale이라는 간단한 방법을 제안합니다. TempScale은 MTEB에서 0.94%, LongEmbed에서 1.10%의 성능 향상을 가져왔습니다.

시사점, 한계점

시사점:
PLM 기반 모델의 텍스트 임베딩에서 발생하는 Length Collapse 현상을 규명하고, 그 원인을 이론적으로 분석하였습니다.
Length Collapse 현상을 완화하는 효과적인 방법인 TempScale을 제시하고, 실험적으로 그 효과를 검증하였습니다.
긴 텍스트 처리 성능 향상에 대한 새로운 방향을 제시합니다.
한계점:
TempScale의 효과가 특정 데이터셋과 작업에 국한될 가능성이 있습니다.
더 다양한 PLM 모델과 다운스트림 작업에 대한 추가적인 실험이 필요합니다.
Length Collapse 현상의 원인 분석이 셀프 어텐션 메커니즘에만 국한되어, 다른 요인들의 영향을 고려하지 않았을 가능성이 있습니다.
👍