Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SeqPE: Transformer with Sequential Position Encoding

Created by
  • Haebom

저자

Huayang Li, Yahui Liu, Hongyu Sun, Deng Cai, Leyang Cui, Wei Bi, Peilin Zhao, Taro Watanabe

개요

본 논문에서는 Transformer의 자기 주의 계층이 순열 불변성을 가지므로 공간적 이해를 위해 위치 인코딩이 필요하다는 점을 지적합니다. 기존의 학습 가능한 위치 임베딩(PE)은 고정 크기의 조회 테이블을 사용하여 사전 학습된 시퀀스 길이를 넘어서는 외삽 능력이 제한적입니다. ALiBi 및 RoPE와 같은 전문가가 설계한 방법은 이러한 한계를 완화하지만 새로운 모달리티에 적응하기 위해 광범위한 수정이 필요하며, 적응성 및 확장성의 근본적인 과제를 강조합니다. 이 연구에서는 각 n차원 위치 인덱스를 기호 시퀀스로 나타내고 경량 순차 위치 인코더를 사용하여 엔드투엔드 방식으로 임베딩을 학습하는 통합적이고 완전히 학습 가능한 위치 인코딩 프레임워크인 SeqPE를 제시합니다. SeqPE의 임베딩 공간을 규제하기 위해, 임베딩 거리를 미리 정의된 위치 거리 함수와 정렬하는 대조적 목표와 분포 외 위치 임베딩을 분포 내 교사 표현에 고정하는 지식 증류 손실이라는 두 가지 상보적인 목표를 도입하여 외삽 성능을 더욱 향상시킵니다. 언어 모델링, 장문맥스트 질의응답 및 2D 이미지 분류에 대한 실험을 통해 SeqPE는 특히 문맥 길이 외삽에서 퍼플렉서티, 정확 일치(EM) 및 정확도에서 강력한 기준 모델을 능가할 뿐만 아니라 수동적인 아키텍처 재설계 없이 다차원 입력으로의 원활한 일반화를 가능하게 함을 보여줍니다. 코드, 데이터 및 체크포인트는 https://github.com/ghrua/seqpe 에서 공개합니다.

시사점, 한계점

시사점:
기존 위치 인코딩 방식의 한계(고정 크기, 모달리티 적응 어려움)를 극복하는 새로운 프레임워크 SeqPE 제시
SeqPE는 다차원 입력에 대한 일반화 성능이 뛰어나며, 수동적인 아키텍처 수정 없이 다양한 모달리티에 적용 가능
장문맥스트 처리에서 기존 방식보다 우수한 성능을 보임 (퍼플렉서티, 정확 일치율 향상)
대조 학습 및 지식 증류를 통한 성능 향상
한계점:
SeqPE의 성능 향상에 기여하는 요소(대조적 목표, 지식 증류)에 대한 추가적인 분석 필요
다양한 크기의 모델과 데이터셋에 대한 추가적인 실험 필요
극도로 긴 시퀀스에 대한 성능 평가 필요
👍