Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning
Created by
Haebom
Category
Empty
저자
Anh Tong, Thanh Nguyen-Tang, Dongeun Lee, Duc Nguyen, Toan Tran, David Hall, Cheongwoong Kang, Jaesik Choi
개요
본 논문은 Transformer 아키텍처 기반의 대규모 언어 모델(LLM)의 내부 동작을 이해하기 위한 새로운 접근법으로, 고도로 유연한 비자율 신경 상미분 방정식(ODE)을 이용하여 Transformer 아키텍처를 모델링하는 방법을 제시합니다. 제안된 모델은 신경망을 통해 어텐션 및 피드포워드 블록의 모든 가중치를 매개변수화하여, 이러한 가중치를 연속적인 레이어 인덱스의 함수로 표현합니다. 모델 역학의 스펙트럼 분석을 통해 기존 이론 연구에서 널리 퍼져있는 가중치 공유 가정에 도전하는 고유값 크기의 증가를 발견하였습니다. 또한, Lyapunov 지수를 활용하여 토큰 수준의 민감도를 검토하여 모델의 해석력을 향상시켰습니다. 제안된 신경 ODE Transformer는 다양한 구성 및 데이터셋에서 기존 Transformer와 비슷하거나 더 나은 성능을 보이며, 다양한 아키텍처 제약 조건에 적응할 수 있는 유연한 미세 조정 기능을 제공합니다.
시사점, 한계점
•
시사점:
◦
Transformer 아키텍처에 대한 새로운 모델링 접근법 제시 (비자율 신경 상미분 방정식 활용)