# Soft-TransFormers for Continual Learning

### 저자

Haeyong Kang, Chang D. Yoo

### 💡 개요

본 연구는 사전 학습된 트랜스포머 모델의 가중치를 고정한 채, 태스크 적응을 위한 파라미터 효율적인 지속 학습 프레임워크인 Soft-Transformer(Soft-TF)를 제안합니다. Soft-TF는 명시적인 프롬프트나 어댑터 대신, 셀프 어텐션 메커니즘의 키, 쿼리, 값, 출력 투영에 적용되는 실수형 마스크를 학습하여 태스크별로 부드럽고 안정적인 적응을 가능하게 합니다.

### 🔑 시사점 및 한계

- 기존의 프롬프트 기반, 어댑터 기반, LoRA 방식보다 뛰어난 성능을 보이면서도 적은 수의 추가 파라미터만을 요구하는 효율적인 지속 학습 기법을 제시합니다.

- 학습된 실수형 마스크를 통해 기존 지식을 보존하고 치명적 망각을 효과적으로 완화하는 동시에, 부드럽고 안정적인 태스크 적응을 달성합니다.

- 학습된 실수형 마스크의 해석 가능성 및 다양한 트랜스포머 아키텍처로의 일반화 가능성에 대한 추가 연구가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2411.16073)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
