Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Budget-Adaptive Adapter Tuning in Orthogonal Subspaces for Continual Learning in LLMs

Created by
  • Haebom

저자

Zhiyi Wan, Wanrou Du, Liang Li, Miao Pan, Xiaoqi Qin

개요

본 논문은 연속 학습(CL) 시나리오에서 대규모 언어 모델(LLM)의 치명적인 망각 문제를 해결하기 위해 OA-Adapter라는 새로운 매개변수 효율적인 방법을 제안합니다. OA-Adapter는 동적 예산 적응과 직교 부분 공간 학습을 단일 엔드투엔드 훈련 단계에서 통합하여, 변화하는 작업 복잡성과 계층에 따라 효율적인 매개변수 예산을 할당하고 작업 목표를 최적화하는 동적 병목 차원 적응 메커니즘을 도입합니다. 기존 지식을 효과적으로 보존하면서 동적 예산 할당과 조정하기 위해, 현재 작업의 매개변수 부분 공간과 과거 작업의 동적으로 할당된 매개변수 부분 공간 사이에 직교 제약 조건을 적용합니다. 실험 결과, OA-Adapter는 정확도와 매개변수 효율성 면에서 최첨단 방법들을 능가하며, 표준 CL 벤치마크에서 평균 정확도는 높이고 매개변수는 58.5% 적게 사용합니다.

시사점, 한계점

시사점:
연속 학습 시나리오에서 LLM의 치명적인 망각 문제를 효과적으로 완화하는 새로운 방법 제시.
동적 예산 적응과 직교 부분 공간 학습을 통합하여 매개변수 효율성을 향상.
기존 최첨단 방법보다 높은 정확도와 매개변수 효율성 달성.
단일 엔드투엔드 훈련 단계를 통해 최적화와 예산 할당 간의 불일치 문제 해결.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 LLM 아키텍처와 작업 유형에 대한 광범위한 실험 필요.
동적 병목 차원 적응 메커니즘의 최적 파라미터 설정에 대한 추가적인 연구 필요.
특정 벤치마크에 대한 성능 평가 결과이므로 다른 벤치마크에서의 일반화 성능 검증 필요.
👍