Sign In

CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning

Created by
  • Haebom
Category
Empty

저자

Yibo Yang, Xiaojie Li, Zhongzhu Zhou, Shuaiwen Leon Song, Jianlong Wu, Liqiang Nie, Bernard Ghanem

개요

본 논문은 기존의 Parameter-Efficient Fine-Tuning (PEFT) 방법들이 하위 작업의 맥락이나 유지해야 할 중요한 지식의 맥락을 고려하지 않고 어댑터를 구축하기 때문에 성능 저하 및 catastrophic forgetting 문제가 발생하는 점을 지적합니다. 이를 해결하기 위해, 하위 작업의 맥락이나 유지해야 할 세계 지식을 기반으로 학습 가능한 작업별 어댑터를 구축하는 Context-oriented Decomposition Adaptation (CorDA) 방법을 제안합니다. CorDA는 소량의 데이터 샘플을 사용하여 사전 훈련된 LLM의 각 선형 레이어에 대한 특이값 분해를 수행하고, 이를 통해 하위 작업이나 세계 지식을 유지하는 데 필요한 가중치를 재구성합니다. 이는 지식 보존 적응과 지시 예시 적응 두 가지 옵션을 제공합니다. 지식 보존 적응은 질의응답 샘플을 사용하여 공분산 행렬을 얻고, 가장 작은 r개의 특이값을 가진 분해된 구성 요소를 사용하여 학습 가능한 어댑터를 초기화하며, 나머지는 고정하여 세계 지식을 보존합니다. 지시 예시 적응은 수학이나 코딩과 같은 미세 조정 작업의 지시 데이터를 사용하여 분해 방향을 정하고, 학습할 작업과 가장 관련성이 높은 가장 큰 r개의 구성 요소를 훈련합니다. 수학, 코드 및 지시 따르기 작업에 대한 광범위한 실험을 수행합니다.

시사점, 한계점

시사점:
기존 PEFT 방법의 한계점인 성능 저하 및 catastrophic forgetting 문제를 효과적으로 해결할 수 있는 새로운 방법 제시.
하위 작업의 맥락과 세계 지식 보존을 동시에 고려하는 맥락 중심의 어댑터 학습 전략 제시.
지식 보존 적응 및 지시 예시 적응 두 가지 옵션을 제공하여 다양한 하위 작업에 적용 가능성 확보.
소량의 데이터만으로도 효과적인 어댑터 학습 가능.
한계점:
제안된 방법의 효과성은 사용된 데이터 샘플의 질에 크게 의존할 수 있음.
특이값 분해를 사용하기 때문에 계산 비용이 상대적으로 높을 수 있음.
다양한 크기와 종류의 LLM에 대한 일반화 성능 평가가 추가적으로 필요함.
특정 작업에 대한 최적의 r 값 설정에 대한 추가 연구가 필요함.
👍