Sign In

Learning to Learn Weight Generation via Trajectory Diffusion

Created by
  • Haebom
Category
Empty

저자

Yunchuan Guan, Yu Liu, Ke Zhou, Zhiqi Shen, Serge Belongie, Jenq-Neng Hwang, Lei Li

개요

확산 기반 알고리즘을 이용한 가중치 생성 방법은 특히 잦은 가중치 업데이트가 필요한 다중 작업 학습과 같은 시나리오에서 유망한 기술로 떠올랐습니다. 하지만 기존 솔루션은 작업 간 전이성이 제한적이며, 최적 가중치만을 학습 샘플로 사용하여 최적화 과정에서 다른 가중치의 가치를 무시하는 단점이 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 메타 러닝과 확산 알고리즘을 통합하여 미지의 작업에 대한 가중치를 생성하는 Lt-Di를 제안합니다. 또한, 기존 확산 알고리즘을 궤적 확산 알고리즘으로 확장하여 최적화 궤적 상의 다른 가중치를 활용합니다. 궤적 확산은 전체 확산 체인을 여러 개의 짧은 체인으로 분해하여 학습 및 추론 효율을 향상시킵니다. 가중치 생성 패러다임의 수렴 특성을 분석하여 추가적인 시간 오버헤드 없이 수렴 효율을 개선합니다. 실험 결과, Lt-Di는 제로샷 및 퓨샷 학습, 다중 도메인 일반화, 대규모 언어 모델 미세 조정을 포함한 다양한 작업에서 계산 오버헤드를 줄이면서 정확도를 높이는 것으로 나타났습니다. 코드는 https://anonymous.4open.science/r/Lt-Di-0E51 에서 공개됩니다.

시사점, 한계점

시사점:
메타러닝과 확산 알고리즘을 결합하여 다양한 작업에 적용 가능한 효율적인 가중치 생성 방법을 제시했습니다.
최적화 궤적 상의 모든 가중치를 활용하는 궤적 확산 알고리즘을 통해 성능 향상을 이끌었습니다.
제로샷 및 퓨샷 학습, 다중 도메인 일반화, 대규모 언어 모델 미세 조정 등 다양한 작업에서 성능 향상 및 계산 효율 개선을 확인했습니다.
개선된 수렴 효율을 통해 학습 시간 단축에 기여했습니다.
한계점:
본 논문에서 제시된 알고리즘의 일반화 성능에 대한 추가적인 분석이 필요할 수 있습니다.
다양한 작업 및 데이터셋에 대한 광범위한 실험이 추가적으로 필요할 수 있습니다.
특정 작업 또는 데이터셋에 대해서는 최적화가 필요할 수 있습니다.
👍