[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Symbiosis: Multi-Adapter Inference and Fine-Tuning

Created by
  • Haebom

저자

Saransh Gupta, Umesh Deshpande, Travis Janssen, Swami Sundararaman

개요

본 논문은 Parameter-Efficient Fine-Tuning (PEFT) 기법을 사용하여 대규모 언어 모델(LLM)을 미세 조정하는 과정에서 발생하는 GPU 메모리 과다 사용 및 활용 저하 문제를 해결하는 Symbiosis 프레임워크를 제안합니다. 기존 프레임워크는 여러 어댑터를 사용한 미세 조정 또는 추론 시, 각 작업마다 기본 모델 인스턴스를 별도로 배포해야 하고, 다양한 PEFT 방법을 혼용하거나 독립적인 자원 관리를 지원하지 않으며, 추론 및 미세 조정 작업 간 자원 공유가 불가능하고, 개인 정보 보호 기능도 부족한 한계를 가지고 있습니다. Symbiosis는 기본 모델을 서비스 형태로 배포하여 여러 추론 또는 미세 조정 프로세스에서 기본 모델 계층을 공유할 수 있도록 함으로써 이러한 문제들을 해결합니다. 분리 실행 기법을 통해 클라이언트별 어댑터와 계층의 실행을 고정된 기본 모델 계층과 분리하여, 자원 관리, 미세 조정 방법 선택 및 성능 목표 달성에 유연성을 제공합니다. Llama2-13B를 이용한 평가 결과, 기존 방식 대비 4배 많은 어댑터를 동일한 GPU 환경에서 동일한 시간 내에 미세 조정할 수 있음을 보였습니다.

시사점, 한계점

시사점:
GPU 메모리 효율적인 PEFT 기반 LLM 미세 조정 및 추론을 가능하게 함.
다양한 PEFT 방법과 독립적인 자원 관리 지원.
추론 및 미세 조정 작업 간 기본 모델 자원 공유 가능.
사용자 개인 정보 보호 기능 제공.
Transformers 라이브러리의 대부분 모델과 호환 가능.
기존 방식 대비 4배 향상된 미세 조정 효율성을 달성.
한계점:
Symbiosis 프레임워크의 실제 구현 및 확장성에 대한 자세한 내용이 부족할 수 있음.
다양한 LLM 및 어댑터 크기에 대한 일반화 성능 평가가 추가적으로 필요할 수 있음.
특정 하드웨어 환경에 대한 최적화 여부 및 일반적인 하드웨어 환경에서의 성능에 대한 추가적인 검증이 필요할 수 있음.
👍