본 논문은 Parameter-Efficient Fine-Tuning (PEFT) 기법을 사용하여 대규모 언어 모델(LLM)을 미세 조정하는 과정에서 발생하는 GPU 메모리 과다 사용 및 활용 저하 문제를 해결하는 Symbiosis 프레임워크를 제안합니다. 기존 프레임워크는 여러 어댑터를 사용한 미세 조정 또는 추론 시, 각 작업마다 기본 모델 인스턴스를 별도로 배포해야 하고, 다양한 PEFT 방법을 혼용하거나 독립적인 자원 관리를 지원하지 않으며, 추론 및 미세 조정 작업 간 자원 공유가 불가능하고, 개인 정보 보호 기능도 부족한 한계를 가지고 있습니다. Symbiosis는 기본 모델을 서비스 형태로 배포하여 여러 추론 또는 미세 조정 프로세스에서 기본 모델 계층을 공유할 수 있도록 함으로써 이러한 문제들을 해결합니다. 분리 실행 기법을 통해 클라이언트별 어댑터와 계층의 실행을 고정된 기본 모델 계층과 분리하여, 자원 관리, 미세 조정 방법 선택 및 성능 목표 달성에 유연성을 제공합니다. Llama2-13B를 이용한 평가 결과, 기존 방식 대비 4배 많은 어댑터를 동일한 GPU 환경에서 동일한 시간 내에 미세 조정할 수 있음을 보였습니다.