Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SLOT: Sample-specific Language Model Optimization at Test-time

Created by
  • Haebom

저자

Yang Hu, Xingyu Zhang, Xueji Fang, Zhiyang Chen, Xiao Wang, Huatian Zhang, Guojun Qi

개요

본 논문은 테스트 시간에 언어 모델의 성능을 향상시키는 매개변수 효율적인 새로운 방법인 SLOT(Sample-specific Language Model Optimization at Test-time)을 제안합니다. 기존의 대규모 언어 모델(LLM)은 복잡한 지시사항을 처리하는 데 어려움을 겪는데, SLOT은 테스트 시간에 경량의 샘플 특정 매개변수 벡터를 업데이트하기 위해 몇 가지 최적화 단계를 수행하여 이 문제를 해결합니다. 이 벡터는 출력 헤드 앞의 최종 은닉 계층에 추가되며, 샘플별 최적화 중에 마지막 계층 특징을 캐싱함으로써 효율적인 적응을 가능하게 합니다. 입력 프롬프트에 대한 교차 엔트로피 손실을 최소화함으로써, SLOT은 모델이 각 지시사항에 더 잘 맞춰 따르도록 합니다. 실험 결과, 여러 벤치마크와 LLM에서 비교 모델보다 우수한 성능을 보였습니다. 예를 들어, Qwen2.5-7B에 SLOT을 적용하면 GSM8K의 정확도가 57.54%에서 66.19%로 8.6% 향상되었고, DeepSeek-R1-Distill-Llama-70B에 SLOT을 적용하면 GPQA에서 70B 수준 모델 중 최고 정확도인 68.69%를 달성했습니다. 코드는 https://github.com/maple-research-lab/SLOT 에서 이용 가능합니다.

시사점, 한계점

시사점:
테스트 시간 최적화를 통해 LLM의 성능을 효율적으로 향상시킬 수 있음을 보여줌.
다양한 LLM과 벤치마크에서 우수한 성능을 달성함.
복잡한 지시사항에 대한 LLM의 취약점을 개선하는 효과적인 방법 제시.
경량의 샘플 특정 매개변수 벡터를 사용하여 매개변수 효율성을 확보.
한계점:
테스트 시간에 추가적인 계산 비용이 발생할 수 있음.
최적화 단계의 수와 매개변수 크기 등 하이퍼파라미터 튜닝이 필요할 수 있음.
특정 유형의 프롬프트나 LLM에 대해서만 효과적일 가능성 존재.
제공된 코드의 일반성 및 확장성에 대한 추가적인 검증이 필요할 수 있음.
👍