Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning

Created by
  • Haebom
Category
Empty

저자

Tian Liu, Huixin Zhang, Shubham Parashar, Shu Kong

개요

본 논문은 소수의 레이블링된 데이터만으로 분류 모델을 학습하는 몇 샷 인식(FSR) 문제를 해결하기 위해 사전 훈련된 비전-언어 모델(VLM)을 활용하는 방법을 제시합니다. 특히, VLM의 사전 훈련 데이터셋과 같은 개방형 데이터를 검색하여 하위 작업에 더 나은 모델을 학습하는 검색 증강 학습(RAL)을 탐구합니다. RAL은 제로샷 인식에서 연구되었지만 FSR에서는 아직 미개척 분야입니다. 본 논문은 RAL을 FSR에 적용하는 과정에서 예상치 못한 과제와 기회를 발견했습니다. 먼저, 대량의 검색된 데이터로 VLM을 미세 조정하는 것이 최첨단 제로샷 방법보다 성능이 떨어지는 것을 확인했습니다. 이는 검색된 데이터의 불균형 분포와 하위 작업의 소수 샷 예제와의 도메인 간극 때문입니다. 둘째, 소수 샷 예제로만 VLM을 미세 조정하는 것이 기존 FSR 방법보다 성능이 훨씬 뛰어나며, 검색된 데이터와 소수 샷 데이터를 혼합하여 미세 조정하면 더 좋은 결과를 얻을 수 있음을 발견했습니다. 셋째, 불균형 분포 및 도메인 간극 문제를 완화하기 위해, 1단계에서는 혼합 데이터에 대한 엔드투엔드 미세 조정을 수행하고, 2단계에서는 소수 샷 데이터에 대해 분류기를 재훈련하는 단계별 검색 증강 미세 조정(SWAT)을 제안합니다. 9개의 인기 벤치마크에 대한 광범위한 실험을 통해 SWAT가 기존 방법보다 정확도가 6% 이상 향상됨을 보여줍니다.

시사점, 한계점

시사점:
VLM을 활용한 FSR에서 단순한 미세 조정만으로도 기존 방법보다 우수한 성능을 달성할 수 있음을 보여줌.
검색된 데이터와 소수 샷 데이터를 결합한 미세 조정이 성능 향상에 효과적임을 확인.
불균형 데이터 분포 및 도메인 간극 문제 해결을 위한 SWAT 기법 제안 및 성능 검증.
9개의 벤치마크에서 기존 방법 대비 6% 이상의 정확도 향상을 달성.
한계점:
SWAT의 성능 향상이 특정 데이터셋이나 작업에 국한될 가능성.
검색된 데이터의 품질과 양에 대한 의존성이 높음.
더욱 다양하고 복잡한 FSR 문제에 대한 일반화 성능 평가 필요.
SWAT의 계산 비용 및 효율성에 대한 추가 분석 필요.
👍