Provably Robust Adaptation for Language-Empowered Foundation Models
Created by
Haebom
저자
Yuni Lai, Xiaoyu Xue, Linghui Shen, Yulun Wu, Gaolei Li, Song Guo, Kai Zhou, Bin Xiao
개요
Language-empowered foundation models(LeFMs) 기반의 few-shot 분류기를 위한 최초의 증명 가능한 robust classifier인 Language-empowered Few-shot Certification (LeFCert)를 제안합니다. LeFCert는 텍스트 및 특징 임베딩을 적응형 혼합 메커니즘과 통합하고, 최악의 경우의 poisoning 시나리오에서 인증을 가능하게 하기 위해 이중 트리밍된 평균 프로토타입을 사용하며, 분류 점수에 대한 증명 가능한 상한 및 하한을 도출합니다. LeFCert-L과 LeFCert-C의 두 가지 변형을 통해 공격 예산 제약을 고려하여 성능을 향상시킵니다. LeFCert는 기존 baseline보다 깨끗한 정확도와 인증된 정확도를 모두 크게 향상시키면서 계산 효율성을 유지합니다.
시사점, 한계점
•
LeFMs 기반 few-shot classifier에 대한 최초의 증명 가능한 robust classifier 제안.
•
텍스트 및 특징 임베딩을 통합하고, 적응형 혼합 메커니즘을 활용.
•
이중 트리밍된 평균 프로토타입과 분류 점수에 대한 증명 가능한 상한 및 하한 유도.
•
LeFCert-L (랜덤 스무딩) 및 LeFCert-C (공동 인증) 변형을 통해 성능 향상.
•
기존 baseline 대비 state-of-the-art 성능 달성.
•
계산 효율성 유지.
•
제안하는 방법론의 구체적인 한계점은 논문에서 더 자세히 확인해야 함. (예: 특정 공격 시나리오에 국한될 수 있음, 모델 복잡성 등)