Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

LoRA Users Beware: A Few Spurious Tokens Can Manipulate Your Finetuned Model

Created by
  • Haebom
Category
Empty

저자

Marcel Mateos Salles, Praney Goyal, Pradyut Sekhsaria, Hai Huang, Randall Balestriero

개요

LoRA를 활용한 LLM 미세 조정을 할 때, LoRA의 자원 효율성이 높을수록 모델이 SSTI 공격에 취약해진다는 것을 발견했습니다. SSTI는 미세 조정 중 단일 토큰을 주입하여 테스트 시 모델 예측을 조작할 수 있게 합니다. 다양한 모델과 데이터셋을 사용하여 SSTI의 영향을 평가하고, 기존의 방어 방법으로는 이 공격을 방어할 수 없음을 확인했습니다.

시사점, 한계점

LoRA를 사용한 LLM은 SSTI 공격에 취약하며, LoRA의 자원 효율성이 높을수록 취약성이 증가합니다.
SSTI 공격은 미세 조정 중 단일 토큰 주입만으로 모델의 예측을 조작할 수 있습니다.
기존의 데이터 검증 도구나 전처리 방법으로는 SSTI 공격을 방어할 수 없습니다.
데이터 품질 및 AI 안전성에 대한 새로운 우려를 제기합니다.
👍