Sign In

Efficiency vs. Alignment: Investigating Safety and Fairness Risks in Parameter-Efficient Fine-Tuning of LLMs

Created by
  • Haebom
Category
Empty

저자

Mina Taraghi, Yann Pequignot, Amin Nikanjam, Mohamed Amine Merzouk, Foutse Khomh

개요

본 연구는 HuggingFace와 같은 공개 저장소에서 LLM을 활용하는 조직이 증가함에 따라, 미세 조정 기법이 모델의 안전성 및 공정성에 미치는 영향을 체계적으로 평가합니다. LoRA, IA3, Prompt-Tuning, P-Tuning 등 네 가지 파라미터 효율적 미세 조정(PEFT) 방법을 Meta-Llama-3-8B, Qwen2.5-7B, Mistral-7B, Gemma-7B 등 네 가지 instruction-tuned 모델에 적용하여 총 235개의 변형 모델을 생성하고, 11가지 안전성 위험 범주와 9가지 인구 통계학적 공정성 차원을 평가합니다. 연구 결과는 adapter 기반 접근 방식(LoRA, IA3)이 안전성 점수를 향상시키고 공정성에 미치는 영향이 적은 반면, prompt 기반 방식(Prompt-Tuning, P-Tuning)은 안전성을 감소시키고 공정성 저하를 유발함을 보여줍니다. 또한, 정렬 변화는 기본 모델 유형에 따라 크게 다르며, 안전성 향상이 반드시 공정성 향상으로 이어지지 않고, 모든 공정성 지표를 동시에 최적화하는 단일 구성은 존재하지 않아 두 목표 간의 상충 관계가 있음을 시사합니다.

시사점, 한계점

시사점:
adapter 기반 PEFT (LoRA, IA3)가 안전성 향상에 유리하며, 공정성을 유지하는 데 더 적합합니다.
prompt 기반 PEFT (Prompt-Tuning, P-Tuning)는 안전성 저하 및 공정성 감소를 유발할 수 있습니다.
기본 모델 유형에 따라 안전성 및 공정성 변화가 다릅니다.
안전성 향상이 공정성 향상을 보장하지 않으며, 두 목표 간의 상충 관계가 존재합니다.
안전성 관련 배포 시, 잘 정렬된 기본 모델을 사용하고, adapter 기반 PEFT를 선호하며, 안전성 및 공정성 관련 감사 수행이 권장됩니다.
한계점:
제한된 수의 PEFT 방법 및 모델 제품군만을 평가했습니다.
특정 안전성 및 공정성 평가 지표에만 의존합니다.
두 목표 사이의 최적 균형을 위한 구체적인 지침은 제시하지 않습니다.
👍