Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Empirical Survey of Model Merging Algorithms for Social Bias Mitigation

Created by
  • Haebom
Category
Empty

저자

Daiki Shirafuji, Tatsuhiko Saito, Yasutomo Kimura

LLM 사회적 편향 완화를 위한 모델 병합 알고리즘 비교 연구

개요

본 연구는 대규모 언어 모델(LLM)의 사회적 편향을 완화하기 위해 모델 병합 기법을 활용하여 7가지 알고리즘(Linear, Karcher Mean, SLERP, NuSLERP, TIES, DELLA, Nearswap)을 비교 평가하였다. GPT, LLaMA, Qwen 계열의 13개 오픈 웨이트 모델에 대해 3개의 편향 데이터셋(BBQ, BOLD, HONEST)과 SuperGLUE 벤치마크를 사용하여 성능을 측정하였다. 편향 감소와 다운스트림 태스크 성능 간의 트레이드오프 관계를 확인하고, SLERP가 적절한 가중치에서 가장 균형 잡힌 선택임을 밝혔다.

시사점, 한계점

시사점:
모델 병합 알고리즘은 LLM의 편향 완화에 잠재력이 있다.
Linear, SLERP, Nearswap는 편향을 줄이면서 전반적인 성능을 유지한다.
SLERP는 적절한 가중치에서 가장 균형 잡힌 선택이다.
한계점:
과도한 디바이어싱 또는 부적절한 병합 방법은 중요한 언어 능력 저하를 초래할 수 있다.
편향 감소와 다운스트림 성능 향상 사이의 트레이드오프 관계가 존재한다.
특히, 독해력, 상식, 인과 추론 능력이 필요한 태스크에서 성능 저하가 발생한다.
👍