Sign In

Cyber for AI at SemEval-2025 Task 4: Forgotten but Not Lost: The Balancing Act of Selective Unlearning in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Dinesh Srivasthav P, Bala Mallikarjunarao Garlapati

개요

본 논문은 대규모 언어 모델(LLM)에서 민감하거나 쓸모없는 데이터를 선택적으로 제거해야 할 때 개인 정보 보호, 윤리 및 규정 준수를 유지하는 데 어려움이 있음을 다룹니다. 모델을 처음부터 다시 훈련하는 것은 계산상 불가능하므로 효율적인 대안이 필요합니다. SemEval 2025 Task 4의 일환으로, 본 연구는 이러한 문제를 해결하기 위해 LLM에서 선택적 언러닝(unlearning)의 적용에 초점을 맞춥니다. 본 논문에서는 주로 전역 가중치 수정을 활용하여 언러닝의 효과, 지식 유지 및 언러닝 후 타겟 모델의 유용성 간의 균형을 달성하기 위한 실험과 결과를 제시합니다. 또한 작업별 평가 메커니즘, 결과 및 과제에 대해 자세히 설명합니다. 7B 및 1B 타겟 모델에 대한 테스트 세트에서 각각 0.409와 0.389의 종합 점수를 달성하여 검증 가능한 LLM 언러닝에서 유망한 결과를 보여줍니다.

시사점, 한계점

시사점: 전역 가중치 수정을 이용한 선택적 언러닝 기법이 LLM에서 민감한 데이터 제거에 효과적임을 보여줌. 7B 및 1B 모델에서 상당한 성능을 달성. 검증 가능한 LLM 언러닝에 대한 새로운 접근법 제시.
한계점: 달성된 성능 점수(0.409 및 0.389)가 완벽하지 않으며 개선의 여지가 있음. 다양한 크기의 LLM에 대한 일반화 가능성에 대한 추가 연구 필요. 특정 작업(SemEval 2025 Task 4)에 대한 결과이며 다른 작업으로의 일반화 가능성은 불확실함.
👍