Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Machine Unlearning Fails to Remove Data Poisoning Attacks

Created by
  • Haebom

저자

Martin Pawelczyk, Jimmy Z. Di, Yiwei Lu, Ayush Sekhari, Gautam Kamath, Seth Neel

개요

본 논문은 대규모 딥러닝을 위해 개발된 다양한 근사 기계 언러닝 방법의 효과를 재검토합니다. 데이터 삭제 요청 준수 외에도, 언러닝 방법의 잠재적 응용 분야로는 독성 데이터의 영향 제거가 자주 언급됩니다. 실험 결과, 기존 언러닝 방법들은 여러 설정에서 효과적임이 입증되었지만, 다양한 유형의 독성 공격(무차별, 표적, 새롭게 도입된 가우시안 독성 공격)과 모델(이미지 분류기 및 LLM)에 걸쳐 독성 데이터의 영향을 제거하는 데 실패함을 보여줍니다. 이는 상대적으로 큰 컴퓨팅 예산을 사용한 경우에도 마찬가지입니다. 독성 데이터 기반 언러닝 효과를 정확하게 특성화하기 위해, 본 논문은 새로운 평가 지표를 제시합니다. 결과는 딥러닝에 대한 기계 언러닝 절차에 대한 검증 가능한 보장 없이 과도한 자신감을 피하기 위해서는 더 넓은 관점과 다양한 평가가 필요함을 시사합니다. 재훈련 없이 효율적으로 독성 데이터를 제거하는 데 유용하다는 몇 가지 징후를 보이지만, 본 연구는 이러한 방법들이 아직 실전 배치에는 준비되지 않았으며, 현재 재훈련보다 제한된 이점만 제공함을 시사합니다.

시사점, 한계점

기존의 기계 언러닝 방법들은 다양한 유형의 독성 공격과 모델에 대해 독성 데이터의 영향을 효과적으로 제거하지 못한다는 것을 실험적으로 보여줍니다.
기계 언러닝의 효과를 정확하게 평가하기 위한 새로운 평가 지표가 필요합니다.
기계 언러닝 방법은 재훈련보다 효율적이지만, 아직 실전 배치에는 준비되지 않았으며, 제한된 이점만 제공합니다.
딥러닝에서 기계 언러닝 절차에 대한 검증 가능한 보장 없이 과도한 자신감을 피하기 위해서는 더 넓은 관점과 다양한 평가가 필요합니다.
가우시안 독성 공격과 같은 새로운 유형의 독성 공격에 대한 언러닝 방법의 취약성이 드러났습니다.
👍