Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value

Created by
  • Haebom

저자

Le Ma, Shirao Yang, Zihao Wang, Yinggui Wang, Lei Wang, Tao Wei, Kejun Zhang

개요

본 논문은 대규모 모델의 확산으로 인해 개별 데이터 제공자의 기여도를 정량화하는 효율적인 데이터 평가 방법의 필요성이 증대됨에 따라, 기존의 게임 이론 기반 셰플리 값 및 영향 함수 기반 기법들의 높은 계산 비용 및 전체 데이터 및 모델 학습 세부 정보 접근의 어려움으로 인해 부분 데이터 평가가 어려운 문제점을 해결하기 위해 제안된 연구이다. 본 논문에서는 머신 언러닝을 활용하여 데이터 값을 효율적으로 추정하는 새로운 프레임워크인 'Unlearning Shapley'를 제시한다. 사전 학습된 모델에서 타겟 데이터를 언러닝하고 접근 가능한 테스트 세트의 성능 변화를 측정하여 몬테카를로 샘플링을 통해 셰플리 값을 계산함으로써 재학습을 피하고 전체 데이터에 대한 의존성을 제거한다. Unlearning Shapley는 전체 및 부분 데이터 평가를 모두 지원하여 대규모 모델(예: LLMs)에 대한 확장성을 확보하고 데이터 시장에서 실용적으로 활용 가능하다. 벤치마크 데이터 세트 및 대규모 텍스트 코퍼스에 대한 실험을 통해 기존 최첨단 방법의 정확도와 유사하면서 계산 오버헤드를 몇 배나 줄일 수 있음을 보여주며, 추정된 값과 데이터 하위 집합의 실제 영향 간의 강한 상관관계를 확인하여 실제 시나리오에서의 신뢰성을 검증한다. 본 연구는 데이터 평가 이론과 실제 배포 간의 간극을 메우고 현대 AI 생태계를 위한 확장 가능하고 개인 정보 보호 준수 솔루션을 제공한다.

시사점, 한계점

시사점:
대규모 모델의 데이터 평가에 대한 효율적이고 확장 가능한 솔루션 제공.
머신 언러닝 기법을 활용한 셰플리 값 계산으로 계산 비용 감소 및 전체 데이터 접근 불필요.
전체 및 부분 데이터 평가 모두 지원하여 실용성 증대.
실험 결과를 통해 기존 방법 대비 정확도와 효율성 향상을 검증.
데이터 시장 및 현대 AI 생태계에 대한 실질적인 기여.
한계점:
본 논문에서 제시된 방법의 성능은 사용된 머신 언러닝 알고리즘과 테스트 데이터 세트에 의존적일 수 있다.
대규모 모델에서의 언러닝 과정은 여전히 계산적으로 비용이 소모될 수 있다. (비록 기존 방법보다 효율적이라고 주장하지만, 절대적인 효율성은 모델 크기와 데이터 크기에 따라 달라질 수 있다.)
다양한 유형의 데이터 및 모델에 대한 일반화 성능에 대한 추가적인 연구가 필요하다.
실제 데이터 시장 환경에서의 적용 및 평가에 대한 추가적인 연구가 필요하다.
👍