Sign In

Towards Contextual Sensitive Data Detection

Created by
  • Haebom
Category
Empty

저자

Liang Telkamp, Madelon Hulsebos

개요

개방형 데이터 포털의 등장으로 데이터 게시 및 교환 전 민감 데이터 보호에 대한 관심이 높아지고 있습니다. 본 논문은 민감 데이터의 개념을 재정의하고, 데이터의 민감도가 맥락에 따라 달라진다는 점을 강조합니다. 이를 바탕으로, 데이터의 더 넓은 맥락을 고려하는 두 가지 민감 데이터 탐지 메커니즘을 제안합니다. 첫째, 데이터 값의 의미론적 유형을 감지한 후 데이터 세트 내에서 데이터 값의 전반적인 맥락을 고려하는 유형 맥락화(type contextualization)를 도입합니다. 둘째, 데이터 민감도를 지정하는 관련 규칙 검색을 기반으로 광범위한 맥락에서 주어진 데이터 세트의 민감도를 결정하는 도메인 맥락화(domain contextualization)를 제안합니다. 대규모 언어 모델(LLM)을 활용한 실험 결과는 유형 맥락화가 유형 기반 민감 데이터 탐지에서 오탐을 크게 줄이고 94%의 재현율을 달성하며, 도메인 맥락화가 인도적 데이터 세트와 같은 비표준 데이터 도메인에서 효과적임을 보여줍니다. 또한, 맥락 기반 LLM 설명이 수동 데이터 감사 프로세스에서 유용한 지침을 제공하여 일관성을 향상시키는 것으로 나타났습니다.

시사점, 한계점

시사점:
데이터의 민감도를 맥락적으로 정의하고, 기존 개인 정보 보호 중심의 접근 방식에서 벗어남.
유형 맥락화 및 도메인 맥락화라는 두 가지 새로운 민감 데이터 탐지 메커니즘 제안.
LLM을 활용하여 탐지 정확도 및 설명 가능성 향상.
인도적 데이터 전문가 평가를 통해 실질적인 활용 가능성 입증.
오픈 소스 메커니즘 및 주석 처리된 데이터 세트 제공.
한계점:
제안된 방법론의 일반화 가능성에 대한 추가 연구 필요.
다양한 데이터 도메인 및 맥락에 대한 추가 실험 필요.
LLM의 성능 의존성 및 관련 편향성 고려 필요.
맥락 정보를 효과적으로 구축하고 관리하는 방법에 대한 추가 연구 필요.
👍