개방형 데이터 포털의 등장으로 데이터 게시 및 교환 전 민감 데이터 보호에 대한 관심이 높아지고 있습니다. 본 논문은 민감 데이터의 개념을 재정의하고, 데이터의 민감도가 맥락에 따라 달라진다는 점을 강조합니다. 이를 바탕으로, 데이터의 더 넓은 맥락을 고려하는 두 가지 민감 데이터 탐지 메커니즘을 제안합니다. 첫째, 데이터 값의 의미론적 유형을 감지한 후 데이터 세트 내에서 데이터 값의 전반적인 맥락을 고려하는 유형 맥락화(type contextualization)를 도입합니다. 둘째, 데이터 민감도를 지정하는 관련 규칙 검색을 기반으로 광범위한 맥락에서 주어진 데이터 세트의 민감도를 결정하는 도메인 맥락화(domain contextualization)를 제안합니다. 대규모 언어 모델(LLM)을 활용한 실험 결과는 유형 맥락화가 유형 기반 민감 데이터 탐지에서 오탐을 크게 줄이고 94%의 재현율을 달성하며, 도메인 맥락화가 인도적 데이터 세트와 같은 비표준 데이터 도메인에서 효과적임을 보여줍니다. 또한, 맥락 기반 LLM 설명이 수동 데이터 감사 프로세스에서 유용한 지침을 제공하여 일관성을 향상시키는 것으로 나타났습니다.