Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Word-level Annotation of GDPR Transparency Compliance in Privacy Policies using Large Language Models

Created by
  • Haebom
Category
Empty

저자

Thomas Cory, Wolf Rieder, Julia Kramer, Philip Raschke, Patrick Herbke, Axel Kupper

개요

본 논문은 GDPR(General Data Protection Regulation)의 투명성 요구 사항에 맞춰 개인 정보 관련 데이터 처리 관행의 투명성을 보장하는 것을 목표로 한다. 복잡하고 다양한 개인 정보 처리 방침 언어로 인해 대규모 규정 준수 평가는 여전히 어렵다. 본 논문에서는 LLM(Large Language Model) 기반 파이프라인을 제시하여 세분화된 단어 수준에서 개인 정보 처리 방침에 GDPR 투명성 요구 사항을 주석 처리한다. 이 접근 방식은 LLM 기반 주석 처리, 구절 수준 분류, 검색 증강 생성 및 자체 수정 메커니즘을 통합하여 21개의 GDPR 파생 투명성 요구 사항에 걸쳐 확장 가능하고 상황 인지적인 주석을 제공한다. 평가를 위해 703,791개의 영어 개인 정보 처리 방침의 코퍼스를 컴파일하고, GDPR에 맞춰 수동으로 주석 처리된 200개의 정책에 대한 ground-truth sample을 생성한다. 두 단계의 평가 방법을 제안하여 구절 수준 분류와 span 수준 주석 품질을 모두 포착하고, OPP-115 데이터 세트를 포함한 2개의 주석 체계에서 7개의 최첨단 LLM을 비교 분석한다.

시사점, 한계점

시사점:
LLM 기반 파이프라인을 통해 GDPR 투명성 요구 사항에 대한 자동화된 주석 처리가 가능함을 입증.
세분화된 주석 처리를 통해 더욱 정확하고 일관성 있는 투명성 평가 가능.
구체적인 GDPR 요구 사항에 대한 준수 여부를 자동으로 평가할 수 있는 기반 마련.
대규모 데이터셋과 평가 방법론을 제공하여 연구의 재현성 및 확장성 확보.
한계점:
LLM의 성능에 의존하며, 모델의 한계에 따라 주석의 정확도가 제한될 수 있음.
새로운 GDPR 요구 사항이나 언어적 변화에 대한 적응 능력이 필요.
OPP-115 데이터셋 외의 다른 데이터셋에 대한 검증 필요.
구체적인 구현 및 배포에 대한 추가적인 연구가 필요함.
👍