Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An In-Depth Investigation of Data Collection in LLM App Ecosystems

Created by
  • Haebom

저자

Yuhao Wu, Evin Jaff, Ke Yang, Ning Zhang, Umar Iqbal

개요

본 논문은 LLM 앱 생태계에서의 사용자 데이터 수집 관행의 투명성을 확보하기 위해 OpenAI의 GPT 앱 생태계를 사례 연구로 분석합니다. LLM 기반 프레임워크를 이용하여 GPT Actions (맞춤형 도구)의 자연어 명세를 분석하고 데이터 수집 관행을 평가합니다. 분석 결과, Actions는 24개 범주와 145개 데이터 유형에 걸쳐 과도한 데이터를 수집하며, 특히 타사 Actions는 평균 6.03% 더 많은 데이터를 수집하는 것으로 나타났습니다. 또한 여러 Actions가 OpenAI의 정책을 위반하여 비밀번호와 같은 민감한 정보를 수집하는 것으로 드러났습니다. 마지막으로, LLM 기반 개인정보 보호 정책 분석 프레임워크를 개발하여 Actions의 데이터 수집이 개인정보 보호 정책의 공개 내용과 일치하는지 자동으로 확인합니다. 측정 결과, 수집된 대부분의 데이터 유형에 대한 공개가 누락되었으며, 단 5.8%의 Actions만이 데이터 수집 관행을 명확하게 공개하고 있습니다.

시사점, 한계점

시사점:
LLM 앱 생태계에서의 과도한 데이터 수집 및 개인정보 보호 정책 위반 문제를 밝혀냄.
LLM 기반 프레임워크를 활용한 데이터 수집 관행 분석 및 개인정보 보호 정책 일관성 검증의 가능성 제시.
OpenAI와 같은 LLM 플랫폼의 정책 집행의 불일치 및 개선 필요성을 강조.
사용자 데이터 수집에 대한 투명성 확보를 위한 정책 및 기술적 개선 필요성 제기.
한계점:
OpenAI의 GPT 앱 생태계만을 사례 연구로 사용하여 일반화에 한계.
분석 프레임워크의 정확도 및 완전성에 대한 추가 검증 필요.
다른 LLM 플랫폼의 데이터 수집 관행에 대한 연구 필요.
분석 대상인 GPT Actions의 범위 제한으로 인한 일반화의 어려움.
👍