Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test

Created by
  • Haebom

저자

Xiaoyuan Zhu, Yaowen Ye, Tianyi Qiu, Hanlin Zhu, Sijun Tan, Ajraf Mannan, Jonathan Michala, Raluca Ada Popa, Willie Neiswanger

개요

본 논문은 대규모 언어 모델(LLM)에 대한 API 접근이 주요 인터페이스가 됨에 따라, 배포된 모델에 대한 투명성이 부족한 블랙박스 시스템과 상호 작용하는 사용자들의 문제점을 다룹니다. API 제공업체는 비용 절감이나 악의적인 모델 동작 변경을 위해 정량화되거나 미세 조정된 변형 모델을 제공할 수 있으며, 이는 성능 저하 및 안전성 저해로 이어집니다. 본 논문에서는 블랙박스 LLM의 동작이 로컬에 배포된 정품 모델과 동일한지 검증할 수 있는 순위 기반 균일성 검정법을 제안합니다. 이 방법은 정확하고, 쿼리 효율이 높으며, 검사 시도 감지 시 응답을 재라우팅하거나 혼합하는 적대적인 제공업체에도 강력합니다. 다양한 위협 시나리오(정량화, 유해한 미세 조정, 탈옥 프롬프트, 전체 모델 대체 등)에서 평가하여 제한된 쿼리 예산 하에서 기존 방법보다 우수한 통계적 검정력을 달성함을 보여줍니다.

시사점, 한계점

시사점:
블랙박스 LLM의 행동 검증을 위한 효율적이고 강력한 순위 기반 균일성 검정법 제시
정량화, 미세 조정, 모델 대체 등 다양한 위협 시나리오에 대한 효과적인 검출 가능성 증명
제한된 쿼리 예산 하에서도 높은 정확도와 효율성을 달성
적대적 제공업체의 검사 시도 감지 회피 가능
한계점:
제안된 방법의 일반화 성능에 대한 추가 연구 필요
특정 유형의 위협 또는 공격에 대한 취약성 존재 가능성
실제 API 환경에서의 광범위한 테스트 및 검증 필요
쿼리 수 제한으로 인한 검출 한계 존재 가능성
👍