Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoTSRF: Utilize Chain of Thought as Stealthy and Robust Fingerprint of Large Language Models

Created by
  • Haebom

저자

Zhenzhen Ren, GuoBiao Li, Sheng Li, Zhenxing Qian, Xinpeng Zhang

개요

본 논문은 오픈소스 대규모 언어 모델(LLM)의 악용 가능성 문제를 해결하기 위해, 기존의 LLM 지문 확인 방법들의 한계(은밀성과 강건성 부족)를 극복하는 새로운 지문 확인 기법인 CoTSRF를 제안합니다. CoTSRF는 사고 과정(Chain of Thought, CoT)을 LLM의 지문으로 활용합니다. CoTSRF는 특수하게 제작된 CoT 질의를 사용하여 소스 LLM로부터 응답을 수집하고, 대조 학습을 통해 응답에서 CoT 특징(지문)을 추출하는 CoT 추출기를 학습시킵니다. 마지막으로 소스 LLM과 용의 LLM의 CoT 특징 간의 Kullback-Leibler divergence를 경험적 임계값과 비교하여 지문 확인을 수행합니다. 실험 결과를 통해 CoTSRF가 특히 은밀성과 강건성 측면에서 기존 방법보다 우수함을 보여줍니다.

시사점, 한계점

시사점:
기존 LLM 지문 확인 방법의 한계인 은밀성과 강건성 문제를 효과적으로 해결하는 새로운 방법 제시.
CoT를 LLM 지문으로 활용하는 독창적인 접근 방식 제안.
대조 학습을 이용한 CoT 추출기 학습을 통해 정확도 향상.
다양한 실험을 통해 CoTSRF의 우수성 검증.
한계점:
제안된 방법의 실제 세계 적용 가능성 및 확장성에 대한 추가적인 연구 필요.
임계값 설정의 객관성 및 일반화 가능성에 대한 추가적인 분석 필요.
다양한 유형의 LLM과 악용 시나리오에 대한 포괄적인 평가가 필요.
CoT 추출 과정의 계산 비용 및 효율성에 대한 고려 필요.
👍