A Training-free Method for LLM Text Attribution

Created by

Haebom

저자

Tara Radvand, Mojtaba Abdolmaleki, Mohamed Mostagir, Ambuj Tewari

💡 개요

본 연구는 LLM이 생성한 텍스트가 인간이 작성한 텍스트와 구별하기 어려워짐에 따라 텍스트 출처를 검증하는 문제를 해결합니다. 비준수 LLM(A)과 사내 LLM(B) 간의 텍스트를 구별하거나, 알려진 LLM 또는 알려지지 않은 모델에 의해 생성된 텍스트를 식별하기 위한 훈련 없는(training-free) 제로샷 통계적 검증 방법을 제안합니다. 제안된 방법은 텍스트 길이에 따라 오류율이 지수적으로 감소함을 이론적으로 증명하며, 블랙박스 환경에서도 효과적인 성능을 보입니다.

🔑 시사점 및 한계

•

LLM 텍스트 출처를 훈련 없이, 낮은 오탐률로 식별할 수 있는 이론적, 실질적 방법론을 제시합니다.

•

텍스트 길이에 따른 오류율 감소에 대한 이론적 보증은 대규모 텍스트 데이터의 신뢰성을 높이는 데 기여할 수 있습니다.

•

블랙박스 환경에서도 효율적인 검출이 가능함을 보여, 실제 적용 가능성을 넓힙니다.

•

제안된 방법의 이론적 한계와 실제 환경에서의 적응력(예: 적대적 후편집)에 대한 추가적인 연구 및 평가가 필요합니다.

PDF 보기

Made with Slashpage