TRAPDOC: Deceiving LLM Users by Injecting Imperceptible Phantom Tokens into Documents
Created by
Haebom
저자
Hyundong Jin, Sicheol Sung, Shinwoo Park, SeungYeop Baik, Yo-Sub Han
개요
본 논문은 독점적 대규모 언어 모델(LLM)의 과도한 의존 문제를 해결하기 위해, 문서에 미세한 팬텀 토큰을 주입하여 LLM이 그럴듯하지만 사실상 잘못된 출력을 생성하도록 하는 TRAPDOC 프레임워크를 제안한다. 이는 과도한 의존으로 인한 숙제, 과제, 민감한 문서 처리 등의 부정적 사용을 완화하기 위한 목적으로, 실험적 평가를 통해 여러 기준과 비교하여 효과를 입증한다. 코드는 공개적으로 제공된다.
시사점, 한계점
•
시사점: 과도한 LLM 의존 문제에 대한 새로운 해결책 제시, LLM의 책임감 있는 사용을 위한 기반 마련, 실제 LLM에 대한 효과적인 평가 결과 제시, 공개된 코드를 통한 재현성 확보.
•
한계점: 팬텀 토큰 삽입 방식의 탐지 가능성, 다양한 LLM 및 문서 유형에 대한 일반화 가능성, 윤리적 문제 (사용자 기만)에 대한 고려 필요.