Glitch tokens은 LLM에서 예측 불가능하거나 비정상적인 동작을 유발하는 입력으로, 모델의 신뢰성과 안전성에 심각한 문제를 제기한다. GlitchMiner는 예측 엔트로피를 최대화하여 glitch tokens을 식별하는 행동 기반 프레임워크이다. 모델 특정적인 휴리스틱이나 대량의 배치 샘플링에 의존하지 않고, 그래디언트 기반의 로컬 탐색 전략을 활용하여 이산 토큰 공간을 효율적으로 탐색한다. GlitchMiner는 5개의 주요 모델 제품군에서 10개의 LLM에 대한 광범위한 실험을 통해 기존 접근 방식보다 감지 정확도와 쿼리 효율성 면에서 일관되게 우수한 성능을 보였다.
시사점, 한계점
•
시사점:
◦
Glitch tokens을 효과적으로 식별하는 일반화 가능하고 확장 가능한 솔루션 제공.
◦
모델 특정 휴리스틱이나 대량의 배치 샘플링에 의존하지 않아 다양한 LLM 아키텍처에 적용 가능.