Cornelius Emde, Alasdair Paren, Preetham Arvind, Maxime Kayser, Tom Rainforth, Thomas Lukasiewicz, Bernard Ghanem, Philip H. S. Torr, Adel Bibi
개요
본 논문은 대규모 언어 모델(LLM)이 특정 영역에 제한된 작업을 수행할 때, 의도하지 않은 영역 밖의 출력을 생성하는 취약성을 다룹니다. 이러한 문제를 해결하기 위해, 언어 모델의 영역 외 동작을 정확하게 특징짓는 '영역 인증(domain certification)' 개념을 제시합니다. 그리고 'VALID'라는 간단하면서도 효과적인 방법을 제안하여 적대적 경계(adversarial bounds)를 인증서로 제공합니다. 다양한 데이터셋을 통해 실험한 결과, 영역 외 샘플의 확률을 엄격하게 제한하는 의미 있는 인증서를 최소한의 거부 행동 페널티로 생성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM의 영역 외 동작 취약성 문제에 대한 새로운 해결책 제시 (영역 인증 및 VALID 방법).