Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks
Created by
Haebom
Category
Empty
저자
Yubo Li, Ramayya Krishnan, Rema Padman
개요
본 논문은 대규모 언어 모델(LLM)의 장기간 멀티 턴 대화에서의 견고성을 분석하기 위해 생존 분석을 사용한다. 기존 평가 방식의 한계를 지적하고, MT-Consistency 벤치마크를 기반으로 36,951 턴에 걸쳐 9개의 최첨단 LLM을 대상으로 분석을 수행한다. Cox 비례 위험 모델, 가속 고장 시간(AFT) 모델, 임의 생존 숲 모델을 활용하여 의미적 드리프트 특징을 분석하고, 대화의 일관성 저하를 예측하는 모델을 개발한다.
시사점, 한계점
•
시사점:
◦
대화 내 갑작스러운 프롬프트 간 의미 드리프트는 일관성 저하의 위험을 증가시킨다.
◦
누적된 의미 드리프트는 역설적으로 대화의 지속을 돕는 경향을 보인다.
◦
AFT 모델은 일관성 저하를 잘 예측하며, 실시간 위험 모니터링에 활용될 수 있다.
◦
생존 분석은 멀티 턴 견고성 평가를 위한 강력한 방법론임을 제시한다.
•
한계점:
◦
Cox 모델은 특정 드리프트 관련 변수에 대한 체계적인 위반 사항을 보였다.
◦
모델의 일반화 가능성은 추가 연구를 통해 확인해야 한다.
◦
연구는 MT-Consistency 벤치마크에 국한되어, 다른 벤치마크나 실제 환경에서의 성능 검증이 필요하다.