Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Time-To-Inconsistency: A Survival Analysis of Large Language Model Robustness to Adversarial Attacks

Created by
  • Haebom
Category
Empty

저자

Yubo Li, Ramayya Krishnan, Rema Padman

개요

본 논문은 대규모 언어 모델(LLM)의 장기간 멀티 턴 대화에서의 견고성을 분석하기 위해 생존 분석을 사용한다. 기존 평가 방식의 한계를 지적하고, MT-Consistency 벤치마크를 기반으로 36,951 턴에 걸쳐 9개의 최첨단 LLM을 대상으로 분석을 수행한다. Cox 비례 위험 모델, 가속 고장 시간(AFT) 모델, 임의 생존 숲 모델을 활용하여 의미적 드리프트 특징을 분석하고, 대화의 일관성 저하를 예측하는 모델을 개발한다.

시사점, 한계점

시사점:
대화 내 갑작스러운 프롬프트 간 의미 드리프트는 일관성 저하의 위험을 증가시킨다.
누적된 의미 드리프트는 역설적으로 대화의 지속을 돕는 경향을 보인다.
AFT 모델은 일관성 저하를 잘 예측하며, 실시간 위험 모니터링에 활용될 수 있다.
생존 분석은 멀티 턴 견고성 평가를 위한 강력한 방법론임을 제시한다.
한계점:
Cox 모델은 특정 드리프트 관련 변수에 대한 체계적인 위반 사항을 보였다.
모델의 일반화 가능성은 추가 연구를 통해 확인해야 한다.
연구는 MT-Consistency 벤치마크에 국한되어, 다른 벤치마크나 실제 환경에서의 성능 검증이 필요하다.
👍