Evaluating LLM Safety Under Repeated Inference via Accelerated Prompt Stress Testing

Created by

Haebom

저자

Keita Broadwater

💡 개요

본 논문은 LLM의 안전성을 평가하는 기존 방식이 다양한 작업에 걸친 평가에 집중되어 있지만, 실제 배포 환경에서는 동일하거나 유사한 프롬프트에 대한 반복적인 추론 시 발생하는 운영상의 위험을 간과한다고 지적합니다. 이에 저자들은 반복 추론 하에서 LLM의 잠재적 실패 모드를 식별하기 위한 '가속 프롬프트 스트레스 테스트(APST)'라는 새로운 평가 프레임워크를 제안합니다. APST는 제어된 조건 하에서 동일한 프롬프트를 반복적으로 샘플링하여 환각, 거부 불일치, 안전하지 않은 완료와 같은 실패 모드를 드러내며, 이러한 실패를 확률적 결과로 모델링하여 실패 확률을 추정합니다.

🔑 시사점 및 한계

•

기존 LLM 안전성 평가의 단점을 보완하여, 실제 서비스 환경에서 발생할 수 있는 반복 추론 시의 안전성 문제를 심층적으로 평가할 수 있는 방법론을 제시합니다.

•

비슷한 성능을 보이는 LLM이라도 반복적인 사용 하에서는 상당한 차이를 보이는 안전성 신뢰도를 가질 수 있음을 보여주며, 단일 샘플 또는 저심층 평가의 한계를 명확히 합니다.

•

APST는 지속적인 사용 시의 실패 빈도를 추정하고 모델 및 디코딩 설정을 비교하는 실용적인 프레임워크를 제공하며, LLM 안전성 신뢰도 평가에 중요한 기여를 합니다.

•

(한계점 또는 향후 과제) APST의 효과성을 극대화하기 위한 프롬프트 다양성 및 반복 횟수에 대한 추가적인 연구가 필요하며, 실제 배포 환경의 복잡성을 모두 반영하는 데는 아직 한계가 있을 수 있습니다.

PDF 보기

Made with Slashpage