본 논문은 대규모 언어 모델(LLM) 기반 생성형 AI(Gen AI)의 사이버 보안 분야 적용에 있어 신뢰성과 안정성을 저해하는 주요 과제 중 하나인 응답의 일관성 문제를 다룹니다. LLM 응답의 일관성을 공식적으로 정의하고, 이를 평가하기 위한 프레임워크를 제시합니다. 자체 검증 및 다수의 LLM 간 검증이라는 두 가지 접근 방식을 제안하고, GPT4oMini, GPT3.5, Gemini, Cohere, Llama3 등 여러 LLM을 대상으로 사이버 보안 질문(정보 및 상황 관련)으로 구성된 벤치마크를 사용하여 광범위한 실험을 수행합니다. 실험 결과, 현재 여러 사이버 보안 작업에 사용되고 있거나 고려되고 있는 LLM들조차도 응답이 일관되지 않아 사이버 보안에 있어 신뢰할 수 없고 안정적이지 않다는 사실을 확인합니다.