본 논문은 대규모 언어 모델(LLM)이 실제 환경에서 겪는 15가지 숨겨진 실패 모드를 시스템 수준에서 분류하고, 기존 평가 및 모니터링 방식의 한계를 분석합니다. 또한, LLM 기반 시스템의 신뢰성, 유지 관리 가능성, 비용 효율성을 높이기 위한 설계 원칙을 제시합니다. 이는 LLM의 신뢰성을 모델 중심적인 관점이 아닌 시스템 엔지니어링 문제로 접근하여 평가 방법론, AI 시스템의 견고성, LLM 배포의 안정성을 위한 연구 기반을 마련하는 것을 목표로 합니다.