본 논문은 대규모 언어 모델(LLM)이 의사 결정 지원 도구, 자동화 워크플로우 및 AI 지원 소프트웨어 시스템에 통합되면서 실제 환경에서의 동작이 제대로 이해되지 않고 기존 머신러닝 모델과 다른 실패 패턴을 보인다는 점에 주목한다. 이 논문은 실제 LLM 애플리케이션에서 발생하는 15가지 숨겨진 실패 모드의 시스템 수준 분류를 제시하고, 기존 평가 및 모니터링 방식의 한계를 분석한다. 또한 LLM 배포와 관련된 생산 환경의 문제점을 검토하고, 안정적이고 유지 관리 가능하며 비용 효율적인 LLM 시스템 구축을 위한 설계 원칙을 제시한다.