# 라이선스 폭탄에서 AI 거버넌스까지
— 2026 하이브리드 인프라의 세 가지 숙제

> Broadcom의 VMware 인수 이후 라이선스 비용이 급격히 오르고, AIOps와 딥 옵저버빌리티는 개념으로는 익숙해졌지만 막상 어디서 시작해야 할지 막막한 상황이 이어지고 있습니다. 여기에 최근에는 생성형 AI를 어떻게 안전하게 운영할 것인지 문제까지 더해졌습니다. 지금 하이브리드 인프라 현장을 실질적으로 흔들고 있는 변화들을 순서대로 짚어봅니다.

최근 고객사 미팅에서 반복적으로 등장하는 주제가 있습니다. 하나는 VMware 갱신 시점이 다가올수록 예산 회의가 불편해진다는 이야기고, 다른 하나는 쏟아지는 알람을 처리하느라 정작 중요한 이상 신호를 놓쳤다는 경험담입니다. 그리고 요즘은 여기에 "챗GPT를 팀원들이 업무에 쓰고 있는데, 어디까지 허용해야 할지 모르겠다"는 고민이 하나 더 붙습니다.

Red Hat의 2026년 조사에 따르면 응답 조직의 97%가 지난 한 해 동안 클라우드 네이티브 보안 인시던트를 겪었습니다. 그 78%는 정교한 외부 공격이 아닌 잘못된 인프라 구성에서 비롯됐습니다. 보안 우려로 배포를 지연시킨 조직이 74%, 개발자 생산성 저하나 고객 신뢰 손상을 경험한 곳이 92%입니다. 숫자만 나열하면 공포스러운데, 뒤집어 읽으면 대다수 조직이 비슷한 상황에 있다는 이야기이기도 합니다.

이 글에서는 현장을 실제로 움직이고 있는 몇 가지 변화 — 가상화 TCO 구조의 재편, 에이전틱 AIOps의 부상, eBPF 기반 옵저버빌리티, 제로 트러스트 아키텍처의 구체화, AI 거버넌스 체계 수립 — 를 순서대로 살펴보겠습니다.

## VMware 이후, TCO를 다시 계산해야 하는 이유

---

가상화 인프라를 운영하는 조직이라면 2024년 이후 라이선스 갱신 시점에서 숫자가 예상보다 많이 달라진 걸 경험했을 겁니다. Broadcom의 VMware 인수가 가져온 가장 큰 변화는 영구 라이선스에서 구독형으로의 전환이지만, 실제로 더 직접적인 타격은 최소 구매 단위의 변화입니다.

기존에는 16코어 단위로 구매하면 됐던 것이 이제는 72코어가 최소 단위입니다. 에지 환경이나 소규모 배포에서 8코어짜리 서버 한 대를 쓰고 있어도 72코어 비용을 내야 합니다. 계산해보면 비용이 350%에서 450% 수준으로 올라가고, 갱신 기한을 놓칠 경우 20% 페널티까지 붙습니다. 과금 기준도 CPU 소켓에서 코어 단위로 바뀌어, 고밀도 서버를 도입할수록 라이선스 비용이 비례해서 올라가는 구조입니다.

| **구분** | **기존 모델 (Pre-Broadcom)** | **현재 모델 (Post-Broadcom)** | **실질적 영향** |
| --- | --- | --- | --- |
| 라이선스 형태 | 영구 라이선스 | 구독형 (Subscription) | CapEx → OpEx 전환 강제 |
| 최소 구매 단위 | 16 코어 | 72 코어 | 8~16코어 서버 운영 시 최대 350450% 비용 상승 |
| 과금 기준 | CPU 소켓 단위 | CPU 코어 단위 | 고밀도 서버 도입 시 라이선스 비용 비례 상승 |
| 갱신 페널티 | 해당 없음 | 갱신 지연 시  20% 할증 | 계약 주기 관리 실패 시 TCO 즉각 증가 |

**표 1. VMware 인수 전후 라이선싱 모델 비교**

이 상황에서 많은 조직이 검토하는 대안이 Nutanix Cloud Platform입니다. Starter, Pro, Ultimate 에디션으로 구성되어 실제 소요 자원에 맞게 비용을 조정할 수 있고, 벤더 종속 없이 운영 자율성을 유지할 수 있다는 점이 주된 이유입니다. IDC 분석에서는 Nutanix 도입 조직이 대규모 환경 기준 연평균 1,060만 달러의 비즈니스 가치를 창출하고 3년 ROI 391%, 비계획적 다운타임 77% 감소를 기록했습니다. 단순 비용 절감이 아니라 운영 안정성 확보가 실질적인 ROI의 상당 부분을 차지한다는 점이 눈에 띕니다.

하드웨어 도입 방식도 바뀌고 있습니다. 온프레미스 환경의 오랜 고민이 3~5년 뒤를 예측해 장비를 미리 사야 하는 과잉 프로비저닝 문제인데, HPE GreenLake Flex Solutions 같은 As-a-Service 모델은 이 문제를 실질적으로 다루고 있습니다. 컴퓨트, 스토리지, 네트워킹이 검증된 구성으로 묶여 제공되고, HPE Consumption Analytics를 통해 실사용량을 실시간으로 확인하면서 예산을 관리할 수 있습니다. 최신 VMware Cloud Foundation(VCF) 9.0 기반 환경을 즉시 배포해 가상 머신과 컨테이너를 동시에 실행하는 구성도 가능합니다.

멀티클라우드 환경에서 이기종 인프라를 단일 인터페이스로 관리하는 오케스트레이션 레이어의 필요성도 점점 커지고 있습니다. Morpheus Enterprise Software는 AWS, Azure, 온프레미스 자원을 클라우드 브랜드에 관계없이 일관된 방식으로 통제하는 접근을 취합니다. 자원이 어디에 있든 동일한 배포 자동화와 풀스택 일관성을 유지할 수 있다는 것이 하이브리드 환경 운영에서 갖는 현실적인 의미입니다.

## 정적 룰의 한계와 에이전틱 AIOps

---

수천 개의 컨테이너가 생성됐다 사라지는 환경에서 "CPU 80% 초과 시 알람" 같은 정적 임계값 기반 모니터링은 감당이 안 됩니다. 마이크로서비스 아키텍처가 확산되면서 클라우드 규모가 커질수록 수동으로 업데이트해야 할 룰도 함께 늘어납니다. 결과적으로 트래픽 피크 때마다 쏟아지는 수백 개의 오탐 알람을 처리하다 지쳐서, 정작 중요한 장애 신호를 놓치는 상황이 반복됩니다. 현장에서 흔히 말하는 경고 피로(Alert Fatigue) 문제입니다.

AIOps는 이 문제에 대한 실질적인 답이 되고 있습니다. New Relic, OpenText, Dynatrace 같은 플랫폼들이 머신러닝으로 시스템의 정상 상태 베이스라인을 자동으로 정의하고, 여기서 벗어나는 패턴을 감지하는 방식입니다. 특히 Dynatrace의 인과형 AI는 수십억 개의 텔레메트리 상관관계를 밀리초 단위로 평가해 원인-결과 맥락을 파악합니다. 미리 정의되지 않은 제로데이 공격이나 장애 패턴도 식별할 수 있고, 파편화된 알람들이 이벤트 엔트로피 분석을 거쳐 단일 근본 원인으로 통합되면 노이즈를 90%까지 줄일 수 있습니다.

> **에이전틱 AIOps vs. 기존 AIOps
**기존 AIOps가 "문제가 여기에 있고, 원인은 이것입니다"라고 진단해주는 역할이었다면, 에이전틱 AIOps는 원인을 찾아서 사용자에게 영향이 가기 전에 포드를 재시작하고 트래픽을 우회시키는 조치까지 스스로 수행합니다. 관찰하는 시스템에서 행동하는 시스템으로의 전환입니다.

LogicMonitor의 Edwin AI를 도입한 한 복합 조직이 313%의 ROI를 기록했다는 사례는 수치가 구체적이라 설득력이 있습니다. 시간당 다운타임 비용이 10만 달러인 환경에서 4시간 장애를 30%만 단축해도 인시던트 한 건에서 12만 달러를 아낄 수 있습니다. 중복 알람 억제로 엔지니어 8명이 매주 낭비하던 6시간을 확보했다는 수치도 — 연간 2,400시간, 풀타임 1인 이상의 공수 — AI 도입 비용 대비 논거로 경영진 설득에 쓸 수 있는 프레임입니다.

## 코드 한 줄 안 건드리고 가시성 확보하기 — eBPF와 딥 옵저버빌리티

---

AIOps가 제대로 작동하려면 좋은 데이터가 전제되어야 합니다. 보안 리더의 88%가 복잡성 통제를 위해 딥 옵저버빌리티가 필수라고 답했고, 80%는 네트워크 파생 원격 측정 데이터가 반드시 필요하다고 강조했습니다.

문제는 마이크로서비스 환경에서 애플리케이션 가시성을 확보하는 작업이 생각보다 번거롭다는 점입니다. 수백 개의 파일에 트레이싱 SDK를 삽입해야 하고, 라이브러리 버전 충돌이나 CI/CD 파이프라인 오류가 생기면 처음부터 다시 해야 합니다. 사이드카 프록시 방식은 리소스 소모와 네트워크 지연 문제가 따라옵니다.

### eBPF가 바꾼 것

eBPF(Extended Berkeley Packet Filter)는 이 골칫거리를 커널 수준에서 다르게 접근합니다. 리눅스 커널을 수정하거나 재부팅하지 않고, 커널 내부의 안전한 샌드박스 환경에서 미니 프로그램을 실행하는 방식입니다. 실무에서 가장 의미 있는 부분은 애플리케이션 코드를 전혀 건드리지 않아도 된다는 것입니다. kprobes로 파일 입출력이나 DNS 쿼리를 감시하고, uprobes로 HTTP 메서드와 상태 코드를 인터셉트합니다. CPU 오버헤드는 1~2% 미만으로, 성능 저하 걱정 없이 시스템 콜, 네트워크 패킷, 프로세스 활동을 실시간으로 추적할 수 있습니다.

단, 실무에서는 데이터 폭증을 막기 위해 샘플링 비율을 20% 이하로 제한하거나 특정 라우트만 필터링하는 최적화 작업이 병행돼야 합니다. Grafana Beyla 같은 eBPF 에이전트가 수집한 데이터는 벤더 중립적 표준인 OpenTelemetry 포맷으로 가공되어 OTel Collector를 통해 다양한 백엔드로 전달됩니다. 특정 플랫폼에 묶이지 않는다는 점이 장기 운영에서 중요한 의미를 갖습니다.

### 데이터를 어디에 어떻게 쌓을 것인가

이렇게 추출된 텔레메트리 데이터를 모든 로그를 중앙 SIEM 하나로 모으는 방식은 스토리지 비용과 데이터 복사 지연이 만만치 않습니다. 가트너는 2030년까지 새 보안 정보 솔루션 구매의 90%가 연합 데이터(Federated Data) 아키텍처를 채택할 것으로 전망합니다. Denodo 플랫폼의 DeepQuery 기능처럼 분산된 데이터 소스에 자연어로 질의하면 최적화된 SQL로 변환해 실시간 분석을 제공하는 방식이 그 대표적인 구현 사례입니다. ETL 과정 없이 비정형 원천 데이터를 직접 저장하고 AI 모델을 학습시킬 수 있는 데이터 레이크하우스 구조도 보안 위협 분석의 기반으로 자리 잡고 있습니다.

## 측면 이동을 막아라 — CNAPP과 제로 트러스트

---

하이브리드 인프라에서 가장 불안한 영역을 꼽으라면 퍼블릭 클라우드입니다. 리더들의 70%가 퍼블릭 클라우드를 보안상 가장 취약한 고리로 지목했고, 거의 절반이 퍼블릭 클라우드 내 측면 이동(Lateral East-West Traffic) 가시화에 실패했다고 답했습니다. 2025년 침해를 경험한 조직의 50%는 기존 보안 도구가 위협을 전혀 탐지하지 못했습니다.

공격 양상도 달라지고 있습니다. 사이버 침해의 83%, 피싱의 86%가 이제 AI 주도형입니다. 2025년 6월에 식별된 Akira 랜섬웨어 변종은 SonicWall 취약점(CVE-2024-40766)을 통해 내부망에 진입한 뒤, Rust 기반의 Megazord와 Akira_v2를 교차 사용하며 Nutanix AHV와 ESXi 가상화 환경의 VM 디스크 파일을 직접 암호화했습니다. 추정 범죄 수익이 2억 4,400만 달러 규모입니다. 측면 이동을 통제하지 못하는 환경에서는 초기 진입 하나로 인프라 전체가 무력화될 수 있다는 것을 보여주는 사례입니다.

### CNAPP과 제로 트러스트의 연결

클라우드 보안 솔루션은 이 문제를 풀기 위해 인프라 설정 오류를 탐지하는 CSPM과 런타임 위협을 차단하는 CWPP를 통합한 CNAPP으로 진화했습니다. 설정 오류(컨트롤 플레인)와 워크로드 취약점(데이터 플레인)을 따로 보면 연관된 독성 리스크(Toxic Risks)를 놓치기 때문입니다.

CNAPP의 기반 철학이 제로 트러스트 아키텍처(ZTA)입니다. "Never Trust, Always Verify" 원칙 아래 eBPF로 확보한 텔레메트리 데이터를 바탕으로 네트워크 마이크로세그멘테이션을 구현합니다. Nutanix는 CNCF 프로젝트인 KubeArmor 및 AccuKnox와 협업해 커널 레벨 가시성을 확보하고, 파일 시스템 접근과 실행 권한을 런타임에 동적으로 제어합니다. 여기에 별도 복호화 장비 없이 암호화된 트래픽 내부의 위협을 식별하는 프리크립션(Precryption) 기술을 결합하면 방어 레이어가 한 겹 더 추가됩니다.

보안을 강화하면 성능 트레이드오프가 생기는 건 사실입니다. ORAM 기반 검색 엔진 Epsolute는 100만 레코드 기준 840ms 응답 시간으로, 일반 RDBMS보다 4~8배 느립니다. 다만 전체 데이터를 순차적으로 읽는 선형 스캔보다는 18배 빠르며, 데이터 민감도와 네트워크 지연 사이의 최적점을 찾는 파라미터 조정이 실무에서 중요해집니다.

## 생성형 AI를 조직에서 안전하게 운영하려면

---

기업의 69%가 생성형 AI가 경쟁 구도를 바꿀 것으로 예측하지만, AI를 조직에 도입하는 것과 안전하게 운영하는 것은 다른 문제입니다. CIO들이 가장 골머리를 앓는 것 중 하나가 직원들이 승인되지 않은 AI 모델을 가져다 쓰는 섀도우 AI 문제입니다.

Nutanix Enterprise AI(NAI)는 NVIDIA NIM 및 NeMo 프레임워크와 통합해 AI 모델 배포와 추론 성능 최적화를 지원하고, 중앙 집중식 LLM 모델 저장소와 토큰 사용량 대시보드로 조직 내 AI 요청 활동을 가시화합니다. FIPS 140-3 규격을 준수하는 Ubuntu Pro 지원은 규제가 강한 산업 환경에서 중요한 요소입니다. OVHcloud처럼 데이터 주권이 중요한 환경에서는 소버린 클라우드 내에서 AI를 운영하는 전략이 실질적인 의미를 갖습니다.

### 환각 문제 다루기

AI 운영의 기술적 난제 중 하나인 환각 문제는 다층적으로 대응해야 합니다. 훈련 단계에서는 RLHF(인간 피드백 기반 강화학습)로 모델을 파인튜닝하고, 아키텍처 단계에서는 RAG(검색 증강 생성)로 외부 데이터베이스를 참조하게 만듭니다. 사용자 프롬프트 단에서 체인 오브 소트(CoT)를 유도해 논리적 오류를 줄이고, 생성 단계에서 DoLa 같은 디코딩 전략을 파이프라인에 복합적으로 적용하는 구조입니다.

### 에이전틱 AI 거버넌스: Human-in-the-Loop 설계

가트너가 2026년의 핵심 테마로 지목한 에이전틱 AI는 챗봇 수준을 넘어 스스로 목표를 설정하고 판단하는 방향으로 발전하고 있습니다. 2027년까지 다중 에이전트 시스템의 70%가 고도의 전문 역할을 수행할 것으로 전망되지만, 에이전트 간 공유 메모리 충돌이나 환각 증폭, 오작동으로 인한 재무적 손실 리스크는 현실적인 위험입니다.

에이전틱 AI의 거버넌스는 하루아침에 완전 자율로 갈 수 없고, 점진적으로 설계해야 합니다.

1. **Human-in-the-Loop (직접 지원)** — AI가 초안을 잡고 인간이 최종 결정하는 구조. 현재 대부분의 조직이 있는 단계입니다.

2. **Human-on-the-Loop (감독)** — AI가 결정하되 인간이 감독자로서 예외 상황에 개입합니다.

3. **Humans-out-of-the-Loop (완전 자율)** — AI가 유동적이고 연속적인 결정을 내리고, 인간은 거시적 파라미터만 조정합니다.

어느 단계에 있든 중요한 것은, 신뢰도가 임계값(통상 80~90%) 이하이거나 인프라 설정 변경 같은 고위험 작업에서는 반드시 사람의 승인을 거치는 구조를 만드는 것입니다. EU AI Act 같은 고위험 AI 규제 대응에도 이 구조가 전제가 됩니다.

| HITL 프레임워크 요소 | 실행 방안 | 기대 효과 |
| --- | --- | --- |
| 인시던트 대응 플레이북 | 환각 또는 정확도 저하 탐지 시 모델 롤백, 백업 전환, 이해관계자 소통 등 사전 정의된 매뉴얼 가동 | 신속하고 일관된 복구로 비즈니스 임팩트 최소화 |
| 에스컬레이션  워크플로우 | 리스크 수준에 따라 하위 문제는 자동 처리, 고위험·규제 위반 문제는 법무·데이터 사이언티스트 티어로 자동 이관 | 치명적 오작동 방지 및 전문가 리소스 최적화 |
| 피드백 기반 지속 개선 | 인간 오버라이드 비율, 만족도 데이터, 에스컬레이션 비율(권장 10~15%) 수집 후 엣지 케이스 재학습에 반영 | 시간이 지남에 따라 모델 정확도와 안전성 향상 |
| 효율적 AI 훈련 (MBTL) | 무작위 데이터가 아닌 시스템 전반 성능을 극대화할 핵심 태스크만 선별해 집중 학습 (MIT MBTL 알고리즘 활용) | 기존 대비 5~50배 학습 효율성 및 자원 절감 |

** 표 2. 에이전틱 AI 인간 참여형(HITL) 거버넌스 프레임워크**

맹목적인 자동화보다 적재적소에 개입할 수 있는 구조를 유지하는 것이 조직의 AI 신뢰도를 결정합니다. MIT의 MBTL 알고리즘은 불필요한 데이터 소모를 줄여 컴퓨팅 비용을 낮추는 동시에 학습 효율을 높여줍니다. 무조건 사람을 빼는 것이 혁신이 아니라, 언제 어디서 사람이 개입할 수 있어야 하는지를 설계하는 것이 관건입니다.

## 탄소와 예측 — 지속 가능성과 디지털 트윈

---

인프라 운영의 책임 범위가 시스템 가용성을 넘어 탄소 배출 영역으로 확장되고 있습니다. HPE Sustainability Insight Center는 AI를 활용해 에너지 사용 패턴을 분석하고 향후 탄소 배출량을 예측하며, 소비 전력의 출처(태양광, 풍력 등)를 추적해 지속 가능성 목표 달성을 데이터로 입증할 수 있도록 지원합니다. ESG 보고 요건이 강화되는 환경에서는 이 데이터를 어떻게 확보하느냐가 실질적인 문제가 됩니다.

변경 사항이 라이브 서비스에 미치는 영향을 사전에 검증하는 디지털 트윈도 실용적인 도구로 자리 잡고 있습니다. 실제 네트워크 상태를 가상 공간에 복제하고 정책 변경을 시뮬레이션하면, 설정 오류가 퍼질 범위(Blast Radius)를 배포 전에 확인할 수 있습니다. 다운타임 없이 배포를 검증하고 싶은 현장 수요와 정확히 맞닿아 있는 기술입니다.

## 마치며

---

2026년 하이브리드 인프라의 화두는 결국 복잡성을 어떻게 다스릴 것인가로 모입니다. 벤더 라이선싱에 끌려다니지 않도록 TCO 자율성을 확보하고, 경고 알람의 소음 속에서 에이전틱 AIOps로 운영을 자동화하고, eBPF와 딥 옵저버빌리티로 인프라 내부를 투명하게 보이게 만들고, 제로 트러스트를 내재화해 측면 이동 경로를 차단하고, AI 거버넌스 체계를 갖춰 에이전틱 AI의 폭주를 막는 것 — 이 다섯 가지가 지금 시점의 실무 과제입니다.

기술 트렌드를 따라가다 보면 어느 것부터 시작해야 할지 막막할 때가 있습니다. 여러분의 현장에서 가장 시급하게 느끼는 부분이 어디인지, 댓글로 남겨주시면 그 주제를 좀 더 깊이 다루겠습니다.

---

**참고 자료**

1. 2026 하이브리드 클라우드 보안 트렌드 분석

2. State of Cloud Native Security 2026: Maturity Gaps and Automation Mandate — Red Hat

3. 하이브리드 멀티클라우드 전환을 통한 비즈니스 가치 극대화 및 ROI 분석 전략 가이드

4. 하이브리드 클라우드 마스터하기: HPE GreenLake와 Morpheus로 여는 현대적 IT의 미래

5. Autonomous Security and Human-in-the-Loop Oversight Systems

6. AIOps란? — New Relic

7. AIOps란? IT 운영을 위한 인공지능 — Everpure엔터프라이즈를 위한 AIOps 플랫폼 — OpenText

8. AIOps (AI for IT Operations) — Dynatrace

9. 클라우드 보안 및 LLM 보안 연구 가이드

10. 하이브리드 멀티클라우드 시대의 혁신 가속화: Nutanix 통합 플랫폼 전략

For the site tree, see the [root Markdown](https://slashpage.com/blogger.md).