본 연구는 대규모 언어 모델(LLM)을 활용한 비정형 텍스트 분류를 위한 앙상블 프레임워크를 소개한다. 여러 모델을 통합하여 앙상블 대규모 언어 모델(eLLM) 프레임워크는 개별 시스템의 일관성 부족, 환각, 범주 인플레이션 및 오분류와 같은 일반적인 약점을 해결한다. eLLM 접근 방식은 가장 강력한 단일 모델보다 F1 점수에서 최대 65%의 상당한 성능 향상을 보인다. 집단 의사 결정에 대한 수학적 모델을 통해 앙상블 프로세스를 공식화하고 원칙적인 집계 기준을 설정한다. 대화형 광고 협회(IAB) 계층적 분류법을 사용하여, 인간 주석 처리된 8,660개의 샘플 코퍼스에 대해 동일한 제로샷 조건에서 10개의 최첨단 LLM을 평가한다. 결과는 개별 모델이 의미론적으로 풍부한 텍스트를 희소 범주 표현으로 압축하기 때문에 성능이 정체되는 반면, eLLM은 견고성과 정확도를 모두 향상시킨다는 것을 보여준다. 다양한 모델 컨소시엄을 통해 eLLM은 인간 전문가 수준에 가까운 성능을 달성하여 인간 전문가 라벨링에 대한 의존성을 크게 줄일 수 있는, 분류법 기반 분류를 위한 확장 가능하고 신뢰할 수 있는 솔루션을 제공한다.