# Emergent Hierarchical Structure in Large Language Models: An Information-Theoretic Framework for Multi-Scale Representation

### 저자

Yukin Zhang, Qi Dong, Kemu Xu

### 💡 개요

이 연구는 대규모 언어 모델(LLM)에서 발생하는 다양한 아키텍처 패밀리의 응답 차이가 모델 크기가 아닌 '정보 압축 방식'에 의해 결정된다고 주장합니다. 7B에서 70B 파라미터의 Llama 및 Qwen 모델을 분석한 결과, 모든 모델이 계층적인 정보 처리 구조(Local, Intermediate, Global)를 자발적으로 형성하지만, 이러한 경계 위치와 각 세그먼트의 취약성은 모델 크기보다는 아키텍처 패밀리에 의해 압도적으로 결정됨을 보여줍니다. 본 논문은 이러한 현상을 '다중 스케일 확률적 생성 이론(MSPGT)'으로 정형화하여, 트랜스포머 모델을 계층적 변분 정보 병목(Hierarchical Variational Information Bottleneck) 시스템으로 모델링하고 검증 가능한 예측을 도출합니다.

### 🔑 시사점 및 한계

- LLM의 기능적 경계는 모델 크기보다는 아키텍처 패밀리에 의해 크게 좌우되며, 이는 모델의 정보 처리 방식에 대한 근본적인 차이를 시사합니다.

- '다중 스케일 확률적 생성 이론(MSPGT)'은 LLM의 계층적 정보 압축 메커니즘을 설명하는 강력한 이론적 프레임워크를 제공하며, 향후 모델 설계 및 분석에 활용될 수 있습니다.

- 연구 결과는 Llama 모델이 파라미터 범위 내에서 안정적인 경계 위치를 보이는 반면, Qwen 모델은 더 넓은 변동성을 보임을 보여주며, 이는 아키텍처 설계에 따른 정보 처리 특성의 차이를 명확히 합니다.

- 서로 다른 아키텍처 패밀리 간의 로컬 세그먼트 취약성이 3개 차수의 큰 격차를 보이는 것은 아키텍처 자체가 정보 처리의 근본적인 차이를 유발함을 나타냅니다.

---

[PDF 보기](https://arxiv.org/pdf/2505.18244)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).