본 논문은 대규모 언어 모델(LLM)에서 토큰 생성 속도를 높이기 위한 다양한 계층 건너뛰기(layer-skipping) 방법들이 토큰 유형에 따른 계산량 차이를 고려하지 않았다는 점을 지적하며, 토큰 유형에 따라 Transformer 계층의 수를 동적으로 조절하는 FlexiDepth 방법을 제안합니다. FlexiDepth는 플러그인 라우터와 어댑터를 통해 기존 모델 파라미터를 변경하지 않고 적응적 계층 건너뛰기를 가능하게 합니다. Llama-3-8B 모델에 FlexiDepth를 적용한 결과, 32개 계층 중 8개 계층을 건너뛰면서도 100%의 성능을 유지했습니다. 실험 결과, 반복적인 토큰이나 고정된 구문 생성에는 적은 계층이, 계산이 많이 필요하거나 불확실성이 높은 토큰 생성에는 많은 계층이 필요함을 보여줍니다. 이는 직관과도 일치하는 결과입니다. FlexiDepth와 계층 할당 패턴 데이터셋을 공개하여 추가 연구를 장려합니다.