엣지 환경에서 대규모 Vision-Language Model (VLM) 배포는 플래시 기반 가중치 오프로딩에 의존하며, 활성화 희소성을 사용하여 I/O 오버헤드를 줄입니다. 기존의 희소화는 모델 중심적이며, 활성화 크기만을 기준으로 뉴런을 선택하고 접근 패턴이 플래시 성능에 미치는 영향을 고려하지 않습니다. 본 논문은 뉴런 중요도와 스토리지 접근 비용을 결합한 I/O 효율적인 희소화 전략인 Neuron Chunking을 제시합니다. 이 방법은 접근 연속성에 대한 경량 추상화를 통해 I/O 지연 시간을 모델링하고, 추정된 지연 시간으로 정규화된 뉴런 중요도로 정의되는 높은 유틸리티를 가진 청크를 선택합니다. Neuron Chunking은 희소화 결정을 기본 스토리지 동작과 일치시킴으로써 Jetson Orin Nano에서 최대 4.65배, Jetson AGX Orin에서 최대 5.76배의 I/O 효율성을 향상시킵니다.