SWAN은 Key-Value (KV) 캐시의 메모리 footprint 문제를 해결하기 위해 제안된, fine-tuning이 필요 없는 프레임워크입니다. 오프라인 직교 행렬을 사용하여 KV 캐시를 회전 및 가지치기하여 정보를 손실 없이 압축하고, 압축 해제 단계 없이 어텐션 계산에 직접 사용합니다. SWAN은 소규모의 dense buffer를 추가하여 KV 캐시당 50-60%의 메모리 절약으로도 uncompressed baseline에 근접하는 성능을 유지하며, 런타임에 압축 수준을 조절할 수 있는 유연성을 제공합니다.