대규모 언어 모델(LLM)은 뛰어난 성능을 보이지만, 파라미터 수가 많아 자원 제약적인 하드웨어에서의 배포에 어려움이 있다. 이를 해결하기 위해, 본 논문은 각 레이어에 최적의 랭크 할당을 효율적으로 결정하고, 텍스트 생성 품질을 유지하기 위해 점진적 저랭크 디코딩을 통합하는 Fine-grained Low-Rank Compressor (FLRC)를 제안한다. FLRC는 다양한 벤치마크에서 기존의 저랭크 압축 방법보다 우수한 성능을 보였으며, 요약 작업에서 ROUGE-L 점수를 최대 17% 향상시켜 LLM 추론을 개선하는 보다 강력하고 효율적인 프레임워크를 제시한다.