본 논문은 대규모 언어 모델(LLM)의 메모리 및 계산 비용 문제를 해결하기 위해 극도로 압축하는 새로운 방법인 LittleBit을 소개합니다. LittleBit은 0.1 bits per weight (BPW) 수준까지 압축을 목표로 하며, 잠재 행렬 분해를 사용하여 가중치를 저랭크 형태로 나타내고 이를 이진화합니다. 정보 손실을 보완하기 위해 멀티 스케일 보상 메커니즘을 통합하고, 양자화 인식 훈련(QAT) 초기화를 위한 Dual Sign-Value-Independent Decomposition (Dual-SVID)과 오류 완화를 위한 통합 Residual Compensation을 사용합니다. 실험 결과, LittleBit은 sub-1-bit 양자화에서 우수한 성능을 보이며, Llama2-7B 모델에서 0.1 BPW 성능이 기존 방법의 0.7 BPW 성능을 능가합니다. LittleBit은 자원 제약 환경에서 강력한 LLM 사용을 가능하게 하고, FP16 대비 11.6배의 속도 향상을 잠재적으로 제공합니다.