본 논문은 Retrieval-Augmented Language Model (RALM)을 효율적이고 유연하게 서비스하기 위한 이기종 가속기 시스템인 Chameleon을 제안합니다. Chameleon은 LLM과 벡터 검색 가속기를 통합한 분산 아키텍처를 사용하여, 작은 모델로도 높은 품질의 텍스트 생성을 가능하게 합니다. FPGA를 이용한 벡터 검색 가속기와 GPU를 이용한 LLM 추론, 그리고 CPU를 이용한 클러스터 조정을 통해 기존 CPU-GPU 아키텍처 대비 최대 2.16배의 지연 시간 감소와 3.18배의 처리량 향상을 달성했습니다.