본 논문은 메타 데이터 센터의 AI 워크로드 79% 이상을 차지하는 Deep Recommender Models (DLRMs) 추론의 성능 병목 현상을 해결하기 위한 연구이다. DLRMs의 성능 저하는 다양한 크기의 테이블에서 작은 임베딩 벡터를 가져오는 많은 임의 메모리 접근을 수행하는 임베딩 계층에 있다. 이를 해결하기 위해, 본 논문은 하나의 코어에서 효과적으로 임베딩 테이블을 조회하는 네 가지 전략과 SoC의 여러 코어에 비대칭적으로 테이블을 자동 매핑하는 프레임워크를 제안한다. Huawei Ascend AI 가속기와 Nvidia A100을 사용하여 실험을 진행했으며, 기본 Ascend 컴파일러와 비교하여 최대 6.5배의 속도 향상을 보였다. 특히, 불균형적인 분포에서는 20배 이상의 속도 향상을 달성했으며, 기존 방법보다 쿼리 분포에 훨씬 덜 의존적인 것을 확인했다.