Generative Recommendation (GR)은 아이템 특징을 이산화하여 사용자의 과거 상호작용을 토큰 시퀀스로 모델링하고, 다음 토큰 예측 방법으로 다음 아이템을 예측하는 새로운 추천 시스템 패러다임입니다. 이 논문은 고품질의 계층적으로 구성되고, 충돌이 최소화되며, 효과적인 생성 모델 훈련에 도움이 되는 의미 식별자(ID) 구성의 어려움을 해결하고자 합니다. 이를 위해, 멀티모달 정보를 활용하여 의미 ID 학습 및 생성 모델 훈련에 통합하는 Multi-Aspect Cross-modal quantization for generative Recommendation (MACRec)을 제안합니다. 특히, cross-modal quantization을 통해 ID 학습 과정에서 충돌률을 줄이고, 멀티모달 정보를 보완적으로 통합합니다. 또한, 암묵적 및 명시적 정렬을 포함한 multi-aspect cross-modal alignments를 통해 GR 모델의 생성 능력을 향상시킵니다. 세 개의 추천 데이터셋에 대한 실험을 통해 제안된 방법의 효과를 입증합니다.