Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NEZHA: A Zero-sacrifice and Hyperspeed Decoding Architecture for Generative Recommendations

Created by
  • Haebom
Category
Empty

저자

Yejing Wang, Shengyu Zhou, Jinyu Lu, Ziwei Liu, Langming Liu, Maolin Wang, Wenlin Zhang, Feng Li, Wenbo Su, Pengjie Wang, Jian Xu, Xiangyu Zhao

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 생성형 추천(GR) 시스템의 실용적인 문제를 해결하기 위해, 추론 지연 시간을 줄이는 새로운 아키텍처 NEZHA를 제안합니다. NEZHA는 효율적인 self-drafting을 가능하게 하는 autoregressive draft head를 기본 모델에 통합하고, hallucination 문제를 해결하기 위해 hash set 기반의 모델 없는 검증기를 도입했습니다. Taobao에 2025년 10월부터 배포되어 수억 명의 일일 활성 사용자에게 서비스를 제공하며, 10억 단위의 광고 수익을 창출하고 있습니다.

시사점, 한계점

시사점:
생성형 추천 시스템의 추론 지연 시간 문제를 해결하여 실시간 서비스 적용 가능성을 높임.
별도의 draft 모델과 모델 기반 검증기 없이 효율적인 self-drafting과 모델 없는 검증기를 통해 오버헤드를 감소시킴.
광범위한 데이터셋 실험 및 실제 서비스 배포를 통해 성능 및 실용성을 입증.
수억 명의 사용자에게 서비스를 제공하며 10억 단위의 광고 수익을 창출하는 등 긍정적인 비즈니스 효과를 보임.
한계점:
논문에서 구체적인 성능 향상 수치나 알고리즘에 대한 자세한 내용은 제시되지 않음.
hash set 기반 검증기의 성능에 대한 상세한 분석 부재.
다른 GR 시스템과의 비교 연구가 충분히 이루어지지 않았을 수 있음.
특정 플랫폼(Taobao)에서의 성공 사례가 다른 환경에도 일반화될 수 있는지에 대한 추가 연구 필요.
👍