Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

QiMeng-TensorOp: Automatically Generating High-Performance Tensor Operators with Hardware Primitives

Created by
  • Haebom

저자

Xuzhi Zhang, Shaohui Peng, Qirui Zhou, Yuanbo Wen, Qi Guo, Ruizhi Chen, Xinguo Zhu, Weiqiang Xiong, Haixin Chen, Congying Ma, Ke Gao, Chen Zhao, Yanjun Wu, Yunji Chen, Ling Li

개요

대규모 언어 모델(LLM)과 심층 신경망에서 계산 집약적인 텐서 연산이 90% 이상을 차지합니다. 수동 최적화 구현에는 몇 달 이상 소요되고 이식성이 부족하기 때문에 RISC-V, ARM, GPU와 같이 다양하고 끊임없이 진화하는 하드웨어 아키텍처에 대해 고성능 텐서 연산자를 자동적이고 효율적으로 생성하는 것이 중요합니다. LLM은 고급 언어 코드 생성에 뛰어나지만 하드웨어 특성을 완전히 이해하고 고성능 텐서 연산자를 생성하는 데 어려움을 겪습니다. 본 논문에서는 한 줄의 사용자 프롬프트(QiMeng-TensorOp)를 사용한 텐서 연산자 자동 생성 프레임워크를 소개합니다. 이 프레임워크를 통해 LLM은 하드웨어 특성을 자동으로 활용하여 하드웨어 기본 요소를 사용한 텐서 연산자를 생성하고 다양한 하드웨어에서 최적의 성능을 위해 매개변수를 조정할 수 있습니다. 다양한 하드웨어 플랫폼, 최첨단 LLM 및 일반적인 텐서 연산자에 대한 실험 결과는 QiMeng-TensorOp가 다양한 하드웨어 플랫폼의 계산 능력을 효과적으로 발휘하고 우수한 성능의 텐서 연산자를 자동으로 생성함을 보여줍니다. 일반 LLM과 비교하여 QiMeng-TensorOp는 최대 1291배의 성능 향상을 달성합니다. 인간 전문가와 비교하더라도 RISC-V CPU에서는 OpenBLAS의 251%, NVIDIA GPU에서는 cuBLAS의 124%에 달하는 성능을 보였습니다. 또한 QiMeng-TensorOp는 인간 전문가와 비교하여 개발 비용을 200배까지 절감합니다.

시사점, 한계점

시사점:
다양한 하드웨어 아키텍처에서 고성능 텐서 연산자를 자동으로 생성하는 효율적인 프레임워크 제공.
기존 LLM 대비 최대 1291배의 성능 향상 및 인간 전문가 대비 251% (RISC-V CPU), 124% (NVIDIA GPU) 성능 달성.
개발 비용을 200배까지 절감.
LLM을 활용한 하드웨어 최적화 가능성을 제시.
한계점:
논문에서 구체적인 한계점이 언급되지 않음. 프레임워크의 일반화 가능성, 다양한 텐서 연산자에 대한 적용범위, 오류 처리 메커니즘 등에 대한 추가적인 연구가 필요할 수 있음.
👍