대규모 언어 모델(LLM)과 심층 신경망에서 계산 집약적인 텐서 연산이 90% 이상을 차지합니다. 수동 최적화 구현에는 몇 달 이상 소요되고 이식성이 부족하기 때문에 RISC-V, ARM, GPU와 같이 다양하고 끊임없이 진화하는 하드웨어 아키텍처에 대해 고성능 텐서 연산자를 자동적이고 효율적으로 생성하는 것이 중요합니다. LLM은 고급 언어 코드 생성에 뛰어나지만 하드웨어 특성을 완전히 이해하고 고성능 텐서 연산자를 생성하는 데 어려움을 겪습니다. 본 논문에서는 한 줄의 사용자 프롬프트(QiMeng-TensorOp)를 사용한 텐서 연산자 자동 생성 프레임워크를 소개합니다. 이 프레임워크를 통해 LLM은 하드웨어 특성을 자동으로 활용하여 하드웨어 기본 요소를 사용한 텐서 연산자를 생성하고 다양한 하드웨어에서 최적의 성능을 위해 매개변수를 조정할 수 있습니다. 다양한 하드웨어 플랫폼, 최첨단 LLM 및 일반적인 텐서 연산자에 대한 실험 결과는 QiMeng-TensorOp가 다양한 하드웨어 플랫폼의 계산 능력을 효과적으로 발휘하고 우수한 성능의 텐서 연산자를 자동으로 생성함을 보여줍니다. 일반 LLM과 비교하여 QiMeng-TensorOp는 최대 1291배의 성능 향상을 달성합니다. 인간 전문가와 비교하더라도 RISC-V CPU에서는 OpenBLAS의 251%, NVIDIA GPU에서는 cuBLAS의 124%에 달하는 성능을 보였습니다. 또한 QiMeng-TensorOp는 인간 전문가와 비교하여 개발 비용을 200배까지 절감합니다.
시사점, 한계점
•
시사점:
◦
다양한 하드웨어 아키텍처에서 고성능 텐서 연산자를 자동으로 생성하는 효율적인 프레임워크 제공.
◦
기존 LLM 대비 최대 1291배의 성능 향상 및 인간 전문가 대비 251% (RISC-V CPU), 124% (NVIDIA GPU) 성능 달성.
◦
개발 비용을 200배까지 절감.
◦
LLM을 활용한 하드웨어 최적화 가능성을 제시.
•
한계점:
◦
논문에서 구체적인 한계점이 언급되지 않음. 프레임워크의 일반화 가능성, 다양한 텐서 연산자에 대한 적용범위, 오류 처리 메커니즘 등에 대한 추가적인 연구가 필요할 수 있음.