본 논문은 대규모 언어 모델(LLM) 서비스에 대한 수요 증가에 따라 계산 효율성과 에너지 소비를 최적화하는 특수 하드웨어 아키텍처의 필요성이 증대됨에 따라, 저정밀도 수치 연산에서 기본 선형 대수 커널에 대한 Tenstorrent Grayskull e75 RISC-V 가속기의 성능을 평가한다. Grayskull의 실행 모델, 그리드 크기, 행렬 차원, 데이터 형식 및 수치 정밀도가 계산 효율에 미치는 영향에 대한 자세한 특성 분석을 제시하며, Intel Sapphire Rapids 프로세서와 두 개의 NVIDIA GPU(V100 및 A100)를 포함한 텐서 가속 기능을 갖춘 최첨단 아키텍처와 Grayskull의 성능을 비교한다. NVIDIA GPU가 원시 성능을 지배하지만, Grayskull은 전력 소비와 계산 처리량 간의 경쟁력 있는 절충안을 보여주며, BF16에서 최대 1.55 TFLOPs/Watt에 도달한다.