본 논문은 Transformer의 성능 저하의 주요 원인인 어텐션 메커니즘의 계산 비용을 줄이기 위한 연구입니다. 기존 FlashAttention의 효율적인 온라인 softmax 계산을 기반으로, 수학적으로 동등하지만 단순화된 새로운 알고리즘인 FLASH-D를 제안합니다. FLASH-D는 softmax 나눗셈을 다른 비선형 함수 평가 안에 숨기고, 지수 계산의 수치적 안정성을 높이며, 계산 비용을 줄이는 동시에 FlashAttention의 효율적인 타일링 구현에 필요한 속성을 유지합니다. 28nm 하드웨어 구현 결과, 기존 최첨단 병렬 하드웨어 아키텍처 대비 면적 22.8%, 전력 20.3% 감소를 달성하였으며, 성능 저하 없이 효율성을 향상시켰음을 보여줍니다.