본 논문은 대규모 언어 모델의 메모리 소모 및 에너지 비용 문제를 해결하기 위해 양자 어닐링 컴퓨팅을 활용한 새로운 멀티-헤드 어텐션 메커니즘(QAMA)을 제안합니다. 양자 비트 상호작용 특성을 이용하여 기존의 O(n²) 시간-공간 복잡도를 선형 자원 소모로 최적화하고, 광학 컴퓨팅의 장점을 활용하여 실시간 응답 속도를 유지하면서 에너지 소비를 크게 줄입니다. QUBO 모델링을 통해 전파 및 에너지 기반 역전파를 구현하고, 소프트 선택 메커니즘을 통해 기존 이진 어텐션의 한계를 극복합니다. QBoson CPQC 양자 컴퓨터에서의 실험을 통해 기존 어텐션 메커니즘과 비슷한 정확도를 달성하면서 추론 시간을 밀리초 수준으로 단축하고 솔루션 품질을 향상시켰음을 보여줍니다.