본 논문은 최적 제어 이론의 관점에서 Transformer를 연구하여 연속 시간 공식화 도구를 사용하여 훈련 및 아키텍처 설계에 대한 실행 가능한 통찰력을 도출합니다. 이 프레임워크는 기존 Transformer 모델의 성능을 향상시키는 동시에 일반화 및 견고성을 포함한 바람직한 이론적 보장을 제공합니다. 플러그 앤 플레이 방식으로 설계되어 기존 Transformer 모델과 원활하게 통합될 수 있으며 구현에 약간의 변경만 필요합니다. 텍스트 생성, 감정 분석, 이미지 분류 및 점 구름 분류에 의해 동기가 부여된 7가지 광범위한 실험을 수행했습니다. 실험 결과는 프레임워크가 기준선의 테스트 성능을 향상시키는 동시에 매개변수 효율성이 더 높음을 보여줍니다. nanoGPT를 사용한 문자 수준 텍스트 생성에서 본 프레임워크는 매개변수를 42% 줄이면서 최종 테스트 손실을 46% 줄였습니다. GPT-2에서 본 프레임워크는 최종 테스트 손실을 5.6% 줄여 더 큰 모델로의 확장성을 입증했습니다. 본 연구는 최적 제어 이론을 Transformer의 훈련과 아키텍처 모두에 적용한 최초의 연구이며, 체계적이고 이론 중심적인 개선을 위한 새로운 기반을 제공하고 값비싼 시행착오 접근 방식을 넘어섭니다.