본 논문에서는 알츠하이머병과 같은 인지 장애의 조기 진단을 위한 다중 모달 아키텍처인 CogniAlign을 제안합니다. CogniAlign은 비침습적인 정보원인 음성 및 텍스트 모달리티를 통합하여 인지 건강에 대한 상호 보완적인 통찰력을 제공합니다. 기존의 접근 방식과 달리, CogniAlign은 음성 임베딩과 전사 시간을 기반으로 하는 해당 텍스트 토큰을 동기화하는 단어 수준의 시간 정렬 전략을 활용합니다. 이러한 정렬을 통해 토큰 수준의 융합 기술을 개발하여 보다 정확한 교차 모달 상호 작용을 가능하게 합니다. 본 논문에서는 텍스트 모달리티의 우수한 단일 모달 성능에 따라 안내되는 게이트 크로스 어텐션 융합 메커니즘을 제안하여 이러한 정렬을 완전히 활용합니다. 또한, 텍스트에 일시 정지 토큰을 삽입하고 무음 구간에 대한 음성 임베딩을 생성하여 음운론적 단서(단어 간 일시 정지)를 통합하여 두 스트림을 더욱 풍부하게 합니다. ADReSSo 데이터셋에서 CogniAlign을 평가한 결과, 90.36%의 정확도를 달성하여 기존 최첨단 방법을 능가했습니다. 상세한 ablation study는 정렬 전략, 어텐션 기반 융합 및 음운론적 모델링의 장점을 확인합니다.