본 논문은 결정 구조를 그래프로 모델링하여 재료 특성 예측을 향상시키는 그래프 신경망(GNNs)의 한계를 극복하기 위해, 텍스트 설명과 그래프 표현을 통합하는 다중 모드 모델인 CAST를 제안합니다. CAST는 기존의 CrysMMNet이나 MultiMat과 달리, 재료 수준의 집계된 임베딩이 아닌, 교차 어텐션 메커니즘을 활용하여 미세한 그래프 노드 수준과 텍스트 토큰 수준의 특징을 결합합니다. 또한, 노드와 텍스트 임베딩 간의 정렬을 향상시키는 마스크 노드 예측 사전 훈련 전략을 도입합니다. 실험 결과, CAST는 형성 에너지, 밴드 갭, 벌크 계수, 전단 계수 등 네 가지 주요 재료 특성에 걸쳐 기존 기준 모델을 능가하며, 평균 상대 MAE 개선율은 10.2%~35.7%에 달합니다. 어텐션 맵 분석은 사전 훈련이 다중 모드 표현을 효과적으로 정렬하는 데 중요함을 확인합니다. 이 연구는 재료 과학에서 더 정확하고 전반적으로 정보에 입각한 예측 모델을 개발하기 위한 다중 모드 학습 프레임워크의 잠재력을 강조합니다.