본 논문은 기존의 기초 모델(Foundation Models, FMs)이 연속적인 실세계 다중 모달 데이터를 이산적인 토큰으로 분할하는 토큰 표현에 의존함으로써, 실세계 지식과 관계를 통계적 상관관계를 통해서만 학습하는 한계를 지적합니다. 이로 인해 모달 간 의미적 일관성 유지, 미세한 공간-시간 역학 포착, 인과 추론 수행 등에 어려움을 겪는다고 주장합니다. 모델 크기 확장이나 데이터셋 증가만으로는 이러한 한계를 극복할 수 없다는 점을 강조하며, 물리적 프로세스의 가상 복제본을 만드는 데 사용되는 결과 중심의 디지털 표현인 디지털 트윈(Digital Twin, DT) 표현을 대안으로 제시합니다. DT 표현이 도메인 지식을 명시적으로 인코딩하고 실세계 프로세스의 연속적인 특성을 유지하는 물리적으로 기반한 표현을 제공함으로써 상기 문제들을 해결할 수 있다고 논의합니다.