본 논문은 이미지, 비디오, 오디오, 텍스트, 깊이, 점 구름, 시계열, 표 형식, 그래프, X선, 적외선, IMU, 고분광 등 약 12가지의 다양한 모달리티 데이터를 처리할 수 있는 새로운 다중 모달리티 다중 작업 네트워크 및 관련 학습 알고리즘을 제시한다. 제안된 방법은 모달리티 특화 토크나이저, 공유 트랜스포머 아키텍처 및 교차 어텐션 메커니즘을 활용하여 다양한 모달리티의 데이터를 통합된 임베딩 공간으로 투영한다. 각 모달리티의 다양한 작업에 대해 모달리티별 작업 헤드를 통합하여 다중 모달리티 및 다중 작업 시나리오를 해결한다. 네트워크를 초기화하기 위한 반복적인 모달리티 전환을 통한 새로운 사전 학습 전략과 모든 모달리티에 대한 완전한 공동 학습과 한 번에 두 개의 모달리티에 대한 학습 간의 절충을 제공하는 학습 알고리즘을 제안한다. 12가지 모달리티의 25개 데이터셋에 대한 포괄적인 평가를 제공하며, 최첨단 성능을 보여주어 제안된 아키텍처, 사전 학습 전략 및 적응형 다중 작업 학습의 효과를 입증한다.