Babel은 다중 모달 감지에 특화된 확장 가능한 모달 정렬 모델입니다. 기존의 다중 모달 정렬 모델들이 데이터 부족으로 다중 감지 모달을 효과적으로 통합하는 데 어려움을 겪는 것과 달리, Babel은 확장 가능한 모달 정렬 개념을 도입하여 N-모달 정렬을 일련의 이진 모달 정렬로 변환합니다. 데이터 부족 문제를 완화하고 확장 과정에서 새로 통합된 모달과 기존 모달 정렬 간의 기여도를 균형 있게 조정하는 새로운 기술을 제시합니다. Wi-Fi, mmWave, IMU, LiDAR, 비디오, 깊이 등 6가지 감지 모달을 사전 훈련에 사용하며, 배포 단계에서는 정렬된 모달의 단일 또는 조합을 선택하여 다운스트림 작업에 적용할 수 있는 기반 모델입니다. 8개의 인간 활동 인식 데이터셋에서 기존의 단일 모달 감지 네트워크, 다중 모달 감지 프레임워크, 다중 모달 대규모 언어 모델 등을 비교하여 우수한 성능을 보였으며, 개별 모달 감지 성능을 평균 12% 향상시키고, 다중 모달 융합 시 최대 22%의 정확도 향상을 달성했습니다. 교차 모달 검색(감지 이미징) 및 감지 이해를 위한 LLM 연결 등의 새로운 응용 사례도 제시합니다.