본 논문은 화학 및 생의학 분야에서 인간 전문가의 전문성을 향상시키기 위해 다중 모드 학습을 이용한 새로운 프레임워크 MV-CLAM을 제안합니다. 기존의 분자-텍스트 모델들이 단일 관점 표현에 의존하고 상호 보완적인 정보를 무시하는 한계를 극복하기 위해, MV-CLAM은 다중 쿼리 변환기(MQ-Former)를 사용하여 다중 관점 분자 표현을 통합된 텍스트 공간에 정렬합니다. 이를 통해 서로 다른 관점 간의 일관성을 유지하면서 토큰 수준 대조 손실을 통해 다양한 분자 특징을 보존하여 분자 추론 능력을 향상시키고 검색 및 캡션 정확도를 개선합니다. GitHub에서 소스 코드를 공개합니다.