분자 시퀀스 표현 (예: SMILES 표기법)과 텍스트 설명을 정렬하는 것은 신약 개발, 재료 설계, 자동 화학 문헌 분석 등 다양한 응용 분야에서 중요합니다. 기존 방법론은 분자 캡셔닝 (분자-텍스트)과 텍스트 기반 분자 설계 (텍스트-분자)를 별도의 작업으로 취급하며, 지도 기반 미세 조정 또는 대비 학습 파이프라인에 의존합니다. 이러한 접근 방식은 (i) BLEU와 같은 기존 지표가 화학적 정확성보다 언어 유창성을 우선시하고, (ii) 훈련 데이터 세트에 화학적으로 모호한 내러티브와 불완전한 명세가 포함되어 있으며, (iii) 생성 방향의 독립적인 최적화가 양방향 불일치를 초래한다는 세 가지 주요 한계에 직면합니다. 이러한 문제를 해결하기 위해, 우리는 자기 지도 라운드 트립 학습을 통해 분자 캡셔닝과 텍스트-SMILES 생성을 통합하는 양방향 정렬 프레임워크인 RTMol을 제안합니다. 이 프레임워크는 새로운 라운드 트립 평가 지표를 도입하고, 쌍을 이룬 분자-텍스트 코퍼스 없이 분자 캡셔닝에 대한 비지도 훈련을 가능하게 합니다. 실험 결과 RTMol이 다양한 LLM에서 양방향 정렬 성능을 최대 47%까지 향상시켜 분자-텍스트 이해 및 생성에 대한 효과적인 패러다임을 확립했음을 보여줍니다.