Vision-Language 모델(VLM)은 시각적 질의 응답 및 멀티모달 텍스트 생성과 같은 작업에서 강력한 성능을 보여주지만, 재료 과학과 같은 과학 분야에서의 효과는 제한적입니다. 본 연구에서는 멀티모달 데이터를 활용하여 고분자 물성 예측을 위한 VLM을 파인튜닝하기 위한 멀티모달 고분자 데이터셋을 제시합니다. LoRA를 사용하여 파인튜닝된 모델은 단일 모달 및 기준 접근 방식보다 우수한 성능을 보이며, 멀티모달 학습의 이점을 입증합니다. 또한, 이 접근 방식은 다양한 특성에 대해 별도의 모델을 훈련할 필요성을 줄여 배포 및 유지 관리 비용을 절감합니다.