본 논문은 안과학 분야에서 다국어(중국어, 영어)를 지원하는 다중 모달 시각 질문 응답(VQA) 벤치마크인 OphthalWeChat 데이터셋을 제시합니다. 2016년 1월 1일부터 2024년 12월 31일까지 WeChat 공식 계정에서 수집된 안과 이미지 게시물과 캡션을 기반으로, GPT-4o-mini를 이용하여 중국어 및 영어 질의응답(QA) 쌍을 생성했습니다. 생성된 QA 쌍은 이진형, 단일 선택형, 개방형 질문으로 나뉘어 총 3,469개의 이미지와 30,120개의 QA 쌍을 포함하는 데이터셋을 구성했습니다. GPT-4o, Gemini 2.0 Flash, Qwen2.5-VL-72B-Instruct 세 가지 VLM을 이용하여 성능 평가를 진행한 결과, Gemini 2.0 Flash가 가장 높은 정확도(0.548)를 달성했습니다.