MindGYM은 대규모 비전-언어 모델(VLMs)의 강건하고 전이 가능한 추론 능력 향상을 위한 프레임워크입니다. 수작업으로 만든 데이터셋이나 계산적으로 비용이 많이 드는 자기 지도 학습 방법에 대한 의존성을 줄이기 위해, MindGYM은 세 단계를 거쳐 VLMs를 자기 도전적인 질문으로 향상시킵니다. 1단계는 8가지 의미 영역(예: 윤리적 분석)을 아우르는 텍스트 및 다중 모드 컨텍스트(예: 다이어그램 기반 질문)에 걸쳐 인지적 질문을 생성하는 단일 홉 질문 합성입니다. 2단계는 브리징이나 시각-텍스트 정렬과 같은 다양한 원리를 통해 단일 홉 질문을 결합하여 더 깊은 추론을 요구하는 다단계 문제를 만드는 다중 홉 질문 합성입니다. 3단계는 모델을 점진적으로 훈련시키는 사고 유도 커리큘럼 미세 조정입니다. MindGYM은 모델의 자기 합성 능력을 활용하여 높은 데이터 효율성, 계산 효율성 및 작업 전반에 걸친 강력한 일반화를 달성합니다. 7개의 벤치마크에 대한 광범위한 평가는 강력한 기준 모델보다 우수한 성능을 보여주며, GPT 기반 점수를 통해 검증된 추론 깊이와 폭에서 상당한 개선을 보여줍니다. MindGYM은 인간의 개입과 자원 요구를 최소화하면서 VLM 기능을 개선하기 위한 자기 도전의 실현 가능성을 강조합니다. 코드와 데이터는 다중 모드 추론 연구를 발전시키기 위해 공개됩니다.