본 논문은 수학적 기하 문제 해결(GPS)을 위한 신뢰할 수 있는 벤치마크를 구축하기 위해, 공식적으로 검증된 기하 문제를 생성하는 데이터 엔진인 TrustGeoGen을 제시합니다. TrustGeoGen은 다중 모드 정렬, 공식 검증, 연결 사고, GeoExplore 알고리즘 시리즈라는 네 가지 핵심 혁신을 통합하여 다양한 해결책과 자기 반성적 추적 기능을 갖춘 다양한 문제 변형을 생성합니다. 이 엔진을 사용하여 교차 모드 무결성이 보장되는 GeoTrust-200K 데이터셋과 GeoTrust-test 벤치마크를 생성했습니다. 실험 결과, 최첨단 모델이 GeoTrust-test에서 45.83%의 정확도만 달성하여 해당 벤치마크의 어려움을 보여줍니다. 또한, 합성 데이터로 학습하면 GPS 작업에서 모델 성능이 크게 향상되고 도메인 외(OOD) 벤치마크로의 일반화가 강화됩니다. 코드와 데이터는 https://github.com/Alpha-Innovator/TrustGeoGen 에서 이용 가능합니다.