Text-to-SQL 성능 평가에서 중요한 역할을 하는 커뮤니티 주도형 플랫폼의 신뢰성을 높이기 위해, 기존의 테스트 기반 평가 방식의 낙관적인 측면을 개선하고자 합니다. 본 연구에서는 생성된 SQL 쿼리와 정답 SQL 쿼리의 차이를 구체적으로 찾아내기 위해, 형식적 경계 기반 동치성 검증 엔진을 사용하는 새로운 평가 파이프라인 SpotIt을 제안합니다. Text-to-SQL에 적합한 SQL 하위 집합을 지원하도록 기존 검증기를 확장하고, BIRD 데이터셋을 이용한 실험을 통해 테스트 기반 방법이 실제 차이를 간과할 수 있음을 보였습니다.