본 논문은 기존 기계적 해석 가능성 연구의 한계를 극복하기 위해, 장난감 과제의 단순 회로 분석과 대규모 모델의 특징 발견 사이의 간극을 메우는 것을 목표로 한다. 이를 위해, 공식적인 구조와 실제 세계의 복잡성을 결합한 text-to-SQL 생성 과제를 제안한다. 기본적인 SQL 연산부터 고급 연산까지 단계적으로 구성된 합성 데이터셋 TinySQL을 도입하고, 33M에서 1B 매개변수까지 다양한 모델을 학습시켜 해석 가능성을 위한 포괄적인 테스트베드를 구축한다. edge attribution patching 및 sparse autoencoders와 같은 여러 가지 상호 보완적인 해석 가능성 기법을 적용하여 SQL 생성을 지원하는 최소 회로와 구성 요소를 식별한다. 분석 결과, 유사한 질의에서도 회로가 다를 수 있음을 보여주는 등, 현재 해석 가능성 방법의 잠재력과 한계를 모두 밝힌다. 마지막으로, 기계적 해석 가능성을 통해 모델의 결함 있는 휴리스틱을 식별하고 합성 데이터셋 설계를 개선하는 방법을 보여준다. 본 연구는 해석 가능성 기법을 평가하고 발전시키는 포괄적인 프레임워크를 제공하는 동시에, 신뢰할 수 있는 적용을 위한 명확한 경계를 설정한다.