본 논문은 AI가 과학에 기여한다는 주장, 특히 AGI가 모든 질병을 치료하거나 과학적 발견을 획기적으로 가속화할 것이라는 주장에 대한 회의적인 시각을 제시한다. 대규모 언어 모델(LLM)이 새로운 지식을 생성하는지, 아니면 단순히 기억된 단편들을 재조합하는지에 대한 핵심적인 인식론적 질문을 던진다. 이에 대한 검증 가능한 방법으로 "unlearning-as-ablation"을 제안한다. 이는 특정 결과와 그 결과를 뒷받침하는 모든 정보(보조 정리, 다른 표현, 다단계 추론 등)를 모델에서 제거한 후, 허용된 공리와 도구만을 사용하여 모델이 해당 결과를 재도출할 수 있는지 평가하는 것이다. 성공은 단순한 기억을 넘어선 생성 능력을, 실패는 현재 한계를 보여준다. 본 논문은 수학과 알고리즘을 예시로 하여 해당 방법의 실현 가능성을 보여주는 최소한의 파일럿 연구 개요를 제시하고, 물리학이나 화학과 같은 다른 분야로의 확장 가능성을 논의한다. 본 논문은 경험적 결과보다는 개념적, 방법론적 기여에 초점을 맞춘 주장 논문이며, AI가 과학적 지식을 재구성하는지 단순히 검색하는지 구분하는 데 원칙적인 제거 테스트가 어떻게 도움이 될 수 있는지, 그리고 그러한 검증이 차세대 AI-for-Science 벤치마크를 어떻게 이끌 수 있는지에 대한 논의를 촉진하는 것을 목표로 한다.