감사인은 세금 관련 원장 기록에서 이상 징후를 탐지하기 위해 전표 검사(JET)를 사용하지만, 규칙 기반 방법은 과도한 오탐을 생성하고 미묘한 이상 징후에 취약하다. 본 연구는 대규모 언어 모델(LLM)이 복식 부기에서 이상 탐지기로 사용될 수 있는지 조사한다. LLaMA 및 Gemma와 같은 최첨단 LLM을 합성 원장 및 실제 익명 원장에 대해 벤치마킹하여 JET 및 기계 학습 기준선과 비교했다. LLM은 기존 규칙 기반 JET 및 고전적인 ML 기준선보다 일관되게 우수한 성능을 보였으며, 해석 가능성을 높이는 자연어 설명을 제공했다.