본 논문에서는 빠른 속도의 대규모 언어 모델(LLM) 기반 에이전트의 불투명한 암묵적 추론 과정을 관찰하고 디버깅할 수 있는 새로운 프레임워크인 Watson을 제시합니다. Watson은 LLM 기반 에이전트의 암묵적 추론 과정을 추적하여 예상치 못한 동작이나 오류를 식별하고 수정 방향을 제시합니다. Massive Multitask Language Understanding (MMLU) 벤치마크와 SWE-bench-lite를 사용한 실험을 통해 Watson의 정확성과 유용성을 검증하였으며, 모델이나 에이전트의 인지 구조를 업데이트하지 않고도 MMLU와 SWE-bench-lite에서 Pass@1을 각각 7.58 (13.45% 상대적 개선), 7.76 (12.31% 상대적 개선) 퍼센트 포인트 향상시켰습니다.