본 연구는 기존의 정형화된 데이터셋에서만 가능했던 인과 회로(circuit) 발견 방식을 자연어 텍스트에 적용할 수 있는 새로운 방법론을 제안합니다. 제안된 방식은 레이블 균형 활성화 평균과 작업 방향 관련성 점수를 활용하여 반사실적 증거 없이도 인과 회로를 발견할 수 있으며, 이를 통해 낮은 자원으로도 모델을 효과적으로 적응시키는 Circuit-Targeted Supervised Fine-Tuning (CT-SFT) 기법을 개발했습니다. NusaX 및 XNLI 데이터셋 실험 결과, CT-SFT는 낮은 자원으로도 높은 성능을 달성할 뿐만 아니라, 치명적인 망각(catastrophic forgetting)을 최소화하여 원래 언어 및 관련 작업에서의 성능을 보존하는 강점을 보였습니다.