LLM 기반 자율 에이전트의 복잡한 다단계 작업 실행 능력 향상을 위해, 행동 경로의 내부 추론 과정(생각)에 대한 위험성을 해결하는 'Thought-Aligner'라는 플러그인 동적 생각 수정 모듈을 제안한다. 경량 모델을 사용하여 각 고위험 생각을 행동 실행 전에 즉시 수정하고, 수정된 생각을 에이전트에 다시 입력하여 안전한 후속 결정 및 도구 상호 작용을 보장한다. 10가지 시나리오를 기반으로 5,000개 이상의 지시어와 11,400개 이상의 안전/불안전 생각 쌍을 생성하여 대조 학습 기법을 사용하여 모델을 미세 조정했다. 12개의 다른 LLM을 포함하는 세 가지 에이전트 안전 벤치마크 실험에서, Thought-Aligner는 에이전트의 행동 안전성을 평균 50%에서 90%로 향상시켰으며, 응답 지연 시간은 100ms 미만으로 유지하여 효율적인 배포와 광범위한 적용성을 보여주었다.