본 논문은 효율적인 다중 모달 대규모 언어 모델(EMLLM)의 사고연쇄(CoT) 추론 과정에서의 자기 평가 능력 저하 문제를 해결하기 위해, 강력한 EMLLM을 활용하여 CoT 추론 데이터를 평가하고 이를 EMLLM 훈련에 활용하는 자기 평가 증강 훈련(SEAT) 기법을 제안합니다. 그러나 EMLLM의 긴 토큰 입력-출력 시퀀스 처리 어려움과 자기 평가 능력 저하 문제를 해결하기 위해, 긴 프롬프트를 여러 개의 짧은 프롬프트로 나누어 처리하는 계단식 자기 평가 증강 훈련(Cas-SEAT)을 추가적으로 제안합니다. 여기에는 CoT 추론 능력 유지와 자기 평가 능력 향상을 위해 CoT 추론 및 자기 평가 데이터를 혼합하고, 수동 선택과 MLLM을 활용한 이중 수준 데이터 필터링(DDF)을 적용하여 EMLLM의 성능 향상을 도모합니다. 실험 결과, Cas-SEAT는 여러 데이터셋에서 평균 22.16%의 성능 향상을 달성했으며, DDF는 훈련 자원 소모를 크게 줄였습니다.