대규모 언어 모델(LLM)의 안전성과 가치 정렬을 보장하는 것은 매우 중요하며, 이를 위해 MENTOR라는 프레임워크를 제안한다. MENTOR는 메타인지 기반의 자기 진화 프레임워크로, 도메인별 과제에서 LLM의 잠재적 위험을 파악하고 완화하는 데 초점을 맞춘다. 특히, 노동 집약적인 인간 평가의 한계를 극복하기 위해 새로운 메타인지적 자기 평가 도구를 도입했다. 교육, 금융, 경영 분야에 걸쳐 9,000개의 위험 쿼리를 포함하는 데이터 세트를 공개하여 도메인별 위험 식별을 지원한다. 메타인지적 반성의 결과를 바탕으로, 프레임워크는 동적으로 규칙 지식 그래프를 생성하여, LLM이 검증된 규칙을 적용하고 지속적인 자기 진화 주기를 구축하도록 돕는다. 마지막으로, 추론 중에 활성화를 제어하여 규칙 준수를 유도한다. 실험 결과에 따르면 MENTOR는 3개의 수직 도메인에서 의미적 공격 성공률을 실질적으로 감소시켰으며, 메타인지적 평가는 인간 평가자와 유사한 결과를 보이며 LLM 가치 정렬에 대한 더 심층적인 분석을 제공했다.