강력한 AI 모델을 인간의 평가 능력을 뛰어넘는 작업에 정렬하는 것은 초정렬(superalignment)의 중심 문제입니다. 이 문제를 해결하기 위해 약-강 일반화(weak-to-strong generalization)는 약한 감독자를 통해 강력한 모델의 능력을 유도하고, 기만과 같은 안전하지 않은 행동 없이 강력한 모델의 행동이 약한 감독자의 의도와 일치하도록 보장하는 것을 목표로 합니다. 약-강 일반화는 특정 일반화 능력을 보여주지만, 강력한 모델은 약한 감독자의 잘못된 레이블로 인해 과적합될 수 있습니다. 또한 잘못된 레이블을 단순히 걸러내면 질문의 질이 저하되어 어려운 질문에 대한 강력한 모델의 일반화 능력이 약해질 수 있습니다. 본 논문에서는 과적합을 완화하기 위해 감독 신호와 입력 질문의 질을 동시에 향상시키는 2단계 프레임워크를 제안합니다. 세 가지 시리즈의 대규모 언어 모델과 두 가지 수학적 벤치마크에 대한 실험 결과는 제안된 프레임워크가 기존의 약-강 일반화에 비해 PGR을 크게 향상시키며, 일부 모델에서는 최대 100%의 PGR을 달성함을 보여줍니다.