약한 모델이 강한 모델을 감독하는 약-강 일반화(W2SG)는 미래에 인간이 초인적 지능을 안내하는 방법을 이해하기 위한 중요한 비유로 작용합니다. 유망한 실험 결과는 강한 모델이 약한 감독자를 능가할 수 있음을 보여주었습니다. 최근 연구에서 이 현상에 대한 이론적 통찰력을 제공했지만, W2SG를 주도하는 약한 모델과 강한 모델 간의 상호 작용에 대한 명확한 이해는 여전히 모호합니다. 본 연구는 이론적 관점에서 W2SG를 조사하고 약한 모델과 강한 모델의 내부 표현의 주성분에서 파생된 커널을 사용하여 특성화할 수 있음을 보여줍니다. 이러한 커널은 고차원에서 약한 모델이 학습할 수 없지만 강한 모델이 학습할 수 있는 것을 포착하는 공간을 정의하는 데 사용할 수 있습니다. 레이블을 이 공간에 투영하면 약한 감독으로 인해 강한 모델이 전체 잠재력에 얼마나 미치지 못하는지 정량화할 수 있습니다. 이러한 특성화는 과적합에 관계없이 강한 모델이 약한 감독의 특정 오류를 어떻게 수정할 수 있는지에 대한 통찰력도 제공합니다. 본 연구의 이론은 트랜스포머를 사용한 분자 예측과 52개의 LLM을 포함하는 5개의 NLP 작업에 대한 실험에서 보여주는 것처럼 레이블을 필요로 하지 않고 W2SG 성능 추세를 예측하는 표현 기반 메트릭을 제공하여 상당한 실용적 의미를 갖습니다.