Sign In

How to Mitigate Overfitting in Weak-to-strong Generalization?

Created by
  • Haebom
Category
Empty

저자

Junhao Shi, Qinyuan Cheng, Zhaoye Fei, Yining Zheng, Qipeng Guo, Xipeng Qiu

개요

강력한 AI 모델을 인간의 평가 능력을 뛰어넘는 작업에 정렬하는 것은 초정렬(superalignment)의 중심 문제입니다. 이 문제를 해결하기 위해 약-강 일반화(weak-to-strong generalization)는 약한 감독자를 통해 강력한 모델의 능력을 유도하고, 기만과 같은 안전하지 않은 행동 없이 강력한 모델의 행동이 약한 감독자의 의도와 일치하도록 보장하는 것을 목표로 합니다. 약-강 일반화는 특정 일반화 능력을 보여주지만, 강력한 모델은 약한 감독자의 잘못된 레이블로 인해 과적합될 수 있습니다. 또한 잘못된 레이블을 단순히 걸러내면 질문의 질이 저하되어 어려운 질문에 대한 강력한 모델의 일반화 능력이 약해질 수 있습니다. 본 논문에서는 과적합을 완화하기 위해 감독 신호와 입력 질문의 질을 동시에 향상시키는 2단계 프레임워크를 제안합니다. 세 가지 시리즈의 대규모 언어 모델과 두 가지 수학적 벤치마크에 대한 실험 결과는 제안된 프레임워크가 기존의 약-강 일반화에 비해 PGR을 크게 향상시키며, 일부 모델에서는 최대 100%의 PGR을 달성함을 보여줍니다.

시사점, 한계점

시사점: 약-강 일반화에서의 과적합 문제를 완화하는 효과적인 2단계 프레임워크를 제시하여 강력한 AI 모델의 정렬 성능을 향상시켰습니다. 다양한 대규모 언어 모델과 수학적 벤치마크에서 실험적으로 그 효과를 검증했습니다.
한계점: 제안된 프레임워크의 일반성과 다양한 작업에 대한 적용 가능성에 대한 추가 연구가 필요합니다. 특정 유형의 모델과 벤치마크에 국한된 결과이므로 다른 상황에서의 성능을 추가적으로 검증해야 합니다. PGR 외 다른 평가 지표를 활용하여 성능을 다각적으로 평가할 필요가 있습니다.
👍