본 논문은 대규모 언어 모델(LLM)의 복잡한 지시사항 따르기 능력 향상을 위한 다중 입자 자기 대조 학습(MuSC) 프레임워크를 제안합니다. 기존 방법들이 고급 모델(특히 GPT-4)에 의존하는 것과 달리, MuSC는 강력한 모델 없이도 복잡한 지시사항 정렬을 개선합니다. 이는 조악한 입자 수준에서는 지시사항 분해 및 재결합을 기반으로 제약 조건 인식 선호도 데이터를 구성하고, 미세 입자 수준에서는 동적 토큰 수준 감독을 사용한 토큰 인식 선호도 최적화를 수행하는 다중 입자 접근 방식을 통해 이루어집니다. 오픈소스 모델을 대상으로 실험한 결과, 기존 자기 정렬 방법을 능가하는 복잡하고 일반적인 지시사항 따르기 벤치마크에서 상당한 성능 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
강력한 모델에 의존하지 않고도 LLM의 복잡한 지시사항 따르기 성능을 향상시킬 수 있는 새로운 방법 제시.
◦
다중 입자 접근 방식(조악한 입자 및 미세 입자 수준)을 통해 더욱 효과적인 자기 정렬 학습 가능성을 보여줌.