MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training

작성자

Haebom

카테고리

비어 있음

저자

Hui Huang, Jiaheng Liu, Yancheng He, Shilong Li, Bing Xu, Conghui Zhu, Muyun Yang, Tiejun Zhao

개요

본 논문은 대규모 언어 모델(LLM)의 복잡한 지시사항 따르기를 향상시키기 위한 다중 세분화 자기 대조 학습(MuSC) 프레임워크를 제안합니다. 기존 방법들이 더 강력한 모델(특히 GPT-4)에 의존하는 것과 달리, MuSC는 강력한 모델 없이도 복잡한 지시사항 정렬을 개선합니다. 이는 조잡한 수준에서는 지시사항 분해 및 재결합을 기반으로 제약 조건을 인식하는 선호도 데이터를 구성하고, 세밀한 수준에서는 동적 토큰 수준 감독을 사용하여 토큰 인식 선호도 최적화를 수행하는 다중 세분화 접근 방식을 통해 이루어집니다. 오픈소스 모델을 사용한 실험 결과, 기존의 자기 정렬 방법을 능가하여 복잡한 지시사항과 일반적인 지시사항을 따르는 벤치마크에서 모두 상당한 성능 향상을 달성함을 보여줍니다.