로그인

MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training

작성자
  • Haebom
카테고리
비어 있음

저자

Hui Huang, Jiaheng Liu, Yancheng He, Shilong Li, Bing Xu, Conghui Zhu, Muyun Yang, Tiejun Zhao

개요

본 논문은 대규모 언어 모델(LLM)의 복잡한 지시사항 따르기를 향상시키기 위한 다중 세분화 자기 대조 학습(MuSC) 프레임워크를 제안합니다. 기존 방법들이 더 강력한 모델(특히 GPT-4)에 의존하는 것과 달리, MuSC는 강력한 모델 없이도 복잡한 지시사항 정렬을 개선합니다. 이는 조잡한 수준에서는 지시사항 분해 및 재결합을 기반으로 제약 조건을 인식하는 선호도 데이터를 구성하고, 세밀한 수준에서는 동적 토큰 수준 감독을 사용하여 토큰 인식 선호도 최적화를 수행하는 다중 세분화 접근 방식을 통해 이루어집니다. 오픈소스 모델을 사용한 실험 결과, 기존의 자기 정렬 방법을 능가하여 복잡한 지시사항과 일반적인 지시사항을 따르는 벤치마크에서 모두 상당한 성능 향상을 달성함을 보여줍니다.

시사점, 한계점

시사점:
강력한 모델에 의존하지 않고도 LLM의 복잡한 지시사항 따르기 성능을 향상시키는 새로운 방법을 제시합니다.
조잡한 수준과 세밀한 수준의 다중 세분화 접근 방식을 통해 효과적인 자기 정렬을 가능하게 합니다.
오픈소스 모델에서도 우수한 성능을 보이며, 실용적인 측면에서 큰 의미를 가집니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 검증이 필요합니다.
특정 오픈소스 모델에 대한 실험 결과이므로, 다른 모델에 대한 적용 가능성을 확인해야 합니다.
토큰 수준 감독의 동적 특성에 대한 자세한 설명이 부족할 수 있습니다.
👍