Sign In

Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions?

Created by
  • Haebom
Category
Empty

저자

Xianren Zhang, Xianfeng Tang, Hui Liu, Zongyu Wu, Qi He, Dongwon Lee, Suhang Wang

개요

본 논문은 여러 제약 조건(길이, 형식, 감정 등)이 포함된 복잡한 지시 사항을 처리하는 데 어려움을 겪는 대규모 언어 모델(LLM)의 문제를 해결하기 위해 Divide-Verify-Refine (DVR) 프레임워크를 제안합니다. DVR은 복잡한 지시 사항을 단일 제약 조건으로 분할하고(Divide), 적절한 도구를 사용하여 응답을 검증하며(Verify), 성공적인 수정 사례를 모아 동적으로 활용하여 응답을 개선하는(Refine) 세 단계로 구성됩니다. 기존의 미세 조정 방식과 달리, LLM의 자체 수정 능력을 활용하여 계산 비용을 줄이고 데이터 품질에 대한 의존성을 완화합니다. 또한, 복잡한 지시 사항 데이터셋을 새롭게 제작하여 실험을 진행하였으며, Llama3.1-8B의 제약 준수율을 두 배, Mistral-7B의 성능을 세 배 향상시키는 결과를 얻었습니다.

시사점, 한계점

시사점:
LLM의 자체 수정 능력을 효과적으로 활용하여 복잡한 지시 사항 처리 성능을 향상시키는 새로운 프레임워크(DVR) 제시.
미세 조정에 비해 계산 비용이 적고 데이터 품질에 대한 의존도가 낮음.
동적 몇-샷 프롬프팅 기법을 통해 수정 효율성을 극대화.
복잡한 지시 사항에 대한 새로운 데이터셋 구축.
Llama3.1-8B와 Mistral-7B 모델에서 성능 향상을 실험적으로 검증.
한계점:
제안된 DVR 프레임워크의 일반화 성능에 대한 추가적인 연구 필요.
다양한 유형의 제약 조건과 LLM 모델에 대한 확장성 평가 필요.
새롭게 구축된 데이터셋의 규모 및 다양성에 대한 한계.
도구의 정확성 및 신뢰성에 대한 의존성.
👍