Review-Instruct: A Review-Driven Multi-Turn Conversations Generation Method for Large Language Models
Created by
Haebom
저자
Jiangxu Wu, Cong Wang, TianHuang Su, Jun Yang, Haozhi Lin, Chao Zhang, Ming Peng, Kai Shi, SongPan Yang, BinQing Pan, ZiXian Li, Ni Yang, ZhenYu Yang
개요
본 논문은 대규모 언어 모델(LLM)의 대화형 AI 성능 향상을 위해, 단일 턴 지도 학습 데이터의 한계를 극복하는 새로운 프레임워크인 Review-Instruct를 제안합니다. Review-Instruct는 후보, 여러 평가자, 의장의 세 가지 에이전트 역할을 통해 반복적인 "질문-응답-검토" 과정을 거쳐 다중 턴 대화를 생성합니다. 평가자의 피드백을 통합하여 지시 사항을 반복적으로 개선함으로써 대화의 다양성과 난이도를 높입니다. Alpaca 데이터셋을 사용하여 다중 턴 데이터셋을 구축하고 LLaMA2-13B 모델을 미세 조정했습니다. MT-Bench, MMLU-Pro, Auto-Arena 평가 결과, 기존 최첨단 LLaMA2-13B 기반 모델에 비해 MMLU-Pro에서 2.9%, MT-Bench에서 2%의 절대적 성능 향상을 달성했습니다. 추가 실험을 통해 검토 단계와 다수의 평가자 활용이 지시 사항의 다양성과 난이도 향상에 중요한 역할을 한다는 것을 확인했습니다. 이 연구는 검토 기반 다중 에이전트 프레임워크를 통해 대규모로 고품질 대화 데이터를 생성할 수 있는 가능성을 보여줍니다.
시사점, 한계점
•
시사점:
◦
다중 턴 대화 데이터 생성을 위한 효과적인 새로운 프레임워크인 Review-Instruct 제시
◦
기존 LLaMA2-13B 기반 모델 대비 성능 향상 (MMLU-Pro 2.9%, MT-Bench 2%)