본 논문은 작은 언어 모델(SLM)의 메타 자기 성찰을 향상시키는 새로운 파이프라인 ReflectEvo를 제시합니다. ReflectEvo는 자기 성찰을 반복적으로 생성하여 자기 학습을 수행하는 지속적이고 자기 진화적인 프로세스를 촉진합니다. 이 파이프라인을 활용하여 다양한 지시어와 다중 도메인 작업을 포함하는 대규모의 포괄적인 자체 생성 반성 데이터셋 ReflectEvo-460k를 구축했습니다. 이 데이터셋을 기반으로 SFT와 DPO를 사용하여 반성 학습의 효과를 보여주며, Llama-3의 성능을 52.4%에서 71.2%로, Mistral의 성능을 44.4%에서 71.1%로 크게 향상시켰습니다. 이는 ReflectEvo가 우수한 모델로부터의 지식 증류나 세분화된 사람의 주석 없이도 BIG-bench 상에서 세 가지 주요 오픈소스 모델의 추론 능력과 경쟁하거나 능가할 수 있음을 입증합니다. 또한 자체 생성된 반성의 높은 품질과 오류의 위치 파악 및 수정에 미치는 영향에 대한 심층 분석을 수행했습니다. 본 연구는 장기적으로 반복적인 반성 학습을 통해 SLM의 추론 성능을 지속적으로 향상시킬 수 있는 가능성을 강조합니다.
시사점, 한계점
•
시사점:
◦
작은 언어 모델의 메타 자기 성찰 능력 향상을 위한 새로운 파이프라인 ReflectEvo 제시
◦
자체 생성 반성 데이터셋 ReflectEvo-460k 구축을 통한 대규모 데이터 활용
◦
SFT 및 DPO를 이용한 반성 학습의 효과적인 적용 및 성능 향상 증명 (Llama-3, Mistral 모델 성능 향상)