Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Guided Self-Evolving LLMs with Minimal Human Supervision

Created by
  • Haebom
Category
Empty

저자

Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu

개요

AI 자가 진화는 슈퍼인텔리전스로 가는 길로 여겨졌지만, 실제로는 자체 학습 경험으로부터 지식을 획득, 개선 및 내재화하는 데 어려움이 있었다. R-Few는 이러한 문제를 해결하기 위해 고안된 프레임워크로, 가벼운 인간 감독과 문맥 내 기반 설정 및 혼합 학습을 통해 안정적이고 제어 가능한 자가 진화를 가능하게 한다. Challenger는 소량의 인간이 레이블링한 예시를 사용하여 질문을 생성하고, Solver는 인간과 합성 예시를 함께 학습하며 난이도 기반 커리큘럼을 적용한다. 수학 및 일반 추론 벤치마크에서 R-Few는 지속적이고 반복적인 성능 향상을 보였다.

시사점, 한계점

가이드된 Self-Play Challenger-Solver 프레임워크를 통해 안정적인 자가 진화 가능성 제시
소량의 인간 감독만으로도 모델 성능을 향상시키는 방법론 제시
drift 현상을 완화하여 보다 안정적인 공진화 동역학을 달성
수학 및 일반 추론 벤치마크에서 뛰어난 성능 입증
20배 더 많은 인간 데이터를 사용한 모델과 동등한 성능 달성
한계점: 구체적인 모델 아키텍처 및 구현 세부 사항에 대한 정보 부족 가능성
한계점: 다양한 유형의 문제에 대한 일반화 성능에 대한 추가적인 검증 필요
한계점: 실제 환경에서의 적용 가능성에 대한 추가 연구 필요
👍