Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Synthetic Data RL: Task Definition Is All You Need

Created by
  • Haebom

저자

Yiduo Guo, Zhen Guo, Chuanwei Huang, Zi-Ang Wang, Zekai Zhang, Haofei Yu, Huishuai Zhang, Yikang Shen

개요

본 논문은 합성 데이터를 이용한 강화 학습 기반의 기초 모델 적응 방법인 Synthetic Data RL을 제시합니다. 기존 강화 학습 방식의 대규모 수동 라벨링 데이터 의존성 문제를 해결하기 위해, 과제 정의와 검색된 문서에서 질의응답 쌍을 생성하고, 모델의 해결 가능성에 따라 질문 난이도를 조정하며, 평균 통과율을 기반으로 질문을 선택하여 강화 학습을 수행합니다. Qwen-2.5-7B 모델을 대상으로 GSM8K, MATH, GPQA, MedQA, CQA, CFA 등 다양한 데이터셋에서 기존 방식 대비 성능 향상을 보이며, 동일한 데이터 양으로 지도 학습보다 우수한 성능을 달성하고, 전체 인간 데이터를 사용한 강화 학습과 거의 유사한 성능을 보입니다. 소량의 인간 데이터 추가는 성능 향상에 미미한 영향을 미치는 것으로 나타나, 인간 데이터 의존도를 낮춰 확장 가능하고 효율적인 RL 기반 모델 적응을 가능하게 합니다.

시사점, 한계점

시사점:
대규모 수동 라벨링 데이터 없이도 강화 학습을 통한 기초 모델 적응이 가능함을 보여줌.
합성 데이터를 활용하여 기존 강화 학습 방식보다 효율적이고 확장 가능한 모델 적응 방법 제시.
다양한 데이터셋에서 기존 방법 대비 우수한 성능 향상을 달성.
소량의 인간 데이터만으로도 높은 성능을 유지하며, 인간 데이터 의존도를 낮춤.
한계점:
합성 데이터의 질에 따라 모델 성능이 영향을 받을 수 있음.
특정 종류의 기초 모델에만 적용 가능할 수 있음.
특정 유형의 과제에만 효과적일 수 있으며, 일반화 성능에 대한 추가 연구가 필요함.
합성 데이터 생성 과정의 복잡성 및 계산 비용에 대한 고려 필요.
👍