Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards

Created by
  • Haebom

저자

Derek Li, Jiaming Zhou, Amirreza Kazemi, Qianyi Sun, Abbas Ghaddar, Mohammad Ali Alomrani, Liheng Ma, Yu Luo, Dong Li, Feng Wen, Jianye Hao, Mark Coates, Yingxue Zhang

개요

본 논문은 다양한 작업에서 뛰어난 성능을 보이는 대규모 언어 모델(LLM)을 기반으로 범용 인공지능의 발전에 초점을 맞추고 있습니다. 기존의 지도 미세 조정(SFT) 방법이 일반화에 어려움을 겪고, 전이 학습보다 암기 학습에 치중하는 문제점을 해결하기 위해, 규칙 기반의 검증 가능한 보상과 LLM-as-a-Judge 평가를 통한 생성적 선호도 신호를 결합한 통합 강화 학습(RL) 프레임워크인 Omni-Thinker를 제시합니다. Omni-Thinker는 다양한 작업 유형에 걸쳐 일관된 최적화를 가능하게 하고, 주관적인 영역으로 RL 기반 훈련을 확장합니다. 구조화된 작업에서 개방형 작업으로 이어지는 커리큘럼 기반 진행 방식을 통해 성능 향상과 망각 감소를 보여줍니다. 네 가지 영역에 걸친 실험 결과는 커리큘럼 학습이 공동 훈련보다 5.2%, 모델 병합보다 9.1% 성능을 향상시킨다는 것을 보여주며, 범용 LLM을 위한 RL 기반 사후 훈련 확장에 있어 작업 인식 샘플링과 하이브리드 감독의 중요성을 강조합니다.

시사점, 한계점

시사점:
Omni-Thinker는 다양한 작업에서 LLM 성능을 향상시키는 효과적인 RL 프레임워크임을 보여줍니다.
커리큘럼 기반 학습 전략이 RL 기반 LLM 훈련의 성능과 일반화 능력을 향상시킴을 증명합니다.
작업 인식 샘플링과 하이브리드 감독의 중요성을 강조합니다.
주관적인 영역으로 RL 기반 훈련을 확장하는 새로운 방법을 제시합니다.
한계점:
제시된 실험은 네 가지 영역에 국한되어 있으며, 더욱 다양한 작업 및 도메인에 대한 추가적인 실험이 필요합니다.
LLM-as-a-Judge 평가의 신뢰성 및 객관성에 대한 추가적인 분석이 필요합니다.
커리큘럼 설계의 최적화 및 일반화 가능성에 대한 추가적인 연구가 필요합니다.
Omni-Thinker의 계산 비용 및 효율성에 대한 더 자세한 분석이 필요합니다.
👍