Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Accelerating Training of Recursive Reasoning Models with Curriculum Guided Adaptive Recursion

Created by
  • Haebom
Category
Empty

저자

Kaleem Ullah Qasim, Jiashu Zhang

개요

Recursive reasoning 모델은 반복적인 개선을 통해 복잡한 추론 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 모델의 훈련은 계산 비용이 많이 듭니다. 본 논문은 CGAR(Curriculum learning on architectural depth with Gradient weighting for Recursive reasoning models)을 제안합니다. CGAR은 프로그레시브 깊이 커리큘럼(Progressive Depth Curriculum)과 계층적 감독 가중치(Hierarchical Supervision Weighting)라는 두 가지 구성 요소를 사용하여 아키텍처 깊이에 커리큘럼 학습을 적용합니다. Sudoku-Extreme 데이터셋에서 CGAR은 1.71배의 훈련 속도 향상과 0.63%의 정확도 감소를 보였습니다. CGAR으로 훈련된 모델은 더 적은 추론 단계로 100% 중단 정확도를 보이며 추론 효율성이 뛰어납니다.

시사점, 한계점

CGAR은 아키텍처 깊이에 대한 커리큘럼 학습을 적용하여 재귀적 추론 모델의 효율적인 훈련을 가능하게 합니다.
CGAR은 훈련 속도를 향상시키고, 적은 컴퓨팅 자원으로 고품질 모델을 구축할 수 있도록 합니다.
프로그레시브 깊이 커리큘럼만으로도 훈련 속도를 향상시키면서 정확도를 유지할 수 있습니다.
CGAR 훈련 모델은 더 효율적인 추론을 수행합니다.
본 연구는 Sudoku-Extreme 데이터셋에 국한되어 있으며, 다른 복잡한 추론 작업에 대한 일반화 가능성은 추가 연구가 필요합니다.
CGAR의 성능은 아키텍처 및 데이터셋에 따라 달라질 수 있으며, 최적의 하이퍼파라미터 설정을 위한 추가적인 실험이 필요합니다.
👍