Sign In

Test-time Adaptation of Tiny Recursive Models

Created by
  • Haebom
Category
Empty

저자

Ronan Killian McGovern

개요

2025 ARC Prize competition에서 TRM(Tiny Recursive Models)이라는 700만 개의 매개변수를 가진 재귀 신경망을 사용하여 ARC 과제를 해결하려는 시도가 있었음. 이 모델은 공개 평가 세트에서 약 7.8%의 점수를 얻었지만, 경연 대회에서 허용된 컴퓨팅 자원을 초과했음. 이 논문은 공개 ARC 과제에서 사전 훈련된 작은 재귀 모델을 기반으로, 허용된 컴퓨팅 제한 내에서 효율적으로 경쟁 과제를 미세 조정하는 방법을 제시함. 구체적으로, 1,280개의 공개 과제에서 48시간 동안 4xH100 SXM GPU를 사용하여 70만+ 옵티마이저 단계를 거쳐 사전 훈련된 모델은 공개 평가 세트에서 약 10%의 점수를 달성함. 그 후, 이 모델은 경연 대회 기간 동안 단 12,500개의 그래디언트 단계로 사후 훈련되어 세미-프라이빗 평가 과제에서 6.67%의 점수를 기록함. 특히, 이러한 사후 훈련 성능은 LoRA 미세 조정 또는 작업 임베딩만 미세 조정하는 대신, 작은 모델의 전체 미세 조정을 통해 달성됨.

시사점, 한계점

시사점:
사전 훈련된 작은 재귀 모델을 활용하여 제한된 컴퓨팅 자원 내에서 경쟁 과제를 효과적으로 해결할 수 있음을 보여줌.
전체 모델 미세 조정을 통해, LoRA나 task embedding만을 활용하는 것보다 더 높은 성능을 달성할 수 있음을 입증함.
한계점:
공개 평가 세트에서의 성능(10%)과 세미-프라이빗 평가 세트에서의 성능(6.67%) 간의 차이가 존재하며, 모델의 일반화 능력에 대한 추가적인 연구가 필요함.
모델의 실제 적용 가능성을 평가하기 위해 더 다양한 데이터셋과 평가 지표에 대한 추가적인 실험이 필요함.
제한된 정보로 인해 모델 구조, 사전 훈련 방법, 구체적인 미세 조정 전략 등에 대한 자세한 분석이 부족함.
👍