NeuroTrails: Training with Dynamic Sparse Heads as the Key to Effective Ensembling
Created by
Haebom
저자
Bram Grooten, Farid Hasanov, Chenxiang Zhang, Qiao Xiao, Boqian Wu, Zahra Atashgahi, Ghada Sokar, Shiwei Liu, Lu Yin, Elena Mocanu, Mykola Pechenizkiy, Decebal Constantin Mocanu
개요
본 논문은 딥러닝에서 앙상블 모델의 일반화 및 강건성 향상에 대한 기존 연구의 한계점을 해결하기 위해, 계산 자원을 절약하면서 앙상블 수준의 성능을 달성하는 새로운 모델인 NeuroTrails를 제안합니다. NeuroTrails는 동적으로 진화하는 토폴로지를 가진 희소 다중 헤드 아키텍처를 사용하며, 모델에 독립적인 학습 방식을 통해 다양한 예측 결과를 얻는 "골디락스 영역(Goldilocks zone)"을 달성합니다. 컴퓨터 비전 및 언어 작업에서의 실험 결과, ResNet-50/ImageNet, LLaMA-350M/C4 등 다양한 모델에서 정확도 향상 및 제로샷 일반화의 강건성 향상을 보이며, 매개변수 수를 크게 줄였음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
계산 자원을 크게 절약하면서 앙상블 모델 수준의 성능을 달성할 수 있는 새로운 아키텍처(NeuroTrails)를 제시.
◦
모델에 독립적인 학습 방식을 통해 다양한 예측 결과를 얻는 "골디락스 영역"을 실험적으로 확인.