본 논문은 산업 수준의 ML 모델 개발에 드는 높은 비용을 줄이기 위해 MatTA 프레임워크를 제안합니다. MatTA는 Teacher-TA-Student 구조를 활용하여 정확도가 높은 여러 개의 Student 모델을 학습합니다. TA 모델은 Student 모델보다 크고 용량이 커서 Teacher 모델과의 관계를 개선하고 도메인별 전문성을 더욱 향상시킵니다. 하나의 학습 과정으로 여러 개의 Student 모델을 생성하여 정확도와 서비스 비용 간의 절충을 가능하게 합니다. 실제 프로덕션 환경의 A/B 테스트와 GPT-2 Medium을 이용한 실험을 통해 성능 향상을 입증합니다.
시사점, 한계점
•
시사점:
◦
산업 수준의 ML 모델 개발 비용 절감 가능성 제시
◦
정확도와 서비스 비용 간의 효과적인 절충 방안 제공
◦
하나의 학습으로 다양한 서빙 옵션 제공
◦
실제 A/B 테스트를 통한 실효성 검증 (20% 성능 향상)
◦
공개 모델(GPT-2 Medium)을 이용한 실험 결과 제시 (SAT 수학 24% 이상, LAMBADA 10% 이상 성능 향상)
•
한계점:
◦
제안된 방법의 효과는 독점 데이터셋과 모델에 대한 실험 결과에 기반하며, 일반화 가능성에 대한 추가 연구 필요
◦
공개 모델을 이용한 실험 결과는 제한적이며, 다양한 모델과 데이터셋에 대한 추가적인 검증 필요