Jinwu Hu, Zhitian Zhang, Guohao Chen, Xutao Wen, Chao Shuai, Wei Luo, Bin Xiao, Yuanqing Li, Mingkui Tan
개요
본 논문은 대규모 언어 모델(LLM)의 특정 도메인 일반화 및 다양한 언어 변이(분포 이동) 처리의 한계를 해결하기 위해, 테스트 시간 학습(TTL) 패러다임인 TLM을 제안합니다. TLM은 테스트 중에 레이블이 없는 테스트 데이터만을 사용하여 LLM을 목표 도메인에 동적으로 적응시킵니다. 논문에서는 레이블 없는 테스트 데이터의 입력 perplexity를 최소화함으로써 LLM의 예측 정확도를 높일 수 있다는 경험적 증거와 이론적 통찰력을 제시하고, 이를 바탕으로 LLM의 테스트 시간 학습 과정을 입력 perplexity 최소화로 공식화하여 LLM 성능을 자가 지도 방식으로 향상시킵니다. 또한, 높은 perplexity 샘플이 모델 최적화에 더 유용함을 관찰하고, 이러한 샘플을 적극적으로 선택하여 테스트 시간 업데이트에 중점을 두는 효율적인 샘플 학습 전략을 제시합니다. 마지막으로, 치명적인 망각을 완화하고 적응 안정성을 보장하기 위해 전체 매개변수 최적화 대신 저랭크 적응(LoRA)을 채택하여 경량 모델 업데이트를 수행하면서 모델의 원래 지식을 더 많이 보존합니다. TTL을 위한 AdaptEval 벤치마크를 제시하고, 실험을 통해 TLM이 도메인 지식 적응에서 기존 LLM에 비해 성능을 20% 이상 향상시킴을 보여줍니다.
시사점, 한계점
•
시사점:
◦
테스트 시간 학습(TTL)을 통해 LLM의 도메인 적응 성능을 크게 향상시킬 수 있음을 보여줌.