Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Token-Level Uncertainty-Aware Objective for Language Model Post-Training

Created by
  • Haebom
Category
Empty

저자

Tingkai Liu, Ari S. Benjamin, Anthony M. Zador

개요

본 논문은 인과 관계 언어 모델링에서 토큰 수준의 불확실성을 마스크 최대 가능도 추정(masked MLE)과 자기 증류 두 가지 학습 목표와 연결합니다. 마스크 MLE이 인식론적 불확실성을 줄이고 효과적인 토큰 수준 자동 커리큘럼 학습 기법으로 작용함을 보여줍니다. 하지만 마스크 MLE은 과적합되기 쉽고, 분포 외 작업에서 성능을 개선하거나 유지하려면 자기 증류 규제가 필요합니다. 제안된 학습 목표(마스크 MLE과 자기 증류 결합)를 통해 Gemma, LLaMA, Phi 여러 아키텍처와 Alpaca, ShareGPT, GSM8K 여러 데이터셋에서 성능이 크게 향상됨을 보여주며, 과적합을 완화하는 동시에 학습 후 적응성을 유지합니다. 결론적으로 불확실성 인식 학습이 언어 모델 학습을 향상시키는 효과적인 메커니즘임을 시사합니다.

시사점, 한계점

시사점:
마스크 MLE이 인식론적 불확실성을 줄이고 효과적인 자동 커리큘럼 학습 기법으로 활용될 수 있음을 밝힘.
마스크 MLE과 자기 증류를 결합한 학습 목표가 여러 아키텍처와 데이터셋에서 성능 향상을 가져옴.
불확실성 인식 학습이 언어 모델 학습 향상에 효과적임을 제시.
과적합 문제를 완화하면서 모델의 적응성을 유지하는 방법 제시.
한계점:
마스크 MLE이 과적합되기 쉬우며, 자기 증류를 통한 추가적인 규제가 필요함.
제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요할 수 있음. (다양한 아키텍처 및 데이터셋에서 테스트했지만, 모든 경우에 적용 가능한지에 대한 추가 검증 필요)
👍