Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Graceful Forgetting in Generative Language Models

Created by
  • Haebom

저자

Chunyang Jiang, Chi-min Chan, Yiyang Cai, Yulong Liu, Wei Xue, Yike Guo

개요

본 논문은 사전 훈련된 언어 모델에서의 부정적 전이(negative transfer) 문제를 해결하기 위해, 새로운 프레임워크인 Learning With Forgetting (LWF)를 제안합니다. LWF는 Fisher Information Matrix를 활용하여 잊어야 할 지식에 대한 확신도를 계산하고, 높은 확신도를 가진 지식을 주기적으로 제거함으로써 부정적 전이를 완화합니다. 기존의 graceful forgetting 알고리즘을 생성형 언어 모델에 적용하는 어려움을 해결하고, 사전 훈련된 언어 모델에서의 지식 상호 작용 메커니즘을 완전히 밝히는 것은 어렵지만, graceful forgetting을 적용하면 미세 조정 성능을 향상시킬 수 있음을 실험적으로 보여줍니다.

시사점, 한계점

시사점:
생성형 언어 모델에서의 부정적 전이 문제 해결을 위한 새로운 프레임워크(LWF) 제시
Fisher Information Matrix를 활용한 forgetting confidence 계산 방법 제안
graceful forgetting 적용을 통한 미세 조정 성능 향상 확인
한계점:
사전 훈련된 언어 모델에서의 지식 상호 작용 메커니즘에 대한 완전한 규명은 여전히 어려움
LWF의 효과가 모든 생성형 언어 모델 및 모든 하위 작업에 일반화될 수 있는지에 대한 추가 연구 필요
다른 graceful forgetting 알고리즘과의 비교 분석 필요
👍