본 논문은 대규모 언어 모델의 점진적 학습 시 발생하는 catastrophic forgetting 문제를 해결하기 위해 Joint Flashback Adaptation (JFA) 기법을 제안합니다. JFA는 기존의 경험 재현, 최적화 제약, 작업 차별화 방식의 한계를 극복하고자, 새로운 작업에 적응할 때 이전 작업의 제한된 프롬프트(flashbacks)를 사용하여 모델 출력의 편차를 제어합니다. 또한, flashbacks와 새로운 작업 사이에 잠재적인 작업을 보간하여 관련 잠재 작업, 새로운 작업, flashbacks를 공동으로 학습함으로써 flashbacks의 데이터 부족 문제를 완화하고 지식 공유를 용이하게 합니다. JFA는 경험 재현 데이터 없이도 제한된 수의 flashbacks만으로 작동하며 작업 종류에 관계없이 적용 가능합니다. 1000개 이상의 instruction-following, 산술 추론, 일반 추론 작업에 대한 실험 결과, JFA가 새로운 작업에 대한 일반화 성능을 향상시키고 이전 작업에 대한 망각을 줄이는 데 우수한 성능을 보임을 확인했습니다.