Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Temporal Sampling for Forgotten Reasoning in LLMs

Created by
  • Haebom

저자

Yuetai Li, Zhangchen Xu, Fengqing Jiang, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Xiang Yue, Radha Poovendran

개요

대규모 언어 모델(LLM)의 미세 조정은 추론 능력을 향상시키기 위한 것이지만, 본 논문에서는 역설적으로 모델이 훈련 중 이전에 정답을 맞혔던 문제를 푸는 방법을 잊어버리는 현상을 발견했습니다. 이 현상을 시간적 망각(temporal forgetting)이라고 명명하고, 모델 크기, 미세 조정 방법(강화 학습 및 지도 학습 미세 조정 모두), 여러 추론 벤치마크에 걸쳐 널리 퍼져 있음을 보여줍니다. 이러한 간극을 해결하기 위해 본 논문에서는 훈련 과정에서 여러 체크포인트의 출력을 가져오는 간단한 디코딩 전략인 시간적 샘플링(Temporal Sampling)을 제안합니다. 이 방법은 재훈련이나 앙상블 없이 잊혀진 해결책을 복구하고, 추론 성능을 크게 향상시키며(Pass@k에서 4~19점 향상), 여러 벤치마크에서 Majority@k를 지속적으로 향상시킵니다. 또한, 체크포인트에서 어댑터 가중치만 저장하여 유사한 이점을 최소한의 저장 비용으로 달성함을 보여주는 LoRA 적용 모델로 방법을 확장합니다. 시간적 샘플링은 훈련에 내재된 시간적 다양성을 활용하여 숨겨진 추론 능력을 드러내고 LLM을 평가하는 방식을 재고하는 실용적이고 계산 효율적인 방법을 제공합니다.

시사점, 한계점

시사점:
LLM의 미세 조정 과정에서 발생하는 시간적 망각 현상을 규명하고, 그 심각성을 다양한 벤치마크를 통해 제시.
시간적 샘플링이라는 효율적인 해결책을 제시하여 LLM의 추론 성능 향상에 기여.
LoRA와의 결합을 통해 저장 비용을 최소화하면서 성능 향상을 달성.
LLM 평가 방식에 대한 새로운 관점 제시.
한계점:
시간적 망각 현상의 근본적인 원인에 대한 심층적인 분석 부족.
시간적 샘플링의 최적 파라미터 설정에 대한 추가 연구 필요.
다양한 LLM 아키텍처 및 훈련 데이터셋에 대한 일반화 가능성 검증 필요.
👍