Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Offline Learning and Forgetting for Reasoning with Large Language Models

Created by
  • Haebom

저자

Tianwei Ni, Allen Nie, Sapana Chaudhary, Yao Liu, Huzefa Rangwala, Rasool Fakoor

개요

본 논문은 대규모 언어 모델의 추론 시간 검색을 활용하여 복잡한 수학 및 추론 문제 해결 능력을 향상시키는 기존 방법의 높은 계산 비용 및 추론 시간 문제를 해결하기 위해, 다양한 검색 방법에서 얻은 성공 및 실패 추론 경로를 이용하여 모델을 미세 조정하는 새로운 접근 방식을 제안합니다. 기존의 미세 조정이 모델의 검색 능력을 저하시킬 수 있다는 점을 밝히고, 작은 학습률을 사용하여 이를 완화할 수 있음을 보여줍니다. Game-of-24 및 Countdown 추론 벤치마크 실험 결과, 오프라인 미세 조정을 위한 데이터로 CoT(Chain-of-Thought) 생성 데이터 대신 검색 생성 데이터를 사용하면 추론 시간 검색 기준선보다 성공률이 약 23% 향상되고 추론 시간이 180배 단축됨을 보여줍니다. 또한, 제안하는 학습 및 망각 목적 함수는 지도 학습 미세 조정 및 기호 기반 방법을 꾸준히 능가합니다.

시사점, 한계점

시사점:
추론 시간 검색의 높은 계산 비용 및 추론 시간 문제를 효과적으로 해결하는 새로운 방법 제시.
오프라인 미세 조정을 통해 추론 시간 검색 기준선 대비 성공률을 크게 향상시키고 추론 시간을 획기적으로 단축.
지도 학습 미세 조정 및 기호 기반 방법보다 우수한 성능을 보이는 학습 및 망각 목적 함수 제시.
한계점:
제안된 방법의 성능 향상은 특정 벤치마크(Game-of-24 및 Countdown)에 국한될 가능성 존재.
다양한 유형의 문제 및 대규모 언어 모델에 대한 일반화 성능 평가가 추가적으로 필요.
작은 학습률을 사용하는 것이 최적의 방법인지, 다른 하이퍼파라미터 조정이 성능에 미치는 영향에 대한 추가 연구 필요.
👍