Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Offline Learning and Forgetting for Reasoning with Large Language Models

Created by
  • Haebom

저자

Tianwei Ni, Allen Nie, Sapana Chaudhary, Yao Liu, Huzefa Rangwala, Rasool Fakoor

개요

대규모 언어 모델(LLM)에서 추론 시 검색을 활용하는 것은 복잡한 수학 및 추론 문제를 해결하는 데 효과적이지만, 계산 비용과 추론 시간을 증가시킨다. 이 문제를 해결하기 위해, 다양한 검색 방법에서 파생된 성공적인(학습) 및 실패한(망각) 추론 경로를 쌍을 이루지 않은 상태로 파인 튜닝하여 모델에 검색 기능을 직접 통합하는 효과적인 접근 방식을 제안한다. 단순한 파인 튜닝은 모델의 검색 능력을 저하시킬 수 있다는 문제점을 확인하고, 이를 더 작은 학습률로 완화할 수 있음을 보여준다. Game-of-24 및 Countdown 산술 퍼즐에 대한 실험에서, 추론 시 검색 기반과 비교하여 오프라인 파인 튜닝 시 검색 생성 데이터를 사용하면 성공률을 약 23% 향상시키면서 추론 시간을 180배 줄일 수 있음을 보여준다. 또한, 학습 및 망각 목표는 감독 학습 파인 튜닝 및 선호도 기반 방법을 지속적으로 능가한다.

시사점, 한계점

시사점:
추론 시 검색 방식의 단점인 높은 계산 비용과 긴 추론 시간을 해결하는 새로운 접근 방식 제시.
오프라인 파인 튜닝을 통해 모델에 검색 기능을 효과적으로 통합하여 성능 향상 및 추론 시간 단축.
학습 및 망각 목표를 활용한 파인 튜닝 방식의 우수성 입증.
한계점:
특정 유형의 문제(Game-of-24, Countdown)에 대한 실험 결과에 국한됨.
모델의 검색 능력 저하를 완화하기 위한 더 작은 학습률 사용, 최적의 학습률 설정에 대한 추가 연구 필요.
파인 튜닝 과정에서 사용되는 데이터의 양과 질, 그리고 모델의 일반화 능력에 대한 추가적인 분석 필요.
👍