Sign In

LLM2: Let Large Language Models Harness System 2 Reasoning

Created by
  • Haebom
Category
Empty

저자

Cheng Yang, Chufan Shi, Siheng Li, Bo Shui, Yujiu Yang, Wai Lam

개요

본 논문은 대규모 언어 모델(LLM)의 한계점을 해결하기 위해, 인간의 이중 과정 이론에서 영감을 얻은 새로운 프레임워크인 LLM2를 제안합니다. LLM2는 생성 모델(System 1)인 LLM과 검증 모델(System 2)로 구성되어 있습니다. LLM은 가능성 있는 결과를 생성하고, 검증 모델은 프로세스 기반 피드백을 제공하여 바람직한 결과와 바람직하지 않은 결과를 구분합니다. 검증 모델은 토큰 품질 탐색 전략을 통해 생성된 합성 프로세스 감독 데이터를 사용하여 쌍 비교 손실로 학습됩니다. 수학적 추론 벤치마크 실험 결과, LLM2는 Llama3-1B 모델의 GSM8K 정확도를 50.3%에서 57.8%(+7.5%)로 향상시켰으며, 자기 일관성과 결합하면 major@20 정확도를 56.2%에서 70.2%(+14.0%)로 더욱 향상시켰습니다.

시사점, 한계점

시사점:
LLM의 한계를 극복하기 위한 새로운 프레임워크인 LLM2 제시
인간의 이중 과정 이론을 LLM에 적용하여 성능 향상
프로세스 기반 검증 모델을 통해 바람직한 결과 생성
수학적 추론 작업에서 성능 향상을 실험적으로 검증
자기 일관성과의 결합을 통한 추가적인 성능 향상
한계점:
검증 모델 학습에 사용된 합성 데이터의 일반화 성능에 대한 추가 연구 필요
다른 유형의 작업에 대한 LLM2의 일반화 성능 평가 필요
프로세스 기반 검증 모델의 복잡성 및 계산 비용 고려 필요
실험 결과가 특정 벤치마크(GSM8K) 및 모델(Llama3-1B)에 국한됨. 다양한 벤치마크와 모델에 대한 추가 실험 필요
👍