Sign In

Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples

Created by
  • Haebom
Category
Empty

저자

Fangxu Yu, Lai Jiang, Haoqiang Kang, Shibo Hao, Lianhui Qin

개요

본 논문은 대규모 언어 모델(LLM)의 다단계 추론에서 다양한 해결책을 생성하는 능력을 향상시키는 새로운 방법인 Flow of Reasoning (FoR)을 제안합니다. 기존의 방법들이 주로 추론 정확도에만 초점을 맞춘 것과 달리, FoR은 제한된 데이터로 추론의 질과 다양성을 모두 향상시키는 것을 목표로 합니다. FoR은 다단계 LLM 추론을 DAG 구조의 추론 그래프 상의 마르코프 흐름으로 공식화하고, GFlowNet 기법을 적용하여 목표 문제의 보상에 비례하는 확률로 다양한 경로를 샘플링하도록 LLM을 미세 조정합니다. BlocksWorld, Game24, Rubik's Cube, 1D-ARC, GSM8k, ProntoQA 등 다양한 추론 과제에서 기존 방법들을 능가하는 성능을 보였습니다.

시사점, 한계점

시사점:
제한된 데이터로 LLM의 추론 품질과 다양성을 효과적으로 향상시키는 새로운 방법(FoR) 제시.
다양한 추론 과제에서 기존 방법 대비 우수한 성능을 입증.
창의적이고 고품질의 다양한 해결책 발견 가능성 제시.
GFlowNet 기반의 새로운 LLM 미세 조정 프레임워크 제공.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 유형의 문제에 대한 적용성 및 확장성 검증 필요.
GFlowNet에 대한 의존성으로 인한 계산 비용 증가 가능성.
사용된 데이터셋의 특성에 따른 성능 편향 가능성.
👍