Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs

Created by
  • Haebom
Category
Empty

저자

Yuanhao Li, Mingshan Liu, Hongbo Wang, Yiding Zhang, Yifei Ma, Wei Tan

DRAFT-RL: Chain-of-Draft Reasoning with Multi-Agent Reinforcement Learning

개요

DRAFT-RL은 대규모 언어 모델(LLM)을 위한 새로운 프레임워크로, 멀티 에이전트 강화 학습(RL)에 Chain-of-Draft(CoD) 추론을 통합합니다. 단일 응답을 생성하는 대신, 각 에이전트는 쿼리당 여러 초안을 생성하고, 동료 에이전트와 학습된 보상 모델에 의해 평가됩니다. 이를 통해 가장 유망한 궤적을 식별하고, 선택된 초안을 통해 미래의 추론 전략을 개선합니다. DRAFT-RL은 명시적인 다중 경로 탐색, 동료 지침 반성 및 보상 정렬 선택을 가능하게 하여 보다 강력하고 해석 가능한 LLM 에이전트 동작을 구현합니다. 코드 합성, 기호 수학 및 지식 집약적 QA를 포함한 복잡한 추론 작업에서 기존의 반사 및 RL 기반 에이전트보다 정확도와 수렴 속도 면에서 뛰어난 성능을 보입니다.

시사점, 한계점

시사점:
CoD 추론을 멀티 에이전트 RL에 통합하여 LLM 에이전트의 성능을 향상시켰습니다.
명시적인 다중 경로 탐색, 동료 지침 반성, 보상 정렬 선택을 통해 더 나은 추론 전략을 가능하게 합니다.
코드 합성, 기호 수학, 지식 집약적 QA 등 복잡한 추론 작업에서 기존 방법론 대비 우수한 성능을 보였습니다.
한계점:
논문 내에서 구체적인 한계점 언급은 없습니다.
👍