Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning

Created by
  • Haebom
Category
Empty

저자

Wenda Wei, Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Lixin Su, Shuaiqiang Wang, Dawei Yin, Maarten de Rijke, Xueqi Cheng

Bi-RAR: Bidirectional Retrieval-Augmented Reasoning

개요

본 논문은 대규모 언어 모델의 환각 현상을 완화하기 위해 개발된 검색 증강 생성(RAG) 프레임워크의 한계를 극복하고자, 복잡한 다단계 추론 시나리오에서 효과적인 Bi-RAR (Bidirectional Retrieval-Augmented Reasoning)을 제안한다. Bi-RAR은 각 중간 단계를 순방향 및 역방향으로 공동 평가하여, 단계별 정보 완결성을 확보하기 위해 Kolmogorov 복잡성을 기반으로 한 양방향 정보 거리를 도입한다. 이 거리는 현재 추론이 정답으로부터 얼마나 떨어져 있는지, 그리고 질문에 얼마나 잘 대답하는지를 측정한다. 또한, 초기 궤적 정렬에 중점을 둔 다중 목표 강화 학습 프레임워크를 채택하여 양방향 신호 하에서 추론을 최적화한다.

시사점, 한계점

시사점:
Bi-RAR은 검색 엔진과의 효율적인 상호 작용 및 추론을 가능하게 한다.
양방향 정보 거리를 통해 각 단계의 정보 완결성을 평가하는 새로운 접근 방식을 제시한다.
다중 목표 강화 학습을 통해 추론 과정을 최적화한다.
7개의 벤치마크에서 기존 방법들을 능가하는 성능을 입증했다.
한계점:
Kolmogorov 복잡성을 언어 모델 확률을 통해 근사하기 때문에, 근사치의 정확도에 따라 성능이 제한될 수 있다.
다중 목표 강화 학습 프레임워크의 복잡성으로 인해 훈련 과정이 어려울 수 있다.
실제 환경에서의 적용 가능성 및 확장성에 대한 추가 연구가 필요하다.
👍