본 논문은 대규모 언어 모델의 환각 현상을 완화하기 위해 개발된 검색 증강 생성(RAG) 프레임워크의 한계를 극복하고자, 복잡한 다단계 추론 시나리오에서 효과적인 Bi-RAR (Bidirectional Retrieval-Augmented Reasoning)을 제안한다. Bi-RAR은 각 중간 단계를 순방향 및 역방향으로 공동 평가하여, 단계별 정보 완결성을 확보하기 위해 Kolmogorov 복잡성을 기반으로 한 양방향 정보 거리를 도입한다. 이 거리는 현재 추론이 정답으로부터 얼마나 떨어져 있는지, 그리고 질문에 얼마나 잘 대답하는지를 측정한다. 또한, 초기 궤적 정렬에 중점을 둔 다중 목표 강화 학습 프레임워크를 채택하여 양방향 신호 하에서 추론을 최적화한다.
시사점, 한계점
•
시사점:
◦
Bi-RAR은 검색 엔진과의 효율적인 상호 작용 및 추론을 가능하게 한다.
◦
양방향 정보 거리를 통해 각 단계의 정보 완결성을 평가하는 새로운 접근 방식을 제시한다.
◦
다중 목표 강화 학습을 통해 추론 과정을 최적화한다.
◦
7개의 벤치마크에서 기존 방법들을 능가하는 성능을 입증했다.
•
한계점:
◦
Kolmogorov 복잡성을 언어 모델 확률을 통해 근사하기 때문에, 근사치의 정확도에 따라 성능이 제한될 수 있다.