From Passive Reuse to Active Reasoning: Grounding Large Language Models for Neuro-Symbolic Experience Replay

작성자

Haebom

카테고리

Empty

저자

Yanan Xiao, Yixiang Tang, Zechen Feng, Lu Jiang, Minghao Yin, Pengyang Wang

💡 개요

본 논문은 강화학습에서 경험 재현(experience replay)이 샘플의 의미론적 중요도 대신 수치적 오류에 기반하여 수동적으로 작동하는 문제를 지적합니다. 이를 해결하기 위해, 대규모 언어 모델(LLM)을 활용하여 행동 규칙을 추출하고 이를 신경-기호 논리 형태로 변환하여 경험 재현 분포를 동적으로 재조정하는 신경-기호 경험 재현(NSER) 프레임워크를 제안합니다. NSER는 추상적 지식이 정책 최적화에 직접 영향을 미치도록 함으로써 샘플 효율성과 수렴 속도를 개선합니다.

🔑 시사점 및 한계

•

강화학습에서 LLM을 활용하여 경험 재현을 능동적인 지식 구성 메커니즘으로 전환함으로써 데이터 효율성을 높일 수 있습니다.

•

언어 모델 기반의 추상적 규칙 학습과 신경망 기반의 수치 최적화 간의 간극을 신경-기호적 파이프라인을 통해 효과적으로 해소합니다.

•

다양한 유형의 강화학습 벤치마크에서 기존 방식 대비 뛰어난 성능 향상을 보입니다.

•

LLM의 제로샷 능력을 활용하므로, 특정 도메인에 대한 사전 학습 없이도 적용 가능성이 높습니다.

•

제안된 신경-기호 논리 표현의 복잡성 및 LLM 추론의 비용과 효율성에 대한 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage