Learning to Decide with Just Enough: Information-Theoretic Context Summarization for CMDPs
Created by
Haebom
저자
Peidong Liu, Junjiang Lin, Shaowen Wang, Yao Xu, Haiqing Li, Xuhao Xie, Siyi Wu, Hao Li
개요
Contextual Markov Decision Processes (CMDP) 환경에서, 대규모 언어 모델(LLM)을 활용하여 고차원/비정형 컨텍스트를 저차원 의미론적 요약으로 압축하는 정보 이론적 요약 접근 방식을 제안합니다. 이 방법은 의사 결정에 중요한 단서를 유지하면서 중복성을 줄여 상태를 보강합니다. 근사 컨텍스트 충분성의 개념을 기반으로 CMDP에 대한 최초의 후회 경계와 지연-엔트로피 트레이드오프 특성화를 제공합니다. 다양한 벤치마크에서 기존 방법들을 능가하며 보상, 성공률, 샘플 효율성을 향상시키고, 지연 시간 및 메모리 사용량을 줄입니다.
시사점, 한계점
•
시사점:
◦
LLM 기반 요약을 통해 컨텍스트가 풍부하고 리소스가 제한된 환경에서 효율적인 의사 결정을 위한 확장 가능하고 해석 가능한 솔루션을 제공합니다.