Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs

Created by
  • Haebom

저자

Chang Li, Yaren Zhang, Haoran Lv, Qiong Cao, Chao Xue, Xiaodong He

개요

본 논문은 대규모 언어 모델(LLM)의 효율적인 암묵적 추론을 위한 프레임워크를 제시합니다. 기존의 사고 과정(CoT) 프롬프팅 방식은 계산 비용이 많이 들고 속도가 느리다는 단점이 있는데, 본 논문에서는 계산 과정을 텍스트로 명시적으로 생성하지 않고 잠재 공간에서 추론하는 방법을 제안합니다. 이를 위해 계층적 강화 학습 프레임워크 내에서 잠재적 사고 과정을 시간적으로 확장된 추상적 행동(옵션)으로 모델링하고, 변분 마르코프 옵션 비평가(VMOC) 알고리즘을 이용하여 다양한 옵션을 잠재적 임베딩으로 학습합니다. 연속 MDP 동형 사상 이론을 확장하여 잠재 공간에서의 정책 학습이 원래 복잡한 문제의 최적 해결책을 보존함을 증명하고, 감독 미세 조정(SFT) 데이터를 활용하여 인간 추론 시연을 잠재 옵션 공간으로 증류하는 콜드 스타트 절차를 제안합니다. 복잡한 논리적 추론 벤치마크와 움직임 과제에서의 실험 결과는 제안된 프레임워크의 효과를 보여줍니다.

시사점, 한계점

시사점:
LLM의 효율적인 암묵적 추론을 위한 새로운 프레임워크 제시
계산 비용 및 속도 문제 해결을 위한 잠재 공간 기반 추론 방식 제안
변분 마르코프 옵션 비평가(VMOC) 알고리즘을 이용한 효과적인 잠재적 사고 과정 학습
연속 MDP 동형 사상 이론 확장을 통한 이론적 기반 마련
감독 미세 조정(SFT) 데이터 활용을 통한 콜드 스타트 절차 제안
논리적 추론 및 제어 과제에서의 우수한 성능 검증
한계점:
제안된 프레임워크의 일반화 성능에 대한 추가 연구 필요
다양한 유형의 문제에 대한 적용성 및 확장성 평가 필요
VMOC 알고리즘의 학습 안정성 및 효율성 개선 필요
잠재 공간의 해석 가능성 및 투명성 확보 방안 연구 필요
👍