Sign In

LRT-Diffusion: Calibrated Risk-Aware Guidance for Diffusion Policies

Created by
  • Haebom
Category
Empty

저자

Ximan Sun, Xiang Cheng

LRT-Diffusion: 위험을 인지하는 오프라인 강화 학습을 위한 확산 정책

개요

LRT-Diffusion은 오프라인 강화 학습을 위한 위험을 인지하는 샘플링 규칙을 도입합니다. 각 노이즈 제거 단계를 무조건적 사전 확률과 상태 조건부 정책 헤드 사이의 순차적 가설 검정으로 취급합니다. Log-likelihood ratio를 누적하고, 사용자 지정 Type-I 수준 α를 충족하도록 임계값 τ가 한 번 보정된 로지스틱 컨트롤러로 조건부 평균을 제어합니다. 이를 통해 고정된 푸시에서 사용자 해석 가능한 위험 예산으로 증거 기반 조정을 수행합니다. 표준 훈련(DDPM 구조에서 두 개의 헤드와 표준 엡실론 예측)을 유지하며, Q-그래디언트와 자연스럽게 결합할 수 있습니다. D4RL MuJoCo task에서 LRT-Diffusion은 원하는 α를 준수하면서 강력한 Q-guided baseline보다 return-OOD trade-off를 향상시킵니다. 이론적으로 레벨-알파 보정, 간결한 안정성 경계, LRT가 Q-guidance를 능가하는 경우를 보여주는 return 비교를 제시합니다. LRT-Diffusion은 오프라인 RL을 위한 확산 정책에 원칙적이고 보정된 위험 제어를 추가하는 drop-in, inference-time method입니다.

시사점, 한계점

위험을 인지하는 샘플링 규칙 도입: 각 노이즈 제거 단계를 순차적 가설 검정으로 처리하여 통계적 위험 개념을 제공합니다.
사용자 지정 가능한 위험 제어: Type-I 오류 수준 α를 통해 위험 예산을 조정 가능합니다.
Q-그래디언트와의 결합: Q-그래디언트와 자연스럽게 결합하여 활용과 보수성 사이의 연속성을 제공합니다.
향상된 return-OOD trade-off: D4RL MuJoCo task에서 강력한 baseline보다 성능을 개선합니다.
이론적 보장: 레벨-알파 보정, 안정성 경계, return 비교를 통해 이론적 근거를 제공합니다.
Inference-time method: 훈련 과정에 영향을 미치지 않고, 추론 시간에만 적용 가능합니다.
한계점은 논문에 명시되지 않았습니다.
👍