오프라인-온라인 강화 학습(O2O-RL)의 두 가지 주요 과제인 다양한 동작의 제한된 범위와 온라인 적응 중의 분포 이동을 해결하기 위해, 대규모 언어 모델 사전 학습 및 미세 조정을 기반으로 하는 통합 생성 프레임워크인 UEPO를 제안합니다. UEPO는 멀티 시드 동역학 인식 확산 정책, 동적 발산 정규화, 확산 기반 데이터 증강 모듈을 포함하며, D4RL 벤치마크에서 기존 방법 대비 상당한 성능 향상을 보였습니다.
시사점, 한계점
•
다양한 동작을 효율적으로 포착하고 물리적으로 의미 있는 정책 다양성을 유지하는 통합 프레임워크 제시.
•
확산 기반 데이터 증강을 통해 동역학 모델 일반화 성능 향상.
•
D4RL 벤치마크에서 기존 O2O-RL 방법론 대비 우수한 성능 입증.
•
제안하는 방법론이 특정 환경(예: D4RL)에서만 검증되었을 수 있으며, 다양한 로봇 태스크에 대한 일반화 성능 추가 검증 필요.