Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL

Created by
  • Haebom
Category
Empty

저자

Zengjie Hu, Jiantao Qiu, Tianyi Bai, Haojin Yang, Binhang Yuan, Qi Jing, Conghui He, Wentao Zhang

개요

본 논문은 그룹 기반 정책 최적화 방법에서 발생하는 기울기 소실 문제를 해결하기 위해, 온라인 샘플 수준의 어려움 추정을 통해 동적으로 샘플을 선택하는 VADE 프레임워크를 제안합니다. VADE는 베타 분포를 사용한 온라인 샘플 수준 어려움 추정, 정보 획득을 최대화하는 Thompson 샘플러, 정책 진화 하에서 견고한 추정을 유지하는 두 가지 척도 사전 감쇠 메커니즘을 통합합니다. 이를 통해 가장 유익한 샘플을 동적으로 선택하여 추가 롤아웃 비용 없이 훈련 신호를 증폭시킵니다.

시사점, 한계점

시사점:
그룹 기반 강화 학습 알고리즘의 기울기 소실 문제를 효과적으로 해결.
온라인 샘플 수준의 어려움 추정을 통해 동적으로 샘플 선택.
성능과 샘플 효율성 측면에서 기존 방법론 대비 우수함.
계산 오버헤드 감소.
기존 그룹 기반 RL 알고리즘에 쉽게 통합 가능.
한계점:
논문에 명시된 한계점 없음.
👍