Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization
Created by
Haebom
Category
Empty
저자
Yi Zhang, Che Liu, Xiancong Ren, Hanchu Ni, Yingji Zhang, Shuai Zhang, Zeyuan Ding, Jiayu Hu, Haozhe Shan, Junbo Qi, Yan Bai, Dengjie Li, Jiachen Luo, Yidong Wang, Yong Dai, Zenglin Xu, Bin Shen, Qifan Wang, Jian Tang, Xiaozhu Ju
개요
Deliberate Practice Policy Optimization (DPPO)는 희소하고 한정된 데이터를 기반으로 학습 효율을 극대화하기 위해 고안된 메타인지적 ``Metaloop'' 훈련 프레임워크입니다. DPPO는 지도 학습 (역량 확장)과 강화 학습 (기술 개선)을 동적으로 번갈아 가며 수행하며, 이를 통해 약점을 자동으로 식별하고 목표 자원 할당이 가능합니다. DPPO는 통일된 선호 학습 프레임워크로 공식화될 수 있습니다. Pelican-VL 1.0이라는 DPPO 기반의 비전-언어 기반의 모델은 기본 모델보다 20.3% 성능 향상을 보였으며, 오픈소스 모델을 10.6% 초과합니다.
시사점, 한계점
•
시사점:
◦
희소한 실제 데이터 환경에서의 학습 효율성 향상.
◦
자원 제약적인 기존 방법론의 문제 해결.
◦
자동적인 약점 식별 및 목표 자원 할당을 통한 학습 효율 극대화.
◦
오픈 소스 모델 및 코드 공개를 통한 커뮤니티 기여.
◦
100B 파라미터 규모의 오픈소스 모델 성능 초과.
•
한계점:
◦
제공된 정보 내에서는 한계점에 대한 직접적인 언급 없음. (논문 내용을 더 자세히 살펴봐야 함)