Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VIRAL: Vision-grounded Integration for Reward design And Learning

Created by
  • Haebom

저자

Valentin Cuzin-Rambaud, Emilien Komlenovic, Alexandre Faure, Bruno Yun

개요

인공지능 분야에서 인간과 기계의 정렬은 중요한 과제이며, 특히 강화 학습에서 보상 함수 설계의 문제점이 존재한다. 본 논문은 멀티 모달 LLM을 활용하여 보상 함수를 생성하고 개선하는 파이프라인인 VIRAL을 제안한다. VIRAL은 주어진 환경과 목표 프롬프트 또는 주석이 달린 이미지를 기반으로 자율적으로 보상 함수를 생성하고 대화형으로 개선한다. 개선 과정은 인간의 피드백을 통합하거나 에이전트의 정책을 비디오 형식으로 설명하는 비디오 LLM이 생성한 설명을 통해 안내받을 수 있다. 5개의 Gymnasium 환경에서 VIRAL을 평가한 결과, 새로운 행동 학습을 가속화하고 사용자의 의도와 더 잘 일치하는 결과를 보였다.

시사점, 한계점

멀티 모달 LLM을 활용한 보상 함수 생성 및 개선 파이프라인 개발
강화 학습에서 인간-기계 정렬 문제 해결에 기여
다양한 환경에서 새로운 행동 학습 가속화 및 사용자 의도 일치도 향상
개선 과정에서 인간의 피드백 또는 비디오 LLM 기반 설명 활용
제공된 환경 외의 환경에서의 일반화 가능성 추가 연구 필요
파이프라인의 효율성 및 계산 비용에 대한 추가 분석 필요
👍