본 논문은 인간과 기계의 정렬 문제를 해결하기 위해 다중 모달 대규모 언어 모델(LLM)을 이용한 보상 함수 생성 및 개선 파이프라인인 VIRAL을 제시한다. VIRAL은 주어진 환경과 목표 프롬프트 또는 주석이 달린 이미지를 바탕으로 자율적으로 보상 함수를 생성하고 상호작용적으로 개선한다. 개선 과정에는 인간 피드백이나 비디오 LLM이 생성한 에이전트 정책 설명 비디오를 활용할 수 있다. 5가지 Gymnasium 환경에서 VIRAL을 평가한 결과, 새로운 행동 학습을 가속화하는 동시에 사용자 의도와의 정렬을 향상시키는 것을 보여주었다. 소스 코드와 데모 비디오는 공개되어 있다.