Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations

Created by
  • Haebom
Category
Empty

저자

Ran Tian, Kratarth Goel

개요

본 논문은 대규모 언어 모델(LLM) 기반의 움직임 생성 모델에서 토큰 예측 목표와 인간의 선호도 간의 차이를 해결하는 새로운 방법을 제시합니다. 기존의 사후 학습 선호도 정렬 방법은 많은 양의 인간 주석이 필요하지만, 본 연구는 사전 학습 데모에 내재된 암묵적 선호도를 활용하여 인간의 개입 없이 선호도 순위를 구성합니다. 이를 통해 사전 학습된 모델의 생성 동작의 현실성을 향상시키고, 추가적인 인간 주석이나 높은 계산 비용 없이 대규모 모방 기반 모델과 비교할 만한 성능을 달성합니다. 특히 대규모 교통 시뮬레이션에 적용하여 효과를 검증했습니다.

시사점, 한계점

시사점:
사전 학습 데모의 암묵적 선호도를 활용하여 인간 주석 없이 효과적인 사후 학습 선호도 정렬을 수행할 수 있음을 보여줌.
대규모 모방 학습 기반 모델과 유사한 성능을 저렴한 비용으로 달성 가능함.
대규모 교통 시뮬레이션과 같은 복잡한 시스템에 적용 가능성을 제시함.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 실험이 필요함.
다른 종류의 움직임 생성 태스크에 대한 적용 가능성을 검증해야 함.
사전 학습 데모의 질에 따라 성능이 크게 영향을 받을 수 있음.
👍