Sign In

Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm

Created by
  • Haebom
Category
Empty

저자

Hyeonjun Kim, Kanghoon Lee, Junho Park, Jiachen Li, Jinkyoo Park

개요

본 논문은 다중 에이전트 강화 학습(MARL)을 활용하여 무인 수상 차량(USV) 군집의 탐색 및 구조, 감시, 선박 보호 등 복잡한 문제를 해결하는 방법을 제시합니다. 기존 MARL의 한계인 사용자 선호도 반영의 어려움을 해결하기 위해, 인간 피드백을 활용한 강화 학습(RLHF) 기반의 새로운 접근 방식을 제안합니다. 이 방법은 에이전트 수준의 피드백 시스템을 통해 에이전트 내부, 에이전트 간, 팀 내부 피드백을 구분하여 크레딧 할당 문제를 해결합니다. 직접적인 인간 피드백의 어려움을 극복하기 위해 대규모 언어 모델(LLM) 평가자를 사용하여 지역 제약, 충돌 회피, 작업 할당 등의 피드백 시나리오를 통해 접근 방식을 검증합니다. 결과적으로 USV 군집 정책을 효과적으로 개선하여 공정성과 성능 일관성을 유지하면서 다중 에이전트 시스템의 주요 과제를 해결합니다.

시사점, 한계점

시사점:
RLHF를 MARL에 적용하여 사용자 선호도를 효과적으로 반영하는 새로운 방법 제시
에이전트 수준 피드백 시스템을 통해 크레딧 할당 문제 해결
LLM 평가자 활용으로 인간 피드백의 효율성 증대 및 신뢰도 향상
USV 군집 제어 분야에서의 실질적인 문제 해결 및 성능 향상
공정성과 성능 일관성 유지
한계점:
LLM 평가자의 성능에 대한 의존도가 높음 (LLM의 편향이나 오류 가능성)
다양한 환경이나 상황에 대한 일반화 성능 검증 필요
실제 USV 군집 시스템에 적용 시 발생할 수 있는 추가적인 문제점 고려 필요
인간 피드백의 양과 질에 대한 의존도가 여전히 존재할 가능성
👍