Sign In

Adapting Interleaved Encoders with PPO for Language-Guided Reinforcement Learning in BabyAI

Created by
  • Haebom
Category
Empty

저자

Aryan Mathur, Asaduddin Ahmed

개요

본 논문은 비전과 언어를 모두 이해해야 하는 과제에서 딥러닝 에이전트의 어려움을 해결하기 위해 Perception-Decision Interleaving Transformer (PDiT) 아키텍처를 구현하고, 텍스트 미션 임베딩과 시각적 장면 특징을 정렬하기 위해 CLIP에서 영감을 받은 대조 손실을 통합합니다. BabyAI GoToLocal 환경에서 PDiT 인코더를 평가한 결과, 표준 PPO 기반보다 안정적인 보상과 강력한 정렬을 달성하여, 통합된 자율 에이전트 개발에 대한 유망한 방향성을 제시합니다.

시사점, 한계점

시사점:
PDiT 아키텍처는 비전 및 언어 이해 과제에서 성능 향상을 보임.
의사 결정 과정의 피드백을 통해 인지 기능을 동적으로 개선함.
CLIP 기반 대조 손실을 통해 텍스트-비전 정렬 성능을 강화함.
자율 에이전트 개발의 새로운 가능성을 제시함.
한계점:
BabyAI GoToLocal 환경에서의 평가만 진행되었으므로, 다른 환경에서의 일반화 성능을 추가로 검증해야 함.
PDiT 아키텍처의 계산 비용과 효율성을 추가적으로 분석할 필요가 있음.
다양한 언어 및 비전 데이터셋에 대한 광범위한 실험을 통해 모델의 강점을 입증해야 함.
👍