Sign In

Mixture-of-Experts Meets In-Context Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Wenhao Wu, Fuhong Liu, Haoru Li, Zican Hu, Daoyi Dong, Chunlin Chen, Zhi Wang

개요

In-context 강화 학습(ICRL)에서 겪는 상태-행동-보상 데이터의 고유한 멀티모달리티와 다양한 결정 태스크의 이질적인 특성이라는 두 가지 과제를 해결하기 위해, 트랜스포머 기반 의사 결정 모델에 mixture-of-experts (MoE) 아키텍처를 도입한 T2MIR (Token- and Task-wise MoE for In-context RL) 프레임워크를 제안합니다. T2MIR은 토큰별 MoE와 태스크별 MoE를 활용하여 ICRL의 성능을 향상시키며, 태스크별 라우팅을 위해 대비 학습을 적용하여 태스크 관련 정보를 더욱 정확하게 포착합니다.

시사점, 한계점

MoE 아키텍처를 ICRL에 도입하여 ICRL의 성능을 개선하고 언어 및 비전 분야의 성과에 한 발 더 다가감.
토큰별 MoE는 입력 토큰의 다양한 의미를 포착하고, 태스크별 MoE는 다양한 태스크를 전문 전문가에게 라우팅하여 기울기 충돌을 완화함.
태스크별 라우팅을 위한 대비 학습을 통해 태스크 관련 정보의 정확한 포착을 가능하게 함.
제안된 T2MIR은 다양한 종류의 baseline보다 우수한 성능을 보임.
논문의 한계점은 명시되지 않음.
👍