In-context 강화 학습(ICRL)에서 겪는 상태-행동-보상 데이터의 고유한 멀티모달리티와 다양한 결정 태스크의 이질적인 특성이라는 두 가지 과제를 해결하기 위해, 트랜스포머 기반 의사 결정 모델에 mixture-of-experts (MoE) 아키텍처를 도입한 T2MIR (Token- and Task-wise MoE for In-context RL) 프레임워크를 제안합니다. T2MIR은 토큰별 MoE와 태스크별 MoE를 활용하여 ICRL의 성능을 향상시키며, 태스크별 라우팅을 위해 대비 학습을 적용하여 태스크 관련 정보를 더욱 정확하게 포착합니다.
시사점, 한계점
•
MoE 아키텍처를 ICRL에 도입하여 ICRL의 성능을 개선하고 언어 및 비전 분야의 성과에 한 발 더 다가감.
•
토큰별 MoE는 입력 토큰의 다양한 의미를 포착하고, 태스크별 MoE는 다양한 태스크를 전문 전문가에게 라우팅하여 기울기 충돌을 완화함.