Sign In

Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks

Created by
  • Haebom
Category
Empty

저자

Michael Matthews, Michael Beukman, Chris Lu, Jakob Foerster

개요

본 논문은 오프라인 데이터셋을 이용한 자기 지도 학습으로 훈련된 대규모 모델이 텍스트 및 이미지 영역에서 놀라운 성능을 보였지만, 순차적 의사결정 문제에서 행동하는 에이전트에 대해 동일한 일반화를 달성하는 것은 여전히 해결되지 않은 과제임을 지적합니다. 이를 위해 본 논문은 수천만 개의 2D 물리 기반 작업을 절차적으로 생성하고 이를 사용하여 물리적 제어를 위한 일반 강화 학습(RL) 에이전트를 훈련하는 방법을 제시합니다. 이를 위해, 로봇 보행 및 파지에서 비디오 게임 및 고전적인 RL 환경에 이르기까지 다양한 작업을 통합된 프레임워크 내에서 나타낼 수 있는 개방형 물리 기반 RL 환경 공간인 Kinetix를 소개합니다. Kinetix는 훈련 중 수십억 개의 환경 단계를 저렴하게 시뮬레이션할 수 있도록 하는 새로운 하드웨어 가속 물리 엔진인 Jax2D를 사용합니다. 훈련된 에이전트는 2D 공간에서 강력한 물리적 추론 능력을 보여주며, 본 적 없는 인간이 설계한 환경을 제로샷으로 해결할 수 있습니다. 또한, 관심 있는 작업에 대해 이 일반 에이전트를 미세 조정하면 tabula rasa에서 RL 에이전트를 훈련하는 것보다 훨씬 더 강력한 성능을 보여줍니다. 여기에는 표준 RL 훈련이 완전히 실패하는 일부 환경을 해결하는 것도 포함됩니다. 본 연구는 대규모 혼합 품질 사전 훈련이 온라인 RL에 대해 실행 가능함을 보여주는 것이며, Kinetix가 이를 더 자세히 조사하는 데 유용한 프레임워크 역할을 할 것이라고 기대합니다.

시사점, 한계점

시사점:
대규모 자기 지도 학습 기반의 강화학습 에이전트를 통해 물리적 추론 능력 향상 및 제로샷 학습 가능성을 보여줌.
Kinetix라는 새로운 물리 기반 RL 환경 공간 및 Jax2D라는 하드웨어 가속 물리 엔진을 통해 효율적인 대규모 사전 훈련 가능성 제시.
미세 조정을 통해 표준 RL 훈련으로는 해결할 수 없는 환경까지 해결 가능성을 보여줌.
온라인 RL을 위한 대규모 혼합 품질 사전 훈련의 실행 가능성을 제시.
한계점:
현재 2D 환경에 국한되어 있으며, 3D 환경으로 확장하는 데 어려움이 있을 수 있음.
생성된 작업의 품질이 균일하지 않을 수 있으며, 이는 에이전트 성능에 영향을 미칠 수 있음.
Kinetix 환경의 일반화 성능에 대한 추가적인 검증이 필요함.
실제 로봇 시스템에 적용 가능성에 대한 추가적인 연구가 필요함.
👍