Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reinforced Reasoning for Embodied Planning

Created by
  • Haebom

저자

Di Wu, Jiaxin Fan, Junzhe Zang, Guanbo Wang, Wei Yin, Wenhao Li, Bo Jin

개요

본 논문은 시각적 관찰과 자연어 목표를 바탕으로 일관된 다단계 의사결정을 내리는 구현 계획(embodied planning)에 대해 다룹니다. 기존의 시각-언어 모델(VLMs)이 정적인 지각 작업에는 뛰어나지만, 상호 작용 환경에서의 계획에 필요한 시간적 추론, 공간적 이해 및 상식적 근거(commonsense grounding)에는 어려움을 겪는다는 점을 지적합니다. 이를 해결하기 위해, R1 스타일의 추론 향상을 구현 계획에 도입하는 강화 학습 미세 조정 프레임워크를 제시합니다. 강력한 폐쇄형 모델에서 고품질 데이터셋을 증류하고, 지도 학습 미세 조정(SFT)을 통해 모델에 구조화된 의사결정 사전 정보를 제공합니다. 다단계 행동 품질에 맞춘 규칙 기반 보상 함수를 설계하고, 일반화된 강화 선호도 최적화(GRPO)를 통해 정책을 최적화합니다. Embench 벤치마크를 사용하여 도메인 내 및 도메인 외 시나리오 모두에서 평가한 결과, GPT-4o-mini 및 70B+ 이상의 오픈소스 기준 모델보다 성능이 훨씬 뛰어나고, 보이지 않는 환경에 대한 강력한 일반화 능력을 보여줍니다. 결론적으로, 강화 학습 기반 추론이 구현 AI의 장기 계획 발전에 기여할 가능성을 보여줍니다.

시사점, 한계점

시사점:
R1 스타일 추론 향상을 활용한 강화 학습 미세 조정 프레임워크를 통해 구현 계획의 성능을 크게 향상시켰습니다.
GPT-4o-mini 및 대규모 오픈소스 모델을 능가하는 성능을 달성했습니다.
보이지 않는 환경에 대한 강력한 일반화 능력을 입증했습니다.
강화 학습 기반 추론이 장기 계획 문제 해결에 효과적임을 보여줍니다.
한계점:
사용된 모델이 폐쇄형 모델에서 증류된 데이터셋에 의존하는 점. 오픈소스 모델에 대한 의존성을 줄이는 방향으로의 연구가 필요합니다.
규칙 기반 보상 함수의 설계가 성능에 영향을 미칠 수 있으며, 더욱 일반적이고 효율적인 보상 함수 설계에 대한 연구가 필요합니다.
Embench 벤치마크의 한계가 결과에 영향을 미칠 수 있습니다. 더 다양하고 복잡한 환경에서의 평가가 필요합니다.
👍