본 논문은 실제 환경에서 작동하는 구현체 에이전트가 모호하고 불완전한 인간의 지시를 해석해야 하는 문제를 다룹니다. 가정용 로봇은 모호성을 인식하고 관련 질문을 통해 사용자 의도를 정확히 파악하여 작업을 효과적으로 수행해야 합니다. 이를 위해 연구진은 가정 환경에서 모호한 지시를 받고 특정 물체를 가져와야 하는 Ask-to-Act 과제를 제시합니다. 에이전트는 부분적으로 관측 가능한 환경에서 탐색하면서 최소한의 관련 질문을 전략적으로 함으로써 모호성을 해결해야 합니다. 이 문제를 해결하기 위해, 연구진은 LLM이 생성한 보상을 사용하는 온라인 강화 학습(RL)을 통해 다중 모달 대규모 언어 모델(MLLM)을 시각-언어-행동(VLA) 정책으로 미세 조정하는 새로운 접근 방식을 제안합니다. 이 방법은 이러한 에이전트를 훈련하기 위해 대규모의 인간 데모나 수동으로 설계된 보상이 필요하지 않습니다. GPT-4o를 포함한 강력한 제로샷 기준 모델 및 지도 학습 방식으로 미세 조정된 MLLM과 비교 평가를 수행했으며, RL로 미세 조정된 MLLM이 모든 기준 모델보다 $19.1$-$40.3$의 상당한 차이로 우수한 성능을 보이며 새로운 장면과 작업에 대한 일반화 성능도 우수함을 보여줍니다. 본 연구는 LLM이 생성한 보상과 온라인 RL을 사용하여 행동하고 도움을 요청할 수 있는 VLA 에이전트로 MLLM을 적용한 최초의 사례입니다.
시사점, 한계점
•
시사점:
◦
LLM 기반의 온라인 강화학습을 통해 모호한 지시를 해석하고 적절한 질문을 통해 작업을 성공적으로 수행하는 에이전트 개발 가능성을 제시.
◦
대규모 인간 데모나 수동으로 설계된 보상 없이 효과적인 에이전트 훈련 가능성을 보여줌.
◦
제로샷 기준 모델 대비 성능 향상을 통해 제안된 방법의 우수성을 입증.
◦
새로운 장면과 작업에 대한 일반화 성능이 우수함을 확인.
•
한계점:
◦
Ask-to-Act 과제라는 특정한 환경과 작업에 국한된 결과. 다른 환경이나 작업으로의 일반화 가능성에 대한 추가 연구 필요.