ToolEQA: Embodied Question Answering with Tool Integration and Multi-Step Reasoning
개요
본 논문은 3D 환경을 탐색하여 질문에 답하는 Embodied Question Answering (EQA) 문제 해결을 위해, 외부 도구를 통합하고 다단계 추론을 수행하는 에이전트 ToolEQA를 제안합니다. ToolEQA는 외부 도구를 활용하여 보다 유용한 정보를 획득하고, 다음 추론 단계에서 효과적인 탐색 방향을 설정하여 보다 정확한 답변을 도출합니다. 이를 위해, 다단계 추론 궤적과 답변을 포함하는 대규모 EQA 데이터셋 EQA-RT를 구축하는 파이프라인을 개발했습니다. 실험 결과, ToolEQA는 기존 최첨단 모델보다 성공률을 향상시켰으며, 다양한 데이터셋에서 우수한 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
외부 도구 통합을 통한 EQA 성능 향상: ToolEQA는 외부 도구 활용을 통해 보다 정확하고 효율적인 답변을 생성합니다.
◦
다단계 추론 능력 강화: 다단계 추론을 통해 복잡한 EQA 문제를 해결하는 능력을 향상시켰습니다.
◦
대규모 데이터셋 구축: EQA-RT 데이터셋 구축을 통해 모델 학습 및 평가를 위한 풍부한 데이터를 제공합니다.
◦
다양한 데이터셋에서의 성능 입증: HM-EQA, OpenEQA, EXPRESS-Bench 등 다양한 EQA 데이터셋에서 우수한 성능을 보였습니다.