Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

Created by
  • Haebom

저자

Yiye Chen, Harpreet Sawhney, Nicholas Gyde, Yanan Jian, Jack Saunders, Patricio Vela, Ben Lundell

개요

본 논문은 대규모 언어 모델(LLM)을 이용한 기반된 공간 추론을 위한 구조적이고 직렬화 가능한 환경 표현으로서의 장면 그래프에 대해 제시한다. SG²라는 반복적인 스키마 기반 장면 그래프 추론 프레임워크를 제안하는데, 이는 다중 에이전트 LLM을 기반으로 한다. 에이전트는 추상적인 작업 계획 및 그래프 정보 쿼리 생성을 담당하는 추론 모듈(Reasoner)과 쿼리에 따른 코드 작성을 통해 해당 그래프 정보를 추출하는 검색 모듈(Retriever)의 두 모듈로 구성된다. 두 모듈은 반복적으로 협업하여 순차적 추론과 그래프 정보에 대한 적응적 주의를 가능하게 한다. 두 모듈 모두에게 제시되는 장면 그래프 스키마는 추론 및 검색 프로세스를 간소화하고 두 모듈 간의 협력을 안내하는 역할을 한다. 이를 통해 전체 그래프 데이터를 LLM에 제시할 필요가 없어지므로, 무관한 정보로 인한 환각 가능성을 줄일 수 있다. 여러 시뮬레이션 환경에서의 실험을 통해 제안된 프레임워크가 기존 LLM 기반 접근 방식 및 기준 단일 에이전트, 도구 기반 Reason-while-Retrieve 전략보다 수치적 질의응답 및 계획 작업에서 우수한 성능을 보임을 보여준다.

시사점, 한계점

시사점:
다중 에이전트 LLM 기반의 반복적 추론 프레임워크를 통해 LLM의 공간 추론 성능 향상.
장면 그래프 스키마 활용으로 LLM의 환각 문제 감소 및 추론 효율 증대.
기존 단일 에이전트 방식 대비 우수한 성능을 여러 시뮬레이션 환경에서 검증.
수치적 질의응답 및 계획 작업에서 효과적인 성능 입증.
한계점:
제안된 프레임워크의 일반화 가능성에 대한 추가적인 연구 필요.
다양한 유형의 장면 그래프 및 복잡한 환경에 대한 적용성 검증 필요.
실제 세계 환경에서의 성능 평가 및 적용성 연구 필요.
다중 에이전트 LLM간의 효율적인 협업 전략에 대한 추가적인 연구 필요.
👍