Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

Created by
  • Haebom
Category
Empty

저자

Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li

개요

MLLMs는 독립적인 문제 해결 시 강한 추론 능력을 보이지만, 반복적인 실수를 저지르는 경향이 있다. 기존의 메모리 기반 에이전트는 과거의 궤적을 재사용하지만, 단기적인 편향으로 인해 중요한 도메인 지식을 잃어버리는 문제가 있다. 또한, 멀티모달 환경에서 시각적 주의와 논리적 추론의 상호 작용을 보존하지 못한다. 이에 따라 시각적 주의 분산 패턴과 논리적 추론 오류를 별도로 인코딩하는 이중 스트림 메모리 프레임워크인 ViLoMem을 제안한다. ViLoMem은 멀티모달 의미 지식을 점진적으로 축적하고 업데이트하여 안정적이고 일반화 가능한 전략을 유지하면서 치명적인 망각을 방지한다. 여섯 개의 멀티모달 벤치마크에서 ViLoMem은 pass@1 정확도를 일관되게 향상시키고, 반복적인 시각적 및 논리적 오류를 크게 줄였다.

시사점, 한계점

시사점:
ViLoMem은 MLLMs의 장기적인 학습 능력을 향상시키기 위한 새로운 접근 방식을 제시한다.
이중 스트림 메모리 구조를 통해 멀티모달 정보를 효과적으로 활용하고, 오류 분석을 통해 학습 효율을 높인다.
다양한 벤치마크에서 우수한 성능을 입증하여 실용적인 가치를 보여준다.
한계점:
구체적인 구현 및 성능에 대한 더 자세한 분석이 필요하다.
다른 에이전트와의 비교 및 경쟁력 확보에 대한 추가 연구가 필요하다.
복잡한 멀티모달 환경에서의 일반화 능력에 대한 추가적인 검증이 필요하다.
👍