Pseudocode-Guided Structured Reasoning for Automating Reliable Inference in Vision-Language Models

작성자

Haebom

카테고리

Empty

저자

Weicong Ni, Tianbao Jiang, Linlin Wang

💡 개요

로봇 자동화의 핵심으로 부상하는 Vision-Language Models(VLMs)는 환각(hallucination) 현상으로 인해 의사 결정에서 치명적인 오류를 유발하며 안전 및 신뢰성 위험을 초래합니다. 이러한 문제를 해결하기 위해 본 논문은 PStar(Pseudocode-guided Structured Reasoning) 프레임워크를 제안하며, 이는 추상적 추론 함수와 모듈식 추론 전략을 표현하는 구조화된 유사코드 라이브러리를 활용합니다. 질문의 난이도를 평가하고 적절한 추론 전략을 동적으로 선택하는 Difficulty Feature Vector(DFV)를 설계하여 VLM의 견고성과 해석 가능성을 향상시킵니다.

🔑 시사점 및 한계

•

PStar 프레임워크는 VLM의 환각 현상을 크게 줄여 신뢰할 수 있는 추론을 자동화하는 데 효과적입니다.

•

POPE 및 MMStar와 같은 벤치마크에서 GPT-4V를 능가하는 최첨단 성능을 달성하여 실제 환경에서의 VLM 적용 가능성을 높였습니다.

•

질문 난이도에 따라 적응적으로 추론 전략을 선택하는 메커니즘을 통해 VLM의 견고성과 해석 가능성을 향상시키는 새로운 방향을 제시합니다.

•

PStar 프레임워크의 일반화 성능과 더 복잡하고 동적인 실제 작업 환경에서의 적용 가능성에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage