# Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension

### 저자

Haoran Xu, Hongyu Wang, Jiaze Li, Shunpeng Chen, Zizhao Tong, Jianzhong Ju, Zhenbo Luo, Jian Luan

### 💡 개요

본 논문은 기존 LLM의 수직적 추론 방식이 특정 사고 패턴에 고착되는 문제를 극복하고자, 시각적 정보에 대한 병렬적 추론 프레임워크인 Visual Para-Thinker를 제안합니다. 시각적 정보 분할의 중요성을 탐구하고, 이를 기반으로 Pa-Attention과 LPRoPE를 통합하여 추론 경로의 독립성과 다양성을 보장하는 새로운 MLLM 추론 방식을 제시합니다. 제안된 방식은 시각적 이해 분야에서 병렬 추론의 이점을 성공적으로 확장함을 보여줍니다.

### 🔑 시사점 및 한계

- 시각적 정보에 대한 병렬 추론 가능성을 최초로 제시하며, MLLM의 추론 능력 향상에 새로운 방향을 제시합니다.

- 다양한 시각적 이해 벤치마크에서 기존 방식 대비 우수한 성능을 입증하며, 병렬 추론의 효과를 시각 영역으로 확장했습니다.

- Pa-Attention과 LPRoPE의 통합을 통해 추론 경로의 독립성과 다양성을 확보하여, 모델의 사고 패턴 고착화를 방지하고 탐색 범위를 넓힙니다.

- 제안된 프레임워크의 확장성 및 다양한 종류의 시각적 추론 작업에 대한 적용 가능성에 대한 추가 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2602.13310)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
