従来のビジョン言語モデル(VLM)は、視覚的幻覚の問題を経験します。これは、生成された応答が視覚的入力に基づいていない不正確さを含む現象です。モデルの微調整なしでこの問題を解決しようとする試みは、対照的に言語の偏りを減らすか、デコード中の視覚的な埋め込みの重みを増幅することによって幻覚を軽減します。しかし、このアプローチは、細かい視覚的細部を捉える能力が限られている。この研究では、注意メカニズムに基づいて関連する視覚トークンを繰り返し分離し、その領域を拡大してモデルがデコード中の細かい視覚的詳細に集中するように誘導する新しい視覚デコード方法であるPerception Magnifier(PM)を提案します。 PMは、各復号段階で構造的およびコンテキスト情報を維持しながら重要な領域を拡大することで、VLMが視覚入力の正確なレビューを強化し、より正確で忠実な応答を生成することができます。広範な実験結果は,PMが幻覚緩和だけでなく,言語生成を改善すると同時に,強力な推論能力を維持することを示した。