대규모 비전-언어 모델(LVLMs)이 이미지 캡션 생성 및 시각적 질문 응답과 같은 작업에서 유용성이 크게 확장되었지만, 존재하지 않는 객체를 포함하거나 기존 객체를 잘못 표현함으로써 시각적 콘텐츠를 부정확하게 반영하는 설명을 생성하는 객체 환각 문제를 여전히 해결하지 못하고 있습니다. 데이터 증강 및 학습 없는 접근 방식과 같은 이전 방법들은 이 문제를 해결하려고 노력했지만, 여전히 확장성 문제에 직면하고 추가적인 외부 모듈에 의존하는 경우가 많습니다. 본 연구에서는 입력 이미지를 하위 이미지로 분할하고 어텐션 맵을 통해 가중치를 할당하여 로짓 분포를 결합하는 새로운 전략인 앙상블 디코딩(ED)을 제안합니다. 또한 로짓 분포를 보정하기 위한 ED 적응형 타당성 제약 조건과 속도가 중요한 애플리케이션을 위해 설계된 변형인 FastED를 제시합니다. 환각 벤치마크에 대한 광범위한 실험을 통해 제안된 방법이 최첨단 성능을 달성함을 보여주어 접근 방식의 효과를 검증합니다.