본 논문은 기존 텍스트-이미지 생성 모델이 텍스트 프롬프트에 내포된 지식이 불확실한 경우(예: 4월 개봉 영화 포스터 생성 시 2월에 출시된 모델은 캐릭터 디자인 및 스타일을 알 수 없음) 제대로 작동하지 못하는 문제를 해결하기 위해 인터넷 기반 증강 텍스트-이미지 생성(IA-T2I) 프레임워크를 제안합니다. IA-T2I는 참조 이미지를 제공하여 불확실한 지식을 명확히 합니다. 구체적으로, 능동적 검색 모듈은 참조 이미지 필요 여부를 판단하고, 계층적 이미지 선택 모듈은 검색 엔진 결과 중 가장 적합한 이미지를 선택하며, 자기 반성 메커니즘은 생성된 이미지가 텍스트 프롬프트와 일치하도록 지속적으로 평가하고 개선합니다. 세 가지 유형의 불확실한 지식(알려져 있지만 드문, 알려지지 않은, 모호한)을 포함하는 Img-Ref-T2I 데이터셋을 수집하여 프레임워크 성능을 평가했으며, GPT-4o를 이용한 인간 선호도 평가와 비교하여 약 30% 향상된 결과를 보였습니다.