본 논문은 검색 도구가 통합된 대규모 언어 모델(LLM)이 개방 도메인 질문 응답(QA)에서 보여주는 잠재력에도 불구하고, 이름의 모호성 해결과 다단계 추론을 요구하는 복잡한 질문에 완전한 답변을 제공하는 데 어려움을 겪는다는 점을 지적한다. 이를 해결하기 위해 텍스트 코퍼스와 연결된 지식 그래프를 기반으로 하는 자동 데이터 생성 파이프라인인 DeepAmbigQAGen을 개발하여, 이름 모호성 해결 및 다단계 추론을 체계적으로 포함하는 자연스럽고 검증 가능한 질문을 생성한다. DeepAmbigQA라는 새로운 데이터셋을 구축하여 GPT-5를 포함한 최첨단 모델의 성능을 평가한 결과, 특히 모호한 질문에서 정확히 일치하는 답변율이 매우 낮다는 것을 확인했다. 이는 정보 수집과 답변 완성도에 중점을 둔 더욱 강력한 QA 시스템의 필요성을 강조한다.