Sign In

DEEPAMBIGQA: Ambiguous Multi-hop Questions for Benchmarking LLM Answer Completeness

Created by
  • Haebom
Category
Empty

저자

Jiabao Ji, Min Li, Priyanshu Kumar, Shiyu Chang, Saloni Potdar

개요

본 논문은 검색 도구가 통합된 대규모 언어 모델(LLM)이 개방 도메인 질문 응답(QA)에서 보여주는 잠재력에도 불구하고, 이름의 모호성 해결과 다단계 추론을 요구하는 복잡한 질문에 완전한 답변을 제공하는 데 어려움을 겪는다는 점을 지적한다. 이를 해결하기 위해 텍스트 코퍼스와 연결된 지식 그래프를 기반으로 하는 자동 데이터 생성 파이프라인인 DeepAmbigQAGen을 개발하여, 이름 모호성 해결 및 다단계 추론을 체계적으로 포함하는 자연스럽고 검증 가능한 질문을 생성한다. DeepAmbigQA라는 새로운 데이터셋을 구축하여 GPT-5를 포함한 최첨단 모델의 성능을 평가한 결과, 특히 모호한 질문에서 정확히 일치하는 답변율이 매우 낮다는 것을 확인했다. 이는 정보 수집과 답변 완성도에 중점을 둔 더욱 강력한 QA 시스템의 필요성을 강조한다.

시사점, 한계점

시사점:
개방 도메인 QA에서 LLM의 이름 모호성 및 다단계 추론 능력의 한계를 명확히 제시함.
DeepAmbigQAGen 파이프라인 및 DeepAmbigQA 데이터셋을 통해 복잡한 QA 문제 해결을 위한 새로운 접근 방식을 제시함.
GPT-5를 포함한 최첨단 모델의 성능 평가를 통해 개선의 여지를 보여줌.
QA 시스템의 정보 수집 및 답변 완성도 향상의 필요성을 강조함.
한계점:
데이터셋의 규모가 제한적일 수 있음 (3,600개의 질문).
GPT-5를 제외한 다른 최첨단 모델에 대한 비교 분석이 부족할 수 있음.
제안된 DeepAmbigQAGen 파이프라인의 일반화 가능성에 대한 추가 연구가 필요함.
다양한 종류의 모호성 및 추론 유형에 대한 포괄적인 평가가 부족할 수 있음.
👍