SealQA는 웹 검색 결과가 상반되거나, 잡음이 많거나, 도움이 되지 않는 경우 사실 확인 질문에 대한 검색 증강 언어 모델을 평가하기 위한 새로운 벤치마크입니다. SealQA는 세 가지 유형으로 구성됩니다: (1) 주요 벤치마크인 Seal-0, (2) 사실 정확도와 추론 능력을 평가하는 Seal-Hard, (3) "찾기 어려운 정보" 설정에서 장문 맥락, 다중 문서 추론을 테스트하는 LongSeal. 평가 결과, 최첨단 대규모 언어 모델조차도 모든 SealQA 유형에서 성능이 저조함을 보여줍니다. 특히 Seal-0에서 최첨단 에이전트 모델조차 낮은 정확도를 기록했으며, 잡음이 많은 검색 결과에 취약함을 보였습니다. 또한, 테스트 시간 계산량을 늘려도 성능 향상이 크지 않거나 오히려 감소하는 경우도 있었습니다. LongSeal에서는 많은 방해 요소가 있는 경우 관련 문서를 안정적으로 식별하지 못했습니다. Hugging Face에서 SealQA 데이터셋을 공개하여 후속 연구를 지원합니다.