SealQA는 웹 검색 결과가 상충되거나, 잡음이 많거나, 도움이 되지 않는 경우 사실 확인 질문에 대한 검색 증강 언어 모델을 평가하기 위한 새로운 벤치마크입니다. SealQA는 세 가지 유형으로 구성됩니다. (1) 주요 벤치마크인 Seal-0과 (2) 사실 정확도와 추론 능력을 평가하는 Seal-Hard, 그리고 (3) "주사위 속 바늘 찾기" 설정에서 장문 맥락, 다중 문서 추론을 테스트하는 LongSeal입니다. 평가 결과, 최첨단 LLMs조차 모든 SealQA 유형에서 성능이 저조함을 보였습니다. 특히 Seal-0에서 o3 및 o4-mini와 같은 도구를 갖춘 최첨단 에이전트 모델은 최고 추론 성능에서 각각 17.1%와 6.3%의 정확도만 달성했습니다. DeepSeek-R1-671B 및 o3-mini와 같은 고급 추론 모델은 잡음이 많은 검색 결과에 매우 취약한 것으로 나타났습니다. 또한, 테스트 시간 계산량을 늘리는 것이 o3-mini, o4-mini 및 o3에서 신뢰할 수 있는 성능 향상으로 이어지지 않고, 성능이 정체되거나 심지어 감소하는 경우도 많았습니다. 최근 모델들은 "중간에 놓치는" 문제의 영향을 덜 받지만, 수많은 방해 요소가 있는 LongSeal에서는 여전히 관련 문서를 안정적으로 식별하지 못했습니다. 향후 연구를 촉진하기 위해 huggingface.co/datasets/vtllms/sealqa에서 SealQA를 공개합니다.