DailyQA는 매주 질문이 업데이트되는 자동 업데이트 동적 데이터셋으로, 특정 날짜에 대한 질문에 대한 답변을 포함합니다. Wikipedia 수정 로그의 일일 업데이트를 활용하여 데이터 필터링, 쿼리 생성 합성, 품질 검사, 답변 추출 및 쿼리 분류의 완전 자동화 파이프라인을 구현합니다. 이 벤치마크는 대규모 언어 모델(LLM)이 빠르게 변화하는 사실적 데이터를 처리하고 여러 도메인을 다루는 질문에 답하는 것을 요구합니다. 웹 검색 증강을 사용한 다양한 RAG 파이프라인을 통해 여러 오픈소스 및 클로즈드소스 LLM을 평가하고, 시간에 민감한 웹 정보를 처리하는 다양한 모델의 능력을 비교합니다. 웹 검색 결과의 재순위 지정이 중요하다는 것을 발견했습니다. 결과는 LLM이 자주 업데이트되는 정보를 처리하는 데 여전히 상당한 어려움을 겪고 있음을 나타내며, DailyQA 벤치마킹이 LLM 및 RAG 시스템의 발전 방향에 대한 귀중한 통찰력을 제공함을 시사합니다.