Browsing Lost Unformed Recollections (BLUR)은 일반 인공지능 어시스턴트를 위한 팁-오브-더-텅(tip-of-the-tongue, 알고 있는 내용이 떠오르지 않는 현상) 관련 지식 검색 및 추론 벤치마크입니다. BLUR은 다양한 모달리티와 언어의 입력을 검색하고 추론하며, 도구를 능숙하게 사용해야 풀 수 있는 573개의 실제 상황 기반 질문들을 포함합니다. 사람은 이 질문들에 대해 평균 98%의 정확도를 보이는 반면, 최고 성능 시스템은 약 56%의 정확도를 기록했습니다. 일반 인공지능 어시스턴트의 이 어려운 과제 해결을 위한 발전을 촉진하기 위해, 350개의 질문을 공개 리더보드를 통해 공개하고, 250개 질문의 답변을 비공개로 유지하며, 나머지는 비공개 테스트 세트로 사용합니다.