문맥 기반 질문 응답(CBQA) 모델의 성능을 벤치마킹하여, 추가적인 미세 조정 없이 다양한 데이터셋에서 가장 성능이 좋은 모델을 식별하는 연구. Hugging Face에서 제공하는 47개의 CBQA 모델을 8개의 서로 다른 데이터셋에 대해 평가하였으며, 가장 성능이 좋은 모델은 SQuAD v2 또는 SQuAD v1 데이터셋으로 훈련되었다. ahotrod/electra_large_discriminator_squad2_512 모델이 43%의 정확도로 가장 우수했고, 유전자 알고리즘을 사용하여 여러 모델의 응답을 통합하여 전체 정확도를 향상시키기도 했다.