Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Comparative Analysis of 47 Context-Based Question Answer Models Across 8 Diverse Datasets

Created by
  • Haebom
Category
Empty

저자

Muhammad Muneeb, David B. Ascher, Ahsan Baidar Bakht

개요

문맥 기반 질문 응답(CBQA) 모델의 성능을 벤치마킹하여, 추가적인 미세 조정 없이 다양한 데이터셋에서 가장 성능이 좋은 모델을 식별하는 연구. Hugging Face에서 제공하는 47개의 CBQA 모델을 8개의 서로 다른 데이터셋에 대해 평가하였으며, 가장 성능이 좋은 모델은 SQuAD v2 또는 SQuAD v1 데이터셋으로 훈련되었다. ahotrod/electra_large_discriminator_squad2_512 모델이 43%의 정확도로 가장 우수했고, 유전자 알고리즘을 사용하여 여러 모델의 응답을 통합하여 전체 정확도를 향상시키기도 했다.

시사점, 한계점

시사점:
특정 데이터셋에 대해 모델을 재훈련할 필요성을 최소화하여 다양한 환경에서 CBQA 모델을 쉽게 사용할 수 있도록 함.
ahotrod/electra_large_discriminator_squad2_512 모델이 여러 데이터셋에서 우수한 성능을 보임.
유전자 알고리즘을 사용하여 여러 모델의 결과를 통합하여 정확도를 향상시킬 수 있음을 보여줌.
Bert-large-uncased-whole-word-masking-finetuned-squad 모델이 IELTS 데이터셋에서 82%의 정확도를 달성함.
한계점:
모델의 계산 시간은 컨텍스트 길이와 모델 크기에 따라 달라짐.
답변 길이가 길어질수록 모델 성능이 감소하는 경향이 있음.
컨텍스트 복잡도에 따라 모델 성능이 영향을 받음.
전체적인 정확도가 낮을 수 있음 (ahotrod/electra_large_discriminator_squad2_512 모델이 43% 정확도).
👍