Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning

Created by
  • Haebom

저자

Hao Cui, Zahra Shamsi, Gowoon Cheon, Xuejian Ma, Shutong Li, Maria Tikhanovskaya, Peter Norgaard, Nayantara Mudur, Martyna Plomecka, Paul Raccuglia, Yasaman Bahri, Victor V. Albert, Pranesh Srinivasan, Haining Pan, Philippe Faist, Brian Rohr, Ekin Dogus Cubuk, Muratahan Aykol, Amil Merchant, Michael J. Statt, Dan Morris, Drew Purves, Elise Kleeman, Ruth Alcantara, Matthew Abraham, Muqthar Mohammad, Ean Phing VanLee, Chenfei Jiang, Elizabeth Dorfman, Eun-Ah Kim, Michael P Brenner, Viren Jain, Sameera Ponda, Subhashini Venugopalan

개요

CURIE는 과학적 문제 해결에서 대규모 언어 모델(LLM)의 잠재력을 측정하기 위한 벤치마크입니다. 재료 과학, 응축 물질 물리학, 양자 컴퓨팅, 지리 공간 분석, 생물 다양성, 단백질 등 6개 분야의 전문가가 큐레이션한 10가지 과제, 총 580개의 문제와 해결책 쌍으로 구성됩니다. 실험 및 이론적 워크플로우 모두를 포함하며, 도메인 전문 지식, 긴 문맥 정보의 이해, 다단계 추론을 필요로 합니다. Gemini Flash 2.0과 Claude-3이 여러 분야에서 높은 이해도를 보였으나, GPT-4o와 command-R+는 단백질 시퀀싱 과제에서 성능이 현저히 떨어졌습니다. 최고 성능이 32%에 그쳐 모든 모델의 개선 여지가 큽니다.

시사점, 한계점

시사점: LLM의 과학적 문제 해결 능력 평가를 위한 새로운 벤치마크 CURIE 제시. 다양한 과학 분야의 문제를 포함하여 현실적인 과학 워크플로우를 반영. LLM의 강점과 약점을 파악하는 데 도움을 제공. 향후 LLM 개발 방향 제시.
한계점: 최고 성능이 32%로 아직 개선의 여지가 큼. 모든 과학 분야를 완벽하게 포괄하지 못할 수 있음. 벤치마크 자체의 설계에 따른 편향 가능성 존재.
👍