Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning

Created by
  • Haebom
Category
Empty

저자

Hao Cui, Zahra Shamsi, Gowoon Cheon, Xuejian Ma, Shutong Li, Maria Tikhanovskaya, Peter Norgaard, Nayantara Mudur, Martyna Plomecka, Paul Raccuglia, Yasaman Bahri, Victor V. Albert, Pranesh Srinivasan, Haining Pan, Philippe Faist, Brian Rohr, Michael J. Statt, Dan Morris, Drew Purves, Elise Kleeman, Ruth Alcantara, Matthew Abraham, Muqthar Mohammad, Ean Phing VanLee, Chenfei Jiang, Elizabeth Dorfman, Eun-Ah Kim, Michael P Brenner, Viren Jain, Sameera Ponda, Subhashini Venugopalan

개요

CURIE는 대규모 언어 모델(LLM)의 과학적 문제 해결 능력을 평가하기 위한 새로운 벤치마크입니다. 재료 과학, 응축 물질 물리학, 양자 컴퓨팅, 지리 공간 분석, 생물 다양성, 단백질 등 6개 분야의 전문가들이 10가지 과제, 총 580개의 문제와 해결책 쌍을 엄선하여 구성되었습니다. 실험 및 이론적 워크플로우를 모두 포함하며, 도메인 전문 지식, 긴 문맥 정보 이해, 다단계 추론을 필요로 합니다. 다양한 LLM들을 평가한 결과, Gemini Flash 2.0과 Claude-3이 여러 분야에서 높은 이해도를 보였지만, GPT-4o 및 command-R+는 단백질 서열 분석 과제에서 현저히 낮은 성능을 보였습니다. 최고 성능이 32%에 그쳐 향상 여지가 매우 크다는 것을 보여줍니다.

시사점, 한계점

시사점: LLM의 과학적 문제 해결 능력 평가를 위한 새로운 벤치마크인 CURIE를 제시하여, LLM 개발 방향을 제시합니다. 다양한 분야의 과제를 통해 LLM의 강점과 약점을 파악할 수 있습니다. Gemini Flash 2.0과 Claude-3의 우수한 성능은 LLM의 발전 가능성을 보여줍니다.
한계점: 최고 성능이 32%로 아직 개선의 여지가 큽니다. 특정 과제(예: 단백질 서열 분석)에서 모델의 성능이 매우 낮게 나타났습니다. CURIE 벤치마크의 과제 구성 및 평가 방식에 대한 추가적인 검토가 필요할 수 있습니다.
👍