Sign In

LeMat-Synth: a multi-modal toolbox to curate broad synthesis procedure databases from scientific literature

Created by
  • Haebom
Category
Empty

저자

Magdalena Lederbauer, Siddharth Betala, Xiyao Li, Ayush Jain, Amine Sehaba, Georgia Channing, Gregoire Germain, Anamaria Leonescu, Faris Flaifil, Alfonso Amayuelas, Alexandre Nozadze, Stefan P. Schmid, Mohd Zaki, Sudheesh Kumar Ethirajan, Elton Pan, Mathilde Franckel, Alexandre Duval, N. M. Anoop Krishnan, Samuel P. Gleason

개요

본 논문은 재료 과학 문헌에서 합성 절차 및 성능 데이터를 자동으로 추출하고 구성하기 위해 대규모 언어 모델(LLM)과 시각 언어 모델(VLM)을 활용하는 다중 모드 도구 상자를 제안한다. 81,000개의 오픈 액세스 논문을 큐레이션하여 재료 과학에 특정한 온톨로지에 따라 구조화된 LeMat-Synth (v 1.0) 데이터 세트를 생성했다. 이 데이터 세트는 35가지 합성 방법과 16가지 재료 클래스에 걸쳐 있는 합성 절차를 포함한다. 추출 품질은 전문가 주석과 확장 가능한 LLM-as-a-judge 프레임워크를 통해 2,500개의 합성 절차 하위 집합에서 엄격하게 평가되었다. 또한 새로운 코퍼스 및 합성 도메인으로의 커뮤니티 주도 확장을 지원하도록 설계된 모듈식 오픈 소스 소프트웨어 라이브러리를 공개한다. 궁극적으로 이 연구는 비정형 문헌을 기계 판독 가능한 정보로 변환하기 위한 확장 가능한 인프라를 제공하며, 합성 절차의 예측 모델링과 합성-구조-특성 관계 모델링의 기반을 마련한다.

시사점, 한계점

시사점:
재료 과학 문헌에서 합성 절차 및 성능 데이터를 자동으로 추출하고 구성하는 새로운 접근 방식 제시.
35가지 합성 방법과 16가지 재료 클래스에 걸쳐 있는 LeMat-Synth (v 1.0) 데이터 세트 구축.
전문가 주석 및 LLM-as-a-judge 프레임워크를 활용한 추출 품질의 엄격한 평가.
커뮤니티 확장을 위한 모듈식 오픈 소스 소프트웨어 라이브러리 공개.
합성 절차 예측 모델링 및 합성-구조-특성 관계 모델링의 기반 마련.
한계점:
LLM 및 VLM의 성능에 의존하는 추출 정확도.
데이터 세트가 특정 재료 및 합성 방법으로 제한될 수 있음.
데이터 세트의 확장성 및 유지 관리와 관련된 문제.
모델의 일반화 가능성에 대한 추가 평가 필요.
👍