MolLangBench: A Comprehensive Benchmark for Language-Prompted Molecular Structure Recognition, Editing, and Generation
Created by
Haebom
저자
Feiyang Cai, Jiahui Bai, Tao Tang, Guijuan He, Joshua Luo, Tianyu Zhu, Srikanth Pilla, Gang Li, Ling Liu, Feng Luo
개요
MolLangBench는 언어 프롬프트를 사용한 분자 구조 인식, 편집, 생성과 같은 분자-언어 인터페이스 작업을 평가하기 위해 설계된 포괄적인 벤치마크입니다. 정확하고 명확하며 결정론적인 출력을 보장하기 위해 자동 화학정보학 도구를 사용하여 인식 작업을 구성하고, 엄격한 전문가 주석 및 검증을 통해 편집 및 생성 작업을 큐레이션했습니다. MolLangBench는 선형 문자열, 분자 이미지 및 분자 그래프를 포함한 다양한 분자 표현과 언어 간의 인터페이스를 지원합니다. 최첨단 모델(GPT-5)은 인식 및 편집 작업에서 각각 86.2%와 85.5%의 정확도를 달성했지만, 생성 작업에서는 43.0%의 정확도만 기록하며 성능의 한계를 보였습니다.
시사점, 한계점
•
시사점:
◦
MolLangBench는 분자-언어 인터페이스 작업에 대한 AI 시스템의 성능을 평가하기 위한 표준화된 벤치마크를 제공합니다.
◦
현재 AI 시스템이 인간에게 직관적인 분자 인식 및 조작 작업에서조차 상당한 한계를 보임을 보여줍니다.
◦
화학 분야에서 보다 효과적이고 신뢰할 수 있는 AI 시스템 연구를 촉진할 수 있습니다.
•
한계점:
◦
최고 성능 모델(GPT-5)이 인식 및 편집 작업에서 86.2%와 85.5%의 정확도를 기록하며, 생성 작업에서는 43.0%의 낮은 정확도를 보임.