MolLangBench는 분자-언어 인터페이스 작업(언어 프롬프트 기반 분자 구조 인식, 편집 및 생성)을 평가하기 위한 종합적인 벤치마크입니다. 정확하고 모호하지 않으며 결정적인 결과를 보장하기 위해 자동 화학 정보학 도구를 사용하여 인식 작업을 구성하고, 엄격한 전문가 주석 및 검증을 통해 편집 및 생성 작업을 큐레이션했습니다. 선형 문자열, 분자 이미지 및 분자 그래프를 포함한 다양한 분자 표현과 언어를 연결하는 모델의 평가를 지원합니다. 최첨단 모델 평가 결과, 인간에게는 직관적으로 간단한 인식 및 편집 작업에서 가장 성능이 좋은 모델(o3)조차도 각각 79.2%와 78.5%의 정확도에 그쳤으며, 생성 작업에서는 29.0%의 정확도로 더 낮은 성능을 보였습니다. 이는 현재 AI 시스템이 초기 분자 인식 및 조작 작업에서도 상당한 한계를 가지고 있음을 보여줍니다. MolLangBench는 화학 응용 분야에 더 효과적이고 신뢰할 수 있는 AI 시스템을 위한 연구를 촉진할 것으로 기대됩니다.