# ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding

### 저자

Mingyang Rao, Kehua Feng, Zhihui Zhu, Jiangzhen Fu, Hao Yu, Keyan Ding, Huajun Chen

### 💡 개요

화학 반응 다이어그램 이해에 있어 거대 언어 모델(LLM)의 한계를 극복하고자, 본 논문은 시각 정보와 의미론적 연결성을 강화하는 ChemVA 프레임워크를 제안한다. ChemVA는 시각 앵커 메커니즘으로 작용기 탐지를 수행하고, 시각 특징을 개체명으로 변환하여 LLM의 화학적 추론 능력을 활성화시킨다. 이를 통해 새로운 데이터셋인 OCRD-Bench에서 92.0%의 구조 인식 정확도를 달성하며, 다양한 LLM의 성능을 약 20%p 향상시키는 성과를 보였다.

### 🔑 시사점 및 한계

- 화학 반응 다이어그램의 시각적 복잡성과 의미론적 연결성을 효과적으로 처리하기 위한 새로운 프레임워크 ChemVA를 제시했다.

- 기존 LLM의 화학적 추론 능력을 크게 향상시키며, 특히 개방형 모델이 상용 최신 시스템과 경쟁할 수 있는 가능성을 열었다.

- OCRD-Bench라는 새로운 벤치마크 데이터셋 구축을 통해 화학 반응 다이어그램 이해 연구를 위한 기반을 마련했다.

- 향후 연구에서는 더 복잡하고 다양한 유형의 화학 반응 다이어그램에 대한 ChemVA의 일반화 성능을 향상시키고, 실제 화학 연구 및 발견에 적용하는 방안을 모색할 필요가 있다.

[PDF 보기](https://arxiv.org/pdf/2605.17214)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).