Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation

Created by
  • Haebom

저자

Weiming Wu, Zi-kang Wang, Jin Ye, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 기하학적 추론 능력 향상을 위해 고품질의 대규모 데이터를 생성하는 새로운 신경-기호 프레임워크인 NeSyGeo를 제안합니다. 기존 방법들의 다양성 및 수치적 일반화의 한계를 극복하기 위해, 엔티티-관계-제약 패러다임에 기반한 도메인 특화 언어를 제안하고, 이를 통해 기하학 문제를 포괄적으로 표현하고 생성적 행동을 정의합니다. 이를 기반으로 기호 시퀀스를 생성하고 시각 및 텍스트 표현으로 매핑하여 다양한 질문-답변(Q&A) 쌍을 생성하는 기호-시각-텍스트 파이프라인을 설계합니다. NeSyGeo 프레임워크를 사용하여 10만 개의 샘플을 포함하는 NeSyGeo-CoT 및 NeSyGeo-Caption 데이터셋을 구축하고, MLLM의 기하학적 추론 능력 평가를 위한 새로운 벤치마크인 NeSyGeo-Test를 공개합니다. 실험 결과, NeSyGeo는 강화 학습 및 지도 학습 미세 조정 모두에서 여러 MLLM의 성능을 상당하고 일관되게 향상시키는 것을 보여줍니다.

시사점, 한계점

시사점:
기존 기하 추론 데이터 생성 방법의 한계(다양성 부족, 수치적 일반화 부족)를 극복하는 새로운 신경-기호 프레임워크 NeSyGeo 제안.
도메인 특화 언어를 활용하여 기하학 문제를 효과적으로 표현하고 다양한 Q&A 쌍 생성.
NeSyGeo-CoT, NeSyGeo-Caption 데이터셋과 NeSyGeo-Test 벤치마크 공개.
강화 학습 및 지도 학습 미세 조정에서 MLLM의 성능을 상당히 향상 (MathVision +15.8%, MathVerse +8.4%, GeoQA +7.3%까지 향상).
소규모 데이터셋과 적은 학습 횟수만으로도 성능 향상을 달성 (4k 샘플, 2 epochs).
모델 크기보다 데이터셋의 질이 중요함을 보여줌 (4B 모델이 8B 모델 성능 능가).
한계점:
현재는 평면 기하학에 국한. 다른 기하 영역으로 확장 필요.
NeSyGeo 프레임워크의 일반화 능력에 대한 추가적인 연구 필요.
생성된 데이터셋의 품질에 대한 객관적인 평가 기준 마련 필요.
👍