Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
Created by
Haebom
저자
Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li
개요
대규모 자연 장면 이미지에 대해 대조 학습된 비주얼 인코더를 활용하는 대규모 다중 모달 모델(LMM)은 다양한 시각적 지각 작업에서 놀라운 성능을 달성했습니다. 그러나 요약된 설명에 대한 대조 학습의 고유한 한계는 특히 기하학적 문제 해결의 중요한 시나리오에서 세밀한 추론 능력을 근본적으로 제한합니다. 기하학적 이해를 향상시키기 위해, 본 논문은 다이어그램 생성 코드를 변경하여 생성된 생성 기반 하드 네거티브를 사용하는 이미지 기반 대조 학습과 수정된 기하학적 설명에서 파생된 규칙 기반 네거티브 및 캡션 유사성을 기반으로 선택된 검색 기반 네거티브를 사용하는 텍스트 기반 대조 학습을 결합하는 새로운 하드 네거티브 대조 학습 프레임워크를 비주얼 인코더에 대해 제안합니다. 본 논문에서는 강력한 네거티브 학습 방법인 MMCLIP(Multimodal Math CLIP)을 사용하여 CLIP을 학습하고, 이후 기하학적 문제 해결을 위한 LMM을 학습합니다. 실험 결과, 훈련된 모델인 MMGeoLM은 세 가지 기하학적 추론 벤치마크에서 다른 오픈소스 모델보다 훨씬 뛰어난 성능을 보입니다. 7B 크기임에도 불구하고, GPT-4o와 같은 강력한 클로즈드소스 모델에 필적할 수 있습니다. 또한, 서로 다른 네거티브 샘플 구성 방법과 네거티브 샘플 수가 LMM의 기하학적 추론 성능에 미치는 영향을 연구하여 유익한 결론을 얻었습니다. 코드와 데이터셋은 https://github.com/THU-KEG/MMGeoLM에서 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
생성 기반 하드 네거티브와 규칙 기반 및 검색 기반 네거티브를 결합한 새로운 하드 네거티브 대조 학습 프레임워크를 제안하여 LMM의 기하학적 추론 성능을 향상시켰습니다.
◦
7B 크기의 MMGeoLM 모델이 GPT-4o와 같은 강력한 클로즈드소스 모델에 필적하는 성능을 달성했습니다.
◦
다양한 네거티브 샘플 구성 방법과 수의 영향을 분석하여 기하학적 추론 성능 향상에 대한 통찰력을 제공했습니다.
◦
오픈소스 코드와 데이터셋을 공개하여 연구의 재현성과 확장성을 높였습니다.
•
한계점:
◦
제안된 방법의 성능 향상이 특정 기하학적 문제 벤치마크에 국한될 수 있습니다. 다른 유형의 문제에 대한 일반화 성능은 추가 연구가 필요합니다.
◦
하드 네거티브 생성 방법의 복잡성으로 인해 계산 비용이 증가할 수 있습니다.
◦
더욱 다양하고 복잡한 기하학적 문제를 포함하는 더 큰 규모의 데이터셋이 필요할 수 있습니다.