Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning

Created by
  • Haebom

저자

Zhihan Zhang, Yixin Cao, Lizi Liao

개요

Chart-to-code generation은 차트 이미지를 실행 가능한 플롯팅 스크립트로 변환하는 과정으로, 차트 정보의 손실 없는 표현을 제공하며 모델이 모든 시각적 및 구조적 요소를 정확하게 포착하고 요약해야 합니다. 본 논문에서는 이 과정에서 어려움을 겪는 다중 모달 대규모 언어 모델(MLLM)의 성능 향상을 위해, 구조화된 코드 변형 생성과 세분화된 이중 보상 신호를 통해 MLLM의 차트-투-코드 생성 기능을 향상시키도록 설계된 새로운 반복적 이중 선호도 학습 프레임워크인 Chart2Code를 제시합니다. Chart2Code는 세 가지 MLLM에 대해 검증되었으며, 반복적 선호도 학습이 분포 외 차트-투-코드 생성 품질을 일관되게 향상시키는 것으로 나타났습니다. 텍스트 코드 구조와 시각적 표현 모두를 평가하는 이중 점수 방법은 선호도 데이터셋 크기가 감소하더라도 더 큰 성능 향상으로 이어집니다. 추가 분석을 통해 프레임워크의 주요 구성 요소를 탐구하고 차트-투-코드 생성과 광범위한 차트 추론 간의 상호 작용을 강조하여 차트 이해에 대한 미래 발전을 위한 길을 엽니다.

시사점, 한계점

시사점:
Chart2Code 프레임워크를 통해 MLLM의 차트-투-코드 생성 능력을 향상시킬 수 있음을 보여줌.
이중 점수 방법이 선호도 데이터셋 크기가 작더라도 성능 향상에 효과적임을 확인.
차트-투-코드 생성과 차트 추론 간의 상호 작용에 대한 이해를 심화시킴.
분포 외 데이터에 대한 성능 향상을 보임.
한계점:
제시된 프레임워크의 일반화 성능에 대한 추가 연구 필요.
다양한 유형의 차트에 대한 성능 평가가 더 필요함.
실제 응용 분야에 대한 적용 및 성능 평가가 필요함.
사용된 MLLM의 종류에 따른 성능 차이에 대한 분석이 부족할 수 있음.
👍