Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation

Created by
  • Haebom

저자

Xuanle Zhao, Xianzhen Luo, Qi Shi, Chi Chen, Shuo Wang, Zhiyuan Liu, Maosong Sun

개요

본 논문은 차트 이해 작업에서 뛰어난 성능을 보이는 다중 모달 대규모 언어 모델(MLLM)이 차트 정보를 텍스트로 변환하는 과정에서 정보 손실이 발생한다는 점을 지적합니다. 이를 해결하기 위해 차트를 코드로 변환하는 손실 없는 표현 방식을 제안하며, 기존 오픈소스 MLLM이 겪는 실행 가능성 저하 및 세부 정보 복원 실패, 그리고 대규모 다양한 훈련 데이터 부족이라는 두 가지 주요 과제를 해결하기 위해 ChartCoder를 제안합니다. ChartCoder는 코드 LLMs를 언어 기반으로 활용하여 생성 코드의 실행 가능성을 향상시키고, 대규모 다양한 데이터셋 Chart2Code-160k와 단계별 생성을 위한 Snippet-of-Thought (SoT) 방법을 함께 제시합니다. 실험 결과, 70억 개의 매개변수만으로도 기존 오픈소스 MLLM을 능가하는 차트 복원 및 코드 실행 가능성을 달성함을 보여줍니다.

시사점, 한계점

시사점:
ChartCoder는 기존 MLLM의 한계를 극복하고 차트를 코드로 변환하는 새로운 접근 방식을 제시합니다.
Chart2Code-160k 데이터셋은 차트-코드 생성 분야의 연구 발전에 기여할 수 있습니다.
Snippet-of-Thought (SoT) 방법은 차트-코드 생성 과정의 효율성을 향상시킵니다.
70억 개의 매개변수만으로도 우수한 성능을 달성하여 경량화된 모델의 가능성을 보여줍니다.
한계점:
Chart2Code-160k 데이터셋의 다양성 및 범용성에 대한 추가적인 검증이 필요할 수 있습니다.
특정 유형의 차트에 대해서는 성능이 저하될 가능성이 있습니다.
다른 차트 유형이나 복잡한 차트에 대한 일반화 성능 평가가 추가적으로 필요합니다.
👍