본 논문은 차트 생성을 위한 시각-언어 모델(VLM) 기반 다중 에이전트 프레임워크인 METAL을 제안합니다. METAL은 차트 생성 작업을 전문화된 에이전트 간의 반복적인 협업으로 분해하여, 시각적 디자인 기술과 코드 생성 능력을 모두 필요로 하는 복잡한 다중 모드 추론 과정을 해결합니다. 기존 최고 성능 대비 5.2% 향상된 성능을 보이며, 계산 비용이 증가할수록 성능이 향상되는 테스트 시간 스케일링 현상을 나타냅니다. 또한, 비평 과정에서 모달리티를 분리하는 것이 다중 모드 맥락에서 VLM의 자기 수정 능력을 향상시킨다는 것을 발견했습니다. 금융 분석, 연구 발표, 교육 및 의료 분야에서 자동 보고서 생성을 강화하는 데 큰 잠재력을 가지고 있습니다.