Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Amélioration de la génération de graphiques en code dans MLLM via un raffinement guidé par double préférence
Created by
Haebom
Auteur
Zhihan Zhang, Yixin Cao, Lizi Liao
Contour
Cet article se concentre sur la conversion d'images graphiques en scripts de traçage exécutables, à savoir la génération de graphiques en code. Cette tâche est intrinsèquement peu contrainte et nécessite un modèle de langage multimodal à grande échelle (MLLM) pour réaliser une analyse visuelle fine, une synthèse de code précise et une inférence intermodale robuste. Plusieurs implémentations de code valides peuvent générer le même graphique visuel, et l'évaluation doit prendre en compte à la fois l'exactitude du code et la fidélité visuelle sur plusieurs dimensions. Il est donc difficile d'apprendre des correspondances précises et généralisables à l'aide d'un réglage fin supervisé standard. Pour relever ce défi, cet article propose un cadre d'amélioration du guidage par double préférence qui combine un mécanisme de récompense bimodal basé sur le feedback et un apprentissage itératif des préférences. Notre approche génère efficacement des paires de préférences de haute qualité, sensibles aux aspects, en introduisant une stratégie de génération de variations structurée et un modèle de récompense visuelle, augmentant ainsi l'évolutivité de la collecte des préférences et rendant la supervision plus orientée vers les objectifs. Ces préférences sont ensuite utilisées dans un contexte d'apprentissage par renforcement hors ligne afin d'optimiser le modèle et d'améliorer la fidélité multidimensionnelle. Les résultats expérimentaux démontrent que le framework proposé améliore significativement les performances des MLLM open source à usage général, générant un code de traçage de haute qualité qui rivalise avec les modèles professionnels centrés sur les graphiques, voire avec certains systèmes propriétaires. Le code et l'ensemble de données sont accessibles au public à l'adresse https://github.com/Zhihan72/Chart2Code .
Nous avons considérablement amélioré les performances de génération de graphiques en code d'un MLLM open source à usage général grâce à notre cadre d'amélioration des conseils de double préférence.
◦
Nous présentons une stratégie permettant de générer efficacement des paires de préférences de haute qualité tenant compte des aspects, augmentant ainsi l'évolutivité de la collecte des préférences.
◦
Nous présentons une configuration d’apprentissage par renforcement hors ligne qui optimise les modèles pour améliorer la fidélité multidimensionnelle.
◦
La qualité du code généré s’est améliorée au point de pouvoir rivaliser avec les modèles professionnels centrés sur les graphiques et certains systèmes propriétaires.
◦
Nous avons rendu notre code et nos ensembles de données accessibles au public pour améliorer la reproductibilité de nos recherches.
•
Limitations:
◦
Les performances du cadre proposé peuvent dépendre du MLLM et de l’ensemble de données utilisés.
◦
Les performances de généralisation pour les graphiques complexes ou de forme spéciale nécessitent une étude plus approfondie.
◦
Il peut être nécessaire de développer et d’améliorer des mesures d’évaluation qui prennent en compte à la fois la fidélité visuelle et l’exactitude du code.
◦
La prise en charge de différents types de bibliothèques de traçage peut devoir être étendue.