Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TAGAL : Génération de données tabulaires à l'aide de méthodes LLM agentiques

Created by
  • Haebom

Auteur

Benoît Ronval, Pierre Dupont, Siegfried Nijssen

Contour

Cet article présente TAGAL, ​​une nouvelle méthodologie de génération de données tabulaires synthétiques à l'aide de modèles de langage à grande échelle (LLM). TAGAL automatise un processus de rétroaction itératif grâce à un workflow basé sur des agents afin d'améliorer la qualité des données sans formation LLM supplémentaire. Les LLM permettent l'intégration de connaissances externes au processus de génération de données, et nous évaluons les performances de TAGAL sur divers ensembles de données et aspects qualitatifs. Nous analysons l'utilité des modèles ML en aval en entraînant les classificateurs uniquement sur des données synthétiques ou en combinant des données réelles et synthétiques, et comparons la similarité entre les données réelles et générées. Par conséquent, TAGAL affiche des performances comparables à celles des techniques de pointe qui nécessitent une formation LLM et surpasse celles des techniques qui n'en nécessitent pas. Cela souligne le potentiel des workflows basés sur des agents et suggère de nouvelles orientations pour la génération de données basée sur les LLM.

Takeaways, Limitations

Takeaways:
Nous démontrons qu'un flux de travail basé sur des agents exploitant LLM peut générer des données tabulaires synthétiques de haute qualité sans formation LLM supplémentaire.
Nous démontrons son efficacité en obtenant des performances équivalentes ou supérieures par rapport aux méthodes de formation LLM existantes.
Cela suggère la possibilité d’améliorer le processus de génération de données en tirant parti des connaissances externes.
Nous fournissons une méthode de génération de données synthétiques pouvant contribuer à améliorer les performances des modèles ML en aval.
Limitations:
L’évaluation des performances de TAGAL présentée dans cet article est limitée à un ensemble de données et à des aspects de qualité spécifiques, et des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité.
En raison de la nature du LLM, il est possible que des données biaisées soient générées, et des solutions sont nécessaires pour y remédier.
L’applicabilité à des structures de données complexes ou à des domaines spéciaux nécessite des recherches supplémentaires.
👍