Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Une exploration des images par défaut dans la génération de texte en image

Created by
  • Haebom

Auteur

Hannu Simonen, Atte Kiviniemi, Jonas Oppenlaender

Contour

Cet article aborde le phénomène selon lequel les modèles de génération de texte en image (TTI) produisent toujours des résultats, même lorsqu'ils sont sollicités avec des termes inconnus. Dans ce cas, le modèle peut générer des « images de base » très similaires à travers diverses sollicitations non pertinentes. Dans cet article, nous présentons la première étude des images de base dans le générateur d'images populaire Midjourney. Nous décrivons une approche systématique pour créer des sollicitations générant des images de base, et présentons les résultats d'expériences initiales et d'une étude d'ablation à petite échelle. Nous rendons également compte d'une étude d'enquête portant sur l'impact des images de base sur la satisfaction des utilisateurs. Cette étude pose les bases de la compréhension des images de base dans le TTI et met en évidence les défis et les orientations de recherche futures.

Takeaways, Limitations_

Takeaways : Fournit la première étude systématique des phénomènes fondamentaux de génération d'images du modèle TTI, fournissant des informations importantes pour l'amélioration du modèle TTI et une conception technique rapide. Analyse l'impact sur la satisfaction des utilisateurs afin d'identifier les problèmes dans les environnements d'utilisation réels.
Limitations: Midjourney Étant donné qu'il s'agit d'une étude sur une seule plateforme, la généralisation à d'autres modèles TTI est limitée. La petite échelle de l'étude d'ablation et de l'enquête est petite, de sorte que des recherches supplémentaires sont nécessaires pour déterminer la généralité des résultats. Il manque une analyse approfondie du mécanisme exact de génération de l'image sous-jacente.
👍