[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Agents proactifs pour la génération multi-tours de texte en image en situation d'incertitude

Created by
  • Haebom

Auteur

Meera Hahn, Wenjun Zeng, Nithish Kannen, Rich Galt, Kartikeya Badola, Been Kim, Zi Wang

Contour

Cet article aborde le problème du manque de clarté des invites utilisateur issues des modèles d'IA générative, ce qui entraîne un décalage entre l'intention de l'utilisateur et la compréhension du modèle. Pour résoudre ce problème, nous proposons un prototype d'agent de conversion de texte en image (T2I) qui pose activement des questions en cas d'incertitude lors de la génération de texte en image (T2I), comprend l'incertitude liée à l'intention de l'utilisateur et la présente sous la forme d'un graphe de croyances modifiable. Nous menons des expériences sur ImageInWords, COCO et un jeu de données DesignBench récemment créé par les chercheurs, et montrons que l'agent T2I proposé atteint un score VQAScore au moins deux fois supérieur à celui des générations T2I existantes. De plus, des études sur des participants humains montrent que plus de 90 % des utilisateurs ont jugé l'agent et le graphe de croyances utiles pour leurs tâches T2I. Le code et DesignBench sont disponibles en open source sur GitHub.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle approche pour résoudre les difficultés de génération T2I en raison d’invites utilisateur peu claires.
Présentation d'un moyen efficace d'aligner l'intention de l'utilisateur avec la compréhension du modèle grâce à des questions actives et des graphiques de croyances.
Des performances démontrées qui améliorent le VQAScore d'au moins 2x par rapport à la génération T2I existante.
Une grande satisfaction des utilisateurs confirmée par des recherches auprès des utilisateurs.
Annonce d'un nouvel ensemble de données de référence, DesignBench.
Limitations:
L'agent présenté est un prototype et des recherches supplémentaires sont nécessaires pour une application pratique du service.
Actuellement, la recherche se limite aux ensembles de données image-texte, et des recherches sur l’extensibilité à d’autres modalités sont nécessaires.
À Mesure que la complexité du graphique de croyances augmente, il est possible que la compréhension de l’utilisateur diminue.
Les résultats expérimentaux sur des ensembles de données à grande échelle doivent être présentés.
👍