[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les grands modèles de langage génèrent trop de fonctionnalités simples pour les données tabulaires

Created by
  • Haebom

Auteur

Jaris Kuken, Lennart Purucker, Frank Hutter

Contour

Cet article étudie les biais potentiels dans l'ingénierie des caractéristiques des données tabulaires à l'aide de modèles de langage à grande échelle (MLH). Nous proposons une méthode pour détecter les biais en détectant les anomalies dans la fréquence des opérateurs (par exemple, l'ajout de deux caractéristiques) utilisés dans l'ingénierie des caractéristiques par les MLH. En appliquant deux modèles à grande échelle et deux modèles open source à petite échelle à 27 jeux de données tabulaires, nous constatons que les MLH privilégient les opérateurs simples comme l'addition et ont tendance à ne pas utiliser les opérateurs complexes comme le regroupement par agrégation. Ce biais peut nuire aux performances de prédiction lors de l'utilisation des caractéristiques générées par les MLH.

Takeaways, Limitations_

Takeaways : Nous présentons une méthode permettant de détecter et d'atténuer les biais susceptibles de survenir lors de l'utilisation de LLM pour l'ingénierie des caractéristiques. Nous démontrons expérimentalement l'impact négatif du biais LLM sur les performances de prédiction. Nous fournissons Takeaways pour des applications pratiques de l'ingénierie des caractéristiques basée sur LLM.
Limitations: Cette étude pourrait se limiter à un LLM et à un ensemble de données spécifiques. Des recherches complémentaires sur divers LLM et des ensembles de données plus vastes sont nécessaires. Une vérification plus approfondie de la généralisabilité de la méthode de détection des biais proposée est nécessaire.
👍