Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Loi d'entropie-mémorisation : évaluation de la difficulté de mémorisation des données dans les LLM

Created by
  • Haebom

Auteur

Yizhan Huang, Zhe Yang, Meifang Chen, Jianping Zhang et Michael R. Lyu

Contour

Cet article aborde une question fondamentale concernant le phénomène de mémorisation des données d'entraînement dans les modèles linguistiques à grande échelle (MLH) : comment caractériser la difficulté de mémorisation des données d'entraînement ? Grâce à des expériences utilisant la famille de modèles ouverts OLMo, nous proposons la loi d'entropie-mémorisation, qui suggère une corrélation linéaire entre l'entropie des données et les scores de mémorisation. De plus, grâce à une étude de cas sur la mémorisation de chaînes de caractères hautement aléatoires (du charabia), nous observons que ces chaînes, malgré leur caractère aléatoire apparent, présentent une entropie empirique étonnamment faible par rapport au vaste corpus d'entraînement. En adoptant la même stratégie que celle utilisée pour découvrir la loi d'entropie-mémorisation, nous dérivons l'inférence d'ensemble de données (DI), une approche simple mais efficace pour distinguer les données d'entraînement des données de test.

Takeaways, Limitations

Takeaways:
Nous présentons l’importance de l’entropie des données dans la compréhension du phénomène de mémorisation des données de formation en LLM.
Nous démontrons la possibilité de prédire la difficulté de mémorisation des données d'entraînement grâce à la loi entropie-mémorisation.
Nous présentons une nouvelle technique appelée inférence d’ensemble de données (DI) qui permet de distinguer les données d’entraînement et de test.
Limitations :
ÉTant donné que les résultats sont basés sur des expériences sur une famille de modèles spécifique appelée OLMo, des recherches supplémentaires sont nécessaires pour déterminer s'ils peuvent être généralisés à d'autres LLM.
Une analyse plus approfondie de la force et de la portée de la corrélation linéaire de la loi entropie-mémorisation est nécessaire.
Une évaluation plus large des performances et des limites de l’inférence des ensembles de données (DI) est nécessaire.
👍