Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Preposición de tokens: un enfoque sin entrenamiento para obtener mejores incrustaciones de oraciones a partir de LLM

Created by
  • Haebom

Autor

Yuchen Fu, Zifeng Cheng, Zhiwei Jiang, Zhonghui Wang, Yafeng Yin, Zhengliang Li, Qing Gu

Describir

En este artículo, proponemos una técnica novedosa para extraer incrustaciones de oraciones de modelos de lenguaje a gran escala (LLMs), la Preposición de Tokens (TP). Los métodos existentes inducen a los LLMs a codificar información de oraciones en las incrustaciones de los últimos tokens mediante ingeniería de indicaciones, pero esto conduce a una codificación sesgada y efectos en cascada debido a la atención causal, lo que impide que los tokens tempranos se refieran a tokens posteriores. TP antepone las incrustaciones de oraciones decodificadas de cada capa a las oraciones de entrada de la siguiente capa, de modo que los tokens tempranos puedan prestar atención a toda la información de la oración. Es una técnica plug-and-play, sin entrenamiento, que puede integrarse perfectamente con varios métodos de incrustación de oraciones basados ​​en indicaciones y LLMs autorregresivos. A través de extensos experimentos en varias tareas de similitud de texto semántico (STS) y tareas de subclasificación, demostramos que TP mejora significativamente el rendimiento de los métodos existentes sin aumentar apenas el costo de inferencia.

Takeaways, Limitations

Takeaways:
Se propone una nueva técnica TP para mejorar el rendimiento de la extracción de incrustaciones de oraciones basada en LLM.
Fácil de integrar con métodos basados ​​en indicaciones existentes de manera plug-and-play.
No requiere aprendizaje y prácticamente no hay costes adicionales.
Validar experimentalmente mejoras de rendimiento en diversas tareas STS y tareas de subclasificación.
Limitations:
Se necesitan más estudios para determinar si la efectividad de la técnica TP presentada en este artículo se puede generalizar a todos los LLM y a todos los métodos de incrustación de oraciones basados ​​en indicaciones.
Es necesario realizar un análisis de aplicabilidad y efectividad de la LLM utilizando diferentes tipos de mecanismos de atención.
Es necesario evaluar la eficacia y el rendimiento de las técnicas de TP para oraciones extremadamente largas.
👍