Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HoPE: Codificación posicional rotatoria hiperbólica para el modelado de dependencias estables de largo alcance en modelos de lenguaje extensos

Created by
  • Haebom

Autor

Chang Dai, Hongyu Shan, Mingyang Song, Di Liang

Describir

Este artículo presenta la Codificación Posicional Rotatoria Hiperbólica (HoPE), un enfoque propuesto para abordar las limitaciones de los mecanismos de codificación posicional utilizados para modelar la estructura secuencial y las dependencias de largo alcance en los modelos Transformer. Las codificaciones posicionales absolutas existentes tienen dificultades con la extrapolación a secuencias largas debido a sus representaciones posicionales fijas. Los enfoques relativos, como Alibi, muestran un rendimiento deficiente en contextos muy largos. La Codificación Posicional Rotatoria (RoPE), ampliamente utilizada, tiene dificultades para modelar dependencias de largo alcance de forma fiable debido a sus patrones de atención oscilantes. HoPE, inspirada en la transformada de Lorenz en geometría hiperbólica, aborda estos problemas aplicando rotaciones de Lorenz a representaciones de tokens mediante funciones hiperbólicas. El análisis teórico demuestra que RoPE es un caso especial de una formulación generalizada de HoPE, que resuelve fundamentalmente el problema de oscilación de RoPE al imponer una disminución monótona de los pesos de atención a medida que aumenta la distancia entre tokens. Amplios resultados experimentales, incluyendo evaluaciones de perplejidad en varios puntos de referencia de secuencias extendidas, demuestran que HoPE supera consistentemente a los métodos de codificación posicional existentes. Estos resultados resaltan la capacidad mejorada de HoPE para representar y generalizar dependencias de largo alcance. Los datos y el código se harán públicos.

Takeaways, Limitations

Takeaways:
Presentamos una nueva técnica de codificación de posición, HoPE, que supera las limitaciones de los métodos de codificación de posición existentes (RoPE, Alibi, etc.).
Modelado de dependencia de largo alcance confiable incluso en secuencias largas
Solución de problemas de vibración de RoPE y mejora del rendimiento
Presentación de la base teórica basada en la geometría hiperbólica
Se demostró un rendimiento superior en comparación con los métodos existentes en varios puntos de referencia.
Limitations:
La información publicada hasta la fecha es insuficiente para proporcionar información detallada sobre la implementación y aplicación reales.
Se necesitan más investigaciones para determinar la generalización a otros tipos de datos o tareas de secuencia.
Se necesita una evaluación adicional del rendimiento para secuencias extremadamente largas.
Necesidad de analizar los costos computacionales y el uso de memoria
👍