Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HoPE: Codificación posicional rotatoria hiperbólica para el modelado de dependencias estables de largo alcance en modelos de lenguaje extensos

Created by
  • Haebom

Autor

Chang Dai, Hongyu Shan, Mingyang Song, Di Liang

Describir

Este artículo propone la Codificación Posicional Rotatoria Hiperbólica (HoPE), un novedoso método de codificación posicional inspirado en la transformada de Lorenz de la geometría hiperbólica, para abordar las limitaciones de los mecanismos de codificación posicional utilizados para modelar la estructura de secuencias y las dependencias de largo alcance en los modelos Transformer. Mientras que la Codificación Posicional Rotatoria (RoPE) convencional dificulta el modelado de dependencias de largo alcance debido a patrones de atención oscilantes, HoPE supera este problema aplicando rotaciones de Lorenz a representaciones de tokens mediante funciones hiperbólicas. El análisis teórico demuestra que RoPE es un caso especial de una formulación generalizada de HoPE, y HoPE aborda fundamentalmente el problema de RoPE al imponer una disminución monótona en los pesos de atención a medida que aumenta la distancia entre tokens. Los resultados experimentales utilizando varios puntos de referencia de secuencia extendida demuestran que HoPE supera los métodos de codificación posicional existentes.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método de codificación de posición, HoPE, que resuelve el problema del patrón de atención oscilante de RoPE, que es Limitations.
Generalización de RoPE basada en la base teórica de la geometría hiperbólica
Rendimiento mejorado en el modelado de dependencias de largo alcance y rendimiento de extrapolación mejorado para secuencias largas.
Se demostró un rendimiento superior en comparación con los métodos existentes en varios puntos de referencia.
Limitations:
Se necesitan más investigaciones para determinar si la eficacia del método propuesto puede generalizarse a todos los tipos de datos de secuencia y modelos Transformer.
Los detalles de los resultados experimentales y el código aún no se han publicado (se publicarán más adelante)
👍