Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Compresión de contexto dinámica para una RAG eficiente

Created by
  • Haebom

Autor

Shuyu Guo, Zhaochun Ren

Describir

Este artículo propone un marco de compresión de contexto adaptativa (ACC-RAG) para abordar el problema del alto coste de inferencia en la generación aumentada por recuperación (RAG). A diferencia de los métodos de compresión de tasa fija existentes, ACC-RAG ajusta dinámicamente la tasa de compresión según la complejidad de la pregunta de entrada, mejorando así la eficiencia y la precisión. Al combinar un compresor jerárquico y un selector de contexto, retiene únicamente la información mínima necesaria, imitando un proceso de escaneo humano. Los resultados experimentales, utilizando Wikipedia y cinco conjuntos de datos de preguntas y respuestas (QA), demuestran que ACC-RAG supera a los métodos de compresión de tasa fija existentes, alcanza una velocidad de inferencia más de cuatro veces superior a la de la RAG estándar y mantiene o mejora la precisión.

Takeaways, Limitations

Takeaways:
Presentamos un enfoque novedoso para abordar eficazmente el problema del costo de inferencia de RAG.
Ajusta dinámicamente la relación de compresión según la complejidad de entrada para lograr una mejora equilibrada en la eficiencia y la precisión.
Proporciona una velocidad de inferencia mucho más rápida que el método RAG existente.
Hemos demostrado mejoras de rendimiento en varios conjuntos de datos de control de calidad.
Limitations:
Las mejoras de rendimiento del ACC-RAG propuesto pueden estar sesgadas hacia conjuntos de datos y tipos de preguntas específicos.
El diseño de compresores jerárquicos y selectores de contexto es complejo y puede ser difícil de implementar y optimizar.
Se necesita más investigación sobre el rendimiento y la escalabilidad en entornos de aplicaciones a gran escala del mundo real.
👍