Share
Sign In
⬆️

Estimulación guiada: técnicas para alcanzar mejor tus objetivos

La indicación de estímulo direccional (DSP) es un método propuesto por el equipo de Zekun Li en el artículo <Guiding Large Language Models via Directional Stimulus Prompting> publicado en 2023.
Guiding Large Language Models via Directional Stimulus Prompting.pdf1.98MB
Las indicaciones de estímulo dirigido son un nuevo marco para guiar los modelos lingüísticos a gran escala (LLM) hacia resultados específicos deseados. En lugar de ajustar el LLM directamente, este método utiliza un modelo de política pequeño y ajustable (por ejemplo, T5) para generar estímulos direccionales auxiliares para cada instancia de entrada. Estas indicaciones de estímulo direccionales actúan como sugerencias y pistas detalladas y específicas de cada instancia para guiar a LLM a producir los resultados deseados.

Ejemplo real

Texto de entrada: Bob Barker regresa a “The Price Is Right” después de ocho años.
Resumen de referencia: Bob Barker asume el cargo de presentador de "The Price Is Right" el miércoles. Barker se retiró del hosting en 2007.
💡
Mensaje de estímulo direccional: Pregunta: Según el artículo anterior, resúmalo brevemente en 2 o 3 oraciones de acuerdo con las pistas. Pista: Bob Barker; TELEVISOR; 1 de abril; “El precio es correcto”; 2007;
Salida del modelo: 1 de abril Bob Barker regresa al programa de televisión "The Price Is Right" después de ocho años. Barker, de 91 años, manejó su primer juego de adivinar precios con animación. Barker dejó de ser anfitrión en 2007, pero todavía no ha perdido el ritmo.

¿Dónde lo usas?

Este método utiliza ajuste fino supervisado (SFT) para optimizar un modelo de política utilizando datos etiquetados y aprendizaje por refuerzo (RL) para optimizar el modelo de política, ya sea en línea o fuera de línea, según el resultado del LLM.
Los DSP utilizan modelos de lenguaje pequeños y ajustables (por ejemplo, modelos de aprendizaje por refuerzo) para crear sugerencias o pistas que guíen la respuesta del LLM hacia el resultado deseado.
Proporciona un mayor control que los métodos tradicionales de ajuste fino y guía la respuesta del modelo manteniendo las capacidades generales del modelo.

Ejemplos de uso práctico:

En el servicio al cliente, los DSP se pueden utilizar para mejorar la eficiencia y respaldar los esfuerzos humanos analizando las quejas de los clientes y brindando soluciones rápidas y precisas.
En una situación de servicio al cliente, ante el mensaje "El cliente se queja de un retraso en la entrega", el DSP podría generar una sugerencia como "Disculpe, tranquilice, ofrezca una solución", de modo que el LLM diga "Pedimos disculpas por el retraso en la entrega". su pedido ahora es una prioridad”. Lo alienta a formular una respuesta empática y útil, como “Estamos clasificados y estamos tomando medidas para llegar allí pronto”.
🤹
↔️
ⓒ 2023. Haebom, todos los derechos reservados.
Se indica la fuente y puede utilizarse con fines comerciales con el permiso del titular de los derechos de autor.
👍