[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DialogueForge: Simulación LLM del diálogo entre humanos y chatbots

Created by
  • Haebom

Autor

Ruizhe Zhu, Hao Zhu, Yaxuan Li, Syang Zhou, Shijing Cai, Malgorzata Lazuka, Elliott Ash

Describir

En este artículo, proponemos DialogueForge, un marco para generar conversaciones entre humanos y chatbots, con el fin de abordar los desafíos de la investigación en IA conversacional. DialogueForge genera conversaciones similares a las de los chatbots con LLM de diversos tamaños (p. ej., GPT-4o, Llama, Mistral, etc.) utilizando indicaciones semilla extraídas de interacciones reales entre humanos y chatbots. Utilizamos técnicas de ajuste fino para mejorar el rendimiento de modelos de código abierto a pequeña escala y evaluamos la calidad de las conversaciones generadas mediante UniEval y GTEval. Los resultados experimentales muestran que, si bien los modelos propietarios a gran escala generan conversaciones más realistas, los modelos de código abierto a pequeña escala también pueden mejorarse significativamente mediante el ajuste fino. Sin embargo, generar conversaciones largas, naturales y consistentes sigue siendo un desafío para todos los modelos.

Takeaways, Limitations

Takeaways:
Presentamos el marco DialogueForge que puede resolver las dificultades de recopilar datos de conversaciones entre humanos y chatbots.
Explorando la viabilidad de generar conversaciones de estilo humano-chatbot utilizando LLM de varios tamaños
Demostración de la eficacia de las técnicas de ajuste fino para mejorar el rendimiento de modelos de código abierto a pequeña escala
Presentación de una estrategia de selección de modelos comparando el rendimiento de modelos de gran y pequeña escala.
Limitations:
Es difícil generar conversaciones largas, naturales y consistentes en todos los modelos.
Posibles dependencias de modelos o conjuntos de datos específicos
Dificultad para evaluar la similitud perfecta con los humanos debido a limitaciones en las métricas de evaluación
👍