Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
SurGE: Un marco de referencia y evaluación para la generación de encuestas científicas
Created by
Haebom
Autor
Weihang Su, Anzhe Xie, Qingyao Ai, Jianming Long, Jiaxin Mao, Ziyi Ye, Yiqun Liu
Describir
La explosión de literatura académica está haciendo que la generación manual de encuestas científicas sea cada vez más imposible. Si bien los modelos de lenguaje a gran escala prometen automatizar este proceso, la falta de puntos de referencia estandarizados y protocolos de evaluación obstaculiza el progreso en este campo. Para abordar esta brecha crítica, presentamos SurGE (Evaluación de Generación de Encuestas), un novedoso punto de referencia para la generación de encuestas científicas en informática. SurGE consta de (1) un corpus de instancias de prueba que contiene la descripción de cada tema, encuestas escritas por expertos y el conjunto completo de referencias citadas, y (2) un corpus académico a gran escala de más de un millón de artículos. También proponemos un marco de evaluación automatizada que mide la calidad de las encuestas generadas en cuatro dimensiones: exhaustividad, precisión de citas, organización estructural y calidad del contenido. Las evaluaciones de diversas metodologías basadas en LLM revelan brechas de rendimiento significativas, lo que demuestra que incluso los marcos de agentes avanzados tienen dificultades con la complejidad de la generación de encuestas, lo que resalta la necesidad de futuras investigaciones en esta área. Todo el código, los datos y los modelos son de código abierto en https://github.com/oneal2000/SurGE에서 .
Takeaways, Limitations
•
Takeaways:
◦
Presentamos SurGE, un nuevo referente para la generación de investigación científica en informática, proporcionando una base para la evaluación objetiva de la investigación.
◦
Proponemos un marco de evaluación automatizada para medir sistemáticamente la calidad de la investigación.
◦
Al evaluar el desempeño de varias metodologías basadas en LLM, sugerimos limitaciones de las tecnologías existentes y futuras direcciones de investigación.
◦
Al proporcionar todo el código, los datos y los modelos como código abierto, contribuimos a la activación y el avance de la investigación relacionada.
•
Limitations:
◦
El punto de referencia SurGE está limitado al campo de la informática y tiene limitaciones para generalizarse a otros campos.
◦
Los marcos de evaluación automatizados aún no son perfectos y es posible que no puedan reemplazar completamente las evaluaciones humanas.
◦
La metodología presentada en este artículo tiene el potencial de mejorar el rendimiento, por lo que se necesita más investigación.