[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Perfiles lingüísticos y basados en incrustaciones de textos generados por humanos y grandes modelos lingüísticos

Created by
  • Haebom

Autor

Sergio E. Zanotto, Según Aroyehun

Describir

Este artículo es un estudio sobre la caracterización de textos generados por modelos de lenguaje a gran escala (LLM) y textos escritos por humanos utilizando diversas características a nivel lingüístico como la morfología, la sintaxis y la semántica. Utilizando 11 conjuntos de datos de textos generados por LLM y escritos por humanos en 8 dominios, calculamos diversas características lingüísticas como la longitud de dependencia y el sentimiento. Los resultados del análisis estadístico mostraron que los textos escritos por humanos tienden a tener estructuras sintácticas más simples y un contenido semántico más diverso. Además, calculamos la variabilidad de las características según los modelos y los dominios, y tanto los textos humanos como los textos de máquina mostraron diversidad de estilo dependiendo del dominio, pero los textos humanos mostraron una mayor variabilidad. Verificamos aún más la variabilidad de los textos escritos por humanos y generados por máquinas aplicando la incrustación de estilo, y el último modelo genera textos con variabilidad similar, lo que sugiere la homogeneidad de los textos generados por máquinas.

Takeaways, Limitations

Takeaways:
Se analizaron las diferencias en las características lingüísticas entre los textos generados por LLM y los textos escritos por humanos y se presentaron específicamente en varios niveles lingüísticos.
Al analizar la variabilidad del dominio y del estilo de modelo a modelo de los textos generados por LLM, revelamos la tendencia a la homogeneización de los últimos modelos.
Presentamos una serie de características lingüísticas que nos ayudan a comprender las diferencias entre los textos generados por humanos y los generados por LLM.
Limitations:
El dominio del conjunto de datos utilizado y el tipo de LLM pueden ser limitados.
Es posible que las características lingüísticas utilizadas en el análisis no capturen todos los tipos de diferencias textuales.
Dado el ritmo de desarrollo de los LLM, es necesario validar los resultados de las investigaciones para garantizar su validez a largo plazo.
👍