[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La estilometría reconoce textos humanos y generados por LLM en muestras cortas

Created by
  • Haebom

Autor

Karol Przystalski, Jan K. Argasi nski, Iwona Grabska-Gradzi nska, Jeremi K. Ochab

Describir

Este artículo explora el análisis estilométrico como una forma de distinguir entre textos generados por modelos de lenguaje a gran escala (LLM) y textos escritos por humanos. Para abordar cuestiones como la atribución de modelos, los derechos de propiedad intelectual y el uso ético de la IA, aplicamos técnicas estilométricas existentes a textos generados por LLM para identificar nuevos patrones narrativos en ellos. Creamos un conjunto de datos de referencia que consiste en resúmenes escritos por humanos de Wikipedia, textos generados por varios LLM (GPT-3.5/4, LLaMa 2/3, Orca, Falcon) y textos sujetos a múltiples métodos de resumen de texto (T5, BART, Gensim, Sumy) y métodos de paráfrasis (Dipper, T5). Clasificamos textos de 10 oraciones utilizando modelos basados en árboles como árboles de decisión y LightGBM, utilizando características estilométricas que incluyen patrones léxicos, gramaticales, sintácticos y de puntuación. Logramos un coeficiente de correlación de Matthews de hasta 0,87 en un escenario multiclase de 7 clases, y una precisión de 0,79 a 1,0 en la clasificación binaria. En particular, para Wikipedia y GPT-4, logramos precisiones de hasta 0,98 en conjuntos de datos balanceados. Mediante las Explicaciones Aditivas de Shapley, identificamos rasgos característicos de los textos de tipo enciclopédico, como el uso excesivo de palabras, y una mayor estandarización gramatical de las LLM en comparación con los textos escritos por personas. Estos resultados demuestran que, en el contexto de LLM cada vez más sofisticados, es posible distinguir entre textos generados por máquinas y textos generados por personas para ciertos tipos de textos.

Takeaways, Limitations

Takeaways:
Presentamos resultados empíricos que demuestran la diferenciabilidad entre textos generados por LLM y textos escritos por humanos.
Construcción de un conjunto de datos de referencia integral considerando diversos métodos de procesamiento de texto y LLM.
Identificar e interpretar patrones característicos en textos generados por LLM a través del análisis estilístico.
Proporciona soluciones a problemas de atribución de modelos, derechos de propiedad intelectual y uso ético de la IA.
Limitations:
Generalización limitada ya que los resultados provienen de un análisis de un tipo específico de texto (resumen de Wikipedia).
Dificultad en la generalización debido a limitaciones en el LLM y en los métodos de procesamiento de texto utilizados.
Con la llegada de LLM más sofisticados, existe la posibilidad de una degradación del rendimiento.
Se necesitan más investigaciones sobre textos de diferentes géneros y extensiones.
👍