Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

KatFishNet: Detección de texto coreano generado por LLM mediante análisis de características lingüísticas

Created by
  • Haebom

Autor

Shinwoo Park, Shubin Kim, Do-Kyung Kim, Yo-Sub Han

Describir

Este artículo presenta un nuevo conjunto de datos de referencia, KatFish, y un modelo de detección, KatFishNet, para la detección de textos en coreano generados por modelos lingüísticos a gran escala (LLM). A diferencia de estudios previos centrados principalmente en el inglés, proponemos un método de detección de generación de textos adecuado para las características del coreano, considerando el análisis morfológico, el orden de las palabras y los patrones de puntuación únicos del coreano. El conjunto de datos KatFish consta de textos escritos por humanos y cuatro textos generados por LLM en tres géneros, y KatFishNet alcanza un rendimiento AUROC un 19,78 % superior en promedio al de los modelos anteriores con mejor rendimiento. Esperamos que el código abierto y los datos contribuyan a la investigación sobre la detección de textos generados por LLM en coreano.

Takeaways, Limitations

Takeaways:
Primer conjunto de datos de referencia (KatFish) para la detección de texto generado por LLM en coreano
Presentación de un nuevo modelo de detección (KatFishNet) considerando características coreanas y verificación de un excelente desempeño
Presentación de un método para detectar texto generado por LLM utilizando características lingüísticas como análisis morfológico, orden de palabras y uso de puntuación en coreano.
Contribuye a mantener la integridad académica, prevenir el plagio, proteger los derechos de autor y garantizar prácticas de investigación éticas.
Limitations:
Actualmente, el conjunto de datos de KatFish está limitado a LLM y géneros específicos, por lo que se requiere la verificación del rendimiento de generalización para varios LLM y géneros.
Existe la posibilidad de que el rendimiento de KatFishNet se deteriore a medida que surjan y evolucionen nuevos LLM.
Puede que haya una falta de consideración por los distintos dialectos y estilos de escritura del idioma coreano.
👍