Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

De oraciones a secuencias: repensando los lenguajes en sistemas biológicos

Created by
  • Haebom

Autor

Ke Liu, Shuaike Shen, Hao Chen

Describir

Este artículo explora el potencial y las limitaciones de aplicar el exitoso paradigma de modelos de lenguaje a gran escala (LLM) en el procesamiento del lenguaje natural (PLN) al modelado de lenguajes biológicos (proteínas, ARN, ADN). Mediante la revisión de estudios previos que aplican el paradigma generativo autorregresivo y las métricas de evaluación utilizadas en PLN al modelado de secuencias biológicas, destacamos las diferencias en las correlaciones estructurales inherentes entre los lenguajes naturales y biológicos. En este artículo, consideramos la estructura tridimensional de las biomoléculas como el contenido semántico de las oraciones y enfatizamos la importancia de la evaluación estructural considerando las fuertes correlaciones entre residuos o bases, y mostramos la posible aplicación del paradigma autorregresivo al modelado de lenguajes biológicos. El código relevante se puede encontrar en github.com/zjuKeLiu/RiFold.

Takeaways, Limitations

Takeaways: Al enfatizar la importancia de la evaluación estructural considerando la información estructural tridimensional en el modelado del lenguaje biológico, presentamos una nueva dirección para superar las limitaciones de los enfoques existentes basados ​​en PLN. Demostramos empíricamente la aplicabilidad del paradigma generativo autorregresivo al modelado del lenguaje biológico.
Limitations: Se requiere mayor investigación para determinar si el enfoque presentado en este artículo es igualmente aplicable a todos los tipos de lenguajes biológicos (proteínas, ARN, ADN, etc.). Se requiere mayor investigación para generalizar y estandarizar las métricas de evaluación estructural.
👍