[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Prompt4Trust: Un marco de aprendizaje de refuerzo para la calibración de la confianza clínicamente alineada en modelos lingüísticos multimodales de gran tamaño

Created by
  • Haebom

Autor

Anita Kriz, Elizabeth Laura Janes, Xing Shen, Tal Arbel

Describir

Este artículo se centra en dos Limitations principales de los modelos de lenguaje multimodal a gran escala (MLLM) que tienen un alto potencial para su uso en la atención médica: (i) su sensibilidad al diseño de indicaciones y (ii) su tendencia a generar respuestas incorrectas con alta confianza. Dado que los profesionales de la salud pueden confiar en el nivel de confianza expresado por un modelo para juzgar la fiabilidad del modelo, es especialmente importante que el modelo mantenga una alta precisión al expresar alta confianza. Por lo tanto, en este artículo, presentamos Prompt4Trust, el primer marco de aprendizaje de refuerzo (RL) para el aumento de indicaciones que apunta a la calibración de la confianza de los MLLM. Entrenamos un LLM ligero para generar indicaciones auxiliares conscientes del contexto que inducen a los MLLM de subtareas a generar respuestas cuya confianza expresada refleja con mayor precisión la precisión prevista. A diferencia de las técnicas de calibración existentes, Prompt4Trust prioriza los aspectos de la calibración que son más importantes para la toma de decisiones clínicas seguras y confiables. Además de estos objetivos de calibración con motivación clínica, el método propuesto también mejora la precisión de la tarea al lograr un rendimiento de vanguardia en la respuesta visual a preguntas (VQA) médica en el punto de referencia PMC-VQA, que consiste en preguntas de opción múltiple que cubren varios modos de imagen médica. Además, el marco entrenado en MLLM de subtareas a pequeña escala muestra una prometedora generalización de disparo cero a MLLM a gran escala en experimentos, lo que sugiere el potencial de una calibración escalable sin el costo computacional asociado. Este trabajo demuestra el potencial de la ingeniería de indicaciones automatizada, pero controlada por humanos, para mejorar la confiabilidad de los MLLM en entornos críticos para la seguridad. El código fuente se puede encontrar en https://github.com/xingbpshen/prompt4trust .

Takeaways, Limitations

Takeaways:
Presentamos Prompt4Trust, un novedoso marco basado en aprendizaje de refuerzo para la corrección de confiabilidad en MLLM.
Apoyar la toma de decisiones médicas seguras y confiables priorizando los aspectos de compensación clínicamente importantes.
Lograr un desempeño de última generación en respuestas visuales a preguntas médicas (VQA) en el punto de referencia PMC-VQA.
Los modelos entrenados en MLLM a pequeña escala demuestran una generalización de cero disparos a MLLM a gran escala.
Demostrando la eficacia de la ingeniería rápida automatizada pero centrada en el ser humano.
Limitations:
El rendimiento de Prompt4Trust puede depender de la calidad y cantidad de los datos de entrenamiento.
Se necesita una evaluación adicional del desempeño de generalización en diferentes modalidades de imágenes médicas y tipos de enfermedades.
Se requiere verificación de seguridad y eficacia en entornos clínicos reales.
Existe la posibilidad de que se produzca una degradación del rendimiento cuando las indicaciones optimizadas para un MLLM específico se aplican a otros MLLM.
👍