Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
PiCSAR: Selección y clasificación probabilística de confianza
Created by
Haebom
Autor
Joshua Ong Jun Leang, Zheng Zhao, Aryo Pradipta Gema, Sohee Yang, Wai-Chung Kwan, Xuanli He, Wenda Li, Pasquale Minervini, Eleonora Giunchiglia, Shay B. Cohen
Describir
Este artículo propone la Selección y Clasificación Probabilística por Confianza (PiCSAR), una técnica mejorada de muestreo al mejor de n que optimiza la precisión de los modelos de lenguaje a gran escala (LLM) y los modelos de inferencia a gran escala (LRM). PiCSAR aborda el reto de diseñar una función de puntuación que pueda identificar el proceso de inferencia correcto sin acceder a la respuesta correcta. Utiliza la log-verosimilitud conjunta del proceso de inferencia y la respuesta final para puntuar cada producto candidato. Esta log-verosimilitud conjunta se descompone naturalmente en confianza de inferencia y confianza de respuesta. Supera a los métodos existentes en diversas pruebas de referencia (hasta 10,18 en MATH500 y hasta 9,81 en AIME2025), logrando un mejor rendimiento con al menos el doble de muestras en 16 de 20 comparaciones. Los resultados analíticos muestran que un proceso de inferencia correcto genera una confianza de inferencia y respuesta significativamente mayor, lo que respalda la eficacia de PiCSAR.
Takeaways, Limitations
•
Takeaways:
◦
Se propone un nuevo método de puntuación, PiCSAR, que mejora significativamente la eficiencia del muestreo al mejor de n.
◦
Identificar eficazmente procesos de razonamiento correctos incluso sin respuestas correctas.
◦
Se demostró un rendimiento y una eficiencia superiores en comparación con los métodos existentes en varios puntos de referencia.
◦
La eficacia de PiCSAR se demuestra a través de la confiabilidad de la inferencia y el análisis de confiabilidad de las respuestas.
•
Limitations:
◦
El rendimiento de generalización para otros tipos de problemas o modelos más allá de los puntos de referencia presentados requiere más estudios.
◦
Existe la posibilidad de que el método de cálculo de confiabilidad de PiCSAR esté sesgado hacia ciertos tipos de problemas.
◦
Es necesario verificar los límites de rendimiento de PiCSAR para problemas con procesos de inferencia complejos.