¡Revolucionario: Patronus AI crea una herramienta de evaluación LLM para industrias reguladas!

Contenido

Una solución para evaluar y probar grandes modelos lingüísticos

Resulta que cuando se juntan dos expertos en IA, que trabajaron ambos en Meta en investigaciones sobre IA responsable, ocurre algo mágico. Los fundadores de Patronus AI se reunieron el pasado marzo para desarrollar una solución que permitiera evaluar y probar grandes modelos lingüísticos, sobre todo en sectores regulados en los que hay poca tolerancia al error.

Los fundadores y su experiencia

Rebecca Qian, que es la directora de tecnología de la empresa, dirigió la investigación responsable de PNL en Meta AI, mientras que el cofundador y consejero delegado Anand Kannappan ayudó a desarrollar marcos de ML explicable en Meta Reality Labs. Hoy, su start-up hace un gran anuncio, saliendo de las sombras, poniendo su producto a disposición general y anunciando también una ronda de recaudación de fondos de 3 millones de dólares.

Marco de seguridad y análisis para modelos lingüísticos

La empresa está en el lugar adecuado en el momento oportuno, construyendo un marco de seguridad y análisis en forma de servicio gestionado para probar grandes modelos lingüísticos con el fin de identificar posibles áreas problemáticas, en particular la probabilidad de alucinaciones, en las que el modelo inventa una respuesta porque carece de datos para responder correctamente.

Las tres fases del producto

"En nuestro producto, lo que realmente queremos es automatizar y ampliar todo el proceso de evaluación y prueba de modelos para alertar a los usuarios cuando identifiquemos problemas", nos cuenta Qian.

Explica que esto implica tres etapas. "La primera es la evaluación, en la que realmente ayudamos a los usuarios a evaluar modelos en escenarios del mundo real, como las finanzas, atendiendo a criterios clave como las alucinaciones", dice. En segundo lugar, el producto genera automáticamente casos de prueba, es decir, genera automáticamente conjuntos de pruebas adversariales y pruebas de estrés de los modelos. Por último, realiza comparaciones entre modelos utilizando distintos criterios, en función de los requisitos, para encontrar el mejor modelo para una tarea determinada. "Comparamos diferentes modelos para ayudar a los usuarios a identificar el mejor modelo para su caso de uso específico. Por ejemplo, un modelo puede tener una mayor tasa de fallos y alucinaciones en comparación con otro modelo con una base diferente", afirma.

Centrarse en sectores muy regulados

La empresa se centra en sectores muy regulados en los que las respuestas erróneas podrían tener grandes consecuencias. "Ayudamos a las empresas a garantizar la seguridad de los grandes modelos lingüísticos que utilizan. Detectamos cuándo sus modelos producen información sensible para la empresa y resultados inadecuados", explica Kannappan.

Convertirse en un tercero de confianza

Dice que el objetivo de la start-up es convertirse en un tercero de confianza a la hora de evaluar modelos. "Es fácil que alguien diga que su LLM es el mejor, pero tiene que haber una perspectiva imparcial e independiente. Ahí es donde entramos nosotros. Patronus es garantía de credibilidad", afirma.

Un equipo en crecimiento

La empresa cuenta actualmente con seis empleados a tiempo completo, pero dada la velocidad a la que se desarrolla el sector, tienen previsto contratar a más personas en los próximos meses, sin comprometerse a un número exacto. Qian afirma que la diversidad es un pilar fundamental de la empresa. "Es algo que nos tomamos muy en serio. Y empieza a nivel directivo en Patronus. A medida que crecemos, tenemos la intención de seguir aplicando programas e iniciativas para garantizar que creamos y mantenemos un entorno de trabajo integrador", afirma.

Financiación

La ronda de 3 millones de dólares fue liderada por Lightspeed Venture Partners, con la participación de Factorial Capital y otros inversores del sector.