La carrera por la inteligencia artificial (IA) se ha convertido en una prueba de velocidad. A los avances de ChatGPT, ya en su cuarta versión, y los posteriores anuncios de grandes multinacionales de sistemas propios, Google respondió este miércoles con el lanzamiento de Gemini, una plataforma de inteligencia artificial multimodal capaz de procesar y generar texto, código, imágenes, audio y vídeo de diferentes fuentes de datos. La versión Ultra, «disponible a principios del próximo año», dijo Eli Collins, vicepresidente de producto de Google DeepMind, supera a los humanos en comprensión masiva del lenguaje multitarea (MMLU), un punto de referencia de evaluación creado a partir de 57 ciencias, tecnología, ingeniería y matemáticas. (PROVENIR). ), materias de humanidades y ciencias sociales.
«Gemini es nuestro modelo de IA más grande y más capaz», afirma Collins, quien explica que está «inspirado en la forma en que las personas entienden e interactúan con el mundo». «Se le considera más un colaborador útil que una pieza inteligente de programación», afirma.
Durante la presentación, Géminis pudo identificar una forma geométrica, analizar la formulación para encontrar su área y descubrir un error para proponer y explicar un resultado preciso al problema. De esta manera puede devolver resultados a partir de datos de imágenes, texto alfanumérico y voz. También identificó diferentes formas y diseños, algunos basados únicamente en puntos dispersos, y propuso usos de las figuras u objetos presentados o desarrolló una historia a partir de propuestas alternativas o desarrolló gráficos actualizados con la información que buscaba la propia plataforma.
Según el vicepresidente de DeepMind, obtuvo una puntuación superior al 90% en MMLU, el sistema de evaluación para la comprensión de idiomas en tareas múltiples. «Este es el primer modelo de IA que supera a los expertos humanos en este punto de referencia estándar de la industria», afirma. Gemini también aprobó (59,4%) el examen de “comprensión de tareas multimodales que incluyen requisitos que requieren un razonamiento deliberado”.
Gemini no es una aplicación sino la plataforma para llevar este último modelo de inteligencia artificial a los servicios existentes, desde Bard, el competidor de chat de Google hasta ChatGPT, pasando por los motores de búsqueda o los gestores de servicios o los móviles Android o los grandes centros de datos.
Para ello estarán disponibles tres “tamaños” de Gemini: el Nano, ya utilizable por los desarrolladores de Android; el Pro, que estará disponible a partir del 13 de diciembre y el Ultra, que podrá implementarse desde principios de año en una fecha aún por determinar. Los desarrolladores y clientes empresariales podrán acceder a Pro a través de la API Gemini en Google AI Studio o Vertex AI. Gracias a AICore, los desarrolladores de Android también podrán crear aplicaciones con Nano.
bardo
Sissie Hsiao, jefa de magos y bardo, anunció que Gemini se suma ahora a este último chat en inglés para 180 países y que poco a poco se irá ampliando al resto de idiomas, aunque admitió que tendrán que confirmar que este desarrollo es compatible con la inminente regulación europea sobre inteligencia artificial, que incluye estas plataformas de diálogo entre sus desarrollos modulares. Y con su inclusión en Bard, se extenderá a todas las aplicaciones compatibles.
El proceso se desarrollará en dos fases: en la primera se utilizará una versión Pro, que proporcionará al gato “razonamiento, planificación, comprensión y otras habilidades más avanzadas”, según Hsiao; y el segundo, a principios del próximo año, con mejoras que culminarán con la adopción de la versión Ultra.
Gemini nació multimodal, es decir, no se entrenó con distintas modalidades de datos y luego se unificaron las capacidades diferenciadas, pero su programación ya se apoya en la diversidad de fuentes. Como explica Collins: “Esto ayuda a Gemini a comprender de forma transparente todo tipo de entradas, mucho mejor que los modelos existentes y sus capacidades son de última generación. »
También es capaz de programar desarrollos complejos. En este sentido, Amin Vahdat, vicepresidente de Google Cloud, asegura: “En el futuro veremos programadores utilizando modelos de IA de alta capacidad como herramientas colaborativas que faciliten todo el proceso de desarrollo. softwaredesde el razonamiento sobre los problemas hasta el soporte de la implementación, el rendimiento y las capacidades.
En cuanto a la seguridad, Google dice que Gemini pasa «las evaluaciones más completas de cualquier modelo hasta la fecha». La empresa asegura que ha sometido la plataforma a todos los riesgos existentes y potenciales y que mantiene una revisión continua que incluye “pruebas de estrés”. También se aplicaron los principios de IA propios de la compañía, que establecen los estándares éticos para sus desarrollos.
A pesar de los avances, Géminis no es infalible, como reconocen los funcionarios. Admiten que esto les producirá errores y alucinaciones (respuestas seguras no justificadas por los datos). «Hemos progresado mucho y Gemini es nuestro mejor modelo en ese sentido, pero yo diría que todavía es un problema de investigación sin resolver», admite Collins.
puedes seguir EL PAÍS Tecnología dentro Facebook Y X o regístrate aquí para recibir nuestra boletín semanal.