Desde hace unos años se está librando una batalla en el mundo de IA que ha sido llevada a su máxima tensión con la viralización y popularización de la IA generativa.
A estas alturas ¿quién no ha oído hablar de ChatGPT o Bard? A finales del año pasado, Google enseñó su próxima carta: Gemini, que tiene como principal novedad su multimodalidad, es decir, su capacidad para recoger como entrada diferentes tipos de formatos (vídeo, imagen, texto o audio) y generar a su salida cualquiera de estos formatos.
Gemini es un modelo de inteligencia artificial creado por Google. Es importante diferenciar que los modelos no son las aplicaciones o chatbots como Google Bard, sino que son la tecnología con la que estos funcionan. Gemini quiere ser el sucesor de PaLM, que es el modelo de inteligencia artificial que antes utilizaba Bard.
Gemini se enmarca como la nueva evolución de modelos de IA generativa, donde su principal avance consiste en que ha sido diseñado y entrenado desde cero de manera multimodal, pudiendo usar el mismo modelo para texto, imágenes, vídeo, audio y código.
Para ser precisos, más que un modelo es una familia de modelos, de forma que vamos a tener varios tamaños y derivados, todos dentro de la familia Gemini.
- Gemini Ultra (competidor de GPT-4, aún en preview) es el más avanzado y multimodal. Está previsto que Google lance un Bard Advance con este modelo.
- Gemini Pro (competidor de GPT 3.5, ya disponible) es algo más limitado en capacidades y funciones. Ha empezado a llegar ya a Google Bard, también en España y en español.
- Gemini Nano (sin competidor, aún en preview) está enfocado a dispositivos con menos capacidades de computación y memoria, para así poder funcionar en teléfonos móviles (incluso sin Internet). Llegará a los móviles Pixel 8 Pro.
Como hemos comentado anteriormente, la principal novedad de Gemini consiste en que ha sido diseñado y entrenado de forma multimodal. Gracias a esto podemos enviar información de varias formas simultáneamente. Por ejemplo, enviamos un audio con una canción y le pedimos que nos cambie la letra para que sea distinta.
Evidentemente esto nos abre nuevas posibilidades en cuanto a las tareas que puede hacer el modelo, pero también mejora muchas de las que ya utilizamos con modelos no multimodales.
¿Son los modelos multimodales una verdadera revolución? ¿Cambiarán mucho nuestra forma de usar los LLM? Si quieres saber nuestras opiniones y conocer más sobre Gemini no te pierdas este episodio de ‘Cómo conocí a nuestro cloud’.
Puedes escucharlos en las principales plataformas de podcast: Ivoox, Spotify, YouTube, Google Podcast, Apple Podcast y Amazon Music.
Imagen de portada: Unsplash
Tomás Calleja
De pequeño me encantaba solucionar problemas de manera sencilla y cacharrear con la tecnología. Han pasado los años pero mis gustos no han cambiado: me paso el día aprendiendo nuevas tecnologías para luego diseñar e implementar soluciones sencillas a problemas complejos, siempre desde un punto de vista LEAN. Durante los últimos años me he centrado en Google Cloud Platform, soluciones Cloud Native y Serverless aunque me gusta saber un poco de todo.
Ver más contenido de Tomás.Raúl Pérula
Con varios años de experiencia en posiciones técnicas y de gestión, soy Doctor en Inteligencia Artificial Aplicada, especializado en Reinforcement Learning, Computer Vision y NLP. Apasionado por la innovación, lidero como Arquitecto Principal en el equipo de Estrategia Tecnológica, la estrategia empresarial en IA con foco actualmente en IA Generativa. Siempre intento que mi curiosidad y perfeccionismo impulsen cada proyecto y mi objetivo es que cada día podamos hacer realidad la ciencia ficción.
Ver más contenido de Raúl.Óscar Ferrer
Después de más de 10 años trabajando en el desarrollo de productos digitales, he tenido la suerte de pasar por diferentes roles que me han dado una visión global de lo que significa idear, desarrollar y mantener productos de software. En este camino he visto cómo el Cloud se convertía en un factor clave, no solo para su desarrollo, sino también para la estrategia global de compañía. Por eso, me escucharás hablar sobre cómo la nube puede aportar desde un punto de vista técnico, pero también sobre cómo puede ayudar a la transformación de empresas.
Ver más contenido de Óscar.
Tell us what you think.