Google Gemini busca superar a ChatGPT mediante el uso de IA aplicada a fotos y videos.

Por

diciembre 7, 2023

1303

Google ha lanzado su nuevo modelo llamado Gemini en su chatbot Bard AI, que incorpora comprensión de video, audio y fotografías. Los propietarios de Google Pixel 8 serán los primeros en disfrutar de estas nuevas capacidades de inteligencia artificial.

La nueva tecnología de Google Bard, llamada Gemini, se lanzó el miércoles en varios países, pero solo está disponible en inglés. Ofrece capacidades de chat basadas en texto que mejoran la IA en tareas complejas como resumir documentos y escribir código. Las capacidades multimedia, como comprender gestos en video y resolver rompecabezas de dibujo, llegarán pronto.

Gemini representa un cambio dramático para la IA al reconocer la importancia de procesar información en un mundo tridimensional y en constante cambio. Busca mejorar nuestra comprensión completa del mundo al considerar habilidades de comunicación complejas como el habla y las imágenes, no solo palabras escritas.

Google ha anunciado que Gemini estará disponible en tres versiones diseñadas para diferentes niveles de potencia informática:

Gemini Nano, disponible en dos variantes para distintos niveles de memoria, se ejecutará en teléfonos móviles y potenciará nuevas funciones en los Google Pixel 8, como resumir conversaciones en Grabadora y sugerir respuestas en WhatsApp con Gboard.
Gemini Pro, optimizado para respuestas rápidas, está funcionando en los servidores de Google y será la base de una actualización de Bard que estará disponible a partir del próximo miércoles.
Gemini Ultra, actualmente restringido a un conjunto de pruebas, se incorporará al nuevo chatbot Bard Advanced a principios de 2024. Google optó por no divulgar detalles sobre los precios, aunque se anticipa un coste adicional por esta capacidad avanzada.

La última versión resalta el rápido avance en el emergente campo de la IA generativa, donde los chatbots generan sus propias respuestas a partir de instrucciones en lenguaje natural, en lugar de seguir comandos de programación complejos. Aunque OpenAI tomó la delantera con el lanzamiento de ChatGPT hace un año, Google ya está en su tercera iteración importante del modelo de IA y tiene planes para integrar esta tecnología en productos ampliamente utilizados como Búsqueda, Chrome, Google Docs y Gmail, empleados por miles de millones de usuarios.

«Durante mucho tiempo, hemos aspirado a desarrollar una nueva generación de modelos de IA que se inspiren en la manera en que las personas comprenden y se relacionan con el mundo: una IA que se sienta más como un colaborador útil y menos como un software inteligente», comentó Eli Collins, vicepresidente de producto en la división DeepMind de Google. «Gemini nos acerca un paso más a esa visión».

OpenAI también está detrás de la tecnología que impulsa Copilot AI de Microsoft, incluido su modelo más reciente, GPT-4 Turbo AI, lanzado en noviembre. Microsoft, al igual que Google, está integrando funciones de inteligencia artificial en productos clave como Office y Windows.

La llegada de la multimedia representará un cambio significativo en comparación con el texto. Sin embargo, persisten los problemas fundamentales en los modelos de IA entrenados mediante el reconocimiento de patrones en grandes conjuntos de datos del mundo real. A pesar de su capacidad para transformar instrucciones complejas en respuestas sofisticadas, aún existe la posibilidad de que proporcionen respuestas plausibles en lugar de respuestas verdaderamente correctas. Como advierte el chatbot de Google, «Bard puede mostrar información inexacta, incluso sobre personas, así que verifique sus respuestas».

Gemini representa la próxima generación del gran modelo de lenguaje de Google, sucesor de PaLM y PaLM 2, que han sido fundamentales para Bard hasta el momento. Entrenar a Gemini simultáneamente en texto, código de programación, imágenes, audio y video le permite manejar de manera más efectiva la entrada multimedia en comparación con modelos de IA separados pero interconectados para cada tipo de entrada.

Según un artículo de investigación de Google (PDF), los ejemplos de las habilidades de Gemini son diversos:

Puede predecir correctamente la siguiente forma en una serie de figuras geométricas que incluyen un triángulo, un cuadrado y un pentágono, identificando el siguiente elemento como un hexágono.
Al presentarle imágenes de la Luna y una mano sosteniendo una pelota de golf y pedirle que encuentre la conexión, identifica correctamente que los astronautas del Apolo golpearon dos pelotas de golf en la Luna en 1971.
Convierte gráficos de barras que muestran la eliminación de desechos por país en una tabla etiquetada y detecta datos periféricos, como el hecho de que Estados Unidos descarta mucho más plástico en comparación con otras regiones.

Google también mostró a Gemini abordando un problema de física escrito a mano, identificando errores en el trabajo de un estudiante y proporcionando una explicación corregida. Un video de demostración adicional mostró a Gemini reconociendo elementos como un pato azul, títeres de mano y trucos de magia en videos. Sin embargo, estas demostraciones no fueron en tiempo real y no se conoce con qué frecuencia Gemini enfrenta desafíos similares.

Gemini Ultra está actualmente en fase de pruebas adicionales antes de su lanzamiento el próximo año. Para estas pruebas, Google lleva a cabo un «equipo rojo», donde se recluta a personas para identificar vulnerabilidades de seguridad y otros problemas. Estas pruebas se vuelven más complicadas con datos multimedia, ya que la combinación de un mensaje de texto y una foto, por ejemplo, puede transmitir significados completamente diferentes.

Sundar Pichai, CEO de Google, mencionó en una publicación de blog: «Estamos abordando este trabajo con audacia y responsabilidad». Esto implica llevar a cabo investigaciones ambiciosas con grandes beneficios potenciales, al tiempo que se incorporan salvaguardias y se colabora con gobiernos y otros actores para mitigar los riesgos a medida que la IA adquiere más capacidades.