• Google reafirma su compromiso con la IA en Google I/O 2024, destacando la era Gemini y su potencial para creadores, desarrolladores y nuevas empresas.
  • Google Search se renueva con IA Generativa, simplificando las búsquedas con resúmenes rápidos, razonamiento multi-paso y la capacidad de comprender videos.
  • La familia Gemini de Google se expande con modelos más pequeños y asistentes virtuales potenciados por IA.
  • ¿Ya conoces nuestra cuenta en Threads? Síguenos.

La inteligencia artificial ha sido una prioridad de Google desde que su CEO, Sundar Pichai, anunciara que la compañía tendría un enfoque “AI-First” en 2017; sin embargo, en la reciente iteración de Google I/O esta promesa parece resonar con más fuerza que nunca.

«Google está plenamente en nuestra era Gemini. Hemos estado invirtiendo en IA durante más de una década e innovando en cada capa: investigación, productos, infraestructura, y hoy hablaremos de todo ello», dijo Pichai durante el evento.

«Aun así, estamos en los primeros días del cambio de plataforma de IA. Vemos muchas oportunidades por delante, para los creadores, los desarrolladores, las nuevas empresas, para todos. Ayudar a impulsar esas oportunidades es de lo que se trata nuestra era Gemini», agregó.

Google I/O 2024
Google

Durante el evento celebrado en Mountain View, California, el gigante tecnológico realizó diversos anuncios en torno a sus avances en la tecnología más hablada de los últimos años. Desde nuevos modelos de Gemini, hasta asistentes virtuales potenciados con IA y herramientas para generar imágenes y videos, estos son algunos de los anuncios más relevantes en Google I/O 2024.

Google Search se revoluciona con IA Generativa

Google está aprovechando la IA generativa para mejorar sus capacidades de búsqueda, introduciendo AI Overview para proporcionar resúmenes e información rápida sobre temas complejos. Estos resúmenes, impulsados por el modelo de IA Gemini, ofrecen a los usuarios una experiencia de búsqueda simplificada, entregando información completa con un esfuerzo mínimo.

La herramienta estará disponible primero en Estados Unidos, pero se lanzará a más países en los próximos meses.

Además, Google Search está incorporando capacidades de razonamiento multi-paso para abordar consultas complejas de manera efectiva, permitiendo a los usuarios obtener respuestas precisas y detalladas en una sola búsqueda. Las funciones de planificación integradas directamente en Search agilizan aún más tareas como la planificación de comidas y viajes, ofreciendo recomendaciones personalizadas y opciones de personalización fáciles.

Además, los avances de Google en la comprensión de videos permiten a los usuarios usarlos en sus búsquedas, simplificando el proceso de solución de problemas y encontrando información relevante basada en señales visuales.

Google Gemini extiende su familia: agrega un modelo más pequeño y asistentes virtuales con IA

Google I/O
Depositphotos

Una de las primeras cosas anunciadas durante el evento es que la familia de modelos de IA de Google, Gemini, se hace más grande gracias a la presentación del nuevo modelo 1.5 Flash, un modelo que es más liviano que 1.5 Pro y está diseñado para ser rápido y eficiente para brindar servicio a escala.

De acuerdo con Demis Hassabis, CEO de Google DeepMind, Flash sobresale en tareas como resúmenes, aplicaciones de chat, subtitulado de imágenes y videos, así como extracción de datos de documentos largos.

A su vez, la compañía presentó mejoras significativas para Gemini 1.5 Pro, presumiendo de una ventana de contexto extendida de hasta 2 millones de tokens y un rendimiento mejorado en diversos dominios, incluido el razonamiento, la codificación y la comprensión de imágenes. Gemini también cuenta con nuevas funciones de análisis de datos y experiencias de conversación mejoradas.

La actualización —disponible para los suscriptores de Gemini Advanced— incluye una ventana de contexto de 1 millón de tokens, lo que permite a Gemini comprender y analizar grandes cantidades de información. Esto habilita funciones como resumir 100 correos electrónicos o analizar documentos de 1,500 páginas. Los usuarios también pueden cargar archivos directamente a Gemini para realizar análisis e información.

De acuerdo con Google, estas actualizaciones empoderan a los usuarios del chatbot con un control más matizado sobre sus respuestas, allanando el camino para experiencias conversacionales mejoradas y la automatización de flujos de trabajo.

Gemini Nano, anteriormente centrado en entradas de texto, ahora se está expandiendo para incluir la comprensión de imágenes, prometiendo una experiencia de IA más completa para los usuarios.

La app de Gemini también se actualiza

Google I/O
Depositphotos

Sissie Hsiao, VP y directora general de Gemini Experiences y Asistente de Google, también presentó actualizaciones para la aplicación móvil de Gemini.

Entre ellas está «Live», una experiencia de conversación móvil que utiliza tecnología de voz avanzada para interacciones más naturales. Los usuarios pueden hablar con Gemini y elegir entre varias voces de respuesta.

Además, Gemini ahora puede tomar acciones en nombre de los usuarios, como crear itinerarios de viaje personalizados basados en preferencias e información recopilada de Gmail y Google Maps.

Finalmente, la actualización permite a los usuarios personalizar Gemini creando lo que llama «Gems»: versiones personalizadas del asistente de IA adaptadas a necesidades específicas. Los usuarios pueden crear Gems para diversos fines, como un entrenador de carrera o una guía de escritura creativa.

Project Astra: el futuro de los asistentes de IA

En paralelo, Google anunció Gemma 2, la próxima generación de modelos abiertos, junto con el desarrollo de Project Astra, con el objetivo de revolucionar los asistentes de IA mejorando su comprensión y capacidad de respuesta a las interacciones humanas.

En el caso específico de Proyect Astra, la idea es que los asistentes de IA sean capaces de comprender y responder tal como lo hacen las personas; así como asimilar y recordar lo que ven y oyen para comprender el contexto y responder acorde a ellas.

El prototipo Project Astra se creó sobre el modelo Gemini y otros modelos de tareas específicas, y fue diseñado para procesar información más rápido codificando continuamente cuadros de video, combinando la entrada de video y voz en una línea de tiempo de eventos y almacenando en caché esta información para recuperarla de manera eficiente.

Google también mejoró su sonido, brindando a los agentes de IA una gama más amplia de entonaciones. Estos también pueden comprender mejor el contexto en el que se utilizan y responder rápidamente en la conversación.

Algunas de estas capacidades llegarán a los productos de Google, como la aplicación Gemini, a finales de este año.

La IA Generativa como herramienta para potenciar la expresión creativa

Google I/O 2024.
Veo es un modelo de generación de video mediante IA, capaz de crear videos de alta calidad con resolución de 1080p que pueden durar más de un minuto. Google

Los esfuerzos de Google en IA generativa se extienden más allá de Gemini, con la presentación de Veo, un modelo de generación de video de alta definición, e Imagen 3, un modelo de texto a imagen de primer nivel.

Estos avances ofrecen a los creadores un control y una fidelidad sin precedentes en sus esfuerzos creativos, permitiéndoles producir videos e imágenes realistas con una facilidad notable.

En el caso específico de Veo, este es el modelo de generación de video más eficiente de la compañía hasta la fecha, capaz de generar videos de alta calidad con resolución de 1080p que pueden durar más de un minuto, en una amplia gama de estilos visuales y cinematográficos.

A su vez, Veo tiene una comprensión avanzada del lenguaje natural y la semántica visual, y puede generar videos que representen fielmente la visión creativa del usuario, presentando detalles con precisión en indicaciones más largas y capturando el tono.

El modelo también comprende términos cinematográficos como “timelapse” o “tomas aéreas de un paisaje”, lo que proporciona un nivel de control creativo sin precedentes. También permite crear imágenes consistentes y coherentes: personas, animales y objetos se mueven de manera realista a lo largo de las tomas.

Veo se encuentra disponible a partir de hoy para creadores seleccionados como vista previa privada dentro de VideoFX.

Google dijo que en el futuro incorporará algunas de las capacidades de Veo a YouTube Shorts y otros productos.

AHORA LEE: Google Cloud renueva apuesta por la IA para potenciar su negocio

TAMBIÉN LEE: Microsoft y Alphabet demuestran a los inversionistas que se puede ganar mucho dinero con la IA

Descubre más historias en Business Insider México

Síguenos en Facebook, Instagram, Twitter, LinkedIn, YouTube, TikTok y Threads

AHORA ESCUCHA:

AHORA VE: