Gemini ahora puede observar lo que haces en la pantalla del smartphone e interactuar con ese contenido
Gemini, el asistente de inteligencia artificial (IA) de Google, ha incorporado recientemente la tecnología de Project Astra, una plataforma innovadora que permite a la IA obtener contexto multimodal a través de video. Esta integración otorga al chatbot la capacidad de “ver” e interpretar la información que aparece en la pantalla de un smartphone.
La actualización proporciona a la herramienta de asistencia inteligente la posibilidad de grabar los contenidos visualizados en pantalla. Esto permite a los usuarios realizar consultas en tiempo real a Gemini sobre lo que ven mientras navegan por internet, juegan un videojuego o exploran cualquier material multimedia.
Interacción mejorada con la cámara del dispositivo
La función Live del bot inteligente ha ampliado sus capacidades para acceder a la cámara del dispositivo móvil. De esta manera, los usuarios pueden interactuar con el asistente basándose en lo que la cámara capta en el momento. Estas funciones se activan mediante un botón integrado en la interfaz de Gemini. Actualmente, están disponibles solo en inglés para un grupo selecto de suscriptores de Gemini Advanced dentro del plan Google One AI Premium.
Las nuevas mejoras se fundamentan en la tecnología de Project Astra, presentada por Google DeepMind el año pasado. Esta plataforma fue desarrollada con el objetivo de permitir que los sistemas de IA «entiendan y respondan al mundo complejo y dinámico como lo hacen las personas». Proporciona a los algoritmos la capacidad de asimilar y recordar lo que “ven y escuchan”, lo que les permite comprender mejor el contexto y responder de manera más precisa a las solicitudes de los usuarios.
Gemini transforma resultados en formato de podcast
Además, Google ha introducido la función Audio Overview a Gemini, que permite a los usuarios generar resúmenes de audio (similares a un podcast) de cualquier documento o de los resultados obtenidos a través de Deep Research, la herramienta de búsqueda profunda de Google. La compañía explica que «Gemini creará un debate estilo podcast entre dos presentadores de IA que, con un solo clic, iniciarán una conversación dinámica y profunda basada en los archivos que subas. Resumirán el material, establecerán conexiones entre temas, participarán en un intercambio activo y aportarán perspectivas únicas».
Esta nueva función está disponible en la versión web y en las aplicaciones móviles de Gemini para los suscriptores de Gemini Advanced a nivel global en inglés. Se anticipa que pronto se ampliará el soporte a más idiomas. Para convertir un resultado de Google Deep Research en un podcast, basta con seleccionar la opción «Generar resumen de audio» debajo de la respuesta y comenzar a escuchar el contenido resumido.
Las ambiciosas actualizaciones de Gemini reflejan la creciente competencia por el liderazgo en la IA de consumo masivo, una carrera impulsada por el éxito de ChatGPT y reforzada por las iniciativas de otras empresas. Amazon, por ejemplo, anunció recientemente el lanzamiento de Alexa+, una versión mejorada de su asistente que incorpora IA para mantener conversaciones en lenguaje natural, realizar análisis multimodales y demostrar conciencia contextual. Por su parte, Apple ha confirmado que trabaja en una actualización similar para Siri, aunque el proyecto ha enfrentado retrasos debido a inconvenientes técnicos.
