Google busca integrar Chirp 3 en Vertex AI para que su plataforma sea capaz de comunicarse en 31 idiomas
En un contexto donde los usuarios se muestran satisfechos con la generación de texto e imagen en sus interacciones con los chatbots favoritos, Google ha decidido enfocarse en la voz como la forma de interacción preferida para los modelos de inteligencia artificial generativa de próxima generación. Por esta razón, Google Cloud ha anunciado la integración de Chirp 3 en su plataforma de inteligencia artificial, Vertex AI.
Chirp 3 representa la última versión del modelo de generación de audio de Google. Esta plataforma combina tecnologías de reconocimiento de voz (speech-to-text) y generación de voz en alta definición (HD text-to-speech), y ahora incluye ocho nuevas voces en 31 idiomas, lo que se traduce en 248 “hablantes” diferentes.
Características de Chirp 3
Con “inflexiones emotivas” y “una entonación realista”, una representante de Google Cloud ha señalado que Chirp 3 es la herramienta ideal para desarrollar asistentes de voz, audiolibros y narraciones de podcasts, así como para agentes de soporte y voz en off en contenidos mediáticos. Chirp 3 estará disponible como parte de Vertex AI a partir de la próxima semana.
Al incorporar estas capacidades a Vertex AI, los usuarios podrán añadir funciones de voz avanzadas en el desarrollo de sus aplicaciones. Sin embargo, es importante mencionar que Chirp 3 estará sujeto a ciertas restricciones en un principio, con el objetivo de prevenir el uso indebido de esta plataforma generadora de audio.
La visión de Google Cloud
“Nuestra visión general para la IA ha sido ofrecer una amplia gama de modelos; aunque nos centraremos en Gemini, también proporcionamos Imagen, Veo y Chirp, junto con otros modelos científicos”, afirmó Thomas Kurian, director ejecutivo de Google Cloud, durante un evento en las oficinas de DeepMind en Londres.
A diferencia de Gemini, que es una herramienta más amigable y accesible para usuarios casuales que buscan mejorar su productividad, Vertex AI se presenta como una plataforma más compleja, enfocándose en la creación y gestión de aplicaciones de IA personalizadas, adaptadas a las necesidades de desarrolladores y científicos de datos.
La evolución de la interacción con la IA
A pesar de que los comandos basados en texto siguen siendo la forma habitual de interactuar con los modelos de IA generativa, las grandes empresas del Big Tech y diversas start-ups han estado experimentando con interfaces de voz en sus plataformas. En octubre de 2024, Google anunció que su chatbot, Gemini Live, ahora puede procesar consultas y respuestas en español a través de dispositivos Android. Ese mismo mes, Microsoft reveló que Copilot podrá conversar con los usuarios utilizando varias voces similares a las humanas, gestionando interrupciones y pausas de manera natural.
En enero de este año, el modo de voz de ChatGPT fue presentado como un chatbot capaz de interpretar intenciones y entonaciones de las consultas, reconocer objetos y resolver problemas matemáticos, lo que permite conversaciones más fluidas y naturales.
En la carrera por ofrecer un servicio más avanzado a los usuarios, uno de los enfoques consiste en acelerar la percepción de que estamos interactuando no con una computadora o un robot, sino con una persona, un amigo siempre dispuesto a ayudar. Así, se busca restar lo “artificial” a la inteligencia artificial del asistente. Para muchas empresas, superar la barrera de la voz parece ser el siguiente paso lógico en la progresiva humanización de la máquina.
