Amazon lanza Nova Sonic, un modelo de voz impulsado por inteligencia artificial
Amazon ha presentado Nova Sonic, un innovador modelo de inteligencia artificial (IA) que permite procesar y generar voz de manera nativa, ofreciendo un sonido más natural. Esta nueva propuesta busca superar el rendimiento de productos similares desarrollados por OpenAI y Google, destacándose en pruebas de tiempo de respuesta, reconocimiento de voz y calidad conversacional.
La compañía, fundada por Jeff Bezos, sostiene que su nuevo algoritmo “simplifica el desarrollo de aplicaciones de voz, como la automatización de llamadas de atención al cliente y agentes conversacionales, en diversos sectores como viajes, educación, salud, entretenimiento y más”.
Una arquitectura unificada para aplicaciones de voz
Los expertos de Amazon explican que los métodos convencionales para crear aplicaciones de voz requieren la integración de múltiples modelos independientes, cada uno especializado en tareas como el reconocimiento de voz, la comprensión del lenguaje y la conversión de texto a voz. Esta fragmentación, según indican, complica el desarrollo y dificulta la conservación del contexto acústico y los matices del habla, elementos esenciales para lograr interacciones más naturales.
En contraste, Nova Sonic se distingue por su arquitectura unificada, que integra transcripción, comprensión y generación vocal. Esto le permite adaptar sus respuestas tanto al contexto acústico como a las características sonoras de las voces entrantes. Amazon afirma que el modelo “comprende los matices de la conversación humana, incluyendo pausas y vacilaciones naturales del hablante. Además, espera para intervenir en el momento adecuado y maneja eficazmente las interrupciones”.
Desempeño superior en comparación con competidores
Amazon asegura que la tasa de error de Nova Sonic es significativamente menor en comparación con otras IA similares. En la evaluación Multilingual LibriSpeech, que mide el reconocimiento de voz en varios idiomas y dialectos, el modelo logró una tasa de error de palabras (WER, por sus siglas en inglés) de 4.2% en promedio en inglés, francés, italiano, alemán y español. Esto significa que aproximadamente cuatro de cada 100 palabras generadas por el modelo difieren de una transcripción humana en esos idiomas.
Además, en el benchmark Augmented Multiparty Interaction, que evalúa interacciones de alto volumen con múltiples interlocutores, la nueva IA fue un 46.7% más precisa en términos de WER que el modelo de transcripción GPT-4o de OpenAI. Nova Sonic también se destaca por su velocidad, con una latencia percibida promedio de 1.09 segundos, superando a GPT-4o, que responde en 1.18 segundos, según un análisis comparativo de Artificial Analysis.
Accesibilidad y estrategia de mercado
La herramienta ya está disponible a través de Bedrock, la plataforma de Amazon para el desarrollo de aplicaciones empresariales de IA, mediante una nueva API de streaming bidireccional. Según la empresa, Nova Sonic se posiciona como el modelo de voz más rentable del mercado, con un costo 80% menor en comparación con GPT-4o.
El lanzamiento de Nova Sonic forma parte de una estrategia ambiciosa de Amazon para recuperar terreno en la competencia por liderar el mercado de la IA. En los últimos meses, la compañía ha intensificado sus esfuerzos para cerrar la brecha con otras big tech mediante mejoras en sus servicios. Un ejemplo reciente es Alexa+, una versión actualizada del asistente virtual que incorpora IA avanzada para mantener conversaciones en lenguaje natural, realizar análisis multimodales y demostrar comprensión contextual.



