Amazon presenta Nova, su nueva familia de modelos de IA con capacidades de generación de texto, imágenes y vídeos

Esta gama de IAs es accesible desde AWS Bedrock y está optimizada para utilizarse en 15 idiomas, entre ellos el español.

4 de diciembre de 2024

Amazon ha aprovechado su evento AWS re:Invent para presentar Nova, su nueva gama de modelos de IA generativa multimodal disponible en AWS Bedrock, la plataforma de desarrollo de IA de Amazon. Esta familia de IAs se compone de cuatro modelos de generación de texto (Micro, Lite, Pro y Premier) y dos de generación de contenido creativo (Nova Canvas y Nova Reel).

Rohit Prasad, vicepresidente Senior de Inteligencia Artificial General de Amazon, explicó: «Dentro de Amazon, tenemos alrededor de 1.000 aplicaciones de IA generativa en marcha, y hemos tenido una visión panorámica de los desafíos con los que aún lidian los desarrolladores de aplicaciones.

Nuestros nuevos modelos Amazon Nova están destinados a ayudar con estos desafíos tanto a desarrolladores internos como externos, y proporcionar inteligencia y generación de contenido convincentes, al tiempo que ofrecen un progreso significativo en latencia, rentabilidad, personalización, Generación Aumentada por Recuperación (RAG) y capacidades agénticas».

Generación de texto con Micro, Lite, Pro y Premier

Amazon ha diseñado cuatro modelos de generación de texto con Nova optimizados para 15 idiomas, entre ellos el español, aunque el principal es el inglés. Así mismo, cada uno de ellos está adaptado a las diferentes necesidades y recursos de sus clientes. Estos son:

Amazon Nova Micro: modelo que solo puede recibir y generar texto, que ofrece respuestas de menor latencia a un coste muy bajo. Su ventana de contexto es de hasta 128.000 tokens, lo que significa que puede procesar hasta unas 100.000 palabras.
Amazon Nova Lite: modelo multimodal de muy bajo coste que es muy rápido procesando entradas de imágenes, videos y textos. Presenta una ventana de contexto de 300.000 tokens, lo que equivaldría a unas 225.000 palabras, 15.000 líneas de código informático o 30 minutos de metraje.
Amazon Nova Pro: modelo multimodal de gran capacidad que, según Amazon, presenta la mejor combinación de precisión, velocidad y coste para una amplia gama de tareas. Su ventana de contexto es la misma que la de Lite.
Amazon Nova Premier: el más capaz de los modelos multimodales de Amazon para tareas de razonamiento complejo y para usar como maestro para crear modelos personalizados.

Los modelos Micro, Lite y Pro ya se encuentran disponibles para los clientes de AWS (Amazon Web Services). En lo que respecta a Amazon Nova Premier, el lanzamiento de esta IA está prevista para el primer trimestre de 2025.

Por otra parte, durante el 2025, Amazon continuará trabajando en el desarrollo de estos modelos con el objetivo de mejorarlos. Una de sus metas es lograr ampliar la ventana de contexto de varias de estas IAs hasta poder admitir más de 2 millones de tokens.

Rufus, el asistente de compras impulsado por IA de Amazon ya está disponible en España

Generación de imágenes con Nova Canvas y de vídeos con Nova Reel

Sumados a estos cuatro modelos de texto, Nova también incluye dos IAs de generación de contenido creativo que ya se encuentran disponibles. Por un lado encontramos a Nova Canvas, especializado en la generación y edición de imágenes a partir de indicaciones de texto y de imágenes ya existentes. Es de gran utilidad para realizar funciones como la eliminación de fondos y también brinda controles para los esquemas de color y los diseños finales de las obras generadas.

Dos imágenes generadas con la IA de Nova Canvas. A la izquierda la obra se generó bajo la descripción "un restaurante francés muy elegante" y la de la derecha con el prompt "Fotografía en blanco y negro, estudio de personajes, múltiples ángulos" — Imágenes creadas con Amazon Nova Canvas

En cuanto a Nova Reel, esta IA es capaz de generar vídeos de hasta 6 segundos en unos 3 minutos, a partir de prompts escritos o de imágenes de referencia. Además, también ofrece la posibilidad de especificar controles de movimiento de cámara (panorámicas, rotaciones de 360º, zooms…) mediante entradas de lenguaje natural. El objetivo de Amazon con Nova Reel es ampliar la duración de los vídeos generados hasta los 2 minutos.

Amazon está preparando un modelo “de voz a voz” y otro “de multimodal a multimodal” con Nova para 2025

Entre los desafíos del gigante tecnológico para el próximo año se encuentra el lanzamiento de un modelo de voz a voz dentro de la familia Nova durante el primer trimestre de 2025. Según Amazon, «el modelo está diseñado para transformar las aplicaciones de IA conversacional al comprender la entrada de voz en streaming en lenguaje natural, interpretar señales verbales y no verbales (como tono y cadencia), y ofrecer interacciones naturales similares a las humanas de ida y vuelta con baja latencia».

Por otra parte, la compañía también está trabajando en un modelo capaz de recibir entradas de texto, imágenes, audio y vídeo, y generar respuestas en cualquiera de estos formatos, que espera tener listo para mediados de 2025. «Este modelo Amazon Nova con capacidades nativas de multimodal a multimodal – o capacidades de modalidad “cualquiera a cualquiera” – simplificará el desarrollo de aplicaciones donde el mismo modelo se puede usar para realizar una amplia variedad de tareas, como traducir contenido de una modalidad a otra, editar contenido y potenciar agentes de IA que pueden entender y generar todas las modalidades».

Foto: Amazon