NVIDIA se atreve con una IA capaz de crear sonidos que nunca han existido e invita a utilizarla con moderación

La firma insiste en que no es un sustituto, sino un complemento para fomentar inquietudes artísticas

Audio Nvidia
Sin comentarios Facebook Twitter Flipboard E-mail
abelardo-gonzalez

Abelardo González

Editor - Tech
abelardo-gonzalez

Abelardo González

Editor - Tech

Pocas compañías sacan tanto partido a la inteligencia artificial como NVIDIA, el gigante norteamericano que debe gran parte de su crecimiento meteórico a esta tecnología. Gracias a la misma, han conseguido ponerse a la altura de titanes como Microsoft y Apple, las dos compañías más valiosas del mundo. Y, mientras el CEO de NVIDIA asegura que imagina un futuro en el que la IA equipara a la electricidad, su compañía trabaja en un nuevo modelo de audio con inteligencia artificial que es capaz de sintetizar sonidos que nunca han existido.

Como señala Ars Technica, Fugatto es un modelo que transforma música, voces y sonidos, generando con ellos tanto combinaciones como características nunca antes escuchadas. Así, es capaz de crear sonidos como saxofones o ladridos, así como voces humanas bajo el agua o sirenas de ambulancia cantando en un coro. Y, aunque los resultados varían según la petición, demuestra una capacidad notable para manipular audio.

Lo más complejo fue el entrenamiento

La propia NVIDIA reconoce que lo más complejo de todo fue crear un conjunto de datos de entrenamiento que sea capaz de relacionar audio con lenguaje (ejemplo: utilizaron comandos como "sintetiza una voz feliz" o "aumenta la tristeza de esta voz"). Además, también emplearon modelos de comprensión de audio para generar descripciones naturales y, a su vez, cuantificar características como género, emoción y calidad de voz en los clips de entrenamiento. Por ello, Fugatto se entrenó con un conjunto de datos anotado de 20 millones de muestras, una cifra a la que debemos sumar 50.000 horas de audio para entender características sonoras.

Gracias al sistema ComposableART, pueden combinar rasgos de audio de manera independiente y crear sonidos completamente nuevos: violines que ríen, maquinaría que grita en agonía y más. Además, también permite ajustar el nivel del acento español, añadir tristeza a una voz o equilibrar sonidos, así como cambiar emociones en texto hablado o aislar voces en música. Por elo, NVIDIA asegura que esta herramienta es una opción versátil para artistas y creadores de contenido y, a su vez, hace hincapié en que no sustituye el talento creativo, sino que lo potencia y lo complementa.

En 3DJuegos | Las filtraciones de la RTX 5070 Ti apuntan a una GPU de lo más prometedora si atendemos a su relación calidad-precio

En 3DJuegos | NVIDIA se prepara para el estreno de la serie RTX 5000 y la última pista está relacionada con sus planes de producción

Imagen principal de Ritupon Baishya (Unsplash)

VÍDEO ESPECIAL

3.368 visualizaciones

20 videojuegos con gráficazos que llegarán en 2025

Hace apenas unas semanas que estrenamos nuevo año y ya tenemos en el horizonte un puñado de videojuegos que tienen una pinta espectacular. Y lo decimos de forma literal, porque este nuevo top está dedicado a los juegos con los gráficos más potentes de 2025.