NVIDIA se atreve con una IA capaz de crear sonidos que nunca han existido e invita a utilizarla con moderación

La firma insiste en que no es un sustituto, sino un complemento para fomentar inquietudes artísticas

Audio Nvidia
Sin comentarios Facebook Twitter Flipboard E-mail
abelardo-gonzalez

Abelardo González

Editor - Tech

Pocas compañías sacan tanto partido a la inteligencia artificial como NVIDIA, el gigante norteamericano que debe gran parte de su crecimiento meteórico a esta tecnología. Gracias a la misma, han conseguido ponerse a la altura de titanes como Microsoft y Apple, las dos compañías más valiosas del mundo. Y, mientras el CEO de NVIDIA asegura que imagina un futuro en el que la IA equipara a la electricidad, su compañía trabaja en un nuevo modelo de audio con inteligencia artificial que es capaz de sintetizar sonidos que nunca han existido.

Como señala Ars Technica, Fugatto es un modelo que transforma música, voces y sonidos, generando con ellos tanto combinaciones como características nunca antes escuchadas. Así, es capaz de crear sonidos como saxofones o ladridos, así como voces humanas bajo el agua o sirenas de ambulancia cantando en un coro. Y, aunque los resultados varían según la petición, demuestra una capacidad notable para manipular audio.

Lo más complejo fue el entrenamiento

La propia NVIDIA reconoce que lo más complejo de todo fue crear un conjunto de datos de entrenamiento que sea capaz de relacionar audio con lenguaje (ejemplo: utilizaron comandos como "sintetiza una voz feliz" o "aumenta la tristeza de esta voz"). Además, también emplearon modelos de comprensión de audio para generar descripciones naturales y, a su vez, cuantificar características como género, emoción y calidad de voz en los clips de entrenamiento. Por ello, Fugatto se entrenó con un conjunto de datos anotado de 20 millones de muestras, una cifra a la que debemos sumar 50.000 horas de audio para entender características sonoras.

Gracias al sistema ComposableART, pueden combinar rasgos de audio de manera independiente y crear sonidos completamente nuevos: violines que ríen, maquinaría que grita en agonía y más. Además, también permite ajustar el nivel del acento español, añadir tristeza a una voz o equilibrar sonidos, así como cambiar emociones en texto hablado o aislar voces en música. Por elo, NVIDIA asegura que esta herramienta es una opción versátil para artistas y creadores de contenido y, a su vez, hace hincapié en que no sustituye el talento creativo, sino que lo potencia y lo complementa.

En 3DJuegos | Las filtraciones de la RTX 5070 Ti apuntan a una GPU de lo más prometedora si atendemos a su relación calidad-precio

En 3DJuegos | NVIDIA se prepara para el estreno de la serie RTX 5000 y la última pista está relacionada con sus planes de producción

Imagen principal de Ritupon Baishya (Unsplash)

VÍDEO ESPECIAL

1.495 visualizaciones

20 METROIDVANIA QUE TIENES QUE JUGAR ANTES DE MORIR

Cuando te paras a pensar en un género que es capaz de integrar una enrevesada exploración, una sensación de progresión constante y un buen diseño de niveles interconectados, es inevitable que tu mente terminé dándole vueltas al género de los metroidvania. Desde que sagas pione...