Contenido
Stability AI vuelve al campo del audio generativo con Stable Audio
Hace un año, Stability AI, la start-up londinense que está detrás del modelo de IA de código abierto generador de imágenes Stable Diffusion, lanzó discretamente Dance Diffusion, un modelo capaz de generar canciones y efectos sonoros a partir de una descripción textual de las canciones y efectos sonoros en cuestión.
Dance Diffusion fue la primera incursión de Stability AI en el audio generativo, y demostró una importante inversión -y un gran interés, al parecer- por parte de la empresa en el naciente campo de las herramientas de creación musical basadas en IA. Sin embargo, casi un año después del anuncio de Dance Diffusion, todo fue silencio en el frente del audio generativo, al menos en lo que respecta a los esfuerzos de Stability.
La organización de investigación Harmony, financiada por Estabilidad para crear el modelo, dejó de actualizar Dance Diffusion el año pasado. (Históricamente, Estabilidad ha proporcionado recursos y cálculos a grupos externos en lugar de crear modelos totalmente internos). Y Dance Diffusion nunca se ha beneficiado de una versión más madura; incluso hoy, para instalarlo hay que trabajar directamente con el código fuente, ya que no hay interfaz de usuario que valga.
Ahora, bajo la presión de los inversores para que convierta más de 100 millones de dólares de capital en productos que generen ingresos, Stability está volviendo a comprometerse masivamente con el audio.
Hoy se presenta Stable Audio, una herramienta que, según Stability, es la primera capaz de crear música de "alta calidad" a 44,1 kHz para uso comercial mediante una técnica llamada difusión latente. Stability afirma que el modelo subyacente de Audio Diffusion, formado por unos 1.200 millones de parámetros, ofrece un mayor control sobre el contenido y la duración del audio sintetizado que las herramientas de música generativa lanzadas hasta ahora.
"La misión de Stability AI es liberar el potencial de la humanidad construyendo modelos fundamentales de IA para diferentes tipos de contenido o 'modalidades'", dijo Ed Newton-Rex, vicepresidente de audio en Stability AI, en una entrevista por correo electrónico con Toukiela. "Empezamos con Stable Diffusion y nos hemos ampliado para incluir idiomas, código y ahora música. Creemos que el futuro de la IA generativa es multimodal".
Audio estable: una nueva herramienta para generar música
Stable Audio no fue desarrollado por Harmony, o al menos no exclusivamente por Harmony. El equipo de audio de Stability, formalizado en abril, creó un nuevo modelo inspirado en Dance Diffusion para apoyar Stable Audio, que Harmony formó a continuación.
Harmony es ahora el brazo de investigación musical de la IA de Stability, dice Newton-Rex, que se unió a Stability el año pasado procedente de TikTok y Snap.
"Dance Diffusion generaba breves clips de audio aleatorios a partir de una paleta limitada de sonidos, y el usuario tenía que refinar la plantilla por sí mismo si quería tener algún control. Stable Audio puede generar audio más largo, y el usuario puede guiar la generación utilizando una descripción de texto y estableciendo la duración deseada", explica Newton-Rex. "Algunos descriptores funcionan muy bien, como EDM y música más rítmica, así como música ambiental, y otros generan audio un poco más 'apagado', como música más melódica, clásica y jazz".
Stability ha rechazado nuestras reiteradas peticiones para probar Stable Audio antes de su lanzamiento. Por ahora, y quizá para siempre, Stable Audio sólo puede utilizarse a través de una aplicación web, que no estaba disponible hasta esta mañana. En un movimiento que seguramente enfadará a los partidarios de su misión de investigación abierta, Stability no ha anunciado ningún plan para hacer que el modelo detrás de Stable Audio sea de código abierto.
Pero Stability ha accedido a enviarnos muestras que muestran lo que el modelo puede lograr en diferentes géneros, principalmente EDM, utilizando descripciones breves.
Aunque hayan sido cuidadosamente seleccionadas, las muestras suenan -al menos a oídos de este periodista- más coherentes, melódicas y, por no decir musicales, que muchas de las "canciones" generadas por modelos de generación de audio hasta la fecha (véase AudioGen y MusicGen de Meta, Riffusion, Jukebox de OpenAI, MusicLM de Google, etc.) ¿Son perfectas? Está claro que no: les falta creatividad, por ejemplo. Pero si escuchara la pista de tecno ambiental que se reproduce a continuación en el vestíbulo de un hotel, probablemente no asumiría que ha sido creada por una IA.
Stable Audio no es el primer modelo que utiliza la difusión latente en la generación de música, pero es uno de los más logrados en términos de musicalidad y fidelidad.
La técnica de difusión latente
Para entrenar a Stable Audio, Stability AI se asoció con la biblioteca de música comercial AudioSparx, que proporcionó una colección de canciones -unas 800.000 en total- de su catálogo de artistas, en su mayoría independientes. Según Newton-Rex, se tomaron medidas para filtrar las pistas vocales, presumiblemente para evitar los problemas éticos y de derechos de autor asociados a las voces "deepfaked".
Sorprendentemente, Stability no filtra los descriptores que podrían acarrearle problemas legales. Mientras que herramientas como MusicLM de Google muestran un mensaje de error si escribes algo como "al estilo de Barry Manilow", Stable Audio no lo hace, al menos por el momento.
Preguntado directamente por la posibilidad de utilizar Stable Audio para generar canciones al estilo de artistas populares como Harry Styles o The Eagles, Newton-Rex dijo que la herramienta está limitada por la música de sus datos de entrenamiento, que no incluye música de grandes discográficas. Puede que así sea. Pero una búsqueda rápida en la biblioteca de AudioSparx muestra miles de canciones "del estilo" de artistas como The Beatles, AC/DC, etc., lo que me parece una evasiva.
Stable Audio está diseñado principalmente para generar música instrumental, por lo que la desinformación y los deepfakes vocales no deberían ser un problema, explica Newton-Rex. "Sin embargo, estamos trabajando activamente para combatir los riesgos emergentes de la IA mediante la implementación de estándares de autenticidad de contenido y etiquetado en nuestros modelos de imágenes, para que los usuarios y las plataformas puedan identificar el contenido asistido por IA generado por nuestros servicios alojados... Planeamos implementar este tipo de etiquetado en nuestros modelos de audio también."
Cada vez se hacen más virales los temas caseros que utilizan IA generativa para crear sonidos familiares que puedan considerarse auténticos, o al menos lo bastante parecidos. El mes pasado, una comunidad de Discord dedicada al audio generativo publicó un álbum entero utilizando una copia de las voces generadas por IA de Travis Scott, lo que provocó la ira de la discográfica que lo representa.
Los sellos discográficos se han apresurado a denunciar las canciones generadas por IA a socios de streaming como Spotify y SoundCloud, alegando problemas de propiedad intelectual, y en general han ganado estas batallas. Pero aún no está claro si la música deepfake infringe los derechos de autor de artistas, sellos discográficos y otros titulares de derechos.
Y, por desgracia para los artistas, pasará algún tiempo antes de que se establezca la claridad. Un juez federal dictaminó recientemente que el arte generado por IA no puede estar protegido por derechos de autor. Pero la Oficina de Derechos de Autor de EE.UU. aún no ha adoptado una postura firme y sólo recientemente ha empezado a recabar la opinión del público sobre cuestiones de derechos de autor relacionadas con la IA.
Stability cree que los usuarios de Stable Audio pueden monetizar -pero no necesariamente registrar los derechos de autor- su trabajo, lo que supone un paso por debajo de lo que han ofrecido otros proveedores de IA generativa. La semana pasada, Microsoft anunció que ampliaría la indemnización para proteger a los clientes comerciales de sus herramientas de IA cuando sean demandados por infracción de derechos de autor basada en los resultados de dichas herramientas.
Audio estable: tarifas y derechos de autor
Los clientes de Stability AI que pagan 11,99 $ al mes por el nivel Pro de Stable Audio pueden generar 500 pistas comercializables de hasta 90 segundos cada una al mes. Los usuarios gratuitos están limitados a 20 pistas no comercializables de 20 segundos cada una al mes. Y los usuarios que deseen utilizar música generada por IA de Stable Audio en aplicaciones, software o sitios web con más de 100.000 usuarios activos mensuales deben contratar una suscripción empresarial.
En el acuerdo de condiciones de uso de Stable Audio, Stability declara que se reserva el derecho a utilizar tanto las descripciones y canciones de los clientes, como datos como su actividad en la herramienta, para diversos fines, incluido el desarrollo de futuros modelos y servicios. Los clientes se comprometen a indemnizar a Stability en caso de reclamación por infracción de los derechos de propiedad intelectual relativos a las canciones creadas con Stable Audio.
Pero cabe preguntarse si los creadores del audio sobre el que se ha entrenado Stable Audio recibirán siquiera una pequeña parte de estas cuotas mensuales. Después de todo, Stability, como muchos de sus competidores de IA generativa, se ha metido en problemas por entrenar modelos sobre el trabajo de artistas sin pagarles ni informarles.
Al igual que las plantillas de imágenes más recientes de Stability, Stable Audio cuenta con un mecanismo para darse de baja, aunque la responsabilidad recae principalmente en AudioSparx. Según Lee Johnson, Vicepresidente Ejecutivo de AudioSparx, los artistas tenían la opción de eliminar sus obras del conjunto de datos de formación de la primera versión de Stable Audio, y alrededor de 10 % de ellos optaron por hacerlo.
"Apoyamos la decisión de nuestros artistas de participar o no, y nos complace ofrecerles esta flexibilidad", dijo Johnson por correo electrónico.
El acuerdo de Stability con AudioSparx prevé el reparto de ingresos entre las dos empresas: AudioSparx permitirá a los músicos de la plataforma participar en los beneficios generados por Stable Audio si deciden participar en la formación inicial o contribuir a la formación de futuras versiones de Stable Audio. Se trata de un modelo similar al adoptado por Adobe y Shutterstock con sus herramientas de IA generativa, pero Stability no ha especificado los detalles del acuerdo, por lo que no queda claro cuánto pueden esperar cobrar los artistas por sus contribuciones.
Los artistas tienen motivos para desconfiar, dada la propensión del CEO de Stability, Emad Mostaque, a exagerar, hacer afirmaciones dudosas y gestionar mal la empresa.
En abril, Semafor informó de que Stability AI estaba agotando rápidamente su liquidez, lo que le llevó a buscar ejecutivos para impulsar las ventas. Según Forbes, la empresa retrasó repetidamente o se negó en redondo a pagar salarios e impuestos sobre nóminas, lo que llevó a AWS -que Stability utiliza para calcular sus modelos- a amenazar con revocar el acceso de Stability a sus instancias de GPU.
Stability AI recaudó recientemente 25 millones de dólares a través de un bono convertible (es decir, deuda que se convierte en capital), lo que eleva su total a más de 125 millones de dólares. Pero no ha obtenido ninguna nueva financiación con una valoración más alta; la empresa estaba valorada en 1.000 millones de dólares la última vez que recaudó fondos. Según se informa, Stability pretende cuadruplicar esta valoración en los próximos meses, a pesar de unos ingresos obstinadamente bajos y una elevada tasa de combustión.
¿Conseguirá el Audio estable cambiar la suerte de la empresa? Puede que sí. Pero dados los obstáculos que tiene que superar Stability, cabe decir que es un poco arriesgado.