{"id":5884,"date":"2023-09-15T00:15:45","date_gmt":"2023-09-14T22:15:45","guid":{"rendered":"https:\/\/toukiela.com\/le-generateur-de-musique-alimente-par-lia-de-stability-ai-promet-un-succes-fulgurant\/"},"modified":"2023-09-15T00:15:46","modified_gmt":"2023-09-14T22:15:46","slug":"le-generateur-de-musique-alimente-par-lia-de-stability-ai-promet-un-succes-fulgurant","status":"publish","type":"post","link":"https:\/\/toukiela.com\/es\/the-music-generator-powered-by-lia-of-stability-ai-promotes-full-success\/","title":{"rendered":"El generador de m\u00fasica basado en inteligencia artificial de Stability AI promete ser un \u00e9xito arrollador."},"content":{"rendered":"<p><em><\/em><\/p>\n<h2>Stability AI vuelve al campo del audio generativo con Stable Audio<\/h2>\n<p>Hace un a\u00f1o, Stability AI, la start-up londinense que est\u00e1 detr\u00e1s del modelo de IA de c\u00f3digo abierto generador de im\u00e1genes Stable Diffusion, lanz\u00f3 discretamente Dance Diffusion, un modelo capaz de generar canciones y efectos sonoros a partir de una descripci\u00f3n textual de las canciones y efectos sonoros en cuesti\u00f3n.<\/p>\n<p>Dance Diffusion fue la primera incursi\u00f3n de Stability AI en el audio generativo, y demostr\u00f3 una importante inversi\u00f3n -y un gran inter\u00e9s, al parecer- por parte de la empresa en el naciente campo de las herramientas de creaci\u00f3n musical basadas en IA. Sin embargo, casi un a\u00f1o despu\u00e9s del anuncio de Dance Diffusion, todo fue silencio en el frente del audio generativo, al menos en lo que respecta a los esfuerzos de Stability.<\/p>\n<p>La organizaci\u00f3n de investigaci\u00f3n Harmony, financiada por Estabilidad para crear el modelo, dej\u00f3 de actualizar Dance Diffusion el a\u00f1o pasado. (Hist\u00f3ricamente, Estabilidad ha proporcionado recursos y c\u00e1lculos a grupos externos en lugar de crear modelos totalmente internos). Y Dance Diffusion nunca se ha beneficiado de una versi\u00f3n m\u00e1s madura; incluso hoy, para instalarlo hay que trabajar directamente con el c\u00f3digo fuente, ya que no hay interfaz de usuario que valga.<\/p>\n<p>Ahora, bajo la presi\u00f3n de los inversores para que convierta m\u00e1s de 100 millones de d\u00f3lares de capital en productos que generen ingresos, Stability est\u00e1 volviendo a comprometerse masivamente con el audio.<\/p>\n<p>Hoy se presenta Stable Audio, una herramienta que, seg\u00fan Stability, es la primera capaz de crear m\u00fasica de \"alta calidad\" a 44,1 kHz para uso comercial mediante una t\u00e9cnica llamada difusi\u00f3n latente. Stability afirma que el modelo subyacente de Audio Diffusion, formado por unos 1.200 millones de par\u00e1metros, ofrece un mayor control sobre el contenido y la duraci\u00f3n del audio sintetizado que las herramientas de m\u00fasica generativa lanzadas hasta ahora.<\/p>\n<p>\"La misi\u00f3n de Stability AI es liberar el potencial de la humanidad construyendo modelos fundamentales de IA para diferentes tipos de contenido o 'modalidades'\", dijo Ed Newton-Rex, vicepresidente de audio en Stability AI, en una entrevista por correo electr\u00f3nico con Toukiela. \"Empezamos con Stable Diffusion y nos hemos ampliado para incluir idiomas, c\u00f3digo y ahora m\u00fasica. Creemos que el futuro de la IA generativa es multimodal\".<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Stable_Audio_un_nouvel_outil_pour_la_generation_de_musique\"><\/span>Audio estable: una nueva herramienta para generar m\u00fasica<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Stable Audio no fue desarrollado por Harmony, o al menos no exclusivamente por Harmony. El equipo de audio de Stability, formalizado en abril, cre\u00f3 un nuevo modelo inspirado en Dance Diffusion para apoyar Stable Audio, que Harmony form\u00f3 a continuaci\u00f3n.<\/p>\n<p>Harmony es ahora el brazo de investigaci\u00f3n musical de la IA de Stability, dice Newton-Rex, que se uni\u00f3 a Stability el a\u00f1o pasado procedente de TikTok y Snap.<\/p>\n<p>\"Dance Diffusion generaba breves clips de audio aleatorios a partir de una paleta limitada de sonidos, y el usuario ten\u00eda que refinar la plantilla por s\u00ed mismo si quer\u00eda tener alg\u00fan control. Stable Audio puede generar audio m\u00e1s largo, y el usuario puede guiar la generaci\u00f3n utilizando una descripci\u00f3n de texto y estableciendo la duraci\u00f3n deseada\", explica Newton-Rex. \"Algunos descriptores funcionan muy bien, como EDM y m\u00fasica m\u00e1s r\u00edtmica, as\u00ed como m\u00fasica ambiental, y otros generan audio un poco m\u00e1s 'apagado', como m\u00fasica m\u00e1s mel\u00f3dica, cl\u00e1sica y jazz\".<\/p>\n<p>Stability ha rechazado nuestras reiteradas peticiones para probar Stable Audio antes de su lanzamiento. Por ahora, y quiz\u00e1 para siempre, Stable Audio s\u00f3lo puede utilizarse a trav\u00e9s de una aplicaci\u00f3n web, que no estaba disponible hasta esta ma\u00f1ana. En un movimiento que seguramente enfadar\u00e1 a los partidarios de su misi\u00f3n de investigaci\u00f3n abierta, Stability no ha anunciado ning\u00fan plan para hacer que el modelo detr\u00e1s de Stable Audio sea de c\u00f3digo abierto.<\/p>\n<p>Pero Stability ha accedido a enviarnos muestras que muestran lo que el modelo puede lograr en diferentes g\u00e9neros, principalmente EDM, utilizando descripciones breves.<\/p>\n<p>Aunque hayan sido cuidadosamente seleccionadas, las muestras suenan -al menos a o\u00eddos de este periodista- m\u00e1s coherentes, mel\u00f3dicas y, por no decir musicales, que muchas de las \"canciones\" generadas por modelos de generaci\u00f3n de audio hasta la fecha (v\u00e9ase AudioGen y MusicGen de Meta, Riffusion, Jukebox de OpenAI, MusicLM de Google, etc.) \u00bfSon perfectas? Est\u00e1 claro que no: les falta creatividad, por ejemplo. Pero si escuchara la pista de tecno ambiental que se reproduce a continuaci\u00f3n en el vest\u00edbulo de un hotel, probablemente no asumir\u00eda que ha sido creada por una IA.<\/p>\n<p>Stable Audio no es el primer modelo que utiliza la difusi\u00f3n latente en la generaci\u00f3n de m\u00fasica, pero es uno de los m\u00e1s logrados en t\u00e9rminos de musicalidad y fidelidad.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"La_technique_de_la_diffusion_latente\"><\/span>La t\u00e9cnica de difusi\u00f3n latente<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Para entrenar a Stable Audio, Stability AI se asoci\u00f3 con la biblioteca de m\u00fasica comercial AudioSparx, que proporcion\u00f3 una colecci\u00f3n de canciones -unas 800.000 en total- de su cat\u00e1logo de artistas, en su mayor\u00eda independientes. Seg\u00fan Newton-Rex, se tomaron medidas para filtrar las pistas vocales, presumiblemente para evitar los problemas \u00e9ticos y de derechos de autor asociados a las voces \"deepfaked\".<\/p>\n<p>Sorprendentemente, Stability no filtra los descriptores que podr\u00edan acarrearle problemas legales. Mientras que herramientas como MusicLM de Google muestran un mensaje de error si escribes algo como \"al estilo de Barry Manilow\", Stable Audio no lo hace, al menos por el momento.<\/p>\n<p>Preguntado directamente por la posibilidad de utilizar Stable Audio para generar canciones al estilo de artistas populares como Harry Styles o The Eagles, Newton-Rex dijo que la herramienta est\u00e1 limitada por la m\u00fasica de sus datos de entrenamiento, que no incluye m\u00fasica de grandes discogr\u00e1ficas. Puede que as\u00ed sea. Pero una b\u00fasqueda r\u00e1pida en la biblioteca de AudioSparx muestra miles de canciones \"del estilo\" de artistas como The Beatles, AC\/DC, etc., lo que me parece una evasiva.<\/p>\n<p>Stable Audio est\u00e1 dise\u00f1ado principalmente para generar m\u00fasica instrumental, por lo que la desinformaci\u00f3n y los deepfakes vocales no deber\u00edan ser un problema, explica Newton-Rex. \"Sin embargo, estamos trabajando activamente para combatir los riesgos emergentes de la IA mediante la implementaci\u00f3n de est\u00e1ndares de autenticidad de contenido y etiquetado en nuestros modelos de im\u00e1genes, para que los usuarios y las plataformas puedan identificar el contenido asistido por IA generado por nuestros servicios alojados... Planeamos implementar este tipo de etiquetado en nuestros modelos de audio tambi\u00e9n.\"<\/p>\n<p>Cada vez se hacen m\u00e1s virales los temas caseros que utilizan IA generativa para crear sonidos familiares que puedan considerarse aut\u00e9nticos, o al menos lo bastante parecidos. El mes pasado, una comunidad de Discord dedicada al audio generativo public\u00f3 un \u00e1lbum entero utilizando una copia de las voces generadas por IA de Travis Scott, lo que provoc\u00f3 la ira de la discogr\u00e1fica que lo representa.<\/p>\n<p>Los sellos discogr\u00e1ficos se han apresurado a denunciar las canciones generadas por IA a socios de streaming como Spotify y SoundCloud, alegando problemas de propiedad intelectual, y en general han ganado estas batallas. Pero a\u00fan no est\u00e1 claro si la m\u00fasica deepfake infringe los derechos de autor de artistas, sellos discogr\u00e1ficos y otros titulares de derechos.<\/p>\n<p>Y, por desgracia para los artistas, pasar\u00e1 alg\u00fan tiempo antes de que se establezca la claridad. Un juez federal dictamin\u00f3 recientemente que el arte generado por IA no puede estar protegido por derechos de autor. Pero la Oficina de Derechos de Autor de EE.UU. a\u00fan no ha adoptado una postura firme y s\u00f3lo recientemente ha empezado a recabar la opini\u00f3n del p\u00fablico sobre cuestiones de derechos de autor relacionadas con la IA.<\/p>\n<p>Stability cree que los usuarios de Stable Audio pueden monetizar -pero no necesariamente registrar los derechos de autor- su trabajo, lo que supone un paso por debajo de lo que han ofrecido otros proveedores de IA generativa. La semana pasada, Microsoft anunci\u00f3 que ampliar\u00eda la indemnizaci\u00f3n para proteger a los clientes comerciales de sus herramientas de IA cuando sean demandados por infracci\u00f3n de derechos de autor basada en los resultados de dichas herramientas.<\/p>\n<h2>Audio estable: tarifas y derechos de autor<\/h2>\n<p>Los clientes de Stability AI que pagan 11,99 $ al mes por el nivel Pro de Stable Audio pueden generar 500 pistas comercializables de hasta 90 segundos cada una al mes. Los usuarios gratuitos est\u00e1n limitados a 20 pistas no comercializables de 20 segundos cada una al mes. Y los usuarios que deseen utilizar m\u00fasica generada por IA de Stable Audio en aplicaciones, software o sitios web con m\u00e1s de 100.000 usuarios activos mensuales deben contratar una suscripci\u00f3n empresarial.<\/p>\n<p>En el acuerdo de condiciones de uso de Stable Audio, Stability declara que se reserva el derecho a utilizar tanto las descripciones y canciones de los clientes, como datos como su actividad en la herramienta, para diversos fines, incluido el desarrollo de futuros modelos y servicios. Los clientes se comprometen a indemnizar a Stability en caso de reclamaci\u00f3n por infracci\u00f3n de los derechos de propiedad intelectual relativos a las canciones creadas con Stable Audio.<\/p>\n<p>Pero cabe preguntarse si los creadores del audio sobre el que se ha entrenado Stable Audio recibir\u00e1n siquiera una peque\u00f1a parte de estas cuotas mensuales. Despu\u00e9s de todo, Stability, como muchos de sus competidores de IA generativa, se ha metido en problemas por entrenar modelos sobre el trabajo de artistas sin pagarles ni informarles.<\/p>\n<p>Al igual que las plantillas de im\u00e1genes m\u00e1s recientes de Stability, Stable Audio cuenta con un mecanismo para darse de baja, aunque la responsabilidad recae principalmente en AudioSparx. Seg\u00fan Lee Johnson, Vicepresidente Ejecutivo de AudioSparx, los artistas ten\u00edan la opci\u00f3n de eliminar sus obras del conjunto de datos de formaci\u00f3n de la primera versi\u00f3n de Stable Audio, y alrededor de 10 % de ellos optaron por hacerlo.<\/p>\n<p>\"Apoyamos la decisi\u00f3n de nuestros artistas de participar o no, y nos complace ofrecerles esta flexibilidad\", dijo Johnson por correo electr\u00f3nico.<\/p>\n<p>El acuerdo de Stability con AudioSparx prev\u00e9 el reparto de ingresos entre las dos empresas: AudioSparx permitir\u00e1 a los m\u00fasicos de la plataforma participar en los beneficios generados por Stable Audio si deciden participar en la formaci\u00f3n inicial o contribuir a la formaci\u00f3n de futuras versiones de Stable Audio. Se trata de un modelo similar al adoptado por Adobe y Shutterstock con sus herramientas de IA generativa, pero Stability no ha especificado los detalles del acuerdo, por lo que no queda claro cu\u00e1nto pueden esperar cobrar los artistas por sus contribuciones.<\/p>\n<p>Los artistas tienen motivos para desconfiar, dada la propensi\u00f3n del CEO de Stability, Emad Mostaque, a exagerar, hacer afirmaciones dudosas y gestionar mal la empresa.<\/p>\n<p>En abril, Semafor inform\u00f3 de que Stability AI estaba agotando r\u00e1pidamente su liquidez, lo que le llev\u00f3 a buscar ejecutivos para impulsar las ventas. Seg\u00fan Forbes, la empresa retras\u00f3 repetidamente o se neg\u00f3 en redondo a pagar salarios e impuestos sobre n\u00f3minas, lo que llev\u00f3 a AWS -que Stability utiliza para calcular sus modelos- a amenazar con revocar el acceso de Stability a sus instancias de GPU.<\/p>\n<p>Stability AI recaud\u00f3 recientemente 25 millones de d\u00f3lares a trav\u00e9s de un bono convertible (es decir, deuda que se convierte en capital), lo que eleva su total a m\u00e1s de 125 millones de d\u00f3lares. Pero no ha obtenido ninguna nueva financiaci\u00f3n con una valoraci\u00f3n m\u00e1s alta; la empresa estaba valorada en 1.000 millones de d\u00f3lares la \u00faltima vez que recaud\u00f3 fondos. Seg\u00fan se informa, Stability pretende cuadruplicar esta valoraci\u00f3n en los pr\u00f3ximos meses, a pesar de unos ingresos obstinadamente bajos y una elevada tasa de combusti\u00f3n.<\/p>\n<p>\u00bfConseguir\u00e1 el Audio estable cambiar la suerte de la empresa? Puede que s\u00ed. Pero dados los obst\u00e1culos que tiene que superar Stability, cabe decir que es un poco arriesgado.<\/p>","protected":false},"excerpt":{"rendered":"","protected":false},"author":1,"featured_media":5886,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","_seopress_analysis_target_kw":"","footnotes":""},"categories":[608],"tags":[],"class_list":["post-5884","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actualite-intelligence-artificielle","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50"],"_links":{"self":[{"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/posts\/5884","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/comments?post=5884"}],"version-history":[{"count":1,"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/posts\/5884\/revisions"}],"predecessor-version":[{"id":5885,"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/posts\/5884\/revisions\/5885"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/media\/5886"}],"wp:attachment":[{"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/media?parent=5884"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/categories?post=5884"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/toukiela.com\/es\/wp-json\/wp\/v2\/tags?post=5884"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}