Meta lanza herramientas de audio de IA de código abierto, AudioCraft

Benj Edwards - 2 de agosto de 2023 8:56 pm UTC

El miércoles, Meta anunció que es AudioCraft de código abierto, un conjunto de herramientas de inteligencia artificial generativa para crear música y audio a partir de indicaciones de texto. Con las herramientas, los creadores de contenido pueden ingresar descripciones de texto simples para generar paisajes de audio complejos, componer melodías o incluso simular orquestas virtuales completas.

AudioCraft consta de tres componentes principales: AudioGen, una herramienta para generar diversos efectos de audio y paisajes sonoros; MusicGen, que puede crear composiciones musicales y melodías a partir de descripciones; y EnCodec, un códec de compresión de audio basado en redes neuronales.

En particular, Meta dice que EnCodec, que cubrimos por primera vez en noviembre, ha sido mejorado recientemente y permite "generar música de mayor calidad con menos artefactos". Además, AudioGen puede crear efectos de sonido como el ladrido de un perro, la bocina de un coche o pasos sobre un suelo de madera. Y MusicGen puede crear canciones de varios géneros desde cero, basándose en descripciones como "Pista de baile pop con melodías pegadizas, percusiones tropicales y ritmos alegres, perfecta para la playa".

Meta ha proporcionado varias muestras de audio en su sitio web para su evaluación. Los resultados parecen estar en línea con su etiquetado de última generación, pero podría decirse que no son de la calidad suficiente para reemplazar la música o los efectos de audio comerciales producidos profesionalmente.

Meta señala que, si bien los modelos de IA generativa centrados en texto e imágenes fijas han recibido mucha atención (y son relativamente fáciles de experimentar en línea para las personas), el desarrollo de herramientas de audio generativo se ha quedado atrás. "Hay algo de trabajo por ahí, pero es muy complicado y no muy abierto, por lo que la gente no puede jugar con él fácilmente", escriben. Pero esperan que el lanzamiento de AudioCraft bajo la licencia MIT contribuya a la comunidad en general al proporcionar herramientas accesibles para la experimentación musical y de audio.

"Los modelos están disponibles para fines de investigación y para mejorar la comprensión de la tecnología por parte de las personas. Estamos entusiasmados de brindar acceso a investigadores y profesionales para que puedan entrenar sus propios modelos con sus propios conjuntos de datos por primera vez y ayudar a avanzar en el estado del arte. ", dijo Meta.

Meta no es la primera empresa que experimenta con generadores de audio y música impulsados por IA. Entre algunos de los intentos recientes más notables, OpenAI presentó su Jukebox en 2020, Google presentó MusicLM en enero y, en diciembre pasado, un equipo de investigación independiente creó una plataforma de generación de texto a música llamada Riffusion utilizando una base de difusión estable.

Ninguno de estos proyectos de audio generativo ha atraído tanta atención como los modelos de síntesis de imágenes, pero eso no significa que el proceso de desarrollo no sea menos complicado, como señala Meta en su sitio web:

Generar audio de alta fidelidad de cualquier tipo requiere modelar señales y patrones complejos en diferentes escalas. Podría decirse que la música es el tipo de audio más difícil de generar porque está compuesta de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos. La generación de música coherente con IA a menudo se ha abordado mediante el uso de representaciones simbólicas como MIDI o pianolas. Sin embargo, estos enfoques no logran captar plenamente los matices expresivos y los elementos estilísticos que se encuentran en la música. Los avances más recientes aprovechan el aprendizaje de representación de audio autosupervisado y una serie de modelos jerárquicos o en cascada para generar música, alimentando el audio sin procesar a un sistema complejo para capturar estructuras de largo alcance en la señal mientras se genera audio de calidad. Pero sabíamos que se podía hacer más en este campo.

En medio de la controversia sobre el material de capacitación no divulgado y potencialmente poco ético utilizado para crear modelos de síntesis de imágenes como Stable Diffusion, DALL-E y Midjourney, es notable que Meta diga que MusicGen fue entrenado en "20.000 horas de música propiedad de Meta o con licencia específica para esto". objetivo." A primera vista, esto parece un movimiento en una dirección más ética que puede complacer a algunos críticos de la IA generativa.

Será interesante ver cómo los desarrolladores de código abierto eligen integrar estos modelos de meta audio en su trabajo. Puede resultar en algunas herramientas de audio generativo interesantes y fáciles de usar en un futuro próximo. Por ahora, los más conocedores de código pueden encontrar pesos de modelo y código para las tres herramientas AudioCraft en GitHub.

Noticias

Meta lanza herramientas de audio de IA de código abierto, AudioCraft