MusicLM, la herramienta de Google de IA que convierte el texto en música real

La Inteligencia Artificial (IA) también se puede utilizar en el sector artístico, concretamente en la música. Y es que los investigadores del gigante tecnológico Google han creado un nuevo sistema basado en la IA que es capaz de crear música de cualquier género a partir de una descripción de texto.

Se trata de MusicLM, una herramienta importante dentro de la compañía pero que no es tan novedosa como parece, ya que existen otros intentos como Riffusion o Dance Diffusion, entre otras. Ahora bien, lo que diferencia a MusicLM del resto de herramientas es que cuenta con un modelo y una base de datos de entrenamiento amplia, con más de 280.000 horas de música, que le permiten producir música muy variada y profunda.

Según explican los investigadores de Google, su modelo “supera a los sistemas anteriores tanto en calidad de audio como en adherencia a la descripción del texto”.

Asimismo, han informado de los desafíos a los que se han enfrentado a la hora de desarrollar esta nueva herramienta, como el problema de falta de datos de audio y texto emparejado. Esto se diferencia bastante de la experiencia que se tiene en el aprendizaje automático de texto a imagen, en los que los grandes tecnológicos también han invertido y desarrollado herramientas para eso, como Meta.

Otro de los desafíos a los que se enfrentan en la generación de música de Inteligencia Artificial es que la música está estructurada “a lo largo de una dimensión temporal”, es decir, una pista de música existe durante un periodo de tiempo, por lo que es más difícil capturar la intención de una pista de música con un texto básico.

Los investigadores de MusicLM han destacado que esta herramienta utiliza el aprendizaje automático para generar secuencias para diferentes niveles de la canción, como la estructura, la melodía y los sonidos individuales. Para ello, el modelo se entrena en un gran conjunto de datos de música sin etiquetar, junto con un conjunto de datos de subtítulos musicales de más de 5.500 ejemplos, que fueron preparados por músicos.

Por el momento, esta herramienta no ha sido lanzada al público ya que los investigadores reconocen los riesgos de una posible “apropiación indebida de contenido creativo” en caso de que una canción generada no difiera lo suficiente del material de origen del que aprendió el modelo.

La pregunta sería si estamos ante un nuevo ChatGPT, capaz de generar textos a raíz de preguntas sencillas, pero en el sector de la música.