115. (Abril 2021) Herramientas de MIR en MatLab
Imprimir
Escrito por Paco Gómez Martín (Universidad Politécnica de Madrid)   
Lunes 12 de Abril de 2021

1. Tecnología Musical y Musicología Computacional

Hoy en día la música se investiga desde muchos puntos de vista, tal es su complejidad por un lado y tal es la variedad y potencia de los métodos de investigación modernos por otro lado. Las siglas de MIR, Music Information Retrieval, vienen del inglés y es el nombre que se le da actualmente al campo de la Computación Musical en un sentido muy amplio. Originalmente, el campo del MIR empezó en los años 60 con un pequeño grupo de ingenieros y músicos intentando resolver problemas prácticos de tratamiento musical, entre los cuales se contaba el de la recuperación de la información. Poco a poco se fueron juntando investigadores y profesionales de este incipiente campo y tras no mucho tiempo explotó como disciplina científica. Aunque los objetivos y métodos pronto engulleron a los problemas de tratamiento de la información musical de los primeros tiempos, por razones que aun hoy en día no alcanzo a comprender, se mantuvo el nombre de MIR. Creo que un nombre más adecuado sería el de Computación Musical (que uso en mis columnas aquí y en otros trabajos). Sea como fuere, el nombre se ha quedado por razones históricas y es el más usado para referirse a esta disciplina. Actualmente, la Computación Musical (MIR) es un campo multidisciplinar que se nutre de la propia Música, la Musicología, Computación —en particular, de la Inteligencia Artificial y la Ciencia de Datos —, Cognición y Psicología, diversas disciplinas de humanidades tales como la Lingüística, la Sociología. Entre los problemas que aborda la Computación Musical están el análisis musical (problemas tales como la similitud melódica, la detección del pulso, el reconocimiento de la estructura musical, las medidas de complejidad rítmica, melódica, armónica, solo por nombrar unos pocos); y a estos se añade, la clasificación de la música, los sistemas de recomendación, la generación automática de música, el estudio de la conexión entre música y emoción por métodos computacionales, la transcripción automática de la música, la separación de fuentes en una señal de audio musical, entre otros. En esta columna se han tratado de manera divulgativa muchos de estos problemas; véanse las siguientes columnas y las referencias que tienen: [Góm12aGóm11aGóm12bGóm13Góm11bGóm14Góm16Góm18Góm20b]. Dentro del MIR hay una rama evidentemente tecnológica e industrial y, de hecho, empresas importantes tales como Yamaha, Pandora, Sony, Spotify, por ejemplo, trabajan en las aplicaciones de los conceptos y métodos del MIR (quizás sea el problema de la recomendación musical el más arquetípico).

Otra disciplina distinta de la Computación Musical es la Musicología Computacional. Este último campo consiste en el estudio musicológico a través de métodos computacionales. Esta rama de la musicología, de origen moderno cuando se compara con la musicología histórica, por ejemplo, se suele considerar como una parte de la Musicología Sistemática. La Musicología Computacional no llegó sin rechazo e incomprensión en un principio; y, por otra parte, algunos de sus practicantes cometieron excesos que alimentaron tal rechazo. Para un resumen de este debate, véase el artículo de esta columna Alcance y extralimitaciones de las matemáticas y la computación en la música [Góm20a]. Por otra parte, la Computacional Musical ha prestado apoyo metodológico e inspirado varios problemas a la Musicología Computacional.

2. La herramienta MIRtoolbox

En la columna de este mes nos vamos a centrar en algo más práctico. Es algo que me han pedido algunos lectores, músicos principalmente, y es que describa y comente herramientas de computación musical. En particular, voy a describir la herramienta MIRtoolbox, diseñada y construida por los investigadores Lartillot y Toiviainen (con la intervención de Tuomas en la primera parte) [LT07aLTE07]. MIRtoolbox es una herramienta escrita en MATLAB y está concebida para la extracción de características musicales de bajo y medio nivel de música dada en formato de audio (y no en formato simbólico como pueda ser el MIDI). Una de sus ventajas es que MIRtoolbox ha sido diseñado con un usuario no experto en programación en mente y, como consecuencia de ello, la sintaxis y la interfaz son muy fáciles de usar.

MATLAB es el acrónimo de MATrix LABoratory. Inicialmente, este paquete de cálculo se especializó en el cálculo de matrices. Posteriormente, se convirtió en un paquete de cálculo multi-propósito y hoy en día es el estándar en ingeniería y en buena parte de las matemáticas. MATLAB es multi-plataforma y existen versiones para Windows, macOS, Unix y GNU/Linux. Tiene tanto cálculo simbólico como cálculo numérico y a través de sus toolboxes, módulos especializados, se pueden ampliar sus capacidades de cómputo a campos concretos tales como el procesamiento de la señal, la simulación, la biología computacional, la estadística avanzada, entre otros. La web de este paquete se puede encontrar en [Mat21]. En la figura de abajo se puede ver el interfaz gráfico de MATLAB.

Herramientas de MIR en MatLab

Figura 1: Interfaz gráfica de MATLAB

MIRtoolbox es una herramienta gratuita y se puede descargar en [LT07b]. Sirve tanto para la investigación como para la docencia. A continuación vamos a describir las principales características de interés para el musicólogo computacional y/o sistemático.

3. Extracción de caracerísticas musicales en MIRtoolbox

En la figura 1, tomada del propio artículo [LT07a] de presentación de la herramienta, muestra los distintos niveles de extracción. Todos los procesos empiezan por considerar la señal (a la izquierda) y se van aplicando diversas operaciones según se va hacia la izquierda. Leída de izquierda a derecha, las características musicales van de bajo nivel a medio nivel. Leída en de arriba abajo la figura 1 nos devuelve las principales operaciones del MIRtoolbox en orden creciente de complejidad computacional.

Herramientas de MIR en MatLab

Figura 2: Características musicales extraíbles con el MIRtoolbox (figura tomada de [LT07a]

He aquí una lista con sucintas explicaciones de las principales características extraíbles desde MIRtoolbox:

  • La tasa de cambios de signo (zero-crossing rate), que se usa en procesamiento musical y del habla y que sirve para identificar sonidos percusivos (por ejemplo, en problemas de separación de fuentes).
  • La energía de la señal, medida como el valor cuadrático medio (RMS).
  • El contorno de una señal, que da importante información sobre su comportamiento desde un punto de vista musical, por ejemplo, sobre el timbre o la finalidad melódica.
  • El espectro de la señal, obtenido a través de la transformada de Fourier, del cual se obtienen medidas relevantes para la identificación de la señal así como la detección de patrones dentro de la misma. Entre esas medidas, encontramos las básicas tales como el centroide, la curtosis o el coeficiente de asimetría; y luego más complejas, el flujo espectral, la disonancia textural (roughness), la escala Mel.
  • A partir de estas medidas se pueden obtener los descriptores de medio nivel tales como tempo, claridad del pulso, altura o fluctuación.

Como muestra de la sencillez de uso de MIRtoolbox, en la figura 2 se pueden ver los comandos para obtener algunas de las medidas anteriores. Empezamos por cargar un fichero de audio (1); lo descomponemos en secuencias (2); extraemos el espectro (3); convertimos el espectro del dominio de la frecuencia al dominio de la escala de Mel (4); por último, obtenemos los coeficientes MFCC.

Herramientas de MIR en MatLab

Figura 3: Sintaxis de MIRtoolbox (figura tomada de [LT07a]

El proceso anterior se puede resumir más gráficamente como se muestra en la figura 4:

Herramientas de MIR en MatLab

Figura 4: Cálculo de los coeficientes MCC en MIRtoolbox (figura tomada de [LT07a]

Por último, ilustramos el proceso de estimación de la fuerza tonal; véase la figura 4. Esta medida cuantifica cuán predominante es una tonalidad en una pieza de música. El método sigue las ideas de Krumhansl y Kessler; véanse [KK82Kru90]. En primer lugar, se pasa del dominio de la frecuencia al de las alturas mediante una transformación logarítmica de aquellas. Esta representación es el cromagrama. Este cromagrama se consolida y se ponen en las mismas clases las alturas que están a distancia de un múltiplo de una octava entre sí. Esto da una representación en forma de histograma de las clases de alturas. Se aplica entonces correlación cruzada entre el histograma obtenido y los histogramas de las 12 tonalidades posibles dados en [KK82], los cuales provienen de experimentos hechos con oyentes.

Herramientas de MIR en MatLab

Figura 5: Cálculo de los coeficientes MCC en MIRtoolbox (figura tomada de [LT07a]

4. Conclusiones

El MIRtoolbox permite muchos más análisis y procesos de computación musical que los brevemente glosados aquí. Por ejemplo, el análisis rítmico, la segmentación a varios niveles, el análisis de grandes volúmenes de datos, el análisis de secuencias. Remitimos al lector al manual de la herramienta, que se puede encontrar en [LT07a]. En este artículo se encontrarán también detalles técnicos de la arquitectura y la representación de datos de la herramienta.

 

Bibliografía

[Góm11a] Paco Gómez. Distancia y similitud musical, mayo de 2011.

[Góm11b] Paco Gómez. Distancia y similitud musical (I), mayo de 2011.

[Góm12a] Paco Gómez. El teorema del hexacordo (I), Octubre de 2012.

[Góm12b] Paco Gómez. Medidas matemática de síncopa (I), Octubre de 2012.

[Góm13] Paco Gómez. COFLA: la música flamenca y su estudio computacional, agosto de 2013.

[Góm14] Paco Gómez. Teoría generativa de la música (I), junio de 2014.

[Góm16] Paco Gómez. Composición algorítmica (I), junio de 2016.

[Góm18] Paco Gómez. Ritmos euclídeos y ritmos equilibrados, marzo de 2018.

[Góm20a] Paco Gómez. Alcance y extralimitaciones de las matemáticas y la computación en la música, julio de 2020.

[Góm20b] Paco Gómez. Música y entropía - I, julio de 2020.

[KK82] C. L. Krumhansl and E. J. Kessler. Tracing the dynamic changes in perceived tonal organization in a spatial representation of musical keys. Psychological Review, 89:334–368, 1982.

[Kru90] C. L. Krumhansl. Cognitive Foundations of Musical Pitch. Oxford University Press, New York, 1990.

[LT07a] Olivier Lartillot and Petri Toiviainen. Mir in matlab (ii): A toolbox for musical feature extraction from audio. pages 127–130, 01 2007.

[LT07b] Olivier Lartillot and Petri Toiviainen. MIRtoolbox, 2007.

[LTE07] Olivier Lartillot, Petri Toiviainen, and Tuomas Eerola. A matlab toolbox for music information retrieval. volume 4, pages 261–268, 01 2007.

[Mat21] Mathworks. MATLAB, 1994–2021.

 
Volver