27. (Julio 2011) Distancia y similitud musical - III
Imprimir
Escrito por Francisco Gómez Martín (Universidad Politécnica de Madrid)   
Martes 05 de Julio de 2011

1. Introducción

Este es el último artículo de la serie sobre el concepto matemático de distancia y similitud melódica. En el primer artículo revisamos las principales propiedades de la distancia como objeto matemático e hicimos una lista de los numerosos campos en que se usa este fructífero concepto. En ese mismo artículo introdujimos el concepto de similitud melódica y lo ilustramos con las famosas variaciones de Mozart K. 265 sobre el tema popular Ah, vous dirai-je, Maman. En el segundo artículo entramos en detalles más técnicos. En primer lugar, definimos las representaciones abstractas de las melodías y, en segundo lugar, cómo se aplican ciertas transformaciones a esas representaciones de las cuales sale la medida de similitud. Transformaciones las hay de muy diversa naturaleza y en el segundo artículo examinamos las siguientes entre las más relevantes: las transformaciones de altura, las transformaciones rítmicas y las medidas simbólicas. Por razones de longitud, dejamos para este artículo las transformaciones basadas en medidas sobre vectores y las medidas armónicas. Por último, en este artículo describiremos los experimentos de Müllensiefen y Frieler [MF04] para la validación perceptual de esas medidas.

La gran dificultad de diseñar una medida que refleje fielmente la medida de similitud humana es precisamente tener datos de referencia -lo que inglés se llama ground truth-. No sabemos si una medida es buena o no porque no tenemos los verdaderos valores de la similitud melódica en humanos. Müllensiefen y Frieler suplieron esa deficiencia a través de sus experimentos. Con los resultados obtenidos pudieron comparar las distintas medidas de similitud que hay en la bibliografía y, finalmente, concluir cuál es la que más se acerca a la medida de similitud humana.

2. Medidas sobre vectores

En esta sección definiremos una de las medidas sobre vectores más habituales: la correlación. No debe confundirse una medida sobre vectores con una medida vectorial; este último concepto pertenece al campo de la teoría de la medida. Dados dos vectores, u, v, de ℜn, queremos definir una medida que cumpla las propiedades de medida de similitud enunciadas en el primer artículo de esta serie.

En nuestro contexto es habitual tomar vectores producidos por las transformaciones descritas en el artículo anterior de esta serie (las transformaciones de altura y ritmo más las medidas simbólicas) y, aplicando una medida sobre los vectores, obtener a su vez una medida de similitud. La forma más común de llevar a cabo esto es la correlación. La correlación mide el grado de dependencia entre dos vectores y aquí se usa para relacionar el grado de similitud melódica con esa dependencia. Dados dos vectores de n dimensiones, u = (u1,…,un) y v = (v1,…,vn), definimos la correlación como:

              ∑n r(u, v) = ∘------i=1-uivi----             ∑n    u2∑n    v2                i=1  i   i=1  i

Nótese que r(u,v) ∈ [-1, 1] y que, por tanto, no cumple los requisitos para ser medida de similitud (ser una función no negativa). Para solucionar esta situación se puede redefinir r(u,v) estableciendo que todos los valores negativos se asignen al 0. No en todos los contextos esta es la opción más adecuada, pero para nuestros propósitos basta. Sin embargo, esta medida tampoco cumple las propiedades de invariancia respecto a la transposición por altura, duración y cambio de tempo. De nuevo, se puede adaptar la medida r(u,v) para que lo cumpla. Por ejemplo, la invariancia respecto a la altura se consigue restando la altura media de la melodía. De manera similar se puede conseguir la invariancia respecto a la duración.

Otro punto delicado es el de la longitud de los vectores. La correlación solo está definida para vectores de igual dimensión. En la práctica, en la inmensa mayoría de los casos las melodías no tienen la misma longitud. De nuevo, hay varias maneras de solucionar este escollo. Supongamos que m1 y m2 son dos soluciones con longitudes respectivas ∣m1∣≥∣m2∣. Una solución muy usada es considerar todas las melodías consecutivas de m1 que tienen longitud ∣m2∣ y calcular la correlación de esas dos la melodías. La medida de similitud se toma como el máximo de entre las ∣m1∣-∣m2∣ + 1 medidas parciales de correlación.

En el trabajo de Müllensiefen y Frieler usaron la correlación entre todas las transformaciones de altura, rítmicas y medidas simbólicas que se han descrito en los artículos de esta serie y otras más.

3. Medidas armónicas

Krumhansl y Kessler ([Kru90] y [KK82]) llevaron a cabo experimentos con sujetos para establecer con precisión una jerarquía entre los grados de la escala. Fijada una tonalidad base y un modo, dedujeron de los resultados de sus experimentos la importancia de cada grado de la escala temperada con respecto a la tonalidad base. Obtuvieron dos tablas, que se muestran abajo, con dos vectores de tonalidades, uno por cada modo. El vector TM es para el modo mayor y Tm para el modo menor.


TM 6,33 2,23 3,48 2,33 4,38 4,09 2,52 5,19 2,39 3,66 2,29 2,88
Tm 6,33 2,68 3,52 5,38 2.60 3,53 2,54 4,75 3,98 2,69 3,34 3,17

Tabla 1: Los vectores de tonalidad de Krumhansl.

Obsérvese que en el modo mayor los grados más relevantes de mayor a menor son la tónica, la dominante, la subdominante y la mediante (el tercer grado) y luego el resto de los tonos. En el modo menor, la clasificación empieza por la tónica, y sigue por la mediante, la dominante, la superdominante y después el resto de los grados.

Posteriormente, Toiviainen y Krumhansl generalizaron este modelo para explicar los cambios de tonalidad que se producen a lo largo de una pieza; véase [TK03].

Volvamos una vez más al ejemplo de las variaciones K. 265 de Mozart. En la figura 1 tenemos los cinco primeros compases.


PIC

Figura 1: El proceso de construcción de una medida de similitud.

Calculamos su medida tonal m usando los pesos de los vectores TM (el tema está en modo mayor):

m =  6,33 ⋅ 2 + 5,19 ⋅ 2 + 3, 66 ⋅ 2 + 5,19 ⋅ 2 + 4,09 ⋅ = 102, 32

Hay varias maneras de calcular medidas de similitud basadas en la tonalidad. Una de ellas -bastante adaptada a la música occidental- es la de calcular para cada compás la tonalidad de mayor valor. Para una pieza dada eso da una cadena de tonalidades. El modo de comparar dos piezas dadas es a través de la distancia de edición aplicada a las cadenas de tonalidad.

También se pueden diseñar medidas de similitud basadas en la correlación de medidas de tonalidad. Consulte el lector interesado la sección 8.2.7 de [MF04].

4. La validación perceptual

Para estudiar la peliaguda cuestión de la validación perceptual Müllensiefen y Frieler llevaron a cabo varios experimentos, los cuales describimos a continuación. A partir de esos experimentos determinaron qué combinación de distancias/medidas y con qué pesos se aproximaban mejor a la percepción humana de la similitud melódica.

4.1. Los experimentos

Müllensiefen y Frieler impusieron dos condiciones necesarias para seleccionar a los sujetos de sus experimentos:

  1. Su evaluación de la similitud debía ser consistente en el tiempo.
  2. Tenía que reconocer melodías idénticas con un alto valor de similitud (recuérdese que estamos trabajando en el espacio de las melodías módulo la transposición de alturas, duración y cambio de tempo).

Tras unos cuantos experimentos preliminares, decidieron eliminar a aquellos sujetos sin formación musical. Su evaluación de la similitud era demasiado inestable en el tiempo o inconsistente con respecto a melodías muy similares. Estos sujetos muestran una tendencia a evaluar en función de factores que no son estrictamente musicales, a veces tan alejados de la música como la posición de una pieza dada en el orden de presentación o la duración del experimento. Müllensiefen y Frieler escogieron 82 estudiantes de la Universidad de Hamburgo; tras las pruebas previas para determinar su consistencia musical solo quedaron 23. Estas pruebas se llevaron a lo largo de varias semanas. Los 23 sujetos eran estudiantes de musicología con una media de 12 años de práctica instrumental. Creo que la dificultad en encontrar sujetos válidos para los experimentos da una idea de lo complejo que es el problema de evaluar la similitud melódica.

Respecto al material de los experimentos, los autores prepararon 14 melodías tomadas de un corpus de melodías de música popular occidental. Por ejemplo, tomaron As long as you love me, de los Back Street Boys, o From Me to You, de los Beatles. Las melodías se escogieron acorde a los siguientes criterios:

  1. Cada melodía debía tener entre al menos tres frases diferentes, descontando repeticiones.
  2. Cada melodía debía tener al menos dos motivos distintos.
  3. No debían ser conocidas por los sujetos.
  4. Debían ser de carácter popular.

Una vez construido el corpus, se procedió a variar las melodías. En la figura 2 tenemos un ejemplo del corpus; se trata de Wonderland, del grupo Passion Fruit. Se puede comprobar cómo hay dos motivos en la partitura.


PIC


Figura 2: Melodía original: Wonderland, del grupo Passion Fruit.

En la figura 3 se ve una de las variaciones de esta pieza. Se puede apreciar cómo se han eliminado las síncopas entre los compases 1 y 2 y 3 y 4 (pero se han introducido otras en diferentes sitios); además, en el comienzo de la segunda semifrase se ha cambiado la nota fa por la nota la, lo cual cambia la dirección del movimiento melódico. La bajada por grados conjuntos del compás 7 se ha cambiado por una bordadura. En el final del fragmento, la bajada melódica de si bemol a fa se ha sustituido por una subida de la bemol a do. Los círculos muestran dónde tienen lugar esos cambios.


PIC


Figura 3: Variación de la melodía Wonderland, del grupo Passion Fruit.

Estos son los tipos de cambio que introdujeron los autores para variar el corpus. De las 14 melodías originales extrajeron 84 variaciones. Los tipos de error los diseñaron acorde a la bibliografía sobre memoria de errores para melodías (véase [MB02], [Pau02]). Los cinco tipos de errores que definieron para los experimentos fueron: errores rítmicos, errores en las alturas, errores de altura que cambian el contorno melódico, errores en el orden de las frases musicales y errores de modulación.

Los experimentos que realizaron Müllensiefen y Frieler, como decimos, son complejos. Los detalles son bastante técnicos y detallarlos aquí haría este artículo farragoso; no obstante, el lector interesado los puede encontrar en el artículo de estos autores [MF04].

4.2. Resultados

Una vez que se concluyeron los experimentos, se tenía un conjunto de medidas de similitud entre todas las melodías dadas por los sujetos. Estas medidas se compararon una a una con cerca de 30 medidas algorítmicas (la mayor parte se han descrito en esta serie de artículos). La forma de comparar ambos conjuntos de medidas, los dados por los sujetos y los algorítmicos, fue por medio de la correlación. Como dijimos anteriormente, la combinación lineal de medidas de similitud da asimismo una medida de similitud. La correlación arrojó como mejor distancia de similitud la siguiente combinación:

σ =  3,355 ⋅ DEPST  + 2,852 ⋅ NGC

donde DEPST es la distancia de edición ponderada sin transformación y NGC es la distancia n-gramas con la medida del recuento de distintos. Los datos técnicos son estos: r = 0, 911, R2 = 0, 83, R2 corregido = 0, 826.

Sin contemplar combinaciones entre ellas, las mejores medidas fueron la medida qbh de Fraunhofer, la distancia DEPST, la distancia NGC, correlación armónica con distancia de edición y distancia de edición sobre ritmos con borrosidad.

5. Conclusiones

En esta serie de artículos hemos revisado el concepto de distancia matemática en sí misma (en el primer artículo), y en conexión con un problema musical, el de la similitud melódica. En el artículo segundo examinamos una serie de transformaciones que conducían a la definición de distancias algorítmico-matemáticas de similitud melódica. En este último artículo hemos revisado el trabajo que hicieron Müllensiefen y Frieler para validar perceptualmente las medidas/distancias de similitud. Su estudio dio lugar a una combinación de medidas, una de edición y otra de n-gramas, como la medida que mejor aproxima la medida perceptual obtenida en sus experimentos.

Bibliografía

[KK82] C. L. Krumhansl and E. J. Kessler. Tracing the dynamic changes in perceived tonal organization in a spatial representation of musical keys. Psychological Review, 89:334–368, 1982.

[Kru90] C. L. Krumhansl. Cognitive Foundations of Musical Pitch. Oxford University Press, New York, 1990.

[MB02] C. Meek and W. Birmingham. Johnny can’t sing: A comprehensive error model for sung music queries. In International Symposium on Music Information Retrieval, pages 124–132, 2002.

[MF04] D. Mullensiefen and K. Frieler. Cognitive adequacy in the measurement of melodic similarity: Algorithmic vs. human judgments. Computing in Musicology, 13:147–176, 2004.

[Pau02] S. Pauws. Cuby hum: A fully operational query-by-humming system. In International Symposium on Music Information Retrieval, pages 187–196, 2002.

[TK03] P. Toiviainen and C. L. Krumhansl. Measuring and modeling real-time responses to music: the dynamics of tonality induction. Perception, 32(6):741–766, 2003.

 
Volver