73. (Enero 2016) Música y probabilidad (III)
Imprimir
Escrito por Paco Gómez Martín (Universidad Politécnica de Madrid)   
Lunes 04 de Enero de 2016

En la anterior entrega [Góm16] de la serie Música y probabilidad estudiamos los modelos computacionales del ritmo, en particular, los modelos probabilísticos. La presenta entrega de la serie versa sobre los modelos probabilísticos de la altura del sonido. De nuevo, seguiremos para nuestra exposición el excelente libro de Temperley Music and Probability.

1. El modelo de alturas

Por modelo de alturas se puede entender muchos conceptos. La altura es la cualidad que permite distinguir un sonido grave de uno agudo y está directamente relacionada con la frecuencia del sonido en cuestión, pero hay otros muchos factores que influyen en su percepción final (los sonidos vecinos, el contexto tonal, el timbre, el volumen, entre otros). En nuestro caso, nos vamos a centrar en los modelos de percepción de la tonalidad. La música que vamos a analizar, la música occidental de la práctica común, está en el marco de la música tonal y los modelos de alturas están estrechamente relacionados con la percepción de la tonalidad. En cuanto a las voces, nos vamos a concentrar en una sola voz, esto es, en entradas monofónicas.

El libro de Temperley empieza su estudio de los modelos de alturas con una revisión bastante exhaustiva de la bibliografía sobre percepción de alturas en el campo de la cognición musical. La mayor parte de los estudios que glosa Temperley usa un contexto tonal. Por ejemplo, una grupo de estudios se podrían clasificar bajo el epígrafe de estudios de notas de contraste (probe-tone studies, en inglés). En estos estudios se proporciona a los sujetos una melodía con una tonalidad bien establecida y luego se presenta una nota aparte y se pide a los sujetos que digan si esa nota pertenece a la tonalidad de la melodía; véase los estudios de Krumhansl [Kru90] o Brown y colaboradores [BBJ94]. Otros estudios investigaron el papel de la tonalidad en la percepción de la altura y de la melodía en contextos más generales. Se concluyó que la tonalidad establece jerarquía en las alturas (véase [PK87]), afecta a la memoria, influye en el reconocimiento de melodías (véase [CCM81]) y condiciona las expectativas musicales (véase [CL95]).

Otros autores han investigado la cuestión de cómo los oyentes deducen la tonalidad, problema que se llama determinación de la tonalidad. Esta cuestión fue estudiada por Longuet-Higgins y Steedman [LHS71] en un artículo de 1971. Su modelo estaba diseñado únicamente para música monofónica y se basaba en la relación que hay entre tonalidad y escala. Esos autores explotan la idea de que la escala refleja la tonalidad y a partir de ello construyeron un algoritmo para determinar la tonalidad. Por ejemplo, la escala asociada a la tonalidad de sol mayor son {sol, la, si, do, re, mi , fa# } y en una melodía en esa tonalidad deberíamos esperar que la mayor parte de las notas perteneciesen a ese conjunto. El algoritmo procesa una a una las notas de la melodía de principio a fin y para cada nota elimina las tonalidades que no tienen a esa nota en su escala. Si al final del proceso, solo queda una tonalidad, esa será la tonalidad elegida. Si por el contrario, no quedan tonalidades candidatas, entonces el algoritmo toma la primera nota y establece la tonalidad en que esa nota es la fundamental. Si esa decisión no es coherente, entonces el algoritmo elige como tonalidad aquella en que la primera nota es la dominante. Por ejemplo, si la primera nota fuese sol, hay siete posibles tonalidades que tienen la nota sol; se elige en primera opción la tonalidad de sol y si esta no funciona se toma do (para la que sol es la dominante).

Longuett-Higgins y Steedman comprobaron la validez de su modelo con los temas de las fugas de El clave bien temperado de Bach. En todos los casos su algoritmo dio con la tonalidad correcta. Sin embargo, es fácil darse cuenta de que el modelo de estos autores no funciona en todos los casos. Cuando los centros tonales de la melodía se refuerzan mediante cromatismo, entonces el modelo puede asignar una tonalidad errónea. Por ejemplo, en la figura 1 tenemos dos melodías. La primera, la A, está claramente en la tonalidad de si♭ mayor; empero, el modelo, por falta de más información, tendría que decidir entre varias tonalidades, a saber, fa mayor, si♭ mayor, mi♭ y otras. Aplicando la regla de la primera nota, establecería que la tonalidad es fa mayor, lo que es incorrecto. En la segunda melodía, la B, se ve inmediatamente que está en do mayor, especialmente gracias a los compases dos y cuatro. No obstante, a causa de las notas cromáticas fa# y do#, las tonalidades que incluyen estas notas se considerarían candidatas, lo que no es lógico por la forma de esta melodía.

PIC

Figura 1: El algoritmo de Longuett-Higgins y Steedman (figura tomada de [Tem10])

El trabajo de Krumhansl-Schmuckler (K-S de ahora en adelante), y el cual se resume magníficamente en el libro de Krumhansl Cognitive Foundations of Musical Pitch [Kru90], presenta un algoritmo más robusto y con base empírica. El algoritmo K-S se basa en los denominados perfiles de tonalidad, que miden la compatibilidad de cada altura con su tonalidad. Estos perfiles de tonalidad se obtuvieron a partir de cuidadosos experimentos con sujetos que llevaron a cabo los autores. Para cada tonalidad concreta se construyeron dos perfiles, uno para el modo mayor y otro para el modo menor (en total hay 24 perfiles de tonalidad). La figura 2 muestra dos ejemplos de perfiles; el primer perfil corresponde al modo mayor y el segundo, al modo menor. En el modo mayor se puede que en orden decreciente de compatibilidad tenemos la tónica, la dominante, la tercera, la subdominante y luego el resto de los grados. La situación es diferente para el modo menor, donde el tercer grado menor tiene más compatibilidad que la dominante.

PIC

Figura 2: Perfiles de tonalidades (figura tomada de [Tem10])

La manera en que el algoritmo K-S funciona es por correlación. Dada una pieza cuya tonalidad se quiere determinar, se toman las duraciones de las doce notas de la escala cromática en la pieza (algunas, claro es, podrían ser cero). Llamémos x a ese vector de duraciones. Si y es el vector dado por los perfiles tonales, entonces el algoritmo K-S calcula el coeficiente de correlación r como sigue:

         ∑      --    --     -------(x---x)(y---y)----- r = (∑ (x - x)2 ⋅∑ (y - y)2)1∕2

donde son las medias de los vectores x e y, respectivamente. Se calculan todos los coeficientes de correlación para todas las tonalidades en ambos modos y se elige como tonalidad definitiva aquella que maximice el coeficiente de correlación.

El lector avispado —es decir, cualquier lector de esta columna—ya se habrá dado cuenta de un inconveniente que tiene el modelo K-S. Si una nota se repite mucho, aunque no pertenezca a la tonalidad, proporcionará mucho peso en el coeficiente de correlación, pero no reflejará la verdadera tonalidad. Extensiones y críticas al modelo K-S han aparecido en la bibliografía. En general, es un modelo válido y está basado en principios musicales y apoyado por experimentos con sujetos.

2. El modelo de Temperley

El modelo de Temperley es un modelo probabilístico que se basa en inferencia bayesiana. Sigue unos principios similares a su modelo rítmico, aunque es más complejo que en el caso del ritmo y lo describiremos sin entrar en el aparato matemático. Se especifica un modelo que depende de unos parámetros iniciales, los cuales se deducen a partir de un corpus musical. El corpus elegido es de nuevo la Essen Folksong Collection [Sch95]. La idea de Temperley para construir su modelo es refinar la idea de Krumhansl-Schmuckler de los perfiles de tonalidad. Temperley escoge tres perfiles para los cuales estudia su distribución en el corpus. Esos tres perfiles son: el perfil de alturas, el perfil de rango y el perfil de proximidad.

El perfil de alturas de la colección Essen es el que aparece en la figura siguiente, donde las alturas se han representado por números enteros con C4=60.

PIC

Figura 3: Distribución de las alturas en el corpus Essen (figura tomada de [Tem10])

Temperley estudia la media y la varianza del corpus entero así como de las melodías individuales. A pesar de los valles y picos que tiene la gráfica anterior, Temperley impone como modelo probabilístico una normal cuyos parámetros extrae del corpus (usa el método de los momentos, donde identifica los momentos muestrales con los momentos poblacionales). A continuación crea una segunda distribución que modeliza el rango de la melodía y para la que también usa una distribución normal. Por último, modeliza la distribución de los intervalos melódicos con una distribución normal, pero esta vez con una peculiaridad: la media de una nota particular depende de la nota anterior. Esto refleja el hecho conocido de que la probabilidad de que una nota siga a otra no es uniforme, sino que depende del contexto armónico-melódico. Con estos tres perfiles se crea un perfil global, llamado perfil RPK, que es el producto de los tres perfiles, el de alturas, el de rango y el de proximidad. En la figura siguente se muestran los parámetros del modelo de Temperley.

PIC

Figura 4: Distribución de las alturas en el corpus Essen (figura tomada de [Tem10])

Tras configurar los valores iniciales del modelo, a continuación se calcula la probabilidad de una melodía en una tonalidad dada. Esto se hace para todas las tonalidades posibles. La tonalidad que maximiza la probabilidad es la que el algoritmo de Temperley devuelve como tonalidad de la melodía.

Temperley probó su sistema con un subconjunto de melodías del corpus Essen que no usó para configurar su algoritmo. Acertó en el 87,7% de los casos. Analizando en particular los casos en que falló, Temperley vio que se trataba de casos claros de melodías modales (que estaban en otros modos que no eran el mayor y el menor). Para las melodías en modos mayor y menor no falló nunca.

3. Conclusiones

Los fallos del modelo de Temperley no son excesivamente graves. Su modelo está diseñado para la detección de tonalidad en los modos mayor y menor y no en otros. Sin embargo, eso se puede enmendar sin más que crear perfiles de tonalidad para todos los demás modos. Esto, por supuesto, implica inicializar el modelo con corpus que contengan el resto de los modos.

 

Bibliografía

[BBJ94] H. Brown, D. Butler, and M. R. Jones. Musical and temporal influences on key discovery. Music Perception, 11:371–407, 1994.

[CCM81] L. L. Cuddy, A. J. Cohen, and D. J. K. Mewhort. Perception of structure in short melodic sequences. Journal of Experimental Psychology: Human Perception and Performance, 7:869–883, 1981.

[CL95] L. L. Cuddy and C. A. Lunney. Expectancies generated by melodic intervals: Perceptual judgments of melodic continuity. Perception and Psychophysics, 57:451–462, 1995.

[Góm16] P. Gómez. Música y Probabilidad (II). http://divulgamat2.ehu.es/divulgamat15/index.php?option=com_content&view=article&id=16921&directory=67, diciembre de 2016.

[Kru90] C. L.. Krumhansl. Cognitive Foundations of Musical Pitch. Oxford University Press, New York, 1990. Capítulo del libro Representing Musical Structure, P. Howell, R. West, and I. Cross (eds.).

[LHS71] H. C. Longuet-Higgins and M. J. Steedman. On interpreting Bach. Machine Intelligence, 6:221–241, 1971.

[PK87] C. Palmer and C. Krumhansl. Pitch and temporal contributions to musical phrase perception: Effects of harmony, performance timing, and familiarity. Perception and Psychophysics, 41:505–518, 1987.

[Sch95] H. Schaffrath. The Essen Folksong Collection. Center for Computer-Assisted Research in the Humanities, Stanford, Calif., 1995. Editado por D. Huron.

[Tem10] D. Temperley. Music and Probability. MIT Press Ltd, 2010.

 
Volver