239 8 2MB
Spanish Pages 124 [105] Year 1998
de los sonidos del habla
Ariel
Ariel Prracticum
Eugenio Martínez Celdrán
Análisis espectrografico de los sonidos del habla
EditorialAriel, S.A. Barcelona
Diseño cubierta: V icente Morales
l.aedición: junio 1998 © 1998: Eugenio Martínez Celdrán Derechos exclusivos de edición en español reservados para todo el mundo: © 1998: Editorial Ariel, S. A. Córcega, 270 - 08008 Barcelona ISBN: 84-344-2823-7 Depósito legal: B. 18.723 - 1998 Impreso en España Ningunapane de esta publicación, incluidoel diseño de la cubierta, puede ser reproducida, almacenadao transmitida en manera algunani por ningún medio, ya seaeléctrico, químico, mecánico, óptico, de grabación o de fotocopia, sin permiso previodel editor.
PRÓ LO G O
Este libro pretende, como indica su nombre, enseñar los conceptos y criterios que permiten analizar los gráficos más habituales que se manejan en fonética acústica y que proporcionan todos los analizadores de habla. Nosotros hemos utilizado el CSL (Computerized Speech Lab) de Kay Elem. S. A. de New Jersey, pero los gráficos son semejantes a los proporcionados por cualquier otro programa de los que existen en el mercado actualmente. Se ofrecen ejercicios múltiples en cada capítulo para practicar lo que se estudia en cada lección. Los profesores que estén interesados en la clave de esos ejercicios deben ponerse en contacto con el autor. En definitiva, lo importante es superar los posibles problemas que puedan ofrecer. Esperamos que el material que presentamos sea suficientemente práctico y que ayude al dominio de la fonética en esta rama tan útil para la investigación y para otros objetivos como son los logopédicos, foren ses, tecnológicos, etc. E u g e n io M a r tín e z C e l d r á n
Universidad de Barcelona Facultad de Filología Gran Vía, 585 08007 Barcelona e-mail: [email protected] B a r c e lo n a ,
6
de fe b re ro de
1998
C a p ítu lo 1 O N D A S S IM P L E S Y C O M P L E JA S
1.1.
Fenómenos periódicos
Antes de entrar en el estudio físico del sonido conviene que se expongan algunas nociones fundamentales que, luego, tendremos que aplicar a las on das sonoras. En la naturaleza hay muchos fenómenos que son periódicos. Un p e r i o d o es el tiempo que tarda en repetirse un fenómeno o en volver un cuerpo al estado o posición que tenía al principio. Y hablamos de c i c l o cuando examinamos todas las fases por las que pasa un fenómeno perió dico hasta que se repite una fase anterior. Las estaciones del año son periódicas. En el hemisferio norte, por ejemplo, en fechas fijas y, por tanto, con duraciones iguales se van repi tiendo las estaciones. Por ejemplo: el invierno comienza el 21 de diciem bre; hecho que se repite cada año y su ciclo es de unos tres meses apro ximadamente. Al cabo de ese tiempo, entra una nueva estación: la prima vera. Son hechos que se repiten año tras año. Se trata de fenómenos pe riódicos. El periodo del giro de la Tierra sobre sí misma es de 24 h. Al cabo de este tiempo se vuelve a repetir el fenómeno: un nuevo día comienza, lo cual significa que se encuentra en la misma posición de cara al sol; para ello es necesario situarse en un punto concreto de la geografía de la Tierra. Por otra parte, cada uno de los planetas tiene su propio periodo, tomando convencionalmente como unidad de tiempo la hora terrestre. También es un fenómeno periódico el giro de cada planeta alrededor del sol. La Tierra tarda un año en dar una vuelta completa alrededor del sol, mientras que Júpiter tarda 11 años y 315 días: casi doce años. Ahora tomamos como medida de referencia del tiempo el año terrestre. Es evi dente que si nos situamos en un punto terrestre cualquiera de partida
12
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
respecto del sol, al cabo del año volveremos a pasar por ese mismo pun to. Año tras año se repite lo mismo. La r e p e t ic i ó n es la característica más importante de todo fenómeno periódico. El periodo está conectado con otro concepto clave: la f r e c u e n c i a . Se trata del número de veces que se repite el mismo fenómeno tomando una unidad de tiempo. Tomemos el minuto como unidad de tiempo y conte mos las pulsaciones de nuestro corazón en estado de reposo colocando nuestros dedos pulgar e índice de la mano derecha sobre la muñeca iz quierda: 60 pulsaciones en un minuto. Ésa es la frecuencia de los latidos de nuestro corazón. Eso significa que cada segundo se produce una pul sación. Hagamos una carrera de 100 metros y contemos de nuevo las pulsaciones: 110 pulsaciones en un minuto; es decir, 0.55 segundos cada una de ellas. 60 y 110 son datos de frecuencia de nuestro pulso. 1 y 0.55 segundos son datos del periodo. Cada 0.55 segundos se repite el latido al terminar la carrera; el tiempo que tarda en repetirse el siguiente latido constituye el periodo. Ahora se puede comprobar otro hecho: periodo y frecuencia tienen una relación inversa. Cuando el pulso posee una fre cuencia de 60 latidos por minuto, el periodo de cada latido es de un se gundo; mientras que cuando la frecuencia aumenta a 11 O, el periodo dis minuye a 0.55 segundos: poseen una relación inversa. Matemáticamente: T = 1/F Se suele simbolizar con T el periodo (medido en segundos) y con F la frecuencia. Muchos fenómenos cotidianos suelen ser periódicos: los movimien tos de los planetas, el horario de abertura de un comercio, el puente aéreo Madrid-Barcelona, etc.; aunque los humanos no somos tan exactos como las leyes astronómicas. Supongamos que en un país imaginario hemos estado quince días durante un invierno para medir la temperatura diaria mente cada dos horas. Durante ese tiempo cada día la temperatura ha sufrido las mismas variaciones: horas
grados
horas
6 o 18 8 5 20 7 10 22 12 9 24 14 7 2 4 16 5 y un nuevo día comienza...
grados
o -5 -7 -9 -7 -5
ONDAS SIMPLES Y COMPLEJAS
13
Las oscilaciones de la temperatura las representamos en un gráfico de la forma representada en la figura 1.1:
HORAS FlG. l. l.
Oscilación de la tem peratura a lo largo de un día.
Se representa la amplitud a través del tiempo. Se denomina a m p l it u d al alejamiento máximo que alcanza la temperatura respecto de la línea media situado en O grados centígrados. En nuestro ejemplo la amplitud vale 9 grados, tanto en la fase positiva, como en la negativa. Muchos fenómenos pueden tener una representación como la efectuada anterior mente, lo cual ayuda a su comprensión y al estudio de sus cualidades; por ejemplo, podemos hablar de fenómeno periódico en el caso que nos ocu pa, si al cabo de los quince días hemos obtenido quince gráficos exacta mente iguales. Los gráficos son siempre muy importantes porque ayudan a relacionar cualidades y a estudiarlas en su interacción. En la naturaleza y sobre todo en la sociedad humana existen también muchos fenómenos que son aperiódicos. Antes hemos puesto un ejemplo en un país imaginario, puesto que en uno real la temperatura no tiene oscilaciones tan regulares no sólo dentro de un mismo día sino tampoco en días sucesivos ni, por supuesto, a lo largo del año. No es realmente un fenómeno periódico, por regla general. Tampoco lo es el régimen de lluvias de una región determinada, ni la erupción de los volcanes, etc. Frecuentemente, la hora de levantarse es periódica y no lo es la hora de acostarse; por eso mismo utilizamos un despertador. Aunque no parece que los humanos seamos periódicos en nuestras acciones, hay algo en nuestra vida que ha de ser siempre periódico, como ya se ha comentado, los movimientos del corazón.
14
1.2.
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
Las ondas sonoras
El sonido es un movimiento de vibración longitudinal perceptible por el oído. Estriba en una serie de concentraciones y enrarecimientos que se pueden transmitir en cualquier medio elástico. Ese movitniento de vibración es una onda sonora. En el habla, el medio elástico es el aire. Una cuerda de guitarra puede servirnos para explicar el fenómeno. Al pulsarla, ésta se pone en movimiento consistente en un vaivén que se denomina vibración. Antes de pulsar la cuerda, en una habitación en si lencio, las partículas de aire mantendrán un espacio equidistante entre ellas. Después de la pulsación, en la ida, la cuerda habrá empujado, en su desplazamiento, a las partículas más próximas formando una concentra ción al suprimir los espacios que mantenían. Ésta es la perturbación ori ginal. La fuente de esta perturbación es la cuerda de la guitarra. Pero como todo cuerpo elástico, la cuerda no sólo vuelve a su posición de partida sino que también se desplaza en sentido contrario otro tanto como en la ida. Las partículas seguirán el movimiento de la cuerda, pues no sólo volverán a su punto de partida, sino que también se desplazarán en sentido contrario, aumentando el espacio de separación entre cada una de ellas produciéndose un enrarecimiento. Básicamente en esto consiste el sonido desde un punto de vista físi co. Para poder estudiar sus cualidades, vamos a partir de una onda simple como la emitida por un diapasón. La representación de su movimiento corresponde a una o n d a s in u s o id a l', es decir, aquella en la que su ordena da es una función del seno del ángulo: e = r sen a . Llamamos e (elonga ción) a la distancia existente entre el centro de la circunferencia (O) y el punto proyectado (M) a partir de otro punto que recorre la circunferencia en el sentido contrario a las agujas del reloj en un movimiento circular uniforme. Cuando ese punto (P) se proyecta ortogonalmente en otro punto (M) durante su recorrido, entonces decimos que es un movimiento armónico simple. La elongación máxima es igual a r (radio de la circun ferencia). a es el ángulo de la proyección (véase fig. 1.2). Por ejemplo, si tomamos un punto que recorre la circunferencia desde un punto de origen C, cuando se sitúe en los 45°, si el radio midiera 30 mm, ten dríamos que su elongación sería de 21.21 mm, pues el sen 45°= 0.707; y 30 X 0.707 = 21.21. La representación de la sinusoide implica calcular las 360 elonga ciones posibles en la circunferencia y situar sus valores en la ordenada. La sinusoide es la curva que pasa por todas las elongaciones. La elonga:-: ción máxima es igual al radio.
ONDAS SIMPLES Y COMPLEJAS
15
Fig. 1.2. Movimiento armónico simple. La elongación es la distancia 0-M . El punto P, que recorre la circunferencia desde C, se proyecta en el radio formando el ángulo a., cuyo seno multiplicado p o r el valor del radio nos proporciona la elongación o distancia entre el centro O y la proyección M del punto. La elongación máxima representa la amplitud de la onda y la línea, donde figuran los ángulos, el periodo (fig. 1.3). Mientras que la elonga ción máxima equivale a la amplitud, la abscisa no tiene ninguna relación con la longitud de la circunferencia, ya que ahí se representa convencio nalmente la velocidad del punto que la recorre; es decir, el tiempo que tarda en recorrerla.
Fig. 1.3.
Representación de la sinusoide. Los puntos (Po hasta P 7) son las elongaciones cada 45° y representan el movimiento arm ónico simple. Cada punto muestra en la función sinusoidal la magnitud del desplazamiento desde la línea de base que se corresponde con el ángulo de rotación (figura tomada de C. E. Speaks, 1992, p. 48).
16
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
La onda del diapasón es una vibración periódica; es decir, constituye un movimiento armónico simple; por tanto, en ella se pueden observar las mismas características que hemos visto en cualquier fenómeno perió dico: periodo, amplitud y frecuencia. Si tomamos un diapasón que emite la nota musical denominada LA natural, podemos comprobar que posee ' una frecuencia de 440 Hz; es decir, la varilla del diapasón tendrá 440 oscilaciones en un segundo; cada oscilación o ciclo corresponde a una ida y una vuelta a partir del eje de reposo. El Hertz (hercio), simbolizado Hz, es la unidad de medida de la frecuencia, que también se puede de nominar ciclos por segundo: cps. Por tanto, en este caso su periodo posee un poco más de dos milésimas de segundo: 1 T= — F
1 = ------ = 0,00227 segundos 440
El periodo siempre se expresará en segundos para poder operar con él. La amplitud se mide en decibelios (dB) y resulta del mayor o menor desplazamiento de las varillas del diapasón respecto de su posición de reposo, lo cual es debido a la fuerza del empuje inicial: ♦
A Fig. 1.4.
B A. Ondas con igual periodo y distinta amplitud. B. Ondas con igual amplitud y distinto periodo.
Amplitud y periodo son elementos independientes entre sí; mientras que el periodo y la frecuencia son totalmente dependientes y mantienen la relación inversa que ya hemos estudiado anteriormente (fig. 1.4). La frecuencia es una característica propia de cada cuerpo. Los cuerpos gran-
17
ONDAS SIMPLES Y COMPLEJAS
des y pesados poseen una frecuencia menor que los pequeños y livianos, porque éstos pueden moverse más rápidamente. Los más largos también vibrarán con una frecuencia menor que los cortos. Por último, los cuer pos que puedan tensarse tendrán una frecuencia de vibración mayor cuanto más tensos estén y viceversa. Todos estos aspectos se pueden comprobar fácilmente si se tiene una guitarra a mano; lo proponemos como experiencia.
0
0,25
0,5
0,75
1
I— I— H—I— l-H — M i— l— 1I
0
Fig. 1.5.
Suma de ondas y onda compleja.
18
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
No obstante, la guitarra no emite una onda simple como la del dia pasón, sino una onda compuesta (denominada compleja) por la suma de muchas otras con la forma de la onda simple; pues los cuerpos suma mente elásticos como el de la cuerda vibran de tal forma que se mueven todas sus partes a la vez; pero ese movimiento de las partes no es inde pendiente sino que vibran conjuntamente: toda la cuerda, sus mitades, sus terceras partes, sus cuartas partes, etc. Cuando el sonido complejo es periódico, todos sus componentes guardan una relación matemática entre ellos, pues todos son múltiplos del primero, que se llama to n o f u n d a m e n t a l . Todos los componentes reciben el nombre de a r m ó n i c o s . El primero es el to n o f u n d a m e n t a l (simbolizado FO) y corresponde a la vibración de la cuerda entera. El segundo pertenece a sus mitades; el tercero, a sus terceras partes y así sucesivamente hasta agotar la cuerda. Por ejemplo, si el primer armónico tiene 250 Hz, el segundo poseerá 500 Hz... y el décimo 2.500. Multiplicando el número de orden del armónico por la frecuencia del fundamental se obtiene la frecuencia de ese armónico: FA = N A * FO, donde FA = frecuencia de un armónico, NA = número de orden del ar mónico y FO = frecuencia del tono fundamental o primer armónico de la serie. A pesar de reconocer que una onda compleja periódica está com puesta de muchas otras con la forma de las simples, resulta un todo con sus propias características. De hecho, en la naturaleza lo que más abunda son los sonidos complejos. El sonido complejo no periódico recibe el nombre de ruido. El ruido está formado por una serie de ondas que se dan en todas las frecuencias de forma aleatoria, a partir de una primera, y por tanto sin guardar entre sí ninguna relación matemática. En el sonido complejo periódico se pueden obtener sus elementos componentes mediante el análisis; se pueden contar fácilmente, pues guardan espacios entre ellos. Posee un espectro discontinuo. En el rui do, por el contrario, el análisis se torna mucho más difícil, pues prácti camente no existen espacios entre esos componentes, por lo que resulta casi imposible contarlos. Su característica principal es la irregularidad. Posee un espectro continuo. En la figura 1.6 se ve cómo el ruido es una mancha informe donde las líneas verticales se distribuyen aleatoria mente; por el contrario, el sonido armónico se presenta como una serie de ondas ordenadas, contables y regulares.
ONDAS SIMPLES Y COMPLEJAS
19
AmpIitud
Armonicidad
Tiempo FIG. 1.6.
He aquí una visión primaria de la irregularidad del ruido o sonido inarmónico (fricativa) frente a la regularidad del sonido armónico (vocal).
1.3.
La resonancia
Todo cuerpo capaz de vibrar por sí mismo se constituye en una fuente de sonido que puede transmitir su vibración a otros cuerpos que coincidan con su frecuencia. Esos otros cuerpos pueden a su vez tener la posibilidad de ser fuentes o ser cajas o cavidades de resonancia que pueden captar la vibración, aunque por sí mismas no vibrarían. Cuando la vibración es compleja y se transmite a una cavidad, ésta tiene unas propiedades vibratorias propias, de modo que dará amplitud a las fre cuencias que coincidan con esas propiedades y atenuará las que no coincidan, modificando de esta manera la onda producida por la fuente del sonido. El fenómeno se conoce como resonancia y la cavidad que procede así se denomina resonador(a). Un resonador actúa como un filtro ya que deja pasar las frecuencias coincidentes y debilita las que no lo son. Nuestras cuerdas vocales constituyen la fuente principal de sonido armónico y el tracto vocal (desde la laringe hasta los labios) está for mado por varias cavidades de resonancia que amplifican ciertas zonas del espectro vocálico y atenúan otras. Esas mismas cavidades se con vierten en fuente de sonido aperiódico o ruido cuando las cuerdas vo cales no vibran y el aire pasa por algunas de esas zonas constreñidas (fig. l. 7).
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
20
A
B
30 ir
20 e
10
1.00
2.00
3.00
Fig. 1.7. En A, se presenta un espectro 1esquemático de la onda laríngea; en B , la estructura de un filtro con función resonadora; y en C, el resultado de p a sa r A p o r B. (Adaptado de Bordeu, H arris y Raphael, 1980.)
l.
enel capítulo2enquéconsisteunes^to.
ONDAS SIMPLES Y COMPLEJAS
21
Ejercicios A.
R e s o lu c ió n d e p r o b le m a s
1.
La elongación correspondiente a los 60° e s de "17.32 mm, ¿cuántos milímetros tendrá la elongación máxima? Si una sinusoide posee como elongación máxima 50 mm a los 90°, ¿cuánto medirá la elongación a los 270°? Dibujar una sinusoide cuya longitud (abscisa) sea de 90 mm y el radio (ordenada), de 40 mm. El tiempo total invertido por seis ondas e s de 6 ms, ¿cuál será la frecuencia de este sonido? El periodo de una onda e s de 0.4 ms, ¿cuál será su frecuencia? El quinto armónico de una onda compleja posee 450 Hz, ¿qué fre cuencia tendrá el octavo? Un armónico posee 576 Hz, ¿qué número d e la serie será sabiendo que el noveno p osee 864 Hz? Si en el osciloscopio aparece una onda que ocupa 4 divisiones y la b ase de tiempos está en 50 millonésimas de segundo, ¿qué fre cuencia poseerá? (En el osciloscopio, la base de tiempos nos pro porciona la velocidad del punto por cada división.)
2. 3. 4. 5. 6. 7. 8.
B.
R e s o lu c i ó n d e g r á f ic o s 1
1.
¿Qué frecuencia posee la onda 1.1 sabiendo que cada división po see 1,663 ms aproximadamente?
Onda 1.1.
2. Pararesolver estos gráficos se deben medir los milímetros que posee unadivisión (o cuadradito del gráfico) horizontalmente. Después se divide el tiempo que se indica por los milímetros obtenidos, con lo cual sabremos qué tiempo posee 1mm. Acontinuación, se miden los milímetros que ocupa unaonda, tomandodos puntos correlativos que ladelimiteny, porúltimo, se multiplican porel tiempode 1mm. El tiempo total estará enmilésimas de segundo; hay que pasarloasegundos paraoperarconél: F= lff.
22
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
2.
¿Qué frecuencia, posee la onda 1.2 sabiendo que cada división po see 1,862 ms aproximadamente?
3.
¿Qué frecuencia posee la onda 1.3 sabiendo que cada división po see 1,7575 ms aproximadamente?
Onda
4.
/.3.
A continuación hay dos vocales iguales ([a]), pero su FO e s diferen te, uno e s masculino y el otro femenino. Averiguar cuál e s el FO de ambas para saber cuál e s el femenino, que tiene mayor frecuencia por término medio (cada división posee 12,50 ms).
ONDAS SIMPLES Y COMPLEJAS
5.
23
¿Podrías describir qué tipo de onda s e ve en la siguiente figura? ¿A qué clase de sonidos humanos puede corresponder?
Onda 1.5.
C a p ítu lo 2 A N Á L IS IS E S P E C T R O G R Á F IC O
2.1.
Oscilogramas
Hasta aquí sólo hemos ido utilizando principalmente un tipo de grá fico; en el que en la abscisa (eje horizontal) se expresa tiempo y, en la ordenada (eje vertical), amplitud. Normalmente lo denominamos o s c i l o g r a m a ; en inglés recibe el nombre de “waveform”. En él se capta la for ma de onda de modo unitario. Su utilidad para el análisis es escasa, pues sólo se puede averiguar el periodo y, por tanto, la frecuencia fundamental de cualquier sonido periódico. En éste, como en cualquiera de los gráfi cos que vamos a estudiar, la diferencia entre sonido periódico (o cuasiperiódico) y aperiódico se observa a primera vista, por su diferencia en la repetición aproximada de una misma forma (véase fig. 2.1).
2.2.
Espectros
El espectro es un gráfico muy adecuado para representar los distintos componentes de un sonido complejo ya descompuesto. En la abscisa quedan reflejadas las frecuencias (KHz) y en la ordenada las amplitudes (dB).1En la figura 2.2 representamos un espectro esquemático donde hay tres armónicos con diferentes amplitudes (A).
l. El decibelio (dB) es una unidad de medida de la amplitud. Esta unidad es relativa; pues se ha establecido convencionalmenteque unaamplitudde OdB se hade situarenel nivel enque unsonidode l.^WHzcomienzaaser oídoporunoídosano. Esaamplitudequivale aunapotenciaeléctricade 1O16w/cm'. Se hacomprobado, además, que mientras lapotencia sigue unaescala logarítmica(se multiplicapordiez), los decibelios la siguenaritmética(aumen tande diez endiez): 1-0, 10-10, 100-20, 1.00-30, 10.00-40, etc.
28
ANÁLISIS ESPE^CTROGRÁFICO DE LOS SONIDOS DEL HABLA
□B>ch1 : COPV
0.00000
□C>ch1
6 0.00000
ch1 : COPV
0.00000< -812>
6 0.00000
ch1 : COPV
Fig. 2.1. Oscilogramas de una onda simple y de tres complejas: vocal [a ] (sonido periódico), consonante [s] (sonido aperiódico o ruido) y consonante [n] (sonido periódico). Observen que en los sonidos periódicos las form as se van repitiendo entre las marcas.
dB 40 30 20 10 °
0)
1 2 Fig. 2.2.
3
KHz
Espectros esquemáticos: A. Armónicos; B. Envolvente.
0>
ANÁLISIS ESPECTOGRÁFICO
29
También es posible representar con el espectro una curva que repre senta la forma que adquieren los armónicos: se trata de la envolvente (B). Estas representaciones ofrecen una información rica ya que nos permiten analizar los rasgos más destacados de los sonidos aislados en un punto determinado de su duración. Esos rasgos son los picos de mayor ampli tud que representan el centro de los formantes de las vocales, su ancho de banda y los picos de frecuencia de mayor intensidad a lo largo de todo el espectro en las consonantes. Las vocales se caracterizan fundamentalmente por sus tres primeros formantes. Los f o r m a n t e s son resonancias del tracto vocal que producen unas amplificaciones en el espectro. El centro y el ancho de los tres pri meros formantes determinan cada una de las vocales. En la figura 2.3 hay tres resonadores caracterizados por su fre cuencia y su ancho de banda. El primero de ellos posee una frecuencia de 100 Hz y un ancho de banda de 10 Hz (105-95). El segundo tiene su frecuencia situada a 200 Hz y su ancho de banda es de 50 Hz (225 175). El tercero, por último, tiene su frecuencia a 450 Hz y su ancho de banda es de 200 Hz (550-350). Los formantes vocálicos también po seen característicamente unos formantes, cuyos picos o centros se si túan en una frecuencia determinada y que poseen anchos de banda que varían en virtud de la relevancia de dicho formante. Los anchos de banda estrechos prestan una mayor relevancia a los formantes, mientras que los muy anchos la disminuyen. No sólo las vocales poseen espec tros con amplificaciones en unas frecuencias determinadas. También las consonantes se caracterizan según su punto de articulación por di chas amplificaciones.
Fig. 2.3.
Tres curvas que especifican diferentes resonadores (tomado de Ladefoged, 1962).
30
ANÁLISIS ESPECTROORÁHCO DE LOS SONIDOS DEL HABLA
Así pues, los espectros proporcionan tres informaciones precisas de cada formante: la frecuencia central, el ancho de banda y la amplitud. Obsérvese la figura 2.4, de ella podemos obtener las tres magnitudes del primer y del segundo formante a partir, por ejemplo, del LPC; F l: fre cuencia 230 Hz, ancho de 70 Hz y amplitud de 40 dB; F2: frecuencia 1988 Hz, ancho de 210 Hz y amplitud de 29 dB. Esas cantidades deter minan el timbre de la vocal [i]. En la figura 2.4 presentamos dos espectros diferentes. El espectro FFT (Fast Fourier Transform) proporciona la composición en armónicos del sonido y el LPC (Linear Predictive Coding) da la envolvente; es de cir, la línea curva que predice los picos de mayor amplitud en el espectro. Esta última es ideal para establecer las medidas más importantes de los formantes (las marcas de calibración son las líneas verticales, cada una marca 200 Hz). El LPC no representa armónicos.
Fig. 2.4.
2.3.
Espectros de la vocal [i], de donde se han obtenido las medidas.
Espectrogramas
El espectrograma representa también el sonido complejo, pero desde otro punto de vista. La frecuencia se muestra ahora en la ordenada y en la abscisa se manifiesta el tiempo, que sirve para saber la duración de los sonidos. El espectro, como no incluye el tiempo, constituye una repre
ANÁLISIS ESPECTOGRÁFICO
31
sentación frecuencial del sonido en un punto determinado de su duración. En cambio, el espectrograma (fig. 2.5) refleja el sonido en su evolución frecuencial a lo largo del tiempo; es la mejor forma de ver las imbrica ciones de los sonidos en la cadena hablada.
Fig. 2.5.
Espectrograma de la vocal [ i ]
Se utilizan dos clases principales de espectrogramas según el filtro utilizado en el proceso de descomposición de la onda compleja. Si el filtro tiene un ancho de banda de 150 Hz o más, se llama espectrogra ma de banda ancha. Si el filtro es de banda más reducida, por ej. 59 Hz, se denomina espectrograma de banda estrecha. En la banda ancha (figs. 2.5 y 2.6.B) no se distinguen armónicos, sino sus concentraciones a ciertas frecuencias; sin embargo, en la banda estrecha (fig. 2.6.C) se pueden ver los armónicos que componen cada una de esas concentra ciones. Obsérvese que en el espectro (fig. 2.4.B) los armónicos se pre sentan verticales, mientras que en el espectrograma de banda estrecha ■ son horizontales (fig. 2.6.C). Lo que se ve en el de banda ancha son las estrías de los pulsos glotales: la parte negra indica que las cuerdas vo cales están abiertas (pasa energía) y, la parte blanca, que están cerradas (no pasa energía). La voz grave — por ej. la masculina— frente a la voz aguda — la femenina— se presenta de diversas formas según el gráfico que se adopte. En los gráficos donde se muestran los armónicos directamente, como en los espectros (FFT) y en los espectrogramas de banda estre cha, los armónicos de la voz femenina tendrán mayores separaciones entre ellos que los de la voz masculina, debido a sus relaciones mate máticas, por ej.:
32
ANÁLISIS E S P E ^O G R Á F IC O DE LOS SONIDOS DEL HABLA
armqnico
1.° 2.° 3.° 4.° 5.°
masculina
femenina
niño
125 250 375 500 625
230 460 690 920 1.150
300 60 90 1.200 1.500
En cambio en los espectrogramas de banda ancha, donde no se mani fiestan los armónicos, las diferencias de voz se detectan a través de las estrías, que marcan los pulsos glotales, de los sonidos armónicos, más separadas cuanto más grave es la voz y viceversa (fig. 2.6). En la voz infantil, no llegan a apreciarse las estrías pues aparecen unidas en un continuo.
2.4.
Medidas
Los programas actuales de análisis de sonido permiten tener unos cursores que señalan la frecuencia y/o amplitud de un punto determi nado del espectrograma, así como la duración de un trozo selecciona do previamente. Pero si esos espectrogramas los tenemos en papel, entonces hay que tomar la regla y la calculadora para establecer la equivalencia de los milímetros en Hz, dB o ms. Por ejemplo, si me dim os el espacio existente en la ordenada del cuadro C de la figura 2.6 y resulta que es de 53 mm, entonces 1 mm es igual a 74.13 Hz (pues se indica que en ese espacio tenemos 4.003 Hz (4.003/53 = 75.5)). Si medimos en mm cualquier punto del espectrograma verti calmente y lo multiplicamos por 75.5, obtendremos la frecuencia aproximada a la que aparece dicho punto; por ejemplo, el armónico más intenso del cuadro C (señalado con una flecha), está situado a 9.5 mm, multiplicados por 75.5, resulta que su frecuencia será de 717 Hz. Lo mismo se hace para calcular la duración horizontalmente. Si re sulta que entre comienzo y el final hay, por ejemplo, 200 ms (0.840 seg - 0.640 seg = 0.200 seg en la ventana B), que están situados a lo largo de 58 mm, entonces 1 mm es igual a 3.4 ms. Si se desea saber la duración de un sonido, por ejemplo, basta medir su longitud en mm y multiplicar por esa cantidad.
ANÁLISIS ESPECTOGRÁHCO □B>SPG
33
■OSPG
Ejemplo itwin
Fig. 2.6.
Vocal [e ] femenina con las dos bandas:
FO = 166 Hz.
En la figura 2.7 ofrecemos cuatro ventanas con líneas de calibración diferentes. A partir de ellas se pueden adoptar las medidas pertinentes. Por ejemplo, en la ventana C > SPG 1000 Hz se representan en 6 mm, aproximadamente; por tanto, 1.000/6 = 166; es decir, cada mm mide 166 Hz. Podremos saber ahora qué frecuencia posee cualquier punto del es pectrograma midiendo cuántos milímetros hay desde la base hasta ese punto verticalmente y multiplicando por 166. Si partimos de la ventana G > SPG, que no posee líneas de calibración, tendremos que dividir 4.062 Hz que posee toda la ordenada entre 25 mm: 4.062/25 = 162.5. Como se ve los cálculos son aproximados, pues hay una diferencia de 3.5 Hz de medir entre marcas a hacerlo en toda la ordenada. La duración se mide de forma equivalente: la abscisa mide 55 mm y posee 1.715 ms; por tanto, 1.715/55 = 31 ms. Cualquier espacio horizontal medido en mm habrá que multiplicarlo por 31 ms para saber cuál es su duración. Los mismos cálculos hay que establecer en los espectros.
34
□C>SPG
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
0.00000
□G>SPG
0.00000
DD>FFT
1.715 1020 □H>FFT
Frequency (Hz)
Tiñe (sec>
1.715 0< 10.78>
Frequenc\I (Hz>
FIG. 2.7. Cuatro imágenes con líneas de calibración diferentes: C > SPG es una ventana para espectrograma con líneas de calibración cada l.^ M Hz; G > SPG igual, pero sin líneas de calibración, no obstante la ordenada comprende de O a 4.062 Hz; D > FFT es una ventana de espectro con líneas de calibración verticales (para frecuencia) de 200 Hz c tá a una y, p o r último, H > FFT posee líneas de calibración horizontales (para amplitud) de 20 dB cada una. .
ANÁLISIS ESPECTOGRÁHCO
35
Ejercicios 1.
Aquí hay dos espectros (la misma vocal: espectros con armónicos (FFT) y con la envolvente (LPC)). Explicar las diferencias y las s e mejanzas que s e encuentren entre ellos.
2.
A continuación proporcionamos dos espectros vocálicos; analizar sus tres primeros formantes (centros, anchos de banda y amplitudes).
36
3.
□D>LPC
4.
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
Los cuatro espéctros siguientes corresponden a las barras de explo sión de las tres oclusivas sordas y de la africada: [p, t, ij, k]. Tras medir en qué frecuencia s e produce la máxima amplitud, indicar si é s e podría ser un índice para detectar su punto de articulación. Obsérvese también las direcciones ascendentes o descendentes de los distintos picos.
□F>LPC
Aquí tienen la matriz de datos de la vocal [a]. Indiquen cuál e s el valor de sus formantes y anchos de banda. (En esta matriz cada lí nea posee 1O ms; Fn = formantes; ABn = anchos de banda de cada formante.) El valor se puede obtener haciendo una media aritmética de las cinco líneas centrales, por ejemplo.
ANÁLISIS ESPECTOGRÁnCO
37
F1
F2
F3
F4
F5
AB1
AB2
AB3
AB4
AB5
667 727 793 793 793 793 727 727 727 727 667
1.545 1.467 1.394 1.394 1.394 1.394 1.394 1.394 1.394 1.324 1.324
2.719 2.414 2.414 2.414 2.414 2.414 2.414 2.414 2.414 2.414 2.414
2.999 3.253 3.528 3.528 2.999 2.766 3.253 3.253 3.253 3.528 3.528
3.900 3.900 3.900 3.900 3.900 4.600 3.900 3.900 3.900 3.900 4.600
153 153 153 77 153 153 153 153 153 303 303
126 234 126 126 126 126 126 126 126 126 126
600 600 190 190 600 600 600 600 600 600 190
700 700 700 700 700 265 700 700 700 700 700
335 335 335 335 335 800 800 800 800 800 800
Estas matrices las necesitan los sintetizadores. De hecho, son los datos con que trabajan todos ellos. 5.
A continuación ofrecemos dos espectrogramas de banda estrecha de una vocal: medir el primer armónico para saber cuál e s su tono fundamental; hay que comprobar si sus armónicos segundo y tercero son múltiplos del primero; se debe indicar, además, cuál de ellos puede pertenecer a una voz masculina, pues el otro pertenece a una voz femenina.
■B>SPG
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DI-I. HABLA
38
6.
Medir la duración de la nasal [n], de la vocal [o] siguiente y de la fricativa [s] en el espectrograma de banda ancha de la palabra d in o s a u r io .
•B>SPG
7.
Los dos espectrogramas de banda ancha siguientes, que represen tan una vocal, sirven para determinar las diferencias entre voz mas culina y femenina. Descríbanlas.
DB>SPG
C a p ít u l o 3
PROPIEDADES ACÚSTICAS DE LAS VOCALES
Como hemos visto en el apartado anterior, las vocales están caracte rizadas por sus tres primeros formantes, aunque sólo las lenguas que distinguen fonológicamente entre anteriores redondeadas / no redondea das y/o posteriores redondeadas / no redondeadas necesitan de verdad la referencia del tercer formante. A las lenguas, como el español, cuyas vocales anteriores son no redondeadas y las posteriores son redondeadas sólo les basta con mencionar los dos primeros formantes. Vamos a pre sentar las vocales a través del español. Los valores son totalmente relati vos, en el sentido de que se trata de medias aritméticas obtenidas a partir de los datos de cinco individuos varones (Martínez Celdrán, 1995). En realidad, no existen los valores absolutos. Los datos de cada formante cubren un amplio abanico de valores que se denomina c a m p o d e d i s p e r s i ó n . Cualquier valor que demos es uno de los posibles dentro de ese campo y sólo lo ofrecemos como referencia. Estos datos corresponden a la voz masculina. DATOS: Datos en Hz
Fl F2
i
313 2.200
e
a
o
u
457 1.926
699 1.471
495 1.070
349 877
Estas medias pueden llevarse a una carta de formantes (fig. 3.1); esto es, a un gráfico en el que en la ordenada se coloca el F l de forma des cendente y el F2 en la abscisa y ordenado de derecha a izquierda según
42
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
se mira. Además lo sd o s ejes de coordenadas se suelen expresar con es calas logarítmicas para que reflejen el modo especial de percepción de la realidad.
Fig. 3.1.
Carta de formantes.
Como se puede apreciar en la figura 3.2, el F2 desciende de frecuen cia según la lengua va retrocediendo desde el paladar duro. La vocal [i] es la vocal más adelantada; la [u] es la más atrasada. El F2 hace que la vocal sea más aguda cuanto más alto esté y más grave cuanto más bajo. En el triángulo vocálico, las vocales anteriores son agudas y, las poste riores, graves. La vocal [a] no está definida en cuanto a la acuidad. El FI tiene relación con la elevación de la masa de la lengua; si ésta se eleva el Fl desciende y viceversa; esto sucede porque si se levanta se amplía la zona faríngea; de lo contrario, se estrecha. Si el FI sube aproximándose al F2 en el centro del espectro vocálico, la vocal será densa, si el Fl se hace extremo, entonces la vocal será difusa. Así, el rasgo acústico agu do/grave está en relación estrecha con el articulatorio anterior/posterior y, el difuso/denso, con el alto/bajo. Todo lo dicho se puede comprobar en la figura 3.3. donde se muestra ese descenso progresivo de los segundos formantes desde la vocal más anterior a la más posterior y la uve inverti da de los primeros por el descenso de las difusas y el ascenso de las den sas. Se ve, además, la diferencia entre voz masculina y femenina; esta ■ última posee, de forma sistemática, valores de formantes más altos que los de la voz masculina.
PROPIEDADES ACÚSTICAS DE LAS VOCALES
43
< ZH> ■
Fig. 3.2.
Una muestra de los form antes vocálicos d e las cinco vocales españolas.
Hz
----- F1(M) |------ F1(F)
F2(M)
■— F2(F)
M = masculino; F = femen ino"
Fig. 3.3.
Relación de los valores fo ^ tá n tic o s de la voz masculina
y la femenina.
44
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
De hecho, entre voz masculina y femenina existe una correlación, de forma que a través de fórmulas podemos calcular un formante x de un sexo a partir del valor real del sexo opuesto (Martínez Celdrán, 1995). Fórmulas para la predicción de la voz femenina: F l:
y = 1’178x + 1 6
(donde “x” es el valor de F1 masculino e “y” es el valor de F1 predicho) F 2:
y = 1’278x - 1 4 8
(para predecir los masculinos se utiliza la misma fórmula, pero despejan do “x”; por ejemplo, para F2, x = y/1 ’278 + 148). Por otra parte, si se prefiere simplificar, se podría multiplicar siem pre por el coeficiente l ’2, que es bastante aproximado a las cantidades de las fórmulas anteriores. Por ejemplo, un F2 masculino de 2.250 Hz, apli cando la fórmula se transforma en 2.727 Hz; y multiplicando por el coe ficiente l ’2 nos da 2.700 Hz. Un d i p t o n g o creciente se compone de unas transiciones alargadas y un núcleo más o menos estacionario. Uno decreciente invierte los tér minos: núcleo más transiciones. Una transición no es más que un alar gamiento de uno o más formantes vocálicos que van cambiando de frecuencia de forma rápida. Decim os que un diptongo posee transicio nes alargadas porque toda conexión consonante-vocal provoca zonas de transición entre ellas, pero esas transiciones suelen ser cortas, mientras que en los diptongos las transiciones duran más tiempo. Cuando no existe diptongo, sino h ia t o , entonces el cambio de una vocal a otra es brusco, no existe el paso suave y deslizante que supone cualquier tran sición. La figura 3.4 muestra un diptongo [je] de p i e y el hiato [íe] de p í e . Si medimos la frecuencia del primer pulso glotal de [j] o [í] en su F2, la frecuencia del primer pulso glotal del periodo estacionario y el tiempo existente entre ambos, podremos saber si la transición es lenta o rápida mediante la fórmula F2c-F2i/T = Tr, donde F2c es la frecuencia de F2 en el primer pulso de la zona estacionaria, F2i en la inicial y T es el tiempo que existe entre ambos. Tr es la transición. Por ejemplo, su pongamos que Fe = 1.800 y Fi es 2.200 y el tiempo entre ambas es de 30 ms, entonces 1.800-2.200/30 = -1 3 .3 3 Hz/ms; es decir, se trata de una transición que va descendiendo (porque es negativa) 13’ 13 Hz cada milésima de segundo. Si obtuviéramos otros datos de frecuencia para un hiato cuya transición durase 10 ms entonces 1.800-2.100/10 = -30; es ' decir, el descenso sería más rápido pues en cada milésima de segun-
PROPIEDADES ACÚSTICAS DE LAS VOCALES
45
do se descenderían 30 Hz. Está claro que tendríamos un diptongo en el primer caso y un hiato en el segundo. Estos datos podrían muy bien ser los de p i e / p í e .
K ----------j é
------------ V i
F2 de diptongo Fig. 3.4.
_ e
F2 de hiato
Diptongo donde [ j ] e s pura transición; e hiato donde [í]p o se e su propio form ante y la transición es brusca por rápida.
■C>SPG
Fig. 3.5.
Espectrogram a real d e l diptongo
y d e l hiato: [jó ] -
[ío ]
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
46
Ejercicios Analizar los tres primeros formantes (frecuencia central, ancho de banda y amplitud) de las dos vocales siguientes [i-y] y comentar las diferencias existentes entre ellas. Proporcionar una explicación de cavidad articulatoria para e s a s diferencias.
2.
Trasladar los siguientes datos a una carta de formantes:
dB
(SJ*L>
1.
8
¡
F1 F2
30 2.30
450 1.960
550 1.710
690 1.380
520 1.128
470 980
270 80
PROPIEDADES ACÚSTICAS DE LAS VOCALES
47
3.
Indicar si en los espectrogramas siguientes hay dos muestras de una misma vocal o dos vocales diferentes.
4.
En los dos espectrogramas siguientes s e presenta un diptongo y un hiato, ¿se puede decir cuál e s el diptongo y comentar sus diferencias con el hiato? Para ello hay que hacer un cálculo para averiguar si la transición e s rápida o lenta en cada caso.
□B>SPG
0 . 84200
SPG
48
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
5.
Ahora te ofrecemos dos espectrogramas con sendas vocales y hay que dilucidar si se trata de la misma vocal o no, tras medir su tres primeros formantes.
6.
Indicar si el espectrograma y espectro siguientes son de voz mascu lina o femenina por los valores vocálicos: vocal [e].
PROPIEDADES ACÚSTICAS DE LAS VOCALES
7.
49
Obtener los valores de F1 y F2 de las vocales de la figura 3.2 y colo carlos en una carta de formantes.
I 21~romui te |
Capítulo 4 PROPIEDADES ACÚSTICAS DE LAS CONSONANTES OCLUSIVAS
4.1.
Sonoridad, tensión y aspiración
La sonoridad hace referencia a la vibración de las cuerdas vocales. El sonido cuya fuente principal sea la vibración laríngea será s o n o r o , mientras que si no existe ésta será s o r d o . La vibración laríngea es muy rica en armónicos. El tono fundamental depende del número de veces que las cuerdas se abran y se cierren en un segundo; en el hombre, entre 100 y 200 veces; en la mujer, entre 150 y 300. En los espectrogramas de ban da ancha se manifiesta por un formante de baja frecuencia (unos 500 Hz), que denota la vibración laríngea y que se suele denominar barra de sono ridad (fig. 4.1 ). La tensión se manifiesta en los sonidos t e n s o s por una mayor pre sión aérea detrás del punto de articulación y una rigidez de los múscu los, lo cual conlleva una mayor duración del sonido. Los l a x o s corres pondientes tienen una reducida presión, rigidez y duración. Está claro que muchos fonetistas consideran que la duración es uno de los índices de la tensión de los sonidos, no tanto porque la duración en sí misma produzca tensión sino porque toda tensión conlleva forzo samente una mayor duración: la tensión exige un mayor esfuerzo mus cular y para realizarlo se necesita más tiempo. Existen sonidos largos que no son tensos; de hecho, todos los sonidos que acaban un grupo fónico se suelen alargar y, en cambio, precisamente por estar en la fase final del grupo se relajan mucho. Además, cuando se encuentran dos sonidos iguales en la cadena hablada, por ejemplo entre final de una palabra y principio de otra, por ej. l o s s a b o r e s s a l a d o s o c o n n a t u r a l i d a d , pueden alargarse sin que la tensión aumente. Incluso, si esa se cuencia se encuentra en el interior de una palabra, por ej. i n n o b l e , no
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
54
l a Fig. 4.1.
't
a
n
d
a
En el espectrogram a de la palabra “la tanda ", se observa la barra de sonoridad en la f d / y su ausencia en la [t].
tiene por qué necesitar mayor tensión que cuando sólo se da una con sonante sola: y n o b l e . En este caso se trata de sonidos largos o breves, no de tensos o laxos. En el caso de los sonidos tensos, frente a los laxos correspondientes, se produce una mayor duración porque en su articulación los músculos están enérgicamente enervados. Un gesto tenso exige por sí mismo un mayor tiempo de permanencia de los órganos en su posición que un gesto relajado. Por ejemplo, Fisher-Jergensen (1968: 108) caracterizaba las oclusivas tensas de la siguiente forma: «acoustically, they are characterized by a longer closure period and a shortening of the preceding vowel and, to sorne extent, of the folowing vowel, perhaps also by a stronger intensity of the explosion». Este fenómeno se observa también en otros sonidos como los fri cativos (fig. 4.2). La aspiración se manifiesta sobre todo en los sonidos a s p i r a d o s de varias lenguas com o un soplo laríngeo que sucede a la explosión por un gesto de abertura de la glotis, ausente en los sonidos no a s p i r a d o s ; desde un punto de vista acústico, ese soplo constituye un ruido turbu lento (fig. 4.3). Por las explicaciones que hemos dado podría parecer que sonori dad, tensión y aspiración son rasgos que no tienen nada en común; pero recientemente se ha defendido que los tres pueden explicarse conjuntamente en las oclusivas en relación con el momento en que
PROPIEDADES ACÚSTICAS DE LAS CONSONANTES OCLUSIVAS
55
comienza la vibración laríngea respecto de la relajación de la oclusi va, fenómeno conocido con la sigla VOT (VOICE ONSET TIME) (Lisker y Abramson, 1964) (en algunos libros se ha traducido por «tiempo de emisión de la voz» TEV). Tomadas tres lenguas como el español, el inglés y el thai, cada una de ellas segmenta el c o n ti n u u m del VOT de diferente manera. i
ii
1
111
- 1
1(mseg)
o español: inglés: thai:
[b] [b] [b]
[p] [b][p] [p]
[ph] [ph]
F r e q . (H z>
La barra vertical representa el momento de la explosión. Por tanto, en el segmento I el comienzo de la vibración laríngea ocurre antes de la explosión. En el segmento II el comienzo de la vibración laríngea coinci de o está muy próximo a la explosión. Por último, en el segmento III el comienzo es bastante posterior a la explosión. (En la representación del segmento, la línea horizontal representa la dispersión de los valores tem porales de comienzo de la vibración laríngea o VOT.)
'k a s Fig. 4.2. La oposición
a
‘k
a
z
9
[ kas:JJI[kaz:J] del catalán muestra claramente las diferencias de duración no sólo de las [s /z] sino también de las vocales precedentes respectivas , mayor en la sonora-laxa que en la sorda-tensa, como compensación de la menor duración de la fricativa sonora frente a la mayor de la sorda.
56
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
continuum
El queda segmentado en tres partes. El español sólo utiliza las dos primeras, pues carece de oclusivas aspiradas. El inglés utiliza los tres, pero fonológicamente sólo distingue dos, pues en el momento inter medio realiza las sonoras iniciales y las sordas tras [s] inicial. El thai, por último, utiliza las tres segmentaciones fonológicamente. Es decir, el espa ñol sólo tiene sonidos sordos y sonoros y, en todo caso, los sordos son tensos y los sonoros son laxos: (tramos 1/11). El inglés utiliza también la aspiración: ‘pico de ave/cima’ (II/III); ‘renacido/contar’ (I/III); ‘espía’ (II). Como se ve el funcionamiento es muy diferente del español, pues el inglés no enfrenta los segmentos 1/11, como el español, sino II/III o I/III. Además, en inglés serán tensos los so nidos aspirados y laxos los restantes; por tanto, desde un punto de vista fonológico el inglés hablará sólo de sordas y sonoras. Por último, el thai ofrece la posibilidad de oponer todas las combinaciones entre sí, por lo que en thai habrá que hablar de dos rasgos fonológicos: sonoro y aspirado; ej. ‘hombro/bosque/partir’. Ejemplos:
vino/pino beak/peak spy
reborn/report
báa/páa!pháa
i español: inglés: thai:
I ----- ----o vino reborn bBa
II
111 i
pino baUoon/spy
páa
i (mseg) -- peep/report
p"áa
Obsérvese que el VOT de las oclusivas de la figura 4.3 es de 12 ms para [t] y de 93 ms para [th]. La actividad laríngea no se limita a la comentada: sorda/sonora/ aspirada. En muchas lenguas hay también sonidos (“creaky voice”): son aquellos en los que existe una gran tensión en las cuer das vocales lo cual hace que se produzca una corriente de aire menor que en la posición de sonoridad normal ya que sólo vibra la parte ante rior, pues la zona intercartilaginosa está fuertemente unida y las cuerdas vocales vibran más lentamente, lo cual se traduce en el espectrograma en una mayor separación de las estrías (pulsos glotales) que muestran la vibración de las cuerdas vocales. En un sentido opuesto, están los (“breathy voice”): la zona intercartilaginosa está bastante abierta y la corriente de aire es mayor que en los sonoros normales, lo cual hace que en el espectrograma se vea ruido mezclado con las estrías de la vibración (fig. 4.4).
laringalizados
murados
mur
PROPIEDADES ACÚSTICAS DE LAS CONSONANTES OCLUSIVAS
57
1 y 3 explosión 4 aspiración 2 y 5 comienzo de la vocal Fig. 4.3.
Diferencias espectrográficas entre la oclusiva sorda no aspirada aspirada [ta -th a j
b a munnurada Fig. 4.4.
b
Sonidos murmurados
a laringalizada
y laringalizados.
y la
sorda
58
4.2.
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
Consonantes nq pulmonares
Hay una distinción mayor entre consonantes pulmonares, la mayoría, que se caracterizan por ser realizadas con el aire que sale de los pulmo nes y no pulmonares, que aprovechan el aire que se queda atrapado en la boca entre dos cierres, caso de las eyectivas, o hay una entrada de aire exterior, como sucede con inyectivas y clics. Como todas estas conso nantes poseen dos cierres, se caracterizan por tener dos explosiones: la primera corresponde a la abertura de la zona más anterior: labial, dentoalveolar, etc.; la segunda, a la abertura de la zona glotal, en las eyecti vas o inyectivas, o de la zona velar en los clics. Entre la primera explo sión y la segunda hay un tiempo de sílencio que en algunas de estas con sonantes es muy largo, por encima de las 150 ms. Además, la primera explosión es también muy larga: alrededor de las 20 ms.
HB>SPG
Fig. 4.5.
4.3.
Consonante eyectiva alveolar y clic dental.
Las oclusivas del español
Se caracterizan acústicamente por una zona de silencio, unas 90 ms para las sordas y unas 60 ms para las sonoras, y una barra de explosión en el momento de la relajación, esto por lo que se refiere al modo de articulación. Como las oclusivas españolas no son aspiradas, veremos
PROPIEDADES ACÚSTICAS DE LAS CONSONANTES OCLUSIVAS
59
que el VOT no alcanza valores altos en las sordas, aunque el contraste entre sonoras y sordas está suficientemente representado por las dife rencias de VOT. Por último, el punto de articulación viene dado tanto por la frecuencia donde se sitúa la máxima intensidad de la explosión, como por las transiciones vocálicas. Resulta que los formantes de las vocales no son rectos; es decir, no se mantienen en la misma frecuen cia, sino que sufren variaciones en los extremos debido a la influencia del punto de articulación de las consonantes que la circundan. Estas variaciones se denominan transiciones. Como siempre, los valores y los espectrogramas expuestos para el español no son absolutos, son sólo valores de referencia.
ÍB>SPG
p
a
t
a
k
a
Estas flechas indican la dirección de las transiciones de los formantes segundos. Estaotra indica la máxima intensidad de la explosión a unafrecuencia determinada. Este símbolo indica el comienzo de la transición y el centro de lavocal según el F2. Fig. 4.6.
Espectrograma d e la s oclusivas sordas.
A partir de un espectrograma como éste podemos efectuar diversos cálculos como los que siguen: Cálculos previos: l . 115 ms -115 mm; por tanto 1 mm = 9.7 ms ( l .1 15/115)
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
60
500 Hz A)
5.5 mm; por tanto lmm = 91 Hz (500/5.5)
Pendiente de la transición de p: \Fc
Pendiente(p) = F e - Fi/T = 1.245 - 1.079176 = 2.18 Hz/ms Fi
T(iempo)
Donde Fe = Frecuencia del centro del formante; Fi = Frecuencia ini cial o del primer pulso glotal; y T = tiempo existente entre esos dos puntos. Es decir, la transición va ascendiendo (pendiente positiva) 2.18 Hz por milésima de segundo. B)
Pendiente de la transición de t: Fi
Pendiente (" = F e - Fi/T = 1.328-1.500173.6 = -2,34 Hz/ms Fe
T Esto es, la transición va descendiendo (pendiente negativa) 2,34 Hz por milésima de segundo. C)
VOT (voice onset time) de
D)
Explosiones:
k
= 36 ms.
p - 620 Hz aproximadamente t - por encima de los 2.500 Hz k - 1.500 Hz aproximadamente
Podemos ofrecer unos valores generales de VOT para el español pe ninsular, siguiendo los datos de M.“ L. Castañeda (1986) (datos en m ilé simas de segundo): 1 [p] = 6.5 [t ] = 10.4 [k] = 25.7
[b ] = -69.8 [d ]= -77.7 [g ] = -58
1. Paramedirel VOTse consideraque la de explosiónpose Oms; cuando los pulsos glotales comienzan antes, entonces el VOTseránegativo, de locontrarioserápositivo.
PROPIEDADES ACÚSTICAS DE LAS CONSONANTES (CLUSIVAS
61
2 . 87070
0 .9 7 5
64
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
3.
Comparar sorda/sonora calculando el VOT en la palabra “gata”.
4.
Comparar aspirada/no aspirada calculando el VOT.
PROPIEDADES ACÚSTICAS DE LAS CONSONANTES OCLUSIVAS
5.
65
Indicar si las oclusivas siguientes son aspiradas o no. ¿Por qué? ¿Convendría distinguir grados de aspiración?
□BXSPG N £
¡WPirm m m m ^ || *Tf flrPÍf h f * * fe 11 11 ^ i ' [Íúííúht
H U ffij
Tmr m r n fmi i u Tm S> 2 .3 6 8
4.08630< | i.
||g I N
?f
« 1 1 íilf lU r
m
• •
k í l i i í f i i l l í i i i iM m i l i l m t t M l l tí
rs
Blfel H| .; pl.Ji :.
2 .8 4 5
G 4 .086
T iñ e
(s e c )
4 .8 2 4
Capítulo 5 P R O P IE D A D E S A C Ú S T IC A S D E L A S C O N S O N A N T E S F R IC A T IV A S Y A P R O X IM A N T E S
5.1.
Fricativas
Las consonantes fricativas se caracterizan por tener ruido turbu lento; es decir, inarmónicos. Obsérvese en los espectrogramas la armonicidad de las vocales vecinas, que se manifiesta a través de las estrías de los pulsos glotales perfectamente regulares, frente a la amal gama aleatoria que es la inarmonicidad del ruido. Esto es lo que las caracteriza frente a los demás sonidos. Entre sí, además de las transi ciones son evidentes dos diferencias: la frecuencia donde se da la má xima intensidad (mayor negror) y esa misma intensidad, como se ve en el siguiente cuadro. ■B>SPG
H.H775b
SPG
‘s apical' FIG. 5.2.
Espectrogramas de las dos variedades principales de palabra "casa".
‘s predorsal’
s ” pronunciadas en la
PROPIEDADES ACÚSTICAS DE LAS CONSONANTES OCLUSIVAS
5.2.
71
Aproximantes
Carecen de ruido. Tienen las estrías típicas de los sonidos armóni cos. Se caracterizan por un descenso considerable de la intensidad res pecto de las vocales vecinas, apreciable por el menor negror de sus zonas formánticas. Los formantes son meras transiciones entre los formantes vocálicos; su frecuencia determina su distinto punto de articulación, so bre todo a través de las transiciones del F2 y de la frecuencia de ese mismo F2.
1
a
g Fig. 5.3.
IW lOt lj|: lyl:
o
’5
e
y
a
Espectrograma de las aproximantes.
Intensidad vocal precedente
intensidad consonante aproximante
Diferencia ' di' intensidad
Frecuencia F2 aproximante
32 27 25 34
14 10 16 13
18 17 9 21
1.280 2.080 .1.640
9 0
Obsérvese la figura 5.4; en la parte alta de la fricativa inglesa [6] hay ruido, es decir, una masa amorfa que no presenta estrías ni forma regular alguna. Compárese con el sonido español [{!] y se verá que este último no posee nada de ruido y todo en él son estrías: ésta es la diferencia esencial entre fricativas y aproximantes (Martínez Celdrán, 1991).
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
72
Ruido
Ausencia de ruido Sólo pulsos glotales
* i
e Fig. 5.4.
Comparación entre la fricativa inglesa
5 e Aproximante
y la aproximante
española.
Hay también una aproximante palatal que no sólo se ha de diferen ciar de la fricativa correspondiente, sino que además es diferente tam bién de los elementos pre y posnucleares palatales de los diptongos; por ej. [j] de m a y o y la [j] de p i o j o . En los espectrogramas de la figura 5.5 se observa que la aproximante es una transición muy débil entre dos vocales, mientras que el elemento prenuclear del diptongo no es nada débil, es en realidad un elemento vo cálico muy breve y una gran transición.
a Fig. 5.5.
o Aproximante
’P v.v semiconsonante
j de diptongo .
PROPIEDADES ACÚSTICAS DE LAS CONSONANTES OCLUSIVAS
73
Ejercicios 1 . Analizar las diferencias existentes entre estas dos fricativas: sor da/sonora: ‘kas;:)/’kaz;}. 40820
SPG
in N H co
00
0.408
2.
^
(sec)
0.412
1.018
Tiñe (sec)
1.004
[s] / UJ: analizar sus diferencias: ‘kas;)/’kaJ;}.
□ B >SPG
ltl Ñ H
IC>SPG m h H
0.40820
SPG
-44>
0.41150
a:
Espectrograma de la africada sorda.
En la africada sorda existe un ruido tan largo o más que la zona de silencio correspondiente a la oclusión. En la sonora, además de las estrías de baja frecuencia debidas a la vibración de las cuerdas vocales, el silen cio y el ruido (o las estrías de la aproximante) se reducen considerable mente.
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
FIG. 6.2.
Espectrograma d e la africada sonora.
AFRICADAS
81
Ejercicios 1.
Medir la duración de la oclusión y de la fricación de la africada por separado. Compararlas con las de la fricativa y la oclusiva de las otras palabras. Palabras grabadas: c a c h o - c a s o - c a t o . 0.00000< , I f c .........
Z
I i
/N ZN V V í. m
..
-
i k
1
M .....
...n 0 .000
S fc li-
..... J— .............i"; j-|..j... “ j i p i ....... m
: : :
S É
r,
2.
u
r
......
Tiwe
..... (sec)
...
| l |
J '"'
....
H t " ' " ' ...........1 ! ^
0>
|
0
......................
| 3¡ ■- --‘teíii i.................................................................\
4062
■B>SPG
m
.........m f 1.669
Describir las diferencias existentes entre la africada sonora [d3] del catalán en m e t g e y la [dj] del castellano en e l y e s o .
82
3.
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
Comparar las realizaciones africadas anteriores con las oclusivas palatales.
□B>SPG N UD S
0 . 22690
■C>SPG N O
0 .S 4010< mi ; 1
II ¿
0>1
*
P
; < !I V
¡tíU M
! s $i i lili fk 1 lisÉJj t
N
Iv
litíllíír II P J i
V V
í. u*
fllH H
1
C
¡
■l i l i :
¡Mm B Ui i « mmmmM
6 i :í 10.227
T iñ e
N
z v y 01 ü Uh
M M jU ¡ . . ¿
'
$
1
0.746
» í 1^ M B l f i
I
i É ifiH iB p ilg S p il
j
; (se c )
I
i11rFfff
¡ i o
!
10.540
J jL JB É L T ifie
ÍT*'
11;. \if .
i.
Jk mm (se c )
1.092
Capítulo 7 NASALES
Como se ve, se caracterizan por tener formantes con una energía o intensidad bastante más reducida que las vocales que las rodean. Su dife rencia principal con las aproximantes es el paso abrupto de la vocal a la consonante y viceversa en las nasales; eso hace que se vean como blo ques. Las aproximantes son transiciones suaves entre las vocales. Obsér vese cómo las transiciones nasales determinan su punto de articulación, además del segundo formante.
[m]: [n] ]:
Intensidad vocal precedente
Intensidad conso nante nasal
27
21 18 16
30 23
Diferencia de intensidad
6 12 7
He aquí algunos cálculos realizados sobre este espectrograma: A)
Pendientes de las transiciones(Hz/ms): -m: 1.285 - 1.000/44.45 = 6.41 -n: 1 .3 5 6 -1 .2 9 5 /6 3 .5 = 1.12 -p: 1.607 - 2.000/95.25 = -4.13
B)
Fl
C)
F2 (m) = 1.000 Hz F2 (n) = 1.400 Hz F2 (JI) = 1.900 Hz
=
250 para las tres nasales
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
86
■B>SPG
'
1.68000
Csec > _________________________________________________________2 .569
a
n
a
Espectrograma de las nasales.
Las nasales se caracterizan también por poseer ceros en el espectro o antirresonancias. Se trata de picos negativos en el espectro nasal como Jos que mostramos en la figura 7.2:
Fig. 7.2. Espectros de una nasal que muestra picos negativos, que son los ceros o antirresonancias. Obsérvese cómo en el espectro vocálico no hay ningún pico por debajo de la línea de puntos que es la línea cero dB.
NASALES
87
Ejercicios 1.
Diferenciar entre nasal y aproximante: 0.66140
SPG
T iñ e
2.
m a ñ o /m a y o .
0> DC>SPG
(sec)
0.64260
SPG
Tiñe (sec)
88
ANÁLISIS ESPECTROGRÁFJCO DE LOS SONIDOS DEL HABLA
3.
Dos espectros de la vocal precedente y de la nasal. Medir amplitu des de F1 , F2 y F3. Comparar las diferencias.
4.
Curva de intensidad global de la palabra “cama” para comparar las amplitudes de las vocales y de la nasal.
NASALES
5.
89
He aquí dos espectros (FFT) de nasales [m-n]. Medir a qué frecuen cias s e dan los dos picos primeros que bajan por debajo del cero dB.
C a p ítu lo 8
LÍQUIDAS
8.1.
Laterales
Se parecen a las nasales, pues poseen formantes como ellas y el paso entre consonante y vocal es también abrupto. Se diferencian principal mente por la intensidad de los formantes altos, bastante mayor en las laterales que en las nasales, por regla general. Promedio de intensidad (dB) vocales nasales laterales
Fig. 8.1.
F2
F3
F4
24 9 20
17 6 18
21 7 16
Espectrograma de las laterales.
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
94
8.2.
Vibrantes
Se caracterizan por las breves interrupciones de la energía que for man pequeñas oclusivas que llevan hasta barra de explosión. Caracterís ticamente, la vibrante simple sólo posee una interrupción, mientras que la múltiple tiene dos o más. En los espectrogramas que presentamos las oclusiones duran 25 ms aproximadamente. Existe una variante ocasional de la vibrante que es aproximante; por tanto, en vez de oclusión o silen cio en el espectrograma, se observan las estrías características de las aproximantes.
’p
e
r
Fig. 8.2.
a
’p
e
r
Espectrograma de las vibrantes: simple y múltiple.
Fig. 8.3.
Espectrograma d e la aproximante.
a
LÍQUIDAS
95
Ejercicios 1.
Comparar entre vocal, nasal, vibrante simple y lateral: ñora-callar.
2.
Medir pendiente de 1/Á.
’l
o
1
a
k
a
’f.
a
r
96
3.
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
Describir diferencian entre la
y su sustituta en el yeísmo. 1.46730
SPG
M g8C
2. 074
4.
Medir duración de la fase oclusiva y la vocálica en la r de la palabra “carta”. ■B>SPG
5.040
5.0401R
0>
5.485
LIQUIDAS
5.
97
Medir la duración del elemento esvarabático en la palabra ‘‘tres”. ¿La líquida e s de tipo vibrante o aproximante?
E je r c ic io s g lo b a le s s o b r e p a la b r a s y fr a s e s
1.
Sobre oclusivas
a)
“La inquietud turba la casa”
100
b)
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
“No pescaré este pez"'
■B>SPG
1.81810
SPG
“Temblaron los hombres” 1.87200
SPG
b)
“La fijeza”
101
J0 2
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
e)
“Jugaba con sus hij.os”
3.
Sobre aproximantes
a)
“Salgo al balcón” 8 .84910
SPG
EJERCICIOS GLOBALES SOBRE PALABRAS Y FRASES
b)
“Hoy aprobáis la ley”
105
C a p ítu lo 9
PROSODIA
9. l .
Análisis del acento
No parece que el acento tenga un único parámetro acústico al que poder referirse, aunque son tres los que intervienen en la sílaba tónica con diferente grado de importancia. Hay autores que destacan la eleva ción del FO, otros la duración, aunque es posible que sea una combina ción de ambos la que proporciona la prominencia de la silaba acentuada frente a sus vecinas inacentuadas. La amplitud no parece que juegue un papel demasiado relevante en esta prominencia. Las lenguas que utilizan el acento fonológicamente suelen distinguir entre tres clases de esquemas acentuales: esdrújulo, llano (o grave) y agudo, según que la sílaba prominente sea la antepenúltima, penúltima o última sílaba de la palabra. Las sílabas inacentuadas se caracterizan por simple oposición con las acentuadas; es decir, tienen los mismos pará metros pero sus valores son menores que en las acentuadas correspon dientes. Se forma, pues, una gradación de mayor a menor: l, 2, 3. Por ejemplo, una esdrújula suele tener el siguiente esquema: 1-3-2, por regla general: o sea, la sílaba más prominente es la antepenúltima y, por ello, lleva el número l . La posición postónica es bastante débil; por tanto, le asignamos el valor 3. En la evolución de la lengua es una posición que suele cambiar e incluso se pierde la vocal: r a p i d u > r a b i d u > r a b d o > r a u d o ( 1p > 2 b ;
2i> 30
; 3 b > 4 u ).
El esquema grave suele tener la siguiente caracterización: 3-1-2/3. En este caso, la prominencia se sitúa en la penúltima sílaba. Las posicio nes pre y postónicas suelen ser débiles. Por último, el esquema agudo se presenta de la siguiente forma: 2-3 1. Lo cual demuestra que la posición más próxima al acento principal suele ser siempre la más débil. Véase en la figura 9.1 la actuación de los
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
110
tres parámetros que configuran Jos tres esquemas. Se ha pronunciado una secuencia sin sentido y coh oclusivas para tener perfectamente delimitada la vocal, que es la portadora del acento: tá t a t a - t a t á t a - t a t a t á . Valores encontrados: tá
ta
ta
ta
tá
ta
ta
ta
tá
75 159 90
73 149 61
72 156 68
69 112 63
74 156 78
74 154 58
70 116 66
71 111 61
75 156 85
dB Hz ms
Como se ve, coinciden los valores máximos en la silaba tónica. No obstante, las diferencias son mínimas tanto en las amplitudes (energy), como en el FO (pitch); sólo el esquema agudo mantiene bastante diferencia entre las dos átonas y su tónica correspondiente. La duración es la que mejor pone de manifiesto los esquemas expuestos con anterioridad.
□B>PITCH
0.00000
1 .4 9 1
t
á
Fig. 9.1.
t a
t
a | |t
a t
á
t a
| |t
a t
a t
á
Amplitudes, FO y espectrogram a de la secuencia tatata con acento esdrújulo, llano y agudo respectivamente.
PROSODIA
111
Por último, hay que decir que las palabras átonas se integran en los esquemas acentuales de las tónicas; por ej. C ó m e lo = 1-3-2; la m e s a = 3 1-3; p o r a m o r = 2-3-1; etc.
9.2.
La melodía
La melodía es la contrapartida fonética de la entonación, concepto que debe relegarse únicamente a la fonología, para no confundir los he chos. La melodía consiste acústicamente en la curva que describe el pri mer armónico o tono fundamental (FO) en el grupo. Un grupo melódico es el conjunto de tonos que se suceden entre dos pausas. Suele coincidir con una unidad sintáctica: oración, proposición, vo cativo, etc. Para el estudio de los contornos melódicos se suele tomar como unidad un grupo fónico. Existen diversos métodos para la eliminación de la variabilidad individual y toda aquella que no sea relevante. El procedimiento se conoce con el nom bre de e s tiliz a c ió n o n o i^ w liz a c ió n de las curvas (véase Garrido, 1991:20). Por ejemplo, una forma de normalizar dos curvas de la misma frase pronun ciadas por un hablante masculino y otro femenino podría ser la siguiente (cfr. Cantero, 1995 :411): se toma nota del FO de las vocales solamente. Una vez analizadas, tomamos el primer valor como referencia; es decir, ese primer valor será el valor cero de un porcentaje; el 100 % será la octava de ese valor (se obtiene multiplicando por dos). Los cálculos posteriores se harán realizan do una sencilla regla de tres. Obsérvese lo siguiente: si tenemos dos tonos pronunciados por un hombre cuyos valores son 100 y 150 Hz respectivamente diremos que el segundo es superior al primero en un 50 %, pues 150-100 ( 100 representa aquí el valor de la octava) = 50; 50* 100 (100 es aquí el valor por centual) = 5.^W y 5.^W/100 (100 representa aquí de nuevo la octava) = 50; si esos dos tonos son de una mujer, de modo que el primero mida 200 y el se gundo 250, ahora la elevación no es del 50 % sino del 25 %, a pesar de que físicamente exista la misma diferencia en hercios; pues 250-200 = 50; 50* 100 = 5.^W y 5.^W/200 = 25. Intuitivamente se ve claro si comparamos las octavas: A) Ej. de un hombre: Hz 100 125 % 0 25 B) Ej. de una mujer: Hz 200 250 300 % 0 25 50
150 50 350 75
175 75
200: 100
150 es la mitad de la octava
400: 100
250 es la cuarta parte de la octava
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
112
Es decir, para que la elevación de la voz femenina fuera equivalente a la masculina tendría que haber subido su fundamental hasta 300 Hz. Esto está en perfecta consonancia con el modo logarítmico con que los humanos perci bimos las frecuencias. Muchos autores tradicionales, como T. Navarro Tomás (1944), uti lizaron los semitonos musicales para medir las diferencias melódicas dentro de una octava lo cual se asemeja al sistema musical, pero el sis tema de porcentajes establece una medición sin relación con la música y fácil de manejar por todos los que no poseen conocimientos musicales. Ésa es su principal ventaja.
Fig. 9.2.
Curva melódica d e la frase.
Estilización de la curva: kjé-
Hz %
112 o
rez.
128 14
P
164 46
nír
al
109 -2.6
96 -14
6í
80 -28.5
ne
201 79.46
La estilización1 nos permite caracterizar en porcentajes algunos he chos, como los siguientes: desde el inicio hasta el primer pico (llamamos l. Exponemos acontinuación unparde ejemplos del cálculo de laestilización: 128-112 =16; 16*100= 1.60); 1.600/112= 14; otro: 164-112 = 52; 52*100=5.200: 5.2(0/112 =46; etc.
PROSODIA
113
primer pico al punto más alto a partir del inicio) hay una subida del 46 %; desde el primer pico hasta el punto más bajo de la última sílaba acentuada la curva ha ido descendiendo un 74.5 % y, por último, la subi da final ha sido de un 107.96 %. La estilización posee otra ventaja: estandariza las diferencias in dividuales y, por tanto, las anula. Si una mujer hubiera pronunciado la misma frase, pero con valores de FO que fuesen una octava más altos; es decir, que fuesen el doble de los pronunciados por la voz masculina ten dríamos lo siguiente.
kjé-
Hz %
224 o
rez 256 14
e
nír
328 46
218 -2.6
0
al
192 -14
160 -28.5
ne 402 79.46
Es decir, los porcentajes serían exactamente los mismos a pesar de la evidente diferencia física entre la voz masculina y la femenina. El esquema, pues, se repite, lo cual permite decir que se trata de la misma curva melódica. Una vez obtenida la melodía por la estilización de las curvas trazadas por la sucesión de tonos (fundamentales), podemos observar que, por regla general, existen tres partes. A)
r a m a in ic ia l: compuesta por todos los tonos que ascienden hasta el primer pico. Frecuentemente este primer pico coincide con la pri mera vocal tónica, pero en otras ocasiones no tiene por qué ser así. En la frase de la figura 9.2, el primer pico se ha situado en la pri mera sílaba de la segunda palabra que, además, es átona.
B)
c u e r p o : comprende desde el primer pico hasta la última vocal tóni ca de la frase. Se ha comprobado que en muchas lenguas hay un descenso progresivo a lo largo del cuerpo del contorno melódico. Ese descenso dibuja una pendiente que se ha denominado d e c l i n a c ió n ; la pendiente será mayor si el primer pico es más alto; de lo contrario será menor. En la frase de la figura 9.2, la declinación es de -0 , 145 Hz/ms. Es decir, desciende (por eso es negativa) O, 145 Hz por milésima de segundo. Se ha obtenido de la siguiente forma:
= 80-164/580; es decir, valor más bajo-valor primer pi co, partido por el tiempo existente entre esos dos puntos, expresado en milésimas de segundo. d e c li n a c ió n
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
J 14
C)
rama f i n a l : consiste en los tonos que suceden a la última vocal tónica. Desde el punto de vista fonológico, ésta es la rama más relevante para la entonación. En la frase mencionada, la subida tiene una pendiente de 0.56 Hzlms.
Obsérvense las tres partes comentadas, en configuraciones diferentes según la entonación enunciativa, interrogativa y exclamativa:
Fig. 9.3.
Tres curvas melódicas correspondientes a las frases: H a venido María; ¿Ha venido M aría? y ¡Ha venido María!
Datos en porcentaje: ha enunciativa interrogativa exclamativa
o
o o
ve
ni
do
Ma
8 64 -41.6
9.6 36.6
21.6 -15.8 -48.5
-16.8 -28.3 -44.1
11.2
rí -25.6 -30.8 19.6
a
-39.2 77.5 -61.7
Las diferencias en cada rama son llamativas: rama inicial enunciativa interrogativa exclamativa
21.6 (-do) 64 (ve-) 11.2 (-ni-)
cuerpo
rama final
47.2 94.8 55.3
desc. 13.6 ase. 108.3 dese. 81.3
PROSODIA
115
Bastarían estos datos para describir las diferencias existentes en las configuraciones de cada frase. No obstante aún es posible enumerar al gunas otras; por ej., la frase exclamativa tiene un primer pico negativo.
9.3.
Lenguas tonales
Hay lenguas que en vez de utilizar el acento utilizan el tono funda mental para contrastar palabras. En este caso, es exclusivamente el FO el parámetro que determina qué palabra es. Las lenguas utilizan básica mente uno de estos dos patrones: palabras monosilábicas que alargan bastante la vocal, de modo que tienen dos partes, o palabras que son poli silábicas y contrastan tonos altos o bajos entre las diferentes silabas de la palabra. Pondremos dos ejemplos, uno por cada patrón descrito. El chino estándar posee palabras monosilábicas fundamental mente y se dice que tiene cuatro tonos: alto, bajo ascendente, bajo descendente-ascendente y alto descendente. Si calificamos los tonos de 1 a 5, desde el inferior al superior, tendremos los siguientes esquemas para una misma secuencia de fonemas (UCLA, 1991): ma ma ma ma
55 35 214 51
“asunto” transcripción l “cáñamo” = A “caballo” = Ji “virago” = -J
Fig. 9.4.
Tonos del chino estándar .
1 16
ANÁLISIS ESPECTROGRÁFICO DE LOS SONIDOS DEL HABLA
En la figura 9.4 hemos presentado una voz femenina que pronuncia las cuatro palabras 'anteriores. Un análisis del FO nos indica que 5-5 equivale a 250-270 Hz; 3-5 a 205-250 Hz; 2-1-4- a 185-148-205; y 5-1 a 270-140. Para este informante, pues, el 5 está alrededor de 250 o más; 3 y 4, alrededor de 200; 2 alrededor de 175 y 1, por debajo de 150. La segunda posibilidad la vamos a ejemplificar con el ibidio (lengua nigeriana):
Tono alto seguido de alto descendente bajo
ákpá “extensión del océano” (1) ákpa “cesto cuadrado” (3) áku “sacerdote” (5)
Fig. 9.5.
Tono bajo seguido de
ákpá “primero” akpo “árbol del caucho” ákpá “pequeño”
Estructura tonal de las seis palabras del ibidio.
(2) (4)
(6)
PROSODIA
117
Medir los parámetros que determinan la sílaba tónica en el trío:
té r
Ejercicios 1.
m in o , te r m in o , te r m in ó .
0.00006 K 3 4 . 78 >
■D>ENERG¥
o 0.00000