321 63 16MB
Spanish Pages [222] Year 2019
Teoría y técnica del sonido
royectoeditorial
TERAPIAOCUPACIONAL Colección Claves de la comunicación Coordinadores: Raúl Eguizábal Maza Antón Álvarez Ruiz
Teoría y técnica del sonido Francisco José Cuadrado Méndez Juan José Domínguez López
Consulte nuestra página web: www.sintesis.com En ella encontrará el catálogo completo y comentado
Cubierta y diseño de la colección: Esther García Ribas. El Estudio, Facultad de CC. de la Información, UCM
Reservados todos los derechos. Está prohibido, bajo las sanciones penales y el resarcimiento civil previstos en las leyes, reproducir, registrar o transmitir esta publicación, íntegra o parcialmente, por cualquier sistema de recuperación y por cualquier medio, sea mecánico, electrónico, magnético, electroóptico, por fotocopia o por cualquier otro, sin la autorización previa por escrito de Editorial Síntesis, S. A. © Francisco José Cuadrado Méndez Juan José Domínguez López © EDITORIAL SÍNTESIS, S. A. Vallehermoso, 34. 28015 Madrid Teléfono: 91 593 20 98 www.sintesis.com ISBN: 978-84-9171-409-5 ISBN: 978-84-917193-0-4 Depósito Legal: M. 27.418-2019 Impreso en España - Printed in Spain
Índice
Presentación .............................................................................................................................................
11
Parte I Introducción 1. Principios básicos del sonido ............................................................................................. 1.1. La onda sonora. Parámetros básicos del sonido: amplitud, frecuencia y timbre ..................................................................................................................................... 1.1.1. La onda sonora .................................................................................................... 1.1.2. Amplitud ................................................................................................................. 1.1.3. Frecuencia .............................................................................................................. 1.1.4. El timbre ................................................................................................................. 1.1.5. Fase ............................................................................................................................ 1.2. Acústica y psicoacústica: percepción sonora. Comportamiento espacial del sonido. Escucha binaural ..................................................................... 1.2.1. Acústica y psicoacústica. La percepción sonora .............................. 1.2.2. Percepción de la frecuencia ......................................................................... 1.2.3. Percepción de la amplitud ............................................................................. 1.2.4. Percepción direccional y espacial ............................................................. 1.3. Unidades de medida de parámetros sonoros ....................................................... 1.4. La señal de audio digital. Principios de la digitalización de sonido ...... 1.4.1. El proceso de digitalización: muestreo y cuantización ................
5
15 16 16 17 18 19 21 23 23 24 25 27 32 37 38
Teoría y técnica del sonido
1.4.2. El proceso de digitalización: corrección de errores ....................... Preguntas de autoevaluación ......................................................................................................
42 44
Parte II Grabación 2. Grabación de sonido .................................................................................................................
47
2.1. La cadena de grabación de audio: definición ................................................... 2.2. Problemas de la cadena de audio ............................................................................ 2.2.1. Respuesta en frecuencia .......................................................................... 2.2.2. Distorsión ........................................................................................................ 2.2.3. Rango dinámico ........................................................................................... 2.2.4. Diafonía ............................................................................................................ 2.3. La técnica y la cadena de audio. Una cadena de audio básica ............... 2.4. La cadena de sonido para audiovisuales ............................................................. 2.5. Micrófonos. Principios básicos. Estructura y características .................. 2.6. Características técnicas y problemas de los micrófonos ........................... 2.6.1. Impedancia ..................................................................................................... 2.6.2. Respuesta en frecuencia .......................................................................... 2.6.3. Sensibilidad .................................................................................................... 2.6.4. Respuesta transitoria ................................................................................. 2.6.5. Otros problemas .......................................................................................... 2.7. Clasificación de micrófonos por su direccionalidad .................................... 2.7.1. Micrófonos omnidireccionales ............................................................ 2.7.2. Micrófonos bidireccionales ................................................................... 2.7.3. Micrófonos unidireccionales ................................................................ 2.8. Tipos de diafragma y direccionalidad .................................................................. 2.9. Clasificación de micrófonos por el tipo de transductor: transductores electromagnéticos ............................................................................................................ 2.9.1. Micrófono dinámico de bobina móvil ............................................. 2.9.2. Micrófono dinámico de cinta ............................................................... 2.10. Clasificación de micrófonos por el tipo de transductor: transductores electrónicos ......................................................................................................................... 2.10.1. Micrófono de condensador .................................................................... 2.10.2. Micrófonos electret .................................................................................... 2.11. Otros tipos de micrófonos ...........................................................................................
47 48 48 50 51 52 53 56 57 59 59 59 60 61 61 62 63 63 64 65
6
66 66 66 67 68 69 70
Índice
2.12. Micrófonos inalámbricos ............................................................................................. reguntas de autoevaluación ...................................................................................................... P
71 72
3. Técnicas de grabación ............................................................................................................
73
3.1. Soportes y sistemas de la grabación sonora ......................................................... 3.1.1. Un pequeño apunte histórico .................................................................... 3.1.2. Soportes de grabación de sonido en la actualidad ........................ 3.1.3. Sistemas de grabación de sonido directo en la actualidad ....... 3.2. Grabación de sonido directo en cine y televisión ............................................. 3.2.1. La preparación del equipo .......................................................................... 3.2.2. El personal operador de sonido ............................................................... 3.2.3. Control de la señal .......................................................................................... 3.2.4. Wild tracks y wild lines ................................................................................ 3.2.5. Posición del micrófono ................................................................................ 3.2.6. Movimientos del micrófono ...................................................................... 3.2.7. Condiciones acústicas de la localización ........................................... 3.2.8. Qué se debe grabar ......................................................................................... 3.2.9. La claqueta .......................................................................................................... 3.2.10. Cuándo se debe empezar a grabar ......................................................... 3.3. Grabación de voces en estudio .................................................................................... 3.4. Regrabación (overdub), multipista simultánea y multipista sucesiva ... 3.4.1. Grabación multipista sucesiva ................................................................. 3.4.2. Grabación multipista simultánea ............................................................ Preguntas de autoevaluación ......................................................................................................
73 74 76 79 82 83 85 86 87 88 89 90 91 92 92 93 95 97 98 99
Parte III Posproducción 4. Edición y posproducción de sonido ..............................................................................
103
4.1. Sistemas de edición y mezcla sobre disco duro (DAW) ............................... 4.1.1. Estructura y principios básicos de funcionamiento ..................... 4.1.2. Edición no lineal .............................................................................................. 4.1.3. Edición no destructiva .................................................................................. 4.1.4. Plugins de procesamiento de sonido .................................................... Preguntas de autoevaluación ......................................................................................................
103 104 108 109 110 115
7
Teoría y técnica del sonido
5. La mezcla ...........................................................................................................................................
117
5.1. La mesa de mezclas ........................................................................................................... 5.1.1. Canales de entrada ............................................................................................ 5.1.2. Buses ......................................................................................................................... 5.1.3. Monitorado ............................................................................................................ 5.1.4. Comunicaciones ................................................................................................. 5.1.5. Conexionado ......................................................................................................... 5.2. Ecualizadores y filtros ...................................................................................................... 5.2.1. Los filtros ................................................................................................................ 5.2.2. El ecualizador ...................................................................................................... 5.3. Procesadores de dinámica .............................................................................................. 5.3.1. El compresor ......................................................................................................... 5.3.2. El limitador ............................................................................................................ 5.3.3. El expansor ............................................................................................................ 5.4. Procesadores de tiempo ................................................................................................... 5.4.1. La reverberación ................................................................................................. 5.4.2. Otros procesadores de tiempo .................................................................... 5.5. El proceso de mezcla ........................................................................................................ 5.5.1. Volumen y panorama ....................................................................................... 5.5.2. Uso de procesadores ........................................................................................ 5.5.3. Automatización de la mezcla ...................................................................... Preguntas de autoevaluación ......................................................................................................
118 118 123 124 125 125 125 126 128 132 132 134 135 136 136 140 140 140 141 142 143
6. Formatos de consumo de audio .......................................................................................
145
6.1. Formatos de archivo y códecs de audio ................................................................. 6.1.1. Archivos contenedores ................................................................................... 6.1.2. Audio sin compresión ..................................................................................... 6.1.3. Los códecs y la compresión ......................................................................... 6.1.4. Compresión sin pérdida ................................................................................. 6.1.5. Compresión con pérdida ................................................................................ 6.1.6. Otros códecs ......................................................................................................... 6.2. Sonido envolvente .............................................................................................................. 6.2.1. Formatos de sonido multicanal .................................................................. 6.2.2. Formatos de sonido inmersivo ................................................................... 6.2.3. Sistemas de audio basado en objetos ...................................................... Preguntas de autoevaluación ......................................................................................................
145 146 147 149 151 151 153 153 155 159 160 162
8
Índice
Parte IV Diseño de sonido 7. El diseño de sonido. Narrativa sonora .......................................................................
165
7.1. ¿Qué es el diseño de sonido? ....................................................................................... 7.2. Bases del diseño de sonido ............................................................................................ 7.2.1. El guion ................................................................................................................... 7.2.2. Conversaciones con el equipo de dirección y posproducción ...... 7.2.3. El montaje de imagen y el sonido de producción ............................ 7.2.4. Confección de un “mapa sonoro” ............................................................. 7.3. El proceso de posproducción de sonido ................................................................. 7.3.1. Los diálogos .......................................................................................................... 7.3.2. Los efectos sonoros .......................................................................................... 7.3.3. La música ............................................................................................................... 7.3.4. Las mezclas ........................................................................................................... 7.4. La narración a través del sonido ................................................................................. Preguntas de autoevaluación ......................................................................................................
165 167 167 170 173 175 177 177 182 189 190 192 198
8. El sonido para videojuegos ..................................................................................................
199
8.1. El sonido en el audiovisual vs el sonido en el videojuego .......................... 8.2. Categorías de sonidos en un videojuego: background, foreground, interface sound ..................................................................................................................... 8.3. Producción de sonido para videojuegos ................................................................. 8.3.1. Diálogos y voces. ............................................................................................... 8.3.2. Efectos de sonido ............................................................................................... 8.3.3. Música ...................................................................................................................... 8.4. La implementación del audio ....................................................................................... 8.4.1. Programación de parámetros interactivos ............................................ 8.4.2. El audio middleware. Proceso de trabajo ............................................. Preguntas de autoevaluación ......................................................................................................
199
Solucionario .............................................................................................................................................
217
Bibliografía ...............................................................................................................................................
219
9
201 202 203 206 207 210 210 212 216
Teoría y técnica del sonido
Material complementario • Anexos web con audios para los capítulos 5 y 8 • Webgrafía
10
Presentación
El aparentemente sencillo y aséptico título del libro que tengo el placer de prologar: Teoría y técnica del sonido, de Francisco José Cuadrado y Juan José Domínguez, encierra en su interior un auténtico tesoro de información completa, actualizada y exhaustiva de la tecnología y aplicación de los sistemas y procedimientos del sonido en sus más modernos y apasionantes campos de tratamiento. Uno de los grandes valores de esta obra radica precisamente en la simplicidad y sencillez con la que están expuestos y explicados los distintos contenidos, sin que ello suponga una falta de profundidad técnica o científica. La estrecha relación entre una buena fundamentación teórica y una aplicación muy práctica de los conceptos expuestos es otro de los aspectos destacables de este trabajo. El texto arranca con una serie de capítulos teóricos preparatorios que cubren todas las bases de la física del sonido con relación a múltiples elementos, pero cabe destacar la importancia que se da a algo que a menudo olvidan otros libros: la exposición detallada y precisa de los parámetros fundamentales del sonido (intensidad, tono, timbre y envolvente), sin cuya comprensión es imposible asimilar el resto de la información. Yo mismo, como docente, he comprobado cómo los alumnos que no han adquirido previamente y con seguridad estos conceptos básicos presentan problemas continuos según avanzan las dificultades. Algo que además impide el autoaprendizaje cuando es menester recurrir a otras fuentes sin contar con el apoyo presencial del profesor. Asimismo, el apartado dedicado a la psicoacústica es excelente en forma y fondo. Hemos de notar que precisamente en estos tiempos en los que la moderna tecnología de audio trabaja ya en el nivel de la captación y mezcla, tanto sobre principios ambisónicos como con el uso de microfonía especial y sistemas de mezcla basada en objetos (sirva como muestra el potente y versátil Dolby Atmos para mezclas en realidad virtual, 3D, videojuegos, museística y parques temáticos), se hace imprescindible comprender muy bien estos principios de psicoacústica, sin los cuales entraríamos de nuevo en un estado de imposibilidad de seguir avanzando. 11
Teoría y técnica del sonido
Pero, una vez más, el trabajo de Francisco José Cuadrado y Juan José Domínguez consigue este propósito al guiarnos claramente, tanto a través del propio texto como con el uso de diagramas explicativos. La segunda parte del libro, la práctica, destaca sobremanera, ya que no solo desarrolla ampliamente la explicación de los sistemas a utilizar con sus correspondientes características técnicas (micrófonos, mezcladores, soportes de grabación, etc.), sino que también introduce la terminología técnica de producción con gran detalle en lo que respecta al flujo de señal de audio en todo sistema: elemento de conocimiento crucial para el éxito de una producción. Por último, el tratamiento de la posproducción de sonido desde el punto de vista del técnico, pero también desde la perspectiva del artista creador en los procesos del diseño sonoro, junto con una interesantísima revisión de la tecnología y práctica de la creación sonora y musical para videojuegos, sirven como remate útil y directamente aplicable por el lector. Ya sea utilizado por estudiantes como libro de texto, como obra de consulta para el aficionado, o para el profesional que desee profundizar en campos en los que no está habituado, el texto de Francisco José Cuadrado y Juan José Domínguez triunfa, sobre todo, y al margen de su calidad intrínseca, por la falta de buenos y variados materiales en lengua española sobre esta materia. Esto lo hace imprescindible. Con el objetivo de complementar de forma audiovisual la exposición de los diferentes capítulos, se ha elaborado una webgrafía, con archivos de audio y vídeo que ejemplifican o completan la exposición de cada capítulo, así como con enlaces web mencionados en el texto. Todo ello disponible en la web de la editorial (www.sintesis.com). Francisco Javier Martín Cámara Máster en Producción Musical CEV Course Leader
12
Parte I
Introducción
1
Principios básicos del sonido
Para empezar a hablar de sonido podemos recordar el tradicional koan zen que pregunta “si un árbol cae en el bosque y no hay nadie que lo oiga, ¿podemos decir que ha producido un sonido?”. No es necesario que nos detengamos en la reflexión filosófica acerca de la percepción a la que esta pregunta ha dado lugar para darnos cuenta de que está haciendo referencia al doble carácter de la palabra sonido: por un lado, existe el sonido como fenómeno físico que depende de ciertas condiciones de los objetos; por otro, nos encontramos con un fenómeno perceptivo. Tanto uno como otro son denominados sonido. En cierta manera, estamos hablando de una causa y su consecuencia, que son designadas con una misma palabra. ¿Cuál debería prevalecer a la hora de definir lo que es el sonido? Si consultamos una obra básica, como es el Diccionario de la Real Academia parece haber resuelto de manera clara el dilema al definir el sonido en su primera acepción como “sensación producida en el órgano del oído por el movimiento vibratorio de los cuerpos, transmitido por un medio elástico, como el aire” (DRAE, 2017). Sin embargo, si seguimos leyendo hasta la cuarta acepción del diccionario, nos encontramos con que el sonido es la “vibración mecánica transmitida por un medio elástico”. De esta manera quedan claramente diferenciados causa y efecto (o efecto y causa, por el orden en que aparecen las acepciones), si bien la causa queda definida de un modo tal vez demasiado elemental. En este capítulo vamos a estudiar las características de la causa física y la consecuencia sensitiva que se funden en el sonido como concepto. Definiremos los elementos básicos del sonido desde el punto de vista de la acústica y sus características. Posteriormente, hablaremos del modo en que el sonido es percibido por los seres humanos y de las escalas que se utilizan para la medición del sonido, para finalmente, dedicarnos un apartado al proceso de cómo convertir la onda analógica de sonido en un flujo de datos digitales, es decir, a la digitalización del sonido. 15
Parte I. Introducción
1.1. La onda sonora. Parámetros básicos del sonido: amplitud, frecuencia y timbre 1.1.1. La onda sonora Como hemos indicado, a la hora de definir el sonido como fenómeno físico, el DRAE indica que es una “vibración mecánica transmitida por un medio elástico”. Esta definición es demasiado genérica como para que sea operativa, así que, siendo más concretos, diremos que el sonido se genera cuando un objeto o fuente sonora vibra, produciendo un movimiento oscilatorio que pasa de una molécula a otra a través de un medio, generalmente el aire (pero podría ser cualquier otro), de forma esférica hacia el exterior del cuerpo en vibración, de manera que, posteriormente, es susceptible de ser captado por el oído humano. Hay dos términos, sin embargo, que son denominados infrasonidos y ultrasonidos que, en realidad, se encuentran fuera de los límites de la percepción humana (aunque algunos animales puedan percibirlos). A pesar de que por su nombre puedan parecer parte del espectro sonoro, en este libro hablaremos del sonido siempre como fenómeno perceptible por el oído humano, acotando esa definición genérica del DRAE. En realidad, podemos hacer una analogía con el sistema visual: existe un espectro visible frente a un espectro invisible (rayos X, infrarrojos, etc.), que no es estudiado dentro del campo de la percepción visual. Como hemos indicado, el medio por el que se transmite el sonido es habitualmente el aire, pero también puede transmitirse por otros medios líquidos, sólidos o gaseosos. En estos medios la transmisión tendrá un comportamiento diferente, en función de las propiedades físicas de los materiales que componen cada medio. Pensemos, si no, en los sonidos que pueden escucharse cuando estamos sumergidos en el mar, o en las voces que pueden escucharse de una habitación a otra, transmitidas a través de la pared. El choque y consiguiente desplazamiento de las moléculas del medio transmisor provoca momentos de compresión y de descompresión; se produce así un movimiento ondulatorio aparente de carácter cíclico, de dos tipos: longitudinal y transversal. El movimiento longitudinal marca la dirección del desplazamiento de la onda sonora, mientras que el transversal va a definir la dimensión de las oscilaciones (figura 1.1). Decimos que este movimiento es aparente porque las moléculas no viajan a través del medio, sino que oscilan sobre su propio eje, siendo la ondulación resultante el efecto de transmisión, de una molécula a otra, de la presión inicial provocada por la fuente sonora (similar al movimiento aparente que se produce en la caída de una larga fila de fichas de dominó). La oscilación de las moléculas se mantendrá mientras permanezca la vibración de la fuente sonora que origina el sonido. Una vez que esta fuente deja de vibrar, las moléculas van reduciendo la amplitud de su oscilación hasta volver al estado inicial de reposo. 16
Principios básicos del sonido
En la imagen podemos observar cómo las moléculas de aire reaccionan ante la vibración. En el primer estado, el sistema está en reposo. En el segundo, al pulsar la cuerda, se produce una vibración que empuja (segundo estado) y contrae (tercer estado) la primera molécula. En el momento del empuje, esta molécula golpea a la siguiente, provocando una reacción en cadena de empujes y contracciones. Esto es lo que crea la onda sonora. Las moléculas solo se mueven un poco, pero no viajan en el espacio con la onda. A medida que baja la energía de la vibración, también decae el movimiento de las moléculas, es decir, que baja el volumen del sonido. En la parte de abajo de la imagen vemos la representación gráfi ca de ese movimiento de vaivén que constituye una onda sonora simple. Moléculas de aire Reposo
Compresión
Descompresión
Cuerda tensada
1 ciclo
Figura 1.1. Movimiento vibratorio y onda sonora.
1.1.2. Amplitud La amplitud es la distancia entre el punto de reposo y el de mayor compresión o descompresión, es decir, el lugar más alejado al que llega la molécula en desplazamiento desde su punto de origen. La amplitud de la onda sonora depende de forma directa de la potencia o intensidad de la vibración de la fuente sonora inicial: a mayor intensidad en la excitación (mayor fuerza de vibración del objeto, como podría ser una cuerda de piano), mayor será el desplazamiento molecular, y viceversa. A nivel perceptivo, la amplitud de la onda se identifi ca con el concepto de intensidad o volumen sonoro. Debido al amplio margen de intensidades que el oído humano puede percibir (podemos oír volúmenes sonoros con relaciones de 1 a 10 000 000 17
Parte I. Introducción
o más), se utiliza una unidad de medida de carácter logarítmico: el decibelio (dB), que trataremos más detenidamente en el apartado 1.3 (Unidades de medida de parámetros sonoros).
1.1.3. Frecuencia El carácter periódico de nuestra onda nos proporciona una unidad de medición de esta, el ciclo, que se completa cada vez que el movimiento ondulatorio vuelve a pasar por un mismo punto en la misma dirección. A partir de esta medida, podemos obtener otros valores de análisis. En primer lugar, tenemos la longitud de onda, que es la distancia que recorre la onda sonora a lo largo de un ciclo completo. Se representa con la letra griega lambda (λ) y se mide en metros. Si bien los sonidos suelen ser mezcla de varias ondas diferentes (sonidos complejos), en principio estamos considerando que la fuente vibra de forma elemental y regular, con un movimiento ondulatorio simple, que se traduce gráficamente en una onda sinusoide (figura 1.1). Los sistemas vibrantes más sencillos (un diapasón, por ejemplo) funcionan de esta manera. La velocidad de oscilación entre los dos estados de compresión y descompresión que provoca la fuente define la frecuencia de dicha onda. La medición se efectúa en ciclos por segundo, o en hertzios (Hz) o kilohertzios (KHz), unidades que equivalen a un ciclo y a mil por segundo, respectivamente. El oído humano puede percibir sonidos cuyas frecuencias van desde 20 Hz a 16 000 Hz (16KHz) aproximadamente, aunque estos márgenes varían en función de la edad y el sexo, llegando en algunos casos a unos umbrales situados entre los 16 Hz y los 20 000 Hz. Este sería, dentro del conjunto de movimientos vibratorios que pueden transmitirse, el espectro de frecuencias audibles o audiofrecuencia. Este espectro se ha dividido tradicionalmente en bandas de frecuencia, tanto para el análisis como para la modificación de este parámetro sonoro. La asociación de la frecuencia de un sonido con su altura tonal a nivel perceptivo y la organización occidental de la música en octavas ha llevado a utilizar este término para cada una de las divisiones. Una octava es el intervalo entre dos frecuencias con relación 2:1. Es decir, entre 40 Hz y 80 Hz habrá una octava, como también la habrá entre 3000 Hz y 6000 Hz. La percepción de la frecuencia se va a corresponder con la sensación percibida de tono o altura tonal. Así, la frecuencia de 440 Hz, por ejemplo, se identifica con la nota La 4 (el número es una convención para definir el lugar donde se encuentra, relativamente en el centro del teclado de un piano de 88 teclas), utilizada internacionalmente para la afinación de instrumentos musicales. Hablamos entonces de frecuencias graves, medias y agudas, en función de la identificación que realicemos entre el número de ciclos por segundo del sonido y el tono percibido. Tradicionalmente, se subdividen las octavas en cinco grupos o registros sonoros, en función de las cualidades de cada uno: 18
Principios básicos del sonido
1. Graves: primera y segunda octavas (20 Hz-80 Hz). Proporcionan plenitud al sonido. Su gran longitud de onda les permite rodear los distintos obstáculos, por lo que se perciben de forma omnidireccional. Las notas más bajas del piano o la tuba se encuentran en este rango, así como otras frecuencias del sonido provocadas por un trueno o una explosión. Algunas de estas frecuencias pueden percibirse en forma de movimiento en diversas partes del cuerpo. Si durante una interpretación musical nos colocamos cerca de un instrumento de percusión, como un bombo o un tambor, percibiremos la vibración en la zona abdominal en los momentos en que se toque con más potencia. 2. Medios-graves: tercera y cuarta octavas (80 Hz-320 Hz). Proporcionan a la estructura auditiva una base (del mismo modo que la línea del horizonte lo hace sobre la estructura visual). A este ámbito pertenecen las notas graves de instrumentos como el violonchelo, el trombón o la trompa. En este intervalo es fácil que el sonido sea estruendoso si se toca con cierto volumen. 3. Medios: quinta, sexta y séptima octavas (320 Hz-2500 Hz). La gama de frecuencias medias confiere al sonido su intensidad. En ella se encuentran el tono fundamental y los primeros armónicos y subarmónicos de la mayoría de las fuentes sonoras, que sirven para reconocerlas por su timbre. Por este motivo, esta gama de frecuencias es la que ofrecen, como mínimo, los equipos de reproducción sonora. 4. Medios-agudos: octava octava (2500 Hz-5120 Hz). Rango especialmente sensible para el oído humano. La parte inferior de esta octava (entre 2500 y 3500 Hz) contiene las frecuencias que mejoran la inteligibilidad del habla (siempre que sean correctamente enfatizadas). El rango superior de esta octava (por encima de los 3500 Hz) proporciona definición y claridad al sonido. 5. Agudos: novena y décima octavas (5120 Hz-20 000 Hz). A pesar de que la audición humana no suele pasar de los 16 000 Hz, este rango de frecuencias aporta brillo al sonido. En este ámbito se encuentran los sonidos sibilantes, así como los armónicos superiores de algunos instrumentos.
1.1.4. El timbre Se suele definir el timbre como la cualidad que nos permite distinguir la fuente de donde proviene un sonido, el objeto o instrumento que lo produce. Esta definición, sin embargo, no deja de ser funcional, es decir, que no es analítica, en el sentido de que parece anclada en la subjetividad del oyente. El problema está en que el timbre no es un elemento aislado que podamos medir con un sistema determinado, sino un conjunto de elementos que da como resultado un sonido concreto. A continuación, explicaremos los elementos principales que se pueden medir a la hora de definir el 19
Parte I. Introducción
timbre, pero, en último extremo, es prácticamente imposible reducir a elementos medibles esta cualidad del sonido. La oscilación periódica que hemos descrito en el punto dedicado a la frecuencia, a la que denominamos movimiento ondulatorio simple, es la representación más sencilla del sonido. La onda sinusoide originada constituye la base de los sonidos simples: aquellos compuestos por una sola onda sonora, resultante de un único movimiento vibratorio. Estos sonidos son fáciles de generar electrónicamente o mediante el uso de un diapasón, pero, sin embargo, son muy escasos en la vida real, ya que los objetos vibran en muchas frecuencias simultáneamente, lo que da como resultado los llamados sonidos complejos (la mayoría de los que nos rodean), que surgen de las combinaciones de diferentes movimientos vibratorios simples. Se podría decir que un sonido simple tiene un timbre neutro o difícil de definir, mientras que los sonidos complejos son los que dan riqueza y variedad al timbre. Un sonido complejo puede descomponerse, a través de un proceso de análisis basado en el principio matemático de la transformada de Fourier, en todas las ondas sinusoides simples que lo forman. Desde el punto de vista de la acústica, en el caso de los sonidos complejos periódicos (aquellos que mantienen la nota o tono durante un cierto periodo de tiempo), las ondas tienen una frecuencia fundamental (que determina la nota o tono que se percibe) y unos componentes adicionales por encima de ella, llamados armónicos, que son frecuencias múltiplo de la fundamental. La terminología actual denomina primer armónico a la frecuencia fundamental, segundo armónico al siguiente, y así sucesivamente. Las amplitudes de los armónicos, en general, disminuyen en tanto aumenta la frecuencia, con lo que la amplitud mayor la tiene en casi todos los casos la frecuencia fundamental. Otro tipo de frecuencias que suelen estar presentes en muchas ondas son los sobretonos, que no son múltiplos de la fundamental y, por lo tanto, no son armónicos. Precisamente por ello, a estos sobretonos también se les denomina parciales inarmónicos. Suelen estar presentes en las ondas producidas por instrumentos de percusión, donde no hay ondas simples. Estos tres tipos de frecuencias (fundamental, armónicos y sobretonos) componen formas de onda complejas que dan lugar a timbres distintos a partir de la disposición de los armónicos y parciales de cada sonido, lo que nos permitiría distinguir si un sonido proviene de una flauta y otro de un piano, por ejemplo. El timbre no solo se define por su composición de frecuencias. Otro de los aspectos que determinan el timbre de un instrumento o voz es la envolvente, que está compuesta por tres partes que se dan en el tiempo (figura 1.2): 1. El ataque, que se define por cómo comienza un sonido tras la vibración de la fuente sonora. 2. La dinámica, que consiste en las variaciones de volumen que se dan en el sonido después del ataque, y la caída, que es el tiempo. 3. La forma en que el sonido disminuye hasta no ser oído. 20
Principios básicos del sonido Amplitud
Onda sonora
Tiempo
Ataque
Decaimiento Sostenimiento
Relajación
Figura 1.2. Esquema de la envolvente de una onda sonora.
Estos elementos (que, en realidad, cada uno es una combinación de otros) son los básicos que permiten distinguir el sonido de cada instrumento musical, de cada voz, de cada objeto. Hay otros elementos que también infl uyen en el timbre de un modo más sutil, como puede ser el comportamiento de la envolvente con relación a la frecuencia (es decir, cómo la envolvente varía si el tono sube o baja), la presencia de transitorios (ondulaciones esporádicas de corta duración), etc. En este sentido, el timbre no puede defi nirse claramente en una escala simple de valores, ya que las combinaciones a las que da lugar esta mezcla de elementos pueden llegar al infi nito. Tal vez por esta razón el timbre suele ser defi nido con términos metafóricos como cálido, suave, dulce, triste… En todo caso, a la hora de analizar el timbre de un instrumento u objeto, lo más que se puede hacer es analizar sus componentes de frecuencia, envolvente, etc., de manera exhaustiva, sabiendo que es muy difícil encontrar dos fuentes de sonido que tengan exactamente esos mismos componentes en la misma proporción debido a los múltiples condicionantes que se ponen en juego. Esto es lo que hace que, por ejemplo, a pesar de que dos guitarras tengan un mismo timbre como instrumento, cada una de ellas tenga su propio timbre particular.
1.1.5. Fase La fase se refi ere a la diferencia de tiempo entre dos o más ondas, en un punto dado de su movimiento cíclico. Podemos decir que dos ondas de la misma frecuencia están en fase cuando sus semiciclos de compresión y descompresión coinciden exactamente en el tiempo y en el espacio (fi gura 1.3a). Un ciclo completo tiene 360O,
21
Parte I. Introducción
por lo que entre dos ondas que se encuentren en fase existe una diferencia de 0O. El caso opuesto lo tendremos entre dos ondas que se encuentren en contrafase, en cuyo caso existe una diferencia de 180O en la fase de los semiciclos de cada una (fi gura 1.3b). Al sumarse dos ondas en fase se sumarán sus amplitudes, produciéndose un incremento del nivel de intensidad global de la señal sonora. En el caso de la contrafase, las dos ondas, al sumarse, se cancelarán entre sí, siendo el resultado una ausencia de señal, es decir, silencio. Frente a estos dos casos extremos (fase y contrafase), podemos encontrar distintos grados de desfase, en los que la diferencia de fase entre las ondas provocará sumas y cancelaciones parciales en la amplitud fi nal de la onda sonora resultante. Tal y como establece Alten (1994: 26), existirá una interferencia constructiva cuando se produzca un aumento de la amplitud, y una interferencia destructiva cuando se obtenga una disminución de esta. a) Igualdad de fase
b) Oposición de fase
Figura 1.3. Igualdad y oposición de fase.
Las diferencias de fase de la señal sonora son de gran importancia para el estudio de la percepción auditiva, ya que permiten al oído humano localizar espacialmente la fuente del sonido. Por otro lado, los problemas ocasionados por las cancelaciones totales o parciales deben ser especialmente tenidos en cuenta en el diseño de sonido, debido a la forma en que este fenómeno afecta a las mezclas, tanto estereofónica como en sistemas multicanal. El uso creativo de la fase también nos va a permitir recrear determinados fenómenos sonoros, como el efecto doppler, o alterar intencionadamente un sonido, buscando conscientemente una serie de cancelaciones y amplifi caciones parciales de este que nos van a proporcionar un sonido que, siendo reconocible por el espectador, añada un matiz que pueda ayudarnos a atraer la atención sobre él o a provocar una determinada sensación de extrañeza y subjetividad en la persona que oye. 22
Principios básicos del sonido
1.2. Acústica y psicoacústica: percepción sonora. Comportamiento espacial del sonido. Escucha binaural 1.2.1. Acústica y psicoacústica. La percepción sonora En los apartados anteriores hemos hablado del sonido como fenómeno físico. Aquí vamos a referirnos a las capacidades perceptivas del ser humano en lo que se refiere a los fenómenos sonoros. Para ello, comenzaremos por explicar someramente la estructura del oído humano para, posteriormente, tratar de mostrar algunas peculiaridades de la percepción auditiva que son de interés de cara al uso del sonido. El oído humano es la estructura encargada de convertir los estímulos provocados por las ondas sonoras en impulsos eléctricos que puedan ser decodificados por el cerebro para crear la percepción auditiva. Esta estructura es muy fuerte y capaz de percibir sonidos con potencias muy diferentes (lo que se llama rango dinámico). El oído, como órgano, está dividido en tres partes (se pueden ver dos vídeos del funcionamiento del oído en los enlaces indicados en la webgrafía disponible en www.sintesis.com). 1. Oído externo: se compone del pabellón auditivo, que ya produce una modificación del sonido que se percibe, debido a su estructura. A continuación, se encuentra el canal auditivo externo, o canal timpánico, que es una estructura con forma de tubo de unos 3 cm de longitud, cuya función es amplificar las intensidades de algunos sonidos gracias a la resonancia. La frecuencia de resonancia del canal auditivo está determinada por su longitud, y corresponde aproximadamente a una frecuencia situada alrededor de los 2 o 3 KHz, de manera que aquellas ondas sonoras que tengan esta frecuencia son transmitidas de manera más eficiente al resto del sistema auditivo. Esa vibración llega al tímpano, que es una membrana que transmite la vibración al interior del oído. 2. Oído medio: es donde se produce la adaptación de la energía que llega al oído para ser, posteriormente, entregada al órgano correspondiente, que la transformará en impulsos eléctricos. Para ello, el oído medio efectúa, por un lado, un ajuste de impedancias para transformar y amplificar la energía de las vibraciones transmitidas por el aire que llegan al tímpano y que ahora tienen que pasar al medio líquido que se encuentra en el interior del oído; por otro, protege al oído de sonidos de alta intensidad mediante una serie de músculos que se tensan si es necesario para transmitir menos energía a la llamada cadena de huesecillos (martillo, yunque y estribo). 3. Oído interno: aquí encontramos el elemento más importante de cara a la percepción sonora: la cóclea. Una pequeña estructura ósea en forma de espiral llena de líquido. Dentro de ella podemos apreciar una estructura denominada partición coclear, que divide longitudinalmente a la cóclea 23
Parte I. Introducción
en tres canales que se unen al final en un vértice llamado helicotrema. Los tres canales a los que da lugar la partición coclear son la escala vestibular, la escala timpánica y la escala media. En esta escala media se sitúa el órgano de Corti, que es donde se encuentran tres subestructuras fundamentales: la membrana basilar, la membrana tectorial y las células ciliares. Cuando el estribo se mueve debido a la vibración sonora, provoca una serie de presiones y depresiones en la cóclea que se transmiten a la partición coclear. Estos movimientos provocan descargas eléctricas que se transmiten al nervio auditivo, y de ahí a la zona cerebral del córtex encargada de la percepción auditiva. El papel del córtex cerebral en la percepción auditiva es similar al que tiene en la percepción visual, es decir, es el lugar superior de la creación de percepciones, y su ausencia no causa la imposibilidad de percibir, pero sí la de realizar algunas acciones. Las experiencias existentes en torno al córtex auditivo (realizadas con animales –gatos–, en general), demuestran que en ese lugar del cerebro tienen lugar algunos procesos superiores relacionados con la discriminación de ciertos patrones de sonidos, su duración y la localización de estos en el espacio. En caso de ser eliminado el córtex, permanecen las facultades de percibir cambios en la intensidad y frecuencia de los sonidos. Todavía queda mucho por investigar en el terreno de la percepción auditiva debido a la complejidad de los procesos y los elementos fisiológicos implicados. El aspecto menos estudiado hasta el momento es, precisamente, el último de todos los procesos, es decir, la interpretación que se hace en el córtex de la sensación sonora para convertirla en una percepción completa. A la hora de percibir cada uno de los elementos del sonido, el oído presenta una serie de particularidades, bien sea por el modo en que construye la percepción o por el lugar, dentro de la cadena del oído, en el que ese paso de la sensación a la percepción se produce.
1.2.2. Percepción de la frecuencia Como ya hemos dicho en el apartado dedicado a la frecuencia, este parámetro físico es percibido en forma de tonos o alturas que incluso han dado lugar a su uso como notas en el caso de la música. Se puede decir que somos capaces de disfrutar de la música gracias a que nuestro oído percibe la frecuencia en forma de tonos. La tonalidad se percibe en la cóclea, en el último tramo del oído interno, mediante un doble mecanismo. Por un lado, una serie de células en una de las zonas de la cóclea efectúan descargas a la misma frecuencia del sonido. Si el sonido tiene una frecuencia de 10 000 Hz, esas células provocan 10 000 descargas eléctricas por segundo mediante un sistema complejo en el que no todas las células efectúan descargas en cada ciclo, sino que se produce una andanada (grupos de células que van 24
Principios básicos del sonido
turnándose a la hora de efectuar esas descargas). Sin embargo, esta sincronización se da tan solo para frecuencias de unos 5000 Hz como máximo. Existe otro sistema, pues, que funciona simultáneamente para que el cerebro pueda percibir y reconocer la frecuencia de una onda sonora. Las distintas frecuencias estimulan lugares diferentes del recorrido de la cóclea, de manera que las frecuencias más graves tienen un recorrido más largo, hasta llegar a su final, mientras que las frecuencias más agudas se perciben al principio de la cóclea. En definitiva, el sistema perceptivo de los seres humanos está diseñado de manera que puede determinar muy fácilmente el tono de aquellas frecuencias situadas entre los 1000 y 5000 Hz, mientras que a partir de esa frecuencia empieza a ser cada vez más difícil percibirlo. En la webgrafía (www.sintesis.com) hay un vídeo donde se puede comprobar esto y, por otra parte, ver hasta qué frecuencia somos capaces de percibir, si lo escuchamos con unos buenos auriculares que cubran todo el espectro audible (ver tonos ascendentes). Con respecto a la frecuencia, se ha comprobado que la tonalidad percibida está relacionada con su nivel sonoro, de manera que el tono se desplaza ligeramente cuando aquel aumenta, lo que podemos comprobar fácilmente si, cuando escuchamos un tono telefónico, acercamos y alejamos el auricular, de modo que percibiremos un leve cambio de frecuencia derivado del cambio de volumen percibido. Otro de los efectos debidos al funcionamiento de la membrana basilar es el del batido o interferencia que se produce cuando se oyen simultáneamente dos tonos puros de frecuencias muy parecidas. El batido se percibirá como una frecuencia diferencia de las dos. Así, si oímos dos tonos puros de 440 y 442 Hz simultáneamente, percibiremos un batido o interferencia en forma de vibración de 2 Hz. Esta interferencia desaparece a medida que las frecuencias se hacen menos parecidas, hasta que finalmente son percibidas como dos tonos diferentes simultáneos.
1.2.3. Percepción de la amplitud En el apartado dedicado a la amplitud hemos explicado cómo este parámetro se relaciona con el volumen con el que percibimos los sonidos. En principio, cuanto mayor sea la amplitud de una onda, con más volumen la percibiremos. Sin embargo, el oído humano no es sensible por igual a todas las frecuencias, es decir, que al mismo nivel de presión sonora (término que utilizaremos para hacer referencia a la presión que recibe el oído, dependiendo no solo de la amplitud de la onda, sino también de la distancia a la que nos encontremos de su origen), esto es, con el mismo volumen objetivo, unas frecuencias se perciben con más volumen que otras. Este hecho puede parecer extraño, pero tal vez sea aquí donde quede más patente la diferencia entre el hecho físico del sonido y la percepción de orden psicológico, ya que ha sido posible determinar por métodos de investigación sencillos que los seres humanos percibimos los niveles sonoros al margen de la medición 25
Parte I. Introducción
objetiva del nivel de presión sonora. Así, si reproducimos en un equipo de alta fidelidad una grabación orquestal, por ejemplo, a bajo volumen cuidando de que todas las frecuencias tengan el mismo volumen objetivo, nuestro oído percibirá que las frecuencias graves suenan menos que las medias. Algo parecido sucede con las frecuencias agudas, aunque no con tanta intensidad: a volúmenes bajos, se perciben con menor intensidad que las frecuencias medias. Las diferencias en la percepción se atenúan a medida que subimos el volumen, pero siguen manteniéndose. Este es el motivo de que algunos equipos de reproducción musical incluyan una compensación de frecuencias graves (generalmente denominada loudness) cuando se efectúa la reproducción a volúmenes bajos o moderados, ya que para amortiguar las diferencias de percepción entre frecuencias altas y bajas habría que escuchar la música a un volumen muy superior al habitual en un entorno doméstico. Ese es otro de los motivos por los que la música en directo a alto volumen se percibe de manera más natural: no es necesario efectuar una excesiva compensación en el volumen de las frecuencias (lo que se denomina ecualización) para que todas sean percibidas con un volumen más o menos homogéneo. Hay también una serie de condicionantes que hacen que percibamos ciertos sonidos con una mayor intensidad. Como hemos indicado, las distintas frecuencias estimulan la cóclea en lugares diversos a lo largo de su recorrido. Si un sonido es de banda ancha, es decir, si tiene diferentes frecuencias que afectan a distintas partes de la cóclea, se tiende a percibir con mayor volumen que si se trata de una onda simple que solo estimula un lugar concreto de la cóclea, esto es, una orquesta con baja intensidad será percibida con mayor volumen que un solo instrumento que tenga la misma intensidad de la orquesta. Por otra parte, los sonidos distorsionados (aquellos que han sido grabados por encima de los límites de registro del sistema) parecen psicológicamente más intensos que los que no lo están. Si se reproducen dos señales grabadas con idéntico volumen y una de ellas está distorsionada, el oyente tiende a percibir esta con un mayor volumen. Otro de los efectos relacionados con la sonoridad es el del enmascaramiento. Cuando una frecuencia cercana a otra suena con un volumen más elevado, tiende a enmascarar la segunda frecuencia. En realidad, este es un principio que todos hemos experimentado cuando se hace necesario elevar la voz en un entorno donde hay varias conversaciones al mismo tiempo (en una frecuencia parecida) para conseguir que nos escuchen, pero no es necesario hacerlo en un entorno donde haya frecuencias diferentes a la de nuestra voz, aunque esas frecuencias estén a mayor volumen. A la hora de efectuar grabaciones sonoras hay que tener en cuenta todos los condicionantes referidos a la percepción de la frecuencia, ya que para mantener el adecuado equilibrio entre todos los elementos que aparezcan en la grabación o para resaltar alguno de ellos habrá que ecualizar (cambiar el volumen relativo de cada banda de frecuencias o de alguna frecuencia en concreto), y efectuar otros ajustes, de manera que aquellas frecuencias que queden enmascaradas o desequilibradas puedan reproducirse adecuadamente. 26
Principios básicos del sonido
1.2.4. Percepción direccional y espacial La percepción direccional por medio del oído, es decir, la capacidad para conocer la posición donde se encuentra determinada fuente de un sonido, está relacionada con el hecho de que la audición sea binaural, que, al igual que la visión estereoscópica se consigue gracias a la existencia de dos ojos que envían imágenes ligeramente diferentes al cerebro, la audición se efectúa con dos oídos que mandan dos señales distintas al cerebro que las procesa para poder percibir en qué tipo de espacio y dónde se encuentran dentro de él las fuentes sonoras. Los procedimientos básicos por los que el cerebro es capaz de localizar auditivamente las fuentes sonoras son de tres tipos: 1. Volumen: es aplicable a fuentes que estén cerca de la cabeza. En este caso, la distancia extra que debe recorrer la onda sonora para llegar al oído más alejado hace que haya una caída de nivel en su volumen. Esta caída es interpretada en términos de localización de la fuente en el espacio. Para fuentes alejadas del oyente, esta diferencia de nivel es despreciable, por lo que no se aplica para detectar su posición. 2. Frecuencia: cuando el sonido llega al oído, la forma del pabellón auditivo ya introduce ciertas modificaciones de la frecuencia, al favorecer ciertas reflexiones, dependiendo de si el sonido viene, por ejemplo, desde arriba o desde un lado. Esto proporciona una cierta información. En segundo lugar, el oído más distante queda oculto a la fuente sonora por la cabeza, lo que afecta a las octavas medias-altas, ya que son reflejadas por ella. Como resultado, el sonido más distante sufrirá una pérdida de su respuesta en agudos. Es evidente que, si la detección de la posición se basa en la pérdida de agudos, los sonidos que sean graves se verán menos afectados por el obstáculo que supone la cabeza. Esto se debe a que la longitud de onda de las frecuencias bajas es muy elevada y no se ven tan afectadas por los obstáculos como las ondas de alta frecuencia, cuya longitud de onda puede coincidir con el tamaño de la cabeza, en cuyo caso no pueden rodearla. De esto se puede deducir que las frecuencias de longitud de onda más corta son más direccionales y pueden ser localizadas de una manera más eficaz. Esta disminución de la respuesta en agudos aumenta proporcionalmente con relación al ángulo de la fuente sonora con respecto a la frente de la persona que oye, y es máximo a los 90º. Finalmente, la cabeza vibra con el sonido y transmite esas vibraciones al oído de manera interna, lo que también es utilizado por el sistema auditivo para determinar la posición de la fuente sonora. 3. Tiempo y fase: el sonido de las fuentes sonoras descentradas llega con cierto retardo temporal al oído más distante de ellas. Al igual que la respuesta en agudos, el retardo entre un oído y otro es máximo cuando la 27
Parte I. Introducción
fuente sonora se encuentra a 90º con respecto a la frente de la persona que oye. El cerebro mide las diferencias temporales entre las descargas de las fibras de la cóclea de un oído y otro, y usa esta diferencia para interpretar la posición de la fuente. Este sistema, no obstante, tiene el inconveniente de que puede haber varias fuentes situadas a la misma distancia de los dos oídos, lo que crea el llamado cono de confusión en el que no se puede determinar claramente la posición de una fuente sonora. Por otra parte, en algún caso, la diferencia de tiempo puede convertirse en diferencia de fase entre los dos oídos, es decir, que un oído recibe las ondas sonoras cuando se encuentra, por ejemplo, en el punto más alto del ciclo, mientras que otro las recibe en un punto medio del ciclo, pero esta diferencia deja de ser relevante a partir del momento en que la frecuencia que se percibe tiene como longitud de onda más de la mitad de la distancia existente entre los dos oídos, ya que en ese momento el cerebro no puede diferenciar claramente si el sonido que llega a uno de los oídos está adelantado o retrasado con respecto al otro (es decir, no puede delimitar si, por ejemplo, el sonido está retrasado 280º o si, por el contrario, se encuentra 80º adelantado). A) Reverberación y eco Hasta ahora hemos estado considerando a los sonidos en una situación ideal en la que no existía más que una fuente puntual en un espacio donde no se produce ningún tipo de reflexión del sonido sobre una superficie, como sucede en campo abierto. Sin embargo, el sonido que percibimos generalmente no se presenta en esa clase de situaciones, sino que existen siempre reverberaciones o ecos, producidos por las ondas reflejadas en las diferentes superficies que nos rodean. Esto sucede tanto en espacios abiertos, donde la mayor parte del sonido no encontrará superficies en las que reflejarse (aunque siempre habrá algo de reflexión en el suelo, por ejemplo), como en lugares cerrados, donde pueden existir múltiples superficies donde se refleje el sonido antes de que sea percibido por un oyente o captado por un micrófono. En primer lugar, debemos mencionar el factor de directividad de la propia fuente sonora. La mayoría de las fuentes no irradian sonido con la misma amplitud en los 360º de transmisión esférica, sino que muestran una dirección preferente, que a menudo cambia de forma compleja dependiendo de la frecuencia. Normalmente, las frecuencias más altas son más directivas que las graves, es decir, se transmiten con más amplitud en una dirección determinada, mientras que las frecuencias graves lo hacen de forma más omnidireccional. En la selección de los tipos de altavoces y su ubicación en las salas de cine encontramos un buen ejemplo de estudio de esta directividad. Los altavoces principales, que reproducen el rango completo de frecuencias audibles, deben colocarse en posiciones determinadas para que se perciba correctamente el efecto estereofónico o espacial del sonido, 28
Principios básicos del sonido
ya que el oído identifica fácilmente el lugar en el que se encuentran. En cambio, el altavoz de bajas frecuencias puede colocarse relativamente en cualquier lugar, puesto que el oído tiene muchas dificultades para determinar el lugar de donde proceden los sonidos de baja frecuencia, al transmitirse de manera omnidireccional. Otro factor determinante en la percepción del sonido es el modo en que el choque de las ondas con los diferentes obstáculos existentes en su camino va a afectar a la estructura del sonido, tanto en amplitud como en frecuencia (y, consecuentemente, en su dimensión tímbrica). En cualquier entorno en que se produzca el sonido, vamos a encontrar distintos tipos de obstáculos (incluso, como hemos dicho, en la transmisión en un espacio abierto, donde el suelo actúa como superficie contra la que parte de las ondas van a chocar). Cuando una onda alcanza un obstáculo, parte de su energía es absorbida y parte es reflejada. Las diferentes superficies van a absorber o reflejar distintas cantidades de energía sonora. Es lo que conocemos como coeficiente de absorción, que se mide con una escala de 0 a 1. Un coeficiente de absorción 1 significa absorción total del sonido. El material con que esté constituido cada tipo de superficie determina qué cantidad de energía sonora va a absorber y cuánta va a reflejar. Del mismo modo, la absorción del sonido en una determinada superficie varía en función de la frecuencia y el material de la superficie reflectante. Los materiales porosos tienden a absorber mejor las frecuencias agudas, mientras que los de tipo membrana son más efectivos en la absorción de las graves. El coeficiente de absorción de un recinto es el resultado de la suma de los coeficientes de absorción parciales de cada material utilizado, dependiendo también de la superficie que cada uno cubra de dicho recinto. De acuerdo con el principio anterior, vamos a encontrar espacios en los que el sonido será más absorbido por las superficies y otros en los que será más reflejado. El grado máximo de absorción global lo encontramos en las denominadas cámaras anecoicas, cabinas especialmente construidas para el análisis acústico de las fuentes sonoras, en las que todas las superficies que constituyen dicho recinto están formadas por materiales altamente absorbentes, lo que da un coeficiente de absorción 1 para todas las frecuencias del espectro audible. Con respecto a la reflexión del sonido, podemos encontrarnos básicamente con dos casos: que la onda sonora se refleje en el objeto contra el que incide, o que lo rodee. La relación entre el tamaño del objeto y la longitud de onda del sonido determina un caso u otro, como hemos visto en el caso de la cabeza humana. Cuando el obstáculo es mayor que la longitud de onda del sonido, esta se reflejará. Cuando el obstáculo es de menor tamaño, la onda sonora se difractará alrededor de él. Teniendo en cuenta que las longitudes de onda del sonido en su transmisión por vía aérea varían entre, aproximadamente, 18 m para frecuencias bajas y algo más de 1 cm para frecuencias altas, los objetos que encontramos más a menudo actúan como barreras para las más agudas, pero apenas afectan a las graves. Como podemos observar, el campo sonoro en un recinto es el producto de un comportamiento complejo de los diferentes componentes de la onda sonora. Pode29
Parte I. Introducción
mos hablar de tres campos sonoros que coexisten de dentro de cualquier espacio. En primer lugar, el sonido directo (figura 1.4) es el que llega de forma directa al receptor sin chocar previamente con ningún obstáculo (y cuya dirección principal de propagación dependerá del factor de directividad antes descrito). Otra parte del sonido emitido por la fuente alcanza al receptor tras reflejarse en alguna de las superficies del recinto: son las primeras reflexiones (figura 1.5). El retardo en el tiempo de llegada al receptor va a depender directamente de la distancia de la superficie sobre la que inciden. Normalmente, este tiempo de retardo con respecto al sonido directo suele ser de entre 10 y 30 milisegundos. Existen primeras reflexiones de distinto orden (primer orden, segundo, etc.), dependiendo del número de veces que la onda es reflejada por alguna superficie del recinto antes de ser percibida. El efecto que sobre el objeto sonoro global van a tener las primeras reflexiones variará dependiendo de la intensidad de estas con respecto al sonido directo, aunque de forma global podemos afirmar que aportan una sensación de espacialidad. De hecho, el oído humano se sirve del análisis de los diferentes tiempos de llegada entre sonido directo y primeras reflexiones para extraer la información necesaria acerca del tamaño del recinto. El tercer campo sonoro es lo que denominamos propiamente reverberación (figura 1.6). Está formado por las ondas que llegan al receptor después de un gran número de reflexiones; esto hace, a su vez, que no se puedan distinguir entre sí con la facilidad de las primeras reflexiones. Forman un complejo sonoro sin aparente dirección que llena el volumen del recinto.
Figura 1.4. Sonido directo.
Figura 1.5. Primeras reflexiones.
Figura 1.6. Reverberación.
El tiempo de reverberación es el tiempo que tardan en atenuarse 60 dB la presión sonora de un recinto, una vez que la fuente ha dejado de emitir la señal sonora. Existen diversos sistemas para calcular este tiempo de reverberación en los que se tiene en cuenta el volumen de la sala, el coeficiente de absorción de los materiales y el emplazamiento de los materiales, todo ello considerando que el coeficiente de absorción de un material es diferente para cada rango de frecuencias, por lo que el tiempo de reverberación dependerá de la composición espectral de la onda sonora. A todos estos factores hemos de añadir el hecho de que todas las superficies 30
Principios básicos del sonido
sobre las que el sonido directo incide tienen una frecuencia de resonancia propia, que va a vibrar en simpatía con la onda incidente, produciendo una amplifi cación de dichas frecuencias que, igualmente, se suman al complejo sonoro que llega al receptor. B) Efecto Haas Al estudiar la cuestión de la localización espacial de las fuentes sonoras hay que tener en cuenta también los principios establecidos por Haas y otros autores mediante el análisis de los sonidos con ecos y reverberaciones a la hora de percibir la localización de dichas fuentes. Haas descubrió que en el caso de que existan dos fuentes sonoras que emitan sonidos similares (como en el caso de una fuente y su eco), la dirección que percibe el sujeto tiende a la fuente más adelantada en tiempo. Si la diferencia entre el primer sonido y el segundo es menor a los 20 milisegundos, los dos sonidos se perciben como si vinieran de la misma dirección. Este efecto es llamado fusión temporal. Entre 20 milisegundos y 50 milisegundos de diferencia entre un sonido y otro, el sonido se percibe como una única fuente, pero desplazada hacia la que llega antes al oído. A partir de 50 milisegundos, el cerebro comienza a percibir los sonidos de forma separada, es decir, el segundo se convierte en un eco del primero. Con sonidos de duración corta, el efecto desaparece a partir de los 5 milisegundos.
10
8 Diferencia de nivel en dB
6
4
2
10 20 30 40 50 Retardo de la señal secundaria en milisegundos
Figura 1.7. Curva del efecto Haas.
31
Parte I. Introducción
En la curva del efecto Haas (figura 1.7) podemos ver otra de las curiosidades de la percepción sonora, puesto que, si el sonido retardado tiene la misma intensidad que el primero, da la impresión de que suena con menor volumen. Para que el sonido retardado parezca tener la misma sonoridad que el no retardado es necesario que su volumen supere en algunos decibelios al primero para compensar el hecho de llegar unos milisegundos más tarde. Esto demuestra que se pueden combinar las diferencias de tiempo con las diferencias de intensidad para conseguir un efecto direccional. Los aspectos de la percepción relacionados con la localización espacial, la reverberación y los ecos son especialmente importantes en relación con la grabación y reproducción del sonido estereofónico, ya que lo que este tipo de sonido pretende es recrear el espacio y la localización que tendrían las fuentes sonoras en la ubicación en que fue registrado el sonido, o bien la recreación de un espacio ficticio en el que se colocan las fuentes sonoras grabadas. Estos aspectos han sido utilizados desde que existe la grabación estereofónica y son tenidos en cuenta en las grabaciones para sistemas multicanal.
1.3. Unidades de medida de parámetros sonoros El volumen o intensidad sonora se mide en decibelios (dB), que es una unidad de medida logarítmica. Un logaritmo es el cociente entre dos números, e indica cuánto es mayor uno que otro. Por lo tanto, no mide un valor concreto, sino que está siempre comparando dos valores. Puede usarse como unidad absoluta, pero siempre que se conozca la referencia con respecto a la cual se está haciendo la comparación, ya que, si no, carece de sentido. La utilización de un sistema logarítmico de medida viene dado debido a que el oído humano puede captar una amplísima gama de volúmenes diferentes desde el umbral de audición hasta el umbral del dolor, lo que complicaría mucho la expresión numérica de los datos. En concreto, si consideramos que el umbral de la audición tiene un valor 1, el valor más alto que puede soportar un oído se situaría en 1 000 000 000 000 aproximadamente. En una escala logarítmica, 1 sería el equivalente a 1 dB, pero la cifra 1 000 000 000 000 equivale a 120 dB. Se hace evidente que es más sencillo trabajar con números de 2 o 3 cifras que con otros de 12. Para establecer el volumen en decibelios se ponen en relación el nivel de presión sonora con el de potencia sonora. Toda fuente sonora vibra en origen con una potencia determinada. Si el oído se coloca delante de la fuente, se percibirá un volumen mayor que si se coloca más alejado. Ese volumen cambiante es el nivel de presión sonora, es decir, que ante una potencia determinada, la presión sonora disminuye con la distancia. Podemos decir que la potencia sonora sería aquella que tiene la fuente en su origen, mientras que la presión sonora es aquella que se produce una vez que aparece la onda sonora, y puede ser medida en cualquier lugar donde esté presente la onda. El nivel de presión sonora se mide en Newtons por metro cuadrado (Nm2). Los deci32
Principios básicos del sonido
belios nos indican el valor de la presión sonora de las fuentes de sonido, en el lugar donde se mide esa presión, a partir de la capacidad del oído humano para percibirla. Como hemos indicado, para poder usar el valor logarítmico como absoluto es necesario que se conozca la referencia con respecto a la cual se está haciendo. En el caso del decibelio, el valor 0 dB corresponde al umbral de la audición de una frecuencia de 1 KHz, con una presión sonora de 2 x 10–5 Nm2, si bien es cierto que este valor es un estándar que puede variar según los individuos y el método de medida. El oído puede soportar niveles de presión sonora de hasta 120 dB. El intervalo entre el volumen más bajo que se puede percibir y el más alto es denominado gama dinámica o margen dinámico, término que también se aplica a la capacidad de los sistemas de sonido para reproducir diferentes volúmenes. En la medición eléctrica de los niveles de amplitud de la señal sonora se utiliza igualmente el decibelio, con niveles de referencia de voltaje análogos a los de presión sonora. Existen diferentes estándares de referencia en esta medición, de los cuales son dos los más utilizados: – dBu: 0,775 voltios (Europa). – dBV: 1 voltio. Estas unidades de referencia permiten calibrar la respuesta de los equipos de tratamiento de la señal de audio, así como unificar las mediciones a nivel internacional. Tradicionalmente, el dBu se utiliza para equipos profesionales y el dBV para equipos semiprofesionales y domésticos. En el ámbito de la electroacústica, el concepto de margen dinámico va a definir también los niveles máximos y mínimos de voltaje que cada dispositivo va a soportar. Si sobrepasamos el nivel máximo de voltaje permitido se producirá una saturación de la señal, mientras que un nivel de voltaje demasiado bajo va a provocar que el ruido eléctrico producido por el propio equipo pueda enmascarar a la señal sonora. En todos los dispositivos existe un nivel de pico o saturación, un nivel de fondo o de ruido y un nivel de referencia adoptado internacionalmente, denominado 0 VU (o ganancia unidad) que, dependiendo de la escala adoptada, tendrá una equivalencia distinta: +4 dBu y –10 dBV. En lo que se refiere a la representación visual de las magnitudes de medida del sonido, en cualquier ámbito de trabajo en el que se opere sobre el sonido se utilizan principalmente tres herramientas de análisis y medición de la amplitud de la señal de audio: el oscilograma, el vúmetro y el picómetro. El oscilograma (figura 1.8) analiza las dimensiones de amplitud y tiempo de un sonido. Muestra gráficamente las diferencias de voltaje (que se derivan de las alteraciones en la amplitud) producidas por una onda sonora durante un cierto tiempo y las representa en dos ejes de coordenadas: vertical para la amplitud y horizontal para el tiempo. El oscilograma nos permite un estudio detallado de la dimensión temporal del sonido: podemos medir con gran precisión las duraciones de las partes de una onda sonora, así como la amplitud de esta en cada instante de 33
Parte I. Introducción
su audición. El oscilograma se ha convertido en la base de la representación gráfica de todos los sistemas de edición de audio basados en software, ya que resulta de gran ayuda a la hora de localizar con exactitud el lugar en el que editar un sonido, los momentos de mayor o menor amplitud, así como los puntos de sincronización con otros sonidos o con la imagen de referencia.
Figura 1.8. Oscilograma del sonido de un violín ejecutando la nota SI 4.
Por otro lado, el vúmetro (VU: Volume Unit) y el picómetro (PPM: Program Peak Meter) nos proporcionan información sobre el nivel de la señal, sin tener en cuenta la dimensión temporal (figura 1.9). Actúan en tiempo real y su principal utilidad es controlar los márgenes entre los que la señal de audio se encuentra en cada instante. La diferencia básica entre estos dos sistemas de medición es que, mientras el vúmetro nos proporciona una respuesta del nivel medio de la señal, el picómetro, de mayor sensibilidad a los cambios bruscos de amplitud, nos da información sobre los niveles más altos, en momentos puntuales, de la misma. Ambos cuentan con una escala, que puede estar calibrada en porcentajes de modulación o en dBu / dBV, siendo de diferente extensión en cada uno, de acuerdo con las magnitudes que representan.
Figura 1.9. Vúmetro analógico. 34
Principios básicos del sonido
Muchos dispositivos de procesamiento de audio, pero principalmente las mesas de mezclas, cuentan con uno o varios de estos medidores (normalmente, encontramos uno por cada canal de salida del mezclador; y en ocasiones uno por cada canal de entrada del mismo). Debido al espacio que suelen ocupar un vúmetro y un picómetro, existen unidades con un único medidor de aguja, que mostrará una información u otra dependiendo del estado de un conmutador accionado por el operador de sonido. Asimismo, se está estandarizando la sustitución del medidor de aguja por un medidor electrónico en barra, que puede mostrar las dos escalas (figura 1.10).
Figura 1.10. Medidor electrónico en barra mostrando simultáneamente picómetro (barras exteriores con pico) y vúmetro (barras interiores).
Este tipo de mediciones son críticas para el control de la amplitud y rango dinámico de la señal en el trabajo de posproducción de audio. Además de ayudar a establecer unos niveles de referencia y unas relaciones de amplitud para crear los distintos planos sonoros (la amplitud es uno de los parámetros mediante el cual creamos la sensación de profundidad espacial del sonido), es fundamental en la aplicación de toda una serie de procesos que modifican de forma programada estas relaciones de amplitud. El uso de procesadores de dinámica, como el compresor, el expansor o el limitador, permiten ampliar o reducir el rango dinámico de una señal. Un caso bastante claro es la necesidad de adaptar esta dinámica a las limitaciones del soporte y el formato final de distribución: por ejemplo, una señal de audio digital puede tener 96 dB de rango dinámico teórico en el caso de la grabación con la llamada calidad CD (frecuencia de muestreo de 44.1 KHz y cuantificación de 16 bits, parámetros de los que hablaremos más adelante). Si quisiéramos adaptar esa señal a un soporte con menos rango dinámico, como puede ser el de un disco analógico microsurco tradicional, que solo tiene un rango dinámico de unos 65 dB, deberíamos reducir la dinámica de la mezcla final utilizando diversos procesadores para evitar distorsiones. El espectrograma (figura 1.11) es la herramienta que nos permite estudiar el espectro de frecuencias de un objeto sonoro; a partir de un procedimiento denomina35
Parte I. Introducción
do Transformada Rápida de Fourier, analiza las distintas frecuencias que componen un sonido y la amplitud de cada una. La Transformada Rápida de Fourier (FFT) es una operación matemática que descompone un sonido complejo en todas las ondas sinusoides que lo forman. Además del espectrogama, se basan en este análisis otras representaciones del sonido como el sonograma, que veremos a continuación, y muchos procesadores sonoros que actúan transformando la estructura espectral del sonido (por ejemplo, algunos reductores de ruido o sistemas de compresión de datos). El espectrograma nos muestra en el eje horizontal todas las frecuencias existentes de menor a mayor (normalmente los analizadores de espectro o espectrogramas abarcan el rango de frecuencias audibles, de 20 Hz a 20 KHz, aunque podemos ampliar o reducir el ancho de bandas analizado), mientras que el vertical nos dará la información referente a la amplitud de cada una de las frecuencias. Mediante el espectrograma podemos estudiar la riqueza (o pobreza) en frecuencias de un determinado objeto sonoro (al decir objeto sonoro nos referimos a cualquier fragmento de sonido, sea cual sea su origen y duración). Como podemos observar, el tiempo es la dimensión ausente en este análisis, ya que la información mostrada se refiere a un instante determinado.
Figura 1.11. Espectrograma del sonido del mismo violín del oscilograma anterior.
El sonograma (figura 1.12) es el método de análisis que combina la información presentada por el oscilograma y el espectrograma. En el eje vertical tendremos las frecuencias presentes en un sonido (cambiamos en esta ocasión el eje, que en el espectrograma era horizontal), igualmente de menor a mayor conforme ascendemos en la escala. En el eje horizontal se muestra la duración temporal del sonido. La amplitud de cada una de las frecuencias viene indicada por el mayor o menor grosor, o grado de una escala cromática, de cada una de las líneas que representan una frecuencia determinada. 36
Principios básicos del sonido
Figura 1.12. Sonograma del mismo sonido de violín.
Aunque, como hemos dicho, el sonograma presenta mayor cantidad de información que los anteriores métodos de análisis-representación, en muchas ocasiones será más útil estudiar el espectro de frecuencias en un espectrograma (sobre todo si el sonido es estable y no tiene muchas variaciones espectrales en el tiempo). La información sobre la amplitud de cada frecuencia, mostrada en el sonograma con diferentes grados de opacidad, grosor o color en las líneas, es más detallada en el eje vertical del análisis espectral. Existen programas informáticos que permiten obtener una representación gráfica tridimensional del sonograma, en la que nos resulta más fácil seguir los cambios de amplitud de las distintas frecuencias presentes en un objeto sonoro, identificando cada una con un color (figura 1.13). El ingeniero de sonido combina los tres métodos de análisis. Partiendo del oscilograma, podemos identificar la evolución dinámica de un sonido y dividirlo en partes. Mediante el sonograma estudiamos la composición espectral de todo el sonido o de un fragmento que hayamos seleccionado, y cómo este espectro cambia en el tiempo de forma global, mientras que el espectrograma nos servirá para observar con detalle la estructura interna de nuestro objeto en cada instante que deseemos de su duración global.
1.4. La señal de audio digital. Principios de la digitalización de sonido Hasta ahora hemos hablado del sonido en términos analógicos, puesto que la percepción de nuestros oídos necesita de la vibración del aire para poder percibir el 37
Parte I. Introducción
174 s
0s
348 s 20 Hz
523 s 44 Hz
115 Hz
697 s 255 Hz
871 s 640 Hz
1440 Hz
1,46 s 3620 Hz
8130 Hz
1,220 s 20500 Hz
1,395 s
Figura 1.13. Visión en tres dimensiones del sonograma del mismo sonido de violín.
sonido. Sin embargo, en la actualidad se suele recurrir a la digitalización de la señal, como mínimo en algún momento de los distintos procesos que supone la producción de una grabación sonora, cuando no en todo el proceso. En la grabación digital las variaciones de señal son transformadas en un fl ujo de datos binarios que luego es recogido en un soporte. La ventaja principal que tiene este sistema con respecto a los de grabación analógica es que, desde el momento en que las señales son transformadas en el fl ujo de datos, pueden ser colocadas en cualquier soporte sin que les afecten las características que tenga, sobre todo el ruido. Esto permite realizar un número de copias exactamente iguales, en lo que se refi ere a la calidad del sonido, al original.
1.4.1. El proceso de digitalización: muestreo y cuantización La grabación digital se basa en el principio del muestreo, es decir, se toman datos a intervalos regulares de la señal sonora a los que se les da un valor numérico. Este valor es convertido en datos binarios que se van almacenando mediante lo que se denomina conversión analógico-digital sobre el soporte correspondiente. Durante la reproducción, esos datos son leídos secuencialmente para reconstruir la onda original a partir de un proceso inverso al de la codifi cación, denominado conversión digital-analógica. Hay que tener en cuenta que nuestro oído escucha analógicamente, es decir, que el fi nal del proceso nos encontraremos siempre con una vibración en el aire que es analógica. Precisamente por ello, se deben tener en cuenta diversos principios relacionados con la escucha en el momento de realizar una grabación digital, lo que determina el uso de determinados parámetros a la hora de efectuar los procesos de digitalización y reconstrucción de la señal sonora. 38
Principios básicos del sonido
Figura 1.14. La señal analógica previa a la digitalización.
La frecuencia de muestreo hace referencia a los intervalos regulares en los que se obtienen muestras, es decir, datos medidos, de la señal analógica original. Esta frecuencia debe ser elevada para que la reconstrucción de la señal sea lo más fiel posible a la original. En cierta manera, podemos hacer un paralelismo con la imagen grabada: cuantos más fotogramas por segundo grabemos, más fiel será el movimiento reproducido en la pantalla. Los sistemas digitales supusieron una revolución, sobre todo en el terreno del ruido de fondo y el registro de las frecuencias más elevadas, ya que, desde el momento en que se introdujo su uso a la hora de grabar sonido, se dejó de depender de las capacidades físicas del soporte o del sistema de registro para pasar a aprovechar la capacidad de procesadores informáticos cada vez más potentes.
Figura 1.15. Frecuencia de muestreo.
Shannon y Nyquist propusieron en 1948 los principales teoremas en los que se basa la digitalización del sonido: el teorema del muestreo dice que deben tomarse al menos dos muestras por cada ciclo de la onda sonora para obtener una información suficiente de ella. Si se toman menos muestras, no es posible registrar correctamente el espectro de frecuencias de la señal. Por otra parte, y como consecuencia del principio anterior, para poder registrar cierta frecuencia de sonido es necesario que el sistema tenga como frecuencia de muestreo al menos el doble de la frecuencia a registrar. Así pues, para registrar frecuencias de hasta 20 KHz, que es la más alta que puede oír un humano, es necesario que el sistema tenga como frecuencia de muestreo 40 KHz.
39
Parte I. Introducción
Figura 1.16. Frecuencia de muestreo no adecuada. En línea continua, la onda original. En línea discontinua, la onda resultante de la conversión errónea.
Hay un problema muy importante derivado del uso de los sistemas digitales, relacionado con la frecuencia de muestreo: en el mundo físico existen, como hemos visto anteriormente, frecuencias que están por encima de los límites de percepción, llamadas ultrasonidos. Los sistemas analógicos, a la hora de registrar el sonido, no pueden captar estas frecuencias. Sin embargo, los digitales, al tratar de registrar frecuencias que estén por encima del límite del sistema (20 KHz en el caso de este sistema ideal que tiene como frecuencia de muestreo 40 KHz), codifican estas como ruidos que pueden afectar a la calidad del sonido registrado. En la figura 1.16, puede verse esto, debido a que se utiliza una frecuencia de muestreo ligeramente superior a la frecuencia a digitalizar, sin llegar al doble de esta, como debería ser. A este problema se le llama aliasing. Para evitarlo, todo sistema digital está provisto de un filtro –un circuito que corta, enfatiza o modifica aquellas señales que se elijan– que elimina cualquier frecuencia por encima de la máxima registrable. A este filtro se le llama antialiasing. El soporte físico digital de sonido más extendido, el CD, tiene como frecuencia de muestreo 44100 Hz, que es ligeramente superior a la necesaria para registrar todas las frecuencias audibles para que el filtro antialiasing no actúe de forma brusca en el límite de los 20 KHz, sino que haya cierta tolerancia hasta los 22,5 KHz que puede registrar este sistema. El sistema de grabación de cinta digital más extendido, el DAT, utiliza una frecuencia de muestreo de 48 KHz, establecida en este caso no por un principio de calidad (en este sistema podrían registrarse frecuencias hasta 24 KHz, muy por encima de los límites de la audición), sino comercial, ya que de esta manera se evitaba la copia directa de CD a cinta por incompatibilidad de la frecuencia de muestreo, debido a que, en principio, se pensó en el DAT como sistema doméstico, aunque su uso terminó siendo principalmente profesional. En el momento de la redacción de este libro, los actuales soportes físicos digitales domésticos (Blu-Ray, DVD, Super CD Audio) y profesionales (gra-
40
Principios básicos del sonido
badores sobre discos duros o tarjetas de datos principalmente) permiten utilizar frecuencias de muestreo de hasta 96 KHz. Este último tipo de sistemas puede registrar frecuencias que estarían absolutamente por encima del límite de escucha del oído humano (se podría registrar hasta una frecuencia de 48 KHz). Sin embargo, parece que la presencia o ausencia de estas frecuencias afecta al registro y reproducción de los armónicos y, por tanto, al timbre de los sonidos.
Figura 1.17. Cuantización.
Una vez efectuada la lectura de la señal a intervalos regulares, se efectúa la cuantización (figura 1.17), es decir, se le da un valor a cada uno de los datos obtenidos. Este valor debe estar en relación con la frecuencia y el nivel de presión sonora de la señal. Puesto que estamos en un entorno digital, este valor debe tener una expresión numérica concreta, de entre un conjunto de valores prefijados. Cuantos más valores tengamos para escoger, mucho más fiel será la señal digital a la original. En un sistema digital binario, el número de niveles que tenemos está directamente relacionado con el número de bits del sistema. Así, un sistema de 1 bit podrá representar solo dos valores de volumen, uno de 2 bits representará cuatro valores, etc. El CD de audio, con 16 bits de resolución, puede representar, pues, 65536 niveles de señal distintos, lo que ofrece una calidad bastante aceptable. Los errores que se pueden producir por la representación de niveles de la señal real que estén entre dos de los definidos por el sistema se convierten en ruido de fondo, llamado ruido de cuantificación. Se ha establecido que los sistemas digitales ofrecen 6 dB de relación señal-ruido por cada bit, así pues, el CD ofrece unos teóricos 96 dB de relación señal-ruido, lo que supuso en su momento romper los límites de los soportes analógicos que, sin el uso de sistemas de mejora electrónicos, solo llegaban a aproximadamente 60 dB de gama dinámica en el mejor de los casos, y necesitan de un sistema de reducción de ruido para poder llegar a ofrecer 41
Parte I. Introducción
unos 90 dB. Actualmente, los sistemas digitales permiten efectuar grabaciones con 24 bits de resolución y se trabaja para conseguir superar este número. La señal convertida en un flujo de datos binarios debe ser codificada para ser colocada sobre un soporte. Para ello se utiliza un código de canal que aprovecha las posibilidades del soporte para registrar los datos binarios en forma de transiciones entre dos estados, que representarían los 1 y los 0. En el caso de los sistemas que utilizan discos, se usan las incisiones microscópicas que un rayo láser realiza sobre la superficie metálica del disco, que puede tener varias capas distintas, protegida por una cubierta plástica. En el caso de la distribución sobre soportes informáticos como discos duros, la codificación de canal es bastante transparente, ya que no es necesario hacer una adaptación especial de los datos, puesto que el soporte de grabación, edición, procesado, etc., es el mismo que el de distribución.
Figura 1.18. Conversión en datos binarios.
1.4.2. El proceso de digitalización: corrección de errores A la hora de efectuar la lectura de los datos se suelen producir errores debidos, por lo general, a problemas en el soporte. Cuando un error aparece es necesario detectarlo y corregirlo. En caso de no poder ser corregido, el error debe ser ocultado. Hay dos clases de errores, de ráfaga y aleatorios. Los primeros suelen producirse por un drop-out (“fallo del soporte”), un pico de tensión o suciedad en el sistema de lectura. Esto provoca que no puedan leerse varios datos sucesivos. Los errores aleatorios tienen como consecuencia la pérdida de datos aislados, y suelen deberse a una mala calidad en el registro de la señal. Para evitar los errores se siguen varios procedimientos. En principio, los datos que se registran en un soporte suelen someterse a un proceso de intercalado, me42
Principios básicos del sonido
diante el cual, las muestras son desordenadas mediante un sistema preestablecido para que, en el caso de que se produzca un error de ráfaga, los datos que no puedan leerse no sean consecutivos en el orden original, lo que, en la práctica, convierte al error de ráfaga en un error aleatorio. Otro de los sistemas preventivos de errores es el retardo, mediante el cual se agrupan las muestras pares e impares y luego se separan dejando entre ellas el espacio correspondiente a un número concreto de muestras, de manera que, si se produce un error de ráfaga, hay muchas posibilidades de que afecte solo al espacio de retardo. Los sistemas digitales también utilizan sistemas redundantes para registrar los datos, de manera que, si se produce un error, puede reconstruirse la señal a partir del dato redundante, es decir, que los datos se escriben dos veces en dos lugares diferentes del soporte, de tal modo que es muy probable que, en combinación con los sistemas de intercalado y retardo, se puedan recuperar todos los datos en caso de error. Para comprobar si se han producido errores en la señal se suelen utilizar los llamados códigos de redundancia cíclica (CRC). Se trata de una serie de datos matemáticos que se obtienen a partir de los datos digitalizados de la señal. Si los CRC que se leen no concuerdan con los que deberían obtenerse, el sistema detecta que se ha producido un error. Si se producen errores en la escritura o lectura de la señal, hay que corregirlos. Para ello se suele usar la interpolación. Mediante este sistema, se toma la amplitud del dato perdido a partir de los datos adyacentes, efectuando la media. Este valor puede ser o no correcto, si bien por lo general no suele perturbar la audición. Cuando no es posible efectuar la interpolación (cuando los datos anterior y posterior también son defectuosos), se puede utilizar la retención de muestra, es decir, que se repite el último dato correcto hasta que vuelva a aparecer otro dato sin error. Se trata de un fallo grave que puede determinar la anulación de la salida de datos si no se encuentra de nuevo en un plazo breve de tiempo una señal libre de errores. Cuando todos los sistemas de corrección de errores fallan, el sistema suele anular la salida de datos, de manera que en la práctica se produce la anulación de todo sonido. Los equipos profesionales pueden variar el nivel a partir del cual se produce esta anulación, si bien la reproducción de un sonido digital con errores suele traer como consecuencia desde la aparición de numerosos clics hasta un sonido completamente distorsionado.
43
Parte I. Introducción
Preguntas de autoevaluación 1. El sonido se podría transmitir mediante: � a) El movimiento de las moléculas del aire. � b) El movimiento de las moléculas de madera. � c) Las dos respuestas anteriores son correctas.
2. El sonido se transmite mediante un movimiento de las moléculas: � a) Rectilíneo. � b) Ondulatorio. � c) Curvilíneo.
3. La frecuencia se mide en: � a) Hertzios. � b) Ohmios. � c) Voltios.
4. La frecuencia es percibida como: � a) Diferencias de volumen. � b) Diferencias de tono. � c) Diferencias de ritmo.
5. La frecuencia que se usa para digitalizar un sonido se denomina: � a) Frecuencia de muestreo. � b) Frecuencia armónica. � c) Frecuencia fundamental.
44
Parte II
Grabación
2
Grabación de sonido
En este capítulo vamos a hablar de los sistemas que se utilizan para el registro de sonido de manera que pueda ser reproducido posteriormente. Para ello, haremos referencia a los procesos que conlleva el registro de sonido y los sistemas utilizados para efectuarlo, especialmente los micrófonos. Un correcto registro de sonido es el pilar fundamental para obtener un buen sonido final en nuestras producciones audiovisuales ya que, a diferencia de la imagen, la posproducción difícilmente puede corregir un sonido defectuoso, teniendo que recurrir a la sustitución total (doblaje o nuevas grabaciones en estudio) en la mayor parte de los casos en que no se cuenta con un buen sonido de producción (el que se registra en el momento del rodaje o grabación de imagen).
2.1. La cadena de grabación de audio: definición La llamada cadena de audio hace referencia a todos los procesos por los que pasa un sonido a la hora de ser registrado y reproducido. Para ello necesitaremos usar ciertas técnicas (en el sentido de habilidades de carácter humano) y tecnologías (en el sentido artefactual del término, es decir, aparatos que se usan para cierto fin, cf. González, et al., 1996) en distintas etapas, y que irán transformando la señal original en otras de distinto carácter y calidad hasta que sea colocada en un soporte para su conservación y utilización posterior. En lo referido a lo tecnológico –que suele ser el sentido en el que se habla generalmente de la cadena de audio–, podemos encontrar diversos sistemas: captadores de sonido (micrófonos y otros sistemas similares), amplificadores, procesadores, digitalizadores, etc. Es muy importante que se mantenga la calidad en todos y cada uno de sus elementos, pues, como ocurre en otros procesos audiovisuales, la calidad final de la señal vendrá determinada por el elemento de peor calidad de la cadena. Si disponemos de unos micrófonos excelentes, pero utilizamos un amplificador de baja calidad, la señal final tendrá, a su vez, una baja calidad.
47
Parte II. Grabación
Junto con la tecnología, es necesario aplicar las técnicas correctas a la hora de realizar la grabación y reproducción (teniendo en cuenta que la reproducción es crítica en el caso del sonido cinematográfico, dada la multiplicación progresiva del número de canales a reproducir). Hay que recordar que hay una cantidad enorme de elementos tecnológicos que pueden ser utilizados dentro de la cadena de sonido. Cada uno de ellos exige un conocimiento profundo de su uso, y de sus limitaciones para poder sortearlas ya que, como hemos indicado, es muy difícil aportar calidad a un sonido que no la tiene en origen, mientras que una reproducción inadecuada por cualquier motivo puede dar lugar a efectos indeseados, como la ininteligibilidad de la voz, por ejemplo.
2.2. Problemas de la cadena de audio Cuando hablamos de calidad en un sentido tecnológico, tenemos que establecer unos criterios para poder medirla. En principio, podría parecer que el criterio adecuado fuera que el sonido que se reproduce a través de los altavoces sea lo más parecido posible al original captado por el micrófono. Sin embargo, durante el paso del sonido original por esa cadena, podemos procesarlo para darle una serie de características que no tiene originalmente, por lo que esta idea inicial de fidelidad a la fuente hay que matizarla y complementarla con otros elementos medibles para poder establecer de un modo más objetivo si la calidad de la señal es la adecuada. Así, podemos establecer el criterio de calidad en el hecho de que el sistema no introduzca elementos que no estén presentes en la señal, fuera de la voluntad de quienes están efectuando el registro y reproducción del sonido, ya sean esos elementos ruido, una distribución de frecuencias no prevista, distorsiones, etc.
2.2.1. Respuesta en frecuencia Como indicamos en el primer capítulo, el oído humano puede, en el mejor de los casos, percibir una gama de frecuencias entre los 20 y los 20 000Hz. Un sistema que pretenda ofrecer una buena calidad debería poder registrar y reproducir esa gama de frecuencias. En general, en la actualidad no es difícil que un equipo pueda registrar esas frecuencias. También es posible reproducirlas. Lo complicado es conseguir que los equipos respondan por igual a todas las frecuencias o, expresado en términos más técnicos, es difícil conseguir una repuesta lineal de los equipos. Esto quiere decir que los equipos de registro y reproducción suelen ser más sensibles a ciertas frecuencias, de modo que quedan registradas de modo más preponderante. Para que un sistema tenga una alta calidad hay que compensar la tendencia a que los equipos sean más sensibles a ciertas frecuencias para conseguir que lo sean más o menos igual a todas.
48
Grabación de sonido
Todo esto es particularmente necesario en los extremos de la cadena (micrófonos y altavoces). En el caso de los micrófonos, se trata de diseñar cápsulas cada vez más precisas. Sin embargo, es casi imposible conseguir una respuesta plana en todo el espectro sin elevar el coste de los equipos. Por eso, resulta más sencillo conocer la respuesta en frecuencia de los micrófonos para escoger aquellos que se adapten mejor a los sonidos que pretendemos grabar. Nuestro oído puede percibir las frecuencias de un piano, una voz o el ruido de un motor. A la hora de grabar es más fácil buscar micrófonos cuya respuesta en frecuencia esté más cercana a cada uno de los casos que hemos puesto como ejemplo, en lugar de buscar un micrófono perfecto que lo pueda grabar todo, al modo en que nuestros oídos perciben. Evidentemente, hay situaciones que son más exigentes que otras. Grabar una orquesta exige micrófonos mejores que grabar una voz, puesto que la orquesta produce frecuencias en un espectro muy amplio, mientras que la voz tiene sus frecuencias, principalmente, en un espectro relativamente reducido. No entramos a hablar del hecho de que cuanto mejor sea un micrófono mejor registrará el timbre de que se trate, sino que hablamos de cómo registrar las frecuencias principales. En el caso de los altavoces, se suele recurrir a la combinación de varios de ellos dentro de una caja de madera u otro material que tenga las características acústicas adecuadas, de modo que las frecuencias que da cada uno de los altavoces corresponde a una parte del espectro de frecuencia, con solapamientos. Dentro de los altavoces se sitúan unos filtros que equilibran esos solapamientos para que no se produzcan elevaciones de volumen en esas frecuencias. Cuanto mejor esté diseñada la combinación de altavoces y mejores sean los filtros, mejor será ese altavoz en lo que se refiere a la respuesta en frecuencia. Si un equipo no está bien equilibrado, se dice que colorea el sonido, es decir, que da una cierta preponderancia a ciertas frecuencias en detrimento de otras. Esto puede ser un defecto o una característica, dependiendo de en qué frecuencias y con qué intensidad se efectúe esta coloración, dando como resultado equipos más brillantes, más cálidos, etc. Podemos representar la respuesta en frecuencia en un gráfico de coordenadas en el que el eje horizontal representa la frecuencia concreta y el eje vertical el volumen o energía en dB que el sistema registra o reproduce para esa frecuencia. El eje horizontal se representa de manera logarítmica, es decir, que las frecuencias se distribuyen de modo aparentemente no proporcional, pero más adecuado a la manera en que el ser humano oye, al igual que sucede con la escala de volúmenes, que también es logarítmica. La respuesta ideal de un sistema, desde la grabación hasta la reproducción, debería ser lineal, lo que supondría que la línea que representa la respuesta en frecuencia debería ser completamente plana desde el inicio hasta el final del rango de frecuencias que ese equipo registra o reproduce. 49
Parte II. Grabación
Figura 2.1. Representación gráfica de la respuesta en frecuencia.
2.2.2. Distorsión Otro problema con el que podemos encontrarnos es la distorsión. Este concepto hace referencia al hecho de que la señal que es captada inicialmente por el micrófono no es la misma que llega a los altavoces. Hay distintos tipos de distorsión: – Lineal • De amplitud. • De fase. – No lineal • Armónica (THD). • De intermodulación.
A) Distorsión lineal •
Distorsión lineal de amplitud: está relacionada con la respuesta en frecuencia, y se produce cuando la intensidad de cada frecuencia que sale de un equipo no es la misma que había a la entrada. Este tipo de distorsión se produce bien durante la captación, debido a la calidad de los micrófonos, bien en los pasos intermedios de la cadena, ya que el amplificador, al amplificar por igual todas las frecuencias, tiene menos posibilidades de introducirla. Una distorsión lineal típica es la distorsión por recorte, lo que se conoce popularmente como saturación. Eso sucede de modo crítico en los micrófonos. Los micrófonos transforman la señal mecánica de las ondas sonoras en diferencias de voltaje, pero cuando la señal que entra en el sistema está por encima del voltaje máximo que puede generar ese micrófono, se produce un recorte 50
Grabación de sonido
•
en los momentos en que se alcanza ese voltaje máximo y no se registran correctamente las señales que lo exceden, que pasan a registrarse distorsionadas. Esto también afecta a los soportes de grabación. En general, los sistemas analógicos tenían una cierta tolerancia a la saturación. Los sistemas digitales, en cambio, son absolutamente intolerantes a este tipo de distorsión lineal. Distorsión lineal de fase: es imposible de eliminar, ya que está relacionada con la cantidad de los circuitos y la distancia por la que pasa la señal. La fase tiene que ver con el lugar que ocupan los puntos máximos y mínimos de las curvas sonoras. Para conseguir una precisión en este tipo de distorsión sería necesario hacer mediciones de todos y cada uno de los circuitos y comprobar que no introduce cambios en la fase de las señales, recortando o ampliando la distancia. El oído tiene dificultad para detectar un cambio de fase que afecte por igual a todas las ondas que entran y salen de un sistema, ya que, a efectos prácticos, al oído le da igual en qué lugar se encuentren el seno y el punto de mínima energía de la onda.
B) Distorsión no lineal •
•
Distorsión no lineal armónica: se produce por la aparición de armónicos a partir de la señal original. Como vimos en el capítulo 1, los armónicos contribuyen a modelar el timbre del sonido. Cada sonido tiene sus propios armónicos, pero los sistemas de registro y reproducción pueden introducir armónicos que no estaban presentes en la señal original, de modo que se modifique el timbre de los sonidos originales. Se suele expresar en un porcentaje que debería ser lo más cercano al 0% en equipos de buena calidad. Distorsión no lineal de intermodulación: se produce por la interacción de las frecuencias originales dentro del sistema, dando lugar a otras frecuencias que no estaban presentes en la señal original. A diferencia de la distorsión armónica, no provoca cambios en el timbre, sino que se percibe como un ruido alrededor de cierta frecuencia (por lo general, la más alta del sonido correspondiente). Al igual que la distorsión armónica, se expresa como un porcentaje.
2.2.3. Rango dinámico El tercer problema al que se enfrenta la cadena de sonido es la relación señal-ruido o rango dinámico. Todo sistema de sonido introduce ruido en la cadena de audio, lo importante es que el nivel de ruido esté siempre por debajo del nivel de la señal que se registra. De este modo, el ruido quedará enmascarado por el sonido. Cuanto más bajo es el ruido de un sistema, más bajo podrá ser el sonido grabado por ese sistema sin que quede anulado por el ruido. 51
Parte II. Grabación
El ruido no se refiere a la presencia de frecuencias como las indicadas en el punto anterior, sino a la presencia de una señal, incluso cuando no hay señal de sonido en el sistema. A la diferencia entre el nivel del sonido que se puede registrar como máximo y el nivel de ruido se le llama rango dinámico. En los sistemas digitales el ruido queda reducido a cero a partir del momento en que la señal se digitaliza. Por lo tanto, si se quiere reducir la presencia de ruido en un sistema digital se debe reducir la distancia recorrida por la señal antes de ser digitalizada. La compañía Deutsche Grammophon presentó en su momento un sistema de grabación digital al que denominó 4D, que trataba de reducir al máximo ese recorrido, integrando en un mismo chasis la cápsula de micrófono, el preamplificador y el conversor analógico-digital, lo que ahorraba numerosos pasos intermedios que podían añadir ruido. La relación señal-ruido de un equipo se expresa en decibelios, generalmente medida en la frecuencia de 1 KHz, que, al ser una frecuencia media, ofrece una idea general de la calidad de ese equipo.
Figura 2.2. Representación gráfica de la gama dinámica de un equipo imaginario. En este caso, el sistema puede registrar como máximo una gama dinámica de unos 80 dB, pero al tener un nivel de ruido de unos 25 dB, la gama dinámica queda reducida a 55 dB.
2.2.4. Diafonía En la cadena de audio puede darse un problema relacionado con el número de canales que se reproducen. Se habla de diafonía, que es el aspecto que se ve afectado por este problema. La diafonía es la separación de canales, es decir, la capacidad que tiene un sistema para que a través de cada canal solo suene el sonido correspondiente a ese canal, sin que se introduzcan en él señales de los demás canales. Este problema es típico de los reproductores utilizados en los equipos domésticos estereofónicos, y es mucho más crítico en los elementos analógicos del sis-
52
Grabación de sonido
tema, puesto que, una vez digitalizado, el sonido carece de diafonía, es decir, que cada canal no se ve afectado por el resto. Sin embargo, puesto que toda señal digital debe ser convertida en analógica en algún momento para poder ser escuchada, un sistema nunca estará libre de diafonía. La única solución sería colocar un conversor digital-analógico en cada altavoz del sistema para efectuar la conversión lo más cerca posible de la transformación de la señal eléctrica en vibraciones que se transmitan de nuevo al aire para poder ser escuchadas. Eso solo es posible en los equipos de precio más elevado y no es una solución que pueda implementarse en general. La diafonía también se expresa en decibelios para determinado rango de frecuencias y no debería superar el 50-70%.
2.3. La técnica y la cadena de audio. Una cadena de audio básica Desde el punto de vista de la técnica, la calidad es un término más difuso, puesto que dependerá, en principio, de la capacidad de quien usa los elementos tecnológicos para conocer sus posibilidades y sus limitaciones para poder manejarlos del modo más adecuado al tipo de sonido a registrar. Por otra parte, la técnica está relacionada con el gusto, ya que podemos entrar en discusiones sobre si un cierto tipo de grabación se adecúa más o menos al tipo de sonido, a partir de una serie de concepciones estéticas previas. La técnica tiene una gran influencia en el volumen, frecuencias registradas o presencia del sonido, al depender de parámetros como la elección del tipo de micrófonos; el número, distancia y posición de ellos con respecto a la fuente grabada o el tipo de proceso (con la implicación de otros elementos tecnológicos, aparte de los micrófonos) que se elija a la hora de dejar definitivamente grabada la señal. No existe la cadena de audio perfecta: por más dinero que se pueda invertir en adquirir los mejores equipos, siempre habrá limitaciones en esos equipos. Como puede verse, el conjunto de combinaciones posibles entre tecnologías y técnicas utilizadas nos ofrece un conjunto enorme de posibilidades que van aumentando a medida que la tecnología evoluciona. Es conveniente estar atento a las innovaciones que se producen en el terreno tecnológico, ya que pueden provocar la aparición de nuevas posibilidades técnicas. Un buen diseñador de sonido debería, si no usarlas, al menos conocerlas. En definitiva, la calidad del sonido no solo viene determinada por la calidad de los elementos tecnológicos que se utilicen, sino también por el conocimiento para saber seleccionarlos y utilizarlos. Esto es algo obvio, pero a veces se tiende a dar una preponderancia excesiva al hecho de usar los mejores micrófonos o las mejores grabadoras digitales, según las especificaciones, descuidando muchas veces la técnica para utilizarlos convenientemente. Es necesario combinar buenas tecnologías y buenas técnicas para obtener un buen sonido. 53
Parte II. Grabación
Teniendo en cuenta lo indicado anteriormente, la cadena de audio más básica consistiría en un micrófono conectado a un amplifi cador, al que se conecta, a su vez, un altavoz para amplifi car el sonido que recoge el micrófono. En el caso de la grabación sonora digital, explicamos a continuación cuál sería una cadena de audio, también básica, un poco más desglosada.
Sonido
Micrófono Preamplificador
Conversor analógico-digital
Soporte
Figura 2.3. Cadena de grabación de audio.
En primer lugar, nos encontramos con una fuente de sonido. Como vimos en el capítulo 1, esta fuente es un cuerpo en vibración. Esa vibración se transmite al aire en forma de sonido si su frecuencia se encuentra dentro de las que puede captar el oído humano. En este momento aparece el primer elemento tecnológico que permite convertir esa vibración en una señal eléctrica. En general, estamos hablando de los micrófonos, pero dependiendo de la fuente del sonido se pueden usar otros sistemas, sobre todo en el caso de instrumentos musicales. Ampliaremos esta noción más adelante, pero baste ahora con indicar que, cuando alcanza el micrófono, la energía mecánica de esa vibración se transforma en señales eléctricas de un voltaje proporcional a los niveles de la energía mecánica que van llegando al micrófono a lo largo del tiempo. Una vez transformada la energía mecánica de la vibración en energía eléctrica, hay que elevar su potencia, ya que los niveles de voltaje que salen del micrófono son excesivamente bajos y, de no amplifi carse, podrían verse afectados por interferencias, impedancias (resistencia al paso de la corriente en los cables) y otros problemas diversos. Para ello se utiliza un preamplifi cador que eleva la señal del micrófono (inferior normalmente a –20 dBu) a niveles llamados de línea, que, como veremos en el capítulo 5 con más detenimiento, es el nivel en el que trabajan los sistemas de reproducción de soportes ya grabados (entre –20 dBu y +30 dBu). Una vez elevada la señal del micrófono, podemos tratarla mediante distintos procesadores: de volumen y mezcla (mesas de mezclas), frecuencia (ecualizadores), dinámica (compresores, limitadores, expansores), de espacio (reverberación y eco) o de efectos especiales (generalmente combinando alguno de los anteriores o efectuando un procesado digital, como cuando se baja la entonación o se trans54
Grabación de sonido
forma la voz para subir o bajar su tesitura original). El uso de procesadores es opcional, pero, al menos, se hace un control del volumen del micrófono. Llega el momento de digitalizar nuestra señal. En realidad, la digitalización del sonido del micrófono puede efectuarse antes o después del procesado, de modo que si tenemos el sonido digitalizado previamente podemos efectuar el procesado en un entorno ya enteramente digital. Como hemos visto en el apartado dedicado al rango dinámico, se puede incluso digitalizar la señal dentro del mismo micrófono, como se hace en el sistema 4D de la Deutsche Grammophon. Para digitalizar la señal utilizaremos un conversor analógico o digital. Este conversor puede ser de mejor o menor calidad dependiendo de su frecuencia de muestreo y bits de cuantificación. Como ya indicamos en el capítulo 1, la frecuencia de muestreo es el intervalo de tiempo que se usa para medir los datos de la onda sonora y que, según el teorema de Nyquist, debe ser, al menos, dos veces la frecuencia a registrar, mientras que la cuantificación hace referencia a los distintos niveles de sonido que pueden registrarse, que son proporcionales al número de bits, lo que influye en el rango dinámico. Teniendo esto en cuenta, los primeros sistemas digitales usaban por defecto la frecuencia de 44.1 KHz, pero en la actualidad hay sistemas que llegan a los 96 o incluso los 192 KHz, lo que permite registrar frecuencias de hasta 48 o 96 KHz, muy por encima de las capacidades humanas. En cuanto a los bits, inicialmente se cuantizaba a 16, pero en la actualidad se llega a los 24 o los 32 en los entornos profesionales, lo que permite registrar rangos dinámicos de 144 o 192 dB, muy por encima también de la capacidad humana (al menos en los valores máximos de esa gama). De este modo, tras la conversión, tendremos una cadena de datos en lugar de la señal eléctrica analógica. Los datos obtenidos en el proceso de digitalización pueden ser registrados a continuación en un soporte. En la actualidad, los soportes más extendidos son los de tipo informático (discos duros HDD y memorias sólidas SSD), junto a los ya añejos CD y DVD, y el BluRay, el último soporte en aparecer sobre discos de 12 cm de diámetro que permite la grabación de películas en formatos de HD y UHD (4K). El CD permitía codificar el sonido en una calidad de 44.1 KHz a 16 bits. La introducción del DVD permitió el desarrollo de los formatos DVD-A y el SuperAudio CD. Ambos utilizan la alta capacidad del DVD (hasta 8,5 Gb) para grabar solamente datos de audio, de manera que era posible multiplicar los canales y elevar la calidad del sonido en lo referente a la frecuencia de muestreo y bits de cuantificación, lo que permite registrar frecuencias de hasta 50 KHz con un rango dinámico de 105 dB, si bien son formatos que han tenido una implantación reducida. No hacemos referencia al streaming como soporte, puesto que no es un soporte en sí, sino un sistema de transmisión. Para registrar todos los datos es necesario hacer una codificación de soporte, ya que cada soporte necesita un modo concreto de escribir los datos. En el caso de los discos duros, hay que transformar esos datos digitales en diferencias magnéti55
Parte II. Grabación
cas que se registran en un soporte electromagnético. Las SSD codifi can los datos mediante cargas eléctricas, mientras que en los soportes sobre disco los datos se codifi can mediante la grabación de puntos sobre una superfi cie metálica con un rayo láser.
Soporte
Conversor digital-analógico
Amplificador
Altavoz
Sonido
Figura 2.4. Cadena de reproducción de audio.
A la hora de reproducir los sonidos, se realiza el proceso inverso. Se efectúa la lectura de los datos registrados en el soporte, se envían a continuación a un conversor digital-analógico que convierte los datos digitales en diferencias de corriente que pasan a un amplifi cador y de ahí a los altavoces, que vibran de acuerdo con la tensión que va suministrándoles el amplifi cador, de modo que se recreen las ondas sonoras originales. De este modo, se cierra la cadena de audio. Como se puede ver, tanto al inicio como al fi nal de la cadena nos encontramos con vibraciones sonoras, puesto que nuestro sistema perceptivo solo es capaz de interpretar esas vibraciones. Tal vez en el futuro, mediante algún tipo de implantes, seamos capaces de interpretar directamente en el cerebro señales eléctricas sin pasar por la necesidad de hacer vibrar un altavoz. De hecho, en la actualidad, existe la posibilidad de crear los llamados implantes cocleares para permitir la audición a determinadas personas sordas, pero ir más allá pertenece, por el momento, al campo de la ciencia fi cción. La cadena de audio puede complicarse mucho más, añadiendo distintos procesadores de sonido, conversores digitales más complejos u otras combinaciones de sistemas de registro y reproducción, dado que, a la hora de registrar, es necesario monitorizar la señal, lo que implica una reproducción o una amplifi cación en tiempo real.
2.4. La cadena de sonido para audiovisuales La cadena de sonido en el caso de las producciones cinematográfi cas y audiovisuales, en general, tiene una serie de características, propias en lo que se refi ere al registro, el soporte y la amplifi cación, principalmente. Para el registro suelen usarse grabadoras portátiles, tanto en exteriores como en interiores, puesto que las condiciones de rodaje exigen movilidad de los equipos 56
Grabación de sonido
(a excepción de las producciones televisivas multicámara, que se graban en los platós). Más adelante indicaremos el tipo de micrófonos más utilizados para efectuar la grabación de sonido para audiovisual. En lo que se refiere al soporte, hasta la primera década del siglo xxi, el mismo celuloide donde se colocaba la imagen servía como soporte del sonido analógico y digital. La codificación de soporte se efectuaba mediante un proceso propio del sonido cinematográfico, lo que permitía colocar el sonido digital entre las perforaciones (Dolby Digital), en el borde del negativo (SDDS) o como marcas entre las pistas analógicas y las perforaciones que servían para sincronizar un lector de CDs (DTS). Las pistas analógicas se colocaban entre los cuadros de imagen y las perforaciones, lo que garantizaba la seguridad de que, si fallaba el sonido digital siempre se pudiera reproducir el analógico. En la actualidad, con el advenimiento del cine digital, el sonido se coloca también en el mismo soporte de la imagen que ahora es un disco HDD o SSD. La amplificación del sonido ha sido siempre uno de los pilares de la construcción del espectáculo cinematográfico desde los años 50 del siglo xx. Se puede decir que su característica principal es que se trata de un sonido multicanal. En los años 50, sobre soporte magnético en el propio celuloide y, ya en los años setenta, codificado ópticamente de manera analógica y, posteriormente, digital. Con los sistemas indicados anteriormente se llegó hasta a codificar once canales de sonido sobre el propio celuloide o con ayuda de CDs sincronizados. En la actualidad, la especificación DCI para cine digital y sistemas como el Auro o el Atmos permiten codificar el sonido hasta en canales, e incluso con nuevos conceptos complementarios que se basan en el uso de metadatos, como es el de objetos sonoros, que pueden llegar a 128, en el caso del sistema Atmos. Este sonido multicanal precisa de una amplificación especialmente diseñada, de manera que cada uno de los canales se reproduzca a través de unos determinados altavoces con un volumen determinado para conseguir efectos espaciales y de movimiento en tres dimensiones dentro de la sala de proyecciones o el salón de la casa.
2.5. Micrófonos. Principios básicos. Estructura y características Vamos a comenzar a desgranar los elementos de la cadena de audio de un modo pormenorizado. En este capítulo nos centraremos en los micrófonos, dado que son los primeros y más importantes elementos de la cadena, dejando para capítulos posteriores el resto de los elementos. Los micrófonos son un tipo de transductor. Un transductor es un sistema capaz de transformar un tipo de energía en otra. Hay transductores de muchos tipos. Los más habituales los encontramos en las centrales eléctricas donde, por ejemplo, podemos encontrar turbinas o placas solares que transforman la energía 57
Parte II. Grabación
del movimiento del agua o de la luz solar en energía eléctrica. En nuestro caso, el micrófono es un transductor de pequeño tamaño que transforma la energía de la vibración en energía eléctrica con un valor proporcional al de la energía de la vibración original. La estructura básica y los principios mecánicos de funcionamiento de los micrófonos son comunes en todos ellos: una superfi cie fl exible o móvil llamada diafragma recibe el impacto de la onda sonora y vibra en simpatía con ella. Esa vibración es convertida por diversos procedimientos (mediante distintos tipos de transductores que explicaremos más adelante) en un impulso eléctrico que sale del micrófono para ser amplifi cado y registrado, o enviado a sistemas de sonorización. El conjunto del diafragma y elemento transductor que efectúa la transformación de la energía recibe el nombre de cápsula, y es el elemento más importante del micrófono. Además de este elemento, todos los micrófonos tienen una rejilla (a veces con un fi ltro de goma espuma) que protege el diafragma de los efectos de los golpes de aire provocados por ciertas consonantes, una carcasa para proteger toda la estructura y un conector, generalmente de tipo XLR (llamado canon, de tres puntas), si se trata de un micrófono profesional. Los distintos tipos de transductores defi nen distintos tipos de micrófono. El resto de los componentes electrónicos del micrófono suelen ser circuitos dedicados a mejorar la señal, y varían en cada caso y fabricante, pudiendo determinar una gran diferencia de calidad entre unos micrófonos y otros.
Sonido
Diafragma
Bobina móvil Imán
Figura 2.5. Esquema básico de una cápsula de micrófono (de bobina móvil).
58
Grabación de sonido
2.6. Características técnicas y problemas de los micrófonos Los micrófonos tienen una serie de características técnicas que determinan su calidad y la aparición de posibles problemas. Para que un micrófono tenga una alta calidad es necesario que esos parámetros queden dentro de unos límites aceptables. En todo caso, es necesario que esos parámetros queden perfectamente definidos en la documentación técnica que acompañe a un micrófono.
2.6.1. Impedancia Todo circuito conductor de la electricidad opone una resistencia al paso de esta, provocado por la propia estructura molecular del material con que esté construido el circuito. Esta resistencia recibe el nombre de impedancia. La impedancia de un micrófono profesional debe ser baja, ya que de esta manera la señal eléctrica que produce la cápsula no se ve degradada, de modo que puede salir con una potencia lo suficientemente buena como para poder llevarla hasta el amplificador usando cables más largos de los que se podrían usar si la impedancia del micrófono fuera alta. En el entorno profesional, una impedancia baja estaría situada entre los 50 y los 1000 ohmios, pero la mayoría de los micrófonos de buena calidad se sitúan entre los 200 y los 600 ohmios. Con esta impedancia se pueden usar cables de cualquier longitud (con la condición de que también sean de baja impedancia). Con los micrófonos de media y alta impedancia (a partir de los 5000 ohmios) no se deben usar cables de más de 6 m de largo, si no se quiere perder calidad en la señal.
2.6.2. Respuesta en frecuencia La respuesta en frecuencia de un micrófono va a determinar su capacidad para poder reproducir fielmente toda la riqueza de frecuencias de la onda sonora. Generalmente, no se puede conseguir una respuesta plana, es decir, que los micrófonos no pueden captar todas las frecuencias presentes en la onda sonora con el mismo nivel con el que llegan a la cápsula (hay micrófonos que acentúan ciertas frecuencias). Por lo tanto, se hace necesario conocer cuál es el comportamiento de cada micrófono con respecto a la frecuencia para decidir cuál usamos, dependiendo de qué tipo de grabación queramos hacer. Si queremos hacer una grabación orquestal, debemos buscar micrófonos con la respuesta más plana posible; pero si queremos grabar voces, podemos utilizar un micrófono que acentúe las frecuencias medias, que son las más importantes en la voz humana. Una de las características de los micrófonos direccionales (recogen solo el sonido que se encuentra en determinada posición con respecto a su eje) es que, si el origen del sonido se sitúa muy cerca de la cápsula, hay un énfasis de las frecuen-
59
Parte II. Grabación
cias graves. A esto se le conoce como efecto proximidad. Para evitarlo, hay que utilizar micrófonos omnidireccionales o ponerse a mayor distancia del micrófono. Esta característica no es exactamente un defecto, puesto que bien utilizada puede servir para que un sonido se registre con más peso del que realmente tendría de grabarse sin ese énfasis en las frecuencias graves. El tamaño del diafragma infl uye en el rango de frecuencias que puede registrar el micrófono, ya que cuanto más grande es, más difícil resulta que pueda vibrar a la velocidad que exigen las frecuencias más altas. Esto ha supuesto un reto para el diseño de cápsulas y diafragmas, ya que el tamaño del diafragma está relacionado con la sensibilidad e infl uye en otros parámetros, como la carga eléctrica que es necesaria para que funcionen correctamente los micrófonos de condensador.
Intensidad (dB)
100
0
-100
50 Hz 100 Hz
500 Hz Frecuencia
1 KHz
5 kHz
20 kHz
Figura 2.6. Representación de la respuesta en frecuencia de un micrófono de buena calidad.
2.6.3. Sensibilidad La sensibilidad del micrófono hace referencia a la potencia de salida eléctrica que se obtiene en relación con el nivel de presión sonora (concepto que es prácticamente equivalente al de potencia o volumen de la señal, pero referido también a la distancia a la que se capta el sonido) sobre la cápsula del micrófono. Hay que tener en cuenta que las señales de salida de los micrófonos son bastante bajas y, como hemos indicado en el apartado dedicado a la cadena de audio, necesitan ser amplifi cadas antes de poder pasar por los circuitos que permitirán su registro para elevarlas al llamado nivel de línea, por lo que cuanta más potencia tengan esas señales, en principio, mucho mejor. Recordemos que existen dos niveles de señal de salida: el de los micrófonos y reproductores con sistemas mecánico-eléctricos (los platos tocadiscos) y el nivel de línea. El nivel de línea es mucho más elevado que
60
Grabación de sonido
el microfónico y es el que utilizan casi todos los elementos de la cadena de registro y reproducción sonora (mesas de mezclas, grabadores, etc.), ya que permite que la señal se vea menos afectada por problemas de ruido e interferencias. Cuanta más amplificación sea necesaria para llevar la señal de un micrófono al nivel de una señal de línea, más posibilidades hay de introducir ruido y distorsiones en la cadena de audio. Así pues, la sensibilidad debería ser, en teoría, lo más alta posible. En la práctica, una alta sensibilidad está reñida con otras características del micrófono, de manera que si ampliamos las dimensiones del diafragma para obtener una mayor señal, se resiente la respuesta en frecuencia, por lo que siempre hay que llegar a un compromiso. La sensibilidad, por otra parte, está directamente relacionada con el tipo de transductor que se utilice, como veremos más adelante.
2.6.4. Respuesta transitoria En relación con la frecuencia y la sensibilidad, podemos hablar de la respuesta transitoria o de transientes del micrófono, que hace referencia a la capacidad para representar de forma fidedigna el ataque de la fuente sonora (del que hablamos en el capítulo 1). Este tipo de respuesta es especialmente importante en el caso de aquellas fuentes sonoras que tengan un ataque potente, como instrumentos de percusión o sonidos plosivos (truenos, explosiones, estruendos, etc.), ya que, si el micrófono no responde convenientemente, puede dar lugar a una distorsión o a un mal registro del timbre de la fuente que se trate.
2.6.5. Otros problemas Junto con las características ya indicadas, el micrófono se ve afectado por los problemas comunes a toda la cadena de audio. En el caso de los micrófonos, el ruido se refiere al sonido que produce el propio micrófono en ausencia de ondas sonoras que hagan vibrar el diafragma. Este parámetro debería estar en los niveles más bajos posibles, sobre todo desde la aparición de los soportes digitales que, al no tener ruido de fondo, revelan cualquier problema de ruido que tenga un micrófono. Se entiende que un micrófono de buena calidad no debería proporcionar un nivel de ruido por encima de los 20 dB. Si ponemos en relación el ruido propio del micrófono con el nivel de presión sonora que puede resistir antes de distorsionar, obtenemos la relación señal-ruido de ese micrófono. De este modo, un micrófono que tenga como nivel de presión sonora máximo 130 dB y un ruido propio establecido en 20 dB tiene una relación señal-ruido de 110 dB. Esta información es importante, pues nos sirve para establecer si con un micrófono determinado podemos cubrir el rango dinámico del sonido que vamos a grabar sin introducir ruido ni producir distorsión. Una gran orquesta a
61
Parte II. Grabación
todo volumen, por ejemplo, exige micrófonos capaces de soportar una alta presión sonora, mientras que, si vamos a grabar una voz, podemos ser menos exigentes. También es posible que el micrófono añada distorsión a la señal, sobre todo si tratamos de registrar un sonido con alta presión sonora que sature la capacidad del micrófono para registrarlas. Precisamente por ello, el valor de la distorsión suele ofrecerse como un porcentaje asociado a una potencia concreta en decibelios. Como sucede con otras características, si queremos construir un micrófono que soporte una alta presión sonora, podemos comprometer la sensibilidad. Un buen micrófono debería soportar unos 130 dB sin distorsionar. Finalmente, un buen micrófono también debe evitar la influencia de señales de ruido externas. Estas se refieren tanto a los ruidos producidos por su manipulación como los debidos a interferencias radioeléctricas. Para ello, se aíslan los micrófonos, tanto mecánica como electrónicamente, para evitar esta clase de ruidos. De hecho, la calidad final de un micrófono viene también determinada, en gran parte, por la mejor o peor calidad de su aislamiento físico y electrónico. Se podría clasificar a los micrófonos por diferentes características. Las más utilizadas son la direccionalidad y el tipo de transductor. En los siguientes apartados hacemos un repaso por los diferentes tipos de micrófonos.
2.7. Clasificación de micrófonos por su direccionalidad La direccionalidad de un micrófono viene dada por el llamado diagrama polar. El diagrama polar de un micrófono es un gráfico que representa la capacidad que tiene para captar el sonido en el ángulo de 360o que lo rodea. Para determinar el diagrama polar de un micrófono, se coloca enfrente una fuente sonora que emite una frecuencia determinada a 0 dB. Tras medir la tensión de salida del micrófono, que será considerada tensión de referencia a 0 dB, se va girando transversalmente al eje de la cápsula y se van anotando los diferentes valores de salida en ángulos determinados. Los valores son representados luego sobre un diagrama en forma de circunferencia que muestra los valores de tensión medidos y los ángulos en que se encontraron. Este es el diagrama polar. Esta medición se suele repetir para varias frecuencias distintas, ya que cuanto más alta es la frecuencia de la onda sonora, más direccional se vuelve cualquier micrófono. Si queremos conocer la respuesta de un micrófono a una frecuencia concreta, lo lógico es efectuar una medición utilizando dicha frecuencia. Por otro lado, hay que tener en cuenta que si bien estos diagramas representan un eje horizontal o vertical, ya que necesitan adaptarse al plano del papel o pantalla, en realidad, deberían representarse tridimensionalmente en los dos ejes para poder visualizar correctamente su respuesta direccional. Hay tres diseños básicos de diagrama polar: omnidireccional, bidireccional y unidireccional. 62
Grabación de sonido
2.7.1. Micrófonos omnidireccionales Un micrófono omnidireccional devolverá la misma energía en todos los ángulos en los que se coloque la fuente sonora. Eso quiere decir que cualquier fuente de sonido que se sitúe alrededor del micrófono en cualquier punto será registrada con la misma intensidad. La utilización de micrófonos omnidireccionales exige un mayor control del entorno, ya que, al registrar todo el sonido circundante, puede recoger elementos indeseados. Por este motivo, suelen usarse, sobre todo, en estudio para grabar a varias personas que pueden situarse alrededor del micrófono. También es un patrón común en algunos micrófonos de corbata.
Figura 2.7. Patrón polar omnidireccional.
2.7.2. Micrófonos bidireccionales Los micrófonos bidireccionales tienen una sensibilidad máxima a ambos lados del micrófono y casi nula en el centro. La bidireccionalidad puede conseguirse de dos modos: como veremos en un apartado posterior, los micrófonos de cinta son bidireccionales por construcción, ya que el diafragma recoge sonido por los dos lados, discriminando los sonidos laterales. Sin embargo, existe también la posibilidad de combinar dos cápsulas de micrófono contrapuestas dentro del cuerpo de un micrófono. Este tipo de combinación es habitual en los micrófonos de condensador, que incorporan la posibilidad de escoger entre patrones polares diferentes introduciendo distintos desfases entre las dos cápsulas. Así se consiguen patrones que van desde los omnidireccionales a los unidireccionales, pasando por el bidireccional. 63
Parte II. Grabación
Figura 2.8. Patrón polar bidireccional.
2.7.3. Micrófonos unidireccionales Los micrófonos unidireccionales se subdividen en cardioides (figura 2.9), supercardioides (figura 2.10) e hipercardioides o de cañón (figura 2.11), dependiendo de la discriminación que hagan de las fuentes sonoras a medida que se mueven alrededor del punto frontal al diafragma. A diferencia de los micrófonos bidireccionales que pueden serlo por el tipo de diafragma, sin más, los unidireccionales suelen combinar el uso de distintos tipos de diafragma con un diseño de la estructura del micrófono que impide que los sonidos laterales lleguen a la cápsula. Como consecuencia de esa estructura en el cuerpo del micrófono, los que son más direccionales tienen una longitud elevada, ya que el sistema mecánico que impide que entren los sonidos laterales lo exige.
Figura 2.9. Patrón polar cardioide.
Figura 2.10. Patrón polar supercadioide. 64
Figura 2.11. Patrón polar hipercadioide.
Grabación de sonido
Los diagramas polares son muy importantes a la hora de escoger un micrófono para una aplicación concreta. Así, por ejemplo, dentro del mundo del sonido directo cinematográfico y a la hora de grabar instrumentos individuales, se tiende al uso de micrófonos supercardioides o hipercardioides para aislar las fuentes sonoras del resto de los sonidos que pudieran estar presentes, mientras que en los estudios de doblaje puede usarse un diagrama omnidireccional para recoger el sonido de varios actores que estén actuando simultáneamente o, en el caso de los efectos sala para cine, micrófonos omnidireccionales o cardioides de gran diafragma.
2.8. Tipos de diafragma y direccionalidad Como ya hemos indicado, el diafragma es la superficie donde se reciben las vibraciones de la fuente sonora para ser convertidas posteriormente en señal eléctrica, usando un cierto tipo de transductor, cuya clasificación veremos más adelante. Los diafragmas que usan los micrófonos son de dos tipos: de presión y de gradiente. Los de presión se colocan sobre una especie de pequeña caja que deja uno de los lados del diafragma dentro de ella y el otro lado expuesto a las vibraciones sonoras, de manera que solo afectan a ese lado del diafragma. Aunque puede parecer paradójico, son omnidireccionales, en principio, ya que las frecuencias cuya longitud de onda supere el tamaño del micrófono, lo atravesarán y llegarán a la cara sensible del diafragma. Si recordamos el capítulo 1, la longitud de onda es inversamente proporcional a la frecuencia, es decir, cuanto más alta es la frecuencia, más corta es la longitud de onda. Esto quiere decir que a partir del momento en que las frecuencias a registrar tienen una longitud de onda más pequeña que el tamaño del micrófono, hay un bloqueo de esas frecuencias y, por lo tanto, la captación de sonido empieza a ser más direccional. Precisamente por ello, los fabricantes de micrófonos crean caminos y aberturas en esa pequeña caja en la que hemos dicho que el diafragma funciona como tapa, de manera que el comportamiento del micrófono no sea estrictamente de presión y, por lo tanto, aumente su omnidireccionalidad. Es el caso, por ejemplo, de los micrófonos dinámicos de bobina móvil. Los micrófonos de gradiente, en cambio, tienen las dos caras del diafragma expuestas, como sucede en los micrófonos de cinta, de manera que la vibración puede llegar por cualquiera de los dos planos del diafragma, pero no lateralmente. Los micrófonos suelen incorporar modificaciones mecánicas para cambiar la respuesta que, en principio, deberían tener por construcción. Así, es posible bloquear una de las dos caras del diafragma de un micrófono de cinta para que tenga un comportamiento más cercano a uno de presión, mientras que, con las modificaciones que antes hemos explicado, es posible que un micrófono de presión se comporte, en parte, como uno de gradiente. Este último tipo de diafragma recibe el nombre de gradiente de presión. En la actualidad es normal que los micrófonos combinen diversos sistemas basados en el comportamiento de los diafragmas para modificar su direccionalidad. En unos casos, utilizando un único diafragma y, en otros, colocando dos dentro de 65
Parte II. Grabación
la carcasa del micrófono, de manera que, combinándolos, se puedan obtener distintos patrones polares, desde el omnidireccional hasta el bidireccional. Los micrófonos de gradiente de presión tienen un efecto proximidad bastante acusado, si bien también los de presión la sufren. Esto se debe a que el efecto proximidad está relacionado con la energía que recibe el micrófono cuando se encuentra muy cerca de la fuente sonora. El modo en que se produce el movimiento de las moléculas de aire provoca este efecto proximidad.
2.9. Clasificación de micrófonos por el tipo de transductor: transductores electromagnéticos Los transductores electromagnéticos son aquellos que se basan en el uso de un imán para convertir las vibraciones de la membrana en señales eléctricas. Hay varias maneras de utilizar los imanes.
2.9.1. Micrófono dinámico de bobina móvil Este micrófono se basa en el uso de una bobina de hilo de cobre conectada al diafragma del micrófono, que se mueve cuando vibra el diafragma. La bobina móvil se encuentra suspendida dentro de un campo magnético permanente que genera impulsos eléctricos cuyas intensidades son proporcionales a ese movimiento y, por lo tanto, a la intensidad de la onda sonora. El principio de funcionamiento de estos micrófonos es el mismo de algunos generadores de corriente eléctrica basados en una dinamo cuyo nombre, al igual que el del tipo de transductor, hace referencia al principio electromagnético de su funcionamiento. Por otra parte, este tipo de micrófonos tiene una estructura parecida a la de un altavoz invertido: mientras que en el altavoz la membrana vibra para reproducir el sonido, en el micrófono dinámico es el sonido externo el que hace vibrar la membrana, pero sus estructuras básicas y partes que los conforman son prácticamente equivalentes. Estos micrófonos son muy utilizados en actuaciones en el escenario por su robustez. Tienen, además, bastante resistencia a la distorsión. Su respuesta en frecuencia suele tener una elevación de la señal alrededor de los 5 KHz y decae por encima de los 8 o 10 KHz, debido a que la inercia del sistema no permite que la bobina se mueva con la rapidez que exigen las altas frecuencias. Un modo de superar la limitación en el registro de frecuencia de este tipo de transductores consiste en usar dos cápsulas en el mismo cuerpo del micrófono, de manera que una capte frecuencias bajas y la otra recoja las más altas.
2.9.2. Micrófono dinámico de cinta En el micrófono de cinta también encontramos un imán permanente que genera un campo magnético, pero con la diferencia de que no existe diafragma y bobina, sino 66
Grabación de sonido
una delgada cinta de metal plisada (habitualmente aluminio), que cumple ambas funciones. La generación de impulsos eléctricos viene dada por la presión de las ondas sonoras sobre la cinta que, al vibrar, genera un voltaje. Debido al bajo nivel de la señal que produce la lámina, es necesario que incluya un transformador de impedancia para elevarla a niveles normales, colocado en la propia carcasa del micrófono. Este micrófono presenta una mejor respuesta en frecuencia que el de bobina móvil, ya que puede registrar entre 40 Hz y 14 000 Hz. Su incapacidad para registrar frecuencias más altas tiene una causa similar a la del micrófono de bobina: la cinta tiene un límite en su capacidad vibratoria; para elevar esta capacidad de vibración se puede recortar la longitud de la cinta, pero entonces el nivel de salida de los impulsos eléctricos cae por debajo de los límites para asegurar una buena calidad. Hay micrófonos que solucionan este problema de un modo similar al de las dos cápsulas para los micrófonos de bobina. Es este caso, se combinan dos cintas de la mitad de la longitud conectadas en serie, de manera que se asegura el nivel de salida eléctrico con una mejora en la respuesta en frecuencia.
Figura 2.12. Aspecto esquemático de la cinta plegada que se utiliza en este tipo de micrófono.
El uso de la cinta permite recoger sonido desde los dos lados opuestos al plano en el que se coloque, pero es imposible hacer un micrófono omnidireccional de cinta con un solo diafragma, dado que capta muy mal los sonidos laterales. Además, la cinta es muy frágil y puede dañarse con facilidad, incluso ante la sola presencia de un alto nivel de presión sonora, y es especialmente sensible a los golpes y al ruido del viento, por lo que no es aconsejable su uso en exteriores.
2.10. Clasificación de micrófonos por el tipo de transductor: transductores electrónicos Los transductores electrónicos son aquellos que necesitan una fuente de alimentación de algún tipo para poder funcionar. Si bien puede haber micrófonos electromagnéticos de buena calidad, los que utilizan transductores electrónicos son los que, a priori, ofrecen una mayor calidad y una señal más potente por lo que están intrínsecamente relacionados con la grabación de estudio. 67
Parte II. Grabación
2.10.1. Micrófono de condensador Los micrófonos de condensador son los más utilizados en el entorno profesional, ya que tienen la mejor respuesta en frecuencia y el mejor nivel de salida. Una de sus características básicas es que no necesitan de un campo magnético para funcionar, de manera que su tamaño no está predeterminado por la presencia de imanes o bobinas, lo que sí ocurre con los micrófonos dinámicos que no pueden ser de pequeño tamaño. Los micrófonos de condensador basan su funcionamiento en el uso de dos láminas paralelas separadas por un estrecho espacio de aire. Una de las láminas es, en realidad, un diafragma hecho de plástico metalizado, mientras que la otra es de metal y es fija. Las dos placas son dos electrodos a los que se les aplica un voltaje mediante una altísima resistencia. De esta forma, las dos placas se convierten en un condensador (un elemento electrónico que sirve, en principio, para conseguir acumular un alto voltaje) que mantiene una carga constante de corriente. Cuando la onda sonora golpea el diafragma de la placa correspondiente, produce una vibración, lo que hace que se acerque y se aleje de la placa fija, proporcionalmente a la frecuencia e intensidad de la onda sonora. Esto provoca que los niveles de corriente se alteren de un modo proporcional a las vibraciones del diafragma, o lo que es lo mismo, que varíe la capacidad del condensador, es decir, su voltaje. Estas variaciones en el voltaje son los impulsos eléctricos que pueden ser registrados, una vez se amplifiquen para llevarlos al nivel de línea. Al tratarse de un sistema que ya utiliza una corriente eléctrica con voltaje determinado, la señal que sale del micrófono tiene una mayor potencia que la que producen los micrófonos electromagnéticos. Así, esta señal tiene, en principio, mayor calidad. En los inicios de los micrófonos de condensador, los componentes externos que necesitaban para crear la diferencia de corriente (transistores de válvulas, sobre todo), y los ajustes de la señal antes de que se amplificara, hacían muy complicado su uso, ya que algunos elementos tenían que colocarse fuera de la carcasa. Sin embargo, debido a su calidad se siguieron utilizando en el entorno profesional. Una vez se desarrollaron transistores más pequeños se pudieron colocar todos los elementos electrónicos necesarios en la propia carcasa del micrófono y se abarató y popularizó su uso. El uso de un condensador como sistema transductor permite que el micrófono registre frecuencias en todo el espectro audible (de 20 Hz a 20 KHz o incluso más), con una respuesta en frecuencia prácticamente plana, ya que se puede usar un diafragma tan pequeño como se desee, puesto que su sensibilidad no depende de su tamaño, sino de la presencia de corriente. De hecho, en los primeros micrófonos de condensador se utilizaban corrientes de más de 100 voltios para polarizar el condensador. Hoy se consigue que, con corrientes de alimentación bajas, en el condensador se acumulen corrientes más altas, lo que aumenta la seguridad en el manejo de estos micrófonos. 68
Grabación de sonido
Figura 2.13. Micrófono de condensador con patrón polar seleccionable.
Como hemos indicado, estos micrófonos necesitan una corriente eléctrica para funcionar (generalmente, 48 voltios, aunque hay micrófonos que pueden funcionar con entre 9 y algo más de 48 voltios), lo que se soluciona, por lo general, mediante la llamada alimentación phantom. Se trata de un sistema que permite que el propio cable que transporta la señal de audio del micrófono también pueda llevar la corriente necesaria para alimentar el condensador desde una alimentación eléctrica que se encuentra en el equipo al que se conecte el micrófono (mesa de mezclas, grabador, etc.). El hecho de que se le denomine fantasma proviene de que, si se conecta un micrófono que no sea de condensador a ese cable que lleva corriente, el equipo lo detecta y no se la suministra, ya que, en caso contrario, podría quemar el micrófono. La progresiva miniaturización de la electrónica ha permitido que existan micrófonos de condensador alimentados con baterías, lo que les hace más versátiles, como ocurre en los micrófonos de condensador más sencillos. Existe otro sistema de alimentación llamado A-B, de 12 voltios por lo general, que también utiliza el propio cable del micrófono para transportar la corriente, solo que en este caso hay que anular la corriente antes de conectar un micrófono que no sea de condensador a ese mismo cable, ya que, si no se hace así, se produciría un cortocircuito. Este tipo de alimentación era habitual encontrarla en los equipos de grabación de sonido cinematográfico, y hoy está en desuso.
2.10.2. Micrófonos electret Un tipo especial de micrófono de condensador es el micrófono electret. Como hemos visto, los micrófonos de condensador necesitan alimentación eléctrica para
69
Parte II. Grabación
la corriente de polarización de las placas del condensador y para el amplificador que regula la señal posteriormente. En los micrófonos de electret se ha eliminado la necesidad de la corriente de polarización mediante la inducción de una carga electrostática permanente en el diafragma durante el proceso de fabricación, de manera que solo es necesario alimentar el amplificador de señal. Puesto que la energía necesaria para alimentar el amplificador no es elevada, se puede usar una pequeña batería, de manera que el micrófono es bastante compacto.
Figura 2.14. Micrófono electret. Se suelen usar como micrófono de corbata por su pequeño tamaño.
El único problema que tienen los micrófonos electret es que para inducir la carga permanente es necesario que el diafragma tenga cierto tamaño mínimo, lo que reduce su respuesta en frecuencia al rango de los micrófonos de bobina móvil. Para evitar este problema se consiguió que fuera la placa permanente que registra las variaciones de corriente la que mantuviera la carga electrostática permanente, liberando al diafragma de tener obligatoriamente un tamaño mínimo. Esto permitió reducir su tamaño y aumentar su respuesta en frecuencia, con lo que actualmente se dispone de micrófonos de alta calidad de este tipo con una respuesta parecida a uno de condensador convencional.
2.11. Otros tipos de micrófonos Existen otros tipos de transductores que no se utilizan actualmente en el terreno profesional, ya sea porque han quedado obsoletos, por su carácter experimental, por su baja calidad o porque no han tenido el éxito comercial esperado. Uno de los que ya no se usa, pero que fue el primero en aparecer, es el micrófono de carbón. Este micrófono fue utilizado en las primeras grabaciones y, hasta finales del siglo xx, se ha venido utilizando en los teléfonos, dado que son muy baratos de producir. Sin embargo, su escasa calidad y el abaratamiento de los micrófonos
70
Grabación de sonido
electret ha propiciado su casi desaparición, quedando todavía algunos en cabinas telefónicas y algún interfono o portero automático. Su principio se basa en el uso de granos de carbón empaquetados que, al ser presionados por la vibración del diafragma, cambian su resistencia a la corriente. Estos micrófonos también necesitaban de alimentación eléctrica para su funcionamiento, y su respuesta en frecuencia era defectuosa y con alto nivel de ruido. Los micrófonos piezoeléctricos, también llamados de cristal, se basan en las propiedades de ciertos minerales para producir electricidad cuando son golpeados o presionados, como, por ejemplo, el cuarzo. Mediante el uso de dos láminas de estos materiales polarizados opuestamente se puede conseguir que las vibraciones de un diafragma convencional generen impulsos eléctricos. El problema de estos micrófonos es que la corriente que generan es bastante inestable, lo que puede dar lugar a problemas en el registro de la intensidad sonora, y tienen una impedancia muy alta. Generalmente, se usan solo en el ámbito de la grabación musical para registrar el sonido de instrumentos de cuerda, usados como micrófonos de contacto, en el puente o pegados a la tapa de los instrumentos.
2.12. Micrófonos inalámbricos En realidad, los micrófonos inalámbricos no son un tipo especial de micrófono. Cuando se habla de micrófonos inalámbricos se está haciendo referencia a la combinación de un elemento microfónico con un emisor y un receptor de ondas. En algunos casos, micrófono y emisor van integrados en la misma carcasa, y forman un elemento compacto, mientras que en otros se usa un micrófono de cualquier tipo que se conecta a un emisor. Cuando se usan varios micrófonos inalámbricos simultáneamente, cada uno utiliza una frecuencia de transmisión lo suficientemente separada como para que no se produzcan interferencias, lo que obliga a tener varios emisores y receptores que recojan la señal de cada micrófono (normalmente, los receptores tienen un indicador de potencia para detectar lugares donde no se recibe la señal del micrófono). Si tenemos en cuenta que los emisores tienen escasa potencia para evitar interferencias con otros equipos, los indicadores de recepción son especialmente importantes para establecer la ubicación de los receptores, de manera que mantengan siempre conexión con la señal que está siendo emitida desde los micrófonos. En la actualidad, las antiguas frecuencias de la banda de VHF que se utilizaban en el siglo xx para la transmisión inalámbrica han dado paso en el siglo xxi a frecuencias wifi mucho más altas, que combinadas con la digitalización de la señal, han mejorado la calidad del sonido transmitido y lo ha librado prácticamente de interferencias. Por otra parte, en los sistemas más profesionales se duplica la banda de emisión para que, en el caso de que falle una, el micrófono, automáticamente, escoja la otra. 71
Parte II. Grabación
Preguntas de autoevaluación 1. El oído humano puede percibir, por lo general, una gama de frecuencias entre: � a) 2000 y 10 000 Hz. � b) 10 y 10 000 Hz. � c) 20 y 20 000 Hz.
2. La gama dinámica que puede registrar un equipo: � a) Es la que se encuentra entre el valor máximo de volumen que puede
registrar y el valor del ruido inherente al sistema. � b) Es la que se encuentra en el valor máximo de volumen que puede registrar. � c) Es la que se encuentra sumando el valor máximo de volumen que puede registrar más el valor del ruido inherente al sistema 3. En la cápsula de un micrófono encontramos: � a) El condensador y la fuente de alimentación. � b) El diafragma y el transductor. � c) El conector y la rejilla.
4. Los micrófonos unidireccionales se dividen en: � a) Hiperdireccionales, ultradireccionales y antidireccionales. � b) Cardioide, supercardioide e hipercardioide. � c) Cardioide, ultracardioide y omnicardioide.
5. Los micrófonos de condensador, por lo general: � a) Tienen una señal de salida de más potencia que los dinámicos de bobina
móvil.
� b) Tienen una señal de salida de menor potencia que los dinámicos de bo-
bina móvil.
� c) No se diferencian sustancialmente en su señal de salida de los dinámicos
de bobina móvil.
72
3
Técnicas de grabación
El registro y procesado de sonido supone un trabajo que ha ido haciéndose cada vez más complejo. En sus inicios, el sonido se grababa en directo, sin posibilidad de hacer ningún tipo de posproducción. En el caso de las grabaciones musicales, se grababan todos los instrumentos y las voces simultáneamente, y en el del sonido cinematográfico, a la vez que se registraba la imagen. Desde esos inicios hasta la actualidad el sonido ha ido procesándose de forma cada vez más compleja, desde la introducción de la grabación multipista sucesiva en el caso de la grabación musical, hasta los complejos sistemas multipista y multicanal de sonido cinematográfico. La digitalización de la señal sonora ha cambiado la manera de enfrentarse al trabajo por parte de los diseñadores de sonido. En este capítulo, una vez explicado el uso de los micrófonos en el capítulo anterior, iniciamos la explicación de los procesos que suponen el registro y procesado a lo largo del resto de la cadena de sonido. Dedicaremos varios apartados al sonido para cine y audiovisual en general, que tiene unas características propias, y constituye uno de los ámbitos más importantes y complejos del registro y reproducción de sonido.
3.1. Soportes y sistemas de la grabación sonora Existen, en la actualidad, multitud de sistemas en el mercado que ofrecen la oportunidad de registrar y reproducir sonido. La revolución digital de la década de los 90 del siglo pasado trajo consigo la aparición de nuevos soportes y nuevas maneras de grabar. Hoy en día, los sistemas que se utilizan en la grabación sonora son radicalmente diferentes a los utilizados en la etapa analógica de la grabación sonora. No obstante, todavía hoy quedan quienes, más por una cuestión experimental o de una cierta estética, utilizan sistemas analógicos. En este apartado vamos a ofrecer una clasificación de los sistemas actuales, si bien antes haremos una pequeña reseña histórica de los sistemas anteriores.
73
Parte II. Grabación
3.1.1. Un pequeño apunte histórico A lo largo de la historia de la grabación sonora, los soportes y sistemas han sido muy variados, y su evolución ha sido impresionante, a diferencia de los micrófonos. Los micrófonos que se fabrican y diseñan en la actualidad son básicamente los mismos que ya estaban presentes en los primeros sistemas electrónicos que empezaron a utilizarse a principios del siglo xx. Tan solo se han producido mejoras sobre esos sistemas, hasta el punto de que en los estudios todavía hoy se utilizan micrófonos fabricados a mediados del siglo xx. Además, hay micrófonos diseñados en el mismo periodo que se siguen fabricando hoy con mínimas modificaciones. Sin embargo, los sistemas de grabación han ido cambiando de un modo radical, arrastrados por las mejoras que se iban produciendo en los soportes y la forma de registro. Hacemos, a continuación, un breve repaso de estos sistemas para comprender mejor en qué momento nos encontramos en el entorno de la grabación sonora. Los primeros sistemas de grabación sonora se basaban en la energía que producía la vibración sonora sin intervención de ningún elemento eléctrico. La simple vibración recogida por algún tipo de elemento que concentrara las ondas sonoras, generalmente en forma de cono, llevaba la vibración a una aguja que grababa un surco sobre un soporte en movimiento vertical en los inicios (rodillos), y horizontal más tarde (discos). Para la reproducción se invertía el sistema, la aguja leía el surco y enviaba la vibración a ese elemento en forma de cono que ahora servía de altavoz. Con la introducción de la electricidad, las ondas sonoras fueron convertidas en energía eléctrica y amplificadas antes de ser transmitidas a la aguja para la grabación, mientras que en la reproducción el movimiento de la aguja era convertido en energía eléctrica y amplificado antes de ser transmitido a los altavoces. Los primeros soportes utilizados para este tipo de grabación fueron los rodillos de fonógrafo que, en el entorno del sonido cinematográfico, dieron lugar al kinetófono de Edison. Posteriormente, los rodillos dieron paso a los discos de gramófono, desarrollado por Alan Berliner, que fueron la base, a su vez, del sistema vitaphone, con el que se rodó el primer largometraje sonoro que tuvo éxito masivo y que, por ello, figura en los libros de historia del cine como primera película sonora El cantor de jazz (Crosland, 1927). La introducción de la grabación magnética en cinta –invento alemán que se convirtió en botín de guerra para los ingenieros norteamericanos tras el final de la Segunda Guerra Mundial– permitió realizar una edición de sonido más versátil que la que era posible realizar mediante el uso de discos. Hay que tener en cuenta que cualquier posproducción que quisiera hacerse a partir de los discos implicaba necesariamente una regrabación, mientras que con la aparición de la grabación magnética se asentaron las bases para, al menos, reducir las regrabaciones mediante el uso de la grabación multipista sucesiva (cada pista se podía grabar una por una, en sincronía con las restantes). También se podía realizar la edición física del soporte 74
Técnicas de grabación
(cortes y empalmes en la cinta), que eran imposibles con los discos. En el caso del sonido audiovisual, la introducción de la cinta permitió abandonar la grabación de sonido óptico (que utilizaba células fotoeléctricas para registrar el sonido en forma de imágenes sobre una película), lo que permitió reproducir el sonido directo inmediatamente tras ser grabado, sin que hubiera que esperar a revelar la película de sonido para poder reproducirla. A lo largo de los años 50 y 60 del siglo pasado, la grabación magnética elevó la calidad del registro de sonido, lo que supuso una expansión de la industria discográfica (mediante la introducción del disco microsurco y, posteriormente, el llamado inicialmente compact cassette, o casete, a secas, como soportes de reproducción doméstica) y la mejora de la calidad de aquellos medios que dependían del sonido, sobre todo, como es evidente, la radio. En el caso del cine (la televisión apenas usaba el sonido como complemento de la imagen), la calidad de la banda sonora sobre soporte magnético llegó a ser igual a la de las grabaciones musicales. La reproducción magnética del sonido acompañó durante algunos años a los sistemas de pantalla panorámica que proliferaron en esas décadas para hacer frente al auge de la televisión. En el caso del Cinerama, el sistema más sofisticado, se utilizaba una película de 35 mm que solo servía como soporte magnético de siete pistas grabadas, sincronizada con la proyección de imagen. Sin embargo, los sistemas de reproducción en sala que usaban el soporte magnético no duraron mucho debido a las complicaciones que suponían para el mantenimiento de los equipos y la conservación de las pistas grabadas sobre el celuloide. Hasta la llegada de los sistemas Dolby, el cine en salas solo contó con sonido óptico con una calidad mínima. Sin embargo, en el campo del registro sonoro en rodaje los sistemas magnéticos se hicieron hegemónicos hasta la llegada de los digitales, con el reinado de los grabadores analógicos portátiles de cinta abierta de la marca suiza Nagra durante varias décadas. El último capítulo de esta pequeña historia corresponde a la digitalización de la grabación sonora. La digitalización permitió mejorar la automatización del proceso y edición de sonido, e hizo posible la introducción de sistemas virtuales de procesado, reduciendo el número de elementos del estudio, que podían ser ejecutados en forma de software dentro de un ordenador. En el caso del sonido para audiovisuales, la digitalización llegó, en primer lugar, al registro de sonido directo. En principio se efectuaba sobre cinta, incorporándose el DAT como sistema hegemónico durante un tiempo bastante corto, dado que en pocos años se introdujo la grabación sobre discos ópticos (CDs) y, un tiempo después, la grabación sobre disco duro y disco de estado sólido, que es el que se usa mayoritariamente en la actualidad. En el terreno de la difusión de las grabaciones sonoras, la aparición del compact disc supuso un cambio sustancial en la calidad con que se reproducía la música en el entorno doméstico. Este formato permitió que equipos modestos equipararan su calidad con la de equipos mucho más sofisticados y, en cierto modo, democratizó la posibilidad de escuchar sonido en alta calidad. 75
Parte II. Grabación
En lo que se refiere al cine, la digitalización permitió la aparición de los sistemas multicanal (Dolby Digital, SDDS y DTS). Con el advenimiento del cine digital, la reproducción dejó de depender del soporte celuloide, de manera que el sonido empezó a convivir, dentro del disco duro, con los datos de imagen, permitiendo configuraciones donde los canales de sonido se multiplican por decenas.
3.1.2. Soportes de grabación de sonido en la actualidad Los antiguos sistemas de grabación analógica y los primeros sistemas digitales basados en cinta y discos eran bastante cerrados, en el sentido de que cada sistema utilizaba una serie de elementos que eran propios de ese sistema, y el resultado de la grabación estaba determinado por el soporte. Actualmente, los sistemas son mucho más modulares, de manera que es posible utilizar soportes genéricos, propios de otros sistemas, para el registro de los datos. Traemos aquí, no obstante, algunos de esos sistemas porque todavía hoy es posible encontrarlos en uso, aunque sea en producciones esporádicas aisladas. El sistema analógico más utilizado hasta la llegada de los digitales fue el grabador de cinta abierta (carretes de cinta que no estaban protegidos en una carcasa cerrada como el casete). Su calidad era y sigue siendo tal que puede llegar a competir con las grabaciones digitales, a pesar de ser un sistema completamente analógico. Para conseguirlo, se juega con la velocidad de la cinta a su paso por las cabezas grabadoras o lectoras de la máquina. La cinta puede correr a velocidades determinadas, dependiendo de la calidad que quiera obtenerse, entre 1 7/8 y 30 pulgadas por segundo (ips). En radio en onda media, por ejemplo, solía usarse la velocidad de 3 ¾ ips, mientras que en FM era habitual usar la de 7 ½ ips. Dentro del entorno del estudio de grabación, lo normal es usar una velocidad de 15 ips, si bien, de manera excepcional, a veces se llega a las 30 ips. La mayor velocidad permite registrar frecuencias más altas con un menor nivel de ruido.
Figura 3.1. Carrete de cinta abierta.
76
Técnicas de grabación
En el entorno cinematográfico se usaron sistemas portátiles fabricados por la marca Nagra, que se convirtió en hegemónica en este tipo de grabación. Estos sistemas daban la opción de grabar una señal proveniente de cámara llamada piloton, que permitía sincronizar las más leves variaciones de velocidad de la película con el sonido que se estaba grabando. Tras la irrupción del sonido digital, Nagra siguió ofreciendo sistemas digitales basados en cinta abierta durante bien entrado el siglo xxi. Como ya hemos indicado, otro sistema basado en cinta que se usó para la grabación digital fue el R-DAT o DAT. En el entorno de los estudios se utilizó para grabar másteres digitales de grabaciones musicales, mientras que, en el caso del cine, se usó como sistema de sonido directo. La cinta que utilizaba era de tipo casete, pero más pequeña que la antigua casete analógica, si bien su duración llegaba hasta las dos horas. Normalmente, se trataba de un formato de dos pistas, ya que estaba pensado para la grabación musical, aunque con algunas modificaciones era posible grabar hasta cuatro simultáneas.
Figura 3.2. Cinta DAT.
El ADAT (de Alesis DAT) fue un formato desarrollado durante los años 90 del siglo pasado. Se basaba en la utilización del sistema VHS de vídeo doméstico, pero modificado de manera que sobre una cinta de este formato era posible grabar hasta ocho pistas en formato digital. Este sistema era utilizado en el entorno cinematográfico en las tomas de registro directo cuando era necesario grabar numerosas fuentes de sonido simultáneas. También existía la posibilidad de sincronizar varios grabadores para multiplicar el número de pistas. Un sistema que no tuvo demasiada difusión, pero que se usó a veces como soporte para producciones modestas, tanto musicales como cinematográficas, fue el mini-disc, un formato doméstico de grabación y reproducción que se basaba en un pequeño disco magnetoóptico de tamaño reducido, protegido por una carcasa, capaz de grabar hasta 148 minutos de sonido monofónico, comprimido con un códec propietario de Sony llamado ATRAC. 77
Parte II. Grabación
Figura 3.3. Reproductor y disco mini-disc.
Los sistemas más extendidos de grabación analógica de finales del siglo xx pervivieron durante algún tiempo en los primeros años del siglo xxi con los sistemas digitales, pero en la actualidad la grabación sonora se efectúa, exceptuando algunos casos muy puntuales y casi anecdóticos, como ya hemos indicado, sobre sistemas que utilizan como soporte discos duros de cabeza móvil o memorias de estado sólido. La diferencia entre uno y otro soporte no afecta al proceso de grabación, que es similar. Los discos duros de cabeza móvil (HDD a partir de las siglas de su nombre en inglés, hard disk drive) son los utilizados tradicionalmente en los equipos informáticos desde mediados del siglo xx. Se trata de uno o varios discos superpuestos encerrados en una caja metálica que giran sobre un mismo eje. Cada uno de ellos dispone de un cabezal lector-escritor que se mueve por su superficie de manera similar a como lo haría la aguja de un tocadiscos, aunque libremente hacia el interior o el exterior del disco sin necesidad de seguir un surco. La velocidad de los datos viene determinada por la rapidez con la que giran los discos. Las velocidades más estandarizadas son las de 5400 o 7200 revoluciones por minuto, si bien los hay que llegan a las 10 000 y las 15 000 revoluciones por minuto para algunas aplicaciones concretas. Hoy los discos duros se ofrecen en dos tamaños estándar de 2,5 y 3,5 pulgadas de ancho, siendo los de 2,5 los más usados en sistemas portátiles. Las memorias de estado sólido funcionan bajo principios radicalmente diferentes. Para empezar, no son discos, a pesar de que se presenten a veces bajo el nombre de SSD (solid state drive) dentro de carcasas parecidas a las que albergan los discos duros. Tampoco tienen partes móviles ni cabezas lectoras. Se trata de circuitos electrónicos que pueden adquirir la forma que se desee (como tarjetas, memorias USB, cajas de diversas formas, circuito en placa, etc.). Para la escritura y lectura de los datos utilizan transistores que emplean un sistema de cargas eléctricas (presencia o ausencia de ellas) para registrar la información. En cuanto a ventajas e inconvenientes, los discos duros son económicos comparados con las memorias de estado sólido, pero al tener partes móviles, son más frágiles. Las memorias de estado sólido son, por lo tanto, más robustas, aunque son 78
Técnicas de grabación
más caras y, por construcción, tienen una cantidad limitada de ciclos de escritura en sus circuitos. En el caso de la grabación de campo, ya sea para sonido directo cinematográfico o grabación musical, el soporte preferido es la memoria de estado sólido, ya que permite una mejor movilidad de los equipos.
3.1.3. Sistemas de grabación de sonido directo en la actualidad En lo que se refiere a los sistemas de grabación de sonido directo fuera del estudio, la variedad de los últimos años del siglo xx y primeros del xxi, como consecuencia de la proliferación de soportes y sistemas, se ha visto reducida a un mismo tipo de máquina grabadora. En todos los casos se trata de sistemas que incorporan conectores de micrófono, preamplificadores, conversores analógico-digitales y un disco duro o memoria de estado sólido para registrar los archivos. Mientras en los casos de los sistemas asociados a cierto tipo de soportes la incompatibilidad para poder leer los datos era manifiesta entre unos equipos y otros, en la actualidad todos los sistemas profesionales permiten la grabación de archivos .wav sin comprimir y, en muchas ocasiones, .mp3 con compresión. Los conectores de este tipo de grabadoras profesionales son los estandarizados XLR para los micrófonos (figura 3.4). En algunos casos, se ofrece también la opción de grabar señales de nivel de línea mediante conectores RCA (figura 3.5) o mini Jack (figura 3.6), lo que amplía las opciones de utilización de estos sistemas.
Figura 3.4. Conectores XLR-Cannon.
Figura 3.5. Conectores RCA-Phono.
Figura 3.6. Conectores mini Jack.
Los preamplificadores de micrófono que incorporan las grabadoras suelen ser el criterio que define la calidad de una grabadora de sonido digital. Un preamplificador de baja calidad aportará mucho ruido a la grabación, lo que en entornos profesionales no es admisible. Los preamplificadores que incorporan las grabadoras digitales Nagra suelen ser los más valorados por su bajo nivel de ruido y su respuesta plana en frecuencia, pero en la actualidad hay numerosas marcas que ofrecen productos muy competitivos, como pueden ser las grabadoras Tascam o Zoom. 79
Parte II. Grabación
Los conversores analógico-digitales de los sistemas de grabación digitales en la actualidad han llegado a un nivel en el que es difícil establecer clasificaciones de calidad, ya que su desarrollo garantiza una calidad excelente en prácticamente cualquier grabadora. Además, casi todas incorporan la posibilidad de grabar con una resolución de 192 KHz a 24 bits, lo que permitiría, en teoría, registrar sonidos muy por encima de las capacidades del oído humano. Con los sistemas de almacenamiento sucede lo mismo que con los conversores analógico-digitales, con el ingrediente añadido de que, al tratarse de soportes extraíbles en casi todos los casos, la calidad no depende del fabricante de la grabadora, sino del fabricante del soporte que vamos a utilizar. Dadas las características del sonido, no hay una exigencia de velocidad de escritura que no pueda ser alcanzada por la mayor parte de los discos duros y las memorias de estado sólido existentes en el mercado. Las grabadoras de audio digital son mucho menos exigentes que las de imagen a la hora de que tengamos que decidirnos por una marca u otra. La sincronización entre audio y vídeo puede suponer un problema cuando se graba imagen y sonido en bandas separadas. Los primeros sistemas de grabación sobre disco analógico ya incorporaban una serie de poleas para poner en contacto los motores de la cámara y de los sistemas grabadores, de modo que cualquier fluctuación de velocidad de la imagen se trasladaba al sonido y, como indicamos anteriormente, Nagra introdujo una señal de sincronía en el caso de la grabación magnética. Tras la introducción de osciladores de cuarzo en las cámaras y grabadores se hizo innecesario conectar la cámara y el grabador de sonido, ya que esos osciladores hacían que los motores funcionaran a una misma velocidad exacta. Hoy, los grabadores de sonido profesionales tienen la posibilidad de utilizar código de tiempo SMPTE/EBU (dos organizaciones que reúnen a los principales productores de cine y televisión públicos y privados del mundo), un estándar para la sincronización, utilizado inicialmente en la grabación de vídeo, pero que actualmente se usa también en el entorno del cine digital. Este código de tiempo tiene un formato de hora : minuto : segundo : cuadro, de modo que si la cámara y la grabadora son compatibles con este código de tiempo, mantienen una velocidad estable y exacta. Además, algunas grabadoras de sonido permiten que su reloj de código de tiempo se sincronice con el de la cámara, de modo que la hora de ese código sea la misma en una y otra, lo que facilita la posproducción. Las posibles velocidades de cuadro por segundo son 24, 25, 30, 50 y 60, con variantes derivadas del uso del estándar de televisión NTSC, en algunos países. A la hora de monitorizar la señal, las grabadoras de sonido deben ofrecer, al menos, algún tipo de medición del volumen de la señal que se registra para evitar los problemas derivados de un exceso de volumen de registro. Hay que tener en cuenta que las señales que queden fuera del rango dinámico de las grabadoras digitales (esto es, por encima de la referencia de 0 dB) quedan registradas de modo completamente distorsionado y, por lo tanto, inutilizable, a diferencia de las grabadoras analógicas, que tienen una cierta tolerancia a la saturación antes de que la 80
Técnicas de grabación
señal se considere defectuosa. Las primeras grabadoras analógicas incorporaban vúmetros-picómetros de aguja. Posteriormente, fueron sustituidos por conjuntos de luces led verdes y rojas alineadas que se iluminaban dependiendo del volumen de la señal. En la actualidad, las grabadoras suelen incorporar una pantalla (de tipo OLED en las más avanzadas) en las que puede ofrecerse información diversa sobre el registro de sonido, desde la configuración de pistas hasta vúmetros y picómetros. En algún caso, la pantalla se combina con luces led para informar de los picos de señal que saturan. A la hora de decidirnos por una grabadora u otra, el criterio de calidad principal, paradójicamente, debe ser la calidad de sus componentes analógicos, es decir, los preamplificadores y conectores, aparte de la robustez de su construcción. Más allá de estos componentes, la decisión solo depende de las capacidades que ofrezca la grabadora en lo que se refiere a diseño de la interfaz y número de pistas que se pueden grabar independientemente (dos como mínimo, llegando a ocho en las grabadoras portátiles más sofisticadas). Las marcas más importantes que comercializan este tipo de grabadoras son Nagra, Fostex, Tascam, Zoom, Marantz, Edirol o Sound Devices. Las gamas son amplias y podemos encontrar desde grabadoras de dos pistas sin preamplificadores ni conectores XLR, con micrófono incorporado, hasta grabadoras con varias entradas analógicas y digitales, con controles avanzados de señal.
Figura 3.7. Una grabadora de dos pistas, la Zoom H4N.
El tipo de archivo por antonomasia de los grabadores digitales de campo es el WAV, pero empaquetado dentro de un archivo denominado BWF (Broadcast Wave File). En el capítulo 6 profundizaremos en los formatos de audio, pero apuntaremos aquí que la diferencia entre el WAV y el BWF es que este último permite 81
Parte II. Grabación
incorporar información adicional en forma de metadatos, como código de tiempos, tipo de codificación (bits y resolución), insertar la hora y la fecha de grabación, datos de sincronización, etc. Estos datos pueden ser luego importados en la estación de trabajo donde se vaya a efectuar la edición, de modo que se facilite la identificación de los archivos y su sincronización con la imagen. Estos metadatos suelen ir escritos en algún lenguaje de marcas (al estilo del html usado en la creación de las páginas web), como pueden ser el iXML o el AES31. Estos metadatos sirven también para poder intercambiar sesiones entre distintas estaciones de diferentes marcas, manteniendo los archivos sincronizados. La única diferencia, pues, entre los archivos WAV que podemos encontrar en un ordenador personal y los BWF es esta, manteniéndose la misma calidad de sonido entre unos y otros. Los metadatos no afectan a la calidad, sino que simplemente facilitan el manejo de los archivos. Algunos de esos datos pueden ser sustituidos por una buena gestión personal documental, en el caso de producciones de pequeño tamaño, si bien otros referentes a la sincronización serían mucho más complicados de gestionar manualmente. Muchas de las diferencias entre grabadores profesionales y domésticos están más en la posibilidad de grabar metadatos que en el de la sola calidad del sonido que se obtiene. En lo que se refiere a los estudios, los equipos son más modulares, manteniendo una serie de elementos de la época analógica (conectores y cableado, principalmente), junto a los sistemas digitales de registro que consisten en ordenadores que ejecutan un tipo de software llamado DAW (Digital Audio Workstation), del que hablaremos en el capítulo 4.
3.2. Grabación de sonido directo en cine y televisión En los inicios del cine, el único sonido presente en la banda sonora era el llamado sonido de producción o sonido directo, es decir, aquel que se grababa a la vez que se registraba la imagen, sin que existieran posibilidades de efectuar manipulaciones posteriores. Desde ese momento, a lo largo de su historia, el sonido de las películas ha ido procesándose de forma cada vez más independiente con respecto a la imagen, mientras que el número de personas y elementos técnicos implicados en su elaboración ha ido en aumento. Esa creciente complejidad ha llegado a enmascarar la necesidad de disponer de un buen sonido de producción, y llevó a algunos directores a despreciar el sonido directo, para recrear posteriormente toda la banda sonora (entendida como todos los sonidos de la película) en estudio. A pesar de ello, el sonido directo se vio revalorizado a partir de movimientos estéticos que propugnaban una filmación realista que valorara la interpretación en escena de los actores, sobre todo a partir de los años 60 del siglo pasado. Para el cine de bajo presupuesto, conseguir un buen sonido directo es una necesidad, ya que no se suele disponer de presupuesto para reconstruir la banda sonora. El sonido directo tal vez sea el proceso más sencillo de efectuar dentro de 82
Técnicas de grabación
todos los que supone la creación de la banda sonora, pero también el más crítico, ya que, de haber algún defecto, no es posible repetirlo, puesto que su carácter es inseparable de la toma de imagen. Por lo tanto, deberá cuidarse si no queremos o no podemos reconstruirlo en estudio. El sonido directo trata de captar, sobre todo, las voces de los actores. Otra de las funciones es grabar sonido ambiente, o wild tracks, para poder utilizarlas en la posproducción de la película.
3.2.1. La preparación del equipo El equipo mínimo necesario para grabar sonido para cine y vídeo incluye un micrófono, un cable para conectarlo y una grabadora. Sobre ese equipo básico podemos ir añadiendo elementos que mejoren la funcionalidad de la grabación. El tipo de micrófono utilizado en rodajes suele ser de condensador con patrón polar hipercardioide. Este tipo de micrófonos ofrece alta calidad de sonido (por su característica de condensador) y una gran discriminación de sonidos que provengan de los lados del micrófono, de modo que solo se recogen con claridad las fuentes sonoras situadas enfrente de la cápsula del micrófono. Teniendo en cuenta que hay grabadoras que permiten grabar simultáneamente hasta seis u ocho pistas, podemos disponer de tantos micrófonos como pistas tenga la grabadora. De todos modos, lo habitual es grabar con uno o dos micrófonos hipercardioides y, si es necesario, utilizar solo la grabación multipista de más de dos canales a la hora de grabar a varias personas hablando en la misma escena, con micrófonos individuales inalámbricos. Es conveniente disponer de un par de micrófonos de las mismas características por si es necesario hacer alguna grabación en estéreo.
Figura 3.8. Un micrófono clásico en los rodajes cinematográficos, el Sennheiser mkh 416. Se trata de un micrófono de condensador con patrón hipercadioide. En este tipo de micrófonos la carcasa metálica está diseñada para filtrar los sonidos laterales.
Los micrófonos de condensador necesitan una fuente de alimentación eléctrica. La mayor parte tienen la posibilidad de ser alimentados mediante un sistema phantom. Por este motivo, es necesario que el sistema al que se conecte el micrófono 83
Parte II. Grabación
ofrezca este tipo de alimentación. Ya prácticamente todos los grabadores de sonido profesionales la ofrecen, pero conviene comprobarlo. Lo habitual es grabar el sonido de forma separada con respecto a la imagen con una grabadora digital como aquellas de las que hemos hablado en el inicio de este capítulo, lo que se hacía necesario cuando se utilizaba celuloide, ya que las cámaras de película no disponen de forma alguna de grabar sonido. Sin embargo, ahora las cámaras digitales ofrecen la posibilidad de grabar sonido sincronizado junto con la imagen, ya sea con micrófonos incorporados en la propia cámara o utilizando un conector de entrada de audio externo. Es preferible que la posproducción se haga a partir del sonido grabado en la grabadora externa y no con el que se registre en la cámara debido a que, incluso en el caso de que el sonido que se grabe no provenga de los micrófonos incorporados, sino del grabador externo a través de la conexión de entrada de sonido en la cámara, en la conexión entre el grabador y la cámara pueden introducirse ruidos e interferencias. Solo en producciones de bajo presupuesto que tengan como destino la distribución en plataformas de vídeo populares como YouTube, se puede utilizar este sistema, pero en un flujo de trabajo profesional no es recomendable. Como soporte de los micrófonos se utilizan las llamadas pértigas. Se trata de tubos extensibles con un peso equilibrado y ligero que permiten acercar los micrófonos a la fuente sonora sin que entren en el cuadro de imagen. Para colocar los micrófonos en las pértigas debería contarse con sistemas de suspensión que amortiguaran los golpes producidos por la manipulación, generalmente, pinzas de micrófono con suspensión mediante gomas elásticas. Si no se dispone de este tipo de soporte, cualquier pequeño golpe, o incluso los roces y los movimientos de las articulaciones se puede transmitir al micrófono a través de la pértiga. Si se va a grabar en exteriores es necesario contar con sistemas antiviento. Los más simples consisten en un trozo de goma espuma donde se introduce el micrófono. Sin embargo, conviene disponer de sistemas más efectivos. El más utilizado es el llamado zeppelin: se trata de una especie de carcasa forrada de tela que rodea al micrófono y que lo protege de cualquier golpe de viento. Si la fuerza del aire es mucha, se puede rodear esa carcasa del llamado peluche (aunque de manera popular se le llama también perro), una especie de funda de pelo sintético con aspecto de muñeco de peluche (de ahí su nombre), pero sin relleno, que protege aún más al micrófono de cualquier golpe de viento. Las fibras de pelo sintético desvían el viento e impiden que incida sobre el zeppelin y el micrófono, sin afectar excesivamente a la respuesta en frecuencia. A la hora de conectar los micrófonos a la grabadora, hay dos posibilidades: usar cables o una conexión inalámbrica. Hace unos años las conexiones inalámbricas no eran fiables y estaban sujetas a numerosas interferencias, sin embargo, a partir de la digitalización de las frecuencias de transmisión y el uso de bandas de alta frecuencia, la calidad del sonido inalámbrico tiene una calidad profesional. Esto permite que quienes se encarguen del manejo de los micrófonos se puedan 84
Técnicas de grabación
mover con más libertad a la hora del rodaje, por lo que es una opción muy recomendable. La conexión inalámbrica consiste en un emisor con un conector XLR, que se coloca a la salida del micrófono en la pértiga, y un receptor que se instala a la entrada del grabador. Si no se dispone de una conexión inalámbrica, es necesario disponer de cables de buena calidad para conectar los micrófonos a la grabadora. Como hemos indicado en el capítulo dedicado a los micrófonos, la conexión habitual es la XLR, llamada también Cannon (por el fabricante que los introdujo en el mercado). Esta conexión permite cancelar muchos ruidos e interferencias provocados por la frecuencia de la red eléctrica y otros sistemas que emiten señales electromagnéticas, además de ser muy robustos en lo que se refiere a su anclaje, dado que disponen de un pulsador de bloqueo en el conector hembra. Para monitorizar el sonido, además de contar con la información que ofrecen los ledes o la pantalla de la grabadora, es necesario contar con unos auriculares de buena calidad de tipo cerrado que permitan oír el sonido que se está grabando. Mientras grabamos, lo único que nos interesa es lo que capta el micrófono, y no otro sonido, de ahí que los auriculares deban ser lo más cerrados y aislantes que se pueda para conseguir que quien opera el sonido escuche la menor cantidad de sonido real mezclado con el que se está grabando. Cada una de las personas que estén operando sonido deberían disponer de auriculares, así si hay varias personas operando distintos micrófonos, al menos cada una debe poder escuchar el sonido del suyo. No conviene olvidar que los equipos portátiles consumen baterías, por lo que, aunque no sea un elemento directamente relacionado con la calidad de sonido, es necesario prever el consumo de energía si el sonido se graba en una localización sin suministro eléctrico.
3.2.2. El personal operador de sonido ¿Cuántas personas son necesarias para grabar sonido? En realidad, una sola persona podría efectuar las labores de operador de micrófono y operador de sonido con no excesiva dificultad, ya que las grabadoras de sonido no tienen un excesivo peso o tamaño. De hecho, en numerosas producciones profesionales una sola persona se encarga de registrar el sonido directo en las tomas más sencillas. A pesar de ello, es conveniente que haya una separación de funciones. En primer lugar, en caso de contar con más de un micrófono en pértigas es necesario que haya alguien que opere cada uno de ellos. Por otra parte, la persona encargada de controlar la grabación debería dedicarse exclusivamente a este cometido, ya que, al quedar fuera del ámbito de la actuación de los operadores de micrófono, puede percibir con más claridad los posibles defectos que se estén produciendo en la grabación. Es importante destacar aquí que quien opera el sonido en una producción audiovisual debe realizar en todo momento una escucha analítica del sonido que se está registrando. Este puede ser el trabajo más complicado de quien desea dedicar85
Parte II. Grabación
se a esta función, ya que nuestra escucha habitual es mucho más casual, es decir, que como personas normales, nuestro cerebro efectúa numerosas operaciones para eliminar aquellos sonidos que no son pertinentes en cada circunstancia. Si, por ejemplo, estamos leyendo en casa con la ventana abierta, es bastante probable que no prestemos atención a los pequeños ruidos que se producen (nunca hay un silencio absoluto) y si vamos de excursión a la orilla de un río es probable que dejemos de ser conscientes del ruido del agua pasando a nuestro lado, al cabo de un rato. El oído se acostumbra a muchos sonidos y nos libra de hacernos conscientes de ellos para poder vivir con más tranquilidad. La grabadora de sonido, en cambio, al no efectuar esa operación de filtrado, convierte cada pequeño ruido en pertinente y lo coloca en primer plano. Durante la grabación, el operador de sonido debe luchar contra la tendencia del cerebro a eliminar los ruidos parásitos, para hacerse consciente de ellos, parando la grabación si es preciso y eliminando su fuente, para evitar que queden registrados.
3.2.3. Control de la señal Como hemos indicado, la persona que se encargue de la operación de sonido debe controlar la señal. Hay que vigilar, por un lado, el volumen y, por otro, si se graba algún sonido no deseado. En lo que se refiere al volumen, es conveniente prever cuál será la máxima potencia a grabar durante la escena haciendo un ensayo de sonido para que no llegue a saturar el grabador, y no tocarlo posteriormente entre toma y toma, ya que, si variamos el volumen entre el rodaje de un plano y otro en una misma escena, a la hora de montar nos encontraremos con diferencias de volumen en el nivel de ruido subyacente en esos planos que pueden ser complicadas de compensar. En el caso de que no tengamos claro cuál será esa máxima potencia es mejor optar por ser conservador y dejar el grabador en un volumen medio o incluso bajo, antes que arriesgarnos a que sature. Los grabadores digitales, al no introducir ruido, resisten muy bien la amplificación en posproducción. A la hora de establecer los volúmenes de grabación hay que tener en cuenta que la escala que se aplica en dB comienza en números negativos desde infinito hasta llegar al cero. A partir de ese límite, el sonido registrado se distorsiona y no es posible recuperarlo. El volumen de grabación, por lo tanto, debe quedar por debajo de ese límite, dejando, además, un headroom, es decir, un espacio entre el volumen máximo que registremos y el cero para evitar posibles problemas con algún transitorio (sonidos de corta duración) que puedan tener más volumen. Por lo tanto, lo habitual es grabar con un nivel de referencia máximo a –6 dB o –12 dB, de modo que, si algún transitorio supera este límite, tal vez pueda quedar dentro del headroom que hayamos dejado. Por supuesto, si el transitorio supera el rango dinámico que hemos dejado para ese headroom, el sonido quedará distorsionado, de ahí que sea conveniente hacer ensayos para poder establecer cuál es el mejor 86
Técnicas de grabación
volumen de registro. Hay que tener en cuenta, no obstante, que hay varios tipos de escalas de medida en decibelios, siendo las llamadas dBVU y dBFS dos de las más utilizadas. Esto sirve de puente entre los volúmenes con los que se trabaja dentro del entorno analógico (más tolerante con la saturación) y aquellos con los que se trabaja en el entorno digital (con tolerancia cero a la saturación). Así, por ejemplo, a la hora de grabar, el valor de 0 dBVU (nivel analógico) suele corresponder a un nivel de –20 dBFS (nivel digital), de manera que el 0 dBFS (digital) se corresponda con un nivel +3 dBVU (analógico). Se puede, pues, trabajar en dBVU, grabando con nivel de referencia 0 dBVU, lo que dejaría un headroom de hasta +3 dBVU como límite, en lugar de trabajar con el límite en 0 dBFS. Estas equivalencias pueden cambiar, ya que son relativas, por lo que hay que indicar en algún lugar (metadatos o mediante notas escritas) en qué niveles de equivalencia estamos trabajando. Las grabadoras digitales, no obstante, vienen referenciadas generalmente en dBFS, de modo que 0 dB se corresponde con el inicio de la señal saturada, sea cual sea el nivel dBVU equivalente que hayamos seleccionado. El segundo aspecto del control de la señal se refiere a la necesidad de que el operador de sonido esté atento a ruidos indeseados. Ya hemos hablado de la escucha analítica, que se debe aplicar, sobre todo, a este aspecto. En general, los ruidos indeseados son todos aquellos que no son producidos por los actores o las máquinas, objetos y animales que están situados dentro de la acción. Hay producciones mucho más sensibles al ruido indeseado que otras: si se rueda una película ambientada en la época medieval, por ejemplo, habría que evitar a toda costa que suene el ruido de cualquier motor, algo que podría ser disimulado, si no queda más remedio, en un plano ambientado en una época contemporánea. El ruido es siempre fuente de problemas a la hora de montar la película: si se trata de un ruido continuo (tráfico, el mar) es posible que entre toma y toma se produzcan leves variaciones que podrían notarse en montaje; si el ruido es discontinuo (cantos de pájaros, aviones que pasan), la situación en montaje puede ser caótica, ya que en un plano puede estar sonando el pájaro mientras que en el siguiente puede estar completamente callado. Hay casos en los que el ruido puede hacer inutilizable una toma en montaje u obligar a efectuar una complicada posproducción de sonido que compense los ruidos discontinuos. Es mejor, por lo tanto, grabar con la menor cantidad de ruidos posible y luego completar en la posproducción, mediante la adición de wild tracks o efectos sala, aquellos sonidos que sean necesarios.
3.2.4. Wild tracks y wild lines Las wild tracks (“pistas salvajes”, en inglés) y wild lines (“textos salvajes”, en inglés) son aquellas pistas que se graban en la localización sin que se ruede imagen. En principio, la necesidad de grabar wild tracks está relacionada con el ruido de fondo que existe en toda localización, aunque se encuentre aparentemente en si87
Parte II. Grabación
lencio, lo que se denomina en inglés room tone, es decir, “tono de habitación”, sin que exista un término en español que defina tan exactamente a este tipo de sonido. Este room tone es muy sutil y difícil de controlar, ya que depende de múltiples factores ambientales. Cuando se unen en el montaje dos planos rodados en diferentes momentos en una misma localización, es muy posible que se perciban diferencias en ese ruido de fondo entre un plano y otro. Para evitarlo, se graban en las localizaciones fragmentos largos de silencio que, en el proceso de posproducción, se colocan de fondo a lo largo de secuencias completas o en momentos en que sea necesario. Esto es particularmente importante en las secuencias de diálogos cuando es posible que entre el plano de un personaje y el de otro haya diferencias de sonido de fondo. Los wild tracks sirven, en este caso, para eliminar la impresión de cortes en el sonido y restaurar la impresión de que el diálogo se produce fluidamente en un mismo tiempo y espacio. Es conveniente adquirir la costumbre de grabar un wild track en cada localización pidiendo al equipo que permanezca quieto y sin hablar durante al menos un minuto para poder utilizarlo en caso necesario durante el montaje. Las wild lines son un tipo especial de grabación que está a caballo entre el sonido de producción y el doblaje. En ocasiones, cuando se rueda un plano complicado o demasiado abierto, y no se dispone de micrófonos inalámbricos, se hace difícil grabar el diálogo con la calidad necesaria. Se puede entonces recurrir a la grabación de ese diálogo después de haber filmado la imagen, solo para sonido, con el operador de micrófono a la distancia adecuada. Es bastante probable que, al grabar instantes después de haber hecho la actuación ante la cámara, con la concentración y la energía apropiada, los diálogos estén al mismo ritmo y con la misma intención que se pronunciaron durante el momento de rodaje de la imagen. De este modo, es posible sustituir la grabación de los diálogos originales, grabados siempre como sonido de referencia, por los grabados en el wild track con mucha facilidad y con muy poca posproducción para conseguir sincronizarlos. Además, en este caso, el sonido es coherente con el resto del sonido de la secuencia y no hay que hacer ajustes para compensar las diferencias acústicas del estudio con respecto a la localización, lo que sí sería necesario al efectuar el doblaje a posteriori. Igual sucede si lo que queremos grabar es el sonido producido por una máquina u objeto que se encuentra en la localización: a veces es mucho más sencillo dedicar unos minutos a grabarlo, tras haber terminado el rodaje, que tener que reconstruirlo en estudio en forma de efecto sala.
3.2.5. Posición del micrófono Si utilizamos micrófonos hipercardioides para grabar el sonido, como suele ser habitual, conseguiremos que no se graben ruidos que provengan de los laterales del eje del micrófono. Esto es muy conveniente para conseguir aislar la voz de los 88
Técnicas de grabación
actores de manera que pueda ser recogida con limpieza. La contrapartida es que, si el micrófono no está correctamente dirigido durante la grabación, es decir, si la boca del actor o actriz se encuentra fuera de eje, obtenemos un sonido sucio y hueco que puede llegar a ser ininteligible. Por lo tanto, hay que ser muy cuidadoso con la posición del micrófono, de modo que apunte exactamente hacia la boca de quienes hablan en todo momento, corrigiendo la posición, si el actor se mueve, con los menores movimientos posibles para evitar vibraciones en la pértiga que pudieran transmitirse al micrófono. Por otra parte, los micrófonos deben situarse lo más cerca posible de las bocas de los actores para garantizar la presencia sonora de las voces, teniendo en cuenta que nunca estén lo suficientemente cerca como para que se manifieste un posible efecto proximidad. De un sonido bien grabado, con presencia, podemos luego sacar el resultado que queramos en posproducción, pero si hemos grabado una voz con el micrófono alejado o fuera de eje, no podremos corregirlo. La idea de arreglar problemas en posproducción no casa bien con el sonido, a no ser que se prevea que el sonido irá doblado o posproducido en su totalidad. Tratar de arreglar un problema concreto de audio tratando de mantener el resto del sonido suele traer como consecuencia incoherencias sonoras, perceptibles con bastante probabilidad. En localizaciones silenciosas y bien acondicionadas es posible utilizar micrófonos cardioides, menos críticos con la direccionalidad, para recoger la voz de los actores. No es recomendable, en general, utilizar micrófonos omnidireccionales en el set de rodaje, sobre todo si se trata de localizaciones reales, para evitar los problemas derivados de la direccionalidad, puesto que en la mayor parte de las localizaciones recogeremos un exceso de reverberación y el resultado no será mucho mejor que si desviamos el micrófono.
3.2.6. Movimientos del micrófono A la hora de grabar a varios actores que hablan sucesivamente, se impone una planificación y un ensayo de las posiciones de la pértiga y el micrófono para no perder ninguna intervención. En estas situaciones se hace casi obligado utilizar, al menos, dos micrófonos, si no se dispone, como sería lo más lógico, de varios micrófonos individuales inalámbricos de corbata convenientemente camuflados. En este último caso, se hace necesario disponer de un grabador multipista para poder grabar cada micrófono por separado. Uno de los problemas habituales en la grabación de sonido directo es el hecho de que el sonido está habitualmente supeditado a la fotografía. Así, si la colocación del operador de sonido entorpece de algún modo la luz o causa alguna sombra, quien debe cambiar su posición es el operador de sonido, puesto que nunca se va a cambiar un elemento de fotografía para facilitar la grabación de audio. 89
Parte II. Grabación
Por otra parte, la grabación de personajes en movimiento es aún más crítica, ya que, durante su trayectoria, seguida también por la pértiga, hay que comprobar que no hay problemas con los encuadres y las luces. Tanto en un caso como en otro, quien opera el sonido debe estar presente en los ensayos, moviéndose como un actor más, buscando la mejor posición en cada momento para comprobar que le es posible moverse con comodidad, sin crear sombras y sin entorpecer la labor de otros compañeros que pueden acompañar el recorrido de la cámara, como eléctricos, foquista, etc. Aunque no se le diga que es necesario, quien opera el sonido debe estar atento a los ensayos, evitando esperar a que todo el plano esté preparado para disponerse a grabar porque, aunque a veces pueda parecer que el equipo de sonido sobra mientras se están probando luces y colocando las posiciones de los actores, luego se ahorrará tiempo al no necesitarse un ensayo más para buscar la posición más adecuada de quien opera el micrófono.
3.2.7. Condiciones acústicas de la localización A la hora de decidir las localizaciones donde se va a rodar, es necesario que se tengan en cuenta las condiciones acústicas. En unos casos se hará necesario acondicionar acústicamente la localización para evitar que el sonido sea excesivamente reverberante. Si, por ejemplo, se rueda en un cuarto de baño amplio, el sonido resultante con las paredes desnudas puede ser sucio y confuso. Para conseguir un sonido más seco (que luego podrá ser manipulado en posproducción para añadirle la cantidad justa de reverberación) se pueden utilizar cortinas gruesas o paneles de goma espuma adosados a la pared y el techo en los espacios que queden fuera de plano. Esto mejorará las condiciones acústicas del espacio. Otro de los problemas que se pueden encontrar en las localizaciones es el de los ruidos indeseados. Una de las bromas habituales entre los operadores de sonido es que siempre que se va a rodar en una localización real aparecerá alguien en las cercanías trabajando con una radial. En este sentido, merece la pena ver los problemas de sonido directo por los que pasó el rodaje de la película El hombre que mató a Don Quijote en su primer intento, recogidos en el documental Lost in la Mancha (Fulton y Pepe, 2002), cuando por encima de la localización pasaban aviones militares de manera habitual. Evitar este tipo de incidencias puede ser complicado en ocasiones, pero no está de más prever problemas que podrían aparecer más tarde. Un ejemplo de esto es el del rodaje de la película El hobbit, de Peter Jackson (2012). Una secuencia se rodaba en un aparcamiento de los estudios por encima del que pasaban los aviones que despegaban de un aeropuerto cercano, unos minutos después de haberlo hecho. Para evitar interrupciones inesperadas, teniendo en cuenta el coste que suponía cortar un plano que implicaba toda una serie de efectos especiales, etc., se envió a una persona que avisaba del despegue de cada avión al equipo de rodaje, 90
Técnicas de grabación
que decidía si se rodaba o no un plano, dependiendo del tiempo que quedaba para la llegada del avión. El equipo de sonido puede estar atento a industrias que estén cerca de la localización, horarios de actividad, paso de transportes, previendo también si una localización que aparece tranquila y silenciosa el día de la visita del equipo puede verse llena de ruido en otro momento por ser día laborable o celebrarse alguna fiesta. En estos casos, el equipo de sonido debe concretar con los de producción y dirección si merece la pena rodar en la localización elegida o si el rodaje se debe cambiar de lugar o de fecha. Suele darse una confusión conceptual entre el concepto de acondicionamiento acústico y el de aislamiento cuando son muy diferentes. El aislamiento hace referencia al hecho de que en un lugar no se escuchen sonidos del exterior, mientras que el acondicionamiento apunta a la posibilidad de que el sonido que se escuche en un lugar tenga buena calidad y sea claro. Lo ideal es que las localizaciones estén lo más aisladas y acondicionadas para controlar las condiciones de la grabación, pero esto, por lo general, solo se consigue en los platós o en los estudios de sonido.
3.2.8. Qué se debe grabar A veces, los directores creen que determinados planos se pueden rodar sin sonido porque no hay diálogos. A este respecto hay que decir que es posible que algunos planos puedan prescindir de la grabación de sonido directo, pero si, por ejemplo, hay un actor moviéndose en escena utilizando objetos diversos, aunque no hable, es mejor grabar el sonido que producen sus movimientos porque, en caso contrario, es más que probable que tenga que ser reconstruido en posproducción. Puede que, debido a los ruidos de la localización, el sonido directo sea inservible, pero no hay que renunciar a grabarlo porque, en caso de que pueda utilizarse, ahorrará tiempo y esfuerzo en la posproducción y, de todas formas, servirá como referencia para el diseñador de los efectos sala. Otra situación en la que puede parecer que no es necesario grabar todo el sonido es durante el rodaje de diálogos en plano-contraplano. En teoría, basta con grabar el sonido del actor que está en plano, puesto que en algún otro momento se grabará el plano correspondiente al que se encuentra en contraplano. Es recomendable, aunque no imprescindible, grabar también las réplicas en contraplano para que, si es necesario, se puedan utilizar. Uno de los motivos por los que conviene grabar las réplicas fuera de cuadro es que los actores pueden pisarse en las réplicas. Por ello conviene que durante la actuación los actores no se pisen los unos a los otros, aunque la acción lo exija, puesto que ya se efectuarán en montaje los ajustes necesarios para que así sea. Si fuera preciso, el equipo de sonido puede hablar con el director para que se tenga esto en cuenta; a pesar de ello, a veces es complicado para los actores respetar este 91
Parte II. Grabación
principio, sobre todo si no tienen experiencia cinematográfica. Si grabamos todo el sonido es más sencillo solventar en posproducción las frases pisadas; al menos, le daremos al director y al montador la posibilidad de elegir. Al igual que sucede con la imagen, se aplica la idea de que “el único sonido directo que no puede montarse es el que no se ha grabado”.
3.2.9. La claqueta La claqueta lleva dos informaciones, una visual, escrita sobre la tabla que se filma durante unos segundos y otra auditiva, que consiste en lo que se conoce como “cantar la claqueta”, y que se refiere a la lectura que se hace de algunos datos que servirán para identificar el sonido del plano, junto con un golpe que debe sonar al cerrarla. En la actualidad, teniendo en cuenta que se puede grabar sonido de referencia en cámara, aunque no sea de buena calidad, la sincronización e identificación de los planos es más sencilla, pero en producciones en las que se vayan a rodar varias tomas de un mismo plano, se hace imprescindible. Es evidente que cantar la claqueta no es una función complicada dentro del entramado de un rodaje, pero tiene algunas particularidades que conviene aclarar si no queremos que sea inútil para el montaje de sonido. En primer lugar, la claqueta debe cantarse alto y claro delante de alguno de los micrófonos que estén recogiendo el sonido de la toma. Si es necesario, quien opere el micrófono lo acercará durante unos segundos a quien cante la claqueta para que los datos de la toma queden correctamente grabados. En caso contrario, es más que posible que el montador tenga que adivinar qué es lo que está diciendo una voz lejana y fuera de eje que se escucha en la grabación. En segundo lugar, es muy importante que el golpe de la claqueta se haga de forma limpia, sin que el listón que se cierra sobre el resto de la tabla rebote o no termine de cerrarse. El golpe debería verse claramente en imagen para que el montador haga coincidir su sonido con el cierre de la claqueta, sin embargo, si se graba sonido de referencia en cámara, esto no supone un proceso crítico, ya que puede sincronizarse el sonido a partir de la imagen de la onda sonora en pantalla. En cualquier caso, quien opere la cámara debe estar atento a que el golpe de la claqueta se vea perfectamente a la hora de rodarla. En caso necesario, el cámara adecuará el plano para poder rodar correctamente la claqueta y luego recompondrá la imagen, momento en que gritará “cuadro” para indicarle al director que puede comenzar la acción.
3.2.10. Cuándo se debe empezar a grabar Todos hemos visto alguna vez en alguna película un rodaje en el que el director grita algo así como “luces, cámara, acción”, para volver a gritar “corten” una vez
92
Técnicas de grabación
rodado el plano. Estos gritos responden a la necesidad de asegurarse de que los responsables de manejar los sistemas de captación de imagen y sonido ponen en funcionamiento la cámara y la grabadora en el momento necesario. En realidad, las palabras que se utilizan no son las que se han indicado anteriormente. La rutina actual es más parecida a la que contamos a continuación: en primer lugar, es el ayudante quien suele dar las órdenes oportunas. La primera orden será “sonido”, a lo que el operador responderá “grabando” cuando la grabadora empiece a funcionar. A continuación, se indicará “cámara”, quien indicará “rodando” para, a continuación, pasar a cantarse la claqueta. Si para cantar la claqueta la cámara tiene que cambiar de posición con respecto al encuadre que se va a rodar efectivamente, una vez que el encuadre sea el adecuado, el operador de cámara indicará “cuadro”. A partir de ese momento, el director puede dar la orden de empezar a actuar (generalmente con la palabra “acción”, si bien se pueden utilizar otras fórmulas, como el “cuando queráis”, que suele utilizar Clint Eastwood). Si, por cualquier motivo, no se ha podido cantar la claqueta al principio del rodaje del plano, se puede cantar al final, colocando la claqueta al revés (para saber que corresponde al plano anterior y no al siguiente), pero cantándola normalmente. Si fuera necesario dar otro golpe de claqueta por no haber quedado bien el primero, se dirá antes de darlo: “segundo shack” (o sucesivos si así se requiriera) para no confundirlo con el primero.
3.3. Grabación de voces en estudio A la hora de hablar de la grabación de voces en estudio, estamos haciendo referencia, básicamente, al doblaje, entendido como cualquier cambio de voces sobre el original registrado, sea de una persona sustituyendo su propia voz en su propio idioma (lo que se suele denominar ADR, debido a la técnica que se utiliza) o el doblaje, propiamente dicho, a otra lengua. En este apartado hacemos referencia al ADR, ya que el doblaje tiene una técnica parecida, aunque más sencilla (a pesar de que pueda parecer paradójico por el cambio de lengua). El ADR, como ya hemos dicho, se utiliza para grabar, después del rodaje, voces sincronizadas con la imagen, y cualquier otro tipo de locución. Se utiliza para cubrir momentos en los que el sonido directo no ha quedado bien, para cubrir la voz de actores que no hablen en el idioma que nos interesa o por una decisión estética previa. El proceso de doblaje tal vez sea el que menos ha cambiado debido a la digitalización desde que a mediados del siglo pasado se introdujo la grabación magnética, ya que sigue utilizándose la proyección de un fragmento de la película que los actores ensayan y luego graban varias veces hasta que se considera que hay una toma correcta de actuación, puesto que la calidad de sonido queda garantizada por el uso del estudio. Los únicos cambios han sido la sustitución de la proyección en celuloide por una videoproyección que puede gestionar la misma persona encargada de la grabación de sonido, y el cambio de sistema y soporte de grabación. 93
Parte II. Grabación
En lo que se refiere a los elementos técnicos, en estudio es posible utilizar micrófonos con patrones polares más flexibles que los que se usan en la localización, como son los omnidireccionales y los bidireccionales, ya que, al estar aislados y acondicionados, no hay problemas derivados de reverberaciones incontroladas o por ruidos inesperados. Esto permite utilizar un solo micrófono para grabar a dos o más personas a la vez. En cuanto al tipo de transductor, se suele usar el de condensador con respuesta plana para tener la mayor calidad posible de inicio. Posteriormente, mediante la posproducción, es necesario dotar de vida a ese sonido que es muy seco, está en primer plano y puede tener una excesiva calidad comparado con el de otras secuencias que se hayan grabado con micrófonos de otro tipo en el set. Para ello, se le añade reverberación y se ecualiza, además de añadirle el wild track correspondiente en la mezcla final. La digitalización del estudio ha permitido mejorar todos estos procesos. De hecho, existe la posibilidad de grabar lo que se llama un impulso acústico de un espacio determinado que recoge su información acústica, que luego puede ser aplicado a cualquier sonido de manera que dé la impresión de que ha sido grabado en ese lugar. El proceso de doblaje supone dividir la película o aquellos fragmentos que vayan a ser doblados en los llamados takes, determinados por un número de frases que lo componen (ocho líneas entre varios personajes o cinco si se trata de la intervención de un solo personaje) o por el tiempo que duran (40 segundos aproximadamente). Estos takes son una referencia para pagar a los actores cuando se trata de películas extranjeras que se doblan al español y para que el proceso pueda planificarse convenientemente. En el caso del doblaje de sonido de un actor por sí mismo para corregir alguna toma de una película que ha rodado previamente, el concepto de take tiene un carácter más técnico que económico, puesto que la necesidad de asistir a sesiones de doblaje suele quedar recogida en contrato previamente y no está limitada a un número concreto de takes. La automatización del proceso del ADR (de las siglas de Automatic Dialog Replacement) viene dada porque el fragmento a doblar se reproduce en forma de bucle hasta que se consigue una buena actuación. Las diferentes tomas se van grabando hasta llegar a aquella que se considera buena. Cuando se trata de corregir elementos aislados de la grabación original en el estudio, se intenta siempre reproducir las condiciones en las que se efectuó el rodaje. Se utiliza el mismo tipo de micrófono que se usó en el set, y se coloca en la misma posición y a la misma distancia de la grabación original. De este modo, la grabación en estudio tiende a tener una calidad parecida, siendo tan solo necesario añadirle la proporción justa de reverberación y el wild track correspondiente para que el sonido parezca recogido en el mismo espacio en el que se grabó originalmente. Esto es importante, si se está utilizando parte del sonido original, para que no se noten las diferencias de calidad entre las partes originales y las sustituidas. El ADR permite no solo corregir los problemas en la grabación original de los que ya hablamos en el apartado anterior, sino cambiar intenciones que se revelan 94
Técnicas de grabación
incoherentes en la sala de montaje, o incluso frases de guion que deben modificarse si hay cambios de orden en las secuencias o se da una información que está referida a alguna situación o personaje que, en el montaje final, es descartado.
3.4. Regrabación (overdub), multipista simultánea y multipista sucesiva A la hora de realizar grabaciones en las que es necesario integrar varias capas o pistas de sonido ha habido una evolución a lo largo de la historia. Como hemos indicado anteriormente, las primeras grabaciones que se realizaban se hacían en directo con todos los músicos o todos los elementos sonoros que debían aparecer en el transcurso de la grabación. Si se quería añadir algún elemento nuevo sobre lo ya grabado era necesario utilizar la técnica de overdub o regrabación, es decir, reproducir lo ya grabado mientras sonaba el nuevo elemento, grabando el resultado de nuevo. Este sistema daba varios problemas, ya que si, por ejemplo, se usaban discos, las sucesivas regrabaciones iban añadiendo el ruido de fondo de cada una de ellas a la resultante final, lo que limitaba el número de regrabaciones posibles. La introducción de sistemas sobre cinta elevó la calidad de las grabaciones realizadas mediante esta técnica, lo que permitió seguir utilizándola hasta prácticamente los años 70 (e incluso más tarde en el caso de producciones de bajo presupuesto) del siglo xx, en combinación con los sistemas multipista de los que hablaremos a continuación. Los primeros músicos que utilizaron este tipo de grabación de manera creativa para la creación musical fueron los músicos Mary Ford y Les Paul, el guitarrista que también diseñó el famoso modelo de guitarra Gibson (puedes encontrar más información sobre ellos en la webgrafía disponible en www.sintesis.com). Estos músicos no solo usaban la regrabación, sino que también jugaban con las velocidades de cada una de las regrabaciones, de manera que podían obtener sonidos más agudos y más graves a partir del sonido original de la guitarra, multiplicando las posibilidades tímbricas del instrumento. Como veremos más adelante, este mismo músico fue pionero y promotor de la grabación multipista. Otro de los ingenieros que, por ejemplo, siguieron usando la regrabación combinada con la grabación multipista fue George Martin en los discos de los Beatles, dado que, al usar por lo general solo cuatro pistas en la grabación final, era necesario ir agrupando instrumentos mediante regrabación para poder combinar todos los sonidos necesarios en solo cuatro pistas finales. La grabación multipista debe su popularización a la llegada de la grabación magnética. Se trataba de una tecnología alemana en origen, pero que un militar de Estados Unidos, Jack Mullin, confiscó al final de la Segunda Guerra Mundial. Este militar estudió unas grabadoras que había conseguido en Fráncfort y las mejoró, dando lugar a máquinas que comercializó la empresa norteamericana Ampex. 95
Parte II. Grabación
En principio, este tipo de grabación se aplicó al terreno del cine, ya que desde el desarrollo del cine sonoro se trataba de encontrar el modo de agilizar el rodaje y la grabación, así como mejorar la calidad del sonido. Antes del desarrollo de la grabación magnética, habían existido algunos sistemas de grabación multipista para el cine, ejemplo de ello son los sistemas diseñados por Alan Blumlein para poder grabar dos pistas sobre disco, o aquellos sistemas que utilizaban sonido óptico (el que se graba utilizando células fotoeléctricas y película fotoquímica como soporte). El Fantasound de Disney, fue el sistema de este último tipo que más desarrollo tuvo, pero fue abandonado en los años 40 del siglo xx debido a las dificultades que provocó la Segunda Guerra Mundial, y nunca volvió a utilizarse posteriormente por lo complicado que resultaba gestionarlo técnicamente. La introducción de la grabación magnética sobre soporte cinta tras la Segunda Guerra Mundial supuso la expansión definitiva de este tipo de grabación mediante sistemas y soportes relativamente sencillos de controlar. En la cinta magnética las pistas se graban en paralelo a lo largo de la cinta. La primera grabadora de cinta tenía una sola pista, pero en los años 50 del siglo xx empezaba a experimentarse la posibilidad de grabar varias pistas simultáneamente en paralelo. En el terreno del cine, por ejemplo, se diseñaron distintos sistemas de sonido multipista para acompañar a los de proyección en pantalla panorámica que empezaban a aparecer (Cinerama, CinemaScope, etc.), sin embargo, el uso generalizado de la grabación magnética tiene dos puntos de inflexión. En primer lugar, el cantante norteamericano y presentador de radio Bing Crosby empezó a utilizar grabadores Ampex para no tener que hacer en directo sus programas de radio, lo que le permitió mejorar la calidad de la interpretación musical que finalmente salía al aire, ya que podía interrumpir la interpretación y volver a grabar si había algún error. En segundo lugar, en el campo de la grabación discográfica, Les Paul, el músico del que hemos hablado anteriormente en el apartado de la regrabación, se reunió en 1953 con directivos de Ampex para convencerles de que fabricaran una grabadora de ocho pistas, a lo que accedieron prácticamente sin discusión. Estos dos hitos suponen el inicio de la popularización de las técnicas de grabación radiofónica y musical que hoy son habituales. A lo largo del siglo xx fue multiplicándose el número de pistas que incorporaban las grabadoras y aparecieron sistemas de hasta veinticuatro pistas sobre cinta que llegaba a las dos pulgadas (5 cm aproximadamente) de ancho. En la actualidad, la sustitución de la cinta magnética por sistemas digitales sobre disco duro ha aumentado la versatilidad de los equipos, a lo que haremos referencia de un modo más extenso en el siguiente capítulo. Como adelanto diremos que el número de pistas que pueden grabarse se ha multiplicado hasta todas aquellas que el sistema soporte sin límites prácticamente, mientras que el acceso aleatorio a los puntos de grabación elimina los tiempos muertos esperando a que el sistema acceda al punto de la cinta donde se encuentra el punto concreto donde queremos grabar. 96
Técnicas de grabación
Por otra parte, el aislamiento de cada pista, en un sistema digital, es completo, sin que la grabación se vea afectada por la diafonía, habitual en las grabaciones multipista analógicas sobre cinta. La utilización de la grabación multipista permite un mayor control del proceso de posproducción, ya que es posible aplicar ciertos procesos a cada una de las pistas por separado. La grabación de este tipo de pistas puede realizarse de manera simultánea o sucesiva.
3.4.1. Grabación multipista sucesiva Al hablar de grabación sucesiva hacemos referencia al hecho de que cada pista de sonido se graba individualmente una tras otra. La diferencia principal con respecto a la regrabación es que, como el propio Les Paul indicaba, cuando se utilizaba esta última técnica, en cada etapa del proceso se “quemaban los puentes”, es decir, una vez hechas varias regrabaciones era imposible modificar algo de la primera. En cambio, la separación por pistas de la grabación permite que, si un intérprete comete un error, no haga falta grabar entero todo el tema musical de que se trate, sino solo su parte, pudiendo volver a cualquier etapa de la grabación modificando una pista ya grabada hace tiempo o creando una nueva. Este tipo de grabación es la que suele utilizarse en el caso de grupos pop y rock, ya que es la que mejor se ajusta a la posibilidad de cambiar detalles menores de la interpretación de cada músico. Por otra parte, dependiendo del tipo de música, puede ser más económico grabar en multipista sucesiva, ya que permite, por ejemplo, contratar a un músico para que ejecute una parte de un tema, dejando la grabación del resto para más adelante, o ir grabando poco a poco, a medida que se van teniendo las ideas claras para cada instrumento, sin necesidad de que todos los intérpretes tengan que estar presentes en cada sesión. Generalmente, la primera pista que se graba en una sesión de multipista sucesiva es la que sirve de guía para el resto, usando algún tipo de metrónomo (un aparato o pista base que genera impulsos sonoros o bips a un ritmo determinado) para ajustar el ritmo de la grabación. Por este motivo, lo habitual es grabar primero las pistas correspondientes a las llamadas bases (a menudo, instrumentos de percusión y bajo) para pasar luego a grabar el resto, si bien no es preceptivo seguir este orden. Las grabaciones por pistas sucesivas tienen el problema de que cada músico trabaja sin conocer muy bien cuál será el resultado definitivo de lo que se está haciendo (al menos en las primeras etapas). En este sentido, es muy importante la figura del productor musical o ingeniero, ya que es la persona que va a decidir la organización de la grabación y va a dotarla de un cierto carácter, adoptando el papel de supervisor con una visión de conjunto. 97
Parte II. Grabación
3.4.2. Grabación multipista simultánea La grabación multipista simultánea permite grabar varios instrumentos en pistas separadas, pero mientras interpretan a la vez. Este tipo de grabación es el habitual cuando se registra el sonido de orquestas y grupos musicales que interpretan piezas complejas. Las razones para usar este tipo de grabación suelen venir de la necesidad de que cada músico toque su parte, escuchado al resto de los intérpretes para mantener el sentido de la interpretación. Este suele ser el caso de las orquestas sinfónicas y los grupos de jazz, por ejemplo. Hay situaciones, no obstante, en las que algunos músicos o productores prefieren, por distintos motivos, efectuar grabaciones simultáneas cuando podrían optar por hacerla sucesiva. Es conocido el caso de Frank Sinatra, que grababa siempre su voz a la vez que la orquesta, de modo que, si se producía un error, había que volver a grabar todo el tema con todos los músicos. Por supuesto, este tipo de grabación es la que se utiliza también en el caso del registro de actuaciones en vivo, por razones obvias. En ocasiones también puede ser más económico para un grupo pop o rock grabar de este modo. Es lo que sucede con músicos que tienen poco presupuesto, ya que pueden dejar grabado un tema completo en una sola sesión. Esto exige, evidentemente, que cada uno de los músicos ejecute su parte con precisión. En caso de error, si se ha grabado con una buena separación de cada músico, es posible hacer pinchazos (grabaciones alternativas de partes concretas) esporádicos en la pista correspondiente, o combinar la grabación simultánea de varios instrumentos de los que se tenga clara su ejecución con otros en grabación sucesiva. Para la grabación simultánea habitual se divide la orquesta por secciones (en el caso de grandes orquestas) o instrumentos (lo más habitual en grupos de jazz y similares), y cada una de ellas se graba en una pista mientras toda la orquesta interpreta a la vez la pieza musical. Siempre se trata de aislar lo más posible cada una de las secciones o instrumentos (en el caso de grabación en estudio, mediante paneles), algo difícil en el caso de las actuaciones en vivo, para que cada pista recoja la menor cantidad de sonido de otros instrumentos y facilitar así la mezcla posterior. A diferencia de la grabación multipista sucesiva, que puede hacerse disponiendo de solo una entrada de sonido en la interfaz de usuario o tarjeta de sonido, para poder efectuar la grabación simultánea es necesario que nuestro sistema disponga del número de entradas correspondientes al número de pistas que queremos grabar. En caso de disponer de menos entradas, tendremos que agrupar varias fuentes sonoras en cada una de las que dispongamos para grabar por secciones. Por otra parte, es necesario que el sistema informático que usemos tenga la potencia suficiente como para poder procesar en tiempo real cada una de las entradas de sonido que queremos grabar. Actualmente es posible conectar varias interfaces a un ordenador, de modo que el número de pistas simultáneas que pueden grabarse solo queda limitado por la capacidad de proceso y escritura en disco del sistema. 98
Técnicas de grabación
Preguntas de autoevaluación 1. El tipo de micrófono más utilizado en rodajes es el: � a) Dinámico omnidireccional. � b) Condensador hipercardioide. � c) Condensador bidireccional
2. Una característica esencial de la persona operadora de sonido es: � a) Que sea capaz de hacer una escucha analítica. � b) Que tenga gran altura para colocar el micrófono a una altura suficiente. � c) Que conozca todos los equipos disponibles para registrar sonido.
3. De entre las siguientes opciones, la más correcta a la hora de grabar sonido directo en sistemas digitales sería: � a) Ajustar el volumen de entrada de manera que el mínimo llegue a 0dB. � b) Ajustar el volumen de entrada de manera que el máximo llegue a +12dB. � c) Ajustar el volumen de entrada de manera que el máximo llegue a –12 dB.
4. El acondicionamiento acústico consiste en: � a) Preparar el espacio donde se graba para que no entren sonidos del exterior. � b) Preparar el espacio donde se graba para que no haya demasiada reverbe-
ración.
� c) Preparar el espacio donde se graba para que no salgan sonidos del interior.
5. La grabación multipista simultánea: � a) Se usa exclusivamente en el caso de orquestas sinfónicas. � b) No permite hacer mezclas posteriores. � c) Es un sistema económico de grabar un tema en directo para poder mez-
clarlo luego convenientemente.
99
Parte III
Posproducción
4
Edición y posproducción de sonido
En este capítulo abordamos los sistemas que se utilizan actualmente para efectuar la edición y posproducción de sonido. Se trata de los DAW (siglas en inglés de Digital Audio Workstation, Estación de Audio Digital). También iniciamos la explicación de los procesos creativos de la banda sonora, una vez que han sido registrados los sonidos necesarios para su creación.
4.1. Sistemas de edición y mezcla sobre disco duro (DAW) La edición de sonido es aquel proceso donde se efectúa la grabación, mezcla y procesado de todas las pistas de sonido que constituyen la producción sonora de que se trate. En el caso de obras audiovisuales, el diseñador de sonido suele trabajar a partir del montaje definitivo de imagen de cada secuencia, si bien, en algún caso aislado se puede trabajar con la película completa. En las primeras décadas del cine, una vez introducida la grabación magnética, se trabajaba con varias bandas de sonido magnético sobre soporte celuloide, con lo que en el final del proceso se llegaba a una síntesis de tres bandas de sonido (diálogos, música y efectos), junto a la banda de imagen, que se mezclaban para dar lugar a la película definitiva. Realizar cambios en las mezclas era un proceso no tan complicado como farragoso, ya que era necesario trabajar con máquinas que, como mínimo, pudieran sincronizar esas tres bobinas de sonido junto con la bobina de imagen. En el caso de las producciones musicales, como hemos visto en el capítulo anterior, la producción se organiza dependiendo de si va a utilizarse grabación multipista simultánea o sucesiva. A finales de la década de los años 70 del siglo xx empezó a popularizarse el uso de las llamadas DAW (Digital Audio Workstation) o EAD (Estaciones de Audio 103
Parte III. Posproducción
Digital). Estas estaciones de trabajo podían basarse en máquinas que ejecutaban sistemas operativos diseñados exclusivamente para servir de base a la única aplicación que se ejecutaba en ellas, o bien ser programas informáticos que podían ejecutarse en ordenadores con sistemas operativos estándar. En la década de los 90 estas DAW eran ya ampliamente utilizadas en la producción musical. En el campo del sonido para cine, el uso del ordenador y las DAW han hecho que la profesión de montador de sonido haya cambiado radicalmente su manera de trabajar para pasar a convertirse en un diseñador de sonido, como fue denominado por primera vez Walter Murch en la película Apocalypse Now (1979). En el actual entorno de la producción de sonido, la manipulación de elementos puramente físicos, como las cintas, junto a los grabadores de cinta abierta multipista, han sido sustituidos por los entornos virtuales, en los que diversas franjas de color sobre una pantalla representan ahora a los antiguos medios, con una facilidad inusitada para combinar, cambiar de lugar o modificar el volumen de las diferentes pistas de sonido. Esto facilita los cambios de cualquier tipo que deseen hacerse y aumenta las posibilidades para combinar varios sonidos diferentes para obtener otro. Como consecuencia, ha aumentado la densidad de la producción sonora, tanto musical como cinematográfica. Por ejemplo, en la actualidad, cualquier película realizada a partir del uso de los sistemas digitales multiplica la cantidad de sonidos que aparecen, reducidos con anterioridad, en muchos casos, a solo aquellos efectos que eran absolutamente necesarios para mantener la coherencia de la película junto a los diálogos y la música
4.1.1. Estructura y principios básicos de funcionamiento La base de una DAW es, como hemos dicho, la combinación de una máquina (hardware) con un programa (software) que se ejecuta en ella. El software permite emular mediante procesos digitales el comportamiento de máquinas y sistemas que anteriormente eran físicos, como grabadoras multipista, procesadores de sonido, controladores, etc. A esta base se le pueden añadir diversos elementos. Si bien los ordenadores suelen incluir de serie una interfaz de audio, lo habitual es que se utilice una externa de mejor calidad. Las interfaces de sonido incluyen conversores analógico-digitales, y viceversa, de buena calidad, preamplificadores de micrófono, conexiones por fibra óptica, que permiten un mejor procesado del audio. Las interfaces de sonido ofrecen, como máximo, una resolución de 24 bits, y 192 KHz como frecuencia de muestreo, muy por encima, en teoría, de las capacidades de percepción auditiva humana. Es posible también utilizar diversos controladores externos conectados a la DAW para facilitar su uso. Como hemos indicado, las DAW emulan el comportamiento de máquinas que anteriormente tenían controles físicos. Sin embargo, manejar sistemas que anteriormente tenían interfaces físicas mediante interfaces 104
Edición y posproducción de sonido
virtuales sobre una pantalla puede no ser del todo cómodo. Así, se han desarrollado sistemas que combinan las capacidades digitales de los programas de software con sistemas de control físicos muy parecidos a los antiguos analógicos. Para ello, se suele utilizar el protocolo MIDI: se trata de un sistema presentado en los años 80 del siglo xx que inicialmente servía para poder conectar ordenadores a teclados musicales tipo piano, de modo que pudieran ejecutarse en el ordenador los sonidos correspondientes a las teclas pulsadas, multiplicando las posibilidades que los instrumentos de este tipo tenían para reproducir distintos sonidos. Posteriormente, el sistema fue utilizado para conectar interfaces físicas que simulan el comportamiento de las antiguas mesas de mezclas, ecualizadores, etc., pero cuyo proceso se efectúa, en realidad, dentro del ordenador. De esta manera, se tienen las ventajas del proceso digital, combinadas con el control físico de las máquinas. La facilidad con que pueden ser procesados los datos de sonido, en comparación con los generados en la digitalización de la imagen tanto fija como en movimiento, ha hecho que exista más variedad de DAW profesionales para tratar el sonido que para tratar la imagen. En contrapartida, esta multiplicación de equipos no ha supuesto una multiplicación de formatos de archivo, ya que el audio sin compresión no presenta los problemas de registro que tiene el vídeo. Por lo tanto, se puede decir que todos los sistemas profesionales de sonido digital que existen soportan el manejo de los dos tipos más extendidos de archivos digitales de sonido sin comprimir: WAV o AIFF. Tampoco existen hoy diferencias sustanciales, en lo que se refiere a la calidad de sonido entre las diversas estaciones de trabajo existentes (si bien es cierto que, según el modo en que procesan los datos, se pueden apreciar diferencias en el caso de oídos especialmente entrenados). Las diferencias vienen más por las posibilidades que los programas ofrecen en lo que se refiere al procesado de los archivos de audio para poder adaptarlos y mezclarlos convenientemente. Entre las DAW más conocidas podemos citar Logic, Nuendo, Cubase, Sonar, Acid, Ableton Live, Adobe Audition, y otras menos conocidas como Sonic Studio, Radar o Fairlight (incluido dentro de DaVinci Resolve desde 2017). Tal vez la estación de trabajo más utilizada en el mundo del audiovisual sea ProTools, de la empresa Avid (puedes consultar más información en la webgrafía del capítulo, disponible en www. sintesis.com). El aspecto básico de todas las DAW es similar. Generalmente hay varios modos de trabajo o de distribución de ventanas, los dos más básicos son: edición y mezclas. La ventana de edición permite mostrar las pistas de forma gráfica, es decir, en forma de onda, de manera que se puede acceder a los datos visualmente. Las pistas visualizadas pueden ser de sonido real o de MIDI. Las de sonido son aquellas que muestran archivos de sonido grabados mediante un micrófono o sistema fonocaptor, es decir, las pistas de sonido propiamente dichas. Las pistas correspondientes al MIDI no contienen sonido en realidad, sino instrucciones sobre el modo en que deben reproducirse (tiempo, intensidad, envolvente) determinados sonidos 105
Parte III. Posproducción
correspondientes a instrumentos que, a su vez, pueden ser sintetizados o virtuales basados en muestras o samples. En el caso de los instrumentos sintetizados, el sonido se produce mediante un proceso digital que combina diversos parámetros del timbre y envolvente para obtener el resultado deseado. Los instrumentos basados en samples, en cambio, se basan en la grabación de sonidos de instrumentos reales que luego son reproducidos siguiendo esas instrucciones MIDI (alargando el sonido grabado, modificando su volumen). Las pistas MIDI, al necesitar solo datos digitales en un caso o algunos samples en otro, no ocupan tanto espacio en disco como el sonido real.
Figura 4.1. Ventana principal de la DAW Logic.
A la izquierda de cada pista suele haber un panel donde aparece información sobre el numero de pista y el nombre que se la ha asignado. Allí se colocan los controles de la pista: los botones de solo (únicamente suena esa pista y las demás no), mute (esa pista no suena), rec (preparación de la pista para grabación) e input (monitorizar la entrada de señal en esa pista); el control de volumen global de la pista y el control de panorámica para determinar la posición que el sonido de la pista tendrá en la mezcla entre los canales derecho e izquierdo; la asignación de efectos, que conllevan una serie de controles con su propia ventana en la que podemos ajustar los parámetros correspondientes; y, finalmente, un vúmetro para monitorizar visualmente el volumen de la pista. Por supuesto, cada DAW puede cambiar esta distribución, pero todas suelen disponer de estos controles. Cada pista, por otra parte, puede automatizarse y agruparse con otras para hacer premezclas. Por ejemplo, un instrumento como la batería puede ser grabado con un micrófono para cada uno de los elementos que la componen. Posteriormente, las pistas correspondientes a cada uno de esos micrófonos pueden agruparse en 106
Edición y posproducción de sonido
solo dos para ajustarlas globalmente en estéreo, una vez hechos los ajustes individuales. Esto puede hacerse con los correspondientes controles que suelen colocarse también a la izquierda del panel de pistas. En el capítulo 6 profundizaremos en las configuraciones para realizar este tipo de grabaciones. En la parte superior de las interfaces suele haber un contador numérico para controlar la posición y duración del sonido, y diversos controles de visualización (aumentando o disminuyendo el nivel de zoom sobre la imagen en forma de onda) y edición de los sonidos (para efectuar cortes, encadenados en ellos), así como controles globales de toda la edición.
Figura 4.2. Ventana del modo de mezclas de la DAW Logic.
En cuanto al modo de mezclas, las DAW ofrecen un control parecido al que encontraríamos en una mesa de mezclas, pero de forma gráfica, lo que permite adecuar el tamaño y utilizar solo aquellos controles que son necesarios. La digitalización de este tipo de sistemas tiene como ventaja que se puede contar en un sistema sencillo con controles de señal virtuales que solo podrían encontrarse, de otro modo, en las mesas de mezclas más complejas. De esta manera, se facilita el manejo de los parámetros a controlar, ya que hay una analogía evidente con los sistemas físicos. Como hemos dicho anteriormente, es posible controlar estos parámetros con una interfaz física conectada mediante el protocolo MIDI. La mezcla en una DAW permite controlar fácilmente los cambios a lo largo de la reproducción, de modo que pueden automatizarse. Así, por ejemplo, es posible dibujar una envolvente en cada pista que represente subidas y bajadas de volumen a lo largo de la reproducción sin que sea necesario efectuarlas manualmente. Estas subidas y bajadas pueden modificarse o eliminarse en cualquier momento. 107
Parte III. Posproducción
Figura 4.3. Envolventes (líneas amarillas) dentro de un proyecto de Logic.
Otra de las posibilidades que suelen incorporar las DAW, y para las que pueden usarse programas independientes, son las correspondientes a la edición de sonido. Por edición entendemos aquellas operaciones que sirven para cortar, ecualizar o procesar cualquier archivo antes de ser mezclado con otros. En realidad, las tareas de edición también las podemos hacer en el mezclador, pero si las pistas han sido preparadas previamente, podemos ahorrarnos trabajo. Hay estaciones de trabajo que incluyen otros modos, como pueden ser los correspondientes al trabajo con loops (fragmentos de audio con un cierto ritmo que se reproducen en bucle mezclados y sincronizados con otros bucles) o aquellos que sirven a la masterización final (proceso que permite ajustar la calidad final de la mezcla que va a ser distribuida sobre el soporte). En algunos casos, las estaciones están más enfocadas a un tipo de trabajo que a otro, como sucede, por ejemplo, en el caso de Ableton Live, más enfocada al trabajo con loops. En todo caso, los modos de trabajo terminan siendo un modo especial de distribución de las ventanas del programa que no determinan del todo su uso. Los elementos referidos suelen ser comunes a todas las DAW. Sin embargo, cada una de ellas incorpora distintas posibilidades y diseños. En cualquier caso, en la actualidad, todas las DAW aplican los principios de la edición no lineal no destructiva en los procesos de diseño del sonido para audiovisuales.
4.1.2. Edición no lineal Cuando se habla de edición no lineal frente a la edición lineal, se está haciendo referencia a la posibilidad de acceder a cualquier punto de la grabación sin nece-
108
Edición y posproducción de sonido
sidad de pasar por lo anterior o posteriormente grabado. Por otra parte, podemos duplicar, borrar o cambiar el orden de cualquier sonido que hayamos grabado. Esto facilita que, por ejemplo, se pueda repetir un pasaje sin tener que volver a grabarlo o que podamos cambiar de orden secuencias de sonido completas dentro de un proyecto de sonido audiovisual. Si pensamos en cómo se comportaban los sistemas de cinta, comprenderemos que para llegar a un punto determinado de la grabación era necesario que la cinta pasara por las cabezas de lectura o grabación del sistema, hasta llegar a ese punto, mientras que para cambiar de posición sonidos ya grabados había que utilizar procedimientos engorrosos que afectaban a la calidad del sonido. Esto ocurría en todos los sistemas sobre cinta, incluidos los digitales (aunque estos últimos no estaban afectados por la pérdida de calidad al hacer edición por copia). La llegada de la grabación sobre discos duros con interfaces de pantalla permitió acceder instantáneamente a cualquier punto de la grabación solo con un clic de ratón desde la pantalla, dado que los datos se registran sobre una superficie (discos HDD) o en un transistor (discos SSD), donde pueden ser localizados y leídos casi instantáneamente.
4.1.3. Edición no destructiva En los inicios de la edición de sonido sobre cinta magnética, cuando se hacía una modificación en la edición, mezcla, etc., había dos opciones: por un lado, se podía utilizar la cinta original grabada que se cortaba y se empalmaba o se borraba para realizar la edición; por otro, se podía hacer una regrabación que incluyera la edición, manteniendo las pistas originales. En el primer caso, se trataba de una edición destructiva, es decir, las modificaciones suponían la destrucción del sonido originalmente registrado para obtener el nuevo resultado. En el segundo caso, se trataba de una edición no destructiva, puesto que se podía volver a las pistas originalmente grabadas para deshacer la edición o efectuar otra distinta. El problema de este tipo de ediciones sobre cinta es que, en el caso de la edición destructiva, cualquier paso que se diera no tenía vuelta atrás. Por otra parte, la edición no destructiva basada en copias sucesivas añadía ruido en cada una de las regrabaciones, por lo que había un límite a las posibles ediciones. Además, volver atrás suponía un camino de todo o nada, esto es, se podían deshacer todos los cambios efectuados en cada paso, pero no mantener algunos y modificar otros, por lo que las posibles correcciones eran muy complicadas. La introducción de las DAW solucionó los problemas de la edición destructiva y posibilitó realizar ediciones no destructivas de una manera mucho más efectiva y cómoda, manteniendo la calidad en las ediciones sucesivas y pudiendo decidir qué elementos de cada paso pueden deshacerse y cuáles no. Para ello, se utilizan dos procedimientos: la edición por copia y la edición por procesado directo. Junto a ellas, aparece la edición por referencias, que está relacionada con ambas. 109
Parte III. Posproducción
1. Edición por copia: a la hora de efectuar cualquier edición sobre un determinado elemento de la línea de tiempos, el sistema realiza una copia del archivo con la modificación efectuada, manteniendo intacto el sonido original. Este sistema ocupa mucho espacio en disco, pero permite liberar al procesador del trabajo en tiempo real, por lo que es el más adecuado para equipos poco potentes. 2. Edición por procesado directo: el sistema procesa en tiempo real las instrucciones de edición sobre la propia memoria RAM del sistema, sin realizar una copia de los archivos modificados. Esto ahorra espacio en disco, pero exige un procesador y una cantidad de memoria elevada, por lo que es un sistema que solo funciona en equipos bien configurados en este sentido. A medida que aumenta la potencia de los ordenadores se tiende a usar más este sistema de edición, puesto que es más rápido, por lo general. 3. Edición por referencias: es el sistema que se usa para visualizar la edición en pantalla, mientras que los archivos originales permanecen intactos. Así, si, por ejemplo, realizamos el corte de un fragmento de audio, lo que hace el sistema es leer los datos del archivo original que permanecen en la edición, omitiendo los que hayan sido borrados, pero sin borrarlos realmente. Igual sucede con cualquier otro tipo de edición: la vemos en pantalla y se corresponde con un proceso que se efectúa por proceso directo o por copia, pero siempre respetando el archivo original de sonido. En ocasiones, cuando se está trabajando en el mezclador multipista, se puede aplicar un proceso a algún archivo de audio para modificarlo de forma destructiva (si tengamos claro que queremos aplicar ese proceso) y no depender de la potencia del ordenador para ofrecernos esa modificación de forma no destructiva en tiempo real. Hay procesos que suelen efectuarse así, por no ser especialmente críticos, como el de normalización, que consiste en hacer que el volumen más alto del archivo coincida con el máximo que puede registrar el sistema sin saturar, elevando proporcionalmente el volumen del resto. Así se consigue aumentar el volumen del archivo sin tener que depender de un proceso en el multipista.
4.1.4. Plugins de procesamiento de sonido Los plugins son pequeños programas que residen dentro de una aplicación informática más grande, que permiten añadir una funcionalidad concreta dentro de esa aplicación genérica. En las DAW se utilizan para insertar efectos de sonido que modifican algunos aspectos concretos, bien durante la grabación o, más habitualmente, durante la mezcla y reproducción. En principio, cada DAW utiliza su propio formato de plugin, que además debe estar diseñado específicamente para el sistema operativo correspondiente, si bien 110
Edición y posproducción de sonido
algunas DAW tienen compatibilidad con los formatos de plugin más extendidos, mientras que algunos sistemas operativos (LINUX), por su configuración, ofrecen plugins en formato libre. Los más utilizados son: – VST (Virtual Studio Technology): es un formato propietario de la DAW Cubase, de Steinberg. Fue el primer formato de plugin con una implantación amplia, por lo que muchas otras DAW son compatibles con él. – RTAS (Real Time Audio Suite)/AAX (Avid Audio Extension): formatos que utiliza la DAW más extendida en estudios de sonido, ProTools, de Avid. RTAS ha sido el formato de estos plugins hasta la versión 10. Desde la versión 11 del programa se usan los plugins en formato AAX (Avid Audio Extension), con una arquitectura de 64 bits. – AU (Audio Units): formato diseñado por Apple para su sistema operativo, por lo que es compatible con las DAW que se ejecutan en este tipo de ordenadores, como Logic, la DAW más versátil de esta empresa. – DX (DirectX): formato diseñado por Microsoft para ser utilizado en cualquier DAW que se ejecute en Windows, por lo que también es compatible con muchas de ellas. – LADSPA (Linux Audio Developer’s Simple Plugin API)/LV2 (LADSPA versión 2): son los formatos libres de las DAW que funcionan bajo el sistema operativo LINUX, como Ardour. Existen versiones de plugins LADSPA, también libres, para Windows y MacOS. – Otros plugins: hay otras DAW que utilizan diferentes formatos propietarios propios como los MAS (Motu Audio System), de Motu, o los RE de Reason, pero, en general, este tipo de DAW son compatibles, al menos, con los plugins tipo VST, más extendidos. En el capítulo 6 hablaremos de la aplicación de este tipo de plugins, pero hacemos aquí una pequeña clasificación básica que puede no coincidir con la que cada DAW ofrece. a) Reverberación: son los ecos de corta duración que dan sensación de espacialidad a los sonidos. Este es uno de los efectos que mejor se ha adaptado a la digitalización, ya que es relativamente sencillo crear algoritmos matemáticos que imiten la reverberación que debería escucharse en el interior de ciertos recintos o habitaciones. Una de las aplicaciones de este tipo de plugins es la del modelado acústico, es decir, la posibilidad de captar con un micrófono especial las características acústicas de un recinto concreto para luego aplicarlas digitalmente a sonidos grabados en otro lugar. De este modo, por ejemplo, podemos aplicar las características acústicas del lugar donde hemos grabado sonido directo al sonido grabado en estudio, de forma que parezca que todo ha sido grabado en la localización. 111
Parte III. Posproducción
Figura 4.4. Plugin de Reverb de Logic.
b) Control de la dinámica: bajo este apartado nos encontramos con los compresores, expansores y limitadores que sirven para ajustar la gama dinámica del sonido. El compresor suele funcionar en combinación con un expansor. La función principal del compresor es la de reducir la gama dinámica, afectando lo menos posible a la percepción del volumen. Esto era especialmente necesario cuando se usaban soportes con una gama dinámica reducida, lo que obligaba a recortar los volúmenes altos y subir los bajos. Hoy en día, los sistemas digitales tienen una amplia gama dinámica que hace innecesario utilizar los compresones para este fin. El expansor efectúa el proceso contrario al compresor, de modo que, si hay momentos de bajo volumen en la grabación, lo sube, dependiendo de los parámetros que hayamos establecido. El limitador es un tipo especial de compresor que solo reduce los volúmenes altos para que no lleguen a saturar el sistema. En la actualidad, el uso de los controles de dinámica tiene más que ver con el hecho de que nuestro sistema auditivo aplica una serie de compensaciones a los sonidos para poder discernirlos con claridad. Esto quiere decir que, aunque el oído es capaz de soportar hasta 120 dB de gama dinámica, no lo hace indiscriminadamente, por lo que hay que adaptar los volúmenes relativos entre los distintos sonidos para que el oído los perciba correctamente. Esto permite un uso creativo de la compresión. La digitalización ha permitido reducir el tamaño de los equipos dedicados a la compresión, ya que su principio era el uso de condensadores bastante voluminosos. c) Ecualización: sirve para manipular las frecuencias que componen la señal de audio. Mediante la ecualización podemos, por ejemplo, darle más brillo a ciertos sonidos, atenuar las vibraciones que el viento haya podido producir al golpear sobre un micrófono o incluso reducir el ruido de fondo que tenga una grabación. La digitalización ha permitido un control más preciso de las frecuencias sobre las que se aplica este proceso. d) Puertas de ruido: son sistemas para reducir el ruido de fondo que pasa a la cadena de audio. Su funcionamiento es simple: no dejan pasar sonido 112
Edición y posproducción de sonido
por debajo de cierto volumen, ajustándose de manera que solo deja pasar audio cuando el volumen de sonido esté por encima del nivel de ruido.
Figura 4.5. Plugin de compresión de Logic.
Figura 4.6. Plugin de ecualización de Logic.
Figura 4.7. Plugin de puerta de ruido de Logic. 113
Parte III. Posproducción
e) Modificaciones creativas del sonido: aparte de los procesos básicos existen otros que pueden aplicarse a la señal y que, al pasar al entorno digital, han mejorado el modo de realizar su función, si bien no han supuesto una innovación excesiva. Es el caso de algunas modificaciones creativas del sonido que se aplican a veces a instrumentos musicales, por lo general, como pueden ser la distorsión, el chorus, el flanger, etc. f) Nuevos procesos: hay plugins que eran prácticamente inéditos en el entorno analógico, cuya aparición está ligada a la digitalización del sonido, y han supuesto una auténtica revolución en el proceso del sonido: los reductores de ruido, por ejemplo, que hacen un análisis del ruido de fondo de un archivo sonoro para intentar anularlo o, al menos, mitigarlo; los sistemas de estiramiento y reducción de la duración de un sonido sin alterar su frecuencia, los procesos para cambiar el tono de las voces sin cambiar la duración del sonido, el autotune o afinación automática, que permite corregir los sonidos fuera de tono. Todos ellos deben su existencia a la posibilidad de realizar análisis matemáticos de los archivos mediante la digitalización, y han supuesto enormes cambios operativos (una mayor facilidad de uso de los sistemas) y creativos (nuevas posibilidades de creación de sonidos inexistentes o modificación de los ya grabados).
Figura 4.8. Plugin de flanger de Logic.
Figura 4.9. Plugin de cambio de tono (Pitch Shifter) de Logic. 114
Edición y posproducción de sonido
Preguntas de autoevaluación 1. Las DAW permiten el control de los parámetros: � a) Solo mediante sistemas de software, puesto que son digitales. � b) Mediante software o mediante interfaces físicas, dependiendo de la dis-
ponibilidad.
� c) Mediante interfaces físicas. Si son de software, no se denominan DAW,
sino SAW.
2. Una de las características más interesantes de las DAW es que: � a) Se pueden registrar las decisiones de mezcla mediante sistemas gráficos. � b) Se puede efectuar la masterización final sin pasar por el proceso de
mezcla.
� c) Permite hacer mezclas sin supervisión.
3. Otra de las características más interesantes de las DAW es que: � a) No permite hacer edición no destructiva. � b) Permite hacer una edición lineal del sonido. � c) Permite hacer una edición de sonido no lineal.
4. Los controladores de dinámica se dividen, esencialmente, en: � a) Compresores, expansores y limitadores. � b) Agudos, medios y graves. � c) Chorus, flanger y retardo.
5. Las puertas de ruido: � a) No dejan pasar sonido por encima de cierto volumen. � b) Sirven para reducir el ruido de fondo de la cadena de audio. � c) Amplifican el ruido de fondo para poder detectarlo en la cadena de audio.
115
5
La mezcla
Ya hemos realizado la grabación del grupo de música que estamos produciendo, el concierto en directo de una orquesta o la locución y los efectos sonoros para un documental. Tras esa grabación, hemos pasado por un proceso de edición a través del cual hemos ido organizando todo el material en las diferentes pistas de nuestra DAW, limpiando diálogos o silencios musicales, añadiendo más efectos sonoros o partes instrumentales, duplicando elementos o simplificando otros. Ahora llegamos al que es considerado como el gran momento dentro de la producción musical y sonora, y en el que todos los elementos que hemos ido incorporando a nuestra producción (o todas aquellas fuentes vocales o instrumentales que forman parte de un evento en directo que tenemos que sonorizar) van a fusionarse en un único “sonido”, que será el resultado final de nuestro trabajo. El proceso de mezcla consiste en una búsqueda continua del equilibrio entre todos los elementos sonoros de una producción: conseguir que todos los instrumentos y voces de un grupo empasten entre sí, que el diálogo se oiga con claridad, sin perder el impacto de la banda sonora o el detalle de un efecto de sonido, darle a cada elemento su “sitio”. Pero también constituye un proceso muy creativo en el que, a través del uso de los distintos procesadores y de la propia mesa de mezclas, se transforma completamente el sonido de partida con una intención estética determinada. Un primer consejo a la hora de abordar cualquier proceso de mezclas, es tener claras las tres dimensiones que forman parte de nuestra escucha, y que se corresponden con los parámetros que podremos modificar durante la mezcla para llegar a ese equilibrio sonoro: 1. Amplitud: se relaciona con la intensidad con la que percibimos cada sonido. 2. Frecuencia: nos permite distribuir los sonidos dentro del espectro que va desde los graves a los agudos, dentro de nuestro umbral de audición. 3. Distribución espacial: es nuestra escucha es binaural, lo que genera un espacio sonoro tridimensional que vamos a poder utilizar para “posicionar” cada componente de nuestra mezcla. 117
Parte III. Posproducción
5.1. La mesa de mezclas La mesa de mezclas es, sin duda, el corazón de cualquier estudio de grabación, radio, televisión o sonorización en directo. Es un dispositivo electrónico que dispone de un conjunto de entradas de audio, sobre las que podremos actuar de forma independiente, para obtener una (o varias) señales de salida, que constituyen la mezcla de las distintas fuentes de entrada. A pesar de que las mesas de mezclas son cada vez más versátiles (especialmente desde la llegada del audio digital) e incorporan gran cantidad de prestaciones destinadas a distintos usos, vamos a centrarnos en la función principal de estos dispositivos: la mezcla. Con este criterio vamos a describir las distintas secciones de una mesa de mezclas, y qué papel juega cada una en todo este proceso.
5.1.1. Canales de entrada Cada mesa de mezclas tiene una serie de canales de entrada de audio. Cada canal admite una fuente de audio. Es muy habitual, sobre todo gracias al desarrollo y estandarización de los DAW como herramienta de trabajo, que identifiquemos una pista de nuestro DAW con un canal de la mesa de mezclas (especialmente cuando usamos el propio mezclador que incorpora el software de audio). Aunque en la mayoría de los casos será este el uso que hagamos (conectar cada pista a un canal para poder tratar cada instrumento o fuente sonora de forma independiente), veremos que hay ciertos tipos de canales de la mesa que no se corresponden con pistas reales en las que tenemos material sonoro grabado: retornos de envíos auxiliares, subgrupos y grupos. Cada canal cuenta, en primer lugar, con un módulo de entradas, tanto para micrófonos (normalmente en formato XLR o Canon) como para dispositivos con nivel de línea (normalmente en formato Jack ¼), como podemos ver en la figura 5.1. Como vimos en el capítulo 2, la señal de micro o bajo nivel (inferior normalmente a –20 dBu) necesita ser amplificada para llegar al nivel de línea (entre -20 dBu y +30 dBu), que es el que se utiliza en todo el recorrido de la señal de audio a través de la mesa de mezclas. La entrada de micro incorpora un preamplificador de micro, con su correspondiente alimentación phantom, un atenuador (PAD) y un control de ganancia. A la salida de este módulo de entradas encontramos habitualmente el inversor de fase, por si necesitamos invertir la fase de la señal de audio de un canal con respecto a la de otro. Esto es especialmente útil en los casos en que, por distintas causas, haya cancelaciones de fase entre dos sonidos (tal y como vimos en el capítulo 1). Por ejemplo, si grabamos la caja de una batería con dos micrófonos, uno situado a cada lado del parche de la caja, el sonido que cada uno recoja tendrá la fase contraria al otro, y si los sumamos, se cancelarán entre sí. Si queremos mantener y mezclar las dos tomas microfónicas para obtener un sonido en particular, necesitamos invertir la fase de uno de los canales. 118
La mezcla
Conector de entrada para señal de nivel de línea
Conectores de envío y retorno para inserto de procesador en el canal
Conectores de salida directa (para conectar a un grabador multipista) Conector de entrada para señal de nivel de micro
Figura 5.1. Conexiones de una mesa de mezclas.
El siguiente módulo por el que pasa la señal de audio es el de ecualizador y fi ltros. Dado que la ecualización y el fi ltrado son dos de los procesos más comunes en todo proceso de mezclas, las mesas de mezclas incorporan uno o más ecualizadores y fi ltros en cada canal. En el apartado 5.3 de este capítulo nos detendremos en explicar cómo funciona cada uno y las aplicaciones que podemos darle. Otro de los módulos existentes en cada canal es el de inserciones, que podemos encontrar antes o después del módulo de ecualizador y fi ltrado, según el diseño de cada mesa. Este módulo nos permite aplicar a la señal de audio un procesador que no viene integrado en la propia mesa (como los procesadores de dinámica, que veremos en el apartado 5.4). Este módulo incorpora un conector (INSERT SEND) para enviar la señal al procesador externo y otro (INSERT IN) para retornar la señal al canal. En el caso de las mesas de mezclas digitales, así como de los mezcladores de las distintas DAW, este módulo de inserciones nos permite cargar plugins de audio que procesan el sonido en tiempo real. En la fi gura 5.2, que muestra el mezclador del DAW Nuendo, de la fi rma Steinberg, se pueden ver varios plugins insertos en distintos canales del mezclador. Como ya vimos en el capítulo 4, la cantidad de plugins simultáneos que podamos cargar en cada canal vendrá limitado por la propia confi guración del mezclador, así como por la potencia del procesador del propio ordenador. Como se puede comprender, este módulo añade una enorme versatilidad a cualquier mesa de mezclas, y multiplica las opciones de proceso de sonido aún más en los mezcladores de las DAW, pudiendo utilizar plugins de distintos fabricantes de forma directa en el mezclador.
119
Parte III. Posproducción
Figura 5.2. Mezclador de DAW con diferentes plugins insertos en los distintos canales.
Llegamos al fader de entrada (fi gura 5.3). Se trata de un potenciómetro deslizante situado en la parte inferior de cada canal, y su función principal es ajustar el nivel de la señal que sale del canal. Habitualmente tiene un nivel de referencia (marcado como 0) en el que el fader no actúa sobre la señal de audio. Potenciómetro de panorama Pulsador MUTE Pulsador SOLO Pulsadores para asignar a buses y subgrupos
Fader de control de volumen
Figura 5.3. Faders de distintos canales de una mesa de mezclas. 120
La mezcla
Como puede observarse en la figura, el recorrido desde el punto 0 es mucho más corto hacia arriba (amplificación) que hacia abajo (atenuación). Esto es porque la función principal del fader es la de atenuar la señal de cada canal para que se sume a la del resto de canales (de ahí su nombre en inglés, fader, que significa “atenuador”). Junto al fader de entrada podemos encontrar una serie de pulsadores que nos permiten realizar distintas acciones sobre la señal de audio: – PFL (Pre Fader Listening): nos permite escuchar el nivel de la señal de entrada, independientemente del ajuste del fader. Es especialmente útil si queremos, por ejemplo, modificar el nivel de ganancia de entrada del canal (en el módulo de entradas), sin tener que modificar el ajuste que tengamos del fader de canal. – Mute: silencia la señal de audio del canal. Es muy útil cuando queremos comenzar a mezclar una serie de canales (por ejemplo, los de la batería en una grabación musical, o los de los diálogos en una producción audiovisual) para obtener un equilibrio interno entre todos ellos, sin estar escuchando el resto de señales, que en este caso muteamos. – Solo: silencia el resto de señales de los diferentes canales (salvo los de aquellos que tengan también su correspondiente pulsador SOLO activado). Resulta extremadamente útil, por ejemplo, cuando queremos centrarnos en ecualizar la señal de un canal en concreto sin que nos interfiera el sonido de otros canales. A continuación, el módulo de panorama es un potenciómetro giratorio que nos permite distribuir la señal entre los canales izquierdo y derecho (L y R) de la salida principal de la mesa de mezclas. Como veremos en el capítulo 6, además de la mezcla tradicional en estéreo, existen distintos formatos de mezcla multicanal. En estos casos, el módulo de panorama es sustituido por un control mucho más completo (y complejo) de la distribución de la señal de audio en todo el espacio tridimensional. En la figura 5.4 podemos ver el completo sistema de panoramización multicanal del mezclador de Nuendo. Finalmente, tenemos el módulo de envíos auxiliares. A través de un envío auxiliar podemos mandar la cantidad que queramos de la señal de un canal a otra salida independiente de la mesa, sin que esto afecte al volumen de la señal que va a la salida principal, pasando por el fader de canal. El uso principal que se suele dar a estos envíos es, por un lado, mandar distintas submezclas a los monitores o sistemas de escucha de los músicos en un concierto en directo para que puedan tener una referencia del sonido de otros instrumentos o voces. Por otro, como veremos en el apartado 5.5, estos envíos se usan para incorporar procesadores de tiempo (reverberación, delays, etc.) a la mezcla. 121
Parte III. Posproducción
Figura 5.4. Sistema de panoramización multicanal del DAW Nuendo 8.
Una mesa de mezclas puede tener varios envíos independientes y, a su vez, estos pueden ser post-fader (la señal llega al envío después de pasar por el fader de entrada) o pre-fader (la señal pasa por el envío antes de pasar por el fader y, por lo tanto, no se ve afectada por el nivel de atenuación del fader de entrada). La fi gura 5.5 ilustra estas dos formas distintas de envío auxiliar.
Potenciómetro de nivel de envío auxiliar 1
Fader de canal
Ruta de envío post-fader Ruta de envío pre-fader
Canal de entrada
Canal de entrada
Canal Máster de Auxiliar 1
Figura 5.5. Diagrama de envío de señal pos-fader y pre-fader. 122
La mezcla
Las señales de los distintos canales que se envían a un mismo auxiliar se sumarán entre sí. El nivel sonoro de la suma de estas señales se controla desde cada máster de auxiliar, que suele ser un potenciómetro o un fader por el que pasa la suma de estas señales antes de llegar a la salida de cada auxiliar de la mesa. Pongamos, por ejemplo, que queremos enviar, a través del auxiliar 1, la señal de la guitarra y el piano al monitor o sistema de escucha del cantante para que tenga una referencia del sonido de estos instrumentos. Para ello, ajustaremos el potenciómetro del auxiliar 1 del canal de la guitarra con la cantidad de señal que deseemos, y lo mismo haremos con el potenciómetro del auxiliar 1 del canal del piano. Ambas señales se sumarán en el máster de auxiliar 1, donde podremos igualmente ajustar el nivel de esta suma. La señal resultante se enviará de forma automática a la salida de auxiliar 1 de la mesa de mezclas (normalmente en formato Jack ¼), a la que conectaremos el altavoz o monitor del cantante. Una vez que la señal de audio ha llegado al canal, hemos ajustado su ganancia y fase en el módulo de entrada, la hemos ecualizado e insertado algún procesador, hemos ajustado su volumen y su panorama, e incluso hemos abierto un envío auxiliar para ese canal, ¿dónde va la señal de audio ya procesada? Como veremos a continuación, podemos enviar la señal de cada canal de entradas a uno o varios buses, mediante un panel de asignación o matriz, en forma de una serie de pulsadores, junto al fader de entrada. De esta forma sumamos las señales de distintos canales de entrada en un mismo canal de salida, cada una con sus respectivos ajustes.
5.1.2. Buses Los buses son, principalmente, los canales de salida en los que se suman las señales de los distintos canales de entrada de la mesa de mezclas. Una mesa tendrá siempre, al menos, un bus de salida principal (llamado habitualmente bus máster), que estará conectado a la salida principal de la mesa (que suele aparecer nombrada como main aut o stereo out). Sin embargo, la mesa puede incorporar otros buses de salida adicionales, con el objeto de mandar la señal de distintos canales a salidas independientes de la mesa de mezclas. Mediante la matriz de cada canal de entrada elegiremos a qué bus (o buses) queremos enviar la señal de cada canal. Además del bus máster y los buses adicionales, que se corresponden directamente con salidas físicas de la mesa, existen otros tipos de buses internos: los subgrupos. Son canales en los que podemos sumar las señales de los distintos canales de entrada, pero que no tienen asignada una salida física de la mesa. La función de estos es poder agrupar la señal de varios canales para controlar distintos parámetros de todas ellas de forma conjunta. El envío a estos buses se realiza igualmente desde la matriz de cada canal de entrada. Un ejemplo muy frecuente es agrupar la batería. 123
Parte III. Posproducción
Una vez que hemos ecualizado, panoramizado y ajustado cada canal de entrada de los distintos micrófonos que suele llevar una batería (normalmente 8: bombo, caja, charles, los tres timbales y dos aéreos), los ocho canales se asignan al subgrupo 1, pulsando en la matriz de cada canal el botón correspondiente a dicho subgrupo. De esta forma, la señal de estos ocho canales se mezcla y se manda al canal del subgrupo 1, que es un canal muy similar a un canal de entrada, pero que no cuenta, lógicamente, con módulo de entrada de señal, ya que la señal es enviada internamente a través del bus. Desde este subgrupo podremos, durante el proceso de mezclas de todos los instrumentos, controlar y modificar, por ejemplo, el volumen global de toda la batería, manteniendo la independencia del control de cada uno de los 8 micrófonos en los canales de entrada. A su vez, el canal de subgrupo lo asignaremos al bus máster, para que la señal de la mezcla de la batería se incorpore a la mezcla principal.
5.1.3. Monitorado Esta sección de la mesa incluye, por un lado, los sistemas de medición de los niveles de las distintas señales de audio que pasan a través de la mesa de mezclas. Habitualmente, existe un medidor de nivel principal, ya sea un vúmetro o una escala de led, que mide el nivel de la señal que sale por el bus máster, aunque en muchas mesas podemos asignar a ese vúmetro otra señal a través de algún pulsador, es decir, seleccionar la información de qué señal o qué canal va a mostrar este medidor de nivel. También es cada vez más frecuente que exista un medidor de led individual para cada canal de la mesa. Cuando el pulsador PFL está activado, dicho medidor reflejará el nivel de la señal antes de pasar por el fader, para así poder ajustar convenientemente la ganancia de entrada del canal. Cuando el PFL está desactivado, ese medidor mostrará el nivel de la señal del canal después de pasar por el fader. En función de la complejidad y dotación de la mesa de mezclas, incorporará medidores adicionales, como por ejemplo los niveles de las señales que se mandan a través de los envíos auxiliares. Por otro lado, en esta sección debemos incluir también referencia a los controles de salida que muchas mesas de mezclas incorporan para ajustar el volumen que se envía a los altavoces del estudio, denominada control room, y que utiliza una salida independiente de la del bus principal o bus máster. Mientras el bus máster controla el nivel de la mezcla, el control room controla el volumen de reproducción en la sala. La aplicación principal de esta funcionalidad es la escucha de la mezcla en el propio estudio de grabación. Como veremos posteriormente en este mismo capítulo, es muy conveniente escuchar una misma mezcla a distintos volúmenes, ya que la respuesta de nuestro oído no es uniforme a las diferentes intensidades. De esta forma, podremos asegurarnos de que nuestra mezcla se oirá igualmente bien a diferentes volúmenes de escucha. 124
La mezcla
5.1.4. Comunicaciones Esta sección permite al técnico de sonido comunicarse, a través de algunas de las salidas de la propia mesa de mezclas, con los músicos o con el resto del equipo técnico. También llamado talkback, consta de un micrófono de órdenes incorporado en la propia mesa, junto con un selector para enviar la señal de dicho micrófono a distintas salidas de la mesa de mezclas: envíos auxiliares, buses de salida específicos, etc.
5.1.5. Conexionado Como ya hemos ido viendo a través de las distintas secciones de una mesa de mezclas, existe un gran número de conexiones físicas de entrada y salida de una mesa de mezclas, que enumeramos a continuación de forma genérica (aunque puede cambiar en función del diseño de cada una): – – – –
– – – – –
Entrada de nivel de micrófono. Entrada de nivel de línea. Inserto (envío-retorno). Entradas estéreo de nivel de línea: existe en ciertos canales, con configuración estéreo en lugar de mono, pensados para sumar a la mesa fuentes de sonido en este formato, como pueden ser teclados, reproductores de CD, señales de emisiones de televisión o vídeo. Salidas de envíos auxiliares. Salidas de buses (bus máster + buses adicionales). Salida de control room: salida independiente para conectarla a los altavoces o monitores. Salida para auriculares (con su propio control de volumen). Salida de talkback.
5.2. Ecualizadores y filtros Como ya adelantamos en el capítulo 4, los ecualizadores y los filtros permiten modificar la estructura en frecuencias de una señal de audio con diferentes propósitos: limpiar y eliminar ruidos de la grabación que están concentrados en determinadas frecuencias, resaltar ciertas frecuencias que han quedado enmascaradas por otras o que no han sido registradas por el micrófono con la suficiente intensidad y, por supuesto, con finalidades estéticas y creativas, como iremos viendo en este capítulo.
125
Parte III. Posproducción
5.2.1. Los filtros Un fi ltro de audio es, básicamente, un circuito que deja pasar una serie de frecuencias, mientras bloquea o fi ltra el paso de otras. Los conceptos básicos que debemos conocer para ajustar y utilizar los fi ltros (que también nos valdrán para el uso de los ecualizadores) son los siguientes: – – – –
Banda de paso: intervalo de frecuencias sobre el que el fi ltro no actúa, dejando pasar la señal de audio. Banda eliminada: intervalo de frecuencias en el que actúa el fi ltro, reduciendo su ganancia. Frecuencia de corte: frecuencia central sobre la que actúa el fi ltro o a partir de la cual actúa el fi ltro (dependiendo del tipo de fi ltro). Pendiente de la curva: es la caída progresiva de la ganancia de las frecuencias fi ltradas. A partir de la frecuencia de corte, la señal irá disminuyendo con una pendiente concreta, que viene determinada por el orden del fi ltro: • • • •
1.er orden: 6 dB por octava. 2.º orden: 12 dB por octava. 3.er orden: 18 dB por octava. 4.º orden: 24 dB por octava.
En la fi gura 5.6 podemos ver los distintos parámetros de un fi ltro, así como las distintas pendientes de caída. Amplitud (dB)
Pendiente de caída del filtro
Banda de paso
Banda eliminada Frecuencia de corte
Figura 5.6. Parámetros de un fi ltro.
126
Frecuencia (Hz)
La mezcla
Los parámetros sobre los que actuaremos al aplicar un filtro serán, básicamente, dos: frecuencia de corte y pendiente de la curva. Existen diferentes tipos de filtros muy estandarizados, como son los siguientes: – Filtro paso bajo (Low Pass Filter, LPF): deja pasar las frecuencias por debajo de la frecuencia de corte y atenúa frecuencias por encima de la frecuencia de corte. Ideal para eliminar frecuencias agudas. Un ejemplo de aplicación en audiovisual sería, por ejemplo, cuando queremos simular que el sonido ambiente procede de la habitación contigua. Las frecuencias agudas rebotarían sobre la pared y solo las frecuencias graves (que además hacen vibrar la propia estructura del edificio) pasarían. Si aplicamos un filtro paso bajo con una frecuencia de corte en torno a 400 Hz, por ejemplo, a un sonido ambiente, podremos obtener este efecto. En el anexo web del capítulo 5, “Filtro paso bajo”, también accesible desde la webgrafía, se puede escuchar el sonido antes y después de aplicar el filtro. – Filtro paso alto (High Pass Filter, HPF): deja pasar las frecuencias por encima de la frecuencia de corte y atenúa frecuencias por debajo de la frecuencia de corte. El efecto sería el inverso al del filtro paso bajo. Uno de sus usos más frecuentes es la eliminación de ruidos de baja frecuencia y viento que muchas veces se “cuelan” en la captación microfónica, como puedes escuchar en el ejemplo “Filtro paso alto” (en el anexo web del capítulo 5, también accesible desde la webgrafía). – Filtro paso banda (Band Pass Filter, BPF): deja pasar las frecuencias comprendidas entre dos frecuencias de corte fijas. Un ejemplo práctico de su uso sería el intentar simular el sonido de voz telefónica. El micrófono de un teléfono está optimizado para captar las frecuencias medias, en las que la voz humana es más inteligible. Lo mismo ocurre con el altavoz del propio teléfono. Por tanto, si aplicamos un filtro que deje pasar únicamente un rango de frecuencias medias (por ejemplo, entre 500Hz y 3500Hz) conseguiremos este efecto, como se puede escuchar en el archivo “Filtro paso banda” (en el anexo web del capítulo 5, también accesible desde la webgrafía). – Filtro de banda eliminada (rechaza banda) (Band Stop Filter, BSF): deja pasar todas las frecuencias, excepto las comprendidas entre dos frecuencias de corte. En este caso, podemos utilizar el filtro para eliminar una banda específica de frecuencias que estén introduciendo algún tipo de ruido no deseado en la grabación. Una de sus aplicaciones más usadas en cine y televisión es la eliminación del ruido de la frecuencia de la red eléctrica, que con mucha frecuencia se induce en la señal de audio. En Europa dicha frecuencia es de 50 Hz, por lo que aplicando un filtro que filtre específicamente esa frecuencia conseguiremos eliminar el ruido, como puede escucharse en el archivo “Filtro banda eliminada” (también accesible desde la webgrafía). 127
Parte III. Posproducción
5.2.2. El ecualizador El ecualizador permite modificar la curva de respuesta en frecuencia de una señal de audio aumentando o disminuyendo el nivel de la señal en una sección específica del espectro de frecuencias. La función inicial que tuvieron los ecualizadores fue la de igualar, a nivel de frecuencia, distintas señales de audio, y de ahí su nombre. A diferencia de los filtros, en los ecualizadores encontramos tres parámetros principales sobre los que actuar: 1. Frecuencia de corte: es la frecuencia central sobre la que queremos actuar. 2. Ganancia: es la cantidad de aumento (boost) o atenuación (cut) del nivel de la señal de audio que aplicamos, siempre sobre la frecuencia de corte elegida. 3. Q (o factor Q): es el ancho de banda de frecuencias sobre la que actúa la ecualización, es decir, el margen de frecuencias que resultan alteradas. Un Q estrecho (con valores altos) permite actuar sobre un rango muy reducido de frecuencias (ideal para la atenuación de frecuencias resonantes o ruidos muy localizados), mientras que un Q ancho (con valores bajos) permite actuar sobre un margen mucho mayor de frecuencias, ideal para modificar con más suavidad el rango de frecuencias elegido. Asimismo, la forma en que el ecualizador actúa sobre cada banda de frecuencias puede ser de dos tipos, según sea una respuesta tipo peak o tipo shelving: – Respuesta tipo peak. Modifican cada banda amplificando o atenuando en torno a una frecuencia central, con una pendiente de caída a ambos lados de esta. A este tipo de actuación también se la conoce como respuesta tipo campana (bell curve) por la forma “acampanada” que muestra la pendiente de caída a ambos lados de la frecuencia de corte. A mayor Q, más cerrada será esa campana, y viceversa, como puede verse en las figuras 5.7 y 5.8.
Figura 5.7. Gráfico de la respuesta tipo peak de un ecualizador, con un Q bajo. 128
La mezcla
Figura 5.8. Gráfico de la respuesta tipo peak de un ecualizador, con un Q alto.
– Respuesta tipo shelving. Amplifican o atenúan las frecuencias que se encuentran por encima o por debajo de la frecuencia de corte. La figura 5.9 muestra gráficos de respuesta shelving de un ecualizador actuando sobre frecuencias graves y agudas.
Figura 5.9. Gráficos de la respuesta tipo shelving de un ecualizador.
El número de bandas de cada ecualizador es variable, y va a depender tanto del fabricante de este como, especialmente, de la aplicación para la que haya sido diseñado. Desde este punto de vista, existen varios tipos de ecualizadores (gráficos, paragráficos, paramétricos, semiparamétricos, etc.). Vamos a centrarnos únicamente en dos de ellos: el gráfico y el paramétrico, por ser los que con más frecuencia vamos a utilizar en distintos contextos y aplicaciones.
129
Parte III. Posproducción
A) Ecualizador gráfico Los controles son normalmente de tipo deslizante y permiten actuar sobre todo el espectro de frecuencias para obtener un resultado acústico mucho más preciso. Cada control permite la amplificación o la atenuación de un reducido margen de frecuencias. Entre los controles de un ecualizador gráfico puede haber una distancia en frecuencias de una octava (10 bandas), media octava (20 bandas) o un tercio de octava (30 o 31 bandas). La frecuencia central sobre la que opera cada filtro está siempre especificada al pie de cada control. Todas las bandas suelen contener filtros tipo peak, con una ligera superposición parcial entre bandas adyacentes. Como vemos, el uso de estos ecualizadores se limita a actuar sobre la ganancia del control deslizante que corresponde a la banda de frecuencias que queremos modificar. Algunos ofrecen la opción de elegir entre dos valores definidos de Q para todo el ecualizador.
Figura 5.10. Plugin de ecualizador gráfico de 30 bandas.
Estos tipos de ecualizadores reciben este nombre (gráficos) porque, si unimos con una línea imaginaria la posición de los distintos controles deslizantes después de aplicar la ecualización, se obtendría la representación gráfica de la curva de respuesta en frecuencia aplicada. B) Ecualizador paramétrico El ecualizador paramétrico permite actuar sobre menos bandas de frecuencia (en el gráfico veíamos que existían versiones para actuar sobre 10, 20 o 30 bandas simultáneamente), pero el nivel de control es mucho mayor, ya que podemos elegir la frecuencia de corte, la ganancia y el factor Q en cada banda de frecuencias. En primer lugar, se elige la frecuencia central que defina la banda sobre la que se quiere actuar, después se especifica el ancho de banda que se quiera modificar en torno a esa frecuencia elegida y, por último, se aplica la cantidad de amplificación o atenuación deseada sobre la banda seleccionada. El ecualizador paramétrico 130
La mezcla
proporciona una enorme flexibilidad y precisión en el control de la ecualización, comparado con otro tipo de ecualizadores.
Figura 5.11. Plugin de ecualizador que simula los controles de un ecualizador paramétrico analógico.
Es muy frecuente que un ecualizador paramétrico tenga entre 3 y 5 bandas sobre las que actuar. Normalmente, las dos de los extremos (las centradas en frecuencias más graves y más agudas) suelen ser de tipo shelving, mientras que las centrales suelen ser de tipo peak. En muchos casos, además, existe la opción de conmutar las bandas de tipo shelving por filtros paso bajo o paso alto, modificando así la forma de actuar sobre estas frecuencias. La figura 5.12 muestra un ecualizador paramétrico muy completo, ya que incorpora cinco bandas de frecuencia (de las que las dos extremas son tipo shelving) y, además, dos filtros (un paso bajo y un paso alto). Al tratarse de un ecualizador en formato plugin, incorpora una gráfica en la que podemos ver el efecto de la ecualización aplicada sobre las distintas frecuencias. Incorpora un analizador de espectro, que nos permite ver la respuesta en frecuencias de la señal que queremos procesar para detectar visualmente ciertos desequilibrios o ciertas frecuencias que pueden ser las responsables de, por ejemplo, ruidos no deseados. En la webgrafía, el archivo “Ecualizador paramétrico” muestra un vídeo del uso y aplicación de este ecualizador.
Figura 5.12. Controles y funcionamiento de un ecualizador paramétrico. 131
Parte III. Posproducción
5.3. Procesadores de dinámica Como vimos en el capítulo 2, el rango dinámico o el margen dinámico es la distancia, en amplitud o intensidad, entre el nivel más alto y el más bajo de una señal de audio. Una señal de audio con “más dinámica” tendrá una diferencia mayor entre el pico más fuerte de señal y el más débil. Un ejemplo perfecto es la música clásica, con un rango dinámico que va desde el ppp (pianísimo) al fff (fortísimo). En el extremo opuesto tendríamos otros estilos musicales, como el techno, con un rango dinámico muy reducido. Los procesadores de dinámica tienen como función poder controlar el rango dinámico de una señal de audio, principalmente con dos propósitos: reducir un margen dinámico muy amplio o ampliar uno muy pequeño. En cada caso, se utilizará un tipo de procesador diferente.
5.3.1. El compresor Es el procesador que reduce el rango dinámico de la señal de audio. Hay muchos casos en los que es necesario reducir el rango dinámico de una señal. Por ejemplo, en grabación analógica es necesario comprimir la dinámica musical dentro de un margen de unos 75 dB para evitar que el nivel de ruido ensucie la señal. En grabación digital ese margen se amplía hasta los 90 dB. Cuando se trabaja con varios instrumentos musicales, tanto en grabación como en directo, necesitamos mantener un cierto equilibrio sonoro entre ellos. Por ejemplo, un batería puede golpear el bombo con distinta fuerza en cada compás, aunque se pretenda que cada golpe suene con la misma intensidad (al fin y al cabo, es un ser humano). Mediante el compresor, podemos aumentar la intensidad de los golpes más suaves o reducir la de los más fuertes. El archivo de vídeo “Compresor batería” muestra el compresor actuando sobre la señal de la mezcla de la batería. Generalmente, se suele aplicar un poco de compresión a la mayoría de instrumentos de una grabación discográfica, aunque esto depende mucho del estilo musical (en música clásica no se usa nada de compresión, mientras que en estilos como el pop o el rock sí es mucho más frecuente). En el ámbito audiovisual, la compresión nos permite diferenciar claramente los planos sonoros para, por ejemplo, hacer más inteligible los diálogos de una película cuando “chocan” con la banda sonora musical. En este caso, además de comprimir la voz para que no se pierda ningún detalle del diálogo y situarla en primer término de la mezcla, podemos aplicar una compresión ligera a la música para que pueda escucharse con detalle, aunque esté en un plano más de fondo. En la figura 5.13 podemos ver el efecto que el compresor tiene sobre la señal de audio.
132
La mezcla
Amplitud (dB)
Amplitud (dB) COMPRESOR
Tiempo
Tiempo Entrada
Salida
Figura 5.13. Efecto del compresor sobre el rango dinámico de la señal de audio.
¿Cómo funciona realmente el compresor? A partir de un determinado nivel de señal que fi jamos, el compresor comienza a actuar, reduciendo el nivel de la señal de salida con respecto a la de entrada, en la proporción que determinemos. Existen varios parámetros que tenemos que tener muy en cuenta a la hora de ajustar el compresor: – –
–
– –
Treshold (umbral): es el nivel a partir del cual comienza a actuar el compresor. Ratio (relación de compresión): es la proporción de cambio de nivel entre la entrada y la salida. Estas relaciones suelen ser variables, dependiendo del compresor, y se mueven desde 1:1 hasta 20:1. Si se ajusta una ratio de 2 a 1 (2:1) signifi ca que, si la señal de entrada incrementa su nivel en 2 dB, en la salida habrá un incremento de 1 dB, y así sucesivamente. Attack (tiempo de ataque): es el tiempo que necesita el compresor en detectar un incremento en la señal de entrada. Es decir, el tiempo que tarda en comprimir. Dicho tiempo suele estar entre 0.25 y 10 milisegundos. Deberemos utilizar tiempos más cortos para señales muy transitorias (con cambios muy bruscos de nivel, como por ejemplo cualquier golpe de una batería) y tiempos más largos para señales que evolucionan de forma más progresiva (como la voz). Release (tiempo de recuperación): es el tiempo que necesita el compresor para detectar el decremento en la señal de entrada y poder dejar de comprimir. Varía entre 50 milisegundos y varios segundos. Gain (ganancia): se trata de un potenciómetro que permite aumentar o disminuir el nivel de salida del compresor. Muchos compresores disponen además de un conmutador bypass que desconecta las funciones normales del aparato y sirve para comparar la señal procesada con la que no está.
En la fi gura 5.14 vemos los controles habituales que incorpora un compresor. 133
Parte III. Posproducción
Figura 5.14. Controles típicos de un compresor.
5.3.2. El limitador Es un procesador que, en lugar de reducir el nivel de la señal a partir de un determinado umbral, mantiene el nivel por debajo del umbral predeterminado, limitando la señal por encima de dicho umbral (de ahí su nombre). En este caso, el umbral que fi jemos será el nivel máximo que no queremos sobrepasar. Se usa para evitar saturaciones en etapas posteriores a la mezcla (especialmente durante el proceso de mastering) y en los lugares donde el volumen de sonido no puede superar determinados niveles. En el archivo “Limitador máster” puedes ver y oír el efecto de un limitador aplicado a la mezcla de una canción. La fi gura 5.15 muestra el efecto del limitador sobre la señal de audio: Umbral límite Amplitud (dB)
Amplitud (dB) LIMITADOR
Tiempo
Tiempo Salida
Entrada
Figura 5.15. Efecto del limitador sobre el rango dinámico de la señal de audio.
134
La mezcla
Figura 5.16. Plugin limitador.
A diferencia de los compresores, los tiempos de ataque y recuperación tienen que ser muy cortos para que la limitación resulte efectiva y suene limpia. En algunos dispositivos de este tipo, estos tiempos están ya fi jados por el fabricante y no hay opción de modifi carlos manualmente.
5.3.3. El expansor El proceso que realiza el expansor es justamente el inverso al que realiza el compresor: se encarga de expandir el margen dinámico de una señal de audio. Su función es detectar los niveles de la señal, y amplifi car los que son altos y atenuar aún más los débiles.
Amplitud (dB)
Amplitud (dB) EXPANSOR
Tiempo
Tiempo
Entrada
Salida
Figura 5.17. Efecto del expansor sobre el rango dinámico de la señal de audio.
Los controles de un expansor son similares a los de un compresor, pero las relaciones son inversas. En una relación de 1 a 2, cada 1 dB de entrada se expande 135
Parte III. Posproducción
a 2 dB de salida. El sonido obtenido utilizando un expansor acostumbra a resultar más musical. Una derivación de los expansores son las puertas de ruido.
5.4. Procesadores de tiempo A diferencia de los ecualizadores y los procesadores de dinámica, los procesadores de tiempo modifican el comportamiento de la señal de audio en el tiempo (aunque, como veremos, esto también va a influir en la percepción espacial que tengamos de ese sonido).
5.4.1. La reverberación La reverberación trata de simular el comportamiento de una señal de audio en un recinto cerrado, recreando las reflexiones de la señal sobre las distintas superficies del espacio que se quiera simular, mediante sucesivos retardos temporales de la señal original (recordemos lo visto sobre la reverberación en el primer capítulo, concretamente en el apartado 1.2.4.a). Para ello, se suman a la señal original unas repeticiones que han sido retardas y atenuadas. A lo largo de la historia, el procedimiento para recrear la reverberación de forma artificial ha pasado por los sistemas más diversos. Al principio se trataba de obtener este efecto mediante habitaciones aisladas, sistemas de muelles y placas; todos ellos tenían en común que precisaban de un considerable espacio para su función. A mediados de los años 70 aparecieron las primeras unidades de reverberación digital que, a pesar de su elevado coste, simplificaron el proceso para obtener este efecto. El principio de las unidades de reverberación digital se basa en la conversión de la señal analógica de audio en señal digital para así poder manipularla y lograr la reverberación. La señal digitalizada es retardada varios milisegundos para producir el efecto. Al final, la señal es convertida de nuevo en analógica. Las unidades digitales permiten manipular la señal digitalizada, así como los distintos tiempos de retardo, para lograr que se genere el tipo de reverberación que nos convenga. Los parámetros más importantes que pueden ser modificados son los que siguen: – Program. Podemos elegir un modelo específico de recinto, sala de concierto, estudio de grabación, iglesia, cueva para que la unidad simule la reverberación que se obtiene en cada lugar. – Predelay. Este control permite escoger el tiempo que transcurre entre la señal original y las primeras reflexiones para simular el lapso temporal que el sonido tardaría en ir y rebotar de las paredes más próximas al hipotético oyente.
136
La mezcla
– Reverberation time. Es el tiempo que tarda el nivel de la señal retardada en descender 60 dB. Es habitual que se puedan escoger dos tiempos de caída para la reverberación, uno para las frecuencias bajas y otro para las frecuencias medias, siendo posible escoger la frecuencia entre unas y otras. Ello permite simular espacios con distinto coeficiente de absorción. – Density. Este control permite escoger un mayor o menor número de reflexiones presentes en la señal generada. Algunos programas calculan este parámetro basándose en la dimensión del recinto escogido, e incrementan la densidad conforme aumenta el tamaño de este. – Direct/Reverb mix. Como veremos en el siguiente apartado, la señal que contiene la reverberación ya generada se envía de nuevo a la mesa de mezclas para ser mezclada con la señal original. Pero, en algunos casos, la señal limpia (dry) puede mezclarse con la señal procesada (reverberada) en el mismo aparato.
Figura 5.18. Interfaz de un plugin de reverberación.
El archivo “Reverbación” muestra los ajustes de distintos tipos de reverberación sobre una misma señal de audio para simular distintos espacios en los que ese sonido puede localizarse. Uno de los últimos avances en las técnicas de muestreo y su aplicación a la creación sonora es la denominada reverberación por convolución. Las unidades de reverberación digitales tradicionales añaden reflexiones artificiales a la señal sonora mediante la introducción de retardos. La reverberación por convolución se basa en un nuevo concepto: el muestreo de las propiedades acústicas de un recinto. Utilizando una técnica de grabación con múltiples micrófonos, se recogen las re137
Parte III. Posproducción
fl exiones y la reverberación generadas en un recinto a partir de la emisión de un sonido que cubre todo el espectro de frecuencias audible. Mediante el análisis de estas refl exiones, se obtiene un modelo de respuesta de ese recinto, que posteriormente se puede aplicar a cualquier sonido. De esta forma, en lugar de añadir artifi cialmente refl exiones a la señal sonora, se consigue localizar ese sonido dentro de un espacio real, dotando a ese sonido del mismo comportamiento que el obtenido en la sala que se ha muestreado. Al igual que las unidades de reverberación tradicionales incluyen múltiples presets con distintas programaciones de retardos para simular distintos espacios, los sistemas de reverberación por convolución incorporan una lista de los teatros, salas de concierto, iglesias y estudios de grabación reales que han sido muestreados y que el usuario puede cargar para procesar el sonido. Algunos incluyen recintos cuyo muestreo se ha realizado pensando específi camente en la posproducción de audio para cine: bares, cuevas, interiores de coches, ascensores, cuartos de baño. La fi gura 5.19 señala la fi cha de muestro de un recinto. El gráfi co muestra la localización de los altavoces y la microfonía en la sala, y en los datos del muestreo se especifi can tanto el modelo de altavoces utilizados (Genelec S30D) como el de los micrófonos (Neumann SKM-140, Sound eld SPS-422B y Neumann KU-100 dummy head).
Sydney Opera House - Opera Theatre Capture Date: 11 September 2003 Location: Sydney, NSW, Australia Source Type: Genelec S30D, Dodecahedron Source Locations: ON STAGE: Genelec - Center, Left, Right; ORCHESTRA PIT: Dodec - Center Mic Locations: 2 Mic Setup: Neumann SKM-140 (ORTF setup), Soundfield SPS-422B, Neumann KU-100 dummy head
Figura 5.19. Ficha del muestro del Teatro de la Ópera de Sídney, incluido en la unidad de reverberación IR-1 del fabricante Waves.
138
La mezcla
Muchas de estas unidades hacen posible la localización y el emplazamiento del sonido en un lugar muy específico del recinto muestreado, lo que puede ser de gran ayuda en el tratamiento multicanal de la mezcla sonora y en la creación de la perspectiva acústica (figura 5.21).
Figura 5.20. Plugin de reverberación por convolución.
Figura 5.21. Interfaz gráfica de la unidad de reverberación Gigapulse, de la firma Tascam. Los idconos de la derecha de la imagen representan las posibles ubicaciones, dentro de la sala, de los sonidos que queremos procesar.
139
Parte III. Posproducción
5.4.2. Otros procesadores de tiempo Además de la reverberación, existen otros procesadores, como el delay o el chorus que, a partir del mismo principio de las unidades de reverberación digitales, permiten manipular el retardo en el tiempo del sonido muestreado. Para ello, retienen la señal digitalizada durante el tiempo definido por el usuario y la vuelven a mandar a la salida del procesador cuando ha transcurrido el tiempo indicado.
5.5. El proceso de mezcla El proceso de mezcla puede ser muy distinto en función del contenido musical o sonoro que queramos mezclar. Dentro del ámbito musical, no es igual mezclar una grabación de música clásica, que habremos grabado con un par principal de micrófonos más una serie de micrófonos de apoyo, que un tema pop o rock, que hemos grabado por pistas separadas y músico a músico. Por otro lado, las mezclas para televisión o cine difieren mucho de las anteriores, pues el contenido a mezclar, y los objetivos sonoros y estéticos son igualmente diferentes. Existen una serie de principios básicos que se comparten entre los distintos tipos de mezcla.
5.5.1. Volumen y panorama El volumen y panorama son, con toda probabilidad, los ajustes que con más frecuencia retocaremos en el proceso de mezclas. A través del panorama colocaremos cada instrumento o cada señal en el campo estereofónico (o multicanal, si estamos mezclando en alguno de estos formatos). El volumen (ya sea el fader de cada canal de entrada o de los subgrupos, en el caso de que los utilicemos) será el principal control que nos permita establecer las relaciones de nivel de amplitud entre las diferentes señales (ya sean instrumentos en una mezcla musical o diálogos, efectos y música en una mezcla para audiovisual). Un detalle que no debemos olvidar, como comentábamos al principio de este capítulo, es mantener la costumbre de utilizar el fader de canal para mezclar “hacia abajo”, es decir, utilizándolo como atenuador y no como amplificador de volumen. Si, por ejemplo, necesitamos oír más la voz solista en una mezcla musical, o el diálogo principal en una mezcla audiovisual, será mucho más efectivo bajar el fader del resto de los canales que subir el del canal de la voz. Para este propósito, resultan muy convenientes los subgrupos. Una vez que hemos equilibrado internamente los diferentes canales de la batería (normalmente ocho), si enviamos la señal de estos ocho canales a un subgrupo, podremos utilizar el fader de este subgrupo para, por ejemplo, atenuar el volumen completo de la batería y hacer hueco a la voz y al resto de instrumentos. El mismo principio se aplicaría a los efectos de sonido, ambientes y música en una mezcla para audiovisual.
140
La mezcla
Agrupar las diferentes pistas-canales en subgrupos facilita el proceso de mezcla a través de las diferentes “pasadas” que hagamos sobre el contenido a mezclar.
5.5.2. Uso de procesadores Los procesadores de señal que hemos visto anteriormente los añadiremos a la mezcla de dos formas: por inserto o por envío auxiliar. Para cada tipo de proceso utilizaremos una de las técnicas. – –
Ecualizadores, filtros y procesadores de dinámica: se utilizan siempre por inserto en el canal, ya que el objetivo es modifi car la señal por completo, tanto a nivel de frecuencias como de rango dinámico. Procesadores de tiempo: se utilizarán, preferentemente, mediante el sistema de envíos auxiliares. El uso de la reverberación es el caso que mejor ejemplifi ca esta forma de procesar el sonido. Tal y como vemos en la fi gura 5.22, tenemos varios canales (voz, guitarra, piano) a los que queremos añadir reverberación, ya que fueron grabados en un estudio tratado acústicamente para no añadir ninguna reverberación propia. Para ello, abriremos por ejemplo, el envío auxiliar 1 de cada canal, estableciendo el modo de envío en post-fader y ajustando la cantidad de señal de envío de acuerdo con la cantidad de reverberación que queramos añadir a cada instrumento. El máster de auxiliar 1 lo conectaremos a la entrada de la unidad de reverberación, donde se procesará la suma de esas señales, y la salida de la unidad de reverberación, que mezclará los niveles de reverberación de todos los instrumentos, es enviada de vuelta a un canal de entrada de la mesa. Señal seca Señal reverberada
Unidad o plugin de reverberación
Máster de auxiliar
Voz
Guitarra
Piano
Canal de retorno
Canal Máster
Figura 5.22. Diagrama de envío de la señal a una unidad de reverberación mediante envíos auxiliares. 141
Parte III. Posproducción
De esta forma, podremos controlar, por separado, los tres niveles de señal: 1. Nivel de señal de cada instrumento: mediante el fader de canal de cada instrumento. 2. Nivel de reverberación de cada instrumento: mediante el potenciómetro del envío auxiliar 1 de cada canal de entrada. 3. Nivel general de reverberación en la mezcla: mediante el fader del canal del retorno de la unidad de reverberación.
5.5.3. Automatización de la mezcla Desde la introducción de los sistemas digitales en el ámbito de la grabación y la mezcla de sonido (ya sea a través de los grabadores y las mesas de mezclas digitales o con la llegada de los DAW), aparece la automatización como función añadida al proceso de mezcla que nos permite memorizar los movimientos que hagamos en la mezcla de faders, panoramas, niveles de envío auxiliar, mute, solo, e incluso el de parámetros de algunos plugins de audio. De este modo se pueden programar cambios de volumen, entradas y salidas de instrumentos, movimientos en el espacio estereofónico o multicanal, así como cambios en la ecualización o el nivel de reverberación en un momento concreto de la mezcla. En la figura 5.23 podemos ver la automatización de la mezcla en un DAW (en este caso, Nuendo, de Steinberg): los diferentes parámetros automatizables se presentan en diferentes líneas, debajo de la pista que contiene los archivos de audio, de forma que se pueden “dibujar” las líneas para ajustar cada parámetro en cada preciso momento de la mezcla. Esta funcionalidad permite un nivel muy avanzado de precisión, así como de creatividad, a la hora de desarrollar todo el proceso de mezcla. En el ejemplo de la figura 5.23, la primera corresponde a la automatización del volumen, la segunda, tercera y cuarta, a la automatización de tres envíos auxiliares, mientras que la última corresponde a la automatización de un parámetro de un plugin de audio.
Figura 5.23. Líneas de automatización de una pista de diálogos. 142
La mezcla
Preguntas de autoevaluación 1. El fader de una mesa de mezclas sirve para: � a) Amplificar la amplitud del sonido de un canal. � b) Mezclar una pista de audio con otra. � c) Atenuar la amplitud de sonido de un canal.
2. El envío auxiliar puede utilizarse: � a) Para enviar parte de la señal de un canal a otro canal. � b) Para enviar parte de la señal de un canal a un procesador externo. � c) Las respuestas a) y b) son correctas.
3. Un filtro de 3.er orden tendrá una pendiente de caída de: � a) 18 dB por octava. � b) 12 dB por octava. � c) 6 dB por octava.
4. El factor Q de un ecualizador determina: � a) La frecuencia sobre la que actúa el ecualizador. � b) El ancho de banda de frecuencias sobre las que actúa el ecualizador. � c) La ganancia de amplificación o reducción que aplicamos.
5. El parámetro “ratio” de un compresor, un expansor o un limitador define: � a) El umbral de amplitud a partir del cual actuará el procesador. � b) La relación entre el nivel de audio a la entrada y a la salida del procesa-
dor.
� c) La cantidad de dB que podemos aumentar o disminuir a la salida del
procesador.
143
6
Formatos de consumo de audio
La digitalización de sonido trajo consigo la necesidad de tratar una gran cantidad de datos. Para optimizar el uso de los soportes se desarrollaron una serie de sistemas que redujeran la cantidad de datos a registrar sin que la calidad del sonido se alterara de un modo demasiado perceptible. En la primera parte de este capítulo abordaremos los distintos tipos de compresión (códecs) que se han utilizado y se utilizan para la compresión y tratamiento del sonido. Posteriormente, hablaremos de los distintos sistemas y configuraciones de sonido para diversas aplicaciones. En la segunda parte nos centraremos en los formatos de sonido multicanal, 3D e inmersivo.
6.1. Formatos de archivo y códecs de audio La digitalización del audio es mucho más sencilla que la del vídeo, ya que los datos que hay que digitalizar y aquellos que se obtienen en el proceso de digitalización son menos de los que hay que tratar en el caso del vídeo, lo que reduce las necesidades de procesado de la señal y velocidad del soporte. Precisamente por ello, el sonido digital es anterior a la imagen digital en movimiento. Tengamos en cuenta que el formato CD comenzó su andadura como sistema estandarizado de comercialización musical en el año 1992, mientras que su homólogo para imagen, el DVD, tardó cinco años más en terminar su diseño definitivo. Los estudios de grabación musical, que ya habían introducido algunos elementos digitales en la cadena de la producción, convirtieron en hegemónica la grabación sonora digital antes de finales del siglo xx, manteniendo solamente algunos equipos analógicos por los matices que aportan ese tipo de sistemas en algunas producciones. La digitalización de la captura de imagen en movimiento, en cambio, no se ha hecho hegemónica en el entorno profesional hasta los inicios de la segunda década del siglo xxi.
145
Parte III. Posproducción
Como hemos dicho, el flujo de datos que se obtiene de la digitalización del sonido es mucho más pequeño que el obtenido de la digitalización de la imagen. Ello ha permitido que, a diferencia de lo que sucede con el vídeo digital, no sea necesario comprimir los datos del sonido digital para poder trabajar con él incluso en equipos informáticos de poca potencia. El diseño de códecs de compresión de audio, como veremos en el apartado correspondiente, responde más a las necesidades de distribución y almacenamiento para consumo doméstico. Por lo tanto, a partir de la señal digital podemos obtener archivos sin compresión, comprimidos sin pérdidas y comprimidos con pérdidas.
6.1.1. Archivos contenedores La digitalización del sonido permite que sea tratado en forma de archivos informáticos, como hemos visto en el capítulo 1. Dependiendo del modo en que los datos son codificados, se da lugar a distintos tipos de archivos que se identifican por lo que se llama extensión de archivo, es decir, una serie de letras y números (generalmente tres) que se colocan después de un punto, a continuación del nombre que le hayamos dado a ese archivo. Así, fuera del entorno de la grabación sonora, podemos saber que un archivo es un pdf o un archivo de procesado de texto Word por su extensión .pdf o .doc. En el caso de los archivos audiovisuales pasa lo mismo, así podemos identificar que un archivo contiene información de sonido a partir de su extensión. Hemos dicho que las extensiones de archivo, o lo que es lo mismo, los tipos de archivo, se corresponden con el tipo de contenido que guardan, aunque, para ser más exactos, habría que decir que, en realidad, las extensiones de archivo se corresponden con la empresa o entidad que ha desarrollado ese tipo de archivo, puesto que hay muchos modos de guardar un mismo tipo de datos. Por ejemplo, saliendo de nuevo del entorno del sonido, las personas familiarizadas con programas de tratamiento de texto saben que no es lo mismo usar documentos .rtf (Rich Text Format), .doc (Word) u .odt (Open Document Text), aunque todos ellos sean archivos de texto formateado. En el entorno del sonido sucede algo parecido: hay diferentes formatos de archivo que contienen sonido identificados por distintas extensiones de archivo. Esas extensiones identifican lo que se llama archivo contenedor. Los archivos contenedores, aparte de los datos concretos que se registran, incluyen una serie de metadatos (que pueden estar simplemente en la cabecera del archivo, previamente a los datos) que identifican el contenido, ya que informan al sistema operativo de qué tipo de archivo se trata, cómo debe leerse, etc. Por otra parte, puede que ordenen los datos en su interior para que se adecúen al modo en que los procesadores y el sistema operativo del ordenador correspondiente trata los datos. En el caso de los archivos de sonido (y de vídeo), los metadatos deben informar, aparte del tipo de contenidos que tiene ese archivo (sonido y vídeo en el caso 146
Formatos de consumo de audio
de los archivos audiovisuales o solo sonido en el caso de los de sonido), del tipo de codifi cación que se ha utilizado para crear ese archivo, es decir, si los contenidos de ese archivo tienen algún tipo de compresión y qué códec se ha utilizado para realizarla. Una vez leídos los metadatos, el sistema comprueba si puede reproducir o no los archivos de imagen y sonido que se encuentran dentro de ese contenedor y, en caso de no poder hacerlo, suele informar (mediante un mensaje de error) de la imposibilidad de realizar la lectura y qué códec es necesario para poder efectuarla. La terminación de un archivo, pues, no informa a priori del tipo de códec que se ha utilizado o si el archivo lleva datos sin comprimir. Esta información es importante, ya que, si no disponemos de determinado códec en nuestras máquinas, no podremos trabajar con un archivo codifi cado con él. El único modo de saber con qué códec se ha comprimido un archivo es analizarlo con alguna aplicación que nos ofrezca ese dato, ya que, a simple vista, es imposible saberlo.
mpeg2
h.264 mp3
ac3
Archivo.mov
Archivo.mov
Figura 6.1. Ejemplo gráfi co de archivo contenedor en relación con los códecs.
En la fi gura 6.1, el primer archivo contiene vídeo codifi cado con el códec h.264 y audio codifi cado con el códec mp3. El segundo tiene vídeo codifi cado en mpeg2 y audio en Dolby Digital (ac3). Los dos archivos resultantes tienen la misma terminación, por lo que es imposible determinar los códecs que utiliza cada uno.
6.1.2. Audio sin compresión Cuando se habla de archivos sin compresión, lo que se está indicando es que no se ha utilizado ningún códec para reducir su tamaño, por lo que no es necesario disponer de ninguno para poder leer su contenido, es decir, que cualquier sistema operativo con un software de reproducción de sonido puede hacerlo. Los archivos resultantes de la digitalización no tienen compresión ni formato. Son una simple cadena de datos digitales (unos y ceros). No es propósito de este
147
Parte III. Posproducción
manual explicar el modo en que los datos se codifican desde un punto de vista de la electrónica y la ingeniería, pero diremos que el sistema habitual de digitalización de sonido se denomina PCM (Pulse Code Modulation), cuya historia se remonta a la segunda década del siglo xx, cuando se realizaron las primeras pruebas para codificar mensajes telegráficos. La señal digital que se obtiene después de aplicar este proceso es un flujo en bruto de datos que puede ser guardado como tal, en un archivo tipo raw, sin ningún tipo de formato ni metadatos. Sin embargo, lo normal es que se utilice alguno de los contenedores que facilitan el uso de estos archivos dentro de distintos sistemas operativos. Los archivos contenedores de audio sin comprimir más conocidos y usados son el .wav, utilizado en ordenadores que emplean Windows, y el .aiff, usado principalmente en ordenadores Apple. La diferencia entre ellos es que utilizan diferentes tipos de gestión de la información en el nivel más básico de la codificación para aprovechar las capacidades de los procesadores Intel (archivos tipo RIFF) en el caso del WAV y de los Motorola en el caso del AIFF (archivos tipo IFF). Hoy en día, sin embargo, todos los sistemas de edición y procesado de sonido digital pueden trabajar con ambos formatos, que no dependen del tipo de procesador. Por otra parte, los ordenadores Apple dejaron de usar procesadores Motorola hace décadas, pasando a usar procesadores Intel y, en la actualidad, aunque mantienen el uso de archivos .aiff por defecto, se han hecho completamente compatibles con WAV, de modo que dentro del entorno de estos ordenadores los dos formatos son intercambiables. Existen otros contenedores menos usados, como el .au, desarrollado por SUN, utilizado por algunos sistemas operativos basados en UNIX. En todo caso, los tres tipos de archivo son compatibles entre todos los sistemas operativos, de manera que es posible. La decisión para utilizar .wav o .aiff es poco importante. La calidad es la misma en uno y otro caso, y los modos de codificación también. Por lo general, en entornos profesionales se trabaja, como mínimo, a 16 bits de resolución digital, pero si se desea más calidad en lo que se refiere a gama dinámica y bajo ruido, se pueden utilizar resoluciones de 24 o incluso 32 bits. En lo que se refiere a las frecuencias de muestreo, no se debe bajar de 44,1 KHz, utilizándose también, para obtener mayor calidad, las frecuencias de 48, 96 y 192 KHz. Existen otras opciones, tanto de resolución como de frecuencia de muestreo, pero no son tan estándares como las que indicamos. Los archivos .wav y .aiff, al ser contenedores, pueden utilizarse también para archivos comprimidos, incluyendo en los metadatos la información sobre el códec utilizado, pero lo habitual es que se trate de archivos sin comprimir. Hay un tipo de archivo, del que hemos hablado en el capítulo dedicado al registro de sonido, denominado BWF (Broadcast Wave File) cuya única diferencia con el .wav es que los metadatos que contiene son mucho más exhaustivos. En concreto, pueden llevar datos de sincronización con archivos grabados en cámara, de manera que el proceso se pueda automatizar. También es posible empaquetar varias pistas simultáneas en un solo archivo. Por estos motivos, suele usarse este tipo de contenedor en algunas grabadoras profesionales de sonido cinematográfico. 148
Formatos de consumo de audio
6.1.3. Los códecs y la compresión Como hemos indicado, a la hora de trabajar con sonido no es necesario comprimir los datos, ya que casi cualquier ordenador en la actualidad podría efectuar la mayor parte de los procesos necesarios para el registro, procesado y mezcla de sonido. Sin embargo, a la hora de distribuir un archivo, generalmente se utilizará algún tipo de compresión para aprovechar mejor el canal (en el caso de que el sonido sea emitido a un receptor determinado, mediante ondas radioeléctricas o mediante redes de cable) o para aprovechar el espacio disponible en soportes (cuando se trata de sistemas de reproducción portátil). Esto se hace aún más necesario cuando se trata de distribuir archivos audiovisuales, dado su tamaño. Puede que, en un futuro, cuando las redes permitan transmitir flujos de datos sin límite y los soportes tengan la capacidad suficiente, no sea necesario comprimir ninguna clase de señales, sobre todo teniendo en cuenta que, aunque el sonido digital ha llegado a una calidad que supera con creces las capacidades de percepción humanas, la imagen todavía tiene recorrido para llegar a una calidad que esté por encima de la capacidad visual. Esto provoca un aumento progresivo de la cantidad de datos a registrar y transmitir, en especial a partir de la adopción de tecnologías como el 4K, el 8K o el HDR, hasta que se llegue a un momento en que se superen los límites de la capacidad de percepción humana. Mientras no llegue ese momento de cruce entre capacidades de los sistemas y capacidades de percepción, será necesario utilizar sistemas de compresión para poder transportar los datos. El concepto de compresión está unido invariablemente al de códec. Aunque ya hemos dado algunas nociones de lo que es, podemos definirlo de un modo más concreto diciendo que se trata de un algoritmo (una fórmula matemática) que se aplica a los datos que se obtienen del proceso de digitalización para reducir el tamaño de un archivo digital. Lo importante es que al reducir los datos no se pierda la información que ese archivo contiene o que, al menos, la pérdida no sea perceptible. Así pues, la compresión de un archivo utilizando un códec puede dar como resultado un archivo comprimido sin pérdidas o con pérdidas. Al decir que un archivo comprimido no tiene pérdidas, queremos decir que, una vez descomprimido, el archivo será exactamente igual al original, mientras que cuando descomprimimos un archivo con pérdidas, el resultado tendrá menos datos que el archivo original. En el caso de la compresión con pérdidas, lo importante es que no se noten los datos que faltan. En este apartado nos referiremos a la compresión sin pérdida, para pasar, en el siguiente, a explicar más detalladamente cómo funciona la compresión con pérdidas. El diseño de un códec es complicado. Por ello solo entidades o empresas con un fuerte respaldo, o entidades promotoras de software libre con numerosas personas dispuestas a trabajar, pueden ofertar códecs eficaces. En el caso de las entidades o empresas, el diseño de códecs puede ser un buen negocio, puesto que cada archivo que se codifique con un códec comercial debe pagar unos derechos de uso. 149
Parte III. Posproducción
Los códecs libres se alzan como alternativa al pago de los códecs comerciales, pero en ocasiones no son tan eficientes como los desarrollados comercialmente. Las dos entidades más importantes que diseñan códecs son, en este momento, la ISO (bajo la nomenclatura mpeg) y la ITU (con una nomenclatura tipo h.xxx). Los códecs mpg o mpeg son parte de los desarrollos que ha efectuado el Motion Picture Expert Group de la ISO (Oficina Internacional para la Estandarización) y la IEC (Comisión Internacional Electrotécnica). Este grupo de trabajo es probablemente el más importante dentro de este campo, ya que en muchos casos otras empresas no hacen sino modificar los estándares del mpeg para crear sus propios códecs. A lo largo de la historia del mpeg se han desarrollado distintos estándares con características diferentes, aunque basados en principios parecidos. Cada uno de esos estándares tienen varios desarrollos posteriores o partes que hacen referencia a mejoras o avances en un aspecto concreto de las señales a codificar. En algún caso, el uso de estas partes puede llevar a confusión en la nomenclatura. Sin ir más lejos, el conocido formato mp3 de compresión de sonido no significa que sea el desarrollo mpeg 3, sino que se trata del desarrollo mpeg 2, pero usando la llamada layer o capa número 3. Algo parecido sucede al hablar de mpeg 4 y los archivos mp4. El primer nombre hace referencia al estándar que engloba más de 20 partes, mientras que el segundo hace referencia concreta a la parte 14, que define un tipo de archivo contenedor de datos codificados con sistemas de compresión mpeg 4. Para hacer aún más confusa la situación, existen archivos M4A que contienen solo audio codificado con mpeg 4. Por otra parte, el aumento del número de estándar no significa exactamente que se trate de un códec mejorado con respecto al número más bajo. La evolución es real entre los desarrollos mpeg 1 al 4, seguido del mpeg-H, pero mpeg 7 (no existe, por el momento mpeg 6) no tiene nada que ver con la compresión de audio o vídeo, sino que es un estándar que pretende definir un sistema de búsqueda e indexado de material audiovisual que no se base en texto, mientras que mpeg 21 está relacionado con un sistema de gestión de derechos audiovisuales como el DRM. Como se ve, hay que hilar muy fino y saber exactamente qué queremos decir cuando hablamos de este tipo de formatos. La ITU (International Telecomunication Union) efectúa también el desarrollo de códecs de compresión para audio y vídeo. En algunos de los desarrollos ha colaborado con la ISO, de manera que, por ejemplo, mpeg 2 es equivalente a h.262, el h.264 es una versión del mpeg 4 y el llamado HEVC es un desarrollo conjunto del MPEG-H y el h.265. Sin embargo, la ITU ha desarrollado otros códecs de manera independiente que también se usan como tales o han servido de base a otros sistemas. De hecho, el h.120 es considerado el primer códec de vídeo digital de la historia, utilizado para videoconferencia. Otras empresas, como Apple o Microsoft, han diseñado sus propios códecs, bien desde cero o bien basándose en los desarrollos previos de la ISO y la ITU. En el fondo del desarrollo de códecs suele haber un interés en evitar el pago de tarifas 150
Formatos de consumo de audio
por su uso o la búsqueda de una mayor eficiencia al trabajar con determinados equipos. En estos apartados nos referiremos a los códecs más usados en el entorno del audio digital para consumo musical y audiovisual, dejando de lado aquellos otros utilizados para aplicaciones como telefonía, bluetooth, etc.
6.1.4. Compresión sin pérdida Los códecs de compresión sin pérdida tienen, lógicamente, un coeficiente de compresión menor que el que puede ofrecer una compresión con pérdida, pero a cambio podemos escuchar exactamente el sonido que se digitalizó. A continuación, reseñamos algunos de los más utilizados. Algunos de los códecs sin pérdida son desarrollos de software libre. Entre ellos podemos encontrar el llamado Monkey’s Audio, con la extensión .ape para su archivo contenedor o el FLAC (Free Lossless Audio Codec) con la extensión .flac para el contenedor. Apple, por su parte, desarrolló el ALAC (Apple Lossless Audio Codec), generalmente en un contenedor mp4 con la extensión .m4a. La propia ISO tiene su formato sin pérdida, pero ha sido poco utilizado. Se trata del ALC (Audio Lossless Coding) que suele presentarse bajo un contenedor tipo .mp4. Otros códec, que suelen usarse en sus versiones con pérdida, tienen también versiones sin pérdida, como el WMA (Windows Media Audio), de Microsoft, dentro de un contenedor del mismo tipo, .wma; o el ATRAC (Adaptive Transform Acoustic Coding) de Sony, dentro de un contenedor .aa3. Hay otros códecs sin pérdida, pero estos son los más utilizados en la actualidad.
6.1.5. Compresión con pérdida Cuando hablamos de compresión con pérdida, hacemos referencia al hecho de que, si efectuamos la compresión de un archivo en bruto con un códec de este tipo y luego lo descomprimimos, el resultado tendrá menos datos que la fuente original. Podría parecer que, si los datos descomprimidos son menos que los originalmente presentes en el archivo, la calidad se verá seriamente mermada. Sin embargo, no sucede así, y es posible conseguir niveles de compresión con pérdida elevados sin que, en contrapartida, se pierda calidad subjetiva. A la hora de hablar de compresión con pérdida, tenemos que referirnos, en primer lugar, al códec más conocido de este tipo. Se trata del desarrollo denominado popularmente mp3, con la misma extensión de archivo .mp3. Para poder entender mejor su nomenclatura haremos una breve historia del desarrollo de códecs mpeg. Cada códec tiene, a su vez, varias partes o layers, que serían como mejoras del códec o funciones que puede llevar a cabo. Cada layer puede tener incluso un plazo de diseño y no estar implementada en el momento de lanzar la especificación del códec.
151
Parte III. Posproducción
El primer códec desarrollado por esta organización es el mpeg1, utilizado en algunas transmisiones de TDT y como códec de audio para el DVD, bajo el nombre de mp2 (que significa en realidad que se usa la layer 2 del desarrollo del códec) para el sonido. Este sistema de compresión es más eficiente que el mp3 a la hora de registrar algunas frecuencias agudas o complejas. Posteriormente, mediante una implementación de la layer 2 en la especificación del mpeg 2, se pudo aumentar la gama de frecuencias de muestreo, que en principio eran de 32, 44.1 y 48 KHz, para añadir las intermedias de 16, 22,05 y 24 y aumentar también la ya de por sí amplia posibilidad de escoger entre diferentes tasas de bits entre 8 y 384 Kbits/seg. El mp3 está basado en el mp2. En realidad, su nombre completo sería el de mpeg 2, layer 3 y no mpeg3, como sugiere su nombre, puesto que mpeg3 no existe, al conseguir la calidad esperada con este desarrollo ya con el mpeg2, aumentando la tasa o velocidad de datos. Este códec aumenta la capacidad de compresión, pero también la posibilidad de que algún sonido quede deficientemente registrado, lo que obliga a aumentar la tasa de bits en algunos casos si se quiere mantener la calidad. En lo que se refiere a las frecuencias de muestreo, el mp3 permite escoger entre una gama mucho más amplia que el mp2, además de permitir el uso de tasas de bits variables, si bien la máxima permitida por el estándar se queda en 320 Kbits/seg. Si bien los códecs mpeg han evolucionado más allá del mp3, en el momento de escribir estas líneas, sigue siendo un códec muy utilizado debido al buen equilibrio que presenta entre cantidad de datos y calidad resultante. Cada uno de los códecs incrementados en cifra propuestos por la ISO y la ITU pretenden conseguir la misma calidad con la mitad de datos. Esto quiere decir, por ejemplo, que un archivo codificado en mpeg4 debería tener la misma calidad que otro codificado en mpeg2 (recordemos que no existe el mpeg3) pero con la mitad de tamaño. Igual sucede con el códec HEVC o mpeg-h. Debería ofrecer la misma calidad que otro codificado en mpeg4, pero con la mitad de datos. Como principal competidor del mp3 podemos citar el Advanced Audio Coding (AAC). En teoría, los archivos codificados con este sistema se perciben con mayor calidad subjetiva que los mp3, debido a su capacidad para codificar a mayores frecuencias de muestreo si es necesario. Su popularidad proviene del hecho de que es el códec utilizado por defecto por Apple en todos sus productos musicales, tanto por descarga como por streaming. Como estándar ha quedado definido en la parte 7 de mpeg2 y en la parte 3 de mpeg4, si bien se suele anotar como mpeg4 AAC o como AAC simplemente. Microsoft también desarrolló su códec con pérdida, denominado Windows Media Audio. En principio, se basó en la parte 2 de mpeg4, pero en desarrollos posteriores se separó del estándar e introdujo algunas modificaciones hasta llegar al códec WMV 10. El códec puede usarse dentro de un archivo contenedor .wma o .asf, un contenedor desarrollado por Microsoft. También podemos encontrar archivos en soportes de alta definición, como el Blu-ray, codificados con este sistema. 152
Formatos de consumo de audio
Otro de los códecs con pérdida más interesantes por su versatilidad es el ATRAC, de Sony. Este códec se utilizó inicialmente en el sistema mini-disc y, posteriormente, se utilizó con el sistema de sonido digital cinematográfico sobre celuloide SDDS, desarrollos todos ellos de Sony (si bien el mini-disc luego tuviera versiones fabricadas por Sharp y Panasonic). Como ejemplo de códecs que tuvieron un momento de auge, pero que en la actualidad no se usan mucho, podemos citar el Real Audio. Se trataba de un códec que se usó bastante en transmisiones en streaming a través de internet, hasta el punto de que casi todas las emisoras que tenían emisión en la red a finales del siglo xx lo hacían con Real Audio. Se basaba en el h.263, un códec de la ITU con una calidad entre el mpeg2 y el mpeg4. Posteriormente, se efectuaron modificaciones para convertirlo en un códec propietario, que en su evolución se ha ido asemejando al h.264. En la actualidad, no tiene mucho uso y su desarrollo parece abandonado.
6.1.6. Otros códecs Existen más códecs. Muchos de ellos se basan en las propuestas del MPEG o de la ITU. Otros se desarrollan en el ámbito de grandes empresas o incluso gobiernos, puesto que diseñar un códec desde cero es una tarea compleja y cara; valga como ejemplo el DIRAC, desarrollado por la BBC, de uso libre; o el códec chino AVS desarrollado para no pagar derechos por el uso del h.264/AAC. Otros códecs son los utilizados para comprimir el sonido multicanal en soportes audiovisuales (DVD, Blu-ray, etc.), como el Dolby Digital (ac3) o el DTS. También podemos encontrar códecs desarrollados por entidades promotoras del software libre, como el Ogg (contenedor .oga). Esto provoca que, en el mundo digital, haya que tener mucho cuidado para escoger bien el códec que vamos a utilizar, de modo que nuestro trabajo tenga la compatibilidad adecuada a nuestros intereses. En este momento la hegemonía la tienen los códecs .mp4 y h.264, pero se están implementando el HEVC, el h.265 o el mpgh y otros parecidos que aportan soluciones a la adopción de la imagen en resoluciones cada vez más altas para vídeo, mientras que para audio se sigue manteniendo la hegemonía del mp3 junto al AAC para la distribución y, por supuesto, el audio sin comprimir, cuando se trabaja en el diseño de la banda sonora.
6.2. Sonido envolvente De manera independiente a la clasificación de los formatos de sonido digital, según la codificación de sus datos y la existencia o no de compresión, al hablar de los formatos de consumo de audio debemos tener en cuenta los diferentes formatos en función del número de canales y de la distribución de la señal de audio en el 153
Parte III. Posproducción
espacio tridimensional. Además del sonido monofónico, y especialmente el estereofónico, que ha mantenido su hegemonía durante décadas, y sigue siendo el formato estándar para la mayoría de las mezclas y producciones musicales, coexisten actualmente diversos sistemas de sonido multicanal, sonido 3D y sonido inmersivo, que se han desarrollado especialmente para distintos tipos de productos audiovisuales, como televisión, cine o videojuegos. Tal y como hemos visto en el capítulo 2, nuestra percepción espacial del sonido es binaural (se realiza a través de nuestros dos oídos), por lo que la localización espacial de un sonido se basa en diferencias tanto de volumen como del tiempo con que el sonido llega a cada uno de nuestros dos oídos. En dicha localización espacial influyen también otros elementos, como la forma de nuestro pabellón auditivo (que introduce ciertos retardos en el sonido que proviene, por ejemplo, de alguna fuente situada detrás del oyente), la “sombra acústica” que el volumen de nuestra cabeza y nuestros hombros puede introducir en la señal de audio, y las propias reflexiones en las distintas superficies del recinto en el que el sonido es transmitido. A partir de esta concepción básica, las técnicas y la tecnología utilizadas en la reproducción de sonido envolvente, surround o 3D han adoptado enfoques que han llevado al desarrollo de distintos estándares, sistemas y formatos, que podemos clasificar en tres grandes grupos: 1. Sonido multicanal (channel-based audio): un primer enfoque en la producción de sonido envolvente se basa en el uso de tantos canales de salida como puntos de procedencia espacial del sonido se quieran establecer en el plano horizontal alrededor del espectador-oyente. Durante el proceso de mezcla, cada elemento de sonido (diálogos, efectos, música) es enviado a los distintos canales de salida (frontales, laterales, traseros), en la proporción correspondiente para que dicho sonido se localice en un determinado punto del espacio, e incluso automatizando la distribución de la señal hacia un canal u otro para simular el movimiento de esa fuente de sonido en el espacio. Quizás uno de los efectos más espectaculares que podemos recordar en el entorno cinematográfico es el paso de los canales traseros a los frontales del sonido del destructor imperial en la primera secuencia de La guerra de las Galaxias (Star Wars: A New Hope, George Lucas, 1977). 2. Sonido inmersivo (immersive sound): realmente es una variante del sonido multicanal, pues parte del mismo principio de mezcla de sonido hacia diferentes canales de salida (channel-based audio). La principal diferencia es que el sonido inmersivo añade, además de la distribución espacial del sonido en el plano horizontal, el plano vertical: la altura. Los sistemas basados en este enfoque tienen, además de canales frontales, laterales o traseros, una configuración con canales de audio situados a distintas alturas. Incluso algunos sistemas incorporan un canal completamente cenital, al que comúnmente se le denomina “la voz de Dios” (Voice of God Channel). 154
Formatos de consumo de audio
3. Sonido basado en objetos (object-based sound): la principal desventaja de los sistemas de audio basados en canales de salida es que para cada configuración de canales diferente hay que realizar una mezcla independiente, lo que multiplica el trabajo de posproducción y mezclas. La principal innovación que introduce el enfoque de audio basado en objetos es que, en lugar de mezclar los diferentes sonidos dirigidos hacia los canales de salida, mantiene cada elemento sonoro (considerados como objetos) de manera independiente, sin mezclar, y a cada uno de esos objetos se le añade una serie de información (metadata) referente a su posición en el espacio tridimensional, tamaño del objeto, movimiento, etc. Todos esos objetos, en sus propios canales de audio, se distribuyen de forma independiente, y se renderiza el resultado final de toda esa distribución de objetos sonoros en función de la configuración de altavoces en la sala durante el momento de la reproducción. Los sistemas basados en objetos permiten el uso de sonido basado en canales para hacerlo compatible con sistemas anteriores y para mezclar elementos sonoros más ambientales y con menos movimiento en el espacio (ambientes sonoros, música). Para ello se usa, además del concepto de objeto como acabamos de definir, el concepto de beds (camas) para un enfoque tradicional basado en canales. Así, podemos tener configuraciones bed de, por ejemplo, 5.1, 7.1 o 9.1 canales. Durante el proceso de mezcla se utilizarán los canales bed para mezclar elementos sonoros cuya distribución espacial es más estable y requiere menos automatización de movimientos y desplazamientos espaciales (música, ambientes o incluso diálogos), y se reserva el uso del enfoque basado en objetos para sonidos específicos (paso de coches, por ejemplo).
6.2.1. Formatos de sonido multicanal El formato monofónico basado en una configuración de un solo canal de audio, independientemente del número de altavoces que reproduzcan dicha señal, ha sido durante varias décadas el estándar de producción de sonido para radio, televisión o cine. Los sistemas estereofónicos, que surgen para proporcionar una correspondencia, en la reproducción del sonido, con la escucha binaural del ser humano, parten del uso de un mínimo de dos canales de audio discretos. Sin embargo, en casi todas las configuraciones de sonido estereofónico para cine, el número de canales utilizado es tres. Ya en las primeras investigaciones sobre la estereofonía realizadas de forma simultánea en Estados Unidos y Reino Unido en los años 30 del siglo pasado, se utilizó una disposición de tres canales: izquierdo, derecho y central. La única razón para reducir el número de canales de tres a dos fue la limitación que la tecnología de la grabación fonográfica impuso en los años 50, con lo que se estableció un sistema de dos canales, con la creación de un canal central “fantasma” (phantom center). 155
Parte III. Posproducción
Como antecedentes a los formatos de sonido multicanal digital podemos citar el sistema Fantasound sobre pistas de sonido óptico, o el CinemaScope sobre sonido magnético. El uso de sonido magnético en la exhibición se abandonó aproximadamente una década después de su incorporación al cine, debido al encarecimiento del proceso de producción de copias de las películas (había que sacar primero la copia de imagen, después añadir la capa de material ferromagnético y, finalmente, grabar el sonido sobre esa capa en la película fílmica) y a la fragilidad del soporte magnético. El sistema óptico, aunque más económico y duradero, tenía el hándicap de un reducido espectro audible y un limitado rango dinámico. Al sumar cuatro pistas de sonido óptico, el nivel de ruido de fondo se elevaba considerablemente, lo que hacía prácticamente inviable su uso. Con la aparición de los sistemas de reducción de ruido de Dolby A y posteriormente Dolby SR, se consiguió ampliar el rango dinámico y la respuesta en frecuencia de las pistas ópticas. La aparición, en la década de los 70, del sistema Dolby Stereo permitió la configuración de un formato multicanal viable. Mediante la codificación de cuatro canales de audio sobre dos pistas ópticas se reducía el nivel de ruido que hubiera producido el uso de cuatro pistas ópticas. Además, se mantenía la compatibilidad con las salas que, en lugar de instalar una configuración de altavoces multicanal, tuvieran un sistema estereofónico. Este formato contaba con un máximo de cuatro canales discretos (izquierdo, central, derecho y surround). En 1979, Dolby introduce el formato Split Surround, mediante el cual se crean dos canales de sonido surround en lugar de uno, llegándose a la configuración 5.1, que se ha mantenido hasta la llegada de los sistemas de sonido 3D. Apocalypse Now fue la primera película que se mezcló y se exhibió en este nuevo formato sonoro. Como explica Murch, montador y diseñador de sonido del largometraje, respecto a las posibilidades que ofrecía: [...] partiendo de que el sonido cuadrafónico te proporciona una fuente trasera izquierda y otra trasera derecha, puedes conducir el sonido a través de los 360º. En la secuencia de arranque de Apocalypse Now el helicóptero comienza desde atrás a la derecha, se desplaza hacia la izquierda, luego se mueve hacia delante por la izquierda y entonces hacia la derecha. […] Teníamos una planificación detallada sobre papel de los efectos de sonido y la música –cuáles irían en mono, cuáles en estéreo normal y cuáles en cuadrafónico–. No se daba siempre el mismo uso. Algunas veces el diálogo iba únicamente en mono y la música en cuadrafónico. Este es el punto de donde partió el concepto de diseño de sonido. Sentí que, como nadie había hecho esto antes, yo tenía que diseñar y comprender cómo usar esta nueva herramienta con la que nos encontramos (LoBrutto, 1994: 91).
Durante décadas, el Dolby Stereo o su sustituto, el Dolby SR (o sistemas de otros fabricantes, que mantienen esta configuración de canales, como DTS Stereo o Ultra*Stereo), han sido los únicos sistemas de sonido analógico usados en el cine, 156
Formatos de consumo de audio
coexistiendo en la producción de copias de películas con los tres sistemas digitales de sonido multicanal: Dolby Digital, DTS y SDDS (fi gura 6.2). Los tres se basan, en mayor o menor medida, en el uso de códecs de compresión para poder registrar una mayor cantidad de información de audio en el reducido espacio de la película cinematográfi ca de 35 mm. PERFORACIÓN PELÍCULA
SDDS
DOLBY DIGITAL
PISTAS ANALÓGICAS
DTS Time code
Figura 6.2. Fragmento de película fílmica que muestra los cuatro formatos de sonido multicanal utilizados en la actualidad: uno analógico y tres digitales.
1. Dolby Digital. Se basa en una confi guración 5.1: cinco canales discretos de rango completo (20 Hz a 20 KHz) más un canal destinado a los efectos de baja frecuencia (llamado LFE: Low Frequency Effects), con un corte de frecuencia en 120 Hz (fi gura 6.3).
Figura 6.3. Confi guración de sistema de 5.1 canales de audio.
157
Parte III. Posproducción
Los cinco canales principales se distribuyen en: izquierdo, central, derecho, surround izquierdo y surround derecho. Utiliza el algoritmo de compresión AC-3 y la información digital se imprime en el espacio existente entre las perforaciones de la película de 35 mm, de forma óptica (cada bit de información binaria está representado por un punto o píxel que es transparente u opaco, dependiendo de su estado). En 1998 surge Dolby Digital Surround EX, un sistema que aumenta el número de canales de Dolby Digital, añadiendo un sexto canal surround central que se matriza sobre los dos canales surround existentes. 2. DTS. Se basa en la misma configuración multicanal de Dolby Digital (5.1), pero en este caso el corte de frecuencia del canal LFE se sitúa en 80 Hz. El algoritmo de codificación se denomina Coherent Acoustic. En lugar de imprimirse en la película fílmica, el audio digital se graba en soporte CD-ROM (normalmente se utilizan dos discos para cada largometraje), que son reproducidos por un lector externo que se encuentra sincronizado con la imagen mediante un código de tiempo propio impreso de forma óptica en la película, en el espacio existente entre las pistas de audio analógico y el fotograma, lo que garantiza su protección frente a daños externos. 3. SDDS. Patentado por Sony, es el único de los tres que presenta una configuración 7.1. Añade dos canales frontales más, situados entre el central y el izquierdo y entre el central y el derecho. Con esta configuración se pretende cubrir de forma más precisa el espacio de la pantalla. El algoritmo utilizado para la compresión de datos es el ATRAC, patentado por Sony para el mini-disc. La información se graba de forma parecida al sistema Dolby Digital mediante píxeles ópticos, pero esta vez en los dos lados exteriores de las perforaciones. Debido a que se encuentra en un área muy expuesta al deterioro físico, la información digital se encuentra duplicada en ambos lados de la película, además de estar desplazada 17 fotogramas la información impresa en un lado con respecto al otro, con el objetivo de que haya una salvaguarda en caso de deterioro de un trozo de película. El menor tamaño de los píxeles usados en el SDDS con respecto al Dolby Digital le permite almacenar más información, con lo que se puede llevar a cabo una menor compresión de datos o aumentar el número de canales discretos (las posibilidades del SDDS permiten el desarrollo de configuraciones de hasta 10.1 canales). El uso de alguno de estos formatos de sonido multicanal en el proceso de diseño sonoro, así como en las mezclas, conlleva una metodología de trabajo y una tecnología diferentes a las empleadas en los sistemas monofónicos o estereofónicos. Las mesas de mezclas deben disponer de sistemas de panoramización surround que permitan localizar el sonido en cualquiera de los canales discretos, así como 158
Formatos de consumo de audio
desplazar la señal de unos a otros. Algunas consolas incluyen varios potenciómetros que permiten el desplazamiento lateral (izquierda-centro-derecha), frontal (delante-detrás) y trasero (surround izquierdo-derecho). Es también muy común el uso de un joystick con el que poder realizar movimientos combinados con un solo gesto. Por su parte, las estaciones de trabajo digital de audio suelen incluir en el software una representación virtual del espacio tridimensional de la sala; mediante el deslizamiento realizado con el ratón de un punto de color que representa el foco de sonido, podemos desplazar y localizar el objeto sonoro a través de los distintos canales del sistema. Al igual que el resto de parámetros de nuestra mezcla, cada movimiento de esta panoramización puede ser automatizado.
6.2.2. Formatos de sonido inmersivo Como hemos visto en el apartado 6.2, todos estos sistemas se basan en el enfoque de sonido basado en canales (channel-based audio). Los diferentes sistemas de sonido inmersivo que se han comercializado parten de las distintas configuraciones de los sistemas de sonido multicanal, a las que incorporan canales de audio adicionales para ubicar altavoces en diferentes alturas. Auro 3D es el sistema de sonido inmersivo con mayor nivel de desarrollo e implantación en salas hasta el momento. Este sistema fue presentado en 2005, pero no tuvo su primer desarrollo serio hasta 2010. La primera película que se estrenó en este sistema fue Red Tails (Anthony Hemingway, 2012). En lo que se refiere a la configuración de canales, Auro 11.1 es el sistema que Auro 3D ofrece para la proyección cinematográfica en sala, si bien hay otros sistemas con otras configuraciones de canales para otras aplicaciones. Su planteamiento es relativamente sencillo, puesto que a partir de una configuración básica 5.1 lo que hace es duplicarla en altura. Auro 11.1, como la numeración del nombre indica, se compone de un total de doce canales de sonido (11+1), de los cuales uno, dedicado a las frecuencias graves, se puede situar en un punto cualquiera de la sala, puesto que estas frecuencias graves carecen de una direccionalidad definida. El resto de los canales se colocan en una serie de capas superpuestas.
+ Overhead layer + Height layer
Figura 6.4. Comparación entre sonido envolvente y sonido inmersivo.
159
Parte III. Posproducción
La primera capa estaría a la altura habitual de los altavoces en una configuración 5.1, con la misma disposición de tres canales frontales detrás de la pantalla (izquierda, centro, derecha) y dos canales de surround traseros al fondo del patio de butacas (izquierda y derecha). La segunda capa se situaría a una altura por encima de la primera (su denominación en inglés es height layer, o sea, “capa en altura”), con una configuración paralela a la inferior. Estos once canales (cinco en la primera capa y cinco en la capa de altura, más el canal de graves) se complementan con uno situado por encima de las cabezas de los espectadores, en perpendicular, al que se le da el nombre, como adelantábamos al inicio de este capítulo, de Voice of God. Esta configuración permite aprovechar la instalación antigua dedicada al 5.1 que pueda tener la sala, necesitando tan solo añadir y conectar al procesador los altavoces correspondientes a la capa en altura y la Voice of God. Otros sistemas similares son, por ejemplo, Imax 12.0 y NHK 22.2.
6.2.3. Sistemas de audio basado en objetos El estándar de sistemas de sonido basado en objetos vuelve a establecerlo Dolby, con Dolby Atmos. Este sistema fue presentado en junio de 2012. La primera película que lo utilizó fue Brave (Mark Andrews, Brenda Chapman y Steve Purcel, 2012). De acuerdo con lo que hemos expuesto antes, en la especificación del sistema Atmos no se habla de canales, sino de camas y objetos (beds and objects). En el caso de los objetos, estos pueden posicionarse virtualmente en cualquier punto concreto de la sala al reproducir el sonido solo a través de un altavoz o, como mucho, unos pocos agrupados, teniendo en cuenta que el sistema en su configuración actual soporta hasta sesenta y cuatro altavoces y hasta 128 objetos o camas, y que cada altavoz tiene una amplificación y está conectado al sistema de manera independiente. Como hemos expuesto anteriormente, el sistema se encarga de decidir, a partir de la lectura de los metadatos generados durante el proceso de mezcla, a qué altavoces debe enviar cada una de esas 128 posibles señales. En definitiva, digamos que se da el uso de dos mezclas superpuestas o complementarias: la mezcla de camas por un lado, y los objetos independientes, que se integran durante la proyección gracias a la lectura de los metadatos. Este sistema permite adaptar automáticamente la reproducción a salas con más o menos altavoces (el máximo es 64, pero puede haber salas con muchos menos) e incluso a salas que solo dispongan de sistemas de reproducción tradicionales como los 5.1. Con relación a la distribución de los altavoces en la sala, hay dos capas de altavoces: una de ellas en el plano horizontal, con una distribución similar a los altavoces de los sistemas 5.1, pero en mayor número, rodeando toda la sala. Otra serie de altavoces se colocan en el techo de la sala, en dos filas en paralelo, transversales a la pantalla, al estilo de los altavoces correspondientes a la Voice of God del sistema 160
Formatos de consumo de audio
Auro. A diferencia del Auro, el Atmos solo tiene dos capas de altavoces pero, gracias al uso de los objetos, la precisión de la ubicación de los sonidos es muy alta. Este sistema de sonido 3D supone un reto más complicado para los diseñadores de sonido de las películas que el que supone el Auro 11.1, ya que no solo hay que mezclar canales, sino también decidir qué elementos van a constituir objetos y cómo va a posicionarse cada uno de ellos en el espacio virtual sonoro.
161
Parte III. Posproducción
Preguntas de autoevaluación 1. ¿Qué es un códec?: � a) El formato de archivo que contiene datos de audio codificados. � b) Un algoritmo que permite codificar y decodificar datos informáticos
para comprimir el tamaño del archivo final.
� c) Un tipo de archivo contenedor.
2. ¿Qué tipo de compresión utiliza el formato aiff?: � a) Compresión sin pérdida. � b) Compresión con pérdida. � c) Aiff es un formato de audio sin compresión.
3. El canal de audio cenital, conocido como Voice of God Channel, es uno de los posibles canales de un sistema de audio: � a) Multicanal. � b) Inmersivo. � c) Basado en objetos.
4. ¿Qué es el Dolby SR?: � a) Un sistema de reducción de ruido. � b) Un sistema de sonido multicanal. � c) Un sistema de sonido inmersivo.
5. ¿Cuál de los siguientes formatos no incluye una segunda capa de canales de audio a una altura diferente de la primera?: � a) SDDS. � b) Atmos. � c) Dolby Auro.
162
Parte IV
Diseño de sonido
7
El diseño de sonido. Narrativa sonora
En 1979, Walter Murch utilizó por primera vez el término sound designer en su trabajo para Apocalypse Now (Francis Ford Coppola). Con esta denominación, que fue recibida por muchos como pretenciosa, Murch y otros profesionales del sonido cinematográfico (Ben Burtt y Alan Splet fueron los siguientes en utilizar el título “diseñador de sonido”) pretendían obtener para su trabajo una consideración creativa más allá de la labor técnica de edición y montaje sonoro, a la vez que un reconocimiento de las posibilidades narrativas y expresivas que los distintos elementos sonoros presentes en un largometraje ofrecen a los creadores cinematográficos.
7.1. ¿Qué es el diseño de sonido? El concepto de diseño de sonido se ha caracterizado por la ambigüedad de su definición, la falta de concreción de qué procesos se pueden englobar bajo este “oficio cinematográfico”. Como afirma el diseñador de sonido Gary Rydstrom, “se trata de un término controvertido. […] Es un puente entre alguien que crea efectos de sonido y alguien que supervisa la banda sonora. Se trata de alguien a quien el director pone al frente de la banda sonora. Es algo que suena condenadamente pretencioso” (Loewinger, 2004). Tradicionalmente, se ha asociado el diseño de sonido con la supervisión de la edición de audio o se le ha reducido a una de las fases de la posproducción sonora de una película: la creación de efectos de sonido. Un trabajo que siempre ha tenido una especie de halo mágico, potenciado en muchas ocasiones por los propios profesionales del sonido cinematográfico, quizás para dar ellos mismos a su labor un valor no reconocido en la mayoría de los casos por el resto de la industria. 165
Parte IV. Diseño de sonido
Generalmente, se considera como diseño sonoro en el cine al conjunto de procesos técnicos y creativos que tienen lugar durante la posproducción cinematográfica para la creación de dos de los tres grandes grupos de sonidos presentes en una película: los diálogos y los efectos sonoros. Basamos esta definición en la división tradicional en los tres grupos de sonido que una película puede tener: diálogos, efectos de sonido y música. La eliminación de cualquiera de estos elementos se considera una elección narrativa o expresiva y, por tanto, esta ausencia puede ser tanto o más pertinente que la presencia de esos mismos elementos sonoros. Se trata, entonces, de una actividad que se inicia una vez finalizada la fase de rodaje y partiendo de la existencia de un material sonoro previamente grabado que va a servir como referencia inicial: el sonido de producción. Como vimos en el apartado dedicado al sonido directo, llamamos sonido de producción al sonido captado y registrado durante la fase de rodaje. Este sonido es principalmente (aunque no el único) el que se graba de forma sincrónica con la imagen durante el rodaje de los distintos planos. El diseño de sonido, considerado así, no interviene en los procesos de grabación del sonido de producción, ni tampoco en la composición y la grabación de la música (el tercer grupo de elementos sonoros dentro del cine), más allá de la incorporación de este material musical, previamente grabado y mezclado, a la mezcla final de la que saldrá la banda sonora completa del largometraje en cuestión. Sin embargo, el diseño sonoro engloba muchos más procesos y tiene una importancia mayor que la de crear los distintos efectos sonoros que ilustran un producto audiovisual. Lo constituyen una multitud de tareas que son realizadas por un amplio equipo de técnicos y especialistas. Es en este sentido en el que quizás el concepto de diseño de sonido puede separarse más del de dirección de fotografía: mientras que se suele asociar la concepción visual de la película a una sola persona, en el ámbito del sonido, dada la variedad de operaciones y procedimientos puestos en práctica, el peso del resultado final recae sobre un mayor número de profesionales. Sin embargo, consideramos necesaria la existencia de una figura que conceptualice la dimensión sonora de una película, de acuerdo con la orientación marcada por el director, que unifique criterios y que proporcione a la banda sonora una homogeneidad de la que muchas veces carece. En palabras de Gary Rydstrom: mucha gente piensa que un diseñador de sonido es necesario únicamente para películas estrafalarias o de ciencia ficción, cuando debería entenderse de forma más afín a la figura del diseñador de producción. Un diseñador de sonido lleva a término todos los distintos procesos de sonido y les proporciona una filosofía y un fin común (LoBrutto, 1994: 246).
Por otro lado, hay que tener en cuenta que la producción cinematográfica no es un sistema perfectamente establecido y estandarizado que pueda aplicarse por igual en todos los casos. Cada película exige, de acuerdo con multitud de condicionantes, la puesta en práctica de una estructura productiva diferente. Muchos de 166
El diseño de sonido. Narrativa sonora
los procedimientos que atribuimos al diseño sonoro pueden no ser necesarios en una producción en concreto o estar contenidos en otros procesos más globales. Por ejemplo, hasta no hace muchos años, todo el trabajo de edición sonora era realizado por el mismo montador de imagen, sin que existiera una persona especializada y dedicada expresamente a esta labor.
7.2. Bases del diseño de sonido La concepción sonora de un largometraje o una serie de televisión no comienza en la fase de posproducción, como normalmente se cree, ni siquiera en la de producción, durante el rodaje de las imágenes. Como veremos a continuación, hay una serie de inputs o puntos de partida que se tienen en cuenta para la concepción del diseño de sonido, desde la fase de preproducción y a lo largo de todo el proceso de trabajo.
7.2.1. El guion El primer contacto del diseñador de sonido con la película se establece en la lectura del guion. Esta debería ser la primera “escucha” que se tenga de la futura banda sonora. Aunque, debido a circunstancias derivadas de la producción, la persona que asuma la labor de diseño de sonido entre en contacto con la película después de que esta se haya rodado o incluso montado, el guion le proporciona un primer acercamiento libre de los condicionantes que la propia imagen va a imponer. Una vez que se ha visto el montaje, resulta imposible volver al guion sin que la referencia a la imagen visionada influya en nuestra lectura. Mediante esta primera aproximación al guion, el diseñador de sonido puede extraer una impresión global de la historia narrada, cómo son sus personajes, los lugares y ambientes en los que se desarrolla la acción, la evolución rítmica que la película puede tener. Puede también comenzar a esbozar cómo podría ser su universo sonoro, sin que haya una imagen que, inconscientemente, limite el abanico de posibilidades de creación sonora. Ahora bien, ¿de qué manera podemos encontrar en un guion elementos que nos ayuden a concebir esa banda sonora? David Sonnenschein (2001) establece cuatro categorías de “voces a las que escuchar” a lo largo de nuestra lectura: 1. Sonidos relacionados con personas, objetos y acciones que están explícitamente descritos en el guion. Las convenciones establecidas en la escritura de guiones permiten destacar algún elemento sonoro que el autor considera importante, mediante el uso de mayúsculas en la descripción de una escena.
167
Parte IV. Diseño de sonido Fernando vuelve la cabeza: Manolo tiene la copa de anís sobre la boca. Se la retira, la deja en la mesilla junto a la Biblia. Luego, intrigado por unas fotos que hay pinzadas entre el marco y el espejo del tocador, se levanta para mirarlas. En todas ellas aparece un grupo de cuatro niñas de 1, 5, 8 y 11 años en diversas poses. Fernando vuelve a la cama, le echa una mirada a Manolo, que ya suelta… …UNOS RONQUIDOS FRAGOROSOS… …y tras unos instantes de vacilación, se decide a quitarse los pantalones. Fragmento del guion de la película Belle Epoque, escrito por Rafael Azcona.
Además de este recurso formal, otros usos lingüísticos, como la adjetivación, pueden orientarnos acerca de algún matiz sonoro que se extraiga del propio discurso textual. En el caso anterior, además de la existencia de unos ronquidos, el adjetivo fragorosos nos sugiere cómo debe ser ese sonido: de gran intensidad, grave, profundo, bronco… 2. Descripción del entorno. La información referente a la localización en la que transcurre la acción suele aparecer en el encabezamiento de cada secuencia, indicando tres parámetros muy concretos: interior o exterior, lugar y momento del día. Como en el caso anterior, la mayor o menor minuciosidad o profusión en la caracterización de un espacio puede sugerirnos ideas acerca de los sonidos que podríamos encontrar en él. 3. Pistas o indicaciones sobre el estado emocional de la escena. Ya sea referente a los personajes o de cara a la percepción del espectador. 14 ORILLAS DEL RÍO EXTERIOR-DÍA Un paisaje invernal, orillas de un río. Una tartana tirada por un caballejo cruza un puente. Manolo, que lleva las riendas, y Fernando va a su lado con la maleta sobre las rodillas, ambos callados y tristones. Fragmento del guion de la película Belle Epoque, escrito por Rafael Azcona.
168
El diseño de sonido. Narrativa sonora
A partir de la lectura de esta descripción percibimos una escena, en cierto modo, triste, melancólica. Algunos elementos sonoros pueden ayudar a acentuar la aflicción de los dos personajes, sumidos en sus pensamientos. También pueden ayudarnos a construir una escena lenta y monótona, que acentúe la ausencia de diálogo. La localización espacio-temporal (invierno, día, orillas de un río) nos puede sugerir el uso del sonido continuo del correr del río y un leve viento de fondo para construir una base sonora ambiental. Otros elementos acústicos, como el paso lento y cansino del caballejo, las cinchas y correas que lo atan al coche, el traqueteo de la tartana al cruzar el puente o los propios crujidos de dicho transporte nos ayudarán a marcar la lentitud de la escena, a crear un ritmo cadencioso. En función de cómo mezclemos todos estos objetos, podremos realzar el silencio existente entre los dos personajes. 4. Transiciones físicas o dramáticas. El discurrir del relato nos conduce normalmente a puntos en la historia que exigen cambios en el espacio físico, la intención, la emoción, y que introduce nuevas direcciones tanto para los personajes como para la trama. Estos cambios pueden ser acentuados mediante el sonido. Además de centrarnos en estas cuatro categorías, a través de la lectura del guion podemos intentar proponer o sugerir un estilo sonoro que esté en consonancia con las impresiones globales que hemos extraído de nuestra lectura. Es, por ejemplo, la forma de trabajo de Gary Rydstrom: Lo primero que intentas cuando lees un guion es imaginarte la sensación global y el objetivo del film. […] Buscas metáforas sonoras para lo que la película está intentando contar. Así que comienzas a pensar en sonidos basados en la sensación que el director artístico, el diseñador de decorados, el diseñador de vestuario y cada persona del equipo está intentando aportar para ayudar a que la película alcance estas emociones en un momento concreto (LoBrutto, 1994: 228).
Por otro lado, el guion y los storyboards proporcionan una información clave de cara a la fase de producción en la que, de forma sincrónica con la imagen, se graba el sonido directo de cada escena. A partir de ambos podemos calibrar las necesidades técnicas para la correcta toma de sonido durante el rodaje. Una secuencia de persecución por las calles de una ciudad exigirá el uso de una microfonía diferente a la empleada en una secuencia de diálogo en el interior de una habitación. La cantidad de personajes que intervengan en la escena será otro factor para evaluar cuántos diálogos tendremos que cubrir. Los encuadres y movimientos de cámara, dibujados de forma gráfica en el storyboard nos permiten saber qué posibilidades tendremos de situarnos a una distancia óptima de los actores y si podremos desplazarnos con facilidad para seguir sus movimientos. Como ejemplifica Les Lazarowitz, mezclador de sonido de producción, 169
Parte IV. Diseño de sonido en mi primera lectura del guion busco cuánto diálogo hay en exteriores, cuánto en interiores, cuánto va a exigir planteamientos de múltiples micrófonos y cuánto va a necesitar el uso de micrófonos inalámbricos. En mi segunda pasada a través del guion soy muy específico. Marco las páginas de secuencias que tienen playback de música, vídeo o televisión, o cualquier clase de efectos especiales, ya sea una explosión o cualquier cosa que sea diferente del sonido estrictamente procedente de la escena. Finalmente, cuando tengo el calendario de rodaje, vuelvo al guion para ver dónde necesito personal extra para llevar a cabo tareas adicionales, de forma que el personal y el equipo estén disponibles los días necesarios (LoBrutto, 1994: 119).
7.2.2. Conversaciones con el equipo de dirección y posproducción Un segundo punto de partida lo constituyen las conversaciones con el director y otros miembros del equipo, principalmente el montador de imagen y el compositor. El director es quizás la única persona (o una de las pocas) que tiene una visión global de la película antes de su realización. Como responsable máximo, es quien define su estilo y quien establece los modos en que cada uno de los elementos (fotografía, escenografía, música, sonido) va a participar de la construcción del relato audiovisual. Por tanto, es la persona que va a determinar el alcance de nuestro trabajo, a quien debemos plantear nuestras dudas acerca de los diferentes aspectos del largometraje y con quien tendremos que contrastar nuestra propuesta de diseño sonoro. Cada director tiene una forma diferente de acercarse al ámbito de lo sonoro, de relacionarse con el equipo de sonido de cada largometraje y de tener en cuenta las posibilidades que la banda sonora ofrece a la película. En un extremo se encuentran directores como Francis F. Coppola, James Cameron, Jonathan Demme o los hermanos Cohen. Todos ellos otorgan al sonido un fuerte peso narrativo y dramático, y trabajan normalmente con el equipo de diseño de sonido desde la génesis del proyecto. Como cuenta Ben Burtt acerca de la producción de la primera entrega de la trilogía Star Wars, tuve la suerte de que me encargaran el diseño de sonido de una película de ciencia ficción en el cual el productor, Gary Kurtz, y el director, George Lucas, estaban muy interesados en un sonido innovador. No querían simplemente buscar en las librerías de efectos y echar mano de material usado anteriormente. Querían ideas originales, así que me encomendaron la tarea de inventar un montón de sonidos. […] George me indicó: “Ten este micrófono y el Nagra, tómate un año y graba todos los sonidos que creas interesantes” (LoBrutto, 1994: 141).
Debemos considerar este tipo de actitudes como algo excepcional dentro de lo que suele ser normal en la producción cinematográfica, ya que en un porcentaje muy alto de producciones audiovisuales el personal encargado del diseño de sonido es contratado en la fase de posproducción o, como mucho, durante la producción.
170
El diseño de sonido. Narrativa sonora
En el otro extremo encontramos directores que, bien por desconocimiento, bien por imposiciones de la producción, no consideran la importancia del sonido en estos primeros instantes. En palabras de Randy Thom (1999): muchos directores oscilan entre dos diferentes estados de alocada conciencia sobre el sonido en sus películas. Por un lado, tienden a ignorar cualquier consideración seria sobre el sonido (incluida la música) durante toda la planificación, el rodaje y el primer montaje. Entonces, de repente, adquieren una dosis temporal de devoción hacia el sonido cuando se dan cuenta de que hay agujeros en la historia, escenas que flaquean y malas ediciones que disfrazar. Desarrollan una enorme, a la vez que efímera, fe en el poder y el valor del sonido para hacer visible su película. Desafortunadamente, suele ser demasiado tarde.
La importancia que el director otorgue al sonido va a definir cómo será la relación con el diseñador de sonido y hasta qué punto va a ser permeable a las sugerencias de este. Volviendo al ejemplo antes citado de Ben Burtt y su trabajo para Star Wars, el planteamiento realizado por el diseñador de sonido al director ayudó a definir la estética audiovisual de la película: Cuando comencé a trabajar en el proyecto de Star Wars, le pregunté a George Lucas: “¿Vamos a hacer una película con el estilo 2001? Porque siendo graduado en Física, puedo proporcionarte ese tipo de banda sonora, o puedo olvidarme de todo eso y simplemente usar los sonidos que queramos”. […] Él dijo: “Apostemos por lo que es emocionalmente apropiado. Utilizaremos un sonido si sentimos que necesitamos hacerlo para obtener un impacto o por su valor dramático”. […] No queríamos continuar el estilo de sonido de ciencia ficción que existía antes de Star Wars –como Forbidden planet, War of the Worlds, e incontables películas de ciencia ficción hasta ese momento. Ese estilo de sonido era muy electrónico, muy puro, muy musical. […] Queríamos ir en una dirección completamente diferente. Queríamos que las naves sonasen como si tuvieran motores reales. Tenían que sonar potentes, así que si usábamos sonidos reales y los modificábamos ligeramente; la gente no reconocería el sonido de un aeroplano Mustang P-51, pero sí mantendrían la asociación mental con la potencia y el realismo del rugido de un motor real. Muchas de las decisiones creativas se realizaron a partir de la búsqueda de sonidos que tuvieran una conexión emocional y familiar con ciertos elementos de la vida diaria (LoBruto, 1994: 142).
A partir de este ejemplo podemos valorar las importantes consecuencias que una clara planificación y opción narrativa en cuanto al sonido van a tener en la interpretación que el espectador haga de la película; en el caso de Star Wars, propiciando un acercamiento del universo simbólico de una película de ciencia ficción a la más próxima realidad extracinematográfica del público. “Es más importante
171
Parte IV. Diseño de sonido
hablar con el director acerca de lo que él está intentando contar y lo que está intentando ocultar al público”, afirma Gary Rydstrom (LoBrutto, 1994: 230). Por otro lado, ya en estas primeras reuniones el diseñador de sonido puede colaborar intensamente en la planificación del rodaje, aportando ideas que agilicen la narración audiovisual (por ejemplo, el uso de un efecto sonoro que permite prescindir de un plano), exponiendo las necesidades de sonido para el rodaje de una determinada escena (un equipo auxiliar o el uso de micrófonos inalámbricos) o valorando las complicaciones que una localización puede tener de cara a la grabación óptima del sonido. Es habitual que las localizaciones sean elegidas por el director, el director de fotografía y el diseñador de producción, sin tener en cuenta las características acústicas del espacio donde se va a rodar. Un exceso de reverberación en la localización puede hacer inservible la pista de sonido de producción. La colaboración con el montador de imagen va a ser igualmente determinante para que la integración audiovisual beneficie al resultado final. Una correcta planificación de la estructura sonora puede, a partir de lo que denominaremos fuera de campo sonoro, obviar la necesidad de insertar un plano de imagen. Una planificación consensuada y una toma de decisiones entre montador y diseñador sonoro que oriente el tipo de relación que se va a perseguir en cada escena, cada secuencia o en la totalidad de la película es uno de los puntos de partida para un verdadero montaje audiovisual. El planteamiento de Walter Murch, quien, además de diseñador de sonido, es montador de imagen, constituye una aportación privilegiada a nuestro enfoque: Nunca podemos juzgar la calidad de una mezcla de sonido solo a base de contar el número de pistas con las que se ha trabajado. Hay mezclas horribles que partían de cien pistas. Del mismo modo, se han hecho mezclas maravillosas a partir de solo tres pistas. Todo depende de las decisiones iniciales que se tomen, de la calidad de los sonidos y de la capacidad que tenga la mezcla de esos sonidos para despertar emociones escondidas en el corazón del público. […] El mismo principio se aplica al montaje. Nunca diremos que una película está bien montada porque en ella haya más cortes. A menudo es necesario más tiempo y más criterio para elegir dónde no cortar. […] Bajo estas consideraciones está la preocupación fundamental de un montador, que debería ponerse en el lugar del espectador. ¿Qué va a pensar el espectador en un momento determinado? ¿Dónde va a mirar? ¿Qué queremos que piense? ¿Qué necesita pensar? Y, por supuesto, ¿cómo queremos que se sienta? (2003: 28).
Esta cooperación debe mantenerse durante todo el proceso de posproducción de imagen y de sonido. La incorporación de la tecnología digital a los procesos de montaje de vídeo y de edición de audio supone un aumento de las posibilidades de interacción entre ambos procesos. Además de agilizar la fase de posproducción de la película, permite un mayor margen de experimentación combinada entre creación visual y sonora.
172
El diseño de sonido. Narrativa sonora
A esto contribuye también la aparición de formatos de archivos informáticos que permiten el volcado rápido y eficaz de las sesiones de montaje de imagen o sonido entre diferentes estaciones de trabajo. Se trata de los formatos de archivo OMF, que permite exportar sesiones de trabajo de edición de audio y vídeo entre distintos sistemas, manteniendo las posiciones en la línea de tiempo de todos los eventos de sonido, así como la configuración de pistas. La versión más reciente de este formato (OMF 2) permite exportar e importar todas las ediciones realizadas, los fundidos de entrada y salida y los ajustes de volumen de cada pista. La colaboración entre el diseñador de sonido y el compositor de la banda sonora musical es, lamentablemente, uno de los aspectos menos tenidos en cuenta a lo largo del proceso de producción y posproducción cinematográfica. En la mayoría de los casos esta relación no existe. El compositor se habrá reunido con el director para establecer los bloques de música que habrá en la película o la serie, y quizás con el montador para delimitar algunas cuestiones acerca de los tiempos, las entradas y salidas, etc., pero no tendrá contacto alguno con el diseñador de sonido hasta el momento de las mezclas finales. Como veremos más adelante, el proceso de creación, grabación y mezcla de la música de cine se realiza al margen del trabajo de posproducción de diálogos y efectos de sonido, normalmente incluso en otros estudios y con otros ingenieros de sonido ajenos al diseño sonoro de la película. Todo lo contrario de lo que ocurre con los diálogos y los efectos sonoros, cuyo proceso productivo evoluciona de forma paralela y, cuando menos, consensuada. Como refiere Andrew Glenn, editor musical y diseñador de sonido: Normalmente no hay suficiente comunicación e interacción entre el editor de efectos sonoros y el compositor. A menudo todo se limita a una consulta sobre la tonalidad de un efecto de campana de iglesia que el editor pretende usar en una escena en particular. No obstante, cuando se establece tal comunicación, o al menos cuando uno es consciente de las intenciones del otro, los resultados pueden ser asombrosos (Lack, 1999: 437).
El proceso de mezclas finales será el momento en que haya necesidad de buscar una coexistencia de ambos elementos, o el sacrificio de unos en beneficio de otros.
7.2.3. El montaje de imagen y el sonido de producción El montaje de imagen de la película, ya sea un primer montaje provisional (el denominado rough cut) o el definitivo, suele ser el primer contacto que el diseñador de sonido tiene con la dimensión visual del producto audiovisual. Durante el rodaje, no tendrá una percepción de elementos como el ritmo visual, el encuadre o la secuenciación del material de imagen. Este primer contacto nos va a permitir contrastar las apreciaciones realizadas a través de la lectura del guion y evaluar hasta qué punto la imagen nos permite lle173
Parte IV. Diseño de sonido
var a cabo determinadas ideas que el texto escrito nos sugirió. Podemos confirmar o descartar el uso de determinados objetos sonoros y buscar en el contexto de la imagen la posibilidad (y la necesidad, al mismo tiempo) de utilizar otros elementos en los que en un primer momento no habíamos pensado. Cada imagen, cada secuencia va a contener una serie de referentes visuales que quizás no aparecían en el guion y que necesitan su correspondiente sonido. Es muy diferente imaginarnos el choque de un coche contra un camión, a conocer a través de la imagen y del montaje el modelo de automóvil y de camión, en qué parte de cada uno se produce el impacto, qué destrozos provoca la colisión, y un largo etcétera. Podemos también calibrar, a través de nuestra propia experiencia de audiovisión de este primer montaje, hasta qué punto las pretensiones narrativas y dramáticas del director se encuentran contenidas o resueltas a través de los diferentes elementos de imagen. Este análisis debe ayudarnos a plantear qué carencias y necesidades muestra el relato en este primer estadio y hasta qué punto y de qué forma podemos, mediante los distintos recursos sonoros, solventarlas. El propio ritmo de montaje puede no conseguir por sí mismo un estado de tensión necesario. Deberemos entonces reforzar esa emoción mediante la construcción sonora del ambiente, el tratamiento particularizado del diálogo que puede provocar la tensión, o la introducción de algún elemento sonoro que la diégesis del relato nos permita. El montaje nos aporta también una gran información sonora. El montador de imagen edita cada plano de imagen con su correspondiente plano de sonido de producción (es decir, con su sonido sincrónico grabado durante el rodaje de ese plano de imagen). Por tanto, esta primera versión de la película va a incluir todo el sonido sincrónico de cada plano. Esto nos va a permitir realizar una primera valoración de la calidad de la grabación de este sonido y de la multitud de problemas con los que seguro nos vamos a encontrar: saltos en los ambientes sonoros con cada corte de imagen, fallos de dicción en los actores, diálogos que no se entienden por estar fuera del eje de captación del micrófono, ruidos de fondo (puntuales o continuos), chasquidos. Ver un montaje con tan solo el sonido directo es una experiencia completamente deprimente y anticinematográfica. Básicamente existe tan solo el diálogo de los actores, que a veces se encuentra en bastante mal estado. Un 80 o un 90% de los sonidos ambientales, efectos concretos simplemente no existe porque no se han producido durante el rodaje o no ha sido posible su registro. Durante un segundo visionado, que normalmente se hace juntamente con el director, se realiza el denominado spotting (del inglés spot: “notar, observar”). Se trata de un término usualmente empleado en la posproducción cinematográfica para indicar la sesión de trabajo en la que director, montador y diseñador de sonido (en este caso, ya que, como veremos, también se realiza en un momento diferente con el músico) realizan diferentes observaciones y anotaciones acerca de las exigencias de sonido de la película. Durante el spotting se valora el estado actual de la banda sonora, se establecen las necesidades de sonido de cada secuencia en particular y se proponen ideas para 174
El diseño de sonido. Narrativa sonora
la construcción del universo sonoro de la película a partir de la propia imagen. Se observan y anotan los sonidos defectuosos, de qué forma se va a caracterizar sonoramente cada ambiente o cada espacio físico de la película, y se concretan ideas sobre el impacto dramático o la función narrativa que el director requiere del sonido para momentos específicos del relato. También en esta reunión el director puede informar al equipo de sonido sobre los fragmentos en los que se va a utilizar música, de forma que el diseñador sonoro pueda planificar coherentemente la construcción sonora de esas secuencias.
7.2.4. Confección de un “mapa sonoro” Como cierre a este primer apartado planteamos la utilidad que, tanto para el diseñador de sonido como para el resto de personas que trabajarán codo con codo con él, tiene la confección de un mapa sonoro del largometraje. Se trata de un gráfico en el que podamos mostrar la construcción sonora de todo el relato, a partir de todas las observaciones, planteamientos, indicaciones que hayamos anotado en los tres procesos hasta ahora descritos. La forma de realización de este mapa puede ser cualquiera que resulte clara a la persona que va a utilizarla. Desde nuestra experiencia, hemos encontrado útil dos sistemas complementarios: uno es el diseño de una especie de EDL de planificación, el otro podríamos denominarlo mapa visual de la evolución dramática. El primero de ellos parte de un tipo de documento que se utiliza durante todo el proceso de posproducción de audio y vídeo (figura 7.1). Se trata de un gráfico en el que encontramos distintas columnas. En la primera se coloca una indicación de tiempo, a intervalos regulares (normalmente se utiliza la referencia de código SMPTE que tenga la imagen). Cada una de las restantes coincide con una pista de nuestro sistema de edición de audio. En estas columnas se realizan anotaciones que se corresponden con los distintos objetos sonoros que vamos situando en las pistas. Cada indicación se realiza de forma que, visualmente, coincida con el instante en que un sonido se ha sincronizado con la imagen, de acuerdo con la cifra de código de tiempo de la primera columna. Este documento se utiliza para tener una referencia constante y completa de las distintas pistas de sonido empleadas en la posproducción y de los diferentes elementos sonoros presentes en cada una. Teniendo en cuenta el gran número de personas que intervienen en los distintos procesos de creación de la banda sonora de un largometraje, se trata de un documento que va pasando de mano en mano hasta llegar al técnico encargado de realizar las mezclas finales. Nuestra EDL de planificación (cuadro 7.1) pretende reflejar las diferentes sugerencias sonoras que tengamos para el largometraje. Podemos sustituir el código de tiempo por una descripción de la acción o mantener esta leyenda numérica, si contamos con la referencia del montaje de imagen. En las distintas columnas, que 175
Parte IV. Diseño de sonido
dividimos del mismo modo que en la EDL de posproducción (sustituyendo, por ejemplo, las referencias a pistas del sistema de edición por categorías de sonidos), iremos anotando qué objetos sonoros planteamos como posibles para cada secuencia. Cuadro 7.1. Ejemplo de EDL de posproducción de audio
El mapa visual que utilizamos como segunda herramienta pretende, por otro lado, proporcionarnos una visión de conjunto de cómo evoluciona narrativamente el largometraje. Partiendo de un gráfico de dos ejes, representamos en el horizontal la línea argumental de la película, a partir de momentos puntuales que nos parezcan de interés (figura 7.1). En el vertical reflejamos mediante una línea ascendente y descendente la progresión narrativa y dramática (en el caso de que existan varios conflictos, líneas de desarrollo o temas, como se quieran denominar, podemos utilizar diferentes colores para cada uno de ellos). Este gráfico nos proporciona una visión de conjunto de la película que va a resultar de gran ayuda para definir en qué momentos podemos y debemos utilizar el sonido de una determinada manera, y para calibrar la densidad e intensidad de la construcción sonora. Si aplicamos todo el potencial sonoro en una secuencia o instante no especialmente dramático, podemos quedarnos sin recursos cuando lleguemos al verdadero clímax de la historia. 176
El diseño de sonido. Narrativa sonora
Rapto chica
Trampa zoológico
Persecución metro
Muertes discoteca
Asesinato prota
Figura 7.1. Evolución dramática de un largometraje.
7.3. El proceso de posproducción de sonido Intencionalmente, damos un salto de la preproducción a la posproducción, saltándonos toda la fase de producción, que ya hemos tratado en el capítulo 3 (grabación de sonido directo en cine y televisión). En esa fase de rodaje se graba el sonido correspondiente a cada plano. Ese sonido directo va a ser el único elemento que, perteneciendo a la fuente original desde la que es emitido, va a mantenerse de forma sincrónica con la imagen hasta el fi nal del proceso de posproducción. Una vez fi nalizado el rodaje, todo el material registrado por el equipo de sonido pasa al departamento de montaje de imagen. La película rodada cada día es revelada, positivada y posteriormente telecinada. Actualmente, muy pocos cineastas montan trabajando directamente sobre el celuloide. Por el contrario, los sistemas de edición de vídeo basados en ordenador y disco duro van sustituyendo paulatinamente a las tradicionales KEM y Moviolas. Cada toma de imagen se vuelca al sistema de edición; el mismo proceso sigue el sonido directo. Durante el proceso de telecinado se realiza la resincronización de cada toma de imagen con su toma de sonido. Este es el material que utiliza el montador, que en principio no recurre al resto del sonido de producción no sincrónico con la imagen. El montaje resultante muestra normalmente saltos en la pista de audio con cada cambio de plano y las tomas de sonido erróneas no se han sustituido por los wild tracks o por otras versiones válidas. El resto del material de sonido de producción pasa directamente al equipo de posproducción, quien, a partir de las indicaciones anotadas por el jefe de sonido directo en el parte de grabación, identifi ca cada sonido grabado, lo separa y lo clasifi ca para su posterior uso.
7.3.1. Los diálogos Como se ha visto en el capítulo dedicado al sonido de producción, los diálogos son el elemento sonoro principal que se intenta grabar con la mayor calidad y cuidado durante el rodaje. Aun así, es necesario realizar una serie de procesos de edición y procesado sobre este material grabado, como vemos a continuación. 177
Parte IV. Diseño de sonido
A) Limpieza y edición de diálogos La labor de posproducción de diálogos comienza trabajando directamente sobre el sonido de producción y, de forma más concreta, sobre la pista de sonido directo que resulta del montaje de imagen. Tras la sesión de spotting inicial, en la que se han determinado las carencias más evidentes y los fallos producidos, el editor de diálogos comienza el proceso de limpieza de los mismos. Este consiste en eliminar de la pista de sonido todos los fragmentos de audio que no formen parte de las voces de los actores. Igualmente, se descartan las frases defectuosas (por lo general, estas no se suprimen, sino que simplemente se marcan para que después sirvan como referencia). El objetivo es obtener una pista en la que tengamos todos los diálogos de la película. Además de permitir un mayor control sobre cada elemento de sonido en el proceso final de mezcla, esta separación de los diálogos del resto de sonidos de la película se realiza pensando en la posterior comercialización de la película en el extranjero y en el doblaje del mismo a otros idiomas. A este efecto, la organización final del sonido en una película sigue el estándar conocido como “banda internacional” (en el ámbito anglosajón, se usa el término M&E mix): una pista con los diálogos y otra con la mezcla de música y efectos de sonido. Durante el doblaje, se sustituye la pista de diálogos original por la doblada, que se añade a la pista de música y efectos de la versión original. El sistema de banda internacional guía en muchas ocasiones al técnico a la hora de decidir qué elementos dejar y qué otros no. Por ejemplo, en una película en la que haya conversaciones en otro idioma y se pretenda que el espectador no las comprenda inicialmente, estas frases pueden mantenerse en la pista de música y efectos, para que no sea doblada. En La vida es bella (La vita é bella, Roberto Benigni, 1997), el personaje protagonista “traduce” a su hijo, ambos judíos confinados en un campo de concentración, las normas dictadas a los presos por un oficial alemán, como un juego en el que conseguir puntos para ganar un tanque. En el doblaje a otros idiomas (la versión original está realizada en italiano), esta secuencia perdería todo su efecto cómico si las palabras del oficial (que, por supuesto, habla en alemán) hubieran sido dobladas (con lo que se podría entender que el niño, que no sabe alemán, entiende sus órdenes). En lugar de ello, el subtitulado permite al espectador participar de la comicidad de la escena. Una vez realizado el proceso de limpieza, el editor de diálogos buscará en el resto del sonido de producción tomas alternativas para aquellas consideradas defectuosas. Estas pueden obtenerse a partir de otras tomas de imagen y sonido, descartadas por el montador de imagen, pero aprovechables desde el punto de vista del sonido, o de los wild tracks que el jefe de sonido de producción hubiera realizado.
178
El diseño de sonido. Narrativa sonora
B) La regrabación de diálogos o ADR Después de agotar las posibilidades que el sonido de producción ofrece, entramos en el proceso de regrabación de diálogos o ADR (Automatic Dialogue Replacement), en el que los actores originales vuelven a grabar, en el estudio, las frases defectuosas. En nuestro país se suele emplear el término doblaje para referirnos a esta regrabación. Sin embargo, se trata de un uso inexacto, ya que el doblaje implica el cambio de idioma en la grabación. Por tanto, preferimos el término regrabación de diálogos o ADR, más común en el entorno anglosajón (junto con el término looping, que hace referencia a la repetición en bucle de las líneas que el actor vuelve a grabar) para referirnos a este proceso. Dependiendo de la envergadura de la producción de la película, puede haber un supervisor de ADR que, conjuntamente con el editor de diálogos o en una sesión de spotting con el director y el montador de imagen, determina la cantidad de líneas que los actores tienen que volver a grabar. Las razones por las que un diálogo debe ser regrabado pueden ser varias: ininteligibilidad, baja calidad de audio, mala interpretación o cambios que el director quiera introducir en el texto. Además, deben grabarse las voces de grupos para cubrir escenas con muchedumbres, como fiestas, restaurantes, etc. El supervisor de ADR realiza un guion en el que se transcriben las frases a grabar y la indicación exacta de tiempo de comienzo y fin de cada una. A partir de este guion, se valora el tiempo que se va a necesitar de cada actor para registrar sus frases y se organizan las sesiones de grabación (el actor suele estar sujeto a estas por contrato). Los diálogos se dividen en frases de muy corta duración, a veces palabras sueltas (cuando hay pausas entre ellas), para facilitar la sincronización con la imagen. En el locutorio del estudio, el actor ve y oye la toma original repetidamente, analizando su propia dicción, entonación y ritmo, y buscando puntos de sincronización que le sirvan como referencia. A continuación, se le vuelve a pasar la imagen, esta vez sin el sonido original, y el actor graba su propia voz. El proceso se repite hasta que el director de la película y el supervisor de ADR consideran válida la toma. Podemos considerar tres aspectos que permiten obtener una buena regrabación de diálogos: la sincronizacón, la interpretación y la calidad de grabación: 1. La sincronización. Se consigue inicialmente con la buena interpretación del actor. Sin embargo, a menudo es necesaria la intervención posterior del editor de diálogos o de ADR para conseguir la perfecta unión de ambas versiones. Actualmente, con la ayuda del software de audio, encontramos aplicaciones que nos permiten realizar este ajuste fino de forma automática. Es el caso de Vocalign (figura 7.2), que a partir de la comparación de las formas de onda de la toma del sonido directo y de la toma de ADR modifica la segunda para adaptarla a la primera (sobre todo, a partir de la 179
Parte IV. Diseño de sonido
edición automática, desplazamientos de la forma de onda y procesos de compresión y expansión de tiempo). 2. La interpretación. Depende primariamente del propio actor. Para muchos actores, el entorno del estudio de grabación supone una intimidación y una limitación de sus capacidades interpretativas, razón por la cual en muchas ocasiones la grabación realizada no tiene la misma energía que la procedente del rodaje.
Figura 7.2. Vocalign, de la firma Synchro Arts. En la parte superior se introduce el fragmento de sonido original, y en la inferior, la grabada en estudio.
El técnico de mezclas de ADR puede llevar a cabo algunos procedimientos que ayuden a obtener el resultado deseado, como por ejemplo subir algunas centésimas de semitono la frecuencia del sonido registrado, con lo que se añade algo de brillo y fuerza a la interpretación del actor, sin que se aprecie una deformación tímbrica. 3. La calidad de grabación (y la cualidad) del sonido. Depende enteramente del técnico y es el elemento más espinoso, debido a la dificultad de integrar la grabación en estudio con el resto de frases válidas del sonido de producción. El espacio acústicamente muerto del estudio de grabación, el uso de micrófonos con diferente sensibilidad y patrón polar que los utilizados durante el rodaje y la diferente disposición del actor frente a ellos son algunas causas de esta desigualdad. En ocasiones se intenta suplir el problema colocando en otra pista un fondo sonoro recogido del lugar del rodaje. En otros casos, se utiliza el mismo micrófono que se empleó durante el rodaje, con la misma orientación. Si es necesario, un microfonista con una pértiga se sitúa en la cabina con el actor, lo que permite a este último una mayor libertad de movimientos que favorece su interpretación. Una vez más, para poder reproducir todos estos detalles es fundamental el contacto entre el personal de sonido de producción y posproducción.
180
El diseño de sonido. Narrativa sonora
El tanto por ciento de diálogo que debe ser regrabado varía considerablemente de un largometraje a otro, una oscilación que depende especialmente del tipo de película, así como de la técnica de grabación utilizada en el rodaje. Por ejemplo, una película de acción, rodada fundamentalmente en exteriores, puede llegar a un 95% de diálogo regrabado (lo que puede suponer unas dos mil frases); en el caso de una película principalmente rodada en interiores, la cifra puede situarse entre un 10 y un 25% del total. Un caso extremo es Nashville (Robert Altman, 1975), en cuyo rodaje se utilizaron varios sistemas multipista para grabar con detalle todos los diálogos y donde solo fue necesario volver a grabar dos frases. El ADR, aunque en principio es un proceso puramente mecánico, puede convertirse en una actividad más creativa, buscando obtener de las voces de los actores matices que contribuyan a intensificar dramáticamente un momento de la película. En Apocalypse Now encontramos un claro ejemplo de este espíritu innovador. Durante la regrabación de los diálogos de los pilotos norteamericanos a través de sus intercomunicadores para la secuencia del ataque en helicóptero, Walter Murch y Richard Beggs buscaban la mayor autenticidad posible en la interpretación de esas líneas: Contratamos a cuatro veteranos pilotos de helicópteros de combate para que vinieran al estudio y yo fui a una tienda de excedentes del ejército y conseguí aquellos auriculares para que solo pudiera oírse lo que se dice a 5 cm del micrófono. Cada uno iba a una pista separada. Metimos a aquellos tipos en mi habitación del sótano, en el Sentinel Buiding, apagamos la luz, todo oscuro como la boca de un lobo, y pasamos esa secuencia tan larga en un monitor grande. Pedimos a los veteranos que interpretaran los papeles de los pilotos, y no oían ningún sonido de la pantalla, ningún sonido natural. Pero lo que hice fue bombear a la habitación los sonidos interiores del helicóptero Huey, a través de esos enormes monitores de estudio JBL, a un volumen ensordecedor. Así que el aire estaba casi enrarecido por aquel estruendo y ellos se pusieron a mirar la imagen y, media hora después, se hablaban chillando y lo estaban reviviendo. Fue bastante aterrador. Una de las esposas de los veteranos había venido a observar desde la sala de control. Cuando le oyó gritar: “¡Voy a coger a esa sucia hija de puta y le voy a meter el tren de aterrizaje derecho por todo el culo!”, rompió a llorar. Experimentó bruscamente cómo debía haber sido la guerra (entrevista a Richard Beggs, realizada el 16 de abril de 1999 por Peter Cowie. Citado en Cowie [2001: 155]).
Después de la sesión de ADR, el editor de diálogos organiza todas las pistas de diálogos, manteniendo las tomas de sonido de producción y las regrabaciones en estudio para poder elegir durante la premezcla de diálogos la versión que finalmente se utilizará.
181
Parte IV. Diseño de sonido
7.3.2. Los efectos sonoros La posproducción de efectos de sonido es uno de los aspectos más creativos del diseño de sonido. A través de los diferentes procesos que integra se deconstruye la realidad sonora suscitada por la imagen y se reconstruye a partir de los objetivos e intenciones definidos con anterioridad. A) Clasificación y concepción de los efectos de sonido Partimos, pues, de una concepción del sonido grabado como de una materia que se moldea, mediante las diferentes herramientas de que disponemos, con la intención de crear un nuevo objeto sonoro. Tradicionalmente se han dividido los efectos de sonido en dos categorías básicas: duros y blandos. Como en otras ocasiones, la terminología anglosajona es la utilizada para esta denominación. Los efectos duros se suelen llamar también cut effects, debido a que en la edición es necesario cortar estos sonidos en un punto concreto sobre la imagen. Del mismo modo, los efectos blandos reciben a veces el nombre de backgrounds o BG. El primero de los dos grupos hace referencia a todos los efectos de sonido que tienen un punto de sincronización con algún elemento de la imagen. Se corresponde con la expectativa que el espectador tiene de que cualquier cosa que veamos en la pantalla y produzca sonido debe oírse. El segundo grupo contiene todos aquellos sonidos no sincrónicos de forma especial con la imagen y se refiere sobre todo a ambientes y fondos sonoros. A lo largo del proceso de edición, a menudo ambos tipos se tratan por separado, hasta el punto de que las premezclas de efectos se realizan primero entre los efectos del mismo tipo y posteriormente uniendo las dos categorías. La aproximación a la concepción de cada efecto de sonido puede realizarse por varios métodos: –– Ir a la fuente original que produce el sonido tal y como se desea, aunque en la mayoría de ocasiones el sonido que oímos no se corresponde de forma directa con lo que el micrófono captaría en una situación real. Muchos de los clichés sonoros que provienen del cine clásico son producto de una alteración en el rango dinámico o el espectro de frecuencias del objeto sonoro como resultado de la grabación, modificaciones provocadas en su gran mayoría por las limitaciones de los micrófonos, los preamplificadores o las pistas de sonido óptico que, durante muchas décadas, han sido el soporte de grabación de audio en el cine. –– Acudir a las características físicas del sonido que se pretende conseguir. 182
El diseño de sonido. Narrativa sonora Teniendo en cuenta mi formación científica –expone Ben Burtt–, parte de mi actitud inicial es literal. Me pregunto, “si este objeto realmente existiera o produjera sonido, ¿cómo sonaría?”. Así que comienzo con un enfoque científico. Probablemente abandone esta perspectiva más tarde o más temprano, pero siempre considero el aspecto literal de todo esto porque, a fin de cuentas, estás intentando convencer al público de una cierta verdad (LoBrutto, 1994: 142).
–– La ruta cognitiva es otro de los caminos a seguir. En este caso, se busca la reacción que un determinado sonido puede tener sobre el espectador, en función de la asociación de ciertos parámetros sonoros con ciertas emociones. En el apartado 7.3 profundizaremos sobre este tema.
B) La grabación y la edición de efectos El punto de partida en el trabajo con efectos de sonido suele ser el mismo que para los diálogos. A partir del montaje de imagen se realiza la limpieza de efectos, eliminando todos los defectos de la grabación, los ruidos no deseados y los diálogos, intentando rescatar el máximo de ambientes sonoros y efectos puntuales posibles. El editor de efectos aprovecha también todas las tomas que el equipo de sonido de producción haya podido realizar al margen de la filmación (wild tracks de efectos, ambientes de la localización, sonidos de vehículos u otros objetos de atrezo). Con estos elementos y con las cabezas y colas de las propias tomas de imagen se van rellenando los huecos dejados tras la supresión de los diálogos, obteniéndose una pista de ambiente sonoro que sirve de base o referencia inicial. Una vez agotadas las posibilidades que el sonido de producción ofrece, el trabajo de posproducción de efectos se concentra en la obtención de materia prima sonora a partir de, básicamente, cuatro métodos: librerías de efectos, grabación en exteriores, efectos sala y uso de sintetizadores y samplers. Las librerías constituyen una fuente que proporciona a los editores rapidez de acceso a una inmensa variedad de sonidos. Se trata de recopilaciones de efectos grabados a partir de fuentes naturales o recreados en estudio, con un grado de especificidad muy elevado. Se suelen comercializar en CD. Existen librerías de carácter genérico que cubren un amplio abanico de sonidos y otras centradas en tipos de sonidos concretos. Por ejemplo, la colección Sound Ideas ofrece la General Series 6000, de setenta CDs con sonidos de todo tipo (animales, ambientes, pasos, disparos, vehículos, ciencia ficción…). Por otro lado, está la Ambience Series, con más de noventa CDs que se centran únicamente en ambientes (con una mayor variedad y especificidad de fondos sonoros de cualquier ciudad del mundo, diferentes entornos geográficos, exteriores, interiores). La mayoría de estas colecciones incluyen algún tipo de software de gestión y búsqueda que facilita la tarea de localizar un efecto sonoro entre la inmensidad de posibilidades que nos ofrecen. 183
Parte IV. Diseño de sonido
Además de estas colecciones, existen actualmente servidores en internet que proporcionan, bien mediante suscripción, bien mediante pago directo, los efectos que el diseñador necesita. A través de un buscador se localiza el efecto deseado y se realiza una escucha online de baja calidad del mismo para valorar su adecuación a nuestras necesidades. Una vez realizado el pago, podemos descargar los efectos seleccionados directamente desde el sitio web o encargar un CD expresamente con esos sonidos. Con este sistema, el profesional no tiene la necesidad de costear una colección completa, sino que simplemente paga por los efectos que utiliza. Además, permite el acceso directo a muchos sonidos que podemos no encontrar en nuestras librerías. Como referencias de estos sistemas de distribución de efectos de sonido, podemos citar Sound Dogs (www.sounddogs.com) y SFX Gallery (www.sfx-gallery.co.uk). Otros sitios web ofrecen suscripciones mensuales que incluyen el libre acceso a todos los efectos disponibles, como es el caso de www.ultimatesoundarchive.com. A través de las distintas producciones en las que intervienen, los diseñadores de sonido van paulatinamente construyendo sus propias librerías. Estas tienen como principal ventaja la originalidad y la singularidad de esos efectos, con lo que se evita uno de los principales problemas que las colecciones comerciales presentan: el hecho de que podamos encontrar el mismo efecto en diferentes producciones cinematográficas o televisivas. El uso de estas librerías personales llega a ser uno de los aspectos fundamentales de su trabajo para muchos diseñadores de sonido, como es el caso del supervisor de edición de audio Richard Anderson: El mejor amigo de un editor de sonido es su librería, porque es la verdadera herramienta de su trabajo. Siempre puedes alquilar una KEM o una Moviola –las herramientas físicas–. La mayor parte de nuestra librería proviene de nuestras propias grabaciones o de efectos grabados bajo nuestra supervisión por personas contratadas a tal efecto (LoBrutto, 1994: 169).
Aunque suponen una gran base de todos los efectos utilizados en la sonorización de películas, existen ciertas limitaciones, especialmente en las librerías comerciales, que nos obligan a obtener sonidos de otras fuentes: – La duración total del efecto o de algún fragmento del mismo puede no coincidir con el tiempo que necesitamos cubrir en la imagen. En muchas ocasiones, la edición que debemos realizar sobre el efecto es tan compleja que es preferible grabar ese sonido de forma sincrónica con la imagen. Es el caso de los pasos: cualquier librería suele incluir uno o dos discos dedicados a toda una gran variedad de pasos con distinto calzado y sobre diferentes superficies, pero la sincronización de estos con la imagen exige en la mayoría de los casos la edición de cada pisada, y aun así podemos no obtener un resultado creíble. 184
El diseño de sonido. Narrativa sonora
– El ambiente acústico del lugar en que se tomó el sonido puede encontrarse en la grabación, de forma que nos limite el uso de esta. La mayoría de librerías presentan sonidos grabados en estudio sin que ningún ambiente contamine el registro. Sin embargo, muchas de las fuentes no pueden grabarse en un locutorio (baste pensar en los efectos relacionados con vehículos, aviones, motores) y pueden incluir la reverberación propia del recinto en que fueron tomados. Una segunda forma de obtención de efectos es la grabación de estos sonidos. A partir del visionado de las secuencias de la película y de las necesidades que el diseñador plantea, se realiza todo un trabajo de campo en el que se acude a distintas fuentes para recoger este material sonoro. En esta fase es primordial una mentalidad abierta para dar cabida a todos aquellos sonidos que, sin haberlo planificado, pueden resultar interesantes, como aconseja Gary Rydstrom: Gran parte de lo que ocurre durante la grabación de efectos es inesperado. Tienes que estar abierto a encontrar algo diferente de lo que en principio pretendías. No es simplemente hacer una lista de cosas para grabar. […] No hay excusa para argumentar un bloqueo mental o creativo en este aspecto. Puedes simplemente salir y grabar cosas en el mundo real –ellas producen el sonido, no tú–. Es muy restrictivo utilizar siempre una librería para los efectos sonoros. Es mucho más interesante y liberador salir y grabar sonidos nuevos porque nunca sabes qué te vas a encontrar (LoBrutto, 1994: 239).
Una vez obtenido todo el material necesario, se vuelca al sistema de edición de audio, donde se separan y catalogan los sonidos grabados. Cada uno de ellos puede ser utilizado como un efecto ya conformado o editarse, procesarse y combinarse con otros para crear un objeto sonoro diferente. La tercera forma de obtención de efectos de sonido es mediante la grabación de los denominados efectos sala o Foley. El origen del término proviene de Jack Foley, quien fue el pionero en este tipo de técnicas de grabación en la época del surgimiento del sonoro. Se trata de efectos de sonido que se graban en un estudio adecuadamente acondicionado y que son producidos por un personal muy específico, los actores Foley o “ruideros”. Estos recrean los distintos efectos de sonido de forma sincrónica con la imagen, que es proyectada en una pantalla de grandes dimensiones en la cabina del estudio. Al igual que ocurre con el ADR, el supervisor de Foley, junto con el diseñador de sonido, realiza un spotting de la película para definir qué efectos deben obtenerse mediante este método. Suele ser bastante fácil definir qué se grabará en sala y qué material se obtendrá por otros medios. En general, todos los sonidos producidos por los actores (pasos, gestos, movimientos, roces) y otros muchos sonidos diegéticos (sonidos procedentes de alguna acción que se produce dentro de la historia) se realizan mediante la grabación del Foley. 185
Parte IV. Diseño de sonido
El estudio de efectos sala se caracteriza, en primer lugar, por su bajo tiempo de reverberación (0,02 segundos), lo que proporciona una sala “acústicamente muerta”, necesaria para la grabación de cualquier sonido con el máximo detalle y sin ningún tipo de ambiente añadido. Es muy común utilizar un micrófono principal, cercano a la fuente sonora, y otro situado a una mayor distancia. Posteriormente, el editor de efectos sala puede pasar de un canal a otro o mezclar ambos para obtener una perspectiva sonora que coincida con la de la imagen. La sala de grabación, de grandes dimensiones, dispone de una serie de piscinas (espacios rectangulares de aproximadamente un metro cuadrado y unos 20 o 30 cm de profundidad, practicados sobre el suelo del estudio), que se rellenan con diferentes materiales (madera, granito, tierra, agua) para simular las pisadas sobre distintos tipos de superficies. Durante la grabación, el actor no camina realmente, sino que da los pasos en sincronía con la imagen, parado en el mismo sitio. Existe, en este caso, una especialización auditiva en el actor Foley que le permite establecer diferencias sutiles entre distintos tipos de suelos y formas de obtener sonidos con él: Tengo cerca de 25 suelos diferentes en el estudio, y estoy constantemente cambiando y añadiendo superficies a nuestra colección. […] Se necesitan muchos tipos de suelo. A veces entran en juego diferentes tipos de madera; realmente tienes que tener un oído afinado para distinguir un tipo de madera de otro. En la actualidad, tenemos diez tipos de suelos de madera distintos. […] Mi objetivo es crear en el estudio un sonido creíble que encaje o que mejore el sonido de producción. Tienes que ser muy creativo, inventar sonidos, experimentar y buscar en tu memoria para reconocer los sonidos que quieres crear. Siempre estoy escuchando sonidos a mi alrededor, e incluso después de muchos años de experiencia, aún sigo descubriendo nuevos sonidos (LoBrutto, 1994: 153).
Esta búsqueda en la memoria y la capacidad de crear nuevos sonidos a que se refiere el actor de efectos sala Elisha Birnbaum son las cualidades que hacen tan complejo y específico este trabajo. Además de mantener una perfecta sincronización con la imagen, el actor Foley tiene la capacidad de analizar y memorizar las propiedades acústicas de muchos objetos para saber con qué puede reproducir el sonido que se necesita. Una vez vistas las secuencias que necesitan el refuerzo de los efectos sala, buscan utensilios que puedan producir ese sonido. Entre la lista de cosas que un actor Foley siempre tiene en su estudio destaca, por ejemplo, una enorme cantidad de pares de zapatos, de diferentes tamaños, tipos, de hombre y de mujer (normalmente el mismo actor o actriz Foley suele grabar pasos masculinos y femeninos). Una vez experimentado el sonido que se puede obtener de los diferentes objetos, elegidos y organizados los necesarios, se lleva a cabo la sesión de grabación. Cada actor Foley tiene su método de trabajo. Algunos graban todos los sonidos
186
El diseño de sonido. Narrativa sonora
correspondientes a los movimientos de un personaje y luego pasan al siguiente, y así sucesivamente. Otros prefieren estructurar su trabajo por tipos de sonidos y grabar, por ejemplo, todos los pasos de un rollo, a continuación, los roces de las ropas, etc. Para ello se utilizan diferentes pistas que mantienen independizados los movimientos de cada personaje o los de cada tipo, según el caso. Además de la obtención de sonidos en vivo, mucho más ricos y variados que los extraídos de una librería, la principal ventaja de los efectos sala es que, al grabarse de forma sincrónica con la imagen, no suelen necesitar una edición posterior. Este tipo de efectos, al apoyar los sonidos producidos por los personajes, así como otros que podríamos denominar cotidianos (cierre y apertura de puertas, utensilios domésticos), contribuyen a dar credibilidad a la diégesis del relato. “Imagina una escena con diálogos, pero sin pasos, sin sonidos de objetos, sin roces de ropas, sin ningún tipo de sonido generado por el ser humano”, comenta Birnbaum. “La banda sonora de la película sonaría vacía. El Foley añade un sentido de realidad a la película, le da vida” (LoBrutto, 1994: 157). Finalmente, el cuarto tipo de sonidos que podemos obtener de cara a la posproducción de efectos proviene del uso de sintetizadores y samplers. Estos dispositivos electrónicos se usan muchas veces como herramientas de procesado de otros sonidos grabados más que como fuentes generadoras de señal de audio. C) El trabajo por capas y el procesamiento de los efectos Todo el material obtenido a partir de los distintos métodos descritos es volcado al sistema de edición sobre el que vayamos a trabajar. Es muy conveniente clasificarlo y organizarlo para poder localizar rápidamente cada efecto. Muchas DAW incluyen algún tipo de utilidad que permite crear librerías de sonidos dentro de cada proyecto de posproducción. A partir de este punto, comienza el trabajo de edición y procesamiento de la señal de audio. Algunos de los sonidos que hemos grabado, volcado o sintetizado tendrán la forma definitiva que nos interesa para acompañar a la imagen. Sin embargo, la mayoría de ellos necesitará modificaciones que nos permitan adaptarlo a los condicionantes marcados por la imagen (proximidad, perspectiva, duración). Por otro lado, muchos objetos sonoros resultarán de la combinación de los efectos que hemos grabado de distintas fuentes. Es lo que denominamos trabajo por capas. Utilizando las pistas de nuestra DAW como capas superpuestas, vamos colocando en cada una un efecto sonoro, o parte de él, construyendo un sonido complejo que tiene elementos con diferentes características sonoras. Podemos tomar el ataque percusivo de un objeto sonoro y combinarlo con otro que tiene una envolvente más lenta en el ataque, pero de evolución más rica. Cada elemento va a aportar un matiz acústico al conjunto.
187
Parte IV. Diseño de sonido
La posibilidad de retocar de forma independiente las capas añade un nivel más de versatilidad. Podemos dar a un sonido una amplitud diferente o someterlo a distintos procesos que modifiquen su espectro en frecuencia, su duración o su altura tonal. Es en esta parte de la posproducción donde la experimentación y la creatividad se ponen más en juego. Como ejemplo ilustrativo hemos incluido en la webgrafía una muestra de este tipo de trabajo por capas. Se trata de la creación del efecto de sonido que acompaña al encendido del metro fantasma en Más de mil cámaras velan por tu seguridad (David Alonso, 2003). Es un sonido completamente arbitrario y sin ningún referente científico o realista, cuyo concepto surgió del deseo de provocar un impacto en los protagonistas de la película y en el espectador. Como elementos integrantes del golpe sonoro inicial utilizamos el encendido del motor de un ascensor antiguo, varios martillos hidráulicos industriales y el bote de un balón en una cancha de baloncesto. Sobre estos, añadimos posteriormente el sonido de escape de aire de una puerta neumática y parte del sonido rugiente obtenido con el violonchelo. De entre los múltiples procesos que podemos aplicar a los efectos, bien en su integración como capa de un objeto sonoro más complejo o tratados como un elemento complejo en sí mismo, encontramos algunos de uso muy frecuente en el diseño de sonido: – Edición: es el procedimiento más simple mediante el cual eliminamos parte de un sonido. Por ejemplo, podemos elegir el crujido de puerta de una grabación y combinarlo con el cierre de puerta de otra. – Cambio de altura tonal (pitch shift): mediante la modificación de la velocidad de reproducción de la cinta o de la velocidad de lectura de las muestras de audio digital, podemos conseguir elevar o descender la altura tonal del sonido, acortando o alargando simultáneamente su duración. – Compresión/expansión de tiempo (time stretching): en este caso, se altera la duración del objeto sonoro, sin modificar su altura tonal. Nos permite adaptar la duración de un efecto a lo requerido por la imagen, sin tener que eliminar ninguna parte. – Inversión de la onda (reverse): el sonido se reproduce inversamente, desde el final hacia el principio. Mediante este procedimiento se obtienen efectos realmente únicos. El sonido de un golpe de timbal invertido, por ejemplo, se traducirá en un breve rumor que va creciendo paulatinamente hasta cortarse de forma brusca. – Ecualización y filtrado: mediante el uso de ecualizadores y de distintos tipos de filtro podemos acentuar, atenuar o directamente eliminar parte del espectro de frecuencias de un sonido. Por ejemplo, la reducción de frecuencias agudas es uno de los procedimientos más usuales para localizar un sonido como procedente de una estancia contigua o un lugar externo al espacio en que se localiza la escena. Mediante la eliminación de las 188
El diseño de sonido. Narrativa sonora
frecuencias inferiores a 4 KHz, podemos convertir un efecto de viento en un susurro, un objeto sonoro que podría usarse para un ambiente fantasmagórico. – Modificación del rango dinámico: mediante el uso de compresores, podemos reducir la dinámica de una señal y proporcionar más presencia y cuerpo al sonido sin necesidad de aumentar desmesuradamente el volumen sonoro del efecto, lo que puede llegar a saturar el canal de audio. D) Premezcla de efectos de sonido Una vez creados los distintos objetos sonoros, cada uno de ellos se vuelca a un único archivo de las diversas capas. A continuación, estos efectos se van montando en distintas pistas de forma sincrónica con la imagen, junto con los efectos sala, ya sincronizados desde su grabación. Los distintos tipos de sonidos se agrupan para facilitar los procesos de premezcla y mezcla. Este agrupamiento puede realizarse siguiendo varios patrones: separando los efectos duros de los blandos, según el tipo de sonidos (vientos, sonidos metálicos, vehículos) o basándonos en el rango de frecuencias para evitar casos de enmascaramiento por frecuencias cercanas. Uno de los objetivos del proceso de edición de efectos es mantener independizados todos los elementos que nos sea posible para poder ejercer un control más individualizado y preciso sobre cada uno de ellos durante la mezcla, importancia en la que insiste Gary Rydstrom: A menudo, cuando la gente quiere un ambiente para una escena en la que hay dos personas paseando por una playa, van a una playa y graban el sonido de la playa en estéreo, pero puedes obtener mucha más flexibilidad si grabas las gaviotas, por un lado, las olas por otro y el viento por otro lado –puedes construir un ambiente artificialmente compuesto por todos estos elementos controlables individualmente–. De este modo, en la mezcla puedes centrarte en los elementos que mejor ayuden a la escena (LoBrutto, 1994: 233).
7.3.3. La música La composición, grabación y mezclas de la música es el elemento sonoro que se encuentra más al margen de todo el proceso de tratamiento de sonido en el audiovisual. Esta dependencia variará según el origen del discurso musical. Básicamente, podemos encontrar tres posibilidades: música expresamente compuesta para el largometraje, música ya existente pero versionada u orquestada ex professo, o música preexistente. Únicamente en este tercer supuesto la música puede integrarse con el resto de proceso de diseño sonoro desde un principio, donde se editará para
189
Parte IV. Diseño de sonido
adaptar su duración a los momentos en que el director quiere que esté presente. Normalmente se hace uso de grabaciones comerciales, aunque en ocasiones se puede obtener el material original de la grabación separado en pistas. Esto permite una mezcla musical más adecuada a su posterior integración con el resto de elementos sonoros. Así se realizó en la película The Doors (Oliver Stone, 1991), en el que se partió de las grabaciones de estudio de este grupo de rock para, en algunas ocasiones, sustituir la voz de Jim Morrison por la del actor Val Kilmer, mientras en otras se procesó el sonido para integrarlo sonoramente en el espacio físico de los conciertos con público. En el segundo supuesto (música preexistente que se reinterpreta), el equipo de montaje y el personal de posproducción de audio podrán utilizar las versiones existentes de esa pieza, siempre y cuando la duración, la estructura rítmica y las variaciones de tempo sean iguales a la versión que se va a orquestar para la película. Sin embargo, los problemas que se derivan del uso de distintas versiones en distintos momentos del proceso de posproducción (por ejemplo, utilizar una versión durante el montaje y sustituirla posteriormente por la definitiva en el proceso de la edición de sonido o las mezclas) son mucho más graves que una falta de sincronización (inconveniente que, teniendo en cuenta las posibilidades de moldeado de sonido, resulta relativamente sencillo solucionar).
7.3.4. Las mezclas La fase de mezclas y, más concretamente, la mezcla final constituye el momento en que se da forma definitiva a la banda sonora de la película. La claridad de ideas del director en esta última etapa de la posproducción de audio es fundamental para definir de qué forma el sonido va a orientar posteriormente la interpretación del espectador. Es una guía para todo el personal encargado de mezclar de la película, como apunta Gary Rydstrom acerca de James Cameron en las mezclas de Terminator 2: Judgement day, (1991): Lo más difícil de Terminator 2 fue el trabajo de mezcla. Ahí es donde tuvimos más ayuda. James Cameron realmente modeló la mezcla. En una mezcla puedes reproducir una escena de mil maneras diferentes y elegir cuál funciona mejor, pero él tenía una idea muy diferente de cómo quería presentar la música y los efectos en cada escena. Veía las cosas en términos de ritmo. […] Eligió y dio forma a lo que nosotros habíamos trabajado previamente. Definitivamente nos condujo en una dirección concreta más de lo que he experimentado en cualquier otra película. […] Teníamos tan poco tiempo en Terminator 2, que no creo que hubiéramos podido hacerlo si James Cameron no hubiera tenido una idea muy clara de cómo quería mezclar el sonido (LoBrutto, 1994: 239).
190
El diseño de sonido. Narrativa sonora
Antes de la mezcla final del sonido se suelen realizar premezclas independientes de todo el material por separado (diálogos, efectos y música). El objetivo es establecer una cohesión interna entre los objetos sonoros de cada categoría, así como reducir el número de pistas finales. Las premezclas pueden incluir muchas veces algunos procesos finales de edición, que suavicen las transiciones entre los distintos objetos sonoros. Se comienza también la distribución de los efectos de sonido en el espacio haciendo uso de la configuración multicanal. Dentro de la premezcla de diálogos se pueden realizar (si no se han llevado a cabo con anterioridad) los procesos de ecualización y retoque para determinadas situaciones (por ejemplo, la simulación del sonido telefónico). La música suele llegar a la mezcla final con un mayor acabado, especialmente cuando todo el proceso se realiza en un estudio diferente al resto del trabajo de posproducción. Dependiendo del caso, puede mezclarse completamente en esta fase, facilitándose a los técnicos de mezcla final un máster en el formato de distribución de canales de audio elegido (mono, estéreo o multicanal). En otras ocasiones se realiza una premezcla, dejando la posibilidad de retocar de forma individual los niveles de las diferentes familias instrumentales y el añadido de algún efecto de reverberación. En el caso de la música diegética, se realiza también el procesado que permite localizarla espacialmente o asociarla con una determinada fuente visual. Las pistas de las premezclas se vuelcan y unifican en la consola principal para la mezcla final. En ella suelen intervenir tres mezcladores, cada uno de ellos encargado de controlar los canales asignados a las pistas de las distintas premezclas. La película se mezcla por rollos, de diez minutos de duración cada uno. El proceso comienza con los diálogos, que suele ser la parte que más tiempo consume. Es en este momento cuando se elige la toma más adecuada a la imagen y a la escena de entre todas las disponibles (sonido directo, wild tracks, ADR) y cuando se establece el nivel de referencia de los diálogos para la mezcla de efectos y música. El uso de los diálogos como guía principal de la narración es respaldado por los propios profesionales del sonido cinematográfico, como es el caso de la diseñadora de sonido Cecelia Hall: Me encantan las películas. Voy al cine muy a menudo. Si no puedo oír el diálogo, ya está. No importa lo fabulosa que sea la película. No importa lo grandiosa que sea la música. […] El diálogo es la columna vertebral de la obra, a menos que se trate de películas como Top Gun, ¿Quién engañó a Roger Rabbit? u otras en los que estás creando un mundo en el que las palabras concretamente no son tan importantes –entonces está bien–. Para mí el diálogo tiene una importancia principal cuando estoy en la sala de mezclas (LoBrutto, 1994: 198).
A partir del establecimiento de los niveles, panoramas de los diálogos, se van añadiendo los efectos de sonido y, posteriormente, la música, siempre tomando como referencia la línea establecida por los diálogos. 191
Parte IV. Diseño de sonido
Como ya hemos comentado, la mezcla es el proceso final en que se establece la orientación de la narración mediante el sonido. La acentuación de unos elementos sobre otros, la entrada y salida de los objetos sonoros nos permite focalizar la narración. Una buena mezcla no es aquella que nos permite oír claramente todos los diálogos, los efectos sonoros y la música en cada escena, sino la que sabe mostrar los elementos sonoros necesarios para la narración y ocultar sutilmente el resto. La complejidad del proceso reside en establecer la correcta combinación de elementos en cada instante de la película. Relacionado directamente con la organización de los elementos sonoros de forma narrativa está la necesidad de establecer cambios dinámicos en la mezcla. El impacto que en un instante determinado proporcione un efecto de sonido no va a depender tanto de la amplitud de ese objeto sonoro como del nivel global que la banda sonora tenga en el momento justamente anterior a la aparición de ese efecto. Es por esto que necesitamos dosificar el volumen del sonido y la densidad de nuestra mezcla en cada instante para proporcionar momentos de mayor intensidad sin necesidad de alcanzar el umbral de dolor del oído humano.
7.4. La narración a través del sonido Introducimos, como colofón a lo hasta ahora expuesto, una serie de fundamentos que explican cómo el diseño de sonido puede ser una de las herramientas más poderosas para la narración audiovisual, gracias en gran medida a cómo este es percibido dentro de una película o una serie: de forma semiinconsciente. En palabras del director Francis Ford Coppola: “El sonido es el mejor amigo del director, porque actúa sobre el espectador de forma secreta”. Es la creación y la producción audiovisual el ámbito donde se produce una completa disociación entre el objeto sonoro y su fuente o causa, lo que llamamos acusmatización. El origen de este término se remonta a la técnica didáctica utilizada por Pitágoras, consistente en hablar a sus alumnos situado tras una cortina, con el fin de centrar la atención de los mismos en sus palabras y no en su imagen. De esta forma, desvinculaba el sonido de su voz de la fuente que lo generaba. Utilizaremos, pues, el término acusmático tal y como fue retomado y reformulado por Pierre Schaeffer, como “aquello que se oye sin ver las causas de donde proviene”. La completa separación de fuente y objeto sonoro posibilitada por la grabación magnética de un sonido y su posterior reproducibilidad ha permitido, en el terreno de la comunicación audiovisual, la creación de objetos sonoros cuyas causas de emisión reales no existen (al menos en el mundo conocido) o que, por diversas limitaciones, resulta imposible la captación directa del suceso que lo origina. Surge así una nueva asociación entre fuente imaginaria y objeto sonoro: 192
El diseño de sonido. Narrativa sonora El sonido, que puede ser un producto de una génesis muy compleja, encuentra, gracias a la imagen y a la síncresis, un nuevo anclaje de la ficción; se convierte en el sonido “del” sable-láser de Luke Skywalker (cuando “era” un empalme eléctrico), o en el sonido “de” pasos sobre la nieve (cuando “era” un crujido que se creaba al pisotear partículas de poliestireno) (Chion, 1999: 166).
La síncresis a la que alude este autor surge de la unión de los términos síntesis y sincronización y hace referencia a la percepción de dos estímulos concretos y simultáneos como si de uno solo se tratase. En el ámbito audiovisual, alude directamente a la percepción de una imagen y un sonido de forma conjunta y unitaria. La acusmaticidad es, pues, uno de los principios fundamentales en que se basa la ilusión audiovisual. Libera al sonido de su fuente original y permite vincular un referente visual (la imagen cinematográfica) a un objeto sonoro meticulosamente diseñado, creado con un propósito concreto y una opción estética determinada. Abre las puertas a una mayor expresividad y a nuevas posibilidades comunicativas a través del sonido. La necesaria justificación de la causalidad de cada elemento acústico en una película es un imperativo solo parcialmente restrictivo. Una vez que el espectador ha asociado un sonido a un referente visual (o narrativo), da por sentado que esta identificación se mantendrá como una constante, no prestando mayor atención a dicha correspondencia. El cine narrativo, a través de la imagen y el contexto narrativo, casi siempre asigna una causa al sonido. El flou causal, así como la potencia de la síncresis y de la imantación espacial, permiten, por lo demás con bastante facilidad, esta causalización de cualquier sonido. Al mismo tiempo –esta es la paradoja, aunque solo aparente–, el sonido, una vez ubicado causalmente (identificado con la ayuda de la imagen y de la ficción como zumbido eléctrico, ruido de jungla, puñetazo, etc.), permite que se lo trabaje con toda libertad, como materia, forma, textura, en función de las necesidades de la escena, pero también de una cierta investigación estética (Chion, 1999: 152).
Una de las cuestiones que este principio nos suscita es de qué forma podemos asociar nuestro objeto sonoro con ese referente visual para que la sustitución se realice con efectividad, en qué debemos basar la construcción de esta representación sonora. Zunzunegui establece dos condiciones para que se produzca este efecto: que la forma autorice el significado con el que se le inviste y que el contexto lo fije de manera adecuada (1995: 58). La síncresis originada a partir de la sincronización del sonido con la imagen a la que se asocia, así como el tratamiento (ecualización, reverberación, intensidad, ubicación estereofónica o multicanal) que llevemos a cabo sobre el objeto sonoro para adecuarlo a las características acústicas del espacio visual en el que diegéticamente tiene lugar son algunos parámetros que contribuyen a su contextualización. Pero al margen de sus atributos espacio-temporales, el factor más importante se encuentra en la construcción de la forma sonora que va 193
Parte IV. Diseño de sonido
a autorizar el significado. Nos encontramos con el siguiente planteamiento: ante la existencia de un referente visual (supuestamente sonoro) en la pantalla, ¿qué características debe tener el sonido que, hipotéticamente, sería emitido por dicha fuente? Aun cuando una primera respuesta nos conduciría a pensar en un objeto sonoro que reprodujera exactamente su “realidad sonora”, el sonido debe ir más allá y constituirse como efecto de expresión de esa causa: En la cuestión de la función realista y narrativa de los sonidos diegéticos (voces, música, ruidos), la noción de expresión se opone a la de reproducción. Dicho de otro modo, el sonido cinematográfico será reconocible por el espectador como verdadero, eficaz y conveniente, no si reproduce el sonido que emite en realidad el mismo tipo de situación o de causa, sino si vierte (es decir, traduce, expresa) las sensaciones asociadas a esa causa. (Chion, 1993: 107).
Encontramos, por tanto, la necesidad de construir un objeto sonoro que transmita una serie de sensaciones que pueden no estar presentes en la manifestación sonora de esa causa. Pongamos un ejemplo que puedes ver y oír en la webgrafía de este capítulo. En una de las secuencias de Indiana Jones y el templo maldito (Indiana Jones and the Temple of Doom, Steven Spielberg, 1984), el personaje protagonista y sus compañeros de aventuras (un niño y una mujer) se adentran por los pasadizos secretos de un palacio, encontrándose en su camino toda clase de insectos de gran calibre, que cubren suelo, paredes y techo. Las connotaciones asociadas a estos “bichitos” (casi siempre desagradables, sobre todo si partimos de una premisa: esos insectos van a serpentear y a agarrarse al cuerpo de los protagonistas) nos llevan a buscar una serie de elementos sonoros que difícilmente obtendríamos con la captación microfónica del ruido emitido por estos parásitos. Adjetivos como viscoso, crujiente, denso o chirriante pueden representar de alguna manera estas sensaciones, a la vez que ayudan a definir una serie de propiedades acústicas. Un segundo nivel de asociaciones sensoriales-conceptuales es el que nos conduce a pensar en objetos o fuentes que produzcan un sonido que podríamos también caracterizar con los adjetivos citados. Finalmente, una valoración de las características sonoras físicas de estos conceptos (un ataque y relajamiento muy cortos, en el caso del crujido, generalmente con una frecuencia aguda; una evolución dinámica más rica y ataques y relajaciones lentos para la sensación de viscosidad; o una variedad de objetos sonoros con diferentes amplitudes para transmitir la idea de la superficie que ocupan los insectos) será de gran ayuda a la hora de encontrar esa causa material que nos sirva de base para dar “vida audible” a estas criaturas. En el caso de esta secuencia, el efecto de repugnancia, acentuado gracias al diseño de sonido, es el motor del suspense y la tensión generados en el relato: debido al horror de la chica hacia estos insectos, el instante en que acciona la palanca que libera a Indiana Jones y a Tapón de una muerte segura se dilata hasta el último momento. 194
El diseño de sonido. Narrativa sonora
En este mismo sentido, el fenómeno de la acusmatización nos conduce a otra observación: un noventa y cinco por ciento de la realidad visible no emite ningún tipo de sonido, y el cinco por ciento restante traduce muy vagamente su existencia de forma acústica. Sin embargo, no somos conscientes de este hecho y, constantemente, insertamos en el mundo elementos supuestamente sonoros. Consideramos que la motivación que subyace a esta transposición acústica de lo que se ve, es el movimiento: una imagen estática, aun sin conocer a priori cómo suena (si es que emite algún sonido), suscita una impresión de mayor silencio, mientras que una imagen que contenga algún tipo de movimiento interno supone la existencia de un mundo sonoro mayor. Este fenómeno se deriva (aunque de forma inconsciente para el espectador), del hecho de que un sonido siempre parte de un movimiento (hace falta un contacto físico entre dos objetos o una excitación eléctrica que mueve la membrana de un altavoz para generar el desplazamiento de partículas en el aire). Este razonamiento descubre una vertiente más de lo acusmático en el cine: no necesitamos la excusa visual de una acción que produzca en la vida real un sonido para corresponderla con un efecto sonoro. La propia existencia de una serie de movimientos (incluso sin la existencia de un desplazamiento espacial, basta la alteración de algún elemento visual) justifica, e incluso solicita, la aparición de un sonido, como es el caso de los movimientos de espada en el aire durante una escena de combate, que sugiere (y demanda) ser sonorizado con un efecto de sonido que ya tiene incluso categoría propia dentro de las distintas colecciones y librerías de efectos: los swish. El desarrollo temático de un sonido, el uso de un determinado efecto sonoro como célula susceptible de identificarse con ciertas unidades narrativas, sentimientos o incluso personajes de una película y de evolucionar con ellos de diferentes maneras es otra de las posibilidades que la acusmatización y los efectos derivados de ella ofrecen a la narración audiovisual. Para poner en práctica este recurso, debemos conocer qué componentes va a tener nuestro sonido inicial, qué posibilidades de desarrollo nos va a permitir y en qué dirección, de la misma forma que una melodía musical debe permitir evolucionar hacia una variación en su uso como leitmotiv. La composición de música cinematográfica hace un eficaz uso de este recurso compositivo, partiendo de una célula inicial (melódica, aunque también puede ser tímbrica, rítmica o armónica), que posteriormente es desarrollada por el compositor a partir de las herramientas con las que cuenta: instrumentación, orquestación, tempo, dinámica. En el caso del objeto sonoro no musical, este desarrollo temático se puede realizar a partir de la alteración de parámetros como la amplitud, la frecuencia, la envolvente o la estructura de armónicos y parciales. En El padrino (The Godfather, Francis Ford Coppola, 1972) encontramos un excepcional uso del sonido en este sentido: se trata de la secuencia en la que Michael Corleone asesina a McClusky y Sollozo en un restaurante (puedes acceder a la secuencia completa desde la webgrafía del capítulo, disponible en www.sintesis.com). 195
Parte IV. Diseño de sonido
En el plano general desde la calle con que se inicia la secuencia, los tres personajes descienden de un automóvil y entran en el restaurante. Se oye lo que podría ser un ambiente natural de esa calle: coches transitando, gente caminando, las puertas de los comercios y un tren elevado que pasa (supuestamente, ya que no lo vemos). En un momento posterior, durante la cena, Michael va al servicio, donde ha escondido un revólver. En ese instante comienza a escucharse nuevamente el sonido de ese tren elevado de forma tenue. Cuando Michael vuelve del servicio y se acerca a la mesa, ese sonido chirriante va creciendo en intensidad y en estridencia, hasta llegar a ser el único audible. En ese momento, dispara a ambos comensales. El sonido desaparece y, tras un instante de silencio, la música extradiegética hace su aparición con un tutti orquestal ejecutando los primeros compases del tema principal de la película. En palabras de Walter Murch, diseñador de sonido de El padrino, “este sonido describía de forma muy precisa lo que estaba ocurriendo en la mente del chico, justo cuando iba a matar a alguien por primera vez en su vida: el chirrido y la cólera del cerebro: ‘¿Debería hacerlo? ¿Debería hacerlo? ¡Sí! ¡BANG!’” (Weaver, 1993: 5). En este caso, el desarrollo del efecto se ha basado principalmente en dos elementos: un aumento progresivo de la amplitud del sonido, acompañado de un incremento de los parciales en la región de frecuencias más altas (para conseguir ese sonido más chirriante). También debemos destacar de este ejemplo que, al utilizarse el sonido (aparentemente diegético) para puntualizar de alguna forma ese instante, se reserva el efecto dramático de la música para el instante justamente posterior, con lo que se consigue descargar la tensión creada anteriormente. Una vez más, el milagro se ha vuelto a producir. El milagro del cine que hace que cualquiera de los espectadores haya vivido ese momento bajo la piel de Michael, compartiendo con él toda la tensión, la rabia contenida, la catarsis personal. Ese milagro que lleva al público a identificarse con el personaje y a interiorizar sus pensamientos, sus sentimientos, sus actos. Lo más fascinante de todo es, sin duda, saber cómo se articula esta identificación, qué mecanismos y recursos pone en juego el director de la película para llevar al espectador a ese nivel de conexión con el personaje: de manera secreta, como afirmaba Coppola, es decir, de forma inconsciente para el espectador. Seguramente nadie en la sala de cine habrá dado especial importancia al comienzo de esta secuencia, que arranca con los tres personajes llegando al restaurante en que tendrá lugar el crimen, al sonido de un tren elevado que nunca vemos, y que forma parte del conjunto de elementos sonoros que recrean el ambiente de esa calle: coches transitando, gente caminando, puertas de comercios… y un tren elevado que pasa. Con toda probabilidad, tampoco ningún espectador habrá prestado atención a ese mismo sonido que vuelve a sonar cuando Michael, antes de volver del servicio, intenta calmar su ansiedad y su tensión pasándose las manos sobre su cabeza. 196
El diseño de sonido. Narrativa sonora
Como es probable, ningún espectador ha sido consciente de que ese mismo tren vuelve a oírse, esta vez sin justificación diegética alguna, cuando Michael se sienta nuevamente ante Sollozo, un sonido que va creciendo poco a poco, pero de forma imparable en intensidad y en estridencia, hasta convertirse en un chirrido agudo y metálico que tapa al parloteo de Sollozo y que se convierte en lo único que oímos hasta que Michael saca el arma y dispara. Pero sin duda es ese sonido, y el tratamiento que recibe a lo largo de la secuencia, lo que mejor representa el estado de tensión del personaje y lo que, de forma sutil pero eficaz, lleva a ese mismo estado de tensión a los espectadores.
197
Parte IV. Diseño de sonido
Preguntas de autoevaluación 1. ¿A qué se refiere la expresión M&E mix?: � a) Al tipo de efectos de sonido utilizados cuando grabamos Foley. � b) A lo que se conoce como banda internacional a la hora de organizar el
sonido de un largometraje. � c) A un proceso de sincronización automática de diálogos. 2. ¿Qué es el ADR?:
� a) Es un wild track de diálogos que se graba durante el rodaje. � b) Es un sinónimo de doblaje de diálogos. � c) Es un sistema de sincronización automática de diálogos.
3. ¿Cómo podemos categorizar también a los ambientes sonoros de una película?: � a) Background effects. � b) Cut effects. � c) Foley effects.
4. ¿Qué es el pitch shift?: � a) Un proceso por el que se modifica la duración de un sonido. � b) Un proceso por el que se modifica la altura tonal de un sonido. � c) Un proceso por el que se invierte la reproducción de un sonido.
5. La acusmatización hace referencia: � a) Al sonido que pertenece a la historia narrada. � b) Al sonido que se oye sin ver las causas de donde proviene. � c) Al sonido sincrético.
198
8
El sonido para videojuegos
La producción de sonido para videojuegos guarda grandes similitudes con los procesos que se aplican a otros productos de tipo audiovisual, pero también surgen nuevas formas de tratar el sonido en relación con la imagen y, fundamentalmente, con la acción y el desarrollo del juego. Es importante conocer y entender las diferencias clave que existen entre el sonido para medios audiovisuales y el sonido para videojuegos, tanto en el proceso de producción como en la implementación de estos. Estas diferencias tienen como consecuencia, en muchos casos, nuevas técnicas para producir, desarrollar y organizar los diferentes elementos de audio que integran el diseño sonoro para videojuegos. Especialmente relevantes en este proceso son las aplicaciones middleware, como veremos más adelante, que facilitan las tareas de implementación y programación del sonido en un videojuego. A lo largo de este capítulo se utilizará como referencia el desarrollo del sonido para un videojuego real, del que se incluirán ejemplos tanto sonoros como de los distintos documentos de trabajo utilizados en todo el proceso de diseño e implementación de sonido. Para ello, se ha elegido el videojuego Dissident: Survival Runner, de la empresa Agaporni Games: un juego para dispositivos móviles Android e iOS que combina la idea de un endless runner con la estética y la jugabilidad de los clásicos arcade y shooter. Para poder vivir de forma más directa la experiencia de juego de Dissident, y escuchar con más detalle todos los elementos sonoros creados, el archivo Dissident gameplay reproduce una partida completa. Por otro lado, la aplicación puede descargarse tanto de la Play Store de Android como de la APP Store de Apple.
8.1. El sonido en el audiovisual vs el sonido en el videojuego En el capítulo anterior se ha tratado en profundidad el diseño de sonido para creaciones audiovisuales, un proceso enormemente rico y variado, tanto por la diver-
199
Parte IV. Diseño de sonido
sidad de elementos sonoros como por las distintas fases, procedimientos y equipamiento técnico que entran en juego en él. En el diseño de sonido para cine o televisión, la linealidad del producto audiovisual final marca la forma de trabajo: todos los efectos de sonido, ambientes, música y diálogos se mezclan cuidadosamente siguiendo el desarrollo temporal de la historia narrada. Una vez que se da por concluida, la mezcla final sonará exactamente igual cada vez que se reproduzca. Cada efecto de sonido que sincronizamos con la imagen sonará, dentro de la narración, siempre exactamente en el mismo momento. Si, por ejemplo, un personaje golpea a otro en el transcurso de una discusión, una vez que sincronicemos el sonido del puñetazo (digamos que ocurre en el minuto 45, segundo 36 de la película), cada vez que veamos esa escena, el puñetazo se escuchará en ese preciso instante. Imaginemos ahora que, cada vez que viésemos esa misma escena, el personaje golpeara al otro en un momento diferente. ¿Cómo podríamos crear el sonido y sincronizarlo con una determinada acción, si no sabemos con exactitud el momento en el que dicha acción va a suceder? Esto es lo que ocurre en los videojuegos. Como afirman Horowitz y Looney (2014), la interactividad de los videojuegos y el hecho de ser medios no lineales hacen que las acciones dentro del mismo sean impredecibles e indeterminadas. Esta no-linealidad e interactividad son las que establecen una de las principales diferencias con las creaciones audiovisuales a la hora de plantear y desarrollar todo el proceso de diseño de sonido. Una vez creados todos los elementos sonoros, no podemos mezclarlos en un archivo máster final, como haríamos para una película o serie de televisión, sencillamente porque no sabemos cuándo puede hacer falta que esos sonidos se reproduzcan. Todos los elementos sonoros de un videojuego (efectos, frases de diálogo, sonido ambiente, música) son renderizados y exportados como archivos individuales, y posteriormente programados y codificados dentro del videojuego, de forma que puedan ser disparados o reproducidos cuando un evento o acción concretos tienen lugar dentro del juego. En función de la complejidad del juego, pero principalmente de la plataforma o plataformas para las que un juego se desarrolla, el grado de “acabado” de cada elemento sonoro varía. Por ejemplo, en plataformas simples, tales como dispositivos móviles y juegos en redes sociales, cada efecto de sonido debe estar ecualizado y premezclado antes de que sean “disparados” por el motor del videojuego, dado que la potencia de proceso de estos dispositivos es reducida y se reserva habitualmente para toda la parte visual del juego. En plataformas más complejas, como videoconsolas, dado que el procesador tiene una mayor potencia, el motor de audio puede procesar los distintos sonidos en tiempo real, y mezclar, por ejemplo, el volumen de los distintos elementos sonoros que suenan en un mismo instante, en respuesta a las acciones específicas del jugador. Como veremos más adelante, cada plataforma define expresamente aquellos parámetros sonoros que pueden o no ser modificados en tiempo real dentro de un videojuego. 200
El sonido para videojuegos
Desde un punto de vista narrativo, en los videojuegos podemos mantener la división que se aplica para el sonido en audiovisuales, diferenciando entre sonido diegético (voces de los personajes, sonido de los lugares, objetos y acciones que se desarrollan en la escena, o música de instrumentos que se muestran en la imagen) y sonido extradiegético (la voz en off de un narrador, un efecto sonoro no justificado por la narración y añadido con una intención dramática, o la banda sonora musical). De acuerdo con Horowitz y Looney (2014), podemos establecer otra clasificación paralela a la anterior, específica del ámbito de los videojuegos y de la interactividad que es inherente a ellos. Hablamos entonces de sonido dinámico, sonido interactivo y sonido adaptativo, que se relacionan como vemos a continuación: – Sonido dinámico: es el que está diseñado para cambiar, bien en respuesta a una acción del jugador, o a cambios en el entorno del desarrollo del juego. Dentro de esta categoría podemos diferenciar, a su vez, las dos siguientes: •
•
Sonido interactivo: son efectos sonoros que se producen en respuesta directa a la acción del jugador. Por ejemplo, si el jugador presiona una determinada tecla en el mando de control de una consola, el protagonista se moverá y se disparará el sonido de los pasos. Cada vez que el jugador presione la misma tecla, se repetirá ese efecto sonoro. Sonido adaptativo: son efectos sonoros que, además de las acciones directas del jugador, tienen en cuenta el propio desarrollo del juego. El mismo sonido de los pasos del ejemplo anterior sonará de forma diferente (con menos volumen, con menos cantidad de frecuencias agudas), en función del porcentaje de energía o salud del protagonista.
8.2. Categorías de sonidos en un videojuego: background, foreground, interface sound Además de la división clásica entre diálogos, efectos de sonido y música, los elementos sonoros de un videojuego se clasifican habitualmente en tres categorías, que suelen responder a su denominación anglosajona: background sounds (“sonidos de fondo”), foreground sounds (“sonidos de primer plano”) e interface sounds (“sonidos de interfaz”). – Background sounds: es el sonido ambiente, que contribuye a recrear la ambientación del lugar en el que se desarrolla cada fase del juego, pero que también juega un importante papel a la hora de establecer el estado emocional que se quiere transmitir. Suelen ser sonidos con una duración de varios segundos, que podemos reproducir en bucle durante toda la escena o parte de ella. En Dissident, por ejemplo, se creó un ambiente sonoro 201
Parte IV. Diseño de sonido
para cada uno de los “mundos” del videojuego: ciudad, desierto, selva, mundo helado. Cada ambiente estaba compuesto por diferentes capas que podían ser reproducidas de manera independiente para ajustarse a los cambios de ambiente que se producían dentro de un mismo mundo. – Foreground sounds: son los efectos sonoros asociados directamente a acciones del jugador o a objetos que aparecen en el espacio de juego. Estas acciones o efectos disparan la reproducción de estos sonidos. En Dissident encontramos un gran número y variedad de estos efectos, como puede verse en el cuadro 8.1 del apartado 8.3: disparos de armas, impactos de explosiones y disparos, arcos eléctricos, presencia de minas. – Interface sounds: son sonidos asociados directamente a la interfaz del juego y, por tanto, extradiegéticos. Pueden estar vinculados a acciones directas del jugador, cuando pulsa un botón o pasa el cursor por un determinado icono, pero también pueden ser sonidos asociados a notificaciones o cambios en el juego. En Dissident, además de todos los sonidos creados para los distintos menús de configuración y acceso del videojuego, se elaboraron efectos sonoros para acentuar determinados “logros” dentro del desarrollo de cada fase: recarga de vida, munición o coger ídolos.
8.3. Producción de sonido para videojuegos Como hemos expuesto al principio de este capítulo, el proceso de diseño de sonido para videojuegos mantiene bastantes similitudes con el desarrollado para producciones audiovisuales. En este apartado vamos a incidir particularmente en aspectos y procesos diferenciales que tienen lugar tanto en el proceso creativo como en la producción de los distintos elementos sonoros: diálogos, efectos sonoros y música. La principal diferencia, que afecta a los tres tipos de componentes sonoros, viene marcada por la necesidad de producir, masterizar y exportar cada elemento sonoro como un archivo individual. Si, por ejemplo, tenemos cinco versiones de un mismo sonido de disparo de arma, cada versión debe ser exportada y guardada como un archivo separado para que luego, en el proceso de programación e implementación, la reproducción de cada efecto pueda asignarse de forma independiente a cualquier evento o acción. Dentro de la terminología utilizada en el ámbito de producción de sonido para videojuegos, cada uno de estos archivos se denomina asset o audio asset. Esto obliga a establecer un sistema de catalogación, nombrado y descripción de los archivos que pueda ser compartido por los diseñadores de sonido y los programadores. Son los llamados audio assets list (“lista de assets de audio”). Para cada videojuego, o incluso para cada fase dentro de un videojuego (dependiendo de su complejidad), se crea un documento, habitualmente utilizando un programa de hoja de cálculo que contiene, al menos, la siguiente información: 202
El sonido para videojuegos
– Categoría del audio asset (música, efectos de sonido, voz). – Nombre del archivo, siguiendo una nomenclatura establecida y clara para todos los profesionales que van a utilizar este documento. – Descripción de la función del sonido. – Indicación acerca de si el sonido se debe reproducir en bucle o no (más adelante expondremos esta diferencia con más detalle). En el cuadro 8.1 se puede ver el listado de assets de audio de una de las fases de Dissident. En este caso, se creó un listado independiente para la música, por lo que el reproducido aquí muestra únicamente los efectos sonoros. La primera columna, “Tipología”, categoriza los distintos efectos según el elemento del videojuego que los genera: armas, impactos, amenazas, deslizador, movimientos. Se han añadido tres columnas con información adicional: una (“Descripción”) que describe, en caso de ser necesario, algún detalle de cada efecto de sonido; otra (“Repeticiones”) que indica el número de versiones-repeticiones de cada efecto, y finalmente una tercera (“Indicaciones”) que proporciona al programador indicaciones acerca de cómo debería programarse cada sonido en relación con el desarrollo del videojuego.
8.3.1. Diálogos y voces En los videojuegos encontramos dos tipos de diálogos. Por un lado, están aquellos que aparecen en las secuencias audiovisuales de introducción, también llamadas cinemáticas, de cada videojuego, previas a la carga de una determinada fase del juego, o como transición entre diferentes escenarios o momentos clave de este. En este caso, la grabación de las distintas líneas de diálogo se realiza de forma similar a como se harían en una producción de animación audiovisual: los actores que ponen las voces a los diferentes personajes graban las frases sin referencia de imagen. En el caso de tratarse de frases de diálogos entre personajes, en las que se requiere una interpretación por parte del actor, es muy frecuente que, además del sonido, se grabe la imagen de la cara del actor, con el propósito de utilizar sus expresiones faciales como referencia para la animación informática de esas mismas expresiones en los personajes del videojuego. El cuadro 8.2 reproduce el guion de la cinemática de arranque de Dissident, mostrando en la columna de la izquierda la descripción de referencia de los planos de animación y, a la derecha, las frases de la voz en off (voice over, o v.o., en inglés). En la webgrafía del capítulo 8: “Dissident vo” puedes escuchar la grabación de dicha voz en off en vacío (sin efectos sonoros ni música), mientras que el archivo “Dissident Opening Scene” muestra la secuencia completa con imagen, voz en off, efectos sonoros y música.
203
cuadro 8.1.
Lista de assets de audio para el videojuego Dissident.
Parte IV. Diseño de sonido
204
El sonido para videojuegos
Cuadro 8.2. Fragmento del guion de locución de la secuencia de arranque de Dissident Image
V.O.
A general view of the technological city of Qualdrom, tons of huge skyscrapers…
The city of Qualdrom. The largest colony of the greatest civilization ever known.
…turns out (focal lenght changes) to be the reflection on a windows where Eris stands, looking at the city.
I just call it…
Back to general view of the city (focal lenght changes again) Travelling down shows us different strata of the city: From huge skyscrapers and long highways to big factories where modern cars and droids are being made…
…Home I have always wondered, how do we manage to keep on evolving…
… Then, deep below, the lower districts of the city: grim suburbs where neon lights announce the presence of pubs and brothels …
…if our homeland has run out of resources?
And deeper, at the bottom, dirty subways and sewers… Where a human-size spider crawls.
…at the bottom of this glorious city.
Medium shoot. Eris stands on the rail of what seems to be a boat. The wind blows her air. Zoom out/travelling back reveals that in fact is a sandship (a flying “hover ship”) travelling throught Yldoon desert.
When I turned eighteen, I joined a Conqueror Squad. I needed to witness what was happening beyond the city walls.
There must be some secrets hidden…
Además de estas secuencias, con frecuencia es necesario grabar frases, expresiones o sonidos vocales de los distintos personajes para ser reproducidos en distintos momentos del desarrollo del videojuego. En este caso, se graban las frases independientes, que posteriormente serán programadas para ser reproducidas en respuesta a una acción o un efecto del juego. En Dissident, por la tipología del juego, no se programaron frases de ninguno de los personajes, pero sí las expresiones vocales de Ellie, la heroína protagonista, como reacción a los impactos recibidos, o a acciones como los saltos del deslizador en el que se desplaza. En la columna “Descripción” de la lista de assets de audio reproducida más arriba puede verse, en la asociación de cada asset de audio a un efecto o condición específicos. Por ejemplo, para representar el gesto de dolor de un impacto, se grabaron diferentes versiones, con diferentes intensidades, que se asociaron a los distintos niveles de energía del personaje protagonista, de modo que se pudiera utilizar este elemento sonoro como feedback adicional para el jugador sobre el estado de salud del personaje. En la webgrafía del capítulo 8: “Impacto normal” e “Impacto fuerte” permiten diferenciar estos matices.
205
Parte IV. Diseño de sonido
8.3.2. Efectos de sonido El proceso de creación de efectos de sonido sigue, inicialmente, los mismos procedimientos que en el trabajo para productos audiovisuales: grabación de efectos sala, uso de librerías, trabajo por capas. Una de las principales diferencias se encuentra en la distinción entre el modo de reproducción de los sonidos: hay efectos sonoros que se reproducen una sola vez cuando son disparados por alguna acción del videojuego (llamados one shot files) y otros que, una vez que son disparados, se reproducen en bucle hasta que otra acción o efecto manda la orden de detener la reproducción (llamados loop files). En el grupo de los primeros están todos aquellos sonidos, generalmente de corta duración, vinculados a efectos puntuales dentro de la acción del videojuego: pasos, disparos, apertura o cierre de puertas. Los sonidos reproducidos en bucle se vinculan a elementos que se mantienen durante un mayor tiempo en escena (fondos, ambientes, zumbidos y motores). Debido a que el tiempo que un jugador puede emplear en pasar cada fase es indeterminado, no podemos crear este tipo de efectos con una duración concreta. Dadas las limitaciones de recurso que acompañan a todos los videojuegos (tanto de espacio de almacenamiento como de potencia de proceso) es necesario utilizar esta técnica, que nos permite mantener un fondo sonoro durante un tiempo prolongado utilizando archivos de tamaño reducido. Para la preparación de estos loop files debemos prestar atención a dos aspectos: 1. Que la duración del sonido no sea tan breve como para que, al reproducirlo en bucle, se note el salto del principio al final y se genere una sensación rítmica no deseada. 2. Que en el punto en el que se produce el salto del final al comienzo del archivo no se escuche ningún click o pop. Para ajustar adecuadamente tanto la duración como el punto de cruce del bucle (el instante en que se pasa del final del archivo al comienzo para reproducirse cíclicamente) es necesario escuchar repetidamente el archivo varias veces, e ir modificando la longitud de este hasta lograr el efecto deseado. Para evitar los mencionados clicks y pops, es muy recomendable buscar lo que se denomina un cruce por cero (zero crossing) de la onda de sonido, es decir, un momento en que la amplitud de la onda sonora es cero, y en la gráfica podemos ver el paso de la onda sonora por el eje horizontal. La figura 8.1 muestra dos archivos cortados en diferentes momentos: en el primer caso, la edición se ha hecho justo en un cruce por cero de la onda, lo que facilitará que no se oigan ruidos no deseados. En el segundo caso, la onda no pasa por cero, lo que con toda probabilidad generará un ruido (click o pop) al reproducirse en bucle. En la webgrafía del capítulo 8: “Bucle malo” y “Bucle bueno” muestran el mismo sonido, editado en dos puntos diferentes, lo que da como resultado que en el primer caso se oigan clicks y en el segundo no. 206
El sonido para videojuegos
Figura 8.1. Ejemplos de edición de sonido, con y sin paso por cero de la onda en el momento de corte.
8.3.3. Música El uso de bucles o loops es también una práctica habitual (y necesaria) en la producción de música para videojuegos, por las mismas razones que lo es para los efectos de sonido más ambientales: es imposible definir el tiempo que un jugador puede emplear en pasar cada fase del juego. Sin embargo, repetir un mismo bucle musical de forma continua puede resultar excesivamente repetitivo, tedioso y puede, a su vez, provocar que el jugador termine silenciando el sonido del videojuego. Para evitar esta monotonía, se recurre a diversas técnicas: – Uso de diferentes archivos para su reproducción en bucle, con ligeras variaciones musicales en cada uno de ellos. De esta forma, se puede programar la combinación en la reproducción de estos bucles para añadir variabilidad a la música. En Dissident, la pieza musical de cada nivel constaba de entre 4 y 12 bucles con distintas variaciones rítmicas, melódicas o armónicas. – Uso de mezcla por capas o stems mixes (o simplemente stems). Consiste en la elaboración de diferentes arreglos-mezclas de los distintos instrumentos o secciones instrumentales de una pieza. Para ello, en lugar de exportar la mezcla completa de la pieza musical, se exportan distintos archivos correspondientes a las diversas secciones o partes instrumentales (capas o stems). Posteriormente, durante la reproducción de la música en el videojuego, pueden mutearse unas capas u otras, o recombinarse entre ellas para obtener distintas mezclas o distintos arreglos a partir de una misma pieza. Continuando con el ejemplo de la música de Dissident, cada pieza musical estaba compuesta por cuatro capas o stems: • • • •
Capa base: base rítmica (12 bucles más un bucle de cierre). Capa 1: melodía en la sección de cuerdas (4 bucles más un bucle de cierre). Capa 2: acompañamiento con arpa y salterio (4 bucles más un bucle de cierre). Capa 3: acordes de instrumento de sección de viento metal y golpes de percusión (4 bucles más un bucle de cierre). 207
208
NOTAS
CAPA 3
CAPA 3
CAPA 2
CAPA 1
LOOP 2 OK OK
LOOP 2 OK OK OK OK OK OK OK OK OK OK OK OK
CAPA 1 LOOP 3 OK OK OK
LOOP 3 OK OK OK OK OK OK OK OK OK OK OK OK
OK
LOOP 4
LOOP 4 OK OK OK OK OK OK OK OK OK OK OK OK
LOOP 5 OK OK OK OK OK OK OK OK OK OK OK OK
LOOPS BASE LOOP 7 LOOP 6 OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK OK
LOOP 8 OK OK OK OK OK OK OK
OK
LOOP 9 OK OK OK OK OK OK OK
Los loops base combinan bien con casi todos los loops de las distintas capas, salvo los que aparecen en blanco. Los loops de la capa 2, como son más incidentales, encajan bien en cualquier parte. La clave está en la combinación de las capas 1 y 3, que son los más melódicos/armónicos. Por eso hay una tabla independiente.
LOOP 1 LOOP 2 LOOP 3
LOOP 1 OK OK
LOOP 1 OK LOOP 1 LOOP 2 OK LOOP 3 OK LOOP 4 OK LOOP 1 OK LOOP 2 OK LOOP 3 OK OK LOOP 1 OK LOOP 2 OK LOOP 3 LOOP 1+2 OK LOOP 1+2+3 OK
cuadro 8.3. Indicaciones para el programador sobre las combinaciones entre las distintas capas o stems de bucles musicales
OK
LOOP 10 OK OK OK OK OK OK OK
OK
LOOP 11 OK OK OK OK OK OK OK
Parte IV. Diseño de sonido
El sonido para videojuegos
Junto con la carpeta de archivos que contenían los bucles de cada capa, se elaboró un documento (puede observarse en el cuadro 8.3), que indicaba las combinaciones posibles entre las capas, para que en la fase de implementación se pudiera programar la reproducción de las distintas combinaciones sin que hubiera disonancias armónicas o choques rítmicos indeseados. – Uso de distintos recursos para suavizar las transiciones entre bucles o entre distintas piezas musicales: para evitar cortes en el sonido o saltos bruscos en el paso entre un bucle y otro se suelen emplear los siguientes recursos: Fundido de salida (fade out): el sonido de un bucle comienza a desvanecerse cuando el siguiente bucle comienza a sonar. • Fundido cruzado (cross-fade): en este caso, el bucle saliente se va desvaneciendo y el bucle entrante va aumentando progresivamente su volumen hasta el nivel de referencia. • Stingers: se trata de un fragmento musical de corta duración que se superpone, como una capa adicional, a la música ya existente, justo en el momento de transición o de fundido de salida, precisamente para suavizar el cambio. Suele ser muy frecuente, por ejemplo, cuando el cambio entre un bucle y otro implica un cambio en el tempo de la música. • Bucles de cierre: son fragmentos que proporcionan un cierre musical natural a la pieza. Este evita tener que utilizar un fundido de salida, y transmite la sensación de que la pieza termina de forma más musical.
•
Al igual que ocurre con los efectos de sonido, la música de un videojuego también puede ser interactiva o adaptativa, especialmente gracias a todas estas técnicas y recursos que hemos comentado anteriormente. El uso de ciertos bucles o golpes musicales puede usarse de forma interactiva, y aparecer asociados a distintos efectos a lo largo de una partida. En Dissident, uno de los bucles musicales estaba constituido por un glissandi ascendente de la sección de trompas (una subida continua y progresiva de la nota musical emitida por el instrumento), y se programó para que se reprodujera cada vez que surgían dos torretas de cañones en el camino de nuestra protagonista. En la webgrafía del capítulo 8: “Torretas” está el que se utilizó como bucle. En otro momento, en que una serie de minas aparecían cortando el camino de Ellie, se programó un bucle con una melodía especial en el arpa que igualmente ponía de relieve ese efecto (en la webgrafía, capítulo 8: “Minas”). La adaptabilidad de la música se puede introducir mediante cambios melódicos o armónicos en los distintos bucles, o mediante la combinación de un mayor o menor número de capas o stems, en función de un parámetro como puede ser el nivel de energía del jugador. En Dissident se programó un filtro paso bajo que cortaba las frecuencias agudas, utilizando una frecuencia de corte cada vez más
209
Parte IV. Diseño de sonido
baja cuanto menor era el nivel de energía del protagonista. Así, el jugador tenía la sensación de que la música se apagaba cada vez más cuanto más débil estaba Ellie.
8.4. La implementación del audio Una vez que hemos elaborado los efectos de sonido, grabado o secuenciado la música y grabado igualmente las voces, todo el material debe ser preparado para implementarlo en el videojuego. Son varios los procesos a realizar o a verificar en esta preparación: – Exportar todos los elementos sonoros a archivos individuales, organizados en carpetas por categorías. Este sistema de carpetas debe contener todo el material sonoro (efectos, diálogos y música) que se vaya a utilizar a lo largo de todo el desarrollo del videojuego. – Editar y recortar con precisión los principios y finales de los archivos, con dos objetivos: evitar silencios o retardos al reproducir cada archivo, y reducir el tamaño de cada archivo a lo estrictamente necesario (por ejemplo, eliminando innecesarios silencios finales). – Equilibrar el volumen medio entre los diferentes archivos. Como veremos en el apartado siguiente, los parámetros de reproducción de cada sonido en cada momento del videojuego se programan en una fase posterior, a través del motor de audio del videojuego o usando un software de middleware. Aun así, es conveniente que los niveles relativos de cada efecto o música estén normalizados y equilibrados para reducir la cantidad de cambios que haya que realizar en la programación. Es muy frecuente normalizar todos los elementos sonoros por grupos (efectos por un lado, diálogos por otro y música en tercer lugar) para mantener esta coherencia. – Crear bucles “perfectos”, que no introduzcan clicks ni pops, ni se corten en un momento inadecuado. – Reflejar y detallar todo el material sonoro en la lista de assets de audio.
8.4.1. Programación de parámetros interactivos La programación de los parámetros sonoros que tienen relación directa con la interactividad del videojuego se suele realizar a través del motor de audio del propio software de desarrollo de videojuegos. Unity es, en la actualidad, el software de desarrollo de videojuegos más utilizado en la industria. Su motor de audio soporta una gran variedad de formatos de archivos de audio e integra una relativamente amplia variedad de plugins de audio que permiten programar multitud de parámetros de sonido de forma que respondan en tiempo real durante el desarrollo del juego.
210
El sonido para videojuegos
La configuración de audio de Unity se basa en dos componentes principales: la fuente de audio (audio source) y el receptor de audio (audio listener). El receptor de audio es, idealmente, el jugador, y está representado a través de un control de juego, junto con una cámara virtual que representa el punto de vista del jugador. Dada esta identificación con el jugador, solo puede existir un receptor de audio en cada proyecto de Unity. La fuente de audio, por otro lado, es cualquier elemento sonoro que aparece en el juego. Puede haber una gran cantidad de fuentes de audio, que pueden, a su vez, estar vinculadas (o no) a objetos en el videojuego. En estos casos, la distancia entre ese objeto y el jugador tendrá relación directa con, por ejemplo, el volumen de reproducción de ese elemento sonoro. Una forma de programar cuándo y cómo se reproduce un sonido se determina sencillamente por su asociación con un objeto. Cuando dicho objeto aparece en la escena del videojuego, el sonido vinculado a él comienza a reproducirse, y su volumen (y panorama, en el caso de ser un objeto que se mueva en el espacio virtual de la escena) dependerá de la distancia y posición de dicho objeto con respecto al jugador. Cuando se carga un sonido en Unity, el sistema lo trata, por defecto, como un elemento sonoro 3D. Esto quiere decir que se escuchará vinculado a una fuente de audio dentro de la escena tridimensional del juego, por lo que se tiene en cuenta, a la hora de reproducir el sonido, tanto su distancia como su posición con relación al receptor de audio. Esto constituiría una forma relativamente básica de programación de un parámetro interactivo de ese sonido. Adicionalmente, hay una serie de parámetros que podemos ajustar para cada fuente de audio que creemos en una determinada escena: – Mute: silencia temporalmente el sonido. – Bypass effects: desactiva los efectos o plugins que se hayan aplicado desde el motor de audio de Unity sobre un determinado sonido. – Play on awake: permite reproducir el sonido tan pronto como se ha cargado una escena. Una opción especialmente pensada para la reproducción de sonidos ambiente. – Loop: reproduce en bucle el archivo cargado. – Priority: permite definir el nivel de importancia de ese elemento sonoro con relación a otros. Cuando coexisten muchas fuentes sonoras simultáneamente puede darse la situación de que el sistema no sea capaz de reproducirlas todas. Por ello, podemos asignar un valor entre 0 (máxima importancia) y 256 (mínima importancia) a cada fuente sonora. – Volume: es el volumen máximo que podemos asignar a una fuente de a udio: 1 es el volumen más alto, y 0 silencia el sonido. – Pitch: permite modificar la altura tonal de un sonido durante su reproducción, modificando la velocidad de reproducción. A mayor velocidad de reproducción, mayor será la altura tonal (pitch).
211
Parte IV. Diseño de sonido
Sin embargo, para poder programar la reproducción de un sonido, o la modifi cación de algunos de los parámetros sonoros de este, suele ser necesario escribir unas instrucciones específi cas (scripts), una serie de comandos y líneas de código que proporcionen las indicaciones necesarias para obtener el efecto deseado. El cuadro 8.4 muestra un fragmento de script de audio en el que se programa un sonido que se dispara cuando un objeto choca con un muro (el script completo es parte del tutorial de programación de audio que Unity ofrece, y que puede verse en https://unity3d.com/es/learn/tutorials/topics/audio/sound-effects-scripting). cuadro 8.4. Fragmento de script de programación de un sonido que se dispara cuando un objeto choca contra un muro
8.4.2. El audio middleware. Proceso de trabajo Como acabamos de ver, la implementación y programación del sonido de un videojuego puede llegar a tener un elevado nivel de complejidad, en especial cuanto mayor es el número de elementos sonoros o de variables que condicionan su reproducción o la modifi cación de sus parámetros. Por otro lado, una vez que el diseñador de sonido entrega al programador todo el sonido, convenientemente organizado en carpetas y con su correspondiente lista de assets, el ajuste fi nal de 212
El sonido para videojuegos
cómo se va a escuchar el videojuego queda fuera de su control. En el mejor de los casos, el programador consultará al diseñador de sonido acerca del ajuste de ciertos parámetros o le facilitará muestras de trabajo para que este opine y sugiera modificaciones, lo que a su vez incrementa el trabajo del programador. Para facilitar la tarea del programador, y a la vez proporcionar más control sobre el resultado sonoro final al diseñador de sonido, surgen los programas categorizados como audio middleware. Básicamente, un middleware es un programa que permite la comunicación y el intercambio de información con otras aplicaciones. El audio middleware es una aplicación que permite que el diseñador de sonido se “comunique” con la aplicación de programación del videojuego (por ejemplo, Unity), sin tener que utilizar ningún lenguaje de programación, sino utilizando la interfaz gráfica del propio middleware para programar todos los parámetros de reproducción y modificación del sonido que sean necesarios. Pongamos un ejemplo sacado de nuestro videojuego, Dissident. Para sonorizar el deslizador de Ellie se crearon 4 elementos sonoros diferentes: 1. 2. 3. 4. 5.
Deslizador en reposo (para el comienzo de cada fase). Deslizador en movimiento. Salto del deslizador. Salto acrobático del deslizador. Desplazamiento lateral del deslizador.
A partir de todo el material sonoro creado, el programador tendría que escribir los scripts correspondientes para programar en qué momento, bajo qué condiciones y con qué parámetros tendría que ser reproducido cada uno de los sonidos. Todo ello, además del tiempo necesario para llevar a cabo este trabajo, tendría que hacerlo probando a disparar el videojuego para ver el resultado en tiempo real. La primera gran diferencia de utilizar un middleware para ejecutar estas tareas es que el trabajo es realizado por el propio diseñador de sonido, que puede así controlar los parámetros sonoros de cada elemento aplicando su criterio profesional. Por otro lado, la interfaz gráfica del middleware es muy similar a la de cualquier DAW (figura 8.2), lo que facilita al diseñador de sonido la realización de los ajustes, el manejo de archivos, la automatización de parámetros. En este caso, el programador y el diseñador de sonido únicamente tendrían que ponerse de acuerdo en el uso de ciertos parámetros, denominados hooks (“ganchos”), que son los parámetros que, dentro del videojuego, se vinculan al sonido. Un hook puede ser, por ejemplo, un salto de un personaje, un descenso del nivel de energía del mismo o la aparición de un nuevo objeto. Cada uno de estos hooks tiene su propio código y sus propios parámetros dentro de la programación del videojuego. 213
Parte IV. Diseño de sonido
Figura 8.2. Interfaz gráfica del middleware FMOD Studio.
Continuando con nuestro ejemplo, tendríamos tres hooks: 1. Desplazamiento: donde tendríamos la posibilidad de “no desplazamiento” o “desplazamiento”. 2. Salto: donde tendríamos la posibilidad de “salto normal” o “salto acrobático”. 3. Deslizamiento lateral. Una vez cargados los efectos de sonido en las pistas necesarias del middleware, se crearían los hooks, y se automatizarían los parámetros de reproducción de cada archivo en función del ajuste de cada hook. De esta forma, automatizaríamos, por ejemplo, el efecto de sonido “deslizador en movimiento” para que no se reprodujera cuando el hook “desplazamiento” está en valor 0, y sí cuando ese mismo parámetro está en valor 1. Por otro lado, podríamos combinar ese sonido con el sonido “deslizamiento lateral” para generar una transición fluida entre los dos elementos cuando el deslizador se desplaza progresivamente a derecha o izquierda. Para ello, programaríamos una curva de volumen descendente en el sonido “deslizador en movimiento” vinculada al hook “deslizamiento lateral”. Es decir, cuando este parámetro se incrementa (y el deslizador se mueve desde su posición central a cualquiera de los dos extremos, izquierdo o derecho, de la escena), el volumen de este sonido decrece progresivamente. Del mismo modo, programaríamos una curva de volumen ascendente en el sonido “deslizamiento lateral”, vinculada al mismo hook. El resultado sería una transición o crossfade entre ambos sonidos, controlado por el propio movimiento del deslizador. Una vez programado, podemos probar el efecto resultante simplemente moviendo los controles de cada hook como si se estuviera reproduciendo en el mo214
El sonido para videojuegos
mento de jugar. Adicionalmente, muchos middleware incorporan la opción de funcionar como plugin de Unity (o de otras plataformas de desarrollo de videojuegos). Una vez que hemos realizado toda la programación en el middleware, este se “conecta” como plugin a la plataforma de desarrollo (por ejemplo, Unity). Se vinculan los hooks entre el middleware y la plataforma de desarrollo, y se lanza la acción desde esta última. La plataforma envía la información de la modificación de cada hook al middleware, desde donde se reproduce en tiempo real, a la vez que se juega. De esta forma, se pueden hacer todo tipo de pruebas en un entorno lo más similar al entorno de juego real, y se pueden, por tanto, introducir así los cambios necesarios directamente en el middleware. En un mismo proyecto dentro de nuestro middleware podemos cargar toda la estructura de carpetas y archivos que hayamos creado para un videojuego, y desarrollar toda la programación de estos. Una vez programados y realizados los ajustes finales, podemos construir (build) los bancos de programación de sonido, archivos que contienen todos los ajustes de programación para cada archivo, y que podremos cargar directamente en la plataforma de desarrollo del videojuego. Como fase final, toda la información procedente de la programación de audio se integra con el resto de la programación del videojuego para generar la aplicación final o archivo de instalación final que servirá para instalar y cargar el juego en cada plataforma o dispositivo. Ahora ya cada elemento de sonido responderá a las acciones del jugador y a los distintos eventos previamente programados en el propio videojuego para conseguir que la experiencia de juego sea más inmersiva y rica.
215
Parte IV. Diseño de sonido
Preguntas de autoevaluación 1. En el contexto de narración sonora dentro de un videojuego: � a) El sonido dinámico es parte del sonido interactivo. � b) El sonido adaptativo es parte del sonido dinámico. � c) El sonido interactivo es parte del sonido adaptativo.
2. Los foreground sounds: � a) Son sonidos con duración variable que podemos reproducir en bucle. � b) Son efectos sonoros asociados directamente a acciones del jugador. � c) Son sonidos asociados directamente a la interfaz del juego.
3. Un audio asset es: � a) Un tipo de efecto sonoro que responde a la dinámica según una condi-
ción del juego. � b) Cada uno de los archivos de audio que puede ser asignado a un efecto dentro del juego. � c) Un bucle de música que se reproduce cíclicamente durante una determinada fase del juego. 4. En la creación de un bucle de audio, el cruce por cero hace referencia: � a) Al instante de la escena del juego en que hay que insertar el efecto. � b) Al volumen con el que debe comenzar la reproducción del bucle. � c) A un instante en que la amplitud de la onda sonora es cero.
5. En el proceso de implementación de audio, ¿qué orden permite reproducir un sonido tan pronto como se ha cargado una escena?: � a) Priority assignment. � b) Play on awake. � c) Stinger sound.
216
Solucionario
Capítulo 1 1. a b c 2. a b c
3. a b c 4. a b c
5. a b c
3. a b c 4. a b c
5. a b c
3. a b c 4. a b c
5. a b c
3. a b c 4. a b c
5. a b c
3. a b c 4. a b c
5. a b c
Capítulo 2 1. a b c 2. a b c
Capítulo 3 1. a b c 2. a b c
Capítulo 4 1. a b c 2. a b c
Capítulo 5 1. a b c 2. a b c
217
Bibliografía recomendada
Alten, S. R. (1994): El manual del audio en los medios de comunicación. Guipúzcoa, Escuela de Cine y Vídeo. Altman, R. (1992): Sound theory / sound practice. Nueva York, Routledge. Amyes, T. (1992): Técnicas de postproducción de audio en vídeo y film. Madrid, IORTV. Belton, J. (1992): Sound Theory, Sound Practice. Nueva York, Rick Altman Ed. Borwick, J. (1996): Micrófonos. Tecnología y aplicaciones. Guipúzcoa, Escuela de Cine y Vídeo. Chion, M. (1993): La audiovisión. Barcelona, Paidós. Chion, M. (1999): El sonido. Barcelona, Paidós. Collins, K. (2008): Game Sound: An Introduction to the History, Theory, and Practice of Video Game Music and Sound Design. Cambridge (Massachussets), The MIT Press. Cowie, P. (2001): El libro de Apocalypse Now. Ediciones Paidós, Barcelona. Flueckiger, B. (2002): Sound design: Die virtuelle klangwelt des films. Marburg. Goldstein, E. B. (2006): Sensación y percepción. Madrid, Thompson-Paraninfo. González García, M.I., López Cerezo, J.A. y Luján, J.L. (1996), Ciencia, Tecnología y sociedad: Una introducción al estudio social de la ciencia y la Tecnología. Tecnos, Madrid. Holman, T. (2000): 5.1 surround sound. Up and running. Boston, Focal Press. Holman, T. (2002): Sound for film and television. Boston, Focal Press. Horowitz, S. y Looney, S. (2014): The Essential Guide to Game Audio. London, Focal Press. Lack, R. (1999): La música en el cine. Madrid, Cátedra. LoBrutto, V. (1994): Sound-on-film: Interviews with creators of film sound. Connecticut, Praeger Publisher. McAdams, S. (1996): “Audition: cognitive psychology of music”, en Llinas, R. y P. Churchland (eds.): The mind-brain continuum, pp. 251-279. Cambridge (Massachussets), MIT Press. McAdams, S. (1993): Thinking in sound: the cognitive psychology of human audition. Oxford, Oxford University Press. Rodríguez Bravo, Á. (1998): La dimensión sonora del lenguaje audiovisual. Barcelona, Paidós. 219
Teoría y técnica del sonido Roselló Dalmau, R. (1981): Técnica del sonido cinematográfico. Madrid, Forja. Rumsey, F. y McCormick, T. (2007): Sonido y grabación. Madrid, IRTV. Sonnenschein, D. (2001): Sound Design: The Expressive Power of Music, Voice and Sound Effects in Cinema. San Francisco, Michael Wiese Productions. Stevens, R. y Raybould, D. (2011): The Game Audio Tutorial: A Practical Guide to Sound and Music for Interactive Games. Oxford, Focal Press. Weaver, J.M. (1993). “The art of soundtrack design”, en Tom Kenny (ed.): Sound for Picture, págs. 2-6. California, Ed. Mixbooks. Weiss, E. y Belton, J. (ed.) (1985): Film Sound. Theory and Practice. Nueva York, Columbia University Press. Weiss, E. (1982): The silent scream: Alfred Hitchcock’s soundtrack. Rutherford, Fairleigh, Dickinson University Press. Zunzunegui, S. (1995): Pensar la imagen. Cátedra, Madrid.
220