259 47 7MB
Italian Pages [378] Year 2014
Imparare la Tecnica del Suono Indice L’autore Prefazione Download suoni di esempio 1. Fisica del suono 1.1. Introduzione 1.2. Cos’è il suono 1.3. Propagazione del suono nell’aria 1.4. Proprietà del suono 1.4.1. Frequenza 1.4.2. Periodo 1.4.3. Lunghezza d’onda 1.4.4. Ampiezza 1.4.5. Fase 1.4.6. Velocità del suono 1.5. Pressione e intensità delle onde sonore 1.6. Combinazione di sinusoidi pure 1.7. Onde stazionarie 1.8. Risonanza 1.8.1. Oscillatore semplice 1.8.2. Oscillatore smorzato 1.8.3. Oscillatore forzato: risonanza 1.8.4. Il suono come fenomeno oscillatorio 1.9. Interazione del suono con gli ostacoli 1.9.1. Riflessione 1.9.1.1. Riflessioni all’interno di una stanza 1.9.2. Rifrazione 1.9.2.1. Rifrazione dovuta alla densità del mezzo 1.9.2.2. Rifrazione dovuta alla rigidità del mezzo 1.9.2.3. Rifrazione dovuta alla variazione di temperatura 1.9.3. Diffrazione 1.9.4. Assorbimento 1.10. Inviluppo ADSR 1.11. Effetto doppler 1.12. Classificazione delle onde 2. Analisi armonica del suono 2.1. Introduzione 2.2. Definizione di ottava 2.3. Contenuto armonico di un suono 2.4. Fisica delle armoniche 2.5. Analisi armonica di Fourier 2.6. Rappresentazione tempo/frequenza 2.7. Forme d’onda elementari 2.7.1. Sinusoide pura 2.7.2. Onda quadra 2.7.3. Onda a dente di sega 2.7.4. Onda triangolare 2.8. Fisica ideale e fisica reale 2.9. Distorsione 2.10. Teoria delle formanti 3. Psicoacustica 3.1. Introduzione 3.2. L’orecchio umano 3.2.1. Orecchio esterno 3.2.1.1. Frequenza di risonanza del condotto uditivo 3.2.2. Orecchio medio 3.2.3. Orecchio interno 3.3. Curve isofoniche 2
3.3.1. Loudness 3.3.2. Descrizione delle curve isofoniche 3.3.2.1. Soglia di udibilità (0 phons) 3.3.2.2. Soglia del dolore (120 phons) 3.4. Psicoacustica 3.4.1. Battimenti 3.4.2. Effetto Haas 3.4.3. Stereofonìa 3.4.4. Fusione binaurale 3.4.5. Volume e frequenza percepita 3.4.6. Mascheramento 3.4.7. Ambiente 3.4.8. Soppressione della colorazione 3.4.9. Ricostruzione della fondamentale 3.4.10. Effetto cocktail party 3.5. Illusioni acustiche 3.5.1. Scala di Shepard 3.5.2. Illusione dell’ottava 3.6. Localizzazione di una sorgente sonora 3.6.1. Differenze di tempo (fase) 3.6.2. Differenze di ampiezza 3.6.3. Differenze nel contenuto armonico 3.7. Lo spettro delle frequenze udibili 4. Fondamenti di elettronica 4.1. Introduzione 4.2. L’elettricità 4.3. Componenti elettronici 4.3.1. Resistenza 4.3.2. Condensatore 4.3.3. Induttore 4.3.4. Impedenza 4.3.5. Diodo 4.3.6. Transistor 4.3.7. Amplificatore operazionale 4.3.8. Trasformatore 4.4. Legge di Ohm 4.5. Potenza 4.6. Forza elettromotrice 4.7. Circuiti elettrici 4.8. Impedenza di un circuito 5. Decibels 5.1. Introduzione 5.2. Logaritmi e Decibel 5.3. I decibel nel mondo dell’audio 5.4. Legge della distanza inversa 5.5. Combinazione di sorgenti sonore 5.6. Grandezze elettriche espresse in decibel 5.6.1. dBm: potenza 5.6.2. dBu: tensione 5.6.3. dBV: tensione 5.6.4. dBfs 5.7. Standard Operating Level 5.8. Dynamic Range 6. Strumenti di misura del suono 6.1. Introduzione 6.2. Misure del livello sonoro 6.2.1. Misuratori di pressioni sonore: fonometri 6.2.2. Misuratori di segnale audio 6.2.2.1. Vu Meters 6.2.2.2. PPM Meters 6.2.2.3. True Peak Meters 3
6.3. Correlatori di fase 6.4. Misuratori dello spettro di frequenza 6.4.1. Analizzatore di spettro 6.4.2. Sonogramma 7. Equalizzatori e Filtri 7.1. Introduzione 7.2. Azione di EQ e Filtri sullo spettro di frequenza 7.3. Equalizzatori 7.3.1. Equalizzatore a campana 7.3.2. Equalizzatore a scaffale 7.3.3. Equalizzatori parametrici 7.3.4. Equalizzatore grafico 7.3.5. Equalizzatori attivi e passivi 7.4. Filtri 7.4.1. Filtri Passa Basso e Passa Alto 7.4.1.1. Pendenza 7.4.2. Filtro passa banda e a reiezione di banda 8. Effetti - FX 8.1. Introduzione 8.2. Effetti/FX 8.3. Processori di segnale 8.4. Riverbero 8.4.1. Classificazione dei riverberi 8.4.2. Parametri di controllo di un riverbero 8.4.3. Riverberi a convoluzione 8.5. Flanger 8.6. Phaser 8.7. Chorus 8.8. Delay 8.9. Time stretching e Pitch shifting 8.10. Pitch Shifter 8.11. Tremolo 8.12. Vibrato 8.13. Distorsore 8.14. Exciter 8.15. Wah-Wah 8.16. Vocoder 9. Processori di dinamica 9.1. Introduzione 9.2. Compressore 9.2.1. Sidechain 9.2.2. Curve di compressione 9.2.3. Stereo Link 9.2.4. Risposta del compressore al segnale di ingresso 9.2.5. Compressore con punto di rotazione 9.2.6. Compressore multibanda 9.3. Utilizzo del compressore 9.3.1. Compressione dell’intero mix 9.3.2. Modifica dell’inviluppo di un segnale 9.3.3. Parallel Compression 9.4. De-esser 9.5. Limiter 9.6. Gate 9.6.1. Utilizzo del Gate 9.6.1.1. Rinforzo della cassa di una batteria con un oscillatore 9.7. Expander 10. Connessioni, cavi e connettori 10.1. Introduzione 10.2. Connessioni Ottiche 10.3. Connessioni elettriche 10.3.1. Connessioni elettriche sbilanciate 10.3.2. Connessioni elettriche bilanciate 4
10.3.3. Distorsione sulle connessioni elettriche 10.4. Connessioni digitali 10.4.1. S/PDIF 10.4.2. AES/EBU 10.4.3. ADAT 10.4.4. USB 10.4.5. FireWire 10.4.6. Thunderbolt 10.4.7. MADI 10.4.8. Ethernet 10.5. Connettori 10.5.1. Connettori per connessioni ottiche 10.5.2. Connettori per connessioni elettriche 10.5.3. Connettori per connessioni dati 11. Sistemi di diffusione sonora 11.1. Introduzione 11.2. Il principio di funzionamento 11.3. Frequenza di risonanza di un altoparlante 11.4. Efficienza di un altoparlante 11.4.1. Altoparlanti a sospensione pneumatica 11.4.2. Altoparlanti a tromba acustica 11.5. Sensibilità e potenza massima 11.5.1. Sensibilità di un altoparlante 11.5.2. Potenza massima applicabile 11.6. Impedenza di un altoparlante 11.7. Risposta in frequenza di un diffusore 11.8. Diagramma polare di un altoparlante 11.9. Tipi di altoparlanti 11.10. Altoparlanti piezoelettrici 11.11. Diffusori 11.11.1. Il crossover 11.12. Tipi di cassa acustica 11.12.1. Bass reflex 11.12.2. Cono passivo 11.12.3. Tromba retroattiva 11.13. Cuffie 12. Microfoni e tecniche di microfonaggio 12.1. Introduzione 12.2. Microfono elettrodinamico 12.3. Microfono a condensatore 12.4. Microfono a cristallo piezoelettrico 12.5. Microfoni a nastro (ribbon) 12.6. Microfoni a elettrete 12.7. Diagramma polare di un microfono 12.8. Microfoni omnidirezionali 12.9. Microfoni unidirezionali 12.10. Microfoni a gradiente di pressione 12.11. Microfoni a condensatore a doppio diaframma 12.12. Microfoni PZM - Pressure Zone Microphones 12.13. Microfoni speciali: shotgun e parabolico 12.13.1. Shotgun 12.13.2. Parabolico 12.14. Effetto di prossimità 12.15. Grandezze elettriche specifiche dei microfoni 12.15.1. Rumore interno 12.15.2. Distorsione 12.15.3. Sensibilità 12.16. Tecniche di microfonaggio stereo 12.16.1. Tecniche di microfonaggio stereo: Microfoni coincidenti 12.16.2. Tecnica Blumlein 12.16.3. Tecnica XY 12.16.4. Tecnica MS/Mid Side 5
12.17. Tecniche di microfonaggio stereo: Microfoni vicini 12.17.1. Tecnica ORTF 12.17.2. Tecnica NOS 12.17.3. Tecnica OSS 12.18. Tecniche di microfonaggio stereo: Microfoni lontani 12.18.1. Tecnica AB 12.18.2. Decca Tree 12.19. Microfonaggio di strumenti musicali 13. Registratori Analogici 13.1. Introduzione 13.2. Funzionamento dei registratori analogici 13.3. Modalità di funzionamento 13.3.1. Modalità Input 13.3.2. Modalità Repro 13.3.3. Modalità Sync 13.4. Particelle magnetiche 13.5. Grandezze caratteristiche del magnetismo 13.6. Caratteristica di trasferimento di un nastro magnetico 13.7. Ciclo di Isteresi 13.8. Isteresi di un nastro magnetico in movimento 13.9. Corrente di bias 13.10. Messa a punto 13.11. Considerazioni finali 14. Lo studio di registrazione 14.1. Introduzione 14.2. Schema di uno studio di registrazione 14.3. Il mixer analogico da studio 14.3.1. I canali 14.3.2. Gruppi 14.3.3. Master section 14.3.3.1. Master fader 14.3.3.2. Aux send master 14.3.3.3. Aux return master 14.3.3.4. Oscillatore 14.3.3.5. Controllo del sistema SOLO 14.3.3.6. Talkback 14.3.3.7. Master monitor 14.3.3.8. Status consolle 14.4. Il rack effetti (outboards) 14.5. La PatchBay 14.6. Il registratore 14.7. Il computer 14.8. Sistemi di ascolto nel recording studio 15. Operare nello studio di registrazione 15.1. Introduzione 15.2. La registrazione 15.2.1. Introduzione 15.2.2. Configurazione dello studio per la registrazione 15.2.3. Utilizzo delle mandate ausiliarie in fase di registrazione 15.2.4. Il bouncing 15.3. Il missaggio 15.3.1. Introduzione 15.3.2. Configurazione dello studio per il missaggio 15.3.3. Utilizzo dei gruppi in fase di missaggio 15.3.4. Utilizzo delle mandate ausiliarie in fase di missaggio 15.3.5. Tecniche di mixing 15.3.5.1. Differenza tra un buon suono e la sua collocazione nel mix 15.3.5.2. Equilibrio tra i volumi 15.3.5.3. Dinamiche coerenti tra tutti i suoni componenti 15.3.5.4. Spazializzazione panoramica delle sorgenti sonore 15.3.5.4.1. Effetto Haas e spazializzazione stereo di un suono mono 15.3.5.5. Gestione dei piani sonori 6
15.3.5.6. Filtraggio 15.3.5.7. Equalizzazione 15.3.5.8. Utilizzo dei riverberi 15.3.5.9. Modifica dell’inviluppo dei suoni 15.3.5.10. Dinamica uniforme 15.3.5.11. Mono compatibilità 15.3.5.12. Il Mixing “creativo” 15.3.6. Ascolto di un mix 15.4. Calibrazione dei livelli 15.5. Il Mastering 15.5.1. Operazioni effettuate in fase di mastering 15.5.2. Interventi sul suono in fase di mastering 15.5.3. La Loudness War 16. Amplificazione 16.1. Introduzione 16.2. La catena di amplificazione 16.3. L’amplificatore 16.4. Potenza erogata 16.5. Curva di amplificazione 16.6. Distorsione da saturazione 16.7. Altre cause di distorsione 16.8. Rendimento di un amplificatore 16.8.1. Classi di funzionamento 16.9. Risposta in frequenza 16.10. Impedenza di ingresso e di uscita 16.11. Caratteristiche degli ingressi 16.12. Caratteristiche delle uscite 16.13. DI Box 17. Acustica degli ambienti 17.1. Introduzione 17.2. Ambienti ristretti 17.3. Modi di risonanza 17.4. Comportamento dei modi assiali 17.5. Considerazioni sui modi di risonanza all’interno di un ambiente chiuso 17.6. Tempo di riverbero di un ambiente 17.7. Coefficiente di assorbimento 17.8. Coefficiente di riflessione 17.9. Tecniche di assorbimento del suono 17.10. Pannelli acustici passivi 17.11. Bass Traps 17.12. Diffusione 17.13. Criteri per la progettazione di studi di registrazione 17.14. Sala di regia LEDE 17.15. Trattamento acustico di un ambiente 17.16. Ambienti estesi 17.17. Ambienti estesi: tempo di riverberazione 17.18. Assorbimento 17.19. Assorbimento dell’aria 17.20. Effetti indesiderati 18. Rumore 18.1. Introduzione 18.2. Rumore a banda stretta 18.2.1. HVAC 18.2.2. Emissioni elettromagnetiche 18.2.3. Interferenze 18.2.4. Vibrazioni 18.3. Rumore a banda larga 18.3.1. Rumore termico 18.3.2. Rumore bianco 18.3.3. Rumore rosa 18.3.4. Rumore rosso (Browniano) 18.4. THD 7
18.4.1. Calcolo del THD 18.4.2. Calcolo del THDF 18.4.3. Calcolo del THD+N 18.5. Riduzione del rumore 18.5.1. Riduzione del rumore a banda stretta 18.5.2. Riduzione delle interferenze elettromagnetiche 18.5.3. Riduzione del rumore a banda larga 18.6. Sistemi di riduzione del rumore 18.7. Dolby A 18.8. Riduzione del rumore: Altri sistemi Dolby 18.8.1. Dolby B 18.8.2. Dolby C 18.8.3. Dolby SR 18.8.4. Dolby S 18.8.5. Dolby HX / HX Pro 18.8.6. Altri sistemi di NR 19. Introduzione all’Audio digitale 19.1. Introduzione 19.2. Algebra binaria 19.3. Campionamento 19.4. Quantizzazione 19.5. Rumore di quantizzazione 19.6. Dinamica digitale 19.7. Distorsione digitale / Clipping 19.8. Esempi audio sul campionamento 19.8.1. Frequenza di campionamento 19.8.2. Bit di quantizzazione 19.9. Conversione Digitale/Analogico 19.10. Schema complessivo dell’operazione di campionamento 19.11. Manipolazione del segnale Audio digitale 19.12. Simulazione di effetti analogici 19.13. Hard Disc Recording 19.14. Registrazione e mixaggio digitale 19.15. Caratteristiche della scheda audio 20. Approfondimenti sull’Audio Digitale 20.1. Introduzione 20.2. Buffer e Latenza 20.3. Sistemi operativi 20.3.1. Linux 20.3.2. Windows 20.3.3. MacOS 20.4. Codifica dei campioni audio 20.4.1. Notazione binaria in complemento a 2 20.4.2. Notazione binaria in 32 bit in virgola mobile 20.4.3. Confronto tra notazione PCM e 32-bit in virgola mobile. 20.5. Dinamica e bit depth: 16 bit vs 24 bit 20.6. Dithering 20.7. Il dithering digitale 20.7.1. Conversione di bit depth 20.7.2. Normalizzazione 20.7.3. Algoritmi di dithering 20.8. Compressione del segnale audio 20.9. Compressione di di tipo lossy 20.10. Jitter 20.11. Oversampling 20.12. Trasformata discreta di Fourier e FFT 21. Supporti sonori digitali 21.1. Introduzione 21.2. Supporti digitali magnetici 21.2.1. Supporti a testina rotante 21.2.2. Supporti a testina fissa 21.3. Supporti ottici 8
21.3.1. Tracking 21.3.2. Stampa di CD 21.3.3. Formato dei dati su CD 21.3.4. Governing Books 21.3.5. Il DVD 21.3.6. Il Blu-ray Disc 21.4. Supporti magneto-ottici 21.4.1. Il MiniDisc 22. Il protocollo MIDI 22.1. Introduzione 22.2. Principio di funzionamento 22.3. Specifiche del protocollo MIDI 22.4. Configurazioni di sistemi MIDI 22.4.1. Daisy chaining 22.4.2. Daisy chaining con un sequencer 22.4.3. Configurazione con MIDI Thru Splitter Box 22.4.4. Interfacce estese 22.5. Messaggi MIDI 22.5.1. Channel voice messages 22.5.2. Channel mode messages 22.5.3. System messages 22.5.3.1. System common 22.5.3.2. System real time 22.5.3.3. System Exclusive 22.6. MIDI Time Code 22.7. General MIDI 23. Sincronizzazione 23.1. Introduzione 23.2. Differenza timecode e clock 23.3. Il timecode SMPTE 23.3.1. La registrazione del segnale 23.3.2. Il formato dei frame 24. Suono live 24.1. Introduzione 24.2. Descrizione dell’attrezzatura 24.3. Catena del mixer di palco 24.4. Catena del mixer di sala 24.5. Il mixer da live 24.6. Rinforzo sonoro: torri di ritardo 24.7. Messa a punto dell’attrezzatura 24.8. Il soundcheck 24.9. Il concerto 24.10. L’effetto Larsen 25. Audio 3D 25.1. Introduzione 25.2. Il sistema Surround 25.3. Dolby motion picture matrix encoder 25.3.1. Codifica 25.3.2. Decodifica 25.3.3. Caratteristiche della codifica Dolby Motion Picture Matrix 25.4. Dolby prologic e dolby digital 25.4.1. Missaggio in Dolby Pro-Logic con un normale mixer 25.5. Riepilogo dei principali sistemi Surround 25.5.1. Mono 25.5.2. Stereo 25.5.3. Dolby Surround 25.5.4. Dolby Pro Logic 25.5.5. Dolby Digital 5.1 25.5.6. Dolby Digital Ex 25.5.7. DTS 25.5.8. DTS ES 25.6. Tecniche di registrazione e riproduzione binaurale 9
25.6.1. Tecniche di registrazione binaurale 25.6.2. Tecniche di riproduzione binaurale 25.7. Q-Sound 25.8. RSS - Roland Sound Space system 25.9. Ambisonics 26. Radiofrequenza 26.1. Introduzione 26.2. Onde elettromagnetiche 26.3. Trasmissione e ricezione di onde elettromagnetiche 26.4. Modulazione di ampiezza 26.5. Modulazione di frequenza 26.6. Modulazione di fase 26.7. Lo spettro delle radiofrequenze 26.8. Radiomicrofoni 26.9. Stadio di trasmissione 26.10. Stadio di ricezione 26.11. Antenne 26.12. Vantaggi e svantaggi dei radiomicrofoni A. Formati File Audio Digitali A.1. Formati audio non compressi A.2. Formati audio compressi di tipo lossy A.3. Formati audio compressi di tipo loseless B. Formati Audio Plugins B.1. Audio plugins: formati principali C. Grandezze fisiche
10
Imparare la Tecnica del Suono Marco Sacco Diritto d’autore © 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2014, 2015 Lambda Edizioni 2014
11
L’autore Marco Sacco si è laureato in Ingegneria delle Telecomunicazioni presso l’Università La Sapienza di Roma presentando una tesi sulla compressione di immagini[1]. Nel 2001 ha conseguito il diploma di specializzazione in Ingegneria del suono presso il college SAE - School of Audio Engineering di Londra. Ha collaborato per alcuni anni con alcuni service audio e studi di registrazione e scritto articoli per riviste specializzate nel settore audio. Negli anni successivi ha svolto un’attività parallela nel settore informatico lavorando su piattaforme Open Source per aziende aventi una consolidata presenza sul web, gestendo sistemi ad alto traffico con un elevato numero di utenti. Nel 2003 ha scritto e messo online su Internet un corso di Ingegneria del suono dal titolo Corso Audio Multimediale, lanciando anche il portale www.audiosonica.com, interamente dedicato all’Ingegneria del suono e tradotto anche in inglese e francese. Il Corso Audio Multimediale verrà in seguito adottato da diverse Scuole, Conservatori e Università. Nel 2005 ha pubblicato la prima edizione del libro Imparare la Tecnica del suono. Nel 2009 ha tradotto il Corso Audio Multimediale in inglese e francese. È docente di Tecnica del Suono presso diverse strutture didattiche nel settore audio. Nel Giugno 2010 è co-fondatore di Fonderie Sonore, una Scuola per Produttori di Musica Elettronica con sede in Roma, dove è responsabile della sezione Pro Audio e svolge il ruolo di Responsabile informatico. Dal 2011 insegna Tecnica del Suono presso il CESMA di Lugano, unico istituto della Svizzera italiana preparatore agli esami per il Certificato Federale di Tecnico del Suono, diploma che abilita all’esercizio della professione in Svizzera dall’anno 2003.
[1] Titolo della tesi: Realizzazione di un sistema software per la compressione di immagini ecografiche mediante reti neurali
e wavelets e confronto di prestazioni.
12
Prefazione La tecnica del suono è una materia molto vasta e in continua evoluzione. Essa comprende tutta la tecnologia impiegata per il trattamento del segnale sonoro. Il libro dunque illustra nel dettaglio le macchine e le tecniche impiegate a questo scopo nei diversi contesti lavorativi: recording studio, postproduzione, live. Nella stesura del testo si è cercato di dissezionare i concetti di maggiore complessità in una serie di passi più semplici evitando di dare nozioni per scontate e di saltare passaggi logici nei ragionamenti. Tuttavia, data la complessità di certi argomenti e la necessità di un riscontro pratico, per assimilare profondamente l’intero contenuto del libro si rende necessaria una lettura attenta e metodica dello stesso coadiuvata dalla possibilità di avere un’esperienza pratica delle nozioni di volta in volta apprese, oltre che da un insegnante che integri le spiegazioni presenti nel libro. Questa ultima edizione sviluppa ulteriormente alcuni argomenti che negli anni recenti hanno assunto maggiore importanza nella professione del tecnico del suono. E’ stato aggiunto un ulteriore capitolo a quello dedicato all’audio digitale visto il dilagante utilizzo delle tecnologie digitali. Anche la sezione relativa al mastering è stata ampliata vista la crescente importanza di questa fase nel processo di produzione musicale. Sono stati aggiunti ulteriori esempi sonori al fine di migliorare l’esperienza diretta dei concetti esposti. Un intero capitolo è stato dedicato agli strumenti per la misura di varie grandezze relative al suono. Ulteriori argomenti sono stati sviluppati su indicazioni degli istituti scolastici venendo incontro alla necessità di disporre di un supporto didattico completo. Diverse appendici e un corposo indice analitico completano il corredo informativo del testo. Questo lavoro dunque si propone come uno strumento di apprendimento dei concetti fondamentali della tecnica del suono ed ha l’obiettivo di fornire un solido bagaglio di conoscenze che saranno la base per ulteriori eventuali approfondimenti teorici e pratici. Spero di essere riuscito a cogliere questo ambizioso traguardo. Marco Sacco
13
Download suoni di esempio Il presente testo è corredato da numerosi esempi sonori. Tuttavia alcuni reader del formato Kindle non offrono la possibilità di gestire audio in quanto non dotati di altoparlante. Per permettere al lettore di ascoltare i suoni di volta in volta che le incontra durante la lettura del testo si è provveduto a metterli a disposizione su un server dedicato da dove ogni lettore può scaricarli. Il formato dei files è compresso mp3 alla massima qualità (320kb/s) e, grazie all’utilizzo dei tag (ID3) possono essere efficacemente caricati su qualsiasi player mp3 (telefono, tablet, computer) o essere masterizzati su un cd-audio. Il file da scaricare è in formato zip e contiene tutti i suoni. Una volta effettuato il download, decomprimere l’archivio con qualsiasi software di decompressione unzip e copiare i files mp3 nel supporto utilizzato per l’ascolto. I riferimenti per scaricare i suoni sono: Indirizzo web del file da scaricare: http://www.audiosonica.com/lambda/download.html Username: lambda Password: lambda2
14
Capitolo 1. Fisica del suono 1.1. Introduzione Questa sezione introduce il suono come entità fisica e ne illustra le proprietà principali. Verrà inoltre fatta una panoramica dei suoni elementari e delle loro caratteristiche che sono alla base di tutti i suoni complessi. Infine verrà descritto il comportamento del suono quando interagisce con ostacoli che si trovano lungo la sua direzione di propagazione.
15
1.2. Cos’è il suono Riguardo alla natura fisica del suono, una prima definizione che possiamo dare è che quello che noi percepiamo come suono è una variazione, rispetto ad un valore costante, della pressione dell’aria. Quando questa variazione viene ripetuta ciclicamente un certo numero di volte in un intervallo di tempo, che definiremo meglio in seguito, percepiamo un suono. Affinché un suono si possa propagare, ha bisogno di un mezzo che lo trasporti; l’aria è uno di questi in quanto le sue particelle, come vedremo, si trasmettono l’un l’altra la vibrazione generata dalla sorgente sonora e la propagano nello spazio. Questo significa che qualsiasi mezzo, solido, liquido o gassoso che sia, è in grado di trasportare il suono, influendo sulla sua velocità a seconda della propria densità, temperatura, pressione e altri fattori fisici. Come mezzo di riferimento per i nostri esempi considereremo l’aria essendo quello con cui avremo a che fare nei casi pratici.
16
1.3. Propagazione del suono nell’aria Il suono si propaga nell’aria mediante collisioni multiple tra particelle. Consideriamo di avere un altoparlante e sia questo la nostra sorgente sonora. La membrana si muove avanti e indietro seguendo l’andamento del segnale elettrico che riproduce l’informazione sonora (per una dettagliata descrizione rimanda alla sezione relativa agli altoparlanti [Vedi: Sistemi di diffusione sonora] ). Così facendo sposta delle particelle d’aria comprimendole prima e dilatandole poi:
Compressione e dilatazione di particelle nell’aria Seguiamo la propagazione del suono a partire dalla sorgente sonora (l’altoparlante); per fissare le idee supporremo che prima avvenga una compressione verso destra, poi una dilatazione verso sinistra:
Movimento di un altoparlante L’altoparlante si muove e spinge le particelle d’aria che si trovano alla sua destra (fase a) operando una compressione. Queste, a loro volta vanno a spingere le particelle che sono a loro vicine e trasferiscono loro l’energia che hanno ricevuto dall’altoparlante. In seguito l’altoparlante torna indietro ed esegue una compressione nel verso opposto ovvero una dilatazione verso sinistra (fase b) e nel fare ciò crea una depressione davanti a se che viene colmata dalle particelle d’aria che si trovano nelle immediate vicinanze. Queste particelle che si muovono creano a loro volta una depressione alla loro destra e così via. Questo procedimento fa sì che la particelle trasmettano l’energia oscillando e non muovendosi fisicamente nella direzione di propagazione del suono. Ci si convince facilmente di questo pensando ad un tappo di sughero in uno specchio d’acqua in cui viene tirato un sasso. Si osserverà che il tappo oscilla su e giù man mano che l’onda generata dal sasso si propaga ma rimane immobile rispetto alla direzione di propagazione dell’onda. Se l’altoparlante è pilotato da un segnale sinusoidale, la pressione atmosferica nelle sue vicinanze avrà l’andamento descritto dalla figura seguente:
Andamento sinusoidale della pressione atmosferica
17
1.4. Proprietà del suono Si è visto come l’andamento della pressione atmosferica in corrispondenza di un altoparlante in azione possa essere visualizzato come una forma d’onda. Le forme d’onda possono arrivare ad essere molto complesse ma per fortuna qualsiasi forma d’onda può essere considerata (sotto determinate condizioni) come estensione di una forma d’onda molto semplice: la sinusoide, espressa nella sua forma più generica dalla seguente formula: Equazione 1.1. Equazione della sinusoide La figura seguente mostra il grafico di una sinusoide:
Grafico di una sinusoide La sinusoide ha una serie di proprietà, che verranno descritte e analizzate una per una: frequenza (f), periodo (T), lunghezza d’onda (λ), ampiezza (A), fase (φ), velocità (v).
1.4.1. Frequenza La frequenza è letteralmente il numero di cicli che vengono compiuti dall’onda in un secondo, dove un ciclo si intende composto da una semionda positiva e una semionda negativa. Viene misurata in Hertz, il cui simbolo è Hz e la dimensione fisica è [1/sec]. Un’onda di frequenza pari a 1Hz compie un ciclo ogni secondo. La figura seguente mostra una sinusoide che compie 5 cicli in un secondo, dunque la sua frequenza è pari a 5 Hz:
Sinusoide di frequenza 5Hz Affinché l’orecchio umano percepisca la variazione ciclica di pressione sonora come un suono, è necessario che la variazione compia un numero minimo di cicli al secondo. Tale soglia varia da orecchio a orecchio e si colloca attorno ai 40Hz. Convenzionalmente, la soglia minima viene posta pari a 20Hz, cioè almeno 20 oscillazioni al secondo. Il suono seguenteSOLO_VERSIONE_PDF-ON-DEMAND è relativo a una sinusoide di frequenza pari a 1KHz (1000 oscillazioni al secondo): Esempio sonoro 1.1. Sinusoide [f=1 KHz, φ=0°] [Traccia 1]
1.4.2. Periodo Il periodo è il tempo impiegato per compiere un ciclo completo. Vale la relazione: Equazione 1.2. Periodo di una sinusoide
La figura seguente mostra la durata del periodo di una sinusoide:
18
Periodo di una sinusoide
1.4.3. Lunghezza d’onda La lunghezza d’onda è definita come la distanza tra due punti corrispondenti (per esempio due massimi successivi) lungo la forma d’onda. Il suo valore può essere calcolato a partire dalla formula seguente: Equazione 1.3. Lunghezza d’onda di una sinusoide
dove: c = velocità del suono nel mezzo che si sta considerando (nell’aria è circa 344 m/sec). Si noti la differenza rispetto al grafico che visualizza il periodo, dove l’asse delle ascisse rappresenta il tempo, mentre nel caso della lunghezza d’onda, l’asse delle ascisse rappresenta lo spazio. Per cominciare ad avere un’idea delle dimensioni che vengono tirate in ballo possiamo considerare un’onda di frequenza 1Hz che viaggia nell’aria. Per la formula di prima avremo che: Equazione 1.4. Calcolo della lunghezza d’onda
cioè ad ogni ciclo l’onda si estende per 344m, due stadi da calcio! (Come vedremo l’orecchio umano comincia a percepire suoni di frequenza superiore ai 20-30Hz quindi lunghezze d’onda di 15-18 metri.) La figura seguente mostra la lunghezza d’onda di una sinusoide:
Lunghezza d’onda di una sinusoide
1.4.4. Ampiezza È la misura dello scostamento massimo dalla posizione di equilibrio. Ampiezze maggiori corrispondono a volumi più alti. Esistono due tipi di misura delle ampiezze. La prima è una misura di tipo assoluto ed è detta ampiezza di picco. Questa grandezza misura effettivamente il punto in cui l’onda ha ampiezza massima. La seconda è una misura sull’ampiezza come viene percepita dall’orecchio. Si parla in questo caso di ampiezza efficace (detto anche valore quadratico medio, in inglese: RMS - Root Mean Square). Nel caso di una sinusoide semplice il valore dell’ampiezza efficace può essere calcolato come: Equazione 1.5. Ampiezza efficace
La figura seguente mostra l’ampiezza di una sinusoide:
19
Ampiezza di una sinusoide
1.4.5. Fase Per capire i concetti di fase e sfasamento occorre spiegare come viene costruita una forma d’onda sinusoidale. Per fare ciò faremo riferimento alla figura seguente:
Grafici fase Immaginiamo che il punto A si muova lungo la circonferenza in senso antiorario a partire dal punto a 0 gradi. Se α è l’angolo, avremo che i segmenti proiezione del punto A sugli assi x e y saranno rispettivamente:
quindi quello che si vede nel grafico (a) non è altro che la lunghezza della proiezione del punto A sull’asse delle ordinate (y) al variare dell’angolo. Quest’angolo viene definito fase. In altre parole, la fase individua i punti della circonferenza per i quali passa il punto A e dunque corrisponde a determinati punti della sinusoide. Se immaginiamo di far ruotare il punto A in senso orario, la sua proiezione sulle y sarà all’inizio negativa e avrà l’andamento della figura (b). Ora possiamo dare un’altra interpretazione della frequenza dicendo che sarà il numero di volte che il punto A compie un giro completo in un secondo, il che significa che la sua proiezione sull’asse y compierà un’oscillazione completa. Vediamo adesso il concetto sfasamento, ossia di differenza di fase. Una differenza di fase può essere vista come la distanza tra due punti che ruotano alla stessa velocità (dunque alla stessa frequenza) ma che partono da posizioni diverse sulla circonferenza. In particolare, l’angolo individuato dai due punti è proprio la differenza di fase. In altre parole, considerato un punto che inizia a ruotare, possiamo pensare ad un secondo punto che parte in ritardo rispetto al primo e inizia a ruotare alla sua stessa velocità. I due punti A e A’ individuano un angolo costante come illustrato nella figura seguente:
Angolo di sfasamento E’ possibile legare questo angolo al ritardo in tempo tra i due punti, mediante la relazione: Equazione 1.6. Relazione tra sfasamento e ritardo Si noti che il concetto di sfasamento (che corrisponde a un ritardo) ha senso solo tra due punti che ruotano alla stessa velocità angolare, che significa che le loro proiezioni oscillano alla stessa frequenza, il che significa ancora che l’angolo tra i 20
due punti rimane sempre costante, anche se i punti sono costantemente in movimento. Se così non fosse (si pensi all’angolo definito dalle lancette dell’orologio, che andando a velocità diverse definiscono tra loro un angolo sempre diverso), lo sfasamento non potrebbe essere definito in quanto cambierebbe in ogni momento. Per questo possiamo dire che non ha senso parlare di sfasamento tra due sinusoidi a frequenza diversa. Per dare un esempio dell’utilità della relazione tra ritardo e fase appena enunciata, possiamo calcolare il ritardo necessario affinché due sinusoidi di frequenza 100Hz arrivino sfasate di 90°: Sostituiamo i valori nell’equazione e risolviamo: Equazione 1.7. Calcolo del ritardo tra due sinusoidi
1.4.6. Velocità del suono Si è accennato che la velocità del suono nell’aria è di circa 344m/s (si tratta di un valore convenzionale, suscettibile di notevoli variazioni a seconda delle condizioni). Più il mezzo è rigido, più il suono si propaga velocemente (vedremo nel seguito come questo fatto sia alla base del fenomeno della rifrazione [Vedi: Rifrazione] ). Un suono che si propaga all’interno di un mezzo ha una velocità di propagazione che dipende dalle caratteristiche del mezzo stesso. Ogni mezzo ha una sua tipica velocità del suono calcolata ad una temperatura costante di 23.24 °C. Questo serve come valore di riferimento in quanto al variare della temperatura, variano le caratteristiche del mezzo e dunque la velocità del suono al suo interno. Quando un mezzo viene riscaldato, alle sue particelle viene trasferita energia cinetica. Quando vengono in contatto con un fronte d’onda, le particelle del mezzo rispondono più prontamente alla sollecitazione e trasmettono dunque l’energia sonora ricevuta più velocemente. Ciò si traduce nella maggiore velocità del suono nel mezzo. Mediamente si riscontra un aumento (diminuzione) di velocità di 0.6 m/s per ogni incremento (decremento) di un grado °C della temperatura del mezzo.
21
1.5. Pressione e intensità delle onde sonore Il suono si propaga in tutte le direzioni, ma possiamo assumere che l’onda sonora che investe il nostro timpano sia singola e con i fronti paralleli alla superficie del timpano stesso. Tanto maggiore è l’energia trasportata dall’onda, tanto più elevata è la sensazione di livello del suono percepita. Abbiamo detto che l’onda sonora esercita una pressione sulle particelle del mezzo che attraversa. Definiamo la grandezza intensità dell’onda (I) come l’energia trasportata in un secondo attraverso una sezione unitaria del mezzo, dunque misurata in W/m2. La sua espressione nel caso di un oscillatore [Vedi: Risonanza] è la seguente: Equazione 1.8. Intensità di un’onda sonora
dove: A è l’ampiezza dell’oscillazione ω è la pulsazione dell’oscillazione[2] c è la velocità dell’onda all’interno del mezzo ρ è una costante che definisce la densità del mezzo La grandezza ottenuta dal prodotto ρ * c è detta impedenza caratteristica del mezzo. Si vede che I dipende sia dal quadrato della pulsazione che dal quadrato dell’ampiezza. Dato che la pressione dell’onda è legata alla sua ampiezza dalla relazione: Equazione 1.9. Pressione di un’onda sonora
possiamo esprimere l’intensità sonora in funzione della pressione: Equazione 1.10. Intensità di un’onda sonora in funzione della pressione
La pressione sonora può essere misurata in molte unità di misura diverse. Mostriamo le più comuni e i relativi fattori di conversione: atm pressione atmosferica: 1atm=1.01325*105 pascal bar 1bar=10 N/cm2: 105 pascal cmHg centimetri di mercurio (Hg): 1cmHg=1333.22 pascal pascal unità di misura più comune: (N/m2): 1 pascal torr anche: mmHg - millimetri di mercurio: 1/760 atmosfere: 133.3223684211 pascal La pressione di riferimento superata la quale cominciamo a percepire un suono è la seguente: 0.00002Pa = 20 μPa (micropascal) Facciamo un esempio numerico per utilizzare concretamente le formule precedenti. Consideriamo il valore di intensità sonora corrispondente al limite della percettibilità: Equazione 1.11. Un valore di intensità sonora
supponendo che la densità dell’aria sia: Equazione 1.12. Densità dell’aria
e la velocità del suono sia di 343m/s, applicando le formule precedenti si ottiene il valore di pressione sonora seguente: p=2*10-10atm 22
L’intensità sonora può essere legata alla potenza sonora sviluppata dalla sorgente sonora. Sia W la potenza emessa da una sorgente puntiforme; questa si distribuirà equamente sui fronti d’onda sferici e dunque la relazione da utilizzare sarà: Equazione 1.13. Intensità sonora in funzione della distanza
da cui si vede che l’intensità sonora decade all’aumentare della distanza con un andamento pari a 1/r2
[2] Questa è anche detta velocità angolare e può essere espressa come: ω = 2π/T = 2 π f
23
1.6. Combinazione di sinusoidi pure La sinusoide è la forma d’onda più semplice che possiamo immaginare, e come tale anche la meno interessante dal punto di vista dell’estetica del suono. Cerchiamo allora di complicare un po’ le cose per renderle più interessanti. Si è detto di come qualsiasi forma d’onda sia riconducibile ad una combinazione (somma) di sinusoidi con opportuna ampiezza e fase (questa è stata la straordinaria scoperta fatta dal matematico francese Jean Baptiste Fourier: 1768-1830). Consideriamo due forme d’onda in fase. Ricordando l’esempio del puntino che gira lungo la circonferenza in senso antiorario, si pensi a due forme d’onda generate da due punti che partono allo stesso istante e vanno alla stessa velocità angolare:
Somma di sinusoidi in fase Vediamo che la somma delle due è una sinusoide di ampiezza doppia rispetto alle due precedenti. Cosa succede dal punto di vista del suono prodotto? Otteniamo un suono alla stessa frequenza delle due onde componenti ma l’ampiezza doppia fa si che il volume sia più alto (di quanto? Non del doppio, un po’ meno ma di questo parleremo più avanti). Cosa succede se sommiamo due forme d’onda in controfase (pensando ai soliti due punti: uno girerà in senso orario, l’altro in senso antiorario)? La figura seguente risponde a questa domanda:
Somma di sinusoidi in controfase Per coloro che dispongano di un software audio (confidiamo che saranno la maggioranza!), suggeriamo il seguente esercizio: calcolare il ritardo necessario per mandare in controfase due sinusoidi ad una determinata frequenza. Si scelga dunque una frequenza audio a piacere, si applichi la formula che lega ritardo e fase vista in una precedente sezione [Vedi: Relazione tra sfasamento e ritardo] (naturalmente, lo sfasamento da sostituire nella formula sarà 180° ossia pigreco) e si ricavi il valore del ritardo necessario, si applichi il ritardo ottenuto ad una seconda sinusoide identica alla prima, infine si sommino i due suoni in mono. Il risultato sarà: il silenzio! Complichiamo un po’ le cose considerando due forme d’onda di diversa frequenza (una doppia dell’altra). Il suono seguente consiste in una sinusoide di frequenza pari a 1 KHz e una fase di 0°: Esempio sonoro 1.2. Sinusoide [f=1 KHz, φ=0°] [Traccia 1]
Il suono seguente invece consiste in una sinusoide di frequenza doppia rispetto alla precedente, ossia pari a 2 KHz, e avente una fase iniziale di 90°: Esempio sonoro 1.3. Sinusoide [f=2 KHz, φ=90°] [Traccia 2]
I grafici delle due forme d’onda sono confrontati nella figura seguente:
Confronto tra sinusoidi 24
Come detto, una caratteristica dei suoni è che possono essere sommati senza interferire l’uno con l’altro. Sommando i due suoni precedenti otteniamo un nuovo suono in cui è possibile distinguere chiaramente le due componenti sommate: Esempio sonoro 1.4. Sinusoide somma di 1 KHz (0°)+ 2 KHz (90°) [Traccia 3]
Questa nuova forma d’onda ha l’andamento mostrato nella figura seguente ottenuto come somma delle due sinusoidi componenti:
Somma di due sinusoidi
25
1.7. Onde stazionarie Questo fenomeno è di grande importanza ed ha diverse implicazioni che si ritrovano in diverse situazioni. Diamone intanto una preliminare definizione. Diremo che le onde stazionarie si possono produrre come interferenza di due onde dello stesso tipo, di stessa frequenza, aventi la stessa direzione ma verso opposto. Consideriamo come esempio due onde longitudinali sinusoidali che hanno la stessa ampiezza. Come detto, le due onde viaggiano in versi opposti, dunque vediamo passo dopo passo cosa succede con l’aiuto della figura seguente (la figura è disposta in orizzontale per comodità ma è da intendersi in verticale):
Generazione di un’onda stazionaria La perturbazione risultante è in ogni momento data dalla somma delle due onde. Nei primi 4 fotogrammi le due onde non si incontrano ancora. Arrivano allo stesso punto nel fotogramma 5 e da lì in poi l’azione risultante è data dalla somma delle due perturbazioni. Si può vedere in neretto la generazione di una nuova onda, data dalla sovrapposizione delle due. Si vede allora che in alcuni punti la perturbazione oscilla tra un minimo e un massimo. Tali punti vengono definiti ventri di vibrazione, e al loro interno la perturbazione viaggia con una velocità il cui massimo è in corrispondenza del massimo del ventre. In altri punti, la perturbazione è sempre nulla perché su essi le due onde interferiscono distruttivamente in ogni istante. Tali punti vengono definiti nodi di vibrazione. Il nome di onda stazionaria dipende dunque dal fatto che l’energia dell’onda risultante “staziona” in zone ben definite e non scorre con l’onda. Un ventre e il successivo nodo di vibrazione sono separati da una distanza pari a λ/4 mentre due successivi ventri (o nodi) si trovano ad una distanza λ/2 (dove λ è la lunghezza d’onda della perturbazione acustica che genera il fenomeno).
26
1.8. Risonanza Tutti i sistemi oscillatori sono soggetti al fenomeno della risonanza. È di grande utilità analizzare nel dettaglio i fenomeni fisici coinvolti in un processo oscillatorio semplice in quanto i risultati possono essere poi estesi a casi più complessi e anche di diversa natura fisica. Dunque per la nostra analisi consideriamo un oscillatore armonico unidimensionale, ossia un corpo materiale (di massa m) che può muoversi su un piano materiale e attaccato ad una molla che ha un estremo fissato ad una parete. Considereremo per primo il caso in cui il corpo possa muoversi liberamente (senza attrito), poi introdurremo il fattore dell’attrito e infine vedremo il caso con attrito e con una forza sinusoidale applicata, che ci porterà ad indagare il fenomeno della risonanza.
1.8.1. Oscillatore semplice Consideriamo il caso più semplice: un peso attaccato ad una molla su un piano senza attrito (la figura seguente è disposta in orizzontale per comodità ma è da intendersi in verticale).
Oscillatore semplice Se applichiamo una forza al corpo e poi lasciamo l’oscillatore libero di muoversi, il corpo sarà soggetto alla forza elastica di richiamo e oscillerà permanentemente (non c’è attrito) attorno alla posizione di equilibrio. L’equazione del moto armonico è la seguente (notiamo subito l’analogia con l’oscillazione della particelle d’aria quando sono investite da un’onda sonora): Equazione 1.14. Equazione di un moto armonico dove A è pari allo spostamento sull’asse x che abbiamo impresso all’inizio, phi è l’eventuale sfasamento iniziale (rispetto al punto di equilibrio) e la frequenza dell’oscillazione è data da: Equazione 1.15. Frequenza di risonanza di un oscillatore armonico
in cui k è la costante elastica della molla e m è la massa del corpo. Come si vede, l’oscillazione ha un andamento puramente sinusoidale.
1.8.2. Oscillatore smorzato In questo caso introduciamo l’azione di smorzamento dell’attrito. Tralasciando la trattazione matematica, diremo che in questo caso l’andamento è sempre sinusoidale con frequenza fissa ma l’ampiezza dell’oscillazione decresce progressivamente fino ad estinguersi (coerentemente con il fatto che la forza iniziale viene progressivamente dissipata dall’attrito).
1.8.3. Oscillatore forzato: risonanza Come accennato in precedenza, immaginiamo in questo caso un oscillatore armonico unidimensionale sottoposto a una forza di attrito e a cui applichiamo una forza sinusoidale costante che forzi il corpo ad oscillare attorno alla sua posizione di equilibrio. Anche in questo caso tralasciamo la trattazione matematica dalla quale si ricava che l’ampiezza delle oscillazioni dipende (oltre che dal coefficiente di smorzamento e dalla massa) dal fattore: Equazione 1.16. Oscillazione e frequenza di risonanza
in cui f0 è la frequenza che l’oscillatore avrebbe in assenza di attrito (vista nel primo esempio) e f è la frequenza della forza sinusoidale applicata. In questo caso, più che le formule, sono interessanti i grafici degli andamenti dell’ampiezza 27
dell’oscillazione e la sua fase:
Ampiezza e fase di un oscillatore armonico forzato Il diagramma di ampiezza mostra tre andamenti che corrispondono a 3 diversi valori dello smorzamento dell’oscillatore. Per valori dello smorzamento molto bassi si vede che la curva ha la forma di una campana il cui picco rappresenta la risonanza. Il grafico infatti riporta sulle ascisse la frequenza dell’oscillazione applicata e sulle ordinate l’ampiezza dell’oscillazione prodotta. Per frequenze basse l’ampiezza prodotta è limitata, poi man mano che ci si avvicina alla frequenza f0 l’ampiezza aumenta ed è massima proprio per f=f0. Allora possiamo dire che un oscillatore va in risonanza quando la frequenza della forza applicata è simile (al limite uguale) alla frequenza che l’oscillatore avrebbe in assenza di smorzamento. E dunque l’energia trasferita dalla forza applicata all’oscillatore è massima. Per frequenze lontane da quella di risonanza, l’oscillatore si muove contrastando in ogni momento l’azione della forza applicata, attenuandone l’effetto. Le altre due curve relative all’ampiezza mostrano come il fenomeno della risonanza diminuisca all’aumentare dello smorzamento. Per valori molto alti di questo, la risonanza scompare addirittura. Dal diagramma di fase invece si vede come in corrispondenza della frequenza di risonanza, l’oscillazione prodotta e quella applicata siano sfasate di 90° (ossia pigreco/2). Si vede anche che quando la frequenza dell’oscillazione applicata è molto bassa, l’oscillatore è in fase con questa, mentre per valori molto maggiori della frequenza di risonanza, oscillazione applicata e oscillazione prodotta sono controfase.
1.8.4. Il suono come fenomeno oscillatorio Nella sezione precedente si sono trattati i fenomeni oscillatorii in generale, finendo con l’analisi del fenomeno della risonanza. A cosa serve sapere tutto questo nel contesto dell’audio? Serve a capire la natura stessa del suono!Infatti abbiamo detto che un’onda sonora si propaga in un mezzo tramite compressioni e rarefazioni delle particelle del mezzo attraversato, e queste non sono altro che oscillazioni delle particelle stesse, che dunque risponderanno alle leggi che abbiamo esposto per gli oscillatori. Per avvalorare questa tesi, schematizziamo le particelle d’aria come dei punti dotati di una massa e le loro interazioni come delle molle che li congiungono:
Sistema di oscillatori fisici A questo punto è chiaro come i concetti espressi finora per gli oscillatori possano essere utilizzati per analizzare la trasmissione del suono attraverso un mezzo. Quando per esempio un altoparlante produce un segnale sinusoidale, sta applicando una forza sinusoidale alle particelle d’aria, ossia ad un oscillatore armonico, dunque rispecchia esattamente la trattazione che ne abbiamo fatto. Quando un’onda sonora raggiunge il nostro orecchio, possiamo vederla come una forza sinusoidale applicata ad un sistema oscillatorio (il nostro timpano), che avrà una sua frequenza di risonanza e che dunque provocherà oscillazioni più o meno ampie a seconda di quanto la frequenza dell’onda è simile alla frequenza di risonanza del “sistema-orecchio” [Vedi: Orecchio esterno] .Gli esempi possibili sono infiniti. Invitiamo il lettore ad investigare con occhi diversi la realtà sonora che lo circonda e a leggere dietro ad ogni fenomeno di trasmissione del suono il funzionamento di un oscillatore forzato. Vogliamo in ultimo sottolineare che la risonanza non è solo un fenomeno meccanico ma è un fenomeno fisico in generale che si manifesta ogniqualvolta se ne verifichino le condizioni. Ad esempio i circuiti elettrici, che hanno una risposta dipendente dalla frequenza del segnale che li attraversa, possono andare in risonanza. Un esempio valido nel contesto audio sono le curve degli equalizzatori a campana [Vedi: Equalizzatore a campana] che lavorano proprio secondo questo principio. Anche guardando la forma della campana, non potremo non notare la sua assoluta somiglianza con il grafico dell’ampiezza della risonanza mostrato poco prima in questa sezione. Aumentare o diminuire il gain di una certa banda su un equalizzatore equivale, dal punto di vista fisico, ad aumentare la forza di attrito nel quale agisce l’oscillatore; nel caso elettrico, ciò equivale ad aumentare l’opposizione al flusso di elettroni. 28
1.9. Interazione del suono con gli ostacoli Nelle seguenti sezioni viene descritto il comportamento del suono quando interagisce con degli ostacoli. Generalmente il materiale di cui è composto l’ostacolo e le sue dimensioni condizionano la natura dell’interazione al pari del contenuto di frequenze del suono che si sta considerando. I comportamenti che verranno presi in esame valgono per le onde in generale anche se noi le contestualizzeremo all’ambito del suono. Analizzeremo nell’ordine: riflessione, diffrazione, rifrazione, assorbimento.
1.9.1. Riflessione Prendiamo come riferimento la figura in cui viene mostrata un’onda (sonora) che incide su una superficie e viene riflessa. È importante avere ben presente che i fronti d’onda generati dalle compressioni e dalle dilatazioni sono perpendicolari alla direzione di propagazione dell’onda:
Riflessione Un’onda che incide su una superficie piana con un angolo di incidenza α (angolo tra la retta normale, ossia la retta perpendicolare alla superficie e la direzione di propagazione dell’onda) viene riflessa con un angolo di riflessione pari ad α. In figura vediamo il caso di una superficie piana e quello di una superficie concava in cui tutti i raggi riflessi convergono verso il fuoco della superficie curva (per saperne di più sul fuoco rimandiamo a qualsiasi testo di geometria, qui basterà dire che in una circonferenza, o in una sfera se pensiamo in 3D, il fuoco coincide con il centro). Cogliamo l’occasione per anticipare che le superfici concave vengono evitate in acustica in quanto tendono a concentrare il suono in un preciso punto creando distribuzioni sonore disomogenee. Vengono invece utilizzate per la costruzione di microfoni direzionali [Vedi: Shotgun] in quanto consentono di amplificare segnali anche molto deboli. Viceversa le superfici convesse hanno la proprietà di diffondere il suono e dunque sono ampiamente usate per migliorare l’acustica degli ambienti [Vedi: Diffusione] . Quando un’onda viene riflessa da una superficie convessa, il prolungamento dell’onda riflessa passa per il fuoco della superficie. 1.9.1.1. Riflessioni all’interno di una stanza
Riflessioni all’interno di una stanza Quando un suono si propaga in una stanza, di cui abbiamo rappresentato una sezione vista dall’alto nella figura precedente, raggiunge l’ascoltatore in diversi modi. Il primo segnale che arriva all’ascoltatore è anche il più forte ed è il suono diretto ossia quello che compie il percorso minore tra sorgente sonora e ascoltatore. Dopo il segnale diretto arrivano, con un breve sfasamento, i segnali che hanno subito una sola riflessione su una parete e dunque hanno ampiezza minore rispetto al segnale diretto a causa della perdita parziale di energia dovuta all’assorbimento [Vedi: Assorbimento] . Chiamiamo tali segnali prime riflessioni (in alcuni testi: suono precoce, in inglese: early reflections). Dopo un ulteriore ritardo arrivano tutti i segnali che hanno subito più di una riflessione, e questi avranno un’ampiezza ancora minore rispetto alle prime riflessioni. Questi vengono chiamati grappolo di riverberazione (in inglese: reverb cluster) a indicare che questi segnali non vanno considerati singolarmente ma piuttosto come un corpo unico. La figura precedente ci mostra la distribuzione di questi segnali nel tempo e le loro ampiezze.
1.9.2. Rifrazione Con il termine rifrazione si indica il fenomeno secondo il quale un’onda cambia la propria direzione di propagazione al variare della sua velocità. Ciò può avvenire in diverse situazioni; diamo conto delle più comuni. 1.9.2.1. Rifrazione dovuta alla densità del mezzo 29
Il fenomeno della rifrazione si verifica quando l’onda passa attraverso due mezzi di diversa densità, cambiando direzione nel passaggio dall’uno all’altro. Dal punto di vista fisico, il suono viaggia più lentamente in mezzi più densi (ciò è verificabile anche dalle formule precedenti in cui compaiono velocità e densità del suono [Vedi: Pressione e intensità delle onde sonore] L’analogia con la luce (anch’essa un’onda) è immediata osservando la figura seguente in cui la parte della matita immersa in acqua (mezzo più denso) è percepita con un’inclinazione diversa rispetto alla parte esterna in aria (mezzo meno denso):
Rifrazione della luce 1.9.2.2. Rifrazione dovuta alla rigidità del mezzo Le particelle che costituiscono i mezzi più rigidi hanno legami più stretti tra loro rispetto a quelle di mezzi meno rigidi. Essendo molto più legate, le particelle di un mezzo molto rigido si trasmettono una vibrazione l’una con l’altra molto più velocemente. Ci si può convincere di ciò osservando il funzionamento del pendolo di Newton, in cui la perturbazione applicata dalla sfera più a destra si propaga sollecitando quasi istantaneamente quella più a sinistra:
Pendolo di Newton Consideriamo un’onda che incide contro un muro, come descritto nella figura seguente:
Rifrazione Il muro ha una rigidità maggiore dell’aria dunque i fronti d’onda che cominciano a penetrare nel muro sono più veloci rispetto a quelli che ancora sono fuori. Dunque, all’entrata nel muro lo stesso fronte d’onda ha una parte più avanzata (quella interna al muro) e una più arretrata ( quella ancora esterna). Quando tutto il fronte d’onda è penetrato nel muro la direzione di propagazione ha cambiato angolo. All’uscita dal muro avviene lo stesso fenomeno all’inverso e l’onda torna alla sua direzione originaria. La figura seguente illustra questo fenomeno: 1.9.2.3. Rifrazione dovuta alla variazione di temperatura Una variazione di direzione dell’onda si verifica anche all’interno dello stesso mezzo, in presenza di sbalzi di temperatura: abbiamo visto come nelle zone più calde infatti il suono viaggi più velocemente [Vedi: Velocità del suono] . Di seguito vediamo come questo fenomeno diventi rilevante nel caso di concerti all’aperto dove le condizioni di densità dell’aria cambiano radicalmente dalla mattina alla sera modificando la propagazione del suono nell’ambiente.
Rifrazione all’aperto 30
Di sera si verifica che lo strato superiore (aria fredda) abbia temperatura minore rispetto allo strato inferiore (aria calda) e dunque che il suono tenda a deviare verso l’alto come mostrato nella prima delle due figure precedenti. Alla mattina la situazione si inverte e lo strato a temperatura minore (aria fredda) diventa quello inferiore. Ciò porta il suono a deviare verso il basso come evidenziato nella seconda delle due figure precedenti. Ciò va tenuto in conto durante la messa a punto di un concerto all’aperto [Vedi: Suono live] in quanto la lunga fase di preparazione e test viene fatta molte ore prima dell’inizio del concerto stesso e dunque in situazioni ambientali che si modificano con il passare delle ore.
1.9.3. Diffrazione Il modo più immediato ma efficace per descrivere questo fenomeno è dire che si verifica quando un suono aggira un ostacolo. Ciò dipende fortemente dalla frequenza in quanto suoni con una grande lunghezza d’onda (e dunque bassa frequenza) superano con facilità ostacoli con una dimensione minore della loro lunghezza d’onda. Questo è uno dei motivi per cui le prime frequenze che vengono attenuate sono quelle alte mentre quelle basse si propagano a distanze molto maggiori.
1.9.4. Assorbimento Può essere descritto come la conversione di energia acustica in energia termica da parte di una superficie. In altre parole, quando un suono viene a contatto con un ostacolo, gli trasferisce energia che viene dissipata sotto forma di calore. Abbiamo visto come la propagazione del suono sia legata all’oscillazione delle particelle che si comportano come un sistema elastico. A causa di attriti, dispersioni e conversione in calore, il sistema elastico toglie energia all’onda, che man mano che si propaga nel mezzo perde la sua energia iniziale. Il decadimento dell’intensità sonora [Vedi: Pressione e intensità delle onde sonore] associata ad un’onda che si propaga in un mezzo è di tipo esponenziale, come evidenziato nella formula seguente: Equazione 1.17. Assorbimento e intensità sonora dove I0 è l’energia iniziale e α è denominato coefficiente di assorbimento dell’energia e ha le dimensioni dell’inverso di una lunghezza. Se α è molto grande, il materiale può togliere una gran quantità di energia all’onda anche se è di sottili dimensioni. La figura seguente mostra l’andamento di un’onda sonora smorzata:
Onda sonora smorzata In generale i quattro fenomeni (riflessione, rifrazione, diffrazione, assorbimento) sono tutti presenti nel momento in cui un’onda sonora incontra un ostacolo. La figura seguente illustra una situazione tipica:
Riflessione, diffusione, rifrazione e assorbimento insieme
31
1.10. Inviluppo ADSR Con questo termine si intende l’andamento dell’ampiezza di un suono dal momento in cui viene generato a quando si estingue. Per introdurre questo concetto conviene considerare un esempio pratico. Il più eloquente è quello di uno strumento a corda, per esempio una chitarra. Quando il chitarrista esegue una nota, percepiamo un primo impatto sonoro, poi piano piano la nota si estingue. L’andamento dell’ampiezza della nota suonata viene chiamato inviluppo ADSR (acronimo delle parole:Attack, Decay, Sustain, Release. In italiano: Attacco, Decadimento, Sostenuto, Rilascio) e ha uno schema che può essere applicato a qualsiasi suono e strumento. Descriviamo le quattro fasi nel dettaglio Attack: l’ampiezza raggiunge,a partire da zero, il suo valore massimo Decay: dopo l’attacco, parte dell’energia iniziale viene persa e l’ampiezza diminuisce. Sustain: l’ampiezza mantiene un livello quasi costante per un certo tempo. Release: l’ampiezza decresce fino ad estinguersi completamente Di seguito vediamo un esempio di inviluppo ADSR: la forma d’onda di un suono viene circoscritta da una curva che descrive l’andamento dell’ampiezza e che prende il nome di inviluppo. Data la simmetria della forma d’onda, se ne considera, ai fini della valutazione dell’inviluppo, la sola parte positiva:
Inviluppo ADSR È bene evidenziare il fatto che la parte iniziale di un suono naturale (fase di attack/decay) ha un maggior contenuto di alte frequenze che sono poi le prime ad estinguersi. Generalmente nella fase di sustain il contenuto di alte frequenze si è attenuato mentre continuano ad essere presenti le basse frequenze. Di seguito viene riportato il suono generato dalla quinta corda di una chitarra acustica (La) e la sua visualizzazione in tempo. Esempio sonoro 1.5. Nota “La” suonata da chitarra acustica [Traccia 10]
Si può individuare abbastanza facilmente l’inviluppo ADSR.
Inviluppo ADSR Come detto, questo schema è applicabile alla maggior parte degli strumenti musicali e dei suoni in generale, ciò che varia è la durata della varie fasi. Per esempio, un rullante avrà tempi di Attack e Decay molto brevi. Un violino sarà contraddistinto da una fase Attack-Decay molto più lunga. Generalmente la fase Attack-Decay è la più importante per caratterizzare un suono tanto che nelle moderne tecniche di sintesi si preferisce generare la parte Attack-Decay con dei campioni reali dello strumento 32
da riprodurre e generare la parte di Sustain e Release in modo sintetico. Questo ha un doppio obiettivo. Da una parte fare sì che lo strumento sintetico somigli il più possibile a quello reale e dall’altra avere un controllo sulle caratteristiche dello stesso. Per esempio una simulazione di vibrato è ottenibile in modo molto semplice su un suono sintetico mentre risulta un’operazione abbastanza complicata da realizzare su un suono campionato.
33
1.11. Effetto doppler Si chiama effetto Doppler il fenomeno che si verifica quando o la sorgente sonora o l’ascoltatore sono in movimento: il classico esempio che viene sempre fatto è quello dell’ambulanza. Facciamo riferimento alla figura seguente che descrive le tre situazioni di nostro interesse. Nella prima situazione, immaginiamo che l’ambulanza sia ferma e che la sirena emetta un suono che, essendo di una certa frequenza, genera dei fronti d’onda a distanza costante l’uno dall’altro:
Effetto Doppler Quando invece il mezzo è in movimento e si avvicina all’ascoltatore, la stessa sirena genera un suono con dei fronti d’onda più ravvicinati rispetto a quando il mezzo era fermo perché muovendosi comprime i fronti d’onda. Dato che ora i fronti d’onda sono più ravvicinati percepiamo una frequenza più alta cioè un suono più acuto. Quando il mezzo ci supera, allontanandosi distanzia i fronti d’onda e dunque in questa fase percepiamo un suono più grave perché ci arriva una frequenza più bassa. Il suono seguente illustra quanto finora esposto: Esempio sonoro 1.6. Effetto doppler (sorgente: macchina con clakson) [Traccia 16]
L’esempio precedente riproduce una delle più classiche manifestazioni dell’effetto doppler. Nel seguente esempio invece il suono è stato ottenuto prendendo una singola sorgente sonora (di frequenza pari a 500 Hz) e simulando il suo movimento rispetto ad un ascoltatore fisso mediante un opportuno algoritmo matematico[3]. Esempio sonoro 1.7. Sinusoide di frequenza pari a 500 Hz [Traccia 17]
Esempio sonoro 1.8. Effetto doppler (sorgente: 500 Hz) [Traccia 18]
Come è possibile notare, quando la sorgente si avvicina all’ascoltatore, viene percepito un suono più acuto rispetto a quello originario in quanto i fronti d’onda vengono ‘compressi’. Quando invece la sorgente oltrepassa l’ascoltatore, i fronti d’onda si distanziano e il suono percepito è meno acuto di quello a 500 Hz.
[3] Un algoritmo è un procedimento di calcolo finalizzato ad ottenere un determinato risultato a partire da un insieme di
condizioni e dati iniziali. Per una dettagliata descrizione degli algoritmi e delle loro implementazioni si rimanda a qualsiasi testo di introduzione all’informatica.
34
1.12. Classificazione delle onde In questa sezione verrà fatta una panoramica sui diversi tipi di onde e per ognuna verrà indicata la terminologia esatta, in modo da fornire un riferimento rigoroso per le trattazioni successive. La classificazione che segue non è esaustiva ma fornisce una panoramica dei più comuni tipi di onde e delle loro caratteristiche. Le onde possono essere classificate in diversi modi a seconda degli aspetti che si considerano. Quando consideriamo una sorgente sonora che produce un’onda abbiamo a che fare con la direzione della forza applicata e la direzione di propagazione dell’onda. Per esempio nel caso di un altoparlante che genera un’onda acustica, le due direzioni coincidono e in questo caso si parla di onde longitudinali. Quando invece le due direzioni sono perpendicolari si parla di onde trasversali. Un’altra classificazione è relativa alle dimensioni del mezzo di propagazione. Sono onde unidimensionali le onde che si propagano in un mezzo monodimensionale come ad esempio una corda, onde bidimensionali quelle che si propagano ad esempio sulla superficie dell’acqua, onde tridimensionali quelle che si propagano in una regione dello spazio. Un altro tipo di classificazione può essere fatto in base al tipo di perturbazione che genera l’onda. Quando la perturbazione è un fenomeno isolato nel tempo (come per esempio un secco battito di mani) allora si parla di onda impulsiva. Quando la perturbazione di protrae per un certo tempo e poi si esaurisce allora si parla di treno d’onda. Infine, quando la perturbazione rimane costante nel tempo, si parla di onda periodica. Quando un’onda si propaga in un mezzo, i punti che si trovano lungo la direzione di propagazione oscillano sfasati l’uno dall’altro. Immaginando che l’onda si propaghi nello spazio e non solo lungo una linea, se consideriamo una sezione dello spazio lungo la direzione di propagazione avremo che i punti di tale sezione oscillano tutti con la stessa fase. Queste superfici hanno una concentrazione di energia pari al contributo omogeneo di tutti i punti che ne fanno parte e prendono il nome di fronti d’onda (nel caso di onda impulsiva) e di superfici d’onda (nel caso di onda periodica). A seconda della forma di queste superfici possiamo dare un’ulteriore classificazione delle onde. Parliamo allora di onde piane, onde sferiche, onde cilindriche.
35
Capitolo 2. Analisi armonica del suono 2.1. Introduzione Dopo aver analizzato il suono dal punto di vista fisico, passiamo all’analisi del suo contenuto in frequenza e la relativa interpretazione matematica. Ciò ci permetterà di capirne più a fondo la natura, soprattutto grazie alla rappresentazione del suono nel dominio della frequenza.
36
2.2. Definizione di ottava Prima di proseguire diamo la definizione di ottava: dato un suono ad una determinata frequenza (per esempio un La a 440Hz), l’ottava superiore si trova ad una frequenza doppia (880Hz), mentre l’ottava inferiore si trova ad una frequenza dimezzata (220Hz). Dal punto di vista musicale, data una nota di partenza, aggiungendo o togliendo un’ottava si ritrova la stessa nota, rispettivamente più acuta o più grave. Su una tastiera di pianoforte, partendo da un tasto qualsiasi, ritroveremo un’ottava sopra lo stesso tasto nella scala superiore e un’ottava sotto lo stesso tasto nella scala inferiore.
37
2.3. Contenuto armonico di un suono Finora ci si è riferiti alla sinusoide come tassello fondamentale per mezzo del quale costruire il resto della realtà sonora. Dunque, i suoni complessi sono composti da più sinusoidi (a cui ci si riferisce per semplicità come frequenze). A volte, le varie frequenze che compongono un suono hanno un preciso rapporto matematico tra loro, come nel caso delle frequenze armoniche. Per introdurre questo concetto conviene riferirsi ad un caso pratico. Consideriamo allora cosa succede quando la quinta corda (la seconda partendo dall’alto) di una chitarra viene pizzicata da un chitarrista. Diremo tutti che il chitarrista sta eseguendo un La ma fisicamente, cosa succede? La corda si è messa ad oscillare ad una frequenza di 110Hz (due ottave sotto il canonico 440Hz). Ma allora com’è che non suona come una semplice sinusoide di frequenza pari a 110Hz ma suona con il suono di una chitarra? La risposta comprende una serie di ragioni che si chiariranno via via. Sicuramente il contenuto armonico (contenuto di frequenze) del suono prodotto dalla chitarra non è uguale a quello di una semplice sinusoide: il suono della chitarra dovrà necessariamente contenere altre frequenze oltre alla singola sinusoide di frequenza 110Hz. Per motivi che si chiariranno a breve [Vedi: Fisica delle armoniche] , quando una nota viene suonata su uno strumento musicale (per esempio uno strumento a corda), viene generata la frequenza corrispondente alla nota suonata che viene chiamata armonica fondamentale ma insieme a questa vengono generate anche le frequenze armoniche cioè frequenze che sono multiple intere della fondamentale e che hanno ampiezza via via decrescente al crescere dell’ordine dell’armonica. Nel caso del La vengono generate le seguenti sinusoidi (armoniche): 110 Hz Armonica Fondamentale (prima armonica) 220 Hz Seconda Armonica 440 Hz Terza Armonica n*110 Hz n-esima Armonica La vibrazione della corda alle diverse frequenze è descritta dalla figura seguente ed è da immaginarsi come la sovrapposizione di tutte le vibrazioni contemporaneamente sulla stessa corda:
Vibrazione di una corda pizzicata La prima armonica (la fondamentale) caratterizza la nota che effettivamente percepiamo, notiamo che è quella che ha ampiezza maggiore. La seconda armonica è ad una frequenza doppia rispetto alla fondamentale, ciò significa che la corda sta vibrando a frequenza doppia come in figura sovrapponendo questa vibrazione a quella fondamentale. Dunque, la seconda armonica è la stessa nota della fondamentale (un’ottava più alta) e aggiunge calore al suono. La terza armonica non è più un La e dunque contribuisce ad arricchire il suono[4]. L’ampiezza delle armoniche diminuisce all’aumentare della frequenza dell’armonica stessa. In altre parole, se una corda di chitarra viene pizzicata, le armoniche che contribuiscono al suono in modo rilevante sono una decina. Le ampiezze delle armoniche successive rispetto all’ampiezza della fondamentale diventano trascurabili. Al centro della corda si avrà una prevalenza di basse frequenze mentre ai lati prevalgono le alte (questo è molto importante per esempio nel piazzamento dei microfoni: se dal rullante di una batteria volessimo un suono composto da alte frequenze, punteremo il microfono verso il bordo mentre se volessimo un suono in cui prevalgano le basse, punteremo il microfono verso il centro).
[4] Gli amplificatori per chitarra possono essere valvolari o a transistor e si trovano sostenitori accaniti sia del primo che del
secondo tipo a causa del diverso suono che essi generano. I transistor tendono ad enfatizzare la terza armonica mentre le valvole enfatizzano la seconda e ora si può capire meglio perché questo influisca in modo così sostanziale sul suono.
38
2.4. Fisica delle armoniche Una volta descritto il fenomeno delle armoniche dal punto di vista empirico, passiamo alla sua interpretazione fisica. In questa sezione vengono descritti i fenomeni e le condizioni per i quali vengono generate le armoniche, a partire dal fenomeno della riflessione. Un caso particolare di riflessione [Vedi: Riflessione] avviene quando un’onda incide perpendicolarmente su un piano rigido e, come sappiamo, l’onda riflessa sarà anch’essa perpendicolare al piano (angolo di incidenza e angolo di riflessione sono uguali) ma andrà nel verso opposto rispetto all’onda incidente. Naturalmente le due onde hanno la stessa frequenza e dunque interferiscono a creare un nuova onda. Non ci ricorda qualcosa questa situazione? Abbiamo già trattato questo caso descrivendo le onde stazionarie [Vedi: Onde stazionarie] (precisiamo che gli esempi fatti per le onde stazionarie erano relativi a due onde in fase e dunque non pertinenti al fenomeno della riflessione). Diremo dunque che la riflessione perpendicolare genera delle onde stazionarie. L’onda riflessa si trova in controfase rispetto all’onda incidente. Per illustrare questo concetto, consideriamo un’onda impulsiva che incide su una superficie riflettente e torna indietro invertita di fase, come descritto dalla figura seguente:
Riflessione di un impulso A questo punto siamo in grado di capire meglio il fenomeno delle armoniche generate da un corpo messo in vibrazione: sono dovute alla riflessione con conseguente generazione di onde stazionarie. Consideriamo ancora come esempio una corda di chitarra pizzicata: come si è detto, la corda vibrerà sia alla frequenza fondamentale, che alle frequenze multiple di questa, secondo la figura riportata nella relativa sezione [Vedi: Contenuto armonico di un suono] . Relativamente a tale figura, consideriamo la vibrazione della seconda armonica (quella di frequenza doppia rispetto alla fondamentale. Essa presenta tre punti (nodi di vibrazione) che sono sempre immobili (quelli laterali sono gli estremi della corda, ma sono anch’essi nodi a tutti gli effetti), mentre all’interno dei nodi la corda vibra a frequenza doppia rispetto alla fondamentale (ventri di vibrazione). Questi nodi sono il risultato dell’insorgenza di un’onda stazionaria, che è generata dalla perturbazione che abbiamo applicato alla corda e dalla sua riflessione agli estremi della corda stessa che sta ritornando nel verso opposto in controfase. La somma continua dell’onda incidente e quella riflessa genera l’onda stazionaria. Per le armoniche superiori il discorso è analogo: si tratta della stessa perturbazione che rimbalza più volte sugli estremi della corda e si incontra con l’onda iniziale che viaggia in verso opposto. Ancora una volta chiariamo che stiamo parlando dell’onda elastica che si propaga all’interno di un corpo elastico messo in vibrazione, in questo caso la corda pizzicata, e non dell’onda acustica che si propaga nello spazio. Riassumendo: quando una corda viene pizzicata, inizia a vibrare alla sua frequenza di risonanza e alle armoniche superiori che sono dovute alle onde stazionarie, risultato della riflessione della perturbazione sugli estremi della corda. Come si vede, una corda pizzicata coinvolge tutti i fenomeni descritti: risonanza, riflessione, onde stazionarie. Finora abbiamo trattato il caso unidimensionale, riscontrando che le frequenze delle armoniche sono multipli interi della frequenza fondamentale. I fenomeni descritti si estendono naturalmente anche ai casi multidimensionali, pur con qualche differenza. Consideriamo per esempio un caso bidimensionale: un tamburo che viene percosso. Anche in questo caso c’è una oscillazione principale, c’è un’onda che si propaga all’interno della pelle del tamburo e che viene riflessa dal bordo circolare, con conseguente formazione di onde stazionarie; i nodi di vibrazione non sono dei punti ma delle linee e le frequenze armoniche generate non sono dei multipli interi della fondamentale ma hanno una proporzione diversa come mostrato in figura (+ e - indicano il verso dell’oscillazione):
39
Armoniche bidimensionali
40
2.5. Analisi armonica di Fourier L’analisi armonica di Fourier è una trattazione prettamente matematica, dunque è applicabile a innumerevoli contesti fisici, anche se noi per fissare le idee ci metteremo nel contesto sonoro.Abbiamo esperienza pratica del fatto che più suoni possono essere sovrapposti, a creare un suono composito, all’interno del quale ogni singolo suono può essere individuato distintamente. Questo fenomeno viene identificato come principio di sovrapposizione e risulta valido per i sistemi oscillatori [Vedi: Risonanza] purché le ampiezze delle singole perturbazioni non oltrepassino una determinata soglia. A questo punto è lecito pensare che qualsiasi forma d’onda possa essere decomposta ed espressa come somma di forme d’onda più semplici. La forma d’onda più semplice esistente è la sinusoide e dunque diremo che qualsiasi forma d’onda può essere espressa, anzi in realtà è composta, da una serie di singole sinusoidi aventi ognuna una determinata ampiezza, frequenza e fase. È opportuno precisare che la trattazione può diventare piuttosto complessa e deve rispettare precise condizioni matematiche (in particolare, la periodicità dell’onda). Vediamo un esempio pratico di decomposizione di un segnale nelle sue componenti armoniche secondo il teorema di Fourier, che recita testualmente: data una funzione x(t) periodica di periodo T e frequenza f=1/T, la x(t) può essere sempre espressa mediante una somma di infiniti termini (serie di Fourier) armonici di frequenze multiple della frequenza della funzione data e con ampiezza determinata. Per funzione periodica si intende una funzione che abbia un andamento nel tempo che si ripete ciclicamente dopo un intervallo di tempo fissato, che viene appunto definito periodo [Vedi: Periodo] . Naturalmente, nel nostro caso la funzione periodica è rappresentativa di un’onda acustica. In formule: Equazione 2.1. Serie armonica di Fourier
La formula precedente non presenta niente di complicato: la funzione x(t) è stata espressa come somma di diversi termini. Il primo è un termine costante, che coincide con il valore medio della x(t). Gli altri sono le componenti armoniche, ognuna con la propria ampiezza ai, bi. Un esempio pratico e visuale ci permetterà di chiarire ulteriormente la questione. Consideriamo un’onda quadra [Vedi: Onda quadra] che ha nel tempo l’andamento seguente[5]:
Onda quadra Vediamo nella figura seguente come sia possibile esprimere un’onda quadra come somma di semplici componenti sinusoidali:
Ricostituzione di un’onda quadra con una serie armonica Una considerazione preliminare riguarda il termine costante a0 che, come detto tiene conto del valor medio. Se l’onda quadra fosse stata spostata più in alto sull’asse delle ordinate, avremmo ottenuto un valore a0>0. Riguardo poi alla somma delle componenti sinusoidali, si vede come tenda alla forma di un’onda quadra. La figura di sinistra mostra le prime tre componenti armoniche che stiamo considerando per ricostruire l’onda quadra (sono i primi tre termini dell’equazione precedente). La seconda figura mostra la somma dei primi due termini della serie (sinusoidi). Già con la somma di due termini si ha un andamento che comincia ad assomigliare a quello dell’onda quadra. Nella figura di destra si vede il risultato della somma dei primi tre termini della serie. L’approssimazione si raffina sempre di più, man mano che nella serie vengono aggiunti termini. Nel caso dell’onda quadra ideale, servirebbero infiniti termini per riprodurla perfettamente. Al contempo, un’onda quadra perfetta non esiste nel mondo reale poiché non è possibile generare transazioni da uno stato all’altro in un tempo nullo. Un’onda periodica che non presentasse transazioni istantanee (con pendenza infinita), sarebbe riprodotta esattamente dalla somma di un numero finito di termini della serie di Fourier. Concludendo: una qualsiasi perturbazione periodica può considerarsi somma di perturbazioni sinusoidali (e questo, sotto determinate condizioni, si estende anche al caso di perturbazioni non periodiche). Il principio di sovrapposizione inoltre 41
assicura che, finché le perturbazioni sono piccole, l’effetto complessivo dovuto all’azione contemporanea di più perturbazioni in un mezzo è pari alla somma degli effetti dovuti a ciascuna perturbazione. Ne consegue che per lo studio dei fenomeni sonori ci si può ricondurre al caso sinusoidale, semplificando notevolmente le trattazioni. Nel caso di segnali non periodici, come i segnali sonori che troviamo in natura (un esempio per tutti: la voce umana), non è possibile esprimere il segnale complessivo come semplice somma di armoniche multiple della frequenza fondamentale. In altre parole, la serie di Fourier non è sufficiente in quanto i rapporti tra le frequenze componenti non sono descrivibili da multipli interi. In questo caso è necessario uno strumento matematico che tenga conto di tutte le frequenze coinvolte nel fenomeno acustico: la trasformata di Fourier. Nel caso in cui la funzione è non-periodica lo spettro di frequenza è continuo e non discreto (ossia non è composto da frequenze separate, ma da frequenze contigue) e la teoria della trasformata di Fourier generalizza la teoria della Serie di Fourier al caso di segnali non periodici. Al fine di non appesantire la trattazione, si immagini la trasformata di Fourier come uno strumento per calcolare tutte le frequenze componenti un segnale audio non periodico. Una volta calcolate tutte le componenti e visualizzate su un grafico ampiezza/frequenza, che prende il nome di analizzatore di spettro, avremo davanti lo spettro di frequenza (definito anche come spettro armonico del nostro segnale. Naturalmente lo spettro di frequenza varia continuamente nel tempo seguendo l’evoluzione del segnale audio e mostrando ad ogni istante le ampiezze delle singole frequenze che lo compongono.
[5] Notiamo come l’onda quadra rispetti il vincolo di periodicità in quanto la forma d’onda si ripete ad ogni periodo
42
2.6. Rappresentazione tempo/frequenza I grafici che abbiamo visto finora erano del tipo ampiezza/tempo ossia descrivevano l’andamento dell’ampiezza di un’onda sonora al variare del tempo. Consideriamo ora un diverso approccio alla questione e vediamo come sia possibile rappresentare l’ampiezza in funzione della frequenza. Nel caso di una sinusoide pura di equazione: Equazione 2.2. Semplice sinusoide possiamo senz’altro dire che sia la frequenza f che l’ampiezza A sono costanti. E allora, con riferimento alla figura seguente, in un diagramma Ampiezza-Frequenza, una sinusoide di ampiezza A e frequenza f (immagine di sinistra) la rappresentiamo come nell’immagine di centro mentre in caso avessimo due sinusoidi di frequenza f1 e f2, otterremmo una rappresentazione come nell’immagine di destra:
Rappresentazione tempo/frequenza Dunque, in un diagramma ampiezza/frequenza, una sinusoide è rappresentabile come un segmento di lunghezza pari all’ampiezza della sinusoide e posizionata sulla sua frequenza (questa frase farebbe inorridire qualsiasi fisico ma in questa sede non siamo interessati ai rigori scientifici quanto piuttosto alla comprensione generale dei fenomeni). Ora mettiamo insieme tutte queste cose. Immaginiamo un suono complesso e cioè composto da tutte le sinusoidi da 20Hz a 20KHz (questo è più o meno l’intervallo delle frequenze udibili dall’orecchio umano, quindi dal nostro punto di vista sono le uniche frequenze che ci interessano). Consideriamo un segnale sonoro complesso come quello mostrato nella figura seguente:
Andamento in tempo di un segnale sonoro complesso La sua visualizzazione nel dominio della frequenza prende il nome di spettro di frequenza e in esso vengono mostrate le ampiezze delle singole sinusoidi componenti. Il nostro segnale sonoro varierà continuamente nel tempo e, se immaginiamo di ‘fotografare’ lo spettro in un determinato istante, avremo su un diagramma Ampiezza-Frequenza il seguente tipo di grafico:
Spettro di frequenza di un segnale sonoro complesso Se il segnale audio è un segnale periodico [Vedi: Classificazione delle onde] (come per esempio un’onda quadra [Vedi: Onda quadra] ), allora il suo spettro di frequenza sarà costante nel tempo. Altrimenti avremo un suono che varia continuamente nel tempo, come una voce o un assolo di chitarra. In questo caso, ogni sinusoide componente varia nel tempo la sua ampiezza e dunque varia anche la forma del grafico dello spettro. Questo spiega cosa mostra un analizzatore di spettro con tutti quei LED che sembrano impazziti: sta descrivendo l’ampiezza delle singole sinusoidi che compongono il suono. Questo spiega anche 43
cosa fa un equalizzatore grafico [Vedi: Equalizzatore grafico] : amplifica o attenua (aumenta o diminuisce) l’ampiezza delle sinusoidi (l’intervallo 20Hz-20KHz è un intervallo continuo quindi in un equalizzatore ogni cursore controlla in realtà una banda di frequenze; più aumentano i cursori più le bande sono strette, nel caso ideale - di infiniti cursori - ogni cursore controlla l’ampiezza di una singola frequenza o meglio della sinusoide a quella frequenza).
44
2.7. Forme d’onda elementari 2.7.1. Sinusoide pura È stata descritta nei paragrafi precedenti [Vedi: Proprietà del suono] . È spesso usata come segnale di test.
2.7.2. Onda quadra L’onda quadra (in inglese: square wave) si presenta come in figura:
Onda quadra Come vediamo, il contenuto armonico dell’onda quadra è composto dalle sole armoniche dispari. L’ampiezza decresce con un andamento di tipo 1/f. Questo, in via empirica, significa che la terza armonica (quella che ha frequenza tripla della fondamentale, quella a frequenza doppia non è presente) ha ampiezza pari a 1/3 della fondamentale, la quinta pari a 1/5 e così via. Di seguito vengono presentati i suoni di un’onda quadra, una alla frequenza di 440 Hz (equivalente alla nota musicale La) e una alla frequenza di 1 KHz: Esempio sonoro 2.1. Onda quadra (f=440 Hz) [Traccia 4]
Esempio sonoro 2.2. Onda quadra (f=1 KHz) [Traccia 5]
2.7.3. Onda a dente di sega L’onda a dente di sega, in inglese: sawtooth wave, si presenta come in figura:
Onda a dente di sega Nell’onda a dente di sega sono presenti tutte le armoniche, l’ampiezza delle armoniche decresce con un andamento pari a 1/f. Di seguito vengono presentati i suoni di un’onda a dente di sega, una alla frequenza di 440 Hz (equivalente alla nota musicale La) e una alla frequenza di 1 KHz: Esempio sonoro 2.3. Onda a dente di sega (f=440 Hz) [Traccia 6]
Esempio sonoro 2.4. Onda a dente di sega (f=1 KHz) [Traccia 7]
2.7.4. Onda triangolare L’onda triangolare, in inglese: triangle wave, si presenta come in figura:
45
Onda triangolare Ha un contenuto armonico molto simile a quello dell’onda quadra. La differenza è che le ampiezze decrescono con un andamento del tipo 1/f2[6]. Di seguito vengono presentati i suoni di un’onda triangolare, una alla frequenza di 440 Hz (equivalente alla nota musicale La) e una alla frequenza di 1 KHz: Esempio sonoro 2.5. Onda triangolare (f=440 Hz) [Traccia 8]
Esempio sonoro 2.6. Onda triangolare (f=1 KHz) [Traccia 9]
[6] E’ da sottolineare il fatto che, a differenza delle altre forme d’onda viste in precedenza, le armoniche che costituiscono
l’onda triangolare non vengono tutte sommate ma hanno segno alternato.
46
2.8. Fisica ideale e fisica reale Durante le disquisizioni puramente teoriche si fa spesso riferimento a condizioni ideali che aiutano a semplificare il contesto al fine di renderlo più comprensibile. Tuttavia occorre sempre tenere presenti i limiti fisici imposti dalla realtà. La figura seguente confronta un esempio di onda quadra [Vedi: Onda quadra] ideale e onda quadra reale.
Onda quadra “reale” Andando a considerare un’onda quadra, finché ci manteniamo nel campo teorico ha senso descriverne l’andamento nel tempo come una serie di rettangoli. Tuttavia non è fisicamente possibile generare un segnale elettrico con transizioni istantanee come quelle presentate da un rettangolo. Più verosimilmente, la transizione avverrà in modo molto rapido ma non istantaneo, come evidenziato dalla figura precedente (tanto meno sarà possibile far compiere al cono di un altoparlante transizioni istantanee).
47
2.9. Distorsione Il suono della distorsione è più o meno quello che esce da un distorsore (per l’appunto) per chitarra elettrica. Dunque il suono lo conoscete, è quello su cui si fonda la storia del Rock (tanto per dire), ma da cosa è generato? Per capirlo consideriamo la solita sinusoide, essendo poi il caso estendibile ai suoni complessi [Vedi: Rappresentazione tempo/frequenza] . Supponiamo che l’uscita di un circuito al quale applichiamo una sinusoide in ingresso non possa superare un certo valore.
Distorsione Il segnale che avremo in uscita sarà quello di figura di destra cioè una sinusoide a cui è stata ‘tagliata via la testa’. Osservando questa forma d’onda si notano le brusche transizioni introdotte dal ‘taglio’ le quali generano delle frequenze più elevate di quella della sinusoide considerata. Ciò sarà valido per ogni componente sinusoidale del segnale, dunque all’uscita del distorsore il segnale originario sarà arricchito da tutta una serie di altre frequenze, dipendenti dalle frequenze del segnale iniziale, che caratterizzano il suono della distorsione analogica. Per ascoltare il suono della distorsione facciamo riferimento ai due suoni seguenti: il primo originato da una chitarra elettrica e il secondo ottenuto applicando sul primo una distorsione: Esempio sonoro 2.7. Suono di chitarra elettrica puro [Traccia 14]
Esempio sonoro 2.8. Suono di chitarra elettrica distorto [Traccia 15]
In questo caso la distorsione è voluta al fine di ottenere un effetto. In generale bisogna prestare una particolare attenzione alle soglie dei circuiti che stiamo utilizzando per non mandarli in distorsione con livelli troppo elevati (per esempio il gain del preamplificatore presente sui canali del mixer non deve generare un segnale di livello troppo elevato tale da saturare i circuiti che si trovano a valle).
48
2.10. Teoria delle formanti Le formanti sono delle determinate bande di frequenza, tipiche di una sorgente sonora (strumento musicale acustico, voce umana) che ne caratterizzano fortemente il timbro. Si è detto dei motivi per cui uno strumento acustico che produce un suono, genera una frequenza fondamentale e poi una serie di armoniche [Vedi: Contenuto armonico di un suono] . Si è anche descritto il fenomeno della risonanza di un sistema oscillatorio [Vedi: Risonanza] . Nel contesto sonoro ciò si traduce in una enfatizzazione di una determinata banda di frequenza rispetto delle altre che restano inalterate. Uno strumento musicale acustico, come per esempio una chitarra acustica, avrà una determinata banda di frequenze che verrà enfatizzata dalla cassa di risonanza. Analizziamo questo fenomeno per mezzo della figura seguente:
Azione della formante sulle armoniche di un suono Nei due grafici al centro della figura è stata rappresentata una ipotetica formante, dovuta alla risonanza di uno strumento musicale acustico in una determinata banda di frequenza. Tale risonanza è rappresentata dalla campana presente nei grafici. Come si vede, fuori dalla campana di risonanza, l’amplificazione (guadagno) applicata dalla cassa di risonanza è unitaria (=1), dunque assente (applicare l’azione della cassa di risonanza in questo caso significa moltiplicare per 1 le ampiezze delle armoniche che compongono il suono, e un valore moltiplicato per 1 è pari al valore stesso). All’interno della campana, l’amplificazione dovuta alla risonanza è presente e dunque il guadagno è > 1. Consideriamo ora due diverse note prodotte dal nostro strumento acustico. Nella colonna di sinistra abbiamo lo spettro di frequenza della prima nota, con le sue armoniche, e in quella di destra quello della seconda, più acuta e dunque spostata verso destra sull’asse delle frequenze, ma con la stessa configurazione di armoniche. Vediamo che le armoniche della prima nota che vengono amplificate dalla risonanza della formante sono la quinta, la sesta e la settima. Quando invece viene eseguita la seconda nota, le armoniche che vengono amplificate sono la terza e la quarta. Confrontando le due note dopo l’azione della formante (grafici dell’ultima riga) è possibile valutarne il diverso contenuto armonico. La formante dunque cambia il rapporto di ampiezza tra le armoniche a seconda della nota suonata e tale rapporto di ampiezza è tra i principali responsabili del timbro di uno strumento.
49
Capitolo 3. Psicoacustica 3.1. Introduzione Questa sezione è divisa in tre parti. Nella prima viene descritto nel dettaglio il funzionamento dell’orecchio umano e il modo in cui trasforma un’onda sonora in un segnale elettrico che viene poi interpretato dal cervello. Nella seconda parte viene analizzata la modalità di percezione del suono da parte del cervello. In questo caso ha senso parlare di percezione in quanto questa non corrisponde alla realtà del suono ma ne è un’interpretazione soggettiva condizionata dal funzionamento dell’apparato uditivo. Ad ulteriore conferma di questo fatto, la terza parte di questa sezione svelerà alcuni meccanismi che modificano la percezione dello stesso suono al variare di alcuni parametri come per esempio la posizione della sorgente sonora rispetto a quella dell’ascoltatore.
50
3.2. L’orecchio umano L’orecchio umano agisce da trasduttore nel trasformare energia acustica, prima in energia meccanica e successivamente in energia elettrica. Una volta che l’energia è stata convertita dalla forma meccanica a quella elettrica dall’orecchio, gli impulsi elettrici arrivano al cervello attraverso delle terminazioni nervose. Qui vengono elaborati permettendo la percezione del suono e, dulcis in fundo, l’ascolto della musica. L’apparato uditivo è composto da tre sezioni: l’orecchio esterno, l’orecchio medio e l’orecchio interno.
Orecchio umano L’analisi del funzionamento di queste tre sezioni ci permetterà di capire il meccanismo di percezione del suono e saremo in grado di individuare quali parametri modificare sul suono che stiamo trattando per ottenere il risultato che vogliamo.
3.2.1. Orecchio esterno Il primo organo che il suono incontra quando raggiunge l’orecchio è il padiglione auricolare. Questo offre una vasta superficie al fronte sonoro e permette di raccogliere un’ampia porzione del fronte d’onda (per ottenere una superficie più ampia si portano le mani alle orecchie come viene istintivo fare quando si ascolta un suono molto debole). Il suono viene riflesso dal padiglione auricolare e concentrato verso il condotto uditivo la cui lunghezza è mediamente pari a 3 cm. 3.2.1.1. Frequenza di risonanza del condotto uditivo C’è una formula empirica che restituisce la frequenza di risonanza [Vedi: Risonanza] di un tubo al quale possiamo senz’altro approssimare il condotto uditivo. La formula in questione dice che un tubo riempito di aria di lunghezza l ha una frequenza di risonanza circa pari a (considerando che la lunghezza del condotto uditivo è di circa 3 cm): Equazione 3.1. condotto uditivo e lunghezza d’onda Dalla lunghezza d’onda ricaviamo la frequenza di risonanza: Equazione 3.2. Calcolo della frequenza di risonanza del condotto uditivo
Abbiamo appena scoperto che la frequenza di risonanza dell’orecchio umano è mediamente di 3KHz. Questo significa che quando un gruppo di frequenze di valore intorno a 3KHz arrivano all’orecchio, il condotto uditivo entra in risonanza e dunque quelle frequenze subiscono una naturale amplificazione.
3.2.2. Orecchio medio Il condotto uditivo termina su una membrana, il timpano, che vibra in accordo con il suono che ha raggiunto l’orecchio. Dalla parte opposta del timpano sono collegati tre ossicini chiamati: martello, incudine e staffa. Questi hanno la funzione di amplificare la vibrazione del timpano e ritrasmetterla alla coclea, un ulteriore osso la cui funzione verrà spiegata tra un momento. Questa amplificazione si rende necessaria in quanto mentre il timpano è una membrana molto leggera sospesa in aria, la coclea è riempita con un fluido denso e dunque molto più difficile da mettere in vibrazione. I tre ossicini sono tenuti insieme da una serie di piccoli legamenti che hanno l’ulteriore funzione di impedire che seguano una vibrazione molto ampia con il rischio di rimanere danneggiati nel caso in cui l’orecchio venga sottoposto ad una pressione sonora troppo elevata. 51
Un’apertura all’interno dell’orecchio medio porta alla cosiddetta tuba di Eustachio che consiste in un canale che conduce verso la cavità orale. La sua funzione è quella di dare uno sfogo verso l’esterno in modo da equilibrare la pressione atmosferica ai due lati del timpano (ecco perché sott’acqua è possibile compensare la pressione esterna, che aumenta con la profondità, aumentando la pressione interna tappando il naso e soffiandoci dentro).
3.2.3. Orecchio interno Questa sezione dell’orecchio effettua la conversione dell’energia meccanica in impulsi elettrici da inviare al cervello per l’elaborazione del suono. L’ultimo dei tre ossicini di cui sopra, la staffa, è in contatto con la coclea attraverso una membrana che viene chiamata finestra ovale. La coclea è un osso a forma di chiocciola contenente del fluido (è dotata di tre piccoli canali circolari orientati secondo le tre direzioni dello spazio che vengono utilizzati dal cervello per la percezione dell’equilibrio dunque questa funzionalità esula completamente dalla nostra trattazione). Il fluido riceve la vibrazione dalla staffa attraverso la finestra ovale e la trasporta al suo interno dove è presente il vero organo deputato alla conversione dell’energia meccanica in energia elettrica: l’organo del Corti. All’interno dell’organo del Corti troviamo la membrana basilare che ospita una popolazione di cellule ciliate, circa 16000 tra cellule interne ed esterne, che vibrano in accordo con la vibrazione del fluido. Ogni gruppo di cellule è collegato ad una terminazione nervosa in grado di convertire la vibrazione ricevuta dal fluido in impulsi elettrici da inviare al cervello per essere elaborati e percepiti come suoni. Naturalmente, una singola frequenza non andrà ad eccitare una ciglia singola, ma ne ecciterà un gruppo. L’estensione delle ciglia eccitate dalla singola frequenza viene denominata banda critica ed è alla base di molti fenomeni di psicoacustica. Infatti, due suoni diversi che eccitano due bande critiche che si sovrappongono vengono interpretati dal cervello in maniera diversa da due suoni le cui bande critiche non si sovrappongono. Quando le bande critiche generate dai due suoni si sovrappongono, nella zona comune lo stesso gruppo di ciglia sta vibrando sollecitato da entrambi i suoni, dunque il cervello non sa a quale dei due associare la vibrazione. Questo particolare funzionamento della membrana basilare è all’origine di molti fenomeni psicoacustici che, in quanto tali, non appartengono alla realtà del suono ma alla sua interpretazione da parte dell’apparato uditivo. Chiudiamo questa breve descrizione citando il fatto che l’estensione della banda critica cresce all’aumentare della frequenza. Il fenomeno delle bande critiche è all’origine del fenomeno del mascheramento, utilizzato in molti algoritmi di compressione di dati audio [Vedi: Il MiniDisc] , che consiste nell’eliminare le informazioni relative a frequenze che cadono nella stessa banda critica, sostituendole con una sola frequenza rappresentativa di tutte. In teoria, essendo le frequenze rimosse appartenenti alla stessa banda critica di quella tenuta come rappresentativa, il suono percepito non verrà degradato più di tanto, mentre l’informazione sonora da memorizzare sarà diminuita, realizzando così la compressione dei dati. Il concetto di banda critica è alla base anche di un altro fenomeno psicoacustico: i battimenti [Vedi: Battimenti] e si verifica quando le due frequenze che originano il battimento ricadono nella stessa banda critica (infatti questo fenomeno si verifica quando le due frequenze sono molto vicine).
52
3.3. Curve isofoniche Le curve isofoniche sono grafici molto importanti che permettono di avere un riferimento su come l’orecchio umano reagisca alle diverse frequenze. Sono state ricavate elaborando i dati su un campione statistico sottoposto ad una serie suoni prodotti in una camera anecoica. Tale camera viene disegnata con lo scopo di ridurre al minimo le riflessioni sulle pareti in modo che l’ascoltatore sia raggiunto unicamente dal segnale diretto. Le curve indicano come l’orecchio umano reagisca diversamente alle varie frequenze in termini di intensità sonora percepita. Supponiamo di avere una sorgente sonora in grado di generare onde sinusoidali con frequenza variabile e ampiezza costante. Fissando l’ampiezza per esempio a 80 dBspl [7] noteremmo che un ascoltatore percepisce le basse frequenze come aventi un volume molto basso e man mano che frequenza viene aumentata avrebbe la percezione che anche il volume aumenta (mentre la pressione sonora realmente generata è sempre di 80 dBspl). Questo comportamento si spiega con il fatto che l’orecchio umano ha una percezione diversa dell’intensità sonora al variare della frequenza.
Curve Isofoniche Le curve isofoniche sono dette tali in quanto indicano il valore di dBspl necessario per percepire un suono sempre allo stesso volume lungo ogni curva. La frequenza di riferimento per ogni curva è 1KHz e a tale frequenza, il valore di dBspl è pari al valore che identifica una particolare curva e che prende il nome di phon. Per esempio la curva isofonica a 40 phon è quella che a 1 KHz ha un’ampiezza di 40 dBspl. Prendiamo una delle curve, per esempio quella a 80 phon e seguiamola dalle basse verso le alte frequenze. Vediamo che a 20 Hz è necessario produrre una pressione sonora di 118 dBspl e questo ci mostra come l’orecchio umano abbia una minore sensibilità alle basse frequenze. Scorrendo la curva verso le alte frequenze vediamo che affinché l’orecchio percepisca sempre la stessa intensità sonora sono necessari livelli di pressione sonora più bassi. A 1KHz incontriamo il valore di riferimento della curva isofonica che stiamo considerando, dunque 80 dBspl. Oltre questo valore vediamo che la curva ha un minimo in corrispondenza dei 3KHz e vediamo come affinché l’orecchio percepisca sempre la stessa pressione sonora, la frequenza di 3 KHz deve generare 70 dBspl. Confrontando questo valore con quello a 20 Hz notiamo una differenza di circa 50 dBspl in meno, è una differenza enorme. Questo valore di minimo dipende dal fatto che la frequenza di risonanza del condotto uditivo è di circa 3 KHz [Vedi: Orecchio esterno] e dunque tale frequenza viene percepita già a bassi valori di dBspl. Oltre i 3 KHz la curva risale mostrando il livello di dBspl necessario per avere la stessa percezione di volume alle alte frequenze. Le curve vengono mostrate per diversi valori di phon in quanto il comportamento dell’orecchio varia ai diversi valori della pressione sonora. Notiamo come per elevati valori della pressione sonora, l’andamento delle curve isofoniche è quasi piatto.
3.3.1. Loudness Il controllo di loudness negli amplificatori casalinghi è regolato proprio dall’andamento di queste curve. Quando il volume è molto basso, l’inserimento del circuito di loudness avrà come effetto quello di aumentare le basse frequenze allineandone l’ampiezza con le altre. Per volumi elevati, questo allineamento avviene in modo naturale da parte dell’orecchio e dunque l’azionamento del loudness a questi volumi avrà un effetto pressoché nullo.
3.3.2. Descrizione delle curve isofoniche 3.3.2.1. Soglia di udibilità (0 phons) La curva isofonica più bassa di tutte viene denominata soglia di udibilità e indica la più piccola variazione di pressione che l’orecchio è in grado di individuare alle diverse frequenze:
53
Tabella 3.1. Alcuni valori di riferimento per le frequenze Zona di frequenza Hz Riferimento Basse frequenze Alte frequenze
dBspl
1000 5 50 42 10000 15
La tabella precedente mostra alcuni valori di riferimento relativi a questa curva (che rappresenta il limite al di sotto del quale non viene percepito alcun suono). Ricordiamo che queste curve sono ottenute elaborando dati statistici e dunque che i valori che stiamo considerando possono avere differenze anche notevoli da individuo a individuo. 3.3.2.2. Soglia del dolore (120 phons) Per pressioni sonore i cui valori si trovano al di sopra di questa curva l’orecchio comincia a percepire dolore fisico e per esposizioni prolungate si possono generare danni non reversibili. Il volume ideale per eseguire un missaggio (mixdown) è intorno a 80-90 phons [Vedi: Il missaggio] . A questi valori il bilanciamento dei volumi delle frequenze è abbastanza uniforme. Se il mixdown venisse eseguito a un volume troppo basso, per esempio a 40 phons, si avrebbe una minore percezione dei bassi e si potrebbe essere tentati ci compensare agendo sugli equalizzatori. Una volta però che il nostro mix fosse riascoltato al 80 phons risulterebbe inondato di bassi…
[7] Questa grandezza descrive l’intensità sonora di un suono. Per una dettagliata descrizione si rimanda al capitolo relativo
[Vedi: Decibels] .
54
3.4. Psicoacustica Senza entrare in discorsi filosofici che, per quanto interessanti non contribuirebbero a raggiungere le finalità di questo corso, diremo solo che la percezione di un suono, come quella della realtà del resto, è un concetto in gran parte soggettivo. Un suono in sé stesso è quello che è, ma la nostra percezione varia in quanto dipende da innumerevoli variabili. Alcune di queste variabili sono: la nostra posizione rispetto al suono, le condizioni del nostro apparato uditivo e soprattutto la forma che il cervello conferisce al suono. L’udito, al pari della vista che interpreta la luce, è capace di percepire solo una parte delle onde acustiche che ci circondano e dunque restituisce un quadro parziale. Inoltre le onde percepite vengono elaborate dal cervello che così ‘interpreta’ i suoni che deve elaborare. La psicoacustica studia i meccanismi di elaborazione del suono da parte del cervello. La conoscenza di questi meccanismi è fondamentale nella pratica sul suono poiché permette, effettuando le opportune manipolazioni, di ottenere effetti sonori molto sofisticati. Nel seguito verrà descritto il comportamento del suono dal punto di vista della sua percezione e si mostrerà come in determinate condizioni sia evidente l’azione del cervello che interpreta la realtà sonora piuttosto che restituirla fedelmente.
3.4.1. Battimenti Il fenomeno dei battimenti si manifesta quando siamo in presenza di due suoni le cui frequenze differiscono di poco. In questo caso, non siamo in grado di percepire distintamente i due suoni ma percepiamo un unico suono simile a un battito il cui ritmo è dato dalla differenza delle due frequenze originarie. Se queste frequenze sono troppo diverse tra di loro il cervello non è più in grado di percepire il suono differenza. Questo dipende dal fatto che le due frequenze, per essere percepite come battimento, debbono eccitare ciglia appartenenti alla stessa banda critica [Vedi: Orecchio interno] . La frequenza del battimento è pari al numero di volte che le due sinusoidi componenti vanno in fase e fuori fase in un secondo. Vediamo un esempio pratico consideriamo due sinusoidi pure di frequenza pari a 400 Hz e 405 Hz. Esempio sonoro 3.1. Onda sinusoidale pura (f=400 Hz) [Traccia 11]
Esempio sonoro 3.2. Onda sinusoidale pura (f=405 Hz) [Traccia 12]
Esempio sonoro 3.3. Somma di due sinusoidi di frequenze: 400 Hz e 405 Hz [Traccia 13]
Come si può ascoltare, nella somma delle sinusoidi viene introdotta una nuova oscillazione. Se le due frequenze componenti fossero state più distanti questo fenomeno non si sarebbe manifestato (vedi esempio nella sezione dedicata alla teoria del suono [Vedi: Combinazione di sinusoidi pure] ). La figura mostra la forma d’onda ottenuta come combinazione delle due precedenti:
Somma di due sinusoidi di frequenza 400 Hz e 405 Hz
3.4.2. Effetto Haas Prende il nome di effetto Haas un determinato fenomeno fisico che riguarda la percezione del suono da parte del cervello. Consideriamo il caso di un suono generato da una sorgente sonora, immaginiamo di essere in una stanza e di posizionarci ad una certa distanza dalla sorgente. A causa delle riflessioni del suono sulle pareti saremo raggiunti prima di tutto dal segnale proveniente direttamente dalla sorgente e in un secondo momento dalle riflessioni del segnale stesso sulle pareti della stanza. Questo ritardo è dovuto al fatto che il suono riflesso compie un percorso più lungo del segnale diretto. Se i due segnali arrivano con un piccolo ritardo l’uno dall’altro, viene percepito dal cervello un unico suono proveniente da una sola direzione. La direzione individuata dal cervello come quella di provenienza del suono è quella dell’onda che arriva per prima (questo vale anche se l’intensità della seconda onda è maggiore della prima) e per questo motivo questo effetto prende anche il nome di effetto di precedenza. Questo effetto si verifica quando il ritardo tra i due segnali è sufficientemente piccolo, più in particolare deve essere minore di 30-35ms. Questo intervallo temporale viene definito come zona di Haas. Si precisa che la zona di Haas varia fortemente con le caratteristiche del segnale percepito, in particolare per un segnale percussivo (colpo di rullante) la zona di Haas risulta più stretta rispetto al caso di un segnale con un inviluppo esteso (nota di violino). Quando il ritardo fra i segnali esce dalla zona di Haas avvertiamo due segnali distinti ed entriamo nel caso dell’effetto eco per cui l’ascoltatore percepisce i due suoni separati. L’effetto Haas viene sfruttato nei sistemi di rinforzo sonoro sui segnali che vengono spediti alle torri di ritardo [Vedi: Rinforzo sonoro: torri di ritardo] e nel mixing con l’obiettivo di allargare l’immagine 55
stereofonica di un suono [Vedi: Effetto Haas e spazializzazione stereo di un suono mono] .
3.4.3. Stereofonìa Uno dei fattori più importanti nella percezione del suono deriva dal fatto che il cervello si trova a elaborare due flussi di informazione contemporaneamente: quelli che provengono dall’orecchio destro e da quello sinistro. Sono le differenze, a volte anche minime, tra questi due segnali che determinano la nascita di una nuova informazione associata alla composizione delle due onde sonore. In questo caso parliamo di suono stereofonico. Quando invece i due segnali che arrivano alle orecchie sono esattamente uguali parliamo di suono monofonico. La stereofonìa nasce nel momento in cui all’orecchio destro e quello sinistro arrivano due onde sonore diverse. La combinazione delle informazioni trasportate dalle due onde permette di percepire la spazialità di un suono: la sua distanza da noi e la sua posizione, l’ambiente in cui si propaga e il tipo di percorso che ha fatto (si, tutte queste cose!). Se potessimo ascoltare solo con un orecchio, alcune di queste informazioni non sarebbero disponibili per l’elaborazione da parte del cervello e la percezione della spazialità di un suono sarebbe molto ridotta[8]. Dato che disponiamo di due orecchie, siamo abituati ad un ascolto naturalmente stereofonico. Ciò ci permette di individuare la direzione di provenienza di un suono e il tipo di ambiente in cui si è propagato [Vedi: Localizzazione di una sorgente sonora] . Il fatto di disporre di due orecchie ha portato l’industria audio a realizzare impianti di diffusione stereofonici, ossia con due diffusori che riproducono due segnali sonori distinti. I diffusori di un impianto stereofonico dovranno essere disposti rispetto all’ascoltatore sui vertici di un triangolo equilatero, dunque dovranno essere inclinati di 60° verso l’ascoltatore. Con questa disposizione, mandando ai diffusori lo stesso identico suono, questo ci apparirà come proveniente dal centro in quanto si genera un’immagine fantasma che il nostro cervello identificherà come proveniente dal centro.
Disposizione stereofonica A questo punto, mandando ad esempio un suono monofonico più sul canale destro (right) che sul canale sinistro (left) percepiremo quel suono come proveniente dalla parte destra del fronte stereofonico. Parliamo in questo caso (e in casi analoghi) di stereofonia artificiale in quanto le differenze tra i due segnali left e right sono solo di volume. Se realizziamo invece una registrazione di un sorgente sonora stereofonica utilizzando una tecnica di microfonaggio stereofonica [Vedi: Tecniche di microfonaggio stereo] , che dunque prevede la registrazione di due segnali distinti, la riproduzione su un impianto stereofonico produrrà una stereofonia reale. Come abbiamo accennato, è pratica assai comune quella di spostare una sorgente monofonica (come ad esempio una chitarra) a destra o a sinistra del fronte stereofonico, posizionandola in una posizione intermedia. Questo viene fatto con il potenziometro panpot [Vedi: Panpot] , disponibile su qualsiasi mixer (analogico, digitale, software). Quando invece abbiamo già un segnale stereofonico e vogliamo alzare un canale a discapito dell’altro allora utilizziamo il potenziometro balance, che troviamo spesso negli amplificatori stereofonici. A volte è utile rendere stereofonica una sorgente monofonica, come per esempio un suono di chitarra. I modi per realizzare tale obiettivo sono molteplici: sfruttamento dell’effetto haas, aggiunta di un effetto stereofonico (riverbero, chorus), registrazione di due linee musicali uguali ma suonate due volte (ogni linea verrà indirizzata su un singolo canale left e right, il risultato saranno due linee simili ma non uguali, le differenze saranno percepite come un allargamento dell’immagine stereofonica). Decentrare in questo modo i suoni in un mix permette di creare uno spazio centrale dove inserire più agevolmente i suoni principali, come per esempio una voce solista. Questa tecnica permetterà di avere un mix che respira molto di più di un mix dove tutti i suoni sono posizionati al centro uno sull’altro.
3.4.4. Fusione binaurale La fusione binaurale è quella facoltà del cervello per la quale due segnali simili che arrivano alle due orecchie vengono fusi in un unico segnale; il nuovo segnale è per così dire una creazione del cervello che non esiste nella realtà. Consideriamo per esempio uno xilofono. Eseguiamo una linea melodica e la registriamo su una traccia, successivamente eseguiamo la stessa linea con qualche leggera modifica e la registriamo su un’altra traccia. Facciamo suonare le due linee contemporaneamente mandando una linea sul canale sinistro e l’altra linea sul canale destro. Quello che ne esce è una terza linea melodica derivante dalla fusione delle due precedenti ma che nella realtà non esiste. Questo è uno dei segreti della magia della musica: i singoli strumenti eseguono delle linee melodiche e se facciamo attenzione riusciamo ad isolarle e ad ascoltarle singolarmente, anche quando gli strumenti suonano tutti insieme. Ma quando lasciamo questa prospettiva e ci spostiamo su un piano più astratto, è in quel momento che riusciamo a percepire ciò che non esiste, la combinazione di tutti i suoni che creano un’armonia: è in quel momento che la musica nasce!
3.4.5. Volume e frequenza percepita 56
Lo stesso suono viene percepito più acuto se il volume viene aumentato in maniera considerevole. Le ragioni di tale fenomeno non sono ancora del tutto chiare.
3.4.6. Mascheramento Una frequenza con ampiezza elevata può mascherare frequenze vicine con ampiezze inferiori in quanto frequenze vicine vengono decodificate da ciglia appartenenti alla stessa banda critica. Questa proprietà viene massicciamente sfruttata per realizzare algoritmi di compressione dei dati audio in formato digitale quali l’MP3 e l’ATRAC impiegato sui sistemi MiniDisc [Vedi: Il MiniDisc] . Tali algoritmi consentono compressioni dell’ordine di 5:1.
3.4.7. Ambiente Il suono di uno strumento cambia a seconda dell’ambiente in cui si trova. Le prime riflessioni cadono tutte all’interno della zona di Haas e contribuiscono in modo fondamentale a caratterizzare la spazialità dello strumento.
3.4.8. Soppressione della colorazione Due segnali provenienti dalla stessa sorgente sonora creano delle differenze di fase che vengono interpretate dal cervello. Queste appaiono sgradevoli se ascoltate con un solo orecchio mentre creano un effetto piacevole se ascoltate con entrambe le orecchie.
3.4.9. Ricostruzione della fondamentale Abbiamo visto come l’esecuzione di una nota provochi l’eccitazione della frequenza fondamentale e di tutte le armoniche essendo queste le frequenze multiple della fondamentale [Vedi: Contenuto armonico di un suono] . Il cervello è in grado di ricostruire, anche se con un certo errore, la fondamentale a partire dalle armoniche superiori. Per contestualizzare questa proprietà pensiamo ad una radiolina da stadio con il suo piccolo, rigidissimo altoparlante che suona la canzone dell’estate. Questa viene riprodotta con una banda di frequenze ridottissima ma è comunque individuabile la linea di basso grazie alla capacità del cervello di ricostruire la fondamentale a partire da informazioni sulle armoniche.
3.4.10. Effetto cocktail party Descrive la capacità del cervello di reperire un segnale all’interno di un gruppo di segnali sonori sovrapposti. Pensate ad esempio ad una sala di ristorante in cui si può sentire un brusio generalizzato ma anche concentrarsi su una singola conversazione.
[8] Anche l’organo della vista presenta, in un certo senso, un funzionamento analogo in quanto la percezione della distanza
di un oggetto è molto più precisa utilizzando i due occhi insieme invece che uno solo. La prova pratica è presto fatta: fissate un oggetto a distanza e poi copritevi un occhio…
57
3.5. Illusioni acustiche L’apparato uditivo è uno strumento sofisticato ma con dei limiti sia fisici che percettivi. Il limite fisico più evidente è l’impossibilità da parte dell’orecchio di percepire suoni con frequenza inferiore ai 20Hz e superiore ai 20KHz, nonostante queste frequenze esistano in natura (altri apparati uditivi non possono udire frequenze che noi percepiamo normalmente ma ne possono udire altre, che a noi sono precluse, come ad esempio gli ultrasuoni udibili dai pipistrelli o gli infrasuoni udibili dalle balene). In questo senso, si può tracciare un’analogia diretta tra orecchio e occhio, ossia tra visione e ascolto. Infatti, anche l’occhio non può vedere frequenze al di là delle sue possibilità (la luce è un’onda elettromagnetica la cui frequenza definisce il colore da noi percepito), come i raggi infrarossi (a cui possiamo associare gli infrasuoni, che si trovano al di sotto della frequenza minima percepibile dall’orecchio) e i raggi ultravioletti (a cui possiamo associare gli ultrasuoni, che si trovano al di sopra della frequenza massima percepibile dall’orecchio). Come accennato all’inizio, oltre ai limiti fisici di tali apparati, esistono anche limiti percettivi. L’occhio per esempio può facilmente essere ingannato dalle cosiddette illusioni ottiche. Per esempio nella figura seguente, l’illusione consiste nel fatto che le righe orizzontali sembrano tutte incurvate, mentre in realtà sono perfettamente orizzontali (per gli scettici: prendete un righello e seguitele con quello):
Illusione Ottica Al pari dell’occhio, anche l’orecchio può essere ingannato sfruttando i suoi limiti percettivi: parliamo in questo caso di illusioni acustiche. Queste sfruttano i limiti dei meccanismi percettivi del suono, come le illusioni ottiche sfruttano i meccanismi percettivi della luce. La conoscenza di questi limiti apre nuove porte alla sperimentazione e all’investigazione del suono.
3.5.1. Scala di Shepard Un’interessante illusione acustica è la cosiddetta Scala di Shepard (dal nome del suo autore) che consiste in una scala musicale ascendente (o discendente) che non finisce mai. Questa illusione può essere associata a livello visivo alla scala infinita di Penrose, visualizzata nella figura seguente, in cui si ha l’illusione che la scala sia sempre in salita (o in discesa) creando un paradosso ottico.
Scala infinita di Penrose Di seguito abbiamo un suono che percorre la scala di Shepard. Suonando di nuovo l’esempio (che naturalmente è sempre lo stesso) abbiamo l’impressione che la scala evolva continuamente verso l’alto: Esempio sonoro 3.4. Scala di Shepard discreta [Traccia 19]
Si può avere la stessa illusione anche con un suono continuo, l’esempio sonoro seguente ne è una dimostrazione: Esempio sonoro 3.5. Scala di Shepard continua [Traccia 20]
Il “trucco” di questa illusione sta nel generare ogni suono della scala con più note distanziate da un’ottava. Man mano che si sale di nota, il volume delle note alte scende mentre quello delle note basse sale. Il cervello non si accorge che la frequenza più alta che sta seguendo è rimpiazzata piano piano da quella ad un’ottava inferiore e quando il giro finisce l’ottava più alta è stata completamente rimpiazzata da quella più bassa, senza che ci si sia accorti di nulla (in realtà, per una buona riuscita dell’inganno psicoacustico, sono necessarie almeno quattro scale posizionate su quattro ottave diverse e i volumi di ognuna 58
opportunamente configurati). Questa illusione acustica è stata sfruttata nel pezzo musicale chiamato “La scala del diavolo”, opera del compositore György Ligeti (1923-2006): Esempio sonoro 3.6. György Ligeti - “La scala del diavolo” [Traccia 21]
3.5.2. Illusione dell’ottava L’illusione dell’ottava è un fenomeno psicoacustico che si verifica alternando rapidamente due suoni distanti un’ottava. Quando un orecchio ascolta questa variazione (nota bassa -> nota alta -> nota bassa ecc) e l’altro ascolta la variazione inversa (nota alta -> nota bassa -> nota alta ecc), il cervello viene ingannato percependo da una parte un tono alto e dall’altra un tono basso. L’aspetto singolare di questa illusione è che i mancini hanno l’illusione opposta. Il suono seguente è un esempio di illusione dell’ottava. Per una buona riuscita di questa illusione, l’ascolto va effettuato rigorosamente in cuffia. Durante l’ascolto si provi a invertire la posizione della cuffia: nonostante l’inversione, il suono acuto verrà identificato dallo stesso lato di prima. Esempio sonoro 3.7. Illusione dell’ottava [Traccia 22]
59
3.6. Localizzazione di una sorgente sonora Si consideri lo scenario sorgente-ascoltatore della figura seguente:
Tempi di interarrivo I segnali che arrivano alle due orecchie presentano delle differenze:
3.6.1. Differenze di tempo (fase) Dalla figura precedente si vede come la distanza dalla sorgente sonora delle due orecchie sia diversa e ciò si traduce in una differenza nel tempo di arrivo, denominato tempo di interarrivo, di ciascun segnale (nel caso pratico della figura, il segnale arriva prima all’orecchio destro e poi all’orecchio sinistro). Naturalmente ciò implica una differenza di fase in quanto ritardo in tempo e differenza di fase sono intrinsecamente correlate [Vedi: Relazione tra sfasamento e ritardo] .
3.6.2. Differenze di ampiezza Le ampiezze dei due segnali sono diverse sia perché l’ampiezza diminuisce all’aumentare della distanza sia perché il segnale che deve raggiungere l’orecchio più lontano deve aggirare l’ostacolo della testa e nel fare ciò perde energia. Inoltre le frequenze più alte non riusciranno proprio a superare l’ostacolo quindi i due segnali differiranno anche per il contenuto in frequenza. Questo è il motivo per cui risulta difficile individuare la direzione di provenienza delle basse frequenze: queste sono in grado di oltrepassare gli ostacoli senza una perdita di energia rilevante e dunque i suoni che arrivano alle due orecchie sono pressoché identici. Nel caso in cui la sorgente sonora sia esattamente dietro l’ascoltatore, la direzione viene individuata poiché viene riscontrata una mancanza delle alte frequenze che vengono bloccate dal padiglione auricolare.
3.6.3. Differenze nel contenuto armonico Riferendoci sempre alla figura precedente vediamo che una delle due onde deve “girare attorno” alla testa per raggiungere l’orecchio più lontano. Ciò comporta una leggera perdita sulle alte frequenze a causa della diffrazione [Vedi: Diffrazione] . Mettiamo ora in pratica ciò che abbiamo imparato sul contenuto armonico di un suono modificato dal padiglione auricolare. Supponiamo di eseguire un missaggio in cui è presente un flautino che ogni tanto fa capolino tra gli altri strumenti. Se vogliamo che sia una presenza eterea, avvolgente, indefinita, possiamo intervenire sul suono tagliandone le alte frequenze. Viceversa, dato che riusciamo ad individuare più facilmente la direzione di un suono con un elevato contenuto di alte frequenze rispetto ad uno contenente solo basse frequenze, se vogliamo che il flautino sia ben presente anche se lontano ad esempio sulla destra del nostro mix, metteremo il pan-pot [Vedi: Panpot] a destra e accentueremo le alte frequenze (facendo naturalmente attenzione a non snaturare il suono).
60
3.7. Lo spettro delle frequenze udibili Abbiamo detto che l’insieme delle frequenze udibili dall’orecchio umano si estende idealmente dai 20Hz ai 20KHz. Vediamo ora di caratterizzare meglio questa gamma di frequenze in modo da avere un’idea di dove collocare i suoni che ascoltiamo. La tabella seguente suddivide l’intero spettro di frequenza in porzioni di interesse dandone una breve descrizione. Tabella 3.2. Descrizione delle bande di frequenza udibili Nome
Commenti
Suono di esempio
Frequenze Esempio sonoro 3.8. 20HzE’ per convenzione il range teorico udibile dall’orecchio umano. Nella udibili 20Hz20KHz [Traccia 87] pratica la finestra è più stretta e varia da persona a persona (ad es. 20KHz (10 35Hz-17KHz). ottave) Frequenze subsoniche Non sono udibili dall’orecchio umano. Sono generate per esempio dai Esempio 1Hz-20Hz (4 terremoti o dai grossi organi a canne delle chiese. applicabile ottave) Bassissime è l’ottava più bassa udibile dall’orecchio. Cadono in questa zona le frequenze Esempio armoniche più basse della cassa della batteria e le note basse del 20Hz-40Hz (1 applicabile pianoforte nonché il rumore di tuono e quello dell’aria condizionata. ottava) Basse frequenze Quasi tutte le basse frequenze della musica cadono in questa zona. 40Hz-160Hz (2 ottave)
sonoro
3.9.
non
sonoro
3.10.
non
Esempio sonoro 3.11. 40Hz160Hz [Traccia 88]
Frequenze Esempio sonoro 3.12. 160HzCade in questa zona il Do centrale del pianoforte (261Hz). Questa medio-basse 315Hz [Traccia 89] zona contiene molte delle informazioni del segnale sonoro che può 160Hz-315Hz essere pesantemente alterato con una sbagliata equalizzazione. (1 ottava) Frequenze Esempio sonoro 3.13. 315HzL’orecchio è sensibile a questa zona. Questa banda, se presa medie 315Hz2.5KHz [Traccia 90] singolarmente, restituisce un suono di qualità simile a quella 2.5KHz (3 telefonica. ottave) Frequenze In questa zona la curva isofonica [Vedi: Curve isofoniche] ha il suo Esempio sonoro 3.14. 2.5KHzmedio-alte picco maggiore dunque è la zona in cui l’orecchio è più sensibile. 5KHz [Traccia 91] 2.5KHz-5KHz Equalizzare uno strumento in questa zona ne aumenta o diminuisce la (1 ottava) presenza nel mix facendolo risultare di primo piano rispetto agli altri. è la zona che ci fa percepire la brillantezza anche perché contiene Esempio sonoro 3.15. 5KHzFrequenze alte molte delle armoniche delle note generate nelle fasce precedenti. Il 10KHz [Traccia 92] 5KHz-10KHz tasso di energia acustica contenuta in questa zona è molto basso. (1 ottava) Troviamo in questa zona alcune consonanti come la ‘s’, la ‘t’ e la ‘c’. Frequenze molto alte 10KHz20KHz (1 ottava)
Ancora meno energia acustica in questa zona. Sono presenti solo le Esempio sonoro 3.16. 10KHzarmoniche più alte di alcuni strumenti. Tuttavia eliminando questa 20KHz [Traccia 93] banda (per esempio con un equalizzatore), un mix diventerebbe ‘opaco’.
61
Capitolo 4. Fondamenti di elettronica 4.1. Introduzione In questa sezione verranno esposte delle nozioni fondamentali di elettronica che consentiranno una comprensione approfondita di tutti gli argomenti trattati in questo testo. Praticamente ogni aspetto dell’ingegneria del suono, nel momento in cui una pressione sonora viene convertita in un segnale elettrico, coinvolge principi e leggi di elettronica; la comprensione di tali concetti permette di operare con cognizione di causa all’interno del contesto con cui si ha a che fare e di ottenere i migliori risultati. Si tratta di un argomento vasto e complesso, di cui vengono presentati qui i principali concetti senza scendere nel dettaglio tecnico e matematico, pur mantenendo il rigore scientifico. L’obiettivo è quello di fornire allo studente un bagaglio di conoscenze di base per affrontare la pratica lavorativa nel settore dell’audio. La sezione potrà essere integrata con altri testi specifici sull’argomento, a seconda del taglio e delle finalità del singolo corso di tecnica del suono di cui questo testo è supporto didattico.
62
4.2. L’elettricità Questo è un termine generico che racchiude in sé una serie di grandezze e di regole che ci apprestiamo ad approfondire. Per ogni grandezza introdotta, verrà anche associata una lettera che la identifica all’interno delle formule e dei circuiti in cui questa è coinvolta. La grandezza fisica più importante è la corrente (I) che viene misurata in Ampere, generata dallo scorrimento di elettroni all’interno di un conduttore. Quest’ultimo, come ogni elemento fisico esistente, è composto da atomi, essendo un atomo schematizzabile come una particella dotata di un nucleo che possiede una carica definita convenzionalmente come positiva e un certo numero di elettroni (caricati negativamente) che orbitano attorno al nucleo dotato di carica positiva (naturalmente le cose stanno in modo infinitamente più complicato ma questo è un corso sulla tecnica del suono e non sulla meccanica quantistica e quindi ci sentiamo liberi di operare le semplificazioni necessarie alle nostre dissertazioni, purché queste non stravolgano troppo la realtà). Gli elettroni sono trattenuti dal nucleo dalla opposta polarità in quanto due elementi dotati di carica opposta si attraggono mentre due elementi con stessa polarità si respingono. La forza con cui questi due poli si attraggono varia a seconda del tipo di atomo (ossia a seconda del materiale che stiamo considerando): per i metalli è una forza molto debole, per i materiali isolanti è una forza molto più difficile da vincere. Come vedremo, è questo il motivo per cui i metalli sono degli ottimi conduttori mentre gli isolanti non lo sono. Consideriamo infatti un cavo di rame, materiale altamente conduttore, ai cui due estremi applichiamo due cariche: una positiva e una negativa.
Generazione di una corrente Gli elettroni appartenenti agli atomi di rame all’interno del conduttore, essendo di polarità negativa, verranno attirati verso la carica positiva e respinti dalla carica negativa. Proprio perché il legame tra gli elettroni e il nucleo è molto debole nei materiali conduttori, gli elettroni vengono ‘strappati’ al nucleo generando così un flusso di cariche (q). La misura della quantità di carica viene data in Coulomb (C). A questo punto ne sappiamo abbastanza per definire una corrente come la quantità di carica che scorre in un conduttore nell’unità di tempo (1 secondo). La misura della corrente viene data in Ampere[9]. Definiamo meglio le cariche che abbiamo applicato al conduttore. Un accumulo localizzato di cariche di segno positivo o negativo viene definito come potenziale. Applicando due cariche diverse ai capi del conduttore si genera una differenza di potenziale che viene definita come tensione (V) e viene misurata in Volt. Applicando una tensione ai capi di un conduttore si ingenera lo scorrimento di una corrente il cui valore dipende dalla tensione applicata e dalle caratteristiche del conduttore. Quando la corrente o la tensione sono costanti nel tempo di parla di tensione continua o corrente continua mentre quando variano nel tempo si parla di tensione alternata o corrente alternata. Un classico esempio di tensione alternata è quello delle normali prese di corrente casalinghe in cui troviamo una tensione alternata di andamento sinusoidale con frequenza pari a 50 Hz e ampiezza costante pari a 220 Volt.
[9] Come in tutte le formule fisiche, attenzione a non confondere il simbolo della grandezza (I per la corrente) con il simbolo
della sua misura (A di Ampere che da una misura della corrente), diremo che una corrente I misura per esempio 5 Ampere. Per definizione 1 Ampere è la corrente generata da una carica di 6.241x1018 elettroni che passa attraverso un conduttore in 1 secondo. In formule: Q = I x t (Q=carica, misurata in Coulomb, I=corrente, misurata in Ampere, t=tempo, misurato in secondi).
63
4.3. Componenti elettronici La storia dell’elettronica è stata segnata dall’introduzione di componenti che hanno aperto a nuove soluzioni e tecnologie. La vera rivoluzione si è avuta con l’introduzione del transistor, preceduta da quella del diodo, che ha segnato la nascita definitiva dell’elettronica digitale portando all’introduzione dei microprocessori. Nel seguito vengono illustrati i principali componenti e le loro caratteristiche.
4.3.1. Resistenza La resistenza è un componente che si oppone al passaggio di corrente elettrica dissipando energia sotto forma di calore. Viene indicata con la lettera R e viene misurata in Ohm. Come vedremo meglio più avanti descrivendo la legge di Ohm, la resistenza lega in un’unica formula la tensione V e la corrente I. In particolare, applicando una tensione V ad una resistenza R si genera il passaggio di una corrente I e le tre grandezze in gioco sono legate da una relazione che prende il nome di legge di Ohm: Equazione 4.1. Legge di Ohm La resistenza elettrica di un conduttore dipende dalla geometria e dal materiale, oltre che dalla condizioni fisiche (in particolare dalla temperatura). Per conduttori a sezione costante (sbarre, cilindri, fili ecc) la resistenza può essere espressa nella forma: Equazione 4.2. Formula della resistività
in cui l è la lunghezza, S la sezione. ρ (lettera greca Rho) è detta resistività elettrica ed è una caratteristica propria del conduttore. Dalla formula si vede che le dimensioni della resistività sono: [Ohm/metro]. Di seguito vengono presentati alcuni valori di resistività propri di alcuni materiali misurati a temperatura ambiente costante: Tabella 4.1. Valori tipici della resistività Materiale Resistività Alluminio 2.5*10-8 Argento
1.5*10-8
Ferro
10*10-8
Zinco
5.8*10-8
Rame
1.7*10-8
Legno
108
Vetro
1010
Plastiche 1013 - 1016 Ceramica 1016 La resistività di un materiale dipende fortemente dalla sua temperatura. La relazione tra resistività e temperatura è del tipo seguente: Equazione 4.3. Relazione tra resistività e temperatura dove ρ0 rappresenta la resistività a 0°C e α è il coefficiente di temperatura ed anch’esso è caratteristico del materiale in esame.
4.3.2. Condensatore Questo componente è costituito da due placche parallele di metallo poste ad una distanza molto piccola. Se alle due placche viene applicata una tensione, queste sono in grado di mantenere la carica accumulata generando così un campo elettrico all’interno della fessura, che è assimilabile al passaggio di una corrente, come viene mostrato in figura:
64
Carica di un condensatore La quantità di carica che un condensatore è in grado di immagazzinare viene chiamata capacità elettrica (C) e viene misurata in Farad. La figura mostra un condensatore di capacità C a cui viene applicata una tensione V. La formula che lega capacità, tensione e carica (Q) accumulata è la seguente: Equazione 4.4. Carica di un condensatore
Quando ad un condensatore inizialmente scarico viene applicata una tensione, questo si comincia a caricare finché non raggiunge il massimo della carica che può accumulare. Oltre questo punto il condensatore non è ulteriormente in grado di immagazzinare carica e, se la tensione viene rimossa, il condensatore rimane carico. Un condensatore carico presenta una tensione costante ai suoi capi e se viene connesso ad una resistenza si scarica su questa generando una corrente. I due processi di carica e scarica di un condensatore non sono istantanei ma avvengono in un certo tempo che dipende dalle caratteristiche del condensatore e del circuito in cui è inserito. Durante la carica del condensatore, si ha un movimento di cariche di segno opposto che si accumulano sulle due placche e questo movimento di cariche genera una corrente. Quando il condensatore è completamente carico, non permette l’accumulo di ulteriori cariche e dunque si comporta come un circuito aperto che impedisce il passaggio di corrente. Questo comportamento è alla base del funzionamento dei filtri passa alto [Vedi: Filtri] . Pensiamo di applicare al condensatore una tensione con un andamento sinusoidale. Se la frequenza della sinusoide è tale che la semionda positiva è più rapida del tempo di carica del condensatore, questo non farà in tempo a raggiungere la sua massima carica e sopraggiungerà la semionda negativa a scaricarlo. In questo modo il passaggio di corrente all’interno del condensatore non si interrompe mai. Viceversa nel caso di una frequenza bassa, il condensatore raggiunge la sua carica massima prima che la semionda positiva si esaurisca e in quel momento blocca il passaggio di corrente. Dunque un condensatore blocca il passaggio delle basse frequenze (che ne provocano la carica completa che interrompe il passaggio di corrente) e può essere impiegato come filtro passa alto:
Semplice filtro passa alto
4.3.3. Induttore Quando un conduttore viene immerso in un campo magnetico, quest’ultimo attira gli elettroni all’interno del conduttore mettendoli in movimento e questo genera una corrente. Viceversa, in prossimità di un conduttore attraversato da una corrente si genera un campo magnetico le cui linee di forza si distribuiscono come in figura:
65
Campo magnetico indotto da una corrente in un conduttore Nei circuiti l’induttore viene identificato con la lettera L e il suo valore di induttanza viene misurato in Henry. Un induttore è in sostanza un conduttore avvolto in forma di spirale. Quando viene percorso da una corrente, si genera un campo magnetico le cui linee di forza si distribuiscono come in figura:
Campo magnetico indotto da una corrente in un induttore Un induttore può essere efficacemente impiegato come filtro passa basso sfruttando una proprietà di inerzia del campo magnetico. Applicando una corrente con un andamento sinusoidale viene generato un campo magnetico anch’esso sinusoidale. Tuttavia se la frequenza è troppo elevata, la semionda negativa genera un campo magnetico con linee di forza opposte a quelle generate dalla semionda positiva che non hanno ancora fatto in tempo a estinguersi; in questo modo viene impedito il passaggio di corrente. La figura seguente mostra un esempio di circuito con funzionalità di filtro passabasso:
Semplice filtro passabasso Combinando le azioni di condensatori e induttori si possono realizzare circuiti con funzionalità di filtro passa banda:
Semplice filtro passabanda
4.3.4. Impedenza Quando ad un condensatore viene applicato un segnale contenente un insieme composito di frequenze, come un segnale audio, reagisce in modo diverso per ogni frequenza. Inoltre, essendo ogni componente costruito con materiali che hanno una determinata resistenza, per identificare il comportamento del componente si utilizza una grandezza che tiene conto di queste caratteristiche. La grandezza prende il nome di impedenza e viene indicata con la lettera Z. Per un condensatore assume il valore seguente: Equazione 4.5. Impedenza del condensatore 66
La formula indica che l’impedenza di un condensatore dipende dalla frequenza. Inoltre ha due componenti: la prima prende il nome di resistenza e dà una misura dell’effettiva resistenza del componente, la seconda prende il nome di reattanza e introduce la dipendenza dalla frequenza. Infine il simbolo j indica che la reattanza è un numero immaginario[10]. Notare che per f=0 (è il caso della corrente continua), l’impedenza del condensatore diventa infinita simulando un circuito aperto mentre per f=infinito l’impedenza coincide con la resistenza. Analogamente, per l’induttore abbiamo un valore di impedenza pari a: Equazione 4.6. Impedenza dell’induttore Notare che per f=0 l’impedenza coincide con la resistenza mentre per f=infinito l’induttore si comporta come un circuito aperto. Da questo punto di vista, condensatore e induttore hanno comportamenti opposti.
4.3.5. Diodo Questo componente permette il passaggio di corrente in un solo verso. Applicando una tensione con un certa polarità ai suoi capi si ha uno scorrimento di corrente. Applicando la polarità opposta non si ha passaggio di corrente. Il simbolo utilizzato nei circuiti per rappresentarlo è il seguente:
Diodo Un particolare tipo di diodo è il LED (Light Emitting Diode, diodo ad emissione luminosa). Questo componente ha la proprietà di liberare un fascio di fotoni (in soldoni: si illumina) quando viene percorso da una corrente.
4.3.6. Transistor Un transistor è ottenuto configurando opportunamente due diodi. È dotato di tre connettori: base, collettore ed emettitore. Il suo simbolo è il seguente:
Transistor Viene utilizzato in diverse modalità e configurazioni. Quella che interessa nella pratica audio è la sua funzione di amplificazione. Un transistore è in grado di fornire un’amplificazione di potenza così come un’amplificazione di tensione o di corrente. Vediamo un esempio del suo funzionamento. Applicando una piccola variazione di tensione tra emettitore e base si produce una escursione relativamente elevata della corrente sull’emettitore. Una frazione di questa variazione di corrente, viene raccolta dal collettore aumentando in questo modo la differenza di potenziale tra base e collettore. Quindi, una piccola variazione di potenziale applicata tra base ed emettitore produce una relativamente elevata variazione di tensione tra base e collettore realizzando dunque un’amplificazione di tensione.
4.3.7. Amplificatore operazionale Questo tipo di amplificatore è in grado di amplificare una differenza di segnali. Il simbolo usato è il seguente:
67
Amplificatore operazionale Viene comunemente usato come stadio di ingresso per le connessioni bilanciate che sono descritte nel dettaglio nella sezione relativa alle connessioni [Vedi: Connessioni elettriche bilanciate] e nei fader di tipo VCA [Vedi: Controlli VCA] .
4.3.8. Trasformatore Questo componente sfrutta l’induzione elettromagnetica[11] dei conduttori disposti in forma di avvolgimento. Se nelle vicinanze di un avvolgimento percorso da una corrente variabile, poniamo un altro avvolgimento, il campo magnetico del primo investirà il secondo inducendo al suo interno una corrente. Il numero di spire di ogni avvolgimento determina la differenza tra le due correnti e di conseguenza determina il rapporto tra le tensioni ai capi dei due avvolgimenti. Dunque un trasformatore, come dice il nome, trasforma una tensione in un’altra. La figura seguente mostra un trasformatore in sui l’avvolgimento primario ha 20 spire e il secondario 10. Applicando una tensione di 10 V al primario si ottiene una tensione di 5 V sul secondario:
Trasformatore Un’altra importante proprietà del trasformatore consiste nel fatto che può fungere da adattatore di impedenza. Come vedremo parlando della catena di amplificazione nella relativa sezione, è necessario che quando si connettono due componenti, l’impedenza di uscita del primo e quella di ingresso del secondo abbiano valori che rispettano un ben preciso rapporto. Quando si rende necessario cambiare il valore dell’impedenza (ossia realizzare un adattamento di impedenza), lasciando invariate le altre grandezze elettriche, si può ricorrere ad un trasformatore in cui si agisce sul rapporto tra il numero di spire del primario e del secondario.
[10] La trattazione dei numeri immaginari e il conseguente calcolo dell’impedenza esulano dalle finalità di questo testo. Per
approfondimenti si rimanda a testi specifici sull’argomento. [11] Con il termine induzione si indica l’azione elettromagnetica di un componente elettrico su un altro che si trova nel
raggio d’azione del suo campo magnetico.
68
4.4. Legge di Ohm La legge di Ohm lega in un’unica formula le grandezze coinvolte in un circuito ossia: tensione (V), corrente (I) e resistenza (R). Ha tre espressioni che sono equivalenti e provengono da semplici operazioni algebriche sulla formula di base:
Facciamo un esempio pratico per toccare con mano queste grandezze. Applicando una tensione di 220 Volt ad un conduttore di 50 Ohm abbiamo una corrente pari a: Equazione 4.7. Calcolo della corrente con la legge di Ohm
69
4.5. Potenza In fisica, la potenza è pari al lavoro compiuto da una sorgente di forza quando produce uno spostamento nell’unità di tempo. In altre parole, se immaginiamo di prendere un peso e spostarlo di qualche metro abbiamo compiuto un lavoro che misuriamo come potenza. In elettronica la potenza viene calcolata in modo diverso ma è importante il fatto che in qualsiasi contesto fisico si calcoli la potenza i risultati sono tutti equivalenti. Per immaginare questo fatto pensiamo ad un esempio concreto: un amplificatore che pilota un altoparlante. Per spostare la membrana dell’altoparlante (la quale a sua volta provocherà lo spostamento d’aria) dobbiamo compiere un lavoro che equivale a una potenza. Dunque il nostro amplificatore dovrà sviluppare una potenza elettrica equivalente alla potenza fisica necessaria per mettere in movimento la membrana. La legge di Ohm può assumere molteplici espressioni oltre alle tre viste in precedenza. Una di queste, chiamata Legge di Joule, coinvolge al suo interno la definizione di potenza che viene definita come prodotto della tensione per la corrente e viene misurata in Watt: Equazione 4.8. Potenza Sostituendo V o I con le espressioni della legge di Ohm otteniamo: Equazione 4.9. Legge di Joule
70
4.6. Forza elettromotrice Il miglior esempio di forza elettromotrice è dato dalle comuni batterie. Queste sono in grado di fornire ai propri capi una differenza di potenziale costante finché non si esauriscono. Ciò viene realizzato abbinando opportuni elementi chimici all’interno che, venendo in contatto, generano elettroni. Man mano che gli elettroni vengono consumati (abbiamo per esempio messo le pile in una torcia elettrica), i componenti chimici si modificano perdendo progressivamente le loro proprietà. Quando i componenti non sono più in grado di fornire elettroni, la pila è esaurita. Riassumendo: un elemento (batteria) che fornisce una forza elettromotrice presenta ai suoi capi una tensione costante.
71
4.7. Circuiti elettrici Quando componenti elettrici vengono collegati tra loro per ottenere un determinato risultato si è realizzato un circuito elettrico. I circuiti elettrici possono essere schematizzati utilizzando una opportuna simbologia per i componenti e le grandezze elettriche che sono coinvolte. Ogni componente reagisce secondo regole diverse alle grandezze elettriche che lo sollecitano; attraverso gli schemi elettrici e le formule ad essi associate è possibile avere un controllo completo sul funzionamento del circuito. Nel circuito seguente evidenziamo come applicando una tensione ai capi di una resistenza, generiamo al suo interno uno scorrimento di corrente.
Semplice circuito Vediamo ora una serie di semplici circuiti che tuttavia sono importanti perché a questi possono essere ricondotti casi di circuiti più complicati. Circuito in serie: In questo tipo di circuito la corrente passa interamente attraverso ciascuna delle resistenze:
Circuito con resistenze in serie L’intero circuito ha una resistenza equivalente pari alla somma delle resistenze messe in serie: Equazione 4.10. Resistenza equivalente di due resistenze in serie
Notiamo che il valore totale aumenta all’aumentare delle resistenze. Circuito in parallelo: In questo tipo di circuito, la corrente viene suddivisa in più parti ognuna delle quali scorre in una delle resistenze. Più la resistenza è bassa più è grande la quota parte di corrente che la attraversa:
Circuito con resistenze in parallelo L’intero circuito ha una resistenza equivalente data dalla seguente formula: Equazione 4.11. Resistenze in parallelo
cioè il valore totale diminuisce all’aumentare del numero di resistenze in parallelo. Partitore resistivo: Questo tipo di circuito viene utilizzato quando è necessario suddividere la tensione di cui si dispone in tensioni più piccole:
72
Partitore resistivo Vediamo come la tensione iniziale viene suddivisa in tensioni più basse attraverso l’applicazione delle formule seguenti: Equazione 4.12. Formule che descrivono il partitore resistivo
73
4.8. Impedenza di un circuito I circuiti visti finora impiegano componenti quali resistenze, condensatori e induttori. Finché le tensioni e le correnti impiegate sono continue ossia hanno ampiezza costante, i valori di resistenza, capacità, induttanza si mantengono costanti. Tuttavia quando questi circuiti vengono alimentati con tensioni e correnti alternate (sinusoidi a frequenza fissata oppure segnali, quali il segnale audio, contenenti un’insieme esteso di frequenze) i valori dei componenti variano al variare della frequenza. Ciò implica che un circuito reagisce diversamente alle diverse frequenze. Limitandoci ai tre componenti R, L, C finora visti, possiamo introdurre la legge di Ohm generalizzata che prende la forma seguente: Equazione 4.13. Legge di Ohm generalizzata Questa scrittura significa che tutte le grandezze coinvolte dipendono dalla frequenza. In particolare il valore Z(f) misura l’impedenza ossia la quantità di resistenza e reattanza complessive dell’intero circuito. Essendo queste grandezze variabili, non potranno essere descritte da un semplice valore costante ma piuttosto verranno rappresentate su un grafico che ne mostrerà il valore per tutti i valori di frequenza dei segnali coinvolti nel circuito. In realtà tutte queste grandezze vengono descritte da due grafici, uno relativo all’ampiezza (indicato con la lettera A) e uno alla fase (indicato con la lettera Fi). Verrà ora presentato un esempio che illustra praticamente tutti i concetti fin qui esposti. Consideriamo un filtro passa alto che come abbiamo visto prevede l’impiego di un condensatore. Dato che l’altoparlante può essere visto dal punto di vista del circuito come una resistenza (per essere precisi viene visto come un’impedenza ma in questo caso possiamo trascurare la parte di reattanza). Dunque il circuito passa alto avrà lo schema seguente:
Filtro passa alto L’impedenza di questo circuito sarà data dalla formula: Equazione 4.14. Impedenza del filtro passa alto
in cui Rc è la parte di resistenza del condensatore. Attraverso qualche calcolo (che però non viene mostrato in quanto implica conoscenze matematiche sui numeri immaginari) possiamo calcolare il diagramma di ampiezza e il diagramma di fase della grandezza Z al variare della frequenza. Più che il calcolo ci interessa l’andamento delle due curve e il loro significato. Un generico filtro potrebbe avere le seguenti curve per l’ampiezza e la fase:
Diagrammi di ampiezza e fase di un filtro passa alto Diagramma di ampiezza: dato che in un filtro passa alto tutte le frequenze minori della frequenza di taglio (nel nostro caso 240 Hz) vengono eliminate dal segnale ciò significa che l’impedenza a tali frequenze è molto alta per 74
impedire al segnale di passare. Sopra i 440Hz abbiamo un guadagno di 0dB ossia impedenza nulla e ciò significa che al di sopra della frequenza di taglio tutte le ampiezze restano inalterate. Diagramma di fase: questo diagramma mostra lo sfasamento tra le due grandezze legate dall’impedenza. Nel nostro caso la tensione V(f) del circuito e la corrente I(f) che attraversa i componenti. La fase è un fattore molto importante, anche se spesso trascurato, nella pratica audio in quanto può introdurre vistosi effetti indesiderati. Generalmente si desidera un diagramma di fase piatto a 0 gradi, tutte le grandezze sono in fase e non ci sono problemi. Tuttavia ciò non è possibile in quanto i componenti dei circuiti introducono ognuno uno sfasamento diverso alle differenti frequenze. Esistono comunque metodi matematici molto sofisticati per progettare circuiti con gli andamenti di ampiezza e fase desiderati.
75
Capitolo 5. Decibels 5.1. Introduzione Questa sezione è dedicata ad un argomento che spesso risulta un po’ ingarbugliato in quanto le definizioni sono molte e si corre il rischio di scambiare una cosa per l’altra. Eppure il concetto di decibel è alla base della teoria del suono e ricompare sistematicamente ogni volta che ci troviamo a misurare una grandezza ad esso collegata. logaritmica anziché lineare e dunque risulta conveniente esprimere le grandezze legate all’ampiezza del suono in un’unità di misura logaritmica: il decibel.
76
5.2. Logaritmi e Decibel Una scala descrive il rapporto tra due grandezze. La scala logaritmica si differenzia dalla scala lineare per il fatto che la proporzionalità tra le due grandezze non è costante ma ha un andamento appunto logaritmico. La tabella seguente evidenzia la diversa corrispondenza tra due grandezze X e Y legate da una relazione lineare e logaritmica: Tabella 5.1. Confronto tra scala lineare e scala logaritmica Scala X 1 2 3 …
lineare Y 1 2 3 …
Scala X 10 100 1000 …
logaritmica Y 1 2 3 …
n
n
10n
n
La funzione logaritmo “in base a” è la funzione inversa rispetto alla funzione esponenziale in base a. Le due operazioni inverse sono le seguenti:
La grandezza “a” è detta base del logaritmo. Più in generale, il logaritmo è una funzione matematica, ossia una relazione tra due grandezze. Come la retta definisce una relazione lineare tra due grandezze il logaritmo definisce una relazione tra due grandezze che è descritta dal grafico seguente:
Grafico di un logaritmo Osservando i grafici tracciati per diversi valori della base (che in questo caso è >1) osserviamo alcune importanti proprietà: quando x=0 => logaritmo=- infinito quando x=1 => logaritmo=0 quando x=valore della base => logaritmo=1 Completiamo questa breve introduzione ai logaritmi mostrandone le seguenti proprietà: loga(A · B) = loga(A) + loga(B) loga(A / B) = loga(A) - loga(B) loga(Ab) = b · loga(A) Il Bel è definito come il logaritmo del rapporto tra una grandezza e il suo valore di riferimento. 1 Decibel è pari a 1/10 di Bel e il decibel relativo ad una grandezza X generica viene espresso nella forma: Equazione 5.1. dBX
77
che misura la variazione in decibel della grandezza X rispetto ad un valore di riferimento fissato X0. Se per esempio la grandezza che consideriamo è la X e il nostro valore di riferimento è X0=10, passando da X0 a X=1000 otteniamo un incremento in dB espresso dalla formula seguente:
78
5.3. I decibel nel mondo dell’audio La grandezza che si incontra più comunemente è il dBspl (spl: sound pressure level, livello di pressione sonora) che viene definito come: Equazione 5.2. dBspl
in cui P0 è il valore di riferimento per la pressione atmosferica e viene preso pari a 0.00002Pa = 20 μPa(la pressione viene misurata in Pascal) che viene considerata la pressione sonora al di sopra della quale l’orecchio umano comincia a percepire un suono. Vediamo un esempio. Il valore di 20 μPa è un valore di riferimento per la pressione sonora in un ambiente in assenza di onde acustiche. Ciò significa che una pressione sonora di 20 μPa non esercita nessuna pressione sonora percepibile dall’apparato uditivo. Viceversa una pressione sonora di 10Pa genera un certo numero di dBspl pari al risultato seguente: Equazione 5.3. Calcolo di una pressione sonora
Leggendo la formula in un altro modo possiamo dire che una pressione sonora di 114 dBspl corrisponde ad un’onda acustica che sviluppa una pressione di 10 Pa. La seguente figura illustra dei tipici suoni e la loro intensità espressa in dBspl:
Valori tipici di dBspl
79
5.4. Legge della distanza inversa È una legge empirica che ci serve per calcolare la variazione di dBspl al variare della distanza da una sorgente sonora. Se ad una distanza d1 dalla sorgente sonora misuriamo una pressione sonora di dBspl1, ad una distanza d2>d1 avremo una pressione sonora data dalla formula: Equazione 5.4. Legge della distanza inversa
Vediamo un semplice esempio pratico: se d1 = 1m e a questa distanza dalla sorgente sonora misuriamo dBspl1=100 avremo alla distanza d2=2m una pressione sonora pari a: Equazione 5.5. Applicazione della formula della distanza inversa
Da questo semplice esempio ricaviamo una comodissima regola empirica, ogni volta che ci allontaniamo dalla sorgente sonora raddoppiando la distanza riscontriamo una caduta pari a 6 dBspl , viceversa se ci avviciniamo dimezzando la distanza percepiamo una aumento della pressione sonora di circa 6 dBspl. Tale regola prende appunto il nome di legge della distanza inversa.
80
5.5. Combinazione di sorgenti sonore Quando vengono combinate più sorgenti sonore, ognuna delle quali genera una certa quantità di dBspl non è possibile sommare semplicemente questi valori ma bisogna utilizzare la formula empirica seguente: Equazione 5.6. Combinazione di sorgenti sonore
Vediamone un esempio considerando due sorgenti sonore uguali di 90dBspl avremo: Equazione 5.7. Caso particolare di combinazione di sorgenti sonore
Anche da questo esempio ricaviamo una importante regola empirica: sommando due diverse sorgenti che producono la stessa pressione sonora si ottiene un incremento di 3dBspl (e non un valore pari al doppio!). NOTA BENE: quanto detto vale per le cosiddette sorgenti sonore incoerenti, ossia non correlate tra loro. Nel caso di sorgenti sonore coerenti, ossia in fase, il raddoppio produce un incremento di pressione sonora pari a +6dB. Dunque se abbiamo un impianto P.A.[12] che produce una pressione acustica di 100dBspl, aggiungendo un secondo impianto analogo otterremo una pressione acustica complessiva pari a 106dBspl; per arrivare a 112 dBspl dovremo aggiungere altri due P.A. e arrivare a quattro e così via.
[12] P.A.-Public Address. È il sistema di altoparlanti deputato alla diffusione del suono in una sala.
81
5.6. Grandezze elettriche espresse in decibel Dato che il dB riproduce la percezione delle grandezze sonore da parte dell’orecchio umano, sono espresse in dB anche una serie di grandezze elettriche che vengono impiegate nella pratica. Di seguito diamo conto delle più utilizzate.
5.6.1. dBm: potenza Inizialmente usato per misurare i rapporto di potenza sulle linee telefoniche. Generalmente i circuiti adibiti a questo scopo avevano un’impedenza [Vedi: Impedenza] di 600Ω. Come valore di riferimento veniva preso 1mW da cui: Equazione 5.8. dBm
Da questa formula possiamo ricavarne una equivalente in cui compaiono tensioni al posto di potenze. Sostituendo infatti la formula: P=V2/R e ponendo: R1=R2 otteniamo la seguente[13] :
5.6.2. dBu: tensione Questo valore è stato introdotto per la necessità di dover considerare circuiti con impedenze diverse da 600Ω. La ‘u’ di dBu indica dunque che il valore è di tipo ‘unloaded’ cioè indipendente dall’impedenza. Per il calcolo del dBu il carico viene inglobato all’interno di una tensione di riferimento che si ottiene dal calcolo seguente: P=V2/R da cui:
Questa tensione dunque ingloba una potenza di riferimento pari a 1mW e una resistenza di riferimento pari a 600Ω. La formula finale per il calcolo del dBu è la seguente: Equazione 5.9. dBu
5.6.3. dBV: tensione In questo caso il voltaggio di riferimento viene preso pari a 1 Volt dunque si usa la formula: Equazione 5.10. dBV
5.6.4. dBfs La scala dB digitale è leggermente diversa. Anzitutto l’unità di misura è il dBfs, dove “fs” indica il fondo scala digitale (full scale), e il valore più alto è sempre 0dBfs. Oltre questo valore si ha distorsione digitale (per approfondimenti, si rimanda alla sezione relativa [Vedi: Dinamica digitale] ). Il suono della distorsione digitale risulta molto diverso da quello della distorsione analogica e inoltre la distorsione analogica aumenta in modo progressivo mano mano che superiamo la zona di headroom mentre un segnale digitale passa repentinamente dalla riproduzione corretta (sotto lo 0 dBfs) alla distorsione (sopra lo 0 dBfs). Di seguito viene riportato un esempio di confronto fra la scala dBfs e la scala dBu, notiamo come 0 Vu cioè +4dBu corrispondano a -18 dBfs (che in certi contesti operativi è considerato uno standard):
82
Valori tipici di dBfs
[13] Come si vede, nella formula per ricavare il valore dei dB a partire dalla tensione, il fattore moltiplicativo del logaritmo è
ora pari a 20. Dunque nel caso di potenze abbiamo un fattore pari a 10, nel caso di tensioni il fattore vale 20.
83
5.7. Standard Operating Level Abbiamo detto che una catena audio è l’insieme degli stadi che un segnale audio attraversa per essere continuamente trasformato in ciò di cui abbiamo bisogno. Ogni stadio riceve in ingresso un segnale elettrico, lo manipola e restituisce in uscita il risultato della manipolazione che ha operato. Ciò che esce da questo stadio andrà verosimilmente all’ingresso di uno stadio successivo che opererà una nuova trasformazione e così via. Per fissare le idee possiamo immaginare che l’ultimo stadio che consideriamo sia un amplificatore di potenza [Vedi: Amplificazione] collegato ad un sistema di altoparlanti. Cosa succede se l’uscita di uno stadio risulta essere ad un voltaggio molto maggiore del voltaggio che lo stadio successivo è in grado di gestire?. La risposta non è immediata e comprende molti fattori, diremo per generalizzare che il secondo stadio si troverà a manipolare un segnale troppo alto per cui non è stato tarato. Ciò porta all’introduzione di una distorsione [Vedi: Distorsione da saturazione] che sarà tanto maggiore quanto più il segnale sarà maggiore di quello che il secondo stadio si aspetta. Ma cosa si aspetta il secondo stadio? La risposta è nel SOL (Standard Operating Level), il livello standard di operatività. Per esempio possiamo dire che il SOL di un certo modulo è di 1Volt e con ciò intenderemo che il segnale audio che transita per quello stadio avrà valori massimi attorno a 1 Volt (in realtà il SOL viene misurato in dB) o di poco superiori. Ogni componente audio lavora ad un certo SOL e otterremo il massimo delle sue prestazioni facendolo interagire con altri componenti che lavorano allo stesso SOL. Nella tabella seguente vengono riportati i valori del SOL e il corrispondente voltaggio nei diversi contesti di operatività: Tabella 5.2. Valori di riferimento per lo Standard Operating Level Contesto di operatività dB Volt +4 dB Professionale u 1.2 V Semi-Professionale Broadcast
-10 dBV 0.32 V 6-8 dBu 1.55 V-1.95 V
HiFi-Utente medio
-10 dBu 0.25 V
Osservando questa tabella si possono fare interessanti considerazioni. Intanto vediamo come ogni contesto abbia una sua misura in dB dei valori di riferimento (dBu in ambito professionale, semi-pro e broadcast, dBV in ambito semi-professionale). Ma il vero dato interessante è la colonna dei voltaggi. Vediamo come per ambito professionale il voltaggio relativo al SOL è 1.2V mentre nel campo HiFi è pari a 0.25V. Il primo segnale ha un’ampiezza circa pari a 5 volte quella del secondo e dunque permette una riproduzione molto più fedele (per convincervi di questo fatto immaginate di lavorare con un SOL di 0.000001V, sareste ancora in grado di apprezzare una differenza tra due voltaggi del tipo: 0.0000015V e 0.0000016V ?). Dunque più è alto il SOL (più è alto il voltaggio a cui si lavora) più la riproduzione della forma d’onda è accurata.
84
5.8. Dynamic Range Con riferimento alla figura seguente:
Dynamic Range per dynamic range (in italiano: gamma dinamica) si intende l’intervallo misurato in dB (quale dB poi varia a seconda del contesto di cui si sta considerando la dinamica) tra il valore minimo che il segnale audio può assumere e quello massimo. In natura i suoni hanno una certa dinamica. Un refolo di vento ha una dinamica piccola perché il suo valore massimo in dB non è molto superiore a quello che si ha in assenza di suono. La dinamica del suono generato da un uragano invece è molto più ampia. Inoltre in natura è sempre presente un rumore di fondo che possiamo attestare, in un ambiente cittadino mediamente rumoroso, a circa 30dBspl. Dunque suoni che producono un numero di dBspl inferiore a 30 possono essere trascurati nel senso che non vengono percepiti con chiarezza essendo mascherati dal rumore di fondo. Nel nostro generico esempio potremo considerare che la maggior parte dei suoni non va oltre i 100 dBspl e dunque assesteremo su questo valore il nostro SOL. Tuttavia può capitare che per brevi periodi vengano prodotti suoni di intensità maggiore, diciamo non oltre un valore massimo di 120 dBspl (valore che corrisponde approssimativamente alla soglia di dolore per l’orecchio umano). Nella parte a sinistra della figura precedente possiamo vedere la scala con i valori che abbiamo fissato: La differenza in dB tra il SOL e il rumore di fondo viene chiamata Signal to Noise Ratio (SNR) (in italiano: rapporto segnale rumore) e dà una misura di quanto un suono sia “più forte” del rumore di fondo. La differenza in dB tra il valore massimo della dinamica e il SOL viene detta headroom[14] . La somma in dB tra l’Headroom e il SNR è il Dynamic Range (Per avere chiare queste grandezze riferirsi alla parte sinistra della figura precedente). Una volta definito questo insieme di valori in ambito fisico possiamo vederne l’equivalente elettrico (parte a destra della figura soprastante). Per prima cosa focalizziamo l’attenzione sul rumore. Qualsiasi apparato elettrico è affetto da rumore (per esempio il rumore termico dei componenti elettronici o il naturale fruscio di un nastro magnetico). Questa volta però si tratta di un rumore elettrico e dunque misurato in dBu e non più in dBspl, supponiamo di aver misurato un valore del rumore di fondo pari a -66dBu. Il nostro SOL, dato che vogliamo lavorare con attrezzature professionali, sarà +4dBu (equivalenti dei 100 dBspl) mentre come headroom possiamo prendere 20 dBu per mantenere le proporzioni con il caso reale. Facendo un po’ di conti otteniamo un SNR di 70dBu e dunque una dinamica di 90dBu. Con questi valori fissati saremmo sicuri di poter riprodurre correttamente qualsiasi suono compreso tra i valori di 30dBspl e 120dBspl cioè con una dinamica di 90dBspl. Se si pensa che i brani da discoteca vengono compressi fino ad arrivare ad avere una dinamica massima di 30dB capite che con 100dB di dinamica a disposizione si possono fare grandi cose. Un valido esempio è la registrazione di un’orchestra. In questo caso infatti si va da valori molto bassi di dBspl nelle parti in cui sussurra un solo strumento a valori molto alti quando per esempio tutti gli strumenti suonano insieme in crescendo trionfale. Con 90dBu a disposizione è possibile registrare tutti questi suoni di intensità così diversa con la stessa fedeltà. Un altro esempio è la registrazione di una voce che in un brano passa dal sussurro all’urlo. Generalmente si predispongono più microfoni e si settano i preamplificatori a valori diversi del SOL ognuno ottimizzato per una particolare intensità sonora. In fase di missaggio poi si combineranno le varie sezioni registrate in modo che la riproduzione sia fedele in tutte le parti del brano. Ora capiamo anche meglio i valori della tabella del paragrafo precedente. Valori di SOL maggiori e dunque voltaggi più alti sono più lontani dal rumore di fondo e dunque consentono una dinamica maggiore.
[14] Letteralmente: spazio per la testa
85
Capitolo 6. Strumenti di misura del suono 6.1. Introduzione Dedichiamo un capitolo ai principali strumenti di misura del suono. Per quanto visto finora, si intuisce facilmente che il suono è caratterizzato da molti parametri e dunque avremo strumenti di misura diversi a seconda delle caratteristiche in esame. Tuttavia occorre considerare che, anche relativamente allo stesso parametro, può cambiare il tipo di misura, di volta in volta adattandosi al tipo di informazione cercata (ne è un esempio la misura dell’ampiezza del segnale audio che può essere fatta considerando i singoli picchi oppure la media RMS del segnale).
86
6.2. Misure del livello sonoro 6.2.1. Misuratori di pressioni sonore: fonometri Generalmente vengono costruiti con all’interno un microfono molto sensibile e sono tarati per rilevare una pressione sonora con una risposta che riproduce quella dell’orecchio umano. Di solito è presente uno switch di taratura dell’apparecchio in relazione alla sorgente sonora da misurare, questo fa sì che venga attivato un circuito di misurazione piuttosto che un altro che configura la risposta del misuratore su una determinata curva pesata (in inglese weighting curve):
Curve pesate di un fonometro La figura precedente ci mostra l’andamento delle diverse curve pesate di un fonometro, da utilizzarsi a seconda della sorgente sonora da misurare: Circuito A (A-weighting curve): la curva di risposta del circuito corrisponde alla curva isofonica a 40 phons dell’orecchio umano [Vedi: Curve isofoniche] e consente misure accurate di pressioni sonore modeste come quelle generate nell’ambito di una normale conversazione. Le misure fatte con questo circuito vengono espresse in dB(A). Circuito B (B-weighting curve) (ormai in disuso): la curva di risposta del circuito corrisponde alla curva a 70 phons dell’orecchio umano. È adatto a misure di pressioni sonore comprese tra i 55 e gli 85 dBspl. Le misure fatte con questo circuito vengono espresse in dB(B). Circuito C (C-weighting curve): la curva di risposta del circuito corrisponde alla curva a 100 phons dell’orecchio umano. Le misure fatte con questo circuito vengono espresse in dB(C). Quando è disponibile, il circuito Z è da considerarsi avente una risposta piatta. Nel fonometro riportato nella figura precedente si possono notare gli switch per selezionare la curva di pesatura (A o C) e la risposta ai transienti. Inoltre, per selezionare il range di funzionamento, si procede come segue: si parte con il valore maggiore possibile (120 dB) e si va a scendere gradualmente girando la manopola fino a che l’ago indicatore non comincia a muoversi in maniera significativa. Per una migliore precisione, tra due possibili valori utilizzare sempre il più basso. Ad esempio: se il range è selezionato su 80 dB e sulla scala leggiamo un valore circa pari a -5, significa che la pressione misurata è pari a 75dB. Allora posizioniamo il range su 70dB e l’ago si posizionerà sui 3dB, indicando la pressione sonora di 73 dB, che risulterà una misura più accurata.
6.2.2. Misuratori di segnale audio Sono indicatori che mostrano il livello del segnale audio all’interno della macchina che si sta utilizzando. Fondamentalmente si distinguono per come riescono a seguire il segnale misurato nelle sue variazioni. Possiamo individuare due grandi categorie, una i cui il misuratore cerca di seguire i singoli picchi e l’altra in cui insegue il valore medio del segnale. E’ possibile scendere ancora più in dettaglio su questo aspetto, ma le ulteriori suddivisioni esulano dalle finalità introduttive di questo testo. 6.2.2.1. Vu Meters Lo zero, nei Vu meters indica sempre il SOL dunque per le apparecchiature professionali, indica +4dBu (1.2V) mentre sull’Hi-Fi di casa indica -10dBu (0.25V). I Vu meters danno una misura della media del segnale e vengono utilizzati per apparecchiature analogiche soprattutto sui registratori. Non sono fatti per visualizzare tutti i transienti del segnale data anche la massa inerziale degli indicatori. La figura seguente mostra la scala di valori tipica di un Vu-Meter.
87
Scala di valori di un Vu-Meter 6.2.2.2. PPM Meters PPM sta per Peak Programme Meter. Fornisce una misura del segnale con una più rapida risposta ai transienti, dovuta ad un minore tempo di attacco, anche se non sufficientemente veloci da seguire ogni singolo picco del segnali (per questo ci si riferisce a questi meter con il termine quasi-peak). Questo misuratore viene spesso impiegato per misure su segnali digitali anche se è nato ben prima che questi sistemi venissero concepiti. Dunque i PPM meters iniziali avevano forma simile ai VuMeters, ma riuscivano e seguire i transienti del segnale molto più fedelmente. Con l’avvento del digitale i PPM meters sono stati realizzati con display a LED. La scala di misura può variare in base ai diversi standard e i valori indicati sono generalmente riferiti a valori espressi in dBfs [Vedi: dBfs] . La figura seguente mostra un esempio di PPM disposto in orizzontale (la disposizione originale è verticale).
Peak Programme Meter La gran parte dei misuratori utilizzati negli hardware e software digitali non sono di tipo PPM, ma indicano genericamente il livello di picco, che è essenziale per evitare la distorsione digitale, ma non attendibili nella misura dell’ampiezza istantanea del segnale. 6.2.2.3. True Peak Meters Il True Peak Meters segue effettivamente tutti i picchi restituendo istante per istante il vero andamento del segnale.
88
6.3. Correlatori di fase Come abbiamo visto nella sezione dedicata alla fase [Vedi: Fase] , tra due sinusoidi alla stessa frequenza può intercorrere un ritardo che implica uno sfasamento tra le due. Tale sfasamento esiste solamente tra sinusoidi alla stessa frequenza ed è misurato in gradi. Nella medesima sezione si era anche illustrato il legame matematico tra ritardo (tempo) e sfasamento (gradi). Sappiamo che due sinusoidi si trovano in fase quando lo sfasamento è pari a 0 gradi (o 360°). Viceversa, due sinusoidi si trovano in opposizione di fase quando lo sfasamento è pari a 180°. Sommando due sinusoidi di pari frequenza in fase si ottiene una sinusoide alla stessa frequenza ma con ampiezza raddoppiata, viceversa sommando due sinusoidi di pari frequenza in opposizione fase si ottiene un segnale nullo, ossia quella che viene definita come cancellazione di fase [Vedi: Combinazione di sinusoidi pure] . Dato che lo sfasamento si può valutare solo tra sinusoidi alla stessa frequenza, un segnale complesso (composto da più sinusoidi) monofonico non darà problemi di fase. Lo sfasamento tra frequenze entra pesantemente in gioco nel caso di segnali stereofonici, quando i segnali sui due canali Left e Right possono avere delle differenze di fase. È il caso per esempio dei segnali riverberati, visto che la riverberazione è il risultato di più copie dello stesso segnale che percorre un tragitto diverso, arrivando sfasato alle due orecchie dell’ascoltatore. In realtà lo sfasamento è molto importante per la profondità dell’immagine stereofonica, ma occorre prestare grande attenzione a non introdurre sfasamenti vicini ai 180°, che oltre a produrre un effetto innaturale nel suono, genererebbero pesanti cancellazioni di fase qualora il segnale venisse riprodotto su un sistema monofonico. In altre parole, alcune delle frequenze, chiaramente udibili in stereo, verrebbero fortemente attenuate, se non addirittura cancellate quando riprodotte su un sistema monofonico. Per evitare tutto ciò, oltre alla perizia e all’esperienza ci vengono in aiuto uno strumento di misura detto correlatore di fase, che visualizza lo sfasamento in un mix stereo tra le frequenze che compongono il segnale presente sul canale sinistro e quelle sul canale destro. Il misuratore più semplice di cui disponiamo è quello lineare:
Correlatore di fase lineare Questo tipo di misuratore indica su una scala lineare lo sfasamento tra i canali sinistro e destro. I punti della scala indicano: +1: i segnali L e R sono in fase: nel caso di un segnale mono, ossia lo stesso segnale su L e R, l’indicatore si posizionerà su questo punto. -1: i segnali L e R sono in controfase: l’indicatore si posizionerà su questo punto quando su L è presente una frequenza e su R la stessa frequenza invertita di fase. 0: i segnali L e R sono sfasati di 90° oppure non c’è correlazione (per esempio tra due sinusoidi a frequenza diversa). Nella zona verde gli sfasamenti sono costruttivi mentre nella zona rossa sono distruttivi. Più si procede verso sinistra verso il punto -1, più le distruttività sono evidenti. Nella realizzazione di un mix, è bene che l’indicatore si muova costantemente all’interno della zona verde, garantendo una buona mono-compatibilità. I correlatori lineari erano presenti anche prima dell’arrivo del digitale, eccone un esempio:
Correlatore di fase analogico Dato che le informazioni sono molteplici, si utilizzano correlatori più elaborati che permettono una visualizzazione bidimensionale delle informazioni relative a ampiezza, frequenza e fase. I correlatori bidimensionali possono visualizzare gli sfasamenti su un diagramma polare oppure su un quadrato (nel quale vengono visualizzate le curve di Lissajus, che citiamo solo perché può capitare di dover configurare la modalità di visualizzazione del nostro indicatore). Di seguito la tipica visualizzazione di un mix stereo nelle due modalità:
89
Correlatore di fase bidimensionale: Polare vs Lissajus Un buon mix stereo deve avere una distribuzione attorno all’asse verticale; al limite, nel caso di segnale mono, il diagramma collassa proprio sull’asse verticale. Nel caso di un mix che introduce cancellazioni di fase, abbiamo una distribuzione attorno all’asse orizzontale; al limite, nel caso di segnale mono, il diagramma collassa proprio sull’asse orizzontale. Naturalmente questi diagrammi sono sempre in movimento per seguire l’evoluzione del segnale audio. Le immagini di questa sezione ne mostrano un fotogramma rappresentativo (snapshot). Diamo alcuni esempi pratici con suoni opportunamente selezionati e la loro visualizzazione sul correlatore di fase.
Sfasamenti costruttivi e distruttivi in modalità STEREO (snapshot)
Sfasamenti costruttivi e distruttivi in modalità MONO (snapshot) Nelle figure vediamo in particolare come viene visualizzata una traccia audio in diverse modalità. La prima delle due figure precedenti mostra il correlatore di case nel caso di due segnali STEREO, il primo con sfasamenti costruttivi e il secondo con sfasamenti distruttivi, mentre la seconda mostra la stessa situazione ma con i segnali messi in MONO. Ascoltiamo ora i suoni che hanno prodotto le visualizzazioni precedenti Esempio sonoro 6.1. Sfasamenti costruttivi alternati STEREO/MONO [Traccia 50]
Come possiamo ascoltare, il suono non ha perso le sue caratteristiche nel passaggio da stereo a mono. Esempio sonoro 6.2. Sfasamenti distruttivi alternati STEREO/MONO [Traccia 51]
Dall’ascolto di quest’ultimo suono appare evidente come, in modalità mono, uno sfasamento distruttivo sia stato causa di una perdita di frequenze (nello specifico, alcune delle medie) che erano invece presenti nel segnale stereo. Concludendo, è bene visualizzare il nostro mix attraverso un correlatore di fase e, qualora il diagramma fosse troppo orizzontale, risalire al problema ed eliminarlo. Possibili fonti di problemi in questo senso sono l’uso di riverberi digitali mal concepiti o mal configurati oppure tecniche di microfonaggio che non sono mono compatibili, come quelle a microfoni lontani [Vedi: Tecniche di microfonaggio stereo: Microfoni lontani] .
90
6.4. Misuratori dello spettro di frequenza Come si è visto in precedenza, lo stesso segnale audio può essere visto sia nel dominio del tempo che nel dominio della frequenza [Vedi: Contenuto armonico di un suono] . In questa sezione vediamo gli strumenti di misura nel dominio della frequenza.
6.4.1. Analizzatore di spettro L’analizzatore di spettro, detto anche spettrometro, esprime in un diagramma frequenza (ascisse)/ampiezza (ordinate) le ampiezze di tutte le frequenze (sinusoidi) contenute nel segnale audio. In un segnale non periodico, come un brano musicale, lo spettro di frequenza mostrato dall’analizzatore si muoverà continuamente nel tempo, a mostrare istante per istante la variazione delle ampiezze delle singole frequenze che compongono il segnale. Nel caso di un segnale periodico, le sinusoidi componenti il segnale sono costanti, ordinate tra loro in un rapporto di armoniche e lo spettro di frequenza avrà una forma costante nel tempo.
Analizzatore di spettro con scala logaritmica Le ampiezze sono espresse di dB, dunque su una scala logaritmica. Lo stesso avviene per le frequenze, in quanto l’orecchio percepisce in maniera logaritmica anche la scala delle frequenze. Per questo la visualizzazione logaritmica è la più utilizzata, anche se molti dispositivi consentono anche la visualizzazione lineare, utilizzata più in ambiti tecnico/sperimentali. La figura seguente mostra lo stesso spettrometro con una visualizzazione lineare dell’asse delle frequenze:
Analizzatore di spettro con scala lineare Si noti come la zona tra 20Hz e 1KHz, che nella visualizzazione precedente (logaritmica) occupava quasi due terzi del grafico e dunque permetteva un’analisi adeguata del contenuto in frequenza, in quest’ultima visualizzazione (lineare) la stessa banda occupa solo il primo blocco sulla sinistra del grafico e dunque risulta inefficace nel caso di applicazioni sonore.
6.4.2. Sonogramma A differenza dell’analizzatore di spettro, il sonogramma aggiunge l’informazione temporale alla variazione di ampiezza delle singole frequenze. Questa ulteriore informazione può essere aggiunta al grafico mostrato dall’analizzatore di spettro utilizzando un ulteriore asse per il tempo e rendendo tridimensionale il grafico:
Sonogramma 3D oppure, visualizzando un grafico tempo (ascisse)/frequenza (ordinate) e utilizzando dei colori per indicare le diverse ampiezze assunte nel tempo dalle singole frequenze:
91
Sonogramma 2D
92
Capitolo 7. Equalizzatori e Filtri 7.1. Introduzione In questa sezione verranno analizzati due strumenti fondamentali per la manipolazione del segnale audio: i filtri e gli equalizzatori. L’utilizzo corretto di questi strumenti e la conoscenza delle loro caratteristiche permette di risolvere molte problematiche e di scolpire a piacimento lo spettro di frequenza di un suono.
93
7.2. Azione di EQ e Filtri sullo spettro di frequenza Abbiamo visto come l’insieme delle frequenze udibili dall’orecchio umano sia compreso nell’intervallo 20Hz-20KHz. Quando un segnale elettrico rappresentante un’onda acustica (per esempio il segnale che esce da un microfono posto nelle vicinanze di una sorgente sonora) entra in un circuito, viene manipolato e il suo contenuto di frequenze viene modificato. Per avere una chiara visione di questo fatto dobbiamo pensare ai segnali sia nella loro rappresentazione in tempo che nella loro rappresentazione in frequenza [Vedi: Rappresentazione tempo/frequenza] . Dunque sia x(t) il nostro segnale che entra in un circuito elettrico e sia y(t) il segnale che ne esce. In ogni istante di tempo il circuito interviene sul segnale in ingresso secondo un comportamento che è tipico del circuito che stiamo considerando e che comunque viene descritto da una funzione del tempo h(t). A questo punto, dati i tre segnali x(t), y(t), h(t), consideriamo il loro equivalente in frequenza (ossia le loro trasformate di Fourier [Vedi: Analisi armonica di Fourier] , Y(f), H(f). Nel dominio della frequenza vale l’equazione: Equazione 7.1. Funzione di trasferimento di un circuito ed è questa formula che ci permetterà di vedere chiaramente come agiscono sul segnale i circuiti di filtro ed equalizzazione tenendo comunque presente che i discorsi fatti fin qui valgono in generale per i segnali che attraversano un circuito elettrico.
Segnale attraverso un circuito La H(f) prende il nome di funzione di trasferimento mentre la h(t) viene chiamata risposta impulsiva. È importante sottolineare che la formula precedente non vale nel dominio del tempo nel quale vale un altro tipo di relazione matematica tra le funzioni x(t), y(t), h(t) notevolmente più complicata che prende il nome di convoluzione, ma di cui non avremo bisogno (per fortuna) per continuare la nostra trattazione. A questo punto siamo in grado di interpretare la curva che descrive l’azione di un circuito elettrico: si tratta di un grafico in un diagramma ampiezza-frequenza che va moltiplicato per il segnale di ingresso al fine di ottenere il segnale di uscita. Due esempi preliminari chiariranno ulteriormente questo concetto. 1.
2.
Caso in cui H(f) = costante e in particolare pari a 1 su tutto lo spettro. Avremo, in virtù della formula di cui sopra Y(f)=X(f), cioè il circuito non interviene sul segnale in ingresso. Caso in cui H(f)=1 in una particolare banda di frequenze e 0 altrove:
Esempio di filtro ideale Il risultato Y(f) proviene dalla moltiplicazione di X(f) e H(f). Dove H(f) è pari a 0 si ottiene Y(f)=0, dove H(f)=1 si ottiene Y(f)=X(f). Questo è un primo esempio di filtro passa banda ideale. Anche se l’argomento verrà discusso nel dettaglio più avanti possiamo già vedere come una funzione di trasferimento di questo tipo consenta di estrarre dal 94
segnale in ingresso solo una determinata banda (compresa tra 5KHz e 10KHz) che in questo caso risulta essere la nostra banda di interesse. Si tratta di un filtro ideale perché nella realtà non è possibile costruire circuiti che abbiano funzione di trasferimento con delle transizioni così brusche, queste nella realtà saranno smussate e vedremo come la ripidità della pendenza aumenti all’aumentare della complessità e dunque del costo del circuito che stiamo considerando. I concetti appena descritti si riferiscono a grandezze assolute. Nel mondo dell’elettronica (e in particolare dell’audio), le grandezze vengono trattate dal punto di vista logaritmico [Vedi: Logaritmi e Decibel] e, più precisamente, sotto forma di decibel. Avendo come riferimento il filtro passa banda appena descritto avremo che in corrispondenza dei valori pari a 0, il valore in decibel sarà pari a meno infinito, mentre in corrispondenza dei valori pari a 1, il valore in decibel sarà pari a zero[15]. Alla luce di ciò, il guadagno unitario (H(f)=1), espresso in dB diventa un guadagno pari a 0dB, mentre un guadagno nullo si traduce in una attenuazione in dB pari a meno infinito. Vediamo di seguito un esempio di filtro passa banda nella sua rappresentazione comune, in cui i valori sulle ordinate sono espressi in decibel:
Grafico di un Filtro passa banda
[15] Ricordiamo a questo proposito le due proprietà dei decibel seguenti: log(1) = 0, log(0) = - infinito
95
7.3. Equalizzatori Un equalizzatore è un circuito in grado di amplificare o attenuare un certa banda di frequenze e di lasciarne altre inalterate. Vi sono diversi tipi di equalizzatori: analizziamo quelli più importanti.
7.3.1. Equalizzatore a campana In inglese: Peak Bell EQ. La sua funzione di trasferimento ha la forma descritta nella seguente figura:
Equalizzatore a campana Questo tipo di equalizzatore è dotato di 3 controlli: 1.
Guadagno (attenuazione/amplificazione - cut/boost) Agisce sull’ampiezza A della campana che può essere sia positiva (amplificazione) che negativa (attenuazione). L’amplificazione massima è un parametro che dipende dalla qualità del circuito: arrivare a 15dB di guadagno senza introdurre distorsioni implica l’uso di tecnologie sofisticate. Generalmente troviamo questo tipo di EQ sui canali del mixer [Vedi: I canali] . Più il mixer è di fascia professionale, più i suoi peak EQ consentono guadagni elevati senza introdurre distorsioni. Nei mixer di fascia media generalmente i guadagni sono dell’ordine di 12dB (ricordiamo che tra 12 dB e 15dB c’è di mezzo un raddoppio del segnale in termini elettrici dunque c’è una notevole differenza).
2.
Frequenza centrale (center frequency) È la frequenza alla quale si ha il guadagno massimo (o minimo) sulla campana. Generalmente un potenziometro ne consente la variazione permettendo di centrare la campana esattamente nella zona di frequenze che vogliamo manipolare.
3.
Fattore di merito Q (Q factor) È un parametro che misura l’ampiezza della campana cioè l’ampiezza della banda di frequenze che vengono amplificate (o attenuate). È calcolato in base alla seguente formula: Q= fc/(larghezza relativa di banda) dove la larghezza relativa di banda è misurata a 3dB al di sotto del picco (vedi figura precedente). Il fattore di merito Q è indipendente dalla zona di frequenze in cui lo si sta considerando. Vediamo questo fatto con un esempio numerico tenendo presente che la scala delle frequenze è logaritmica. Tra 20Hz e 100Hz la larghezza relativa di banda è di 80Hz. Ora se ci spostiamo alle alte frequenze per esempio a 10000 Hz abbiamo che la nostra campana si estenderebbe tra i 9960 e i 10040Hz cioè avremmo una campana strettissima (oltretutto impossibile da realizzare per motivi fisici). Dunque se fissassimo solo il valore della larghezza relativa di banda e con il controllo della frequenza centrale facessimo scorrere il filtro lungo tutto lo spettro di frequenza osserveremmo che la campana si restringe andando verso le alte frequenze e si allarga andando verso le basse. Dato che vogliamo che una volta fissata , la larghezza di banda resti costante lungo tutto lo spettro, introduciamo nella formula la frequenza centrale come fattore di normalizzazione. Vediamo in pratica con i numeri come variano i fattori in gioco (sia w=larghezza relativa di banda): se fc=100Hz e w=40Hz il che significa che la campana ha un’azione rilevante sulla banda 80Hz-120Hz Avremo: Q=100/40=2.5 se fc=10000Hz e Q=2.5 avremo: w=10000/ 2.5=4000Hz il che significa la banda 8000 Hz - 12000 Hz Si vede come sia necessario che la w vari se vogliamo che la campana mantenga una forma costante lungo lo spettro di frequenza (dato che abbiamo imposto un fattore di merito Q costante). Dato che la fc è stata decuplicata, mantenendo lo stesso fattore Q, anche la banda è stata decuplicata, in questo modo la forma della campana non è stata modificata (ricordiamo che le frequenze sono rappresentate in una scala logaritmica soprattutto per dare una rappresentazione 96
consona alla percezione dell’orecchio umano. Alle basse frequenze una differenza di 20Hz è rilevante, alle alte frequenze diventa rilevante una differenza di 200Hz).
7.3.2. Equalizzatore a scaffale In inglese: shelving EQ. Questo tipo di equalizzatore viene utilizzato per avere un controllo sugli estremi dello spettro delle frequenze udibili. È dotato di 2 controlli standard: 1.
Frequenza di taglio (roll off frequency): calcolata nel punto in cui la curva di guadagno decade di 3dB rispetto al valore massimo). In alcuni testi la frequenza di taglio di un shelving filter viene chiamata turn over frequency e normalmente si riferisce alla frequenza in cui vi e’ un alterazione di +-3dB rispetto al guadagno unitario
2.
Guadagno (gain): applica una amplificazione o una attenuazione alla banda del segnale superiore alla frequenza di taglio
Equalizzatore a scaffale
7.3.3. Equalizzatori parametrici 1.
Completamente parametrici: è possibile modificare tutte e tre le grandezze che caratterizzano la campana di equalizzazione: frequenza centrale (fc), guadagno (A), fattore di merito (Q). I mixer professionali hanno su ogni canale un equalizzatore parametrico a 4 bande: bassi, medio bassi, medio alti, alti.
2.
Semi parametrici: il fattore di merito Q non è variabile cioè la forma della campana è fissa (generalmente Q viene fissato ad un valore circa pari a 1.5)
3.
Di picco: sono fissi i valori di fc e Q ed è possibile intervenire solo sul guadagno. Questi EQ sono il tipo più economico e vengono installati su mixer di fascia bassa.
Le figure seguenti descrivono la sezione di equalizzazione di un mixer di fascia bassa confrontata con quella di uno di fascia alta. Possiamo notare che il guadagno massimo applicabile è di 12dB nel primo caso e 15dB (o addirittura 18dB) nel secondo. Inoltre lo spettro di frequenze viene suddiviso in 3 bande (basse, medie, alte) nel primo caso mentre nel secondo in 4 bande (basse, medio basse, medio alte, alte). Infine, nel secondo caso, la curva di guadagno dei bassi e degli alti può assumere la forma di una campana o di un equalizzatore a scaffale permettendo una versatilità ancora maggiore.
Equalizzatore su un mixer non professionale
97
Equalizzatore su un mixer professionale
7.3.4. Equalizzatore grafico È composto da una serie di singoli equalizzatori a campana. La larghezza della campana varia a seconda del contesto operativo per il quale l’equalizzatore viene disegnato. Tabella 7.1. Classificazione di equalizzatori grafici Contesto di lavorativo Musicista/Hi-Fi Semi professionale Professionale
Larghezza della campana Numero di bande (numero di cursori dell’equalizzatore) 1 ottava 10 1/2 ottava 20 1/3 ottava 31
7.3.5. Equalizzatori attivi e passivi Gli equalizzatori passivi utilizzano solo componenti passivi, che non necessitano di una alimentazione e dunque non possono realizzare un reale aumento del guadagno. Generalmente quando il guadagno viene posto al massimo, il segnale non viene alterato mentre viene attenuato quando il guadagno viene diminuito tramite un potenziometro o un cursore. Il loro principale difetto è che introducono una leggera caduta sul segnale a causa della perdita sui componenti passivi. Equalizzatori attivi utilizzano componenti elettronici attivi quali i transistors [Vedi: Transistor] dunque consentono un reale aumento del guadagno. Tuttavia a causa della circuiteria attiva si possono introdurre maggiori distorsioni nonché del rumore anche se ciò avviene solo utilizzando equalizzatori attivi di scarsa qualità. Di seguito viene riportato il confronto tra il guadagno di un equalizzatore attivo e uno passivo:
Confronto tra equalizzatore attivo e passivo
98
7.4. Filtri I filtri vengono utilizzati per eliminare delle bande di frequenze dal segnale originario. Generalmente vengono realizzati con una circuiteria passiva e sono identificati da una frequenza di taglio fc (sempre calcolata nel punto in cui il guadagno subisce una perdita pari a 3dB).
7.4.1. Filtri Passa Basso e Passa Alto I due tipi di filtro più importanti sono il filtro passa basso (LPF - Low Pass Filter) e il filtro passa alto (HPF - High Pass Filter). Il primo permette il passaggio delle sole frequenze minori della frequenza di taglio o meglio le frequenze maggiori della frequenza di taglio vengono attenuate in maniera sempre maggiore fino a diventare trascurabili. Il secondo compie le stesse operazioni del primo consentendo il passaggio delle sole alte frequenze:
Filtri passa basso e passa alto Tipici utilizzi dei filtri passa alto sono l’eliminazione di vibrazioni a bassa frequenza come quelle generate da musicisti che camminano su un palco su cui sono poggiati i microfoni o come il rumore di fondo generato da un condizionatore d’aria. Filtri passa basso vengono invece usati per esempio per eliminare fruscii o rumori ad alta frequenza. Riportiamo di seguito una figura di confronto tra un filtro passa basso e un equalizzatore a scaffale:
Confronto tra filtro passa basso ed equalizzatore a scaffale Possiamo vedere come l’equalizzatore a scaffale amplifichi una banda di frequenze lasciando inalterato il resto dello spettro mentre il filtro passa basso lascia inalterate le basse frequenze e attenua le frequenze maggiori della frequenza di taglio. Vediamo nel filtro che dopo qualche ottava il guadagno è diminuito di qualche decina di dB e questo significa che quelle frequenze sono ormai trascurabili essendo la loro ampiezza molto minore in confronto a quella delle frequenze minori della frequenza di taglio. 7.4.1.1. Pendenza La pendenza di un filtro (in inglese: slope rate) stabilisce quanto rapidamente l’ampiezza decada. Abbiamo visto in precedenza come in diverse situazioni (anche se non in tutte) si renda necessaria una pendenza quasi verticale. Nella realtà ciò non è realizzabile ma ci si può solo avvicinare a tale risultato. La pendenza si misura in dB/ottava cioè fornisce la misura di quanti dB diminuisce il guadagno in un’ottava (sappiamo già che a tale termine corrisponde un raddoppio della frequenza [Vedi: Definizione di ottava] ). Facciamo un esempio numerico per fissare le idee riferito alla figura seguente:
Pendenze dei filtri Si vede che il guadagno del primo filtro, passando da fc a 2fc diminuisce di 12dB mentre il secondo, passando da 2fc a 4fc (è ancora un’ottava) diminuisce di 6dB dunque il primo filtro avrà una pendenza di 12dB/ottava, il secondo di 6dB/ottava (il 99
secondo filtro ha frequenza di taglio doppia rispetto al primo). Nei filtri analogici abbiamo 4 pendenze standard: Tabella 7.2. Valori delle pendenze dei filtri Pendenza (dB/ottava) 6 12 18 24
Ordine del filtro Numero di poli Primo 1 Secondo 2 Terzo 3 Quarto 4
Il numero di poli si riferisce all’equazione del circuito che realizza il filtro, in questa sede basti notare che ogni volta che il numero dei poli aumenta di uno, la pendenza aumenta di 6dB/ottava. Esistono anche filtri digitali realizzati mediante degli algoritmi software; alcuni di questi vengono utilizzati per realizzare suoni mediante la sintesi sottrattiva e simulano filtri a 6 poli (36 dB/ottava).
7.4.2. Filtro passa banda e a reiezione di banda Sovrapponendo un filtro passa basso e uno passa alto otteniamo due altri tipi di filtri: il filtro passa banda e il filtro a reiezione di banda. Il primo consente il passaggio di una certa banda di frequenze e impedisce il passaggio del resto del segnale (ancora valgono le considerazioni del confronto precedente fra equalizzatore a campana e filtro passa banda). Il secondo impedisce il passaggio di una certa banda e consente il passaggio del resto delle frequenze del segnale. Riportiamo di seguito le funzioni di trasferimento di un filtro a reiezione di banda e un filtro passabanda:
Filtro a reiezione di banda e filtro passabanda Quando il filtro a reiezione di banda è molto stretto e selettivo prende il nome di filtro notch.
100
Capitolo 8. Effetti - FX 8.1. Introduzione In questa sezione e nella prossima verranno illustrati i principali metodi di manipolazione del segnale audio e le relative apparecchiature utilizzate. La pratica audio ha richiesto nel tempo la creazione di dispositivi con le finalità più disparate. Prima di analizzare i più importanti è bene darne una classificazione preliminare. Li suddivideremo in due grandi categorie: gli effetti a linea di ritardo e i processori di segnale.
101
8.2. Effetti/FX Appartenenti alla prima categoria si intendono i dispositivi che realizzano una manipolazione su una parte del segnale. All’interno di questi il segnale viene separato in due, una parte raggiunge direttamente l’uscita mentre l’altra passa attraverso il circuito per essere manipolata. All’uscita del dispositivo un miscelatore permette di riunire i due segnali, uno non manipolato (dry signal, segnale asciutto) e uno manipolato (wet signal, segnale bagnato). Lo schema elettrico della composizione dei due suoni è il seguente:
Azione di un effetto sul segnale La caratteristica degli effetti consiste nel fatto che il segnale asciutto e quello bagnato vengono sommati in parallelo.
102
8.3. Processori di segnale Appartenenti alla seconda categoria si intendono invece dispositivi che realizzano una manipolazione sull’intero segnale; in questo caso i dispositivi sono disposti in serie.
Azione di un processore di segnale L’evoluzione dell’elettronica al pari delle conoscenze intrinseche del suono hanno permesso la messa a punto di una serie di circuiti che sono divenuti indispensabili nella pratica. L’evoluzione dell’elettronica digitale ha consentito un ulteriore progresso in questo senso con l’introduzione di dispositivi in grado di manipolare il segnale in via matematica piuttosto che elettrica. Attualmente il mercato è sommerso da un’infinità di effetti diversi con le finalità più impensate. Alcuni di questi sono assolutamente indispensabili, altri sono da considerare strumenti di lusso con i quali dare un tocco in più al proprio lavoro, altri ancora sono effetti talmente particolari che possono essere impiegati solo in determinate situazioni e dunque risultano poco utilizzabili ai fini della pratica quotidiana. Tutti gli effetti citati in questa sezione possono essere realizzati attraverso circuiti elettrici, attraverso circuiti digitali che applicano determinati algoritmi o ancora attraverso dispositivi che combinano le due modalità. I circuiti elettrici prelevano il segnale che viene loro fornito in ingresso e lo manipolano facendolo passare attraverso opportuni circuiti che ne modificano le caratteristiche (come ad esempio l’ampiezza o il contenuto in frequenza). La qualità del dispositivo impiegato in questo caso dipende dalla qualità dei singoli componenti elettrici (resistenze, condensatori, induttanze, connettori ecc.) e dalla qualità del progetto del circuito. I circuiti digitali hanno un funzionamento completamente diverso. Il segnale in ingresso viene campionato e memorizzato in una memoria digitale (RAM, Random Access Memory). Successivamente un circuito digitale (composto da circuiti integrati) esegue operazioni matematiche sui dati memorizzati secondo un algoritmo che simula una situazione reale [Vedi: Simulazione di effetti analogici] . Di seguito verrà fatta un’ampia panoramica dei principali effetti impiegati e, nella successiva sezione verranno descritti i più importanti e utilizzati processori di segnale.
103
8.4. Riverbero Il riverbero è il suono che permane in un ambiente quando il segnale diretto si è esaurito. Per immaginarlo pensiamo ad un esempio macroscopico: un colpo di pistola in una cattedrale. In effetti, capita raramente di udire colpi di pistola nelle cattedrali ma è comunque una situazione facile da immaginare dal punto di vista del suono. Dopo lo sparo (il suono fuoriuscito dalla pistola si esaurisce quasi subito) il suono rimbomba per diversi secondi estinguendosi lentamente. Questo suono è originato dalle riflessioni del suono originario sulle superfici che incontra. Il suono del riverbero segue leggi precise che vengono riassunte nella figura seguente:
Comportamento del suono riverberato Abbiamo visto come, nel fenomeno della riflessione [Vedi: Riflessione] , una parte dell’energia associata all’onda sonora venga assorbita e un’altra parte venga riflessa. Dunque ad ogni riflessione l’onda sonora perde una parte di energia fino a che questa non si estingue. La figura mostra l’ampiezza delle varie riflessioni e gli istanti di tempo in cui si verificano. Il primo suono che raggiunge l’ascoltatore, a meno di eventuali ostacoli frapposti, è sempre il segnale diretto (direct signal) essendo questo il percorso minimo percorso effettuato dal suono. Dopo una breve pausa denominata ritardo iniziale (in inglese: pre delay) arrivano le prime riflessioni (early reflections) che sono quelle che hanno incontrato una sola superficie prima di arrivare all’ascoltatore. Infine arrivano le ultime riflessioni (late reflections) che sono quelle che hanno incontrato più di una superficie. Queste arrivano sovrapponendosi l’una con l’altra generando un suono mediamente continuo. Le ultime riflessioni, per il loro carattere ravvicinato nel tempo, prendono anche il nome di grappolo di riverberazione. In inglese reverb cluster
8.4.1. Classificazione dei riverberi Il nostro orecchio è abituato all’ascolto di suoni riverberati in quanto è molto raro trovarsi in situazioni in cui il riverbero è assente (come ad esempio nel deserto). Dunque, sin dagli inizi i tecnici del suono hanno cercato di ottenere un suono riverberato. Ciò è stato fatto nei modi più ingegnosi all’inizio e via via in maniera sempre più sofisticata. Vale la pena ripercorrere brevemente la storia dei riverberi in quanto nei moderni plug-in i preset ereditano da questa terminologia e tentano di riprodurre le relative sonorità. Stereo pair reverb (coppia stereofonica): consiste in una coppia di microfoni, piazzata all’interno dell’ambiente in cui viene effettuata la registrazione. Naturalmente, tale tecnica produce un suono inimitabile dal punto di vista del realismo, ma poco manipolabile nell’ambito di un mix. Spring reverb (riverbero a molla): i trasduttori sono applicati ad una molla che genera l’effetto reverbero. Si trovano principalmente negli amplificatori per chitarra e nell’organo Hammond. Plate reverb (riverbero a piastra): il segnale audio pilota un trasduttore elettroacustico che mette in vibrazione una lastra di metallo. Dall’altro lato della piastra vengono applicati uno o più trasduttori che ritrasformano la vibrazione ricevuta in un segnale elettrico (mono o stereo, a seconda del numero di trasduttori riceventi). Non ha un suono molto naturale. Chamber reverb (camera di riverberazione): (anni ‘50) al tempo consisteva in uno o più microfoni piazzati in un ambiente acusticamente trattato in cui veniva immesso il suono da riverberare attraverso una coppia di diffusori. Questi venivano alimentati tramite un’uscita ausiliaria del mixer, mentre il segnale dei microfoni rientrava nell’ingresso aux send return [Vedi: Auxiliary send] . Digital reverb (riverbero digitale): (anni ‘70) attraverso l’uso di delays [Vedi: Delay] e filtri [Vedi: Filtri] , riproducono il suono del riverbero. Sono macchine molto complesse e anche costose ma che ancora oggi vengono utilizzate per la qualità e la profondità del riverbero ottenuto. Algorithmic reverb (riverbero ad algoritmo): in questo caso la successione delle repliche del segnale originale e tutti gli altri fattori viene calcolata attraverso un algoritmo matematico. Sono i più diffusi, soprattutto dopo l’avvento dei plugin destinati ai software di hard disc recording. Generalmente, i preset denominati “room” e “ambient” simulano la riverberazione rispettivamente di ambienti ristretti ed estesi.
104
Convolution reverb (riverbero a convoluzione): riproducono la sonorità di ambienti reali o anche apparecchiature (come per esempio una radiolina da stadio). Si tratta di una tecnica un po’ elaborata e pertanto descritta in una sezione a parte [Vedi: Riverberi a convoluzione] .
8.4.2. Parametri di controllo di un riverbero Abbiamo a disposizione una serie di controlli per modificare le caratteristiche dell’effetto riverbero che vogliamo applicare. Vediamo quali sono i più importanti: Pre Delay: consente di modificare il tempo del pre delay, ossia il tempo che intercorre tra il suono diretto e le prime riflessioni. Early Reflections: durata delle prime riflessioni. Decay: durata del decadimento delle ultime riflessioni. Mix: la percentuale tra segnale asciutto (dry signal) e bagnato/riverberato (wet signal). Dimensioni della stanza: spesso i valori sono riferiti alle forme-dimensioni degli ambienti (hall, room, chamber, cathedral, spring/plate). HF Ratio: le alte frequenze sono le prime ad essere attenuate durante le riflessioni. Questo controllo permette di simulare le capacità di assorbimento delle superfici. Stereo width: allarga o restringe l’immagine stereo del riverbero. Alcune unità permettono di definire un tempo di decadimento diverso a seconda della frequenza. Di seguito viene riportato il suono di uno strumento asciutto e lo stesso suono a cui è stato aggiunto un effetto di riverbero in diverse modalità. Esempio sonoro 8.1. Suono asciutto [Traccia 23]
Allo stesso suono vengono ora applicati diversi tipi di riverberi: Esempio sonoro 8.2. Reverbero tipo: damped room [Traccia 24]
Esempio sonoro 8.3. Reverbero tipo: Lexicon PCM 91 [Traccia 25]
Esempio sonoro 8.4. Reverbero tipo: cathedral 7sec [Traccia 26]
Esempio sonoro 8.5. Reverbero tipo: big bright plate [Traccia 27]
8.4.3. Riverberi a convoluzione Il riverbero a convoluzione è un affascinante tipo di riverbero è basato su un’operazione matematica che prende il nome di convoluzione. Dal punto di vista matematico, date due funzioni, la convoluzione consiste nel moltiplicare ogni punto della prima per ogni punto della seconda. Il risultato è una terza funzione frutto dell’operazione di convoluzione tra le due[16]. Nell’introduzione agli equalizzatori [Vedi: Equalizzatori e Filtri] abbiamo parlato della funzione di trasferimento di un circuito come quella funzione nel dominio della frequenza H(f) che ne caratterizza il comportamento e l’azione sullo spettro di frequenza del segnale di ingresso X(f); si è visto come lo spettro di frequenza del segnale di uscita Y(f) sia pari a: Y(f) = X(f)H(f). Ciò che nel dominio della frequenza equivale ad un semplice prodotto tra funzioni, non vale nel dominio del tempo, dove non è possibile applicare la stessa formula con le relative funzioni del tempo: x(t), h(t), y(t). Non andremo oltre nella descrizione matematica di questa operazione, limitandoci a dire che y(t) (segnale in uscita) è il risultato della convoluzione tra x(t) (segnale in ingresso) e h(t). Quest’ultima funzione viene definita risposta impulsiva o risposta all’impulso e descrive l’azione del circuito in risposta ad un segnale di ingresso impulsivo, ossia con un transiente molto pronunciato e di brevissima durata (come per esempio un colpo di pistola). Dunque, a seconda del dominio in cui ci troviamo, utilizzeremo una formula o l’altra: Tabella 8.1. Azione di un circuito su un segnale
105
Dominio Operazione Simbolo Formula Tempo Convoluzione * y(t) = x(t) * h(t) Frequenza Moltiplicazione x Y(f) = X(f) x H(f) La risposta impulsiva h(t) descrive l’azione nel tempo di un circuito sul segnale di ingresso x(t) (e il segnale di uscita y(t) è il risultato della convoluzione tra questi due); la funzione di trasferimento H(f), che è la trasformata di Fourier della risposta impulsiva, descrive l’azione del circuito sullo spettro di frequenza del segnale di ingresso X(f) (trasformata di Fourier [Vedi: Analisi armonica di Fourier] del segnale in tempo x(t)) e lo spettro di frequenza del segnale uscita Y(f) è il risultato del prodotto tra queste due funzioni, ossia H(f)X(f). La risposta impulsiva h(t) è rappresentativa della risposta del nostro circuito ad una sollecitazione impulsiva e dunque può essere applicata a qualsiasi segnale audio in ingresso applicando l’operazione di convoluzione. Il risultato sarà un suono a cui sarà stata applicata la risposta del circuito. Lo stesso principio vale per un ambiente fisico nel quale si propaga un suono: registrando con un microfono la risposta impulsiva di un ambiente, siamo in grado di utilizzarla applicandola a qualsiasi suono, che suonerà come se fosse stato prodotto nell’ambiente in questione. La macchina che realizza questa “magia” è il riverbero a convoluzione, ossia un circuito che applica una risposta impulsiva al segnale di ingresso, producendo un segnale in uscita che è il risultato dell’operazione di convoluzione tra i due. Consideriamo ad esempio la seguente risposta impulsiva, ottenuta registrando un suono impulsivo attraverso una cornetta telefonica d’annata:
Cornetta telefonica “vintage” Vediamo ora, tramite l’utilizzo di un riverbero a convoluzione, come questa risposta viene applicata ad un arpeggio di chitarra (l’arpeggio originale è ascoltabile alla traccia 11). Esempio sonoro 8.6. Arpeggio di chitarra in una cornetta telefonica [Traccia 28]
La risposta impulsiva appena utilizzata dal riverbero a convoluzione è la seguente: Esempio sonoro 8.7. Risposta impulsiva cornetta telefonica [Traccia 29]
La risposta impulsiva, qualsiasi essa sia, non deve essere compressa (per esempio con l’algoritmo mp3 [Vedi: Compressione di di tipo lossy] ) in quanto i principi sfruttati nella compressione di dati audio non sono applicabili in questo contesto. E’ possibile reperire in commercio (e anche gratuitamente) intere librerie di risposte impulsive degli ambienti più disparati (chiese, auditorium, sale d’ascolto ecc) o di macchine audio (vecchi riverberi digitali, radioline ecc). Tramite un riverbero a convoluzione (software o hardware), queste risposte impulsive saranno utilizzate per colorare i nostri suoni, come se fossero stati prodotti da quegli ambienti o da quei circuiti. Inoltre saremo in grado di variare artificialmente le caratteristiche della risposta, avendo a disposizione diversi parametri di configurazione. Ad esempio potremo allungare la durata del riverbero o cambiarne la risposta in frequenza.
[16] Nel contesto dell’audio digitale [Vedi: Introduzione all’Audio digitale] , dati due segnali campionati, la convoluzione
consiste nel moltiplicare tutti i campioni del primo per ogni campione del secondo.
106
8.5. Flanger Il flanger combina il segnale originario e una sua versione ritardata in cui il ritardo viene modulato (ciò significa che varia continuamente e l’andamento della variazione è pilotato da un oscillatore, per esempio una sinusoidale). Vediamo cosa succede in una tale situazione considerando un segnale composto da due armoniche:
Sinusoidi sfasate La forma d’onda superiore è il nostro segnale originario che supporremo costituito da una sinusoide e dalla seconda armonica. La seconda forma d’onda è identica alla precedente ma ha un ritardo variabile che al massimo è pari a mezza semionda. Dunque immaginiamo la seconda forma d’onda oscillare sull’asse orizzontale tra 0 e la posizione in cui si trova in figura. Quando si trova sullo 0, le due forme d’onda sono in fase e riscontriamo un rinforzo di tutte le frequenze componenti il segnale. Quando si trova nella posizione ritardata (come in figura), notiamo una cancellazione della prima armonica e un rinforzo della seconda. Dunque il contenuto in frequenza del segnale originario è stato modificato. Tutte le posizioni intermedie agiscono in misura diversa sia sulla prima che sulla seconda armonica. Riassumendo, l’effetto flanging consiste nel sommare al segnale originario una sua replica ritardata in cui il tempo di ritardo è modulato secondo una determinata forma d’onda (se il ritardo non fosse modulato otterremmo una variazione statica del contenuto in frequenza del segnale originario, modulando rendiamo più interessante l’effetto). Di seguito viene riportato un suono su cui è stato applicato un effetto flanger. Esempio sonoro 8.8. Suono con effetto Flanger [Traccia 33]
La figura seguente mostra lo schema logico di un flanger:
Flanger Vediamo che il segnale di ingresso viene suddiviso in due parti: la prima raggiunge l’uscita senza essere manipolata mentre la seconda viene fatta passare attraverso un delay e poi miscelata al segnale di ingresso. Il tempo di delay è controllato da un oscillatore a bassa frequenza (in inglese: LFO - Low Frequency Oscillator). Tale circuito consiste in un oscillatore in grado di generare forme d’onda (generalmente sinusoidali) a bassa frequenza (1 Hz o anche meno). Tali oscillatori vengono di solito impiegati per controllare i parametri di altri effetti come nel presente caso in cui il LFO modula il tempo di ritardo tra i due segnali (nell’esempio precedente, modulando con una sinusoide di 1Hz i due segnali rientrano in fase ogni secondo). Possiamo notare che una parte del segnale destinato all’uscita viene prelevata e rispedita in ingresso. Questo artificio, detto feedback viene impiegato in tanti altri tipi di effetti e ha il risultato di amplificare ulteriormente l’effetto applicato. I controlli tipici di cui viene dotato un effetto flanger sono i seguenti: Rate: la velocità di variazione del tempo di delay (è la frequenza del modulatore LFO). Mix: miscela il segnale originario e quello manipolato. Feedback: controlla la quantità di flanging applicata. Possiamo simulare l’effetto flanging utilizzando due microfoni per prelevare lo stesso segnale. Tenendo un microfono fisso mentre l’altro viene ciclicamente avvicinato e poi allontanato dalla sorgente sonora otteniamo due copie dello stesso segnale una ritardata rispetto all’altra. Il movimento avanti e indietro del secondo microfono simula l’operazione di modulazione del tempo di ritardo.
107
8.6. Phaser Il phaser applica al segnale di ingresso una serie di filtri, ognuno dei quali introduce uno sfasamento sulla banda di frequenze su cui agisce. Di seguito viene riportato un suono su cui è stato applicato un effetto Phaser. Esempio sonoro 8.9. Suono con effetto Phaser [Traccia 32]
Per quanto visto, il phaser lavora come un effetto flanging multiplo applicato ad ogni singola banda di frequenza.
108
8.7. Chorus L’obiettivo del chorus è quello di simulare l’effetto di un coro. Presenta un’ulteriore estensione rispetto al phaser e al flanger aggiungendo un dispositivo che introduce variazioni di ampiezza e di pitch sul segnale manipolato. Le variazioni di tempo, ampiezza e pitch restituiscono un effetto simile al suono di un coro da cui il nome dell’effetto. Di seguito viene riportato un suono su cui è stato applicato un effetto Chorus. Esempio sonoro 8.10. Suono con effetto Chorus [Traccia 34]
109
8.8. Delay Un delay aggiunge repliche del segnale distanziate nel tempo realizzando un effetto eco’. Inizialmente veniva prodotto utilizzando un registratore analogico sfruttando la distanza tra la testina di riproduzione e quella di registrazione. Mandando l’uscita del canale sinistro all’ingresso del canale destro e viceversa e lavorando sulla velocità del nastro si riusciva a ottenere un effetto delay versatile e, per l’epoca, rivoluzionario. L’era digitale ha semplificato molto la realizzazione di questo effetto consentendo inoltre di introdurre innovazioni interessanti come il ping pong delay (le repliche sono alternate sui canali destro e sinistro) e il multi-tap delay (le repliche si susseguono con tempi diversi creando effetti di dissolvenza). Nella pratica musicale il tempo di delay viene spesso posto pari al tempo di una battuta. In questo modo le repliche vanno a tempo con la musica creando un effetto che contribuisce a riempire il suono. Per calcolare il tempo di delay (in millisecondi) necessario per un pezzo di n battute al minuto (bpm - beats per minute) possiamo ricorrere alla seguente formula: tempo di delay (ms)=60000 ms/bpm Di seguito viene riportato un suono su cui è stato applicato un effetto Delay in due diverse modalità: Esempio sonoro 8.11. Delay semplice [Traccia 30]
Esempio sonoro 8.12. Delay con maggiore feedback [Traccia 31]
110
8.9. Time stretching e Pitch shifting Il time stretching consiste nella dilatazione (rallentamento) o contrazione (accelerazione) temporale di un programma sonoro mentre il pitch shifting consiste nell’aumento o diminuzione del pitch (tonalità) di un programma sonoro. Per capire perché ciò accade pensiamolo applicato ad una semplice sinusoide di una determinata frequenza. Accelerando (rallentando) la riproduzione della sinusoide avremo che le oscillazioni saranno più rapide (lente), ossia la frequenza aumenterà (diminuirà), risultando in un aumento (abbassamento) del pitch. Ora, queste due operazioni sono intrinsecamente correlate nel senso che, in assenza di ulteriori manipolazioni, accelerando un programma sonoro (si pensi all’aumento di velocità di riproduzione di un vinile) si ottiene contemporaneamente un aumento del pitch e viceversa. Ad esempio, se abbiamo registrato una batteria a 120bpm e volessimo rallentarla fino a 100bmp, rallentando l’esecuzione della registrazione otterremmo il risultato voluto ma contemporaneamente avremmo un abbassamento del pitch di tutti i suoni tanto più vistoso quanto maggiore è il rallentamento imposto. Nasce dunque l’esigenza di svincolare l’operazione di time stretching da quella di pitch shifting, ad esempio per rallentare la batteria di cui sopra senza che il timbro dei suoni venga alterato significa fare time stretching senza avere pitch shifitng. Analogamente, se volessimo intonare una voce poco intonata, dovremmo cambiare il pitch delle note stonate ma vorremmo farlo senza accelerare o diminuire la riproduzione. Per questo sono nati negli ultimi anni sofisticati algoritmi e software che permettono operazioni di time stretching senza pitch shifting (ad esempio come Elastic Audio presente nel software Pro Tools e Warp presente nel software Ableton Live) e operazioni di pitch shifting senza time stretching (ad esempio Autotune prodotto da Antares e Melodyne prodotto da Celemony).
111
8.10. Pitch Shifter Il pitch shifter è in grado di aumentare o diminuire la tonalità del segnale di ingresso. Questa proprietà può essere impiegata in modi molto diversi e interessanti:
Diversi utilizzi del Pitch Shifter Per esempio si può regolare l’effetto in modo che restituisca la nota suonata in ingresso aumentata di un’ottava (questa modalità viene a volte usata sugli assoli di chitarra elettrica). Agendo sul ritardo con cui vengono emesse le note e sull’aumento (diminuzione) di tonalità si possono realizzare diversi effetti. L’immagine a) mostra come sia possibile realizzare un effetto arpeggio restituendo repliche ritardate in tempo con la tonalità che aumenta di volta in volta. Nella b) viene mostrato come, lasciando il pitch inalterato, il pitch shifter si comporta come un delay. Nella c) si vede come ponendo a zero il tempo di delay si possano formare degli accordi suonando una singola nota (in questo caso si parla di harmonizer). Di seguito viene riportato un suono su cui è stato applicato un effetto Pitch Shifter. Esempio sonoro 8.13. Suono con effetto Pitch Shifter [Traccia 35]
112
8.11. Tremolo Il tremolo applica sul segnale di ingresso modulazioni di ampiezza. La frequenza del LFO controlla la rapidità della modulazione dell’ampiezza del segnale audio. Di seguito viene riportato un suono su cui è stato applicato un effetto Tremolo. Esempio sonoro 8.14. Suono con effetto Tremolo [Traccia 36]
113
8.12. Vibrato Il vibrato applica sul segnale di ingresso modulazioni di tono (frequenza). In questo caso un LFO modula la frequenza del segnale. Di seguito viene riportato un suono su cui è stato applicato un effetto Vibrato. Esempio sonoro 8.15. Suono con effetto Vibrato [Traccia 37]
114
8.13. Distorsore Non è esagerato affermare che il distorsore ha cambiato la storia della musica. La nascita del Rock infatti deve molto all’invenzione di questo effetto scoperto per caso come risultato di un’errata amplificazione. Il principio di funzionamento del distorsore è molto semplice ed è descritto dalla figura seguente:
Effetto della saturazione su una sinusoide Quando l’ampiezza di un segnale supera la soglia massima consentita all’ingresso di un amplificatore, si incorre nel fenomeno chiamato saturazione: quando il segnale di ingresso è minore della soglia l’amplificatore funziona correttamente e riproduce in uscita la forma d’onda amplificata, quando però il segnale di ingresso supera la soglia, l’amplificatore ha raggiunto il suo massimo e non è in grado di amplificare ulteriormente la forma d’onda. Ciò si traduce in un’uscita costante pari al massimo consentito per l’amplificazione per tutto il tempo che il segnale di ingresso rimane al di sopra della soglia. Quando il segnale di ingresso ridiscende al di sotto della soglia l’amplificatore ricomincia a funzionare correttamente. La figura precedente illustra la curva di amplificazione di un amplificatore e la sua azione su un segnale di ingresso di tipo sinusoidale che presenta dei massimi al di sopra della soglia. La saturazione introduce una brusca variazione del segnale che non segue più il suo andamento sinusoidale naturale e questo significa che il nuovo segnale contiene nuove frequenze più alte di quella originaria. Vediamo questo fatto dal punto di vista della teoria dei segnali facendo riferimento alle nozioni introdotte nella relativa sezione [Vedi: Distorsione da saturazione] . Abbiamo detto più volte che qualsiasi segnale complesso è riconducibile alla somma di sinusoidi a diverse frequenze (e fasi). Più brusche sono le transizioni presentate dal segnale, più frequenze sono necessarie per riprodurlo in termini di sinusoidi. Guardando ora la sinusoide saturata di figura ci accorgiamo che sono state introdotte delle brusche transizioni e dunque nello spettro devono essere comparse delle nuove frequenze e sono queste che generano il suono tipico della distorsione. Dunque la distorsione allo stato puro si ottiene alzando il guadagno di un preamplificatore in modo che parte del segnale che poi andrà all’amplificatore finale [Vedi: Curva di amplificazione] . superi in certi punti il suo valore di soglia. Di seguito viene riportato un suono su cui è stato applicato un effetto Distorsore in diverse modalità. Esempio sonoro 8.16. AC30 Crunch Light [Traccia 38]
Esempio sonoro 8.17. Marshall Heavy [Traccia 39]
Esempio sonoro 8.18. Mesa [Traccia 40]
Generalmente l’azione del distorsore si applica all’intero segnale, e dunque viene messo in serie (in insert) nella catena audio. Tuttavia può capitare di voler usare il distorsore in una configurazione in parallelo. È il caso della parallel distorsion (distorsione parallela), che consiste nell’utilizzare un aux send e un aux send return [Vedi: Auxiliary send] su cui viene inserito un distorsore con parametri molto vistosi, al limite dell’esagerazione, in modo da enfatizzare il più possibile il suono della distorsione. Tale distorsione applicata in serie sarebbe inascoltabile, ma dosata attraverso il canale return diventa un rinforzo che soggiace al suono originario, creando sonorità interessanti. Di seguito riportiamo il nostro giro di chitarra dopo l’applicazione di una parallel distortion. Nell’ordine, vengono proposti 4 suoni: chitarra dry, chitarra drasticamente distorta, chitarra con l’applicazione della parallel distorsion, parallel distorsion on e off. Esempio sonoro 8.19. Parallel distortion [Traccia 41]
115
8.14. Exciter L’exciter introduce leggere saturazioni sul segnale di ingresso. Come detto, una saturazione genera nuove armoniche dipendenti dal contenuto in frequenza del segnale di ingresso. Quindi l’exciter è in grado di generare alte frequenze a partire da segnali che ne difettano. È per esempio il caso di alcune voci, che per quanto intonate, in fase di missaggio mancano di ‘mordente’. L’effetto è in grado di conferire a queste voci caratteristiche come la brillantezza e la definizione. A volte un exciter viene impiegato su un intero mix al fine di equilibrarne il contenuto in frequenza. Un altro utilizzo è nel campo radiotelevisivo: a volte le pubblicità vengono trattate con un exciter in modo da risaltare maggiormente rispetto ai suoni della normale programmazione. Di seguito viene riportato un suono su cui è stato applicato un effetto Exciter. Esempio sonoro 8.20. Suono con effetto Exciter [Traccia 42]
116
8.15. Wah-Wah L’effetto wah-wah viene applicato principalmente alle chitarre elettriche e acustiche. Consiste in un filtro passa basso che presenta un picco di risonanza in corrispondenza della frequenza di taglio.
Forma del filtro utilizzato dal Wha-Wha La frequenza di taglio viene modificata manualmente anzi, per essere precisi, con il piede che aziona un potenziometro, oppure modulata con un LFO o ancora può essere controllata dall’ampiezza del segnale di ingresso. Ciò significa che quando una corda viene pizzicata, il segnale si trova nella fase di attacco e dunque ha l’ampiezza maggiore. Ciò si traduce in una frequenza di taglio elevata. Man mano che l’inviluppo del suono decade, diminuisce anche la frequenza di taglio. Questa traslazione della frequenza di taglio genera il suono tipico del Wah-Wah. Di seguito viene riportato un suono con effetto WhaWha. Esempio sonoro 8.21. Suono con effetto Wha-Wha [Traccia 43]
117
8.16. Vocoder Il Vocoder è un effetto che si ottiene mediante la modulazione, utilizzando opportuni filtri, di alcune bande di frequenza che compongono il suono originario. La figura seguente schematizza il funzionamento di un vocoder:
Schema di un vocoder Il segnale portante (carrier) viene suddiviso in bande di frequenza da un banco di filtri e le ampiezze delle frequenze che escono da ogni filtro sono regolate da un segnale generato a partire dal segnale modulatore (modulator). Quest’ultimo infatti viene anch’esso suddiviso in bande di frequenza e il livello di ogni banda viene rilevato da un inseguitore di inviluppo (in inglese: envelope follower). Il segnale che esce da ogni inseguitore di inviluppo controlla il livello della relativa banda del segnale portante tramite un circuito VCA (Voltage Controlled Amplifier). Se ad esempio la portante è costituita da un suono di synth carico di armoniche e il segnale modulatore è ad esempio una voce, otterremo che il synth verrà modulato dalla voce e sembrerà un “synth parlante”. Da un punto di vista più divulgativo possiamo dire, alla luce della teoria dei segnali introdotta in precedenza [Vedi: Rappresentazione tempo/frequenza] , che il vocoder è una macchina che applica lo spettro di frequenza di un suono, chiamato modulatore, ad un altro suono, chiamato portante. Di seguito viene presentato un suono vocale e la sua successiva manipolazione attraverso un vocoder Esempio sonoro 8.22. Una bella voce [Traccia 44]
Esempio sonoro 8.23. La stessa voce dopo l’applicazione di un vocoder [Traccia 45]
118
Capitolo 9. Processori di dinamica 9.1. Introduzione Come accennato in precedenza, i processori di segnale intervengono sull’intero segnale (salvo rare eccezioni [Vedi: Parallel Compression] ). È il caso dei processori di dinamica (compressore, limiter, expander, gate), dove si applica un intervento in serie, a differenza degli effetti dove l’effetto viene applicato in parallelo [Vedi: Effetti - FX] . In questa sezione introdurremo i principali processori e il loro utilizzo. Come si evince dal nome, i processori di dinamica agiscono sulla dinamica [Vedi: Dynamic Range] del segnale audio. In particolare, possono aumentarla o diminuirla, a seconda dell’obiettivo da perseguire. La differenza in dB tra il suono più basso e quello più alto in volume di una sorgente sonora caratterizza la sua dinamica. La diminuzione della dinamica viene definita compressione mentre il suo aumento viene definito espansione. Per aumentare la dinamica (espansione) possiamo agire in due direzioni: alzare i suoni più forti (espansione verso l’alto, in inglese: upward expansion) o abbassare i suoni più bassi (espansione verso il basso, in inglese: downward expansion). Viceversa, per diminuirla (compressione) possiamo abbassare i suoni più forti (compressione verso il basso, in inglese: downward compression) o alzare i suoni più bassi (compressione verso l’alto, in inglese: upward compression). La figura seguente aiuta a interpretare i 4 diversi tipi di azione sulla dinamica di un segnale:
Compressione e espansione della dinamica La parte sinistra della figura mostra il processo di espansione della dinamica che, come si è detto, può avvenire verso il basso o verso l’alto. La parte destra della figura mostra il processo di compressione della dinamica che, come si è detto, può avvenire verso il basso o verso l’alto[17]. Generalmente si usano processori di tipo downward ossia verso il basso e sono questi che verranno descritti nel seguito di questa sezione.
[17] Si noti quindi come la compressione non sia sempre sinonimo di riduzione del volume (downward compression) ma
possa corrispondere anche a un’amplificazione (upward compression).
119
9.2. Compressore È sicuramente il processore più importante. Il compressore agisce sulla dinamica [Vedi: Dynamic Range] del segnale di ingresso riducendone l’ampiezza quando questa supera una certa soglia (threshold); la riduzione viene espressa con un rapporto di compressione (ratio, per esempio 3:1. Ciò significa che quando il segnale supera la soglia, la parte di segnale al di sopra di questa viene ridotta a 1/3:
Dinamica normale e compressa Nella figura precedente abbiamo sulla sinistra il segnale che si presenta all’ingresso del compressore. Sulla sinistra vediamo le ampiezze di riferimento misurate in dBu e possiamo notare che il segnale ha una dinamica di 50 dB. La figura mostra anche la soglia scelta per l’azione del compressore: -20 dB. Nella figura di destra vediamo il risultato di una compressione 3:1. La parte di segnale al di sotto della soglia è rimasta invariata mentre la parte superiore è stata ridotta a 1/3 e dunque la parte di dinamica superiore alla soglia che era di 30 dB si è ridotta a 10 dB. La dinamica complessiva è dunque stata ridotta da 50 dB a 30 dB. Vediamo ora nel dettaglio i controlli del compressore: Threshold (soglia): questo valore è espresso in dB e determina la soglia oltre la quale il compressore entra in azione. Ratio (rapporto): quantifica la riduzione di ampiezza del segnale al di sopra della soglia. Alcuni rapporti tipici sono: 1:1 - Assenza di compressione, il segnale di uscita è lo stesso del segnale di ingresso. 2:1 - Il segnale al di sopra della soglia viene dimezzato. Se il segnale supera la soglia di 10 dB il suo valore verrà ridotto a 5 dB sopra la soglia. Altri valori sono 3:1, 4:1 ecc. Per valori superiori a 10:1 il compressore si comporta praticamente come un limitatore [Vedi: Limiter] . Nella figura seguente viene mostrata la caratteristica di trasferimento di un compressore per diversi valori del rapporto di compressione:
Curva di compressione La figura mostra l’ampiezza del segnale di uscita in funzione di quello di ingresso. Si vede che fino al valore di soglia l’ampiezza del segnale di uscita è la stessa di quella del segnale di ingresso in quanto siamo nella zona denominata unity gain (guadagno unitario) dove quello che entra è uguale a quello che esce dalla macchina. Oltre interviene la compressione secondo il rapporto impostato. Attack time (tempo di attacco): indica il tempo impiegato dal compressore per raggiungere il massimo della sua azione dopo che il segnale ha superato la soglia e viene indicato in millisecondi. Nella figura seguente vengono paragonate due situazioni con tempo di attacco corto e lungo.
120
Tempi di attacco di un compressore Lasciare un tempo di attacco lungo significa che il segnale che ha superato la soglia, all’inizio non viene praticamente compresso.
Compressione e inviluppo ADSR Esaurito il tempo di attacco, il compressore riduce l’ampiezza del segnale: questo ha la conseguenza di evidenziare la parte iniziale dei suoni. Si immagini infatti il suono della cassa di una batteria il cui inviluppo [Vedi: Inviluppo ADSR] ha inizialmente la forma di figura (curva superiore): Applicando la compressione l’inviluppo diventa la linea inferiore. Questo evidenzia fortemente l’attacco della cassa conferendogli un suono più secco. Due esempi estremi del suono della cassa della batteria sono nei generi techno e jazz. Nella techno, se la cassa non è completamente sintetica, il suono della cassa deve essere molto secco, breve, aggressivo e dunque si opera una massiccia compressione (per esempio 4:1) con un tempo di attacco lento (per esempio 80ms). Nel jazz il suono della cassa è da considerarsi quasi come il suono di un altro strumento e dunque ha una lunga coda, quasi un rimbombo. In questo caso utilizzeremo un rapporto di compressione più dolce (per esempio 2:1) e un tempo di attacco molto breve ( mixer —> registratore —> ancora mixer —> effetto —> ritorno dall’effetto —> ancora mixer ecc.) È fondamentale che i livelli di uscita di un modulo siano compatibili con i livelli di ingresso del modulo successivo. Per questo esistono un serie di potenziometri (trimmer) generalmente interni alle macchine che vanno calibrati durante la fase di istallazione e ricontrollati periodicamente. La modalità operativa è la seguente: si utilizza un oscillatore (generalmente alla frequenza di 1 KHz) e si regolano tutti i moduli in modo che tutte le uscite e tutti gli ingressi si trovino ad un livello pari a 0 Vu [Vedi: Standard Operating Level] . In questo modo si è sicuri che i livelli sono gli stessi per tutti i moduli utilizzati.
216
15.5. Il Mastering Descriviamo ora brevemente l’operazione di mastering[33] intesa come la rifinitura finale di un mix. In altre parole, una volta messo a punto il missaggio si interviene sul segnale finale Left e Right presente sul mix bus prima che venga destinato al mercato e dunque venga riversato sul supporto finale (CD, file per iTunes, vinile, ecc). Ognuno di questi supporti (consideriamo iTunes un supporto virtuale) ha le sue caratteristiche e dunque il prodotto che esce dalla fase di mastering dovrà essere conforme alle specifiche imposte dal supporto di destinazione.
15.5.1. Operazioni effettuate in fase di mastering Vediamo alcune delle principali operazioni che vengono effettuate durante il mastering. Integrità del materiale sonoro: dato che il mastering è l’ultima fase prima che il prodotto venga rilasciato, si tratta anche dell’ultima possibilità di controllare che tutto sia a posto. Si verifica dunque attentamente che non ci siano rumori, click o parti distorte. Controlli su diversi impianti di riproduzione: si verifica che l’ascolto sia ottimale su diversi sistemi di riproduzione in quanto il nostro prodotto finale verrà verosimilmente suonato su qualsiasi tipo di impianto: hi-fi casalingo, cuffie economiche per iPod, cuffie di qualità, club, ecc. Miglioramento del suono complessivo: si mettono in campo tutte le tecniche disponibili per far suonare al meglio una traccia: uso di exciters, equalizzatori, maximizers ecc. Naturalmente, queste tecniche devono essere finalizzate ad un obiettivo di reale miglioramento della traccia e non sempre è il caso utilizzarle. Definizione della playlist: una volta che tutti i brani sono pronti, se ne stabilisce la sequenza in base all’esperienza di ascolto che si vuole dare e si regola l’impatto sonoro dei singoli brani. Ad esempio, se in un disco rock abbiamo un brano molto aggressivo e potente seguito subito dopo da una ballata dai toni delicati, non vorremo che i livello sonori percepiti di questi due brani siano simili. Vorremo infatti che la traccia aggressiva suoni più forte della traccia delicata. Formattazione del materiale sonoro: rinominare le tracce, definirne il formato finale che dipenderà dal supporto finale a cui le tracce sono destinate (CD, file mp3 ecc). Bounce finale: è veramente l’ultima fase della lavorazione. Si definiscono i parametri relativi al formato finale della traccia. Ad esempio, se la traccia è destinata ad essere stampata su CD, imposteremo la frequenza di campionamento finale e i bit di quantizzazione sui parametri standard del CD audio: 44.1 KHz, 16 bit. Dato che queste operazioni comportano pesanti manipolazioni sui dati, occorre utilizzare algoritmi sofisticati di downsampling e bit reduction, corredati di accorgimenti quali l’aggiunta del dithering.
15.5.2. Interventi sul suono in fase di mastering In fase di mastering si apre il mix e si effettua un attento ascolto, per il quale è assolutamente necessario utilizzare dei monitor di riferimento, per individuare le caratteristiche del materiale sonoro che abbiamo sotto mano. Se il materiale sonoro che stiamo trattando è scadente, non potremo recuperarlo con operazioni vistose, che peggioreranno solo la situazione, in questi casi c’è ben poco da fare. Alcuni esempi di queste situazioni sono: rumore eccessivo, stereofonia che presenta cancellazioni di fase, piatti troppo aspri, picchi di frequenze troppo vistosi, suoni troppo compressi, strumenti o voci non intonati. A volte, conviene ritornare al mix e risolvere i problemi lì, prima di ripartire con il mastering. Vediamo ora quali sono i singoli interventi che possono essere effettuati. Naturalmente, il tipo di intervento dipende dal materiale sonoro che si sta trattando: non tutti gli interventi descritti qui di seguito sono necessari e adeguati. E’ bene sottolineare che, vista la delicatezza degli interventi, le macchine impiegate (reali o plugins) devono essere di alta qualità. Emulazione valvolare: per riscaldare il suono complessivo, specialmente sulle basse frequenze. Saturazione analogica da registratore analogico [Vedi: Caratteristica di trasferimento di un nastro magnetico] : questo intervento può essere fatto riversando fisicamente il materiale sonoro su nastro magnetico leggermente saturato per poi riacquisirlo. In questo caso è necessario non solo disporre delle macchine, ma che queste siano anche tarate adeguatamente e di alta qualità. Esistono sul mercato diversi plugins che cercano di riprodurre (con discreti risultati) queste sonorità. Equalizzazione: questa operazione viene fatta in modi diversi e con diverse finalità. Passa alto con frequenza di taglio a 40 Hz a 12 dB/8va. Questo intervento toglie solo suoni indesiderati dalla parte bassa dello spettro. Il tipo di taglio dipende dal genere musicale e dal supporto di destinazione (ad esempio se il genere è pop o rock il taglio può essere quello appena indicato, per una traccia dance il taglio va spostato su frequenze più basse. Compensazioni: in questa fase è possibile compensare eventuali deficienze del mix: troppi bassi, pochi bassi, troppi alti, pochi alti. 217
Eliminazione dei picchi di frequenza: dal punto di vista dello spettro di frequenza, a volte il materiale sonoro presenta dei picchi concentrati in alcune zone di frequenza. Ciò ne rende troppo disomogeneo l’andamento di ampiezza, rendendo meno efficace la successiva operazione di massimizzazione dell’intera traccia. In questi casi, tramite un EQ parametrico di precisione, di possono contenere sensibilmente i suddetti picchi e ottenere uno spettro di frequenza più omogeneo. Curva di equalizzazione Hi-Fi: a volte si può applicare la classica curva a due gobbe tipica dell’equalizzazione hi-fi (1 o 2 dB di enfatizzazione sulla basse e alte frequenze con due eq di tipo shelving) Compensazione delle HF dovute alla saturazione analogica da nastro Immagine stereofonica: tramite un analizzatore di fase [Vedi: Correlatori di fase] si verificano eventuali controfasi che danneggiano la mono-compatibilità. Su alcuni generi, non è necessaria una stereofonia anche sulle basse frequenze, che può essere limitata rendendo più stabile il mix. Compressione multibanda: possiamo comprimere le basse frequenze, per renderle più presenti. Vale la pena riallineare le soglie del multibanda ai picchi di ogni banda. Inoltre, un po’ di compressione su tutte le bande (ognuna con i parametri di compressione più adeguati: ad esempio, le alte frequenze necessitano di tempi di attacco e di rilascio minori rispetto alle basse frequenze) consente di rendere più omogeneo lo spettro di frequenza e dunque di rendere l’ascolto più simile su diversi impianti con caratteristiche diverse. De-Clipping: eliminiamo gli eventuali picchi con un soft clipper. Limiting: l’obiettivo in questo caso è di contenere i picchi più alti del programma sonoro. Massimizzazione: una volta che il limiter ha contenuto i picchi, possiamo spingere verso l’alto il programma sonoro e aumentare così il livello RMS. La quantità di massimizzazione da impiegare è legata al compromesso migliore tra volume RMS e deterioramento del materiale sonoro a seguito della estrema compressione della dinamica. Comparazione: ascoltiamo il nostro mastering finale su una gran quantità di impianti e situazioni: monitor, hi-fi, cuffiette, ecc. Non dobbiamo avere grandi differenze di resa su tutto lo spettro di frequenza. Ciò significa che passando da un sistema di riproduzione all’altro non dovremo riscontrare vistose enfatizzazioni e/o attenuazioni di circoscritte bande di frequenza. Attenzione ai volumi. Se alla fine del mastering, la traccia suona più forte di una traccia commerciale, c’è la possibilità che il mastering non sia buono e che il suono si sia un po’ slabbrato. L’equilibrio tra volume percepito e chiarezza timbrica è uno degli equilibri più difficili da realizzare nel mastering.
15.5.3. La Loudness War Come si è accennato nella sezione relativa al limiter [Vedi: Limiter] , tramite un’opportuna taratura di quest’ultimo è possibile aumentare il livello RMS di un pezzo musicale lasciando invariato il livello di picco, con una conseguente riduzione della dinamica. In termini sonori questo fa sì che, a parità di livello, una traccia suoni “più forte” di una traccia non limitata. Questo nuovo elemento ha scatenato nell’ultimo decennio una “corsa al volume” che ha preso il nome di Loudness War (in italiano, guerra dei volumi) in cui sembrava che la finalità del mastering fosse diventata principalmente quella di far suonare più forte degli altri la propria traccia, a parità di livello massimo (che nel digitale corrisponde allo 0dBfs). La conseguenza è stata una sfrenata corsa alla riduzione della dinamica a favore del volume, con conseguenze a volte disastrose sulla qualità sonora di alcuni prodotti. La dinamica di un brano musicale è un fattore espressivo e dunque la sua riduzione estrema ha penalizzato l’emotività rendendo tutto estremamente sostenuto e soprattutto indifferenziato. In alcuni casi, i prodotti musicali sono risultati molto affollati in termini sonori in quanto l’estrema riduzione dinamica ha portato le code dei suoni ad avere una presenza ben maggiore aumentando l’ingombro nel mix a discapito della chiarezza dei suoni. Per aiutare il lettore a inoltrarsi nella valutazione della loudness war citiamo uno degli esempi più vistosi di questo fenomeno che è il disco Californication dei Red Hot Chili Peppers, prodotto dal famosissimo produttore Rick Rubin e considerato uno dei dischi più overcompressi della storia. Oggi sembra che la guerra sia finita e che si stia ritornando a dinamiche finali che rispettano l’integrità del suono e quella espressiva. Anche perché si è realizzato che per avere più volume su una traccia, è sufficiente girare il manopolone del volume sul nostro dispositivo di riproduzione…
[33] In questa sezione si intende dare solo un’idea della fase di masterizzazione e dei principali interventi effettuati in quanto
l’argomento è molto vasto e andrebbe trattato in un testo a sé.
218
Capitolo 16. Amplificazione 16.1. Introduzione In questa sezione verrà illustrato il concetto dell’amplificazione in cui gli aspetti in gioco sono molteplici e cambiano a seconda delle circostanze. L’idea di base è che possiamo intervenire sulle grandezze che caratterizzano il segnale, come l’ampiezza o la potenza, e aumentarle (in questo consiste l’amplificazione) per realizzare i nostri scopi. È importante però capire che non tutti i segnali si amplificano nello stesso modo e soprattutto che di volta in volta vi sono grandezze coinvolte e configurazioni diverse. Analizzando il percorso di un segnale dalla sorgente (per esempio un microfono) fino alla destinazione (per esempio un altoparlante) saremo in grado di capire le differenze tra le diverse situazioni.
219
16.2. La catena di amplificazione Un segnale elettrico generato da una sorgente acustica, come un segnale proveniente da un microfono, deve essere correttamente amplificato prima di arrivare ai diffusori. Il percorso che il segnale compie viene chiamato catena di amplificazione e nella figura seguente ne viene proposto un esempio:
Una catena di amplificazione In questo caso un microfono trasforma un segnale acustico in un segnale elettrico molto debole (concetto che tra breve verrà caratterizzato meglio) che entra in un preamplificatore. Questo ha la funzione di portare il segnale ad un livello tale da essere utilizzato e manipolato all’interno di una serie di circuiti, per esempio quelli che sono presenti all’interno di un mixer (equalizzatori, compressori ecc. che sono presenti nei canali). Il segnale elettrico proveniente dal microfono ha un’ampiezza molto bassa, che ne rende difficile la manipolazione dunque il compito di un preamplificatore è quello di aumentare l’ampiezza del segnale ossia il suo voltaggio [Vedi: L’elettricità] . La misura dell’amplificazione è data dal guadagno che esprime in dB il rapporto tra la tensione di uscita e la tensione di ingresso: Equazione 16.1. Guadagno di tensione di un amplificatore
Per esempio l’ampiezza media di un segnale generato da un microfono elettrodinamico è di 0.2 mV. Dopo il passaggio attraverso lo stadio di preamplificazione l’ampiezza diventa dell’ordine dei 200 mV (questi sono solo valori indicativi che servono a capire l’azione del preamplificatore sul segnale). Una volta che il segnale è stato manipolato, viene spedito allo stadio di amplificazione vero e proprio. In questo caso l’ampiezza ha già il valore desiderato, quello che manca al segnale è la potenza per poter pilotare l’altoparlante. Per questo l’amplificatore finale è un amplificatore di potenza nel senso che aumenta la potenza del segnale; la misura di questo aumento è data dal guadagno che esprime in dB il rapporto tra la potenza di uscita e la potenza di ingresso: Equazione 16.2. Guadagno di potenza di un amplificatore
A questo punto il segnale ha tutte le caratteristiche necessarie per pilotare un altoparlante.
220
16.3. L’amplificatore Per una trattazione completa sui circuiti di amplificazione si rimanda a testi specializzati sull’argomento. In questa sede verranno descritti gli aspetti principali del funzionamento e le caratteristiche di interesse per la corretta messa a punto di un sistema di amplificazione audio. Senza preoccuparci della circuiteria impiegata per realizzare un amplificatore consideriamo questo come una scatola nera a cui viene applicato un segnale di ingresso e da cui otteniamo un segnale di uscita amplificato secondo i valori di guadagno appena descritti:
Amplificatori di tensione e di potenza
221
16.4. Potenza erogata È la potenza che l’amplificatore è in grado di fornire in uscita. Vengono presi in considerazione due valori: uno medio, detto potenza nominale, che indica la potenza che l’amplificatore è in grado di fornire in modo costante e uno istantaneo, detto potenza di picco, che indica la potenza che l’amplificatore è in grado di fornire in un tempo definito.
222
16.5. Curva di amplificazione Descrive l’azione dell’amplificatore sul segnale di ingresso. La figura seguente mostra una possibile curva di amplificazione di un amplificatore di tensione:
Curva di amplificazione La figura mostra come una tensione di ingresso, per esempio di 50 mV venga restituita in uscita con un’ampiezza pari a 300 mV. Viene evidenziato anche il fatto che la tensione di ingresso non può superare il valore di 100 mV in quanto per valori superiori a questo, la tensione di uscita è costante e pari al valore indicato come Vmax .Naturalmente lo stesso discorso vale per tensioni negative, una tensione di -50 mV viene amplificata ad un valore pari a -300 mV e un valore di ingresso inferiore a -100 mV manda in saturazione l’amplificatore restituendo un valore di ampiezza costante pari a -Vmin. La figura mostra anche la linea tratteggiata che indica la curva di guadagno unitario. Ciò significa che se un amplificatore ha una curva di amplificazione tale, la tensione di uscita è esattamente pari alla tensione di ingresso. La figura seguente mostra l’amplificazione di due segnali sinusoidali, uno con ampiezza compresa entro i limiti tollerati dall’amplificatore, l’altra con ampiezza che supera in alcuni punti tali valori introducendo una saturazione sul segnale:
Segnale amplificato Si vede come la seconda sinusoide venga amplificata, ma anche troncata da un certo valore di ampiezza in su.
223
16.6. Distorsione da saturazione Vediamo questo cosa implica dal punto di vista del suono. Come abbiamo visto nella relativa sezione, un segnale sinusoidale contiene una sola frequenza [Vedi: Sinusoide pura] , pari al numero di cicli che la sinusoide stessa compie in un secondo. Se consideriamo un segnale con delle transizioni più brusche, queste saranno descritte da altre frequenze, dunque un segnale che presenta brusche transizioni in tempo contiene un serie di frequenze. Più sono brusche le transizioni, più sono necessarie frequenze alte per riprodurle. A questo proposito ricordiamo che un’onda rettangolare [Vedi: Onda quadra] presenta transizioni istantanee (si tratta di un’astrazione teorica che nella realtà non esiste in quanto le transizioni di ampiezza non possono mai avvenire in un tempo nullo). Per rappresentare un segnale di questo tipo occorrono infinite sinusoidi con frequenza via via crescente, dunque in sostanza occorrono infinite frequenze (anche questa ovviamente è un’astrazione teorica). Vediamo allora che troncando la cima della sinusoide, l’amplificatore impone al segnale delle transizioni non contenute nel segnale originario. Questo genera nuove frequenze anch’esse non presenti nel segnale originario e questo origina la distorsione. Dunque a meno che non si ricerchi volutamente la distorsione come effetto, la tensione di ingresso deve essere sempre entro i limiti indicati nelle specifiche dell’amplificatore riguardo il segnale di ingresso.
224
16.7. Altre cause di distorsione Un amplificatore può introdurre altre distorsioni di cui citiamo le più vistose e le loro cause. I componenti attivi, in particolare i semiconduttori, producono un rumore dovuto al rumore termico ossia al movimento casuale di elettroni al loro interno [Vedi: Rumore termico] . Se l’amplificatore presenta più canali di ingresso, questo possono interferire l’uno con l’altro a causa dell’induzione elettromagnetica che si genera tra componenti elettronici molto vicini. Un altro tipo di distorsione è la distorsione da intermodulazione ossia l’interferenza di due frequenze contenute nel segnale di ingresso che generano, attraverso l’azione dell’amplificatore, nuove frequenze indesiderate. In ultimo citiamo la distorsione di fase. Questa come è intuibile dal nome viene generata dall’amplificatore quando restituisce in uscita una frequenza contenuta nel segnale di ingresso sfasata rispetto a questa. Maggiore è lo sfasamento, maggiore è la distorsione introdotta.
225
16.8. Rendimento di un amplificatore Uno dei parametri più importanti nella descrizione del funzionamento di un amplificatore è il rendimento di conversione, definito come segue: Equazione 16.3. Rendimento di un amplificatore
In altre parole, questo fattore misura la quantità di potenza che un amplificatore è in grado di convogliare nel segnale di uscita amplificato. La potenza viene prelevata dall’alimentazione e trasferita nel segnale di uscita. Naturalmente, le manipolazioni effettuate dai componenti elettronici introducono dissipazioni di energia (che si converte in gran parte in calore, e dunque non è più utilizzabile per fini elettrici); per questo un amplificatore non sarà mai in grado di fornire in uscita tutta la potenza fornita dallo stadio di alimentazione. Il rendimento è un valore sempre minore di 1. Nel caso ideale, ossia in assenza di dissipazioni, il rendimento vale 1, ad indicare che tutta la potenza dell’alimentazione è trasferita sul segnale di uscita. In generale il rendimento viene espresso in valori percentuali (moltiplicando per 100 il rendimento effettivo), per esempio un rendimento pari a 0.2 viene valutato come 20%. In questo modo risulta chiaro che la potenza fornita in uscita è il 20% di quella fornita dallo stadio alimentatore, mentre l‘80% viene perso a causa dei diversi tipi di dissipazione dei componenti.
16.8.1. Classi di funzionamento Vi sono diverse configurazioni di circuiti per realizzare un’amplificazione di potenza. Queste vengono definite “Classi” e permettono di ottenere valori di rendimento più o meno elevati, a scapito della fedeltà del segnale di uscita rispetto al segnale di ingresso. Queste configurazioni si basano sul principio per il quale un circuito di amplificazione, lavorando per una durata inferiore all’intera durata del periodo del segnale, risparmia energia. Le comuni classi di funzionamento sono le seguenti: Classe A: un amplificatore avente in ingresso un segnale sinusoidale si dice funzionante in classe A quando la corrente variabile circola nel dispositivo per tutto il periodo del segnale di ingresso. Un amplificatore di questo tipo ha una distorsione molto ridotta a scapito però di un rendimento assai basso. Di seguito un esempio di curva di amplificazione di un amplificatore in Classe A:
Amplificazione in Classe A Classe AB: un amplificatore avente in ingresso un segnale sinusoidale di dice funzionante in classe AB quando la corrente variabile attraversa l’elemento non lineare (transistor) per un tempo maggiore di un semiperiodo e minore di un periodo. Dato che in questo caso la corrente in uscita non ha un andamento sinusoidale, si genera una distorsione. Tuttavia questa configurazione consente valori di rendimento superiori a quelli degli amplificatori in Classe A. In campo audio si utilizza spesso questo tipo di configurazione in quanto rappresenta un buon compromesso tra rendimento e fedeltà, anche se la scelta dipende molto dal contesto (ad esempio, nel caso di amplificatori di potenza elevata spesso si sceglie la classe D, in quanto il rendimento diventa preponderante rispetto al controllo della distorsione). Di seguito un esempio di curva di amplificazione di un amplificatore in Classe AB:
226
Amplificazione in Classe AB Classe B: un amplificatore avente in ingresso un segnale sinusoidale si dice funzionante in classe B quando la corrente variabile in uscita circola solo per una durata pari a un semiperiodo del segnale di ingresso. Dato che in questo caso la corrente di uscita è composta da una sola semionda e non dall’onda completa, la distorsione è elevata, anche se il rendimento in questo caso può arrivare all‘80%. Di seguito un esempio di curva di amplificazione di un amplificatore in Classe B:
Amplificazione in Classe B Classe C: un amplificatore avente in ingresso un segnale sinusoidale si dice funzionante in classe C quando la corrente variabile in uscita circola per una quantità di tempo inferiore al semiperiodo del segnale in ingresso. La distorsione è in questo caso molto elevata ma il rendimento si avvicina a valori del 100%. Questo tipo di amplificatori non vengono praticamente mai utilizzati in applicazioni audio. Di seguito un esempio di curva di amplificazione di un amplificatore in Classe C:
Amplificazione in Classe C Naturalmente il segnale di ingresso di un amplificatore è generalmente un segnale che comprende una banda estesa dello spettro sonoro e dunque le descrizioni precedenti non vanno considerate nell’ambito di una singola sinusoide, ma di una serie composita di segnali sinusoidali (frequenze). Vi sono ulteriori classi di funzionamento dei circuiti di amplificazione (D, E, G, H, T, Z ecc) che esulano le finalità di questo corso e che coinvolgono altri principi di progettazione. Per eventuali approfondimenti si rimanda a testi specifici sull’argomento.
227
16.9. Risposta in frequenza Come per altri componenti destinati ad essere utilizzati nel campo dell’audio, anche per un amplificatore viene fornita una risposta in frequenza attraverso la quale possiamo giudicare circa la qualità dello stesso. Quello che vorremmo da un amplificatore è che restituisse la banda del segnale che mandiamo in ingresso senza alterazioni ossia vorremmo un andamento piatto su tutta la banda di frequenze che ci interessa. Per esempio un amplificatore per impianti casalinghi lavora su tutte le frequenze udibili dunque vorremmo un andamento della risposta in ampiezza piatto[34] dai 20 Hz ai 20 KHz e anche una risposta in fase costante:
Risposta di ampiezza e fase di un amplificatore Le risposte appena mostrate in figura sono puramente teoriche. Nessun amplificatore in realtà ha un risposta così perfetta!
[34] In
realtà, possiamo tollerare variazioni di ampiezza di 1 o 2 dB rispetto al valore medio per ritenere costante l’andamento della risposta in ampiezza.
228
16.10. Impedenza di ingresso e di uscita Le impedenze di ingresso e di uscita sono tipiche di ogni circuito che presenta uno stadio di ingresso e uno di uscita. In questa sede ciò che ci interessa illustrare è che i valori di queste impedenze possono essere fissati in fase di progetto a seconda delle finalità del circuito. La figura seguente mostra un circuito generico evidenziando la sua impedenza di ingresso e quella di uscita:
Impedenze di ingresso e di uscita di un circuito Come si vede l’impedenza di ingresso è l’impedenza che si misura dall’esterno sui morsetti di ingresso mentre quella di uscita è quella misurata sui morsetti di uscita.
229
16.11. Caratteristiche degli ingressi Come detto il segnale di ingresso a un amplificatore non deve eccedere i valori indicati dal costruttore. D’altro canto, quando il segnale di ingresso ha un’ampiezza molto bassa come nel caso di un segnale microfonico occorre fare in modo che il segnale si degradi il meno possibile arrivando al preamplificatore. Per schematizzare la situazione facciamo riferimento al circuito seguente:
Amplificazione di un microfono. Circuito equivalente. Il circuito mostra un microfono, schematizzato come un generatore di tensione, con la sua resistenza interna che viene collegato ad un amplificatore di cui viene mostrata l’impedenza di ingresso. Chiamando I la corrente che scorre nel circuito e VA la tensione misurata tra il microfono e l’ingresso all’amplificatore avremo che il circuito sarà descritto dalle seguenti equazioni: Equazione 16.4. Analisi dello stadio di ingresso di un circuito (1)
Ricapitolando, E è la piccola tensione che genera il microfono e VA è la tensione che arriva all’ingresso dell’amplificatore. Se ora supponiamo che Zin sia molto maggiore di ri (in simboli Zin >> ri), ossia che l’impedenza di ingresso dell’amplificatore sia molto maggiore dell’impedenza interna del microfono, avremo che nella somma (ri + Zin) sarà possibile trascurare ri rispetto a Zin ossia: Equazione 16.5. Analisi dello stadio di ingresso di un circuito (2)
Si vede allora che in questo modo (ponendo Zin>>ri) si riesce a trasferire all’ingresso dell’amplificatore praticamente tutta la tensione generata dal microfono. Se così non fosse avremmo sempre VA 0V, verrà codificato da una sequenza di zeri binari. Per aumentare la risoluzione della quantizzazione utilizziamo un accorgimento, ossia prima di quantizzare il segnale, aggiungiamogli un piccolo rumore casuale a valore medio nullo e con ampiezza leggermente maggiore dell’ampiezza di un intervallo di quantizzazione. Il risultato di questa operazione porterà il nuovo segnale a superare in alcuni punti la soglia di +1V e dunque la codifica in quei punti sarà pari a 1 binario. In questo modo, il bit meno significativo (LSB) non sarà sempre 0 ma a volte varrà 1. Questo rende la quantizzazione del segnale un po’ più precisa in quanto recuperiamo un’informazione che prima era seppellita nel rumore di quantizzazione. Questo piccolo rumore che abbiamo aggiunto prende il nome di dithering e consente, migliorando la risoluzione, di abbassare il rumore di quantizzazione attraverso la modulazione del bit meno significativo[49].
[49]
Si noti che quanto descritto finora si riferisce al dithering inserito durante la quantizzazione, ossia durante la conversione ADC (da analogico a digitale)
298
20.7. Il dithering digitale Il dithering descritto nella precedente sezione è di tipo analogico, ossia consiste in un rumore “elettrico” sommato al segnale da campionare dal circuito che effettua la conversione da analogico a digitale. Esiste anche un dithering digitale che può ottimizzare alcune operazioni effettuate sui campioni. Vediamo alcune di queste situazioni.
20.7.1. Conversione di bit depth Spesso, quando si lavora ad un progetto audio si preferisce utilizzare una risoluzione alta, ad esempio 48KHz, 24bit. Tuttavia, se il progetto è destinato ad essere riversato e venduto su Audio-CD [Vedi: Supporti ottici] , alla fine della lavorazione occorrerà esportarlo nel formato opportuno, ossia 44.1KHz, 16bit. Ridurre il bit depth in questo caso significa semplicemente eliminare gli ultimi 8 bit da ogni campione. Tuttavia, troncare in questo modo tutti i campioni può introdurre artefatti concentrati in determinati punti dello spettro di frequenza. Allora, aggiungendo un dithering digitale, è possibile spalmare questi artefatti lungo tutto lo spettro riducendo le concentrazioni di artefatti al prezzo di un sensibile aumento del rumore di fondo su tutta la banda. Quindi, prima di effettuare il troncamento, viene generato un rumore digitale utilizzando una parola di 8 bit i quali vengono sommati agli 8 bit del campione originario a 24 bit da troncare. La somma di questi 8 bit meno significativi va ad influire sul bit meno significativo del nuovo campione a 16 bit, in pratica modulandolo. In questo modo, il LSB di ogni campione (il 16-esimo bit) tiene una “memoria” di ciò che sta per essere troncato e dunque l’impatto del troncamento è minore. La figura seguente illustra la situazione appena descritta:
Azione del dither digitale Come si vede, gli ultimi 8 bit (LLLL LLLL), prima di essere troncati, vengono sommati al dither (NNNN NNNN) e la loro somma modula il bit meno significativo del campione troncato a 16 bit (Y). Il passaggio da 24 bit a 16 bit si rende spesso necessario durante la fase di mastering [Vedi: Il Mastering] . Come si è detto infatti un progetto musicale viene lavorato al massimo della qualità possibile (ad esempio: 24bit, 48KHz). Al momento del mastering, se il prodotto è indirizzato al mercato dei CD, il brano deve essere “riversato” in qualità CD, dunque 16bit, 44.1KHz. Dato che la conversione del bit depth da 24 a 16 prevede un troncamento degli ultimi 8 bit, con l’aggiunta del dithering, come si è visto, miglioriamo la qualità della conversione. Al di là della scelta dell’algoritmo più adeguato al programma sonoro in oggetto, il plugin che effettua il dithering deve essere messo a valle di tutta la catena di mastering, ossia l’audio digitale, da lì in poi non deve essere ulteriormente manipolato.
20.7.2. Normalizzazione Questa operazione viene in genere utilizzata per alzare il livello di tutto il programma sonoro senza intervenire sulla dinamica. Corrisponde ad un innalzamento del fader di un canale fino a portare il livello massimo a 0dB. Facendo a mano questa operazione si rischia o di portare alcuni picchi oltre lo dB e di lasciare alcuni picchi troppo al di sotto dello 0dB. Si ricorre dunque ad un algoritmo per raggiungere la precisione desiderata. Applicando la normalizzazione ad un file audio, l’algoritmo procederà ad effettuare uno scan dell’intero programma sonoro alla ricerca del picco massimo che, una volta individuato, verrà portato allo 0dBfs (o un valore più basso a seconda delle impostazioni). Tale incremento espresso in dB verrà successivamente aggiunto a tutti i campioni. Si otterrà così un programma sonoro che sfrutta tutta la scala disponibile dei dBfs e con ampiezza massima possibile. Questa operazione può essere utile con programmi sonori parlati, come dialoghi di film o conferenze quando il livello di registrazione risulta troppo basso. Non sempre questa operazione è efficace, perché è sufficiente che l’ampiezza di un solo campione tra tutti sia vicina allo 0dBfs affinché il conseguente incremento applicato a tutti gli altri campioni sia insignificante lasciando il file pressoché inalterato. La figura seguente illustra i due scenari:
299
Normalizzazione inefficace (1) e efficace (2)
20.7.3. Algoritmi di dithering Esistono diversi algoritmi per applicare il dithering digitale che vanno applicati ogni volta che si effettua una delle operazioni descritte in precedenza. Ogni algoritmo utilizza una diversa distribuzione di probabilità dei valori possibili, e ognuno di essi è più o meno adeguato a seconda del programma sonoro a cui viene applicato. Rettangolare: i valori sono distribuiti con un andamento rettangolare, che può essere assimilato alla probabilità di avere un determinato numero lanciando un dado: i valori (1, 2, 3, 4, 5, 6) sono tutti equiprobabili. Triangolare: i valori sono distribuiti con un andamento triangolare, che può essere assimilato alla probabilità di avere un determinato numero lanciando due dadi: i valori estremi (2 e 12) escono solo in due casi (1+1 e 6+6) mentre il valore 6 esce in molti casi (1+5, 2+4, 3+3, 4+2, 5+1), dove il valore 6 è il punto più alto del triangolo. Gaussiano: i valori sono distribuiti con un andamento gaussiano[50] Pow-r: acronimo di Psychoacoustically Optimized Wordlength Reduction è un insieme di algoritmi commerciali da utilizzare a seconda del programma sonoro trattato. Sono tra i più utilizzati. Noise shaping: rumore modellato. Si tratta di un particolare algoritmo di dithering che sposta parte del rumore introdotto in una zona dello spettro di frequenza dove l’orecchio umano è meno sensibile, ad esempio sopra i 10KHz. In questo caso può avere senso utilizzare frequenze di campionamento elevate al fine di modellare il rumore di quantizzazione spostandolo in parte fuori dalla banda udibile.
[50] La descrizione della distribuzione di probabilità gaussiana esula dalle finalità di questo testo. Per ulteriori dettagli si
rimanda ad un testo di introduzione al calcolo delle probabilità.
300
20.8. Compressione del segnale audio Tra le manipolazioni che possono essere fatte su un segnale audio campionato merita un discorso a parte la compressione[51]. Abbiamo visto come l’operazione di campionamento eseguita con i parametri utilizzati per i CD (16 bit, 44.1 KHz) produca 172.26 Kb ogni secondo, dunque anche pochi minuti di musica equivalgono ad una elevata quantità di dati. In alcuni contesti questo può essere un problema come per esempio il caso in cui si desideri memorizzare una gran quantità di brani o il caso in cui si acceda ad un brano memorizzato su un computer utilizzando una postazione remota[52]. Nel primo caso, maggiore è la quantità di dati che dobbiamo memorizzare, maggiore è la dimensione del supporto che utilizziamo e dunque maggiore è il suo costo. Nel secondo caso, il trasferimento di dati su una rete avviene a velocità relativamente ridotte e dunque trasferire un singolo brano richiederebbe tempi estremamente lunghi oltre che impegnare pesantemente le risorse della rete. Per questi motivi si ricorre spesso ad una compressione dei dati ottenuti dal segnale audio. Prima di addentrarci nel discorso della compressione è necessario specificare che esistono due tipi di compressione: loseless (senza perdita di informazione) e lossy (con perdita di informazione). Il primo tipo di compressione permette di ricostituire i dati originari in maniera esatta; in altre parole, applicando una decompressione ai dati compressi, si recuperano esattamente i dati di partenza. Il secondo tipo applica una compressione più drastica eliminando parte dei dati che vengono considerati meno significativi con il risultato che in fase di decompressione avremo una versione solo approssimata dei dati di partenza. Naturalmente la compressione di tipo lossy permette di ottenere valori notevolmente maggiori per il rapporto di compressione[53] rispetto al tipo loseless. Vi sono casi in cui una compressione di tipo lossy è completamente inaccettabile come per esempio il caso di un documento di testo in cui è necessario in fase di decompressione ritrovare esattamente i dati originari. Nel caso di un’immagine[54] o di un suono è invece ammissibile una compressione di tipo lossy in quanto valori approssimati in fase di decompressione possono restituire un risultato comparabile (anche se non uguale) all’originale.
[51] A scanso di equivoci è bene puntualizzare che la compressione che viene analizzata in questa sezione è completamente
diversa dalla compressione intesa come intervento sull’ampiezza del segnale che viene descritta in una sezione dedicata [Vedi: Compressore] [52] Una postazione remota consiste di un computer collegato ad una rete informatica (che può anche coincidere con un solo
computer). [53] È una misura del grado di compressione raggiunto. Si ottiene calcolando il rapporto tra la quantità di dati originari e la
quantità di dati compressi. Per esempio se un brano musicale occupa un lunghezza di 3.45 Mb prima della compressione e dopo occupa 890Kb il rapporto vale: 3.969, diremo che abbiamo effettuato una compressione con un rapporto di compressione di 4:1 (di 4 a 1). [54] I formati di compressione per le immagini sono molteplici e con scopi diversi: GIF (utilizzato per immagini generate al
computer), JPEG (utilizzato per immagini importate dal mondo reale), TIFF (utilizzato per immagini con elevata definizione).
301
20.9. Compressione di di tipo lossy Gli algoritmi di compressione lossy si basano sulla conoscenza delle caratteristiche dei dati da comprimere. A seconda del tipo di dati è possibile individuare parametri ricorrenti da sfruttare per operare la compressione. Per spiegare questo fatto immaginiamo di dover concepire un algoritmo di compressione per immagini in movimento. Sicuramente sfrutteremo il fatto che in una successione di fotogrammi, un’immagine e la successiva differiscono di poco (a meno che non ci si trovi in corrispondenza di un cambio di inquadratura). Dunque in un ipotetico algoritmo di compressione andremmo a memorizzare solo i dati che da un’immagine all’altra sono cambiati. Nel caso del segnale audio, le caratteristiche da sfruttare nella compressione sono diverse. La gran parte degli algoritmi di compressione del segnale audio si basano sul principio del mascheramento ossia sul fatto che se una certa frequenza del segnale in esame ha un’ampiezza sufficientemente elevata, ha l’effetto di mascherare le frequenze adiacenti se queste sono di ampiezza ridotta. La figura seguente mostra un segnale con diverse frequenze e l’andamento della soglia di ascolto dell’orecchio umano in corrispondenza delle frequenze con ampiezza più elevata.
Segnale da comprimere La figura seguente mostra il risultato della compressione ottenuta eliminando le frequenze che vengono rimosse in quanto adiacenti a frequenze di ampiezza elevata. Come si vede, le informazioni da memorizzare sono decisamente diminuite.
Segnale compresso Gli algoritmi più conosciuti che lavorano secondo i criteri ora descritti sono ATRAC[55], MP3[56], OGG, AAC[57]. L’obiettivo di qualunque professionista o appassionato dell’audio è quello di ottenere la maggiore qualità sonora possibile dalle risorse di cui dispone. In ambito professionale generalmente si hanno a disposizione macchine sofisticate capaci di enfatizzare anche le sfumature più sottili. L’impiego massiccio della tecnologia digitale ha portato sicuramente ad operare in condizioni più agevoli, basti pensare alla rivoluzione dell’hard disc recording [Vedi: Hard Disc Recording] . Tuttavia occorre ricordare che la conversione in digitale del segnale audio analogico introduce una degradazione del segnale (dovuta all’operazione di quantizzazione). I 16 bit di quantizzazione del formato standard del Compact Disc sono appena sufficienti per avere una qualità accettabile in ambito professionale dunque la possibilità di introdurre una compressione di tipo lossy sui dati non è neanche da prendere in considerazione. In altri contesti, in cui la qualità non è un parametro primario, la compressione risulta un’ottima soluzione per facilitare la fruibilità dei brani come per esempio su Internet o nei lettori MP3 portatili che permettono di memorizzare decine di brani in una memoria RAM (su un supporto di tipo CD è possibile memorizzare 74 minuti di musica per una media di 10-12 brani, sullo stesso supporto è possibile memorizzare circa un centinaio di brani in forma di dati di tipo MP3).
[55] Formato ormai obsoleto, un tempo utilizzato nel sistema MiniDisc [Vedi: Il MiniDisc] . [56] La compressione viene realizzata sfruttando il principio del mascheramento e utilizzando un algoritmo denominato MPEG 1 Layer III (da non confondere con l’MPEG 3 che è un sistema di compressione del segnale video), dove MPEG è l’acronimo di Moving Picture Expert Group. Si tratta di un gruppo di lavoro che opera sotto la direzione dell’ISO (International Standard Organization) e dell’IEC (International Electro-Technical Commission). Lo scopo del gruppo è quello di creare degli standard di compressione per immagini e suoni da trasmettere via rete occupando il minor spazio possibile sulla banda. Permette di raggiungere rapporti di compressione dell’ordine di 12:1. [57] Utilizzato dalla Apple per i files audio su iTunes
302
20.10. Jitter Nelle sezioni precedenti si è descritta la conversione da analogico a digitale di un segnale audio e in particolare le fasi di campionamento e quantizzazione. Si è detto che il campionamento consiste nel prelevare campioni del segnale analogico ad un ritmo costante dettato dalla frequenza di campionamento. Ciò che si è dato per scontato è la regolarità del ritmo con cui i campioni sono sia prelevati che riprodotti durante la conversione da digitale ad analogico. Abbiamo visto altri casi in cui la fisica “ideale” non coincide con la fisica “reale” [Vedi: Fisica ideale e fisica reale] e il principio vale anche in questo caso. Chi ci assicura infatti che il “ritmo” (frequenza di campionamento) sia assolutamente costante? Risposta beve: nessuno. Risposta articolata: il “ritmo” dei campioni è regolato da un segnale di temporizzazione che prende il nome di clock [Vedi: Differenza timecode e clock] (in inglese: orologio). Tale segnale detta la temporizzazione dei convertitori. Cosa succede se quest’ultima è un po’ approssimativa, ossia se i campioni non vengono riprodotti esattamente all’istante in cui dovrebbero ma leggermente anticipati o ritardati? La figura seguente illustra il risultato di una temporizzazione non accurata:
Esempio di clock affetto da jitter mentre qui di seguito viene mostrato l’errore di posizionamento del campione da riprodurre causato da una sbagliata temporizzazione e la conseguente errata ricostruzione dell’onda originale:
Errata riproduzione sonora dovuta al jittering Facendo un’analogia con i nostri comuni orologi, sappiamo per esperienza che un orologio ha vari gradi di precisione: quello dato in omaggio assieme ad un fustino di detersivo perderà 5 minuti a settimana, quello comprato dall’orologiaio perderà 1 minuto all’anno, un orologio atomico (utilizzato in ambiti scientifici) perde 1 secondo ogni milione di anni. Questa stessa gradazione di precisione dell’orologio vale per i circuiti di clock. Dunque, il fenomeno del jittering può solo essere limitato con sistemi di clock sempre più precisi. Inoltre, in ambiti professionali, è necessario che tutte le macchine digitali coinvolte nella catena audio siano allineate sullo stesso clock. Queste considerazioni hanno portato alla realizzazione di macchine dedicate alla produzione di un clock accurato, unico per tutte le macchine coinvolte [Vedi: Differenza timecode e clock] . A parità di circuito, la precisione del clock diminuisce con l’aumento della frequenza di campionamento. Oggi le schede audio “consumer” permettono di effettuare campionamenti anche a 192KHz. Al di là degli opinabili effettivi vantaggi di tali risoluzioni, non c’è troppo da fidarsi riguardo alla corretta temporizzazione. Dal punto di vista della qualità dell’audio digitale, può essere utile sacrificare l’elevata frequenza di campionamento a vantaggio di una riduzione del jitter.
303
20.11. Oversampling [In italiano: Sovracampionamento] Abbiamo visto come, prima di campionare un segnale, sia necessario farlo passare attraverso un filtro (che nel caso del segnale audio ha una banda di 20KHz). Ciò impedisce che siano presenti frequenze di aliasing quando, a partire dai campioni, viene rigenerato il segnale analogico. Idealmente tale filtro dovrebbe essere un rettangolo e dunque avere sui due lati pendenza infinita [Vedi: Pendenza] ma come abbiamo appena visto ciò non è possibile nella realtà, dunque avrà una pendenza elevata il più possibile ma non infinita, per evitare di includere nel segnale filtrato troppe frequenze che superano la soglia dei 20KHz. Questo fatto ha diverse implicazioni. La prima è che sicuramente realizzare un filtro con una tale pendenza risulta più costoso. La seconda è un’implicazione di ordine fisico. Per averne un’idea ricorriamo ad una descrizione empirica del fenomeno. Immaginiamo il segnale come composto di elettroni i quali vengono fermati dal filtro passa basso se sono troppo veloci (se la frequenza del segnale supera la frequenza di taglio del filtro). L’impatto degli elettroni con una barriera così ripida può generare degli andamenti disordinati degli elettroni che vengono percepiti nella banda dell’udibile come fischi alle alte frequenze. La soluzione consiste nell’adottare filtri con pendenze meno ripide in modo da offrire un fronte più ‘dolce’ agli elettroni che impattano il filtro. Tuttavia una pendenza più dolce sposta inevitabilmente la frequenza di taglio a destra includendo nel segnale anche frequenze esterne alla banda udibile (dunque ritornerebbe il problema delle frequenze di aliasing). Si ricorre allora al sovracampionamento ossia il segnale audio viene campionato ad una frequenza maggiore della classica 44.1KHz. Nella figura seguente vediamo il confronto tra un filtro applicato ad un segnale campionato normalmente e uno sovracampionato:
Esempio di sovracampionamento Vediamo come un segnale di banda 20KHz venga filtrato da un filtro con frequenza di taglio pari a 22KHz e campionato ad una frequenza di 44.1KHz. Adottando un sovracampionamento quadruplo, cioè adottando una frequenza di campionamento pari a 4x44.1KHz pari a 176.4KHz si può utilizzare un filtro antialiasing con una pendenza molto più dolce. Questa operazione, come si vede, ha come risultato quello di spostare il fenomeno del fischio in un range di frequenze attorno alla nuova frequenza di taglio che si trova ben al di là della soglia dell’udibile. In questo modo il fenomeno resta presente ma, non essendo udibile dall’orecchio umano, è come se fosse stato rimosso. La terza importante implicazione del sovracampionamento consiste nella riduzione dell’errore di quantizzazione. Anche in questo caso, essendo molto maggiore la banda del segnale che consideriamo, il rumore di quantizzazione (presente su tutta la banda del segnale) che è sempre lo stesso, viene distribuito uniformemente su tutta la nuova banda che risulta più larga della banda del segnale iniziale (in particolare nel sovracampionamento quadruplo la banda e’ di 88.1KHz dunque 4 volte la banda del segnale audio). Questo porta alla riduzione del rumore di quantizzazione medio nella banda udibile. Il sovracampionamento visto finora e’ effettuato sul segnale analogico. Esiste anche un sovracampionamento digitale che ha anch’esso come risultato quello di espandere l’errore di quantizzazione [Vedi: Rumore di quantizzazione] lungo tutto lo spettro. Ciò viene fatto aggiungendo nuovi campioni calcolati per interpolazione matematica. Ciò significa che tra due campioni reali ne posso aggiungere uno (o più) virtuale calcolato per esempio come media dei due. Questo porta a smussare la forma d’onda campionata che avrà degli scalini meno ampi come e’ evidenziato nella figura seguente:
Esempio di sovracampionamento digitale Il sovracampionamento, pur risolvendo diversi problemi risulta molto oneroso sia in termini di memoria necessaria per la memorizzazione dei campioni sia per la complessità della circuiteria necessaria. Alcune macchine come gli ADAT [Vedi: ADAT: Acronimo di Alesis Digital Audio Tape: ogni macchina ADAT può registrare 8 tracce e si possono sincronizzare insieme fino a 16 macchine con un risultato di 128 tracce disponibili per la registrazione. La temporizzazione interna può essere sincronizzata con un segnale SMPTE [Vedi: Il timecode SMPTE] o MTC [Vedi: MIDI Time Code] proveniente dall’esterno in modo da non dover impiegare una traccia audio per la registrazione del timecode. La codifica dei dati è di tipo lineare a 16 bit con una frequenza di campionamento di 48 KHz (sovracampionata x64). Utilizza una versione migliorata delle normali videocassette VHS che però debbono essere preventivamente formattate. Monta connettori audio di tipo RCA [Vedi: RCA: altre denominazioni sono: phono, cinch, tulip. Viene utilizzato per le connessioni su impianti Hi-Fi casalinghi e per le connessioni digitali di tipo SPDIF [Vedi: S/PDIF] : ] e lavora ad uno standard operating level [Vedi: Standard Operating Level] di -10dBV.] consentivano un sovracampionamento pari a 128 x 44.1 KHz. Ci si rende conto di come questo implichi una quantità di 304
memoria enorme per la memorizzazione dei campioni. In questo caso i campioni sono talmente fitti che si memorizza solo un bit per campione che indica con 0 o 1 se il campione ha ampiezza maggiore o minore del campione precedente. Questo procedimento prende il nome di campionamento Delta-Sigma e garantisce comunque un’accuratezza sufficiente nella descrizione dei campioni mantenendo i vantaggi derivanti dall’operazione di sovracampionamento. Per riportare un segnale sovracampionato ad una frequenza di campionamento più bassa si utilizza un processo chiamato decimazione. A volte, le manipolazioni dell’audio digitale operate dai plugins possono generare frequenze che vanno oltre la banda udibile e dunque, se la frequenza di campionamento è ad esempio di 48KHz, possono generarsi delle frequenze di aliasing indesiderate. Per questo, i plugin di fascia alta operano al loro ingresso l’operazione di sovracampionamento, poi manipolano l’audio, e infine ritornano alla frequenza di campionamento precedente in uscita. Questo consente loro una grande accuratezza nella manipolazione dell’audio e minimizza l’insorgenza di artefatti dovuti all’aliasing.
305
20.12. Trasformata discreta di Fourier e FFT Abbiamo visto in precedenza come un segnale audio periodico sia descritto nel dominio della frequenza dalla serie armonica di Fourier mentre un segnale non periodico è descritto nel dominio della frequenza dalla trasformata di Fourier (qualora questa prima frase non risultasse assolutamente chiara, si consiglia di rileggere la relativa sezione [Vedi: Analisi armonica di Fourier] prima di andare avanti). Il calcolo di quest’ultima si applica ad un segnale continuo, ossia del quale si conosca l’ampiezza in ogni istante di tempo. Ciò non è il caso dell’audio digitale, dove conosciamo l’ampiezza del segnale solo nei determinati istanti in cui sono stati estratti i campioni [Vedi: Campionamento] . In questo caso si utilizza una trasformata di Fourier che lavora su valori discreti e che prende il nome di trasformata discreta di Fourier. Tale trasformata è ampiamente utilizzata nell’informatica per l’elaborazione numerica dei segnali ed in particolare nell’audio digitale, dove si dispone sempre della versione campionata del segnale audio. Tuttavia questo tipo di trasformata può essere molto pesante dal punto di vista della potenza di calcolo richiesta alla macchina che è già impegnata nel trattamento in tempo reale del segnale audio. Per ovviare a questo inconveniente si utilizza un algoritmo ottimizzato di questa trasformata che prende il nome di trasformata veloce di Fourier (Fast Fourier Trasform, abbreviato FFT) e che può effettuare sia il calcolo esatto della trasformata che un calcolo approssimato. Quest’ultima modalità è largamente impiegata nelle applicazioni audio dove quello che serve in genere è una visualizzazione in tempo reale delle componenti spettrali del segnale e non il loro valore numerico preciso. Maggiore è il numero di dati (campioni) su cui si effettua di volta in volta il calcolo, maggiore è la precisione del risultato, ma anche il peso computazionale. Generalmente, è possibile selezionare questo parametro a seconda delle esigenze del momento. Ad esempio, se l’obiettivo è la visualizzazione dello spettro di frequenza durante la realizzazione di un pezzo musicale pieno di tracce e plugin, allora faremo lavorare la FFT su pochi dati, lasciando la potenza di calcolo a disposizione dei plugin e accontentandoci di una visualizzazione approssimata. Se viceversa, stiamo lavorando proprio sullo spettro di frequenza, per esempio in fase di mastering [Vedi: Il Mastering] , allora vorremo la maggiore precisione disponibile sul nostro analizzatore di spettro e dunque faremo lavorare l’algoritmo su una porzione di dati maggiore per aumentarne la precisione.
306
Capitolo 21. Supporti sonori digitali 21.1. Introduzione In questa sezione passeremo in rassegna i supporti che consentono di memorizzare il segnale audio in forma digitale. Ovviamente in questo caso entrano in gioco fattori come la frequenza di campionamento e i bit di quantizzazione che possono degradare il segnale prima che questo venga memorizzato. Una volta che il segnale digitale è stato memorizzato la sua degradazione è più improbabile ancorché presente. Il grosso vantaggio della memorizzazione del segnale in forma digitale risiede nel fatto che è possibile eseguire tutte le operazioni di manipolazione nel dominio digitale e dunque in certi casi senza nessuna perdita di informazione[58]. Per copiare un segnale da un supporto a un altro (per esempio su un computer) vengono trasferiti i singoli bit e dunque la sequenza viene riprodotta integralmente e senza errori sul supporto di destinazione. Copiando una traccia analogica su un altro supporto analogico introduciamo invece delle degradazioni (basti pensare a cosa succederebbe copiando un segnale da un nastro all’altro un centinaio di volte: alla fine il fruscio sarebbe talmente alto da sovrastare il segnale originario che avrebbe oltretutto perso molte delle sue componenti in frequenza; eseguendo invece l’operazione del dominio digitale non ci sarebbe nessuna perdita di informazione!). Nei supporti digitali il segnale audio viene prima convertito in digitale attraverso l’operazione di campionamento [Vedi: Campionamento] e successivamente viene memorizzato sotto forma di dati; per ascoltare il segnale originario occorrerà una nuova conversione dal dominio digitale a quello analogico. Una volta che il segnale è stato convertito e memorizzato sotto forma di dati, è molto meno soggetto a deterioramenti in quanto le informazioni numeriche sono memorizzate in maniera differente rispetto ai segnali analogici[59]. Vedremo ora i supporti più utilizzati nella pratica distinguendoli in tre categorie: supporti digitali magnetici, supporti digitali ottici e supporti digitali magneto-ottici.
[58] Ogni volta che viene eseguita una conversione da analogico a digitale parte dell’informazione trasportata dal segnale
stesso viene irrimediabilmente persa. [59] I supporti digitali permettono di memorizzare le informazioni sotto forma di bit. Oltre ad una maggiore affidabilità del
supporto stesso occorre considerare il fatto che alle informazioni relative al segnale audio possono essere aggiunte una serie di altre informazioni che vengono utilizzate per l’individuazione e la correzione di eventuali errori di lettura come per esempio il controllo di parità descritto più avanti.
307
21.2. Supporti digitali magnetici Questi supporti hanno caratteristiche simili a quelli destinati alla registrazione analogica. Viene infatti sfruttato il principio dell’allineamento di particelle magnetiche secondo l’andamento del segnale da memorizzare con la differenza che questo stavolta è un segnale che rappresenta i campioni estratti dal segnale analogico. Sono soggetti a vari tipi di interferenze che possono alterarne il contenuto come quelle generate da televisori, cellulari (mai mettere un supporto magnetico nella stessa borsa del cellulare!), monitor dei computer. Tuttavia vengono largamente impiegati in quanto permettono un trasferimento di dati veloce a costi relativamente abbordabili. Dividiamo questo tipo di supporti in due categorie: a testina magnetica rotante e testina magnetica fissa.
21.2.1. Supporti a testina rotante Il principio adottato è lo stesso utilizzato nei videoregistratori di qualche anno fa in cui veniva effettuata una scansione elicoidale del nastro. Ciò significa che una parte di nastro viene estratta dalla custodia che lo ospita e avvolta attorno ad una testina magnetica rotante di forma cilindrica. La testina risulta inclinata di un certo angolo rispetto alla direzione di scorrimento del nastro. Ciò ha il risultato di magnetizzare il nastro in porzioni oblique come mostrato nella figura seguente:
Magnetizzazione obliqua del nastro magnetico La testina rotante contiene al suo interno sia la testina di registrazione che quella di riproduzione. In realtà vi sono sistemi in cui vi sono più testine di registrazione e riproduzione all’interno della testina rotante e questo permette una qualità maggiore in quanto c’è sempre una testina in contatto col nastro (la qualità del fermo immagine dei videoregistratori dipende da questo fattore). I supporti più diffusi che adottano questo sistema sono: R-DAT: Acronimo di Recording Digital Audio Tape: è stato uno dei sistemi più utilizzati per la produzione di master stereo e tuttora molti master sono memorizzati su questo formato. Permette di registrare due canali (Left e Right) con una frequenza di campionamento di 44.1 KHz a 16 bit di quantizzazione. Le informazione vengono memorizzate sul nastro secondo lo schema seguente:
Formato dei dati memorizzati I dati audio si trovano nella zona centrale indicata con la sigla PCM (che indica il tipo di codifica dei dati: Pulse Code Modulation). La sezione ATF (automatic track follower - inseguitore automatico di traccia) memorizza codici utilizzati da un sistema di correzione dell’allineamento della testina rispetto al nastro. La sezione subcode permette di memorizzare informazioni aggiuntive oltre ai dati audio. Sui DAT è inoltre possibile registrare in una zona a parte il riferimento temporale per la sincronizzazione che dunque può essere cambiato a piacimento anche dopo che il segnale audio è stato memorizzato. Vengono utilizzati diversi sistemi di controllo di errore come il Reed–Solomon Code oltre che il sistema di modulazione 8-10 che converte sequenze di 8 bit in sequenze di 10 bit che, come viene spiegato più avanti, permette di ridurre il numero di transizioni da memorizzare nell’unità di tempo. Viene inoltre implementato il sistema SCMS (Serial Copy Management System) che permette di avere una protezione contro le copie indiscriminate. Una volta che un DAT è stato riversato su un altro DAT (è un riversaggio digitale e dunque non comporta perdita di informazione), i codici SCMS vengono alterati rispetto all’originale facendo in modo che non sia possibile fare ulteriori copie a partire dal DAT così ottenuto. La figura seguente mostra un sistema DAT:
308
Lettore DAT ADAT: Acronimo di Alesis Digital Audio Tape: ogni macchina ADAT può registrare 8 tracce e si possono sincronizzare insieme fino a 16 macchine con un risultato di 128 tracce disponibili per la registrazione. La temporizzazione interna può essere sincronizzata con un segnale SMPTE [Vedi: Il timecode SMPTE] o MTC [Vedi: MIDI Time Code] proveniente dall’esterno in modo da non dover impiegare una traccia audio per la registrazione del timecode. La codifica dei dati è di tipo lineare a 16 bit con una frequenza di campionamento di 48 KHz (sovracampionata x64). Utilizza una versione migliorata delle normali videocassette VHS che però debbono essere preventivamente formattate. Monta connettori audio di tipo RCA [Vedi: RCA: altre denominazioni sono: phono, cinch, tulip. Viene utilizzato per le connessioni su impianti Hi-Fi casalinghi e per le connessioni digitali di tipo SPDIF [Vedi: S/PDIF] : ] e lavora ad uno standard operating level [Vedi: Standard Operating Level] di -10dBV.
ADAT Player Tascam DA-88: Utilizza il formato video Hi-8. Ha una testina rotante a 4 testine e permette di registrare 8 tracce audio. Consente di registrare 100 minuti di audio su una videocassetta di 90 minuti. Di seguito un’immagine del lettore DA-88:
DA-88
21.2.2. Supporti a testina fissa Si tratta in genere di semplici bobine su cui viene memorizzato il segnale digitale. Il segnale viene memorizzato lungo la direzione longitudinale del nastro da testine fisse e non in direzione obliqua come avveniva nel caso di testine rotanti. I modelli più utilizzati sono: DASH: Acronimo di Digital Audio Stationary Head: è un sistema messo a punto dalla Sony. Sono disponibili macchine che registrano dal 2 a 48 tracce. Le frequenze di campionamento consentite sono: 44.1 KHz e 48 KHz (gli ultimi modelli ancora in uso consentono 24Bit/96KHz con convertitori esterni) mentre la larghezza dei nastri può essere di 1/4” o 1/2”. Di seguito un’immagine del lettore DASH:
DASH DCC: Acronimo di Digital Compact Cassette: permette di registrare 9 tracce su ogni direzione di un nastro di larghezza 1/8” che viaggia ad una velocità di 17/8 ips:
309
DCC
310
21.3. Supporti ottici Questi supporti sfruttano il principio della riflessione della luce per accedere ai dati memorizzati. Nel seguito di questa sezione faremo riferimento al supporto ottico più utilizzato che è il Compact Disc. Prima di andare avanti diamo due definizioni riguardo alla velocità di rotazione dei supporti che incontreremo nel seguito. CAV (Constant Angular Velocity - velocità angolare costante): In questo caso il disco su cui sono memorizzate le informazioni ruota con velocità costante. Questo consente un accesso ai dati veloce ma non permette di utilizzare lo spazio disponibile per la memorizzazione in maniera efficiente. I dati infatti vengono disposti lungo delle circonferenze concentriche all’interno del disco; per avere sempre lo stesso numero di dati letti dalla testina nell’unità di tempo sarà necessario inserire meno dati nelle circonferenze più esterne e più dati in quelle interne (gli Hard Disc dei computer lavorano in questa modalità).
Formato dei dati in modalità CAV CLV (Constant Linear Velocity - velocità lineare costante): In questo caso la distribuzione dei dati non ha bisogno di essere costante in quanto la velocità di rotazione varia in funzione della posizione della testina (la lettura di dati da Compact Disc viene effettuata in questa modalità). I dati saranno dunque distribuiti uniformemente su tutta la superficie del supporto:
Formato dei dati in modalità CLV Il supporto viene inciso utilizzando un raggio laser che crea dei pozzi (pits) sulla sua superficie; le parti che non vengono incise prendono il nome di terre (lands). L’andamento delle incisioni segue quello del segnale digitale da memorizzare, in particolare la transizione da una terra a un pozzo (o viceversa) corrisponde allo stato 1 mentre l’assenza di transizioni corrisponde allo stato 0. La figura seguente illustra questo fatto:
Incisioni su un supporto ottico La profondità delle buche è pari a λ/4 dove λ è la lunghezza d’onda dell’onda incidente. In questo modo l’onda che penetra all’interno di una buca e viene riflessa compie un percorso pari a λ/2 (2* λ/4) e questo significa cancellazione di fase dunque l’onda riflessa cancella l’onda incidente. Quando invece l’onda incidente incontra una terra, viene semplicemente riflessa. In questo modo si riproducono i due stati 1 e 0 attraverso la presenza o meno di un’onda riflessa. La lettura del supporto ottico avviene dunque attraverso un raggio laser che viene spedito sulla superficie del supporto e di cui si misura l’onda riflessa per mezzo di un fotodiodo[60]:
311
Lettura dei dati da un supporto ottico I dati sul CD sono distribuiti su un’unica traccia a spirale che parte dal centro del CD stesso. Come detto la velocità di rotazione è di tipo CLV. Le velocità massima e minima sono le seguenti: Interna: 500 rpm Esterna: 200 rpm La larghezza della traccia a spirale è di 0.6 μm mentre la larghezza delle buche che vengono incise è di 1.6 μm.
Supporto ottico: CD
21.3.1. Tracking La testina ottica che legge (scrive) il (sul) CD deve puntare esattamente sulla verticale su cui sono disposti i dati. È possibile, date le ridottissime dimensioni in gioco, che questo allineamento non sia perfetto impedendo una corretta lettura dei dati. Questo può succedere sia perché la traccia dati si sposta leggermente rispetto alla verticale sia perché il disco intero può inclinarsi per qualche motivo pregiudicando l’allineamento. Per questo si implementano due sistemi di correzione che adattano di volta in volta il puntamento del laser verso la traccia dati. Horizontal Tracking: Tracciamento orizzontale - Interviene quando la traccia dati si sposta dalla verticale del laser. Viene realizzato aggiungendo due raggi laser laterali a quello centrale. L’intensità della riflessione dei laser laterali viene costantemente monitorata e deve essere sempre la stessa, quando ciò non è più vero la testina viene spostata finché non viene ripristinato il corretto allineamento.
Esempio di tracking orizzontale Vertical Tracking: Tracciamento verticale - Si verifica quando l’intero disco si inclina. Questa situazione viene controllata mediante due ulteriori raggi laser incrociati: se si verifica un disallineamento la testina viene spostata fino a raggiungere di nuovo la corretta posizione.
312
Esempio di tracking verticale
21.3.2. Stampa di CD La stampa di CD è un procedimento molto costoso che prevede molte fasi di lavorazione che ci apprestiamo a descrivere. Il processo di masterizzazione di CD fatto utilizzando un computer dotato di masterizzatore è completamente diverso e incomparabile dal punto di vista della qualità. Dunque i CD masterizzati ottenuti come copia di un CD originale hanno una qualità di gran lunga inferiore. Alla base, il motivo risiede nel fatto che la precisione dell’incisione ottenuta con il procedimento di stampa è molto maggiore di quella ottenuta mediante la copia dall’originale ottenuto dalla masterizzazione in cui viene invece utilizzato un laser per realizzare l’incisione. Ciò detto vediamo nel dettaglio le varie fasi del procedimento di stampa di CD con riferimento alla figura seguente:
Processo di stampa dei CD 1.
Un disco di materiale plastico viene levigato.
2.
Il disco viene ricoperto con un materiale fotoresistivo ossia che permette l’incisione tramite un raggio laser.
3.
Lo strato esterno del disco viene inciso con un raggio laser che traduce in segnali ottici i dati relativi al segnale audio da memorizzare.
4.
Lo strato risultante dall’operazione di incisione viene ripulito.
5.
Il master così ottenuto viene ricoperto da uno strato di argento.
6.
Viene aggiunto uno strato di nichel.
7.
8.
Il master così ottenuto viene chiamato padre ed è una copia negativa. Questa copia viene utilizzata per la creazione di un master positivo (madre) fatto di nichel e argento. A partire dalla madre vengono creati gli stampi.
9.
Ogni stampo funge da matrice per la stampa in serie dei normali CD che vengono incisi a pressione e poi ricoperti di uno strato di alluminio che assicura una buona riflessione. A partire dalla madre vengono creati gli stampi da inviare in giro per il mondo a ogni filiale della catena di distribuzione che dunque sarà in grado di stampare i propri CD a partire da questa matrice.
10.
Viene aggiunto un ultimo strato di policarbonato con il duplice scopo di proteggere la superficie del disco da graffi e ossidazioni e di fungere da lente di ingrandimento per il laser che legge le incisioni presenti sul disco. Questa fase viene eseguita localmente in ogni filiale e consiste nella stampa vera e propria dei CD destinati ai negozi. 313
21.3.3. Formato dei dati su CD I dati vengono memorizzati su CD in un determinato formato che li suddivide in tre sezioni: Lead In: si trova nella parte più interna del disco e contiene una descrizione dei brani presenti come il loro numero, la loro durata, la durata complessiva del disco. Data Block: sono in sostanza i campioni del segnale digitale, che trasportano l’informazione sonora vera e propria. Lead Out: consiste in una serie di bit che indicano la fine del CD. La sezione Data Block contiene come detto i dati relativi al segnale audio memorizzato. L’organizzazione dei dati è abbastanza elaborata per ottenere diverse finalità. Vediamole nel dettaglio. Anzitutto il flusso di bit viene esteso in quanto il sistema a laser non permette transizioni tra i due stati (0 e 1) troppo ravvicinate. Dunque ogni parola da 8 bit viene convertita in una parola a 14 bit tramite un algoritmo definito come modulazione 8-14 applicato sia in fase di scrittura (codifica) che in fase di lettura (decodifica) in modo da ridurre la frequenza delle transizioni. I dati da memorizzare (prima che venga applicato l’algoritmo appena descritto) sono suddivisi in frame (sezioni). Ogni frame contiene i primi 8 bit che sono a disposizione del costruttore per inserire dati riguardanti la traccia (il suo numero, la sua durata). Successivamente vengono inseriti nel frame 6 campioni audio, 3 per il canale sinistro e 3 per il canale destro (ossia 6 x 16 bit = 96 bit). Infine vengono aggiunti i bit di parità . Il controllo di parità serve a verificare l’integrità di una sequenza di byte. Si attua aggiungendo alla fine di una sequenza di bit una serie di bit aggiuntivi di controllo. Per esempio, supponiamo di inviare i 3 seguenti byte: 00100101 11100100 01001010 Se eseguiamo la somma binaria sulle colonne possiamo calcolare se il risultato è pari o dispari e indicarlo con un bit aggiuntivo. Per esempio la prima colonna partendo da sinistra è 010, dunque la somma da un risultato dispari che indicheremo con 1. Seguendo lo stesso procedimento per ogni colonna avremo gli 8 bit di parità seguenti: 10001011 In ricezione i bit di parità vengono confrontati con i byte ricevuti e se non c’è corrispondenza significa che si è verificato un errore dunque viene richiesta di nuovo la spedizione della sequenza di byte. Questo tipo di controllo è molto veloce e semplice da implementare anche se non garantisce la sicurezza della rilevazione degli errori. Aggiungendo altri bit di controllo è possibile realizzare algoritmi più sofisticati per il controllo e la correzione degli errori. Un frame generico ha la forma seguente:
Organizzazione dei dati in un frame I dati vengono distribuiti lungo una spirale non in modo sequenziale ma spezzettati in diverse zone del disco. Dunque i dati relativi a un singolo brano musicale si trovano disseminati in diverse zone del disco. In questo modo se un granello di polvere o altro impedisce la lettura dei dati in una certa zona il danno viene minimizzato. Questo sistema di distribuzione dei dati prende il nome di CIRC (Cross Interleaving Reed-Solomon Code): Quando ascoltiamo un CD impolverato o rovinato a volte non percepiamo nessuna degradazione del suono (in realtà la degradazione c’è; solo che per avvertirla occorre un impianto adeguato e un ascolto attento). Questo è possibile grazie a un sistema di correzione degli errori presente nei lettori CD che ricalcola i campioni mancanti (perché per qualche motivo non è stato possibile leggerli, come polvere, graffi, sussulti del disco) di una sequenza inserendo dei campioni che dovrebbero somigliare a quelli originari. Se per esempio in una sequenza manca un campione, la sua ampiezza può essere estrapolata come media del campione precedente e del successivo. È chiaro che più campioni mancano più è approssimativa la loro ricostruzione. Quando non è possibile eseguire il calcolo, in quanto i campioni mancanti sono troppi, viene prodotto un silenzio finché la lettura non ricomincia a funzionare correttamente.
21.3.4. Governing Books Lo stesso supporto CD viene impiegato per la memorizzazione di molteplici tipologie di dati tra i quali i dati audio. Le specifiche relative al formato di ciascun tipo sono contenuti in documenti di riferimento ufficiali che prendono il nome di Governing Books. Ogni libro è identificato da un colore e definisce le specifiche relative ad un dato formato. Vediamoli nel dettaglio: RED BOOK
314
CD Audio: alcune delle specifiche sono la codifica dei 16 bit di quantizzazione di tipo PCM e la frequenza di campionamento pari a 44.1 KHz. CD+G: utilizzati per il Karaoke. Permettono di incorporare il testo dei brani all’interno dei dati audio. YELLOW BOOK CD-ROM: CD destinati alla memorizzazione di dati in diversi formati (audio, video, testo, immagini). Uno dei parametri definiti dallo standard è la capacità fissata a 650Mb. CD-ROM XA (eXtended Architecture): i dati vengono distribuiti sul disco in una modalità simile alla CIRC vista per i CD-Audio. GREEN BOOK CD-I: sono CD interattivi che contengono informazioni in diversi formati (audio, video, immagini). Sony PlayStation: per i giochi della famosa consolle. ORANGE BOOK CD-R: Compact Disc Recordable, sono CD su cui è possibile scrivere i dati una volta sola. WHITE BOOK Video CD: supporti per la memorizzazione di film in formato compresso MPEG. Photo CD: e’ un formato messo a punto dalla Kodak per la memorizzazione di immagini fotografiche. BLUE BOOK Enhanced Music CD:spesso chiamato soltanto CD-Enhanced, CD-Extra o semplicemente CD-Plus o CD+. Il CD Enhanced Music è un CD con due sessioni. La prima sessione contiene i dati audio così come sono definiti dallo standard CD Audio (Red Book), la seconda sessione contiene dati (Yellow Book). Sullo stesso CD, quindi, oltre ai dati audio possono essere memorizzate anche delle informazioni.
21.3.5. Il DVD Il DVD è un tipo di disco ottico il cui funzionamento è simile a quello dei normali CD e consente una capacità di immagazzinamento dei dati molto maggiore (8.5 Gb equivalenti a 13 CD). Un disco DVD è composto da 4 strati principali: uno spesso strato in policarbonato su cui poggiano i rimanenti strati. Segue uno strato opaco più fino composto da materiale riflettente. Sopra di questo di trova un sottile strato trasparente e infine uno strato protettivo in plastica. Pozzi e terre (pits e lands) si trovano sui due strati intermedi con la differenza rispetto al CD che le buche hanno una dimensione molto minore e questo permette di stipare più informazioni sul supporto. Per questo il raggio laser che viene impiegato per la scrittura dei dati e quello per la lettura hanno una lunghezza d’onda minore di quella usata per i CD. Nel contesto audio, il DVD viene efficacemente impiegato per la riproduzione audio-video di eventi live. Per la codifica dell’audio viene utilizzato il formato Dolby Digital [Vedi: Dolby prologic e dolby digital] , che può assumere diverse configurazioni come il surround 5.1 e il semplice formato stereo 2.0. Tale formato utilizza l’algoritmo di compressione AC-3 e dunque non permette una riproduzione in altissima qualità dell’audio, anche se la differenza è apprezzabile solo con impianti di altrettanta elevata qualità e con un orecchio allenato. Alle volte è utilizzato per l’audio il formato DTS [Vedi: DTS] , che permette una migliore separazione dei canali e una qualità migliore della compressione. Vale la pena citare il fatto che il DVD è efficacemente utilizzato per la riproduzione delle opere liriche, in cui i sottotitoli fungono da libretto permettendo di fruire a pieno della bellezza in esse contenuta. Oltre ai normali DVD, che possono essere scritti solo una volta, troviamo tutta una serie di altri formati DVD (DVD-RW, DVD+RV, DVD RAM) che consentono di riscriverne il contenuto più volte. Al di là delle differenze di formato di ognuno, questi supporti consentono tutti la riscrittura dei dati secondo un principio chiamato phase-changing method (metodo a cambiamento di fase, in questo caso si parla di fase - o stato - in senso termodinamico, ossia dello stato di aggregazione della materia: stato solido, stato liquido, stato gassoso). In base a questo metodo, un dato viene memorizzato sul supporto incidendone una piccola parte con un raggio laser. Per cancellare l’informazione, si porta il materiale ad una temperatura ancora maggiore (passando dallo stato solido allo stato liquido e successivamente operando il passaggio inverso) e questo ne consente l’azzeramento, preparandolo per la successiva riscrittura.
315
Lettore DVD
21.3.6. Il Blu-ray Disc Il Blu-ray Disc è stato proposto dalla Sony nel 2002 per la memorizzazione di video in alta definizione. Utilizza un laser di tipo blu-viola (da cui il nome) con una lunghezza d’onda (di 405 nm) inferiore a quella dei lettori DVD (laser di colore rosso con lunghezza d’onda pari a 650 nm) e dunque è in grado di interpretare terre e pozzi [Vedi: Supporti ottici] di dimensioni minori. Questo consente la memorizzazione di una maggiore quantità di dati sul supporto, che ha le stesse dimensioni fisiche del CD e del DVD. Vi sono diversi tipi di blu-ray disc aventi diverse dimensioni. Mediamente lo spazio disponibile per la memorizzazione dei dati si aggira sui 50 GB anche se la tecnologia è in evoluzione permettendo sia laser con lunghezze d’onda inferiori, sia un maggiore numero di strati sul supporto e vi sono già diversi prototipi in grado di memorizzare quantità di dati ben maggiori. Dal punto di vista dell’audio l’interesse per questo supporto risiede nel fatto che è possibile disporre delle tracce audio in formato non compresso. L’intero 5.1 è disponibile in formato PCM, 48K / 24 bit su ogni singolo canale (supporta LPCM 8 canali 24/96), ossia una qualità ben superiore a quella del CD. La PlayStation 3 è il primo apparecchio ad utilizzare commercialmente questa tecnologia.
Lettore Blu-ray
[60] Un fotodiodo è un componente elettronico in grado di generare una corrente quando viene investito da un fascio di luce
(fotoni).
316
21.4. Supporti magneto-ottici Questo tipo di supporti combinano le proprietà ottiche e magnetiche di alcuni materiali sfruttando i vantaggi di entrambi. Tali materiali possiedono sia proprietà magnetiche, nel senso che oltre una certa temperatura chiamata temperatura di Curie, le particelle non sono più legate tra di loro e si dispongono in accordo con le linee di un campo magnetico applicato (per esempio tramite un avvolgimento percorso da corrente), sia proprietà ottiche nel senso che sono in grado di riflettere la luce incidente. Vediamo come vengono effettuata la registrazione e la riproduzione di tali supporti. Registrazione: Un laser di elevata potenza viene inviato verso il disco per riscaldarne una ben definita zona ad una temperatura superiore a quella di Curie. Nel momento in cui il materiale della zona in questione fonde, le particelle magnetiche si dispongono sulla superficie in maniera casuale. Una testina magnetica con all’interno un avvolgimento applica alla zona in questione un campo magnetico che segue quello del segnale da memorizzare (si tratta naturalmente del segnale audio campionato cioè convertito in una sequenza di 0 e 1). Quando il laser si allontana dalla zona, questa si raffredda e le particelle magnetiche restano orientate nella posizione indotta dalla testina. Riproduzione: In questa fase il supporto si comporta a tutti gli effetti come un supporto ottico e dunque viene letto utilizzando un raggio laser come avviene per i normali lettori ottici.
21.4.1. Il MiniDisc Il sistema MiniDisc utilizza appunto un supporto di tipo magneto-ottico. Di seguito riportiamo una scheda con le specifiche dichiarate dalla casa costruttrice: Tabella 21.1. Specifiche del MiniDisc Canali Risposta in frequenza Dinamica Frequenza di campionamento Sistema di compressione dei dati Capacità di immagazzinamento
2 (Left, Right) 5 Hz - 20 KHz 105 dB 44.1 KHz ATRAC 130 Mb
Sistema di correzione di errori Durata
CIRC 74 minuti
La prima cosa da notare analizzando queste specifiche è che viene utilizzato un sistema di compressione dei dati denominato ATRAC (Adaptive Transform Acoustic Coding). Questo sistema si basa sul principio del mascheramento delle frequenze che teorizza la possibilità di trascurare le informazioni relative a frequenze adiacenti ad altre che hanno ampiezza molto maggiore. Questo approccio è giustificato dal fatto che, come abbiamo visto all’interno dell’orecchio umano, la membrana basilare [Vedi: Orecchio interno] è disseminata di ciglia e ogni sua zona è destinata alla ricezione di una certa banda di frequenze. È possibile che, se una frequenza di ampiezza elevata sta eccitando una certa zona cigliata della membrana, le ciglia vengano tutte impegnate nella ricezione della frequenza ad ampiezza maggiore. In questo senso la frequenza adiacente con ampiezza minore verrebbe mascherata dall’altra. Il sistema in linea di massima funziona e la qualità sonora del MiniDisc è decisamente elevata rispetto ai costi del supporto e la tecnologia impiegata tuttavia nella pratica professionale l’introduzione di una compressione è quanto meno sconsigliabile se non da evitare come la peste. Dunque il MidiDisc e tutti gli altri sistemi che utilizzano algoritmi per la compressione dei dati (come il famoso MP3) vanno impiegati in contesti in cui la qualità non è una necessità primaria. Per esempio un promo radiofonico può essere benissimo memorizzato in formato MP3 o su MiniDisc in quanto la qualità audio delle trasmissioni radio-televisive è tale da non far risaltare la differenza tra dati compressi e non.
Lettore Minidisc 317
Capitolo 22. Il protocollo MIDI 22.1. Introduzione Il termine MIDI è l’acronimo di Musical Instrument Digital Interface ed è un protocollo[61] di comunicazione, concepito nel 1983, che consente di pilotare un dispositivo musicale tramite un dispositivo controllore. Vedremo come in realtà sia possibile con questo protocollo controllare tutta una serie di apparecchi contemporaneamente facendoli lavorare in modo sincronizzato.
[61] Un protocollo è un insieme di specifiche che definiscono tutti gli aspetti della comunicazione tra due entità. Per entità si
intende un qualsiasi apparecchio in grado di comunicare con altri apparecchi nelle modalità definite dal protocollo di comunicazione. Nel nostro caso le due entità che comunicano possono essere una tastiera-sintetizzatore e un computer che la pilota.
318
22.2. Principio di funzionamento Introduciamo il principio di funzionamento considerando una tastiera-sintetizzatore dotata di un’interfaccia[62] MIDI controllata da un computer. Il computer è dotato di un software in grado di ‘registrare’[63] gli impulsi che provengono dalla tastiera-sintetizzatore memorizzando anche gli istanti di tempo a cui arrivano; dunque possiamo eseguire un pezzo musicale sulla tastiera-sintetizzatore e ‘registrarlo’ sul computer. È importante capire che il computer non registra il suono che esce dalla tastiera-sintetizzatore ma dei codici corrispondenti alle note che vengono suonate e i loro riferimenti temporali. In fase di riproduzione il computer spedisce alla tastiera-sintetizzatore i codici che ha memorizzato nella fase precedente e la tastierasintetizzatore li interpreta esattamente come se un musicista avesse effettivamente suonato in quel momento le note corrispondenti. Il protocollo non è cambiato dall’anno della sua creazione (anche se ha subito notevoli estensioni) e questo fa sì che dispositivi molto vecchi siano in grado di comunicare con i dispositivi moderni e continuino dunque ad essere utilizzabili senza problemi. Nel corso di questa sezione vedremo nel dettaglio come funziona il protocollo MIDI e i contesti nei quali si utilizza in cui il principio di funzionamento appena descritto viene notevolmente esteso. Nel seguito per fissare le idee supporremo che il nostro dispositivo MIDI sia sempre una tastiera essendo quello che racchiude in sé tutte le funzionalità che verranno descritte, tuttavia le considerazioni fatte valgono in generale per qualsiasi dispositivo dotato di interfaccia MIDI. I computer di nuova generazione sono in genere equipaggiati di porte USB [Vedi: USB] e FireWire [Vedi: FireWire] che vengono utilizzate per lo scambio di dati con i dispositivi ad esse connessi. Anche i dati MIDI vengono trasmessi attraverso questi canali di comunicazione. Tuttavia la parte applicativa del protocollo (quella relativa ai messaggi) è rimasta invariata. Attualmente la tecnologia USB supporta la comunicazione tra un host (computer) e un dispositivo, dunque al momento non è possibile connettere due dispositivi MIDI attraverso la loro porta USB, cosa invece possibile con la vecchia interfaccia dotata di connettore DIN, oppure con l’interfaccia FireWire. Il grande vantaggio della connessione MIDI attraverso USB o FireWire è la funzionalità “plug-and-play” ossia la configurazione automatica dell’interfaccia da parte del sistema, una volta che il connettore è stato inserito. Inoltre, tutti i dispositivi, essendo collegati ad un unico host che fa da raccordo, possono inviarsi messaggi MIDI tra loro, avendo cura di indirizzare correttamente i messaggi MIDI da un dispositivo all’altro configurando l’host opportunamente. In questo capitolo verranno descritte le specifiche del protocollo MIDI e i vari tipi di configurazione di un sistema MIDI tramite porta DIN. Sono ancora molto diffuse infatti tastiere e altri device di qualche anno fa che utilizzano unicamente questo tipo di porta. I dispositivi più moderni sono invece praticamente sempre dotati almeno di una porta USB e dunque la loro configurazione è molto più semplice. Una volta assimilati i concetti relativi alle configurazioni “vecchia maniera” sarà facile realizzare sistemi MIDI, anche complessi, tramite USB o FireWire.
[62]
Un’interfaccia è un dispositivo elettronico che converte dei segnali generati da una macchina in un formato comprensibile dalla macchina che li deve ricevere ed elaborare. I dati che arrivano all’interfaccia sono di tipo binario ossia sotto forma di impulsi elettrici che rappresentano i valori 0 e 1 eventualmente raggruppati in blocchi da 8, 16 o più bit. Un’interfaccia seriale trasferisce i bit uno per uno mentre un’interfaccia parallela trasferisce gruppi di n bit alla volta e risulta dunque molto più veloce nel trasferimento dei dati. Questa maggiore velocità di trasferimento implica però una maggiore complessità circuitale e di conseguenza un prezzo più alto. [63] Questa operazione viene effettuata per mezzo di programmi che prendono il nome di sequencer.
319
22.3. Specifiche del protocollo MIDI Un protocollo definisce tutti gli aspetti della comunicazione tra due sistemi MIDI sia a livello di hardware (prese, cavi, connettori, modalità di trasmissione) che a livello software (comandi MIDI). La comunicazione avviene attraverso un’interfaccia seriale in modalità binaria e questo consente di realizzare interfacce MIDI molto economiche. La comunicazione seriale non è un grosso problema in quanto la quantità di dati spediti nelle comunicazioni MIDI è relativamente ridotta. La velocità di trasferimento dei dati non è molto alta ma è sufficiente allo scopo: Velocità: 31250 baud (bit/sec) ossia 3906.25 bytes/s ossia 3.8 KB/s Come riferimento quantitativo si pensi che già i vecchi modem per computer per la connessione ad Internet che comunicavano su linea telefonica avevano una velocità di trasmissione di 56 kb/s. Le prese MIDI disponibili, che vengono anche definite porte MIDI e sono sempre di tipo femmina, sono tre: MIDI In (i dati MIDI entrano nel dispositivo), MIDI Out (i dati MIDI escono dal dispositivo), MIDI Thru[64] (una copia dei dati entrati dalla porta MIDI In viene reindirizzata su questa porta). La trasmissione dei dati avviene sempre in una sola direzione: dalla porta MIDI Out alla porta MIDI In. I cavi MIDI montano solo connettori maschi e hanno una lunghezza non superiore a 15 metri (cavi più lunghi possono causare perdite di segnale tali da comprometterne l’integrità). La comunicazione è di tipo asincrono il che significa che non vengono impiegati segnali di temporizzazione (che appesantirebbero il carico di dati da trasferire): vengono invece impiegati un bit di start, identificato da una tensione di 5 Volts (che mette in attesa di dati il dispositivo ricevente), e un bit di stop identificato da una tensione di 0 Volts (che comunica la fine del trasferimento di dati). I connettori montati sui cavi sono di tipo DIN[65]:
Connettore di tipo DIN Vengono utilizzati solo il pin 2,4 e 5. Il pin 2 è la schermatura mentre i pin 4 e 5 portano il segnale MIDI in modalità bilanciata [Vedi: Connessioni elettriche] . Le prese MIDI sono montate sui dispositivi e trasferiscono i dati al/dal cavo dal/al dispositivo. Ciò avviene secondo il seguente schema:
Schema logico di un’interfaccia MIDI Per fissare le idee supponiamo di trovarci in modalità di ricezione dati. Questi arrivano dal cavo alla presa e vengono inoltrati verso uno stadio optoisolatore. Questo ha una duplice funzionalità. La prima è quella di isolare elettricamente il dispositivo convertendo gli impulsi elettrici in impulsi ottici: ciò viene realizzato attraverso un fotodiodo che si illumina al passaggio di corrente e una cellula fotoelettrica che riconverte gli impulsi ottici in un nuovo segnale elettrico ad uso del dispositivo. In questo modo non c’è mai una connessione elettrica fisica tra dispositivi MIDI. La seconda è quella di correggere eventuali deterioramenti del segnale di ingresso; tutti i valori di tensione vengono convertiti in soli due stati: luce accesa, luce spenta. Il segnale elettrico che esce dal modulo optoisolatore viene separato in due: una copia viene, come detto, inoltrata verso la presa MIDI thru (non sempre presente) mentre l’altra copia viene inoltrata ad un modulo definito come UART (acronimo di Universal Asynchronous Receiver Trasmitter -Trasmettitore Ricevitore Asincrono Universale - ). Il modulo opera una conversione dei dati seriali in parallelo e li spedisce al dispositivo vero e proprio (per esempio il circuito che genera i suoni in una tastiera-sintetizzatore) gestendo anche la temporizzazione in base al contenuto dei dati che riceve. Come vedremo meglio in seguito, il protocollo MIDI prevede l’utilizzo di 16 canali. Ogni canale identifica una funzionalità di un dispositivo MIDI, per esempio su una tastiera-sintetizzatore può identificare un particolare suono. Questo significa che se per esempio un sequencer pilota una sola tastiera-sintetizzatore, possiamo suonare contemporaneamente fino a 16 suoni diversi, uno per ogni canale (1 per il suono di batteria, 1 per il suono di basso, uno per il suono di violino ecc.). Notare che questo vale per suoni diversi, per lo stesso suono possiamo eseguire più note contemporaneamente (vedremo quante tra un momento). Dunque un pezzo di pianoforte complicatissimo suonato a due mani è riproducibile utilizzando un solo canale MIDI. Generalmente i sistemi MIDI si integrano con gli strumenti reali che rimangono comunque la parte più consistente della registrazione musicale 320
(a parte i generi musicali tipicamente elettronici come per esempio la techno). Per questo motivo i 16 canali, che a prima vista possono sembrare pochi, permettono di gestire la maggior parte delle situazioni.
[64] Dal termine inglese through che significa ‘attraverso’. [65] Un cavo MIDI presenta sempre agli estremi due connettori DIN maschi mentre i dispositivi (tastiere, drum machine
ecc) sono dotati sempre di porte MIDI femmina.
321
22.4. Configurazioni di sistemi MIDI Per introdurre questo argomento abbiamo bisogno di definire i concetti di master e slave. Col termine master (padrone) si identifica il dispositivo che pilota uno o più dispositivi di tipo slave (schiavo). Un dispositivo master può controllare potenzialmente un numero infinito di dispositivi slave. Nel caso il dispositivo master sia un computer e i dispositivi slave siano dotati di porta USB, tutte le configurazioni possono essere realizzate attraverso di esse. Qualora le porte disponibili non fossero sufficienti per pilotare tutti i dispositivi, si possono estendere le porte USB utilizzando degli opportuni replicatori di porta. Le configurazioni di questa sezione si riferiscono a sistemi MIDI classici, ossia realizzati con cavi e connettori MIDI.
22.4.1. Daisy chaining Nella configurazione daisy chaining troviamo un dispositivo master (una tastiera-sintetizzatore) e una serie di dispositivi slave disposti in cascata (ext1 e ext2 possono essere per esempio una batteria elettronica e un modulo sintetizzatore):
Schema di configurazione Daisy Chaining Attenzione a non confondere le connessioni midi con quelle audio. I segnali audio all’uscita di ogni dispositivo vengono prelevati e spediti al mixer per essere trasformati in musica. Il segnali MIDI Out all’uscita del master viene spedito all’ingresso MIDI In dello slave Ext1; una copia di questo segnale è presente anche sulla presa MIDI Thru di Ext1 che dunque viene spedito allo slave Ext2 (possiamo per esempio utilizzare il canale 1 per pilotare il modulo Ext1 e il canale 2 per pilotare il modulo Ext2). In questo modo il master pilota tutti i dispositivi slave in cascata. Il problema di configurazione di questo tipo è che l’operazione di trasferimento del segnale MIDI alla presa MIDI Thru di ogni modulo introduce un piccolo di ritardo. I dispositivi sono disposti in cascata e dunque tutti i ritardi si sommano e questo rischia di compromettere la sincronizzazione tra i dispositivi quando questi diventano troppi.
22.4.2. Daisy chaining con un sequencer Un sequencer è un dispositivo (generalmente un software) in grado di registrare sequenze di comandi MIDI (dove una sequenza si riferisce ad un canale MIDI) e di riprodurle in un secondo tempo. Per esempio su una tastiera-sintetizzatore potremmo eseguire una linea melodica e registrarla su un sequencer, poi potremmo sovrapporre a questa linea una seconda melodia e così via. Alla fine, le sequenze che abbiamo memorizzato verranno eseguite sul sequencer, ossia verranno spedite dal sequencer alla tastiera-sintetizzatore, e in questo modo il pezzo verrà rieseguito automaticamente. La figura seguente mostra un esempio di configurazione daisy chaining con l’impiego di un sequencer:
Schema di configurazione Daisy Chain con sequencer I segnali audio vengono, come prima, spediti al mixer. Vediamo la parte MIDI: il nostro sequencer è un computer dotato di un’interfaccia MIDI e di un opportuno software di sequencing. La presa MIDI Out della tastiera-sintetizzatore (sempre il nostro master) viene collegata alla porta MIDI In dell’interfaccia MIDI del computer. Questo ci permette di ‘registrare’ sul computer le sequenze eseguite sulla tastiera-sintetizzatore. La presa MIDI Out dell’interfaccia MIDI del computer viene collegata 322
all’ingresso MIDI In del master in modo da rieseguire le sequenze registrate. Una copia di questo segnale viene poi spedita, tramite la presa MIDI Thru, ai dei dispositivi Exp1 e Exp2. Anche in questo caso abbiamo il problema del ritardo del trasferimento dei dati. Nella prossima sezione viene mostrata una configurazione che permette di risolvere questo problema.
22.4.3. Configurazione con MIDI Thru Splitter Box ‘To split’ in inglese significa ‘dividere’. In qualsiasi contesto elettrico, uno splitter non è altro che un dispositivo che preleva un segnale in ingresso e lo riproduce in n copie in uscita. Un esempio di splitter sono le comuni ‘ciabatte’ utilizzate nelle case per avere n prese di corrente a partire da una singola presa. Gli splitter possono essere passivi o attivi. Uno splitter passivo ha generalmente una circuiteria molto ridotta o anche assente e, dato che non rinforza in nessun modo il segnale al suo interno, introduce una perdita di segnale ogni volta che viene spezzato in due o più copie. Dunque non è possibile realizzare splitter passivi con troppe prese in uscita. Il problema si risolve utilizzando splitter attivi in cui appositi circuiti rinforzano il segnale prima che arrivi alle prese di uscita riportandolo ai livelli del segnale di ingresso. La configurazione MIDI seguente prevede l’utilizzo di uno splitter attivo che permette di risolvere il problema del ritardo:
Schema di configurazione con Splitter Box In questo caso tutti i dispositivi sono collegati allo splitter (il quale introduce un ritardo ma è l’unico presente nella catena dei collegamenti dunque non pregiudica la sincronizzazione tra i dispositivi).
22.4.4. Interfacce estese Quando si rende necessario l’utilizzo di più di 16 canali si ricorre a interfacce MIDI con più uscite (MIDI Out):
Interfaccia MIDI con più uscite In questo caso ogni uscita MIDI gestisce 16 canali. Sul software di sequencing, una sequenza verrà riferita, come già detto, ad un canale MIDI e inoltre verrà riferita anche ad una determinata uscita MIDI. Nella figura vediamo che la sequenza della batteria elettronica sarà associata al canale 1 (generalmente le batterie elettroniche hanno 1 solo canale MIDI a cui sono associati tutti i suoni identificati dalle diverse note) dell’uscita MIDI 2.
323
22.5. Messaggi MIDI Come accennato, un messaggio MIDI è composto da una serie di bit ordinati secondo uno schema comune per tutti i messaggi. La figura seguente mostra un tipico messaggio MIDI:
Un esempio di messaggio MIDI Come si vede il messaggio è composto da tre byte racchiusi tra due bit, uno iniziale di start e uno finale di stop. Il primo dei 3 byte è definito come status byte e ha la funzione indicare il tipo di messaggio. Uno status byte è sempre contrassegnato dal primo bit posto a 1. I bit 2,3, 4 indicano il tipo di messaggio, essendo 3 bit sono disponibili 8 (23) tipi diversi di messaggio. Gli ultimi 4 bit del primo byte identificano il canale midi, dunque abbiamo 16 canali disponibili. Notare che il nybble (un nybble è una sequenza di 4 bit) 0000 identifica il canale 1 e il nibble 1111 (che vale 15 in decimale) identifica il canale 16. Nel nostro messaggio di esempio stiamo trasmettendo dati sul canale 3. Dopo lo status byte abbiamo due data byte ossia due byte che trasportano informazioni numeriche relative al messaggio definito nello status byte. Un data byte ha sempre il primo bit posto a 0. Gli ultimi 7 bit del primo data byte descrivono la nota suonata, con 7 bit possiamo discriminare 128 (27) note (il che generalmente è sufficiente se si pensa che un pianoforte, che è uno degli strumenti con l’estensione maggiore, ha 88 note). Nel nostro esempio stiamo suonando la nota 64 (1000000). Il secondo data byte indica la velocità della nota ossia l’intensità con cui è stata suonata. Tutte le recenti tastiere dotate di interfaccia MIDI possiedono un controllo chiamato soft touch che trasforma in un valore l’intensità con cui si è premuto un determinato tasto. In questo modo è possibile riprodurre il tocco della mano sui tasti ed eseguire distintamente pezzi suonati per esempio in ‘pianissimo’ o ‘forte’. Il valore viene associato alla velocità perché molti sistemi soft touch si basano sulla velocità con cui è premuto un tasto avendo come presupposto che maggiore è la velocità, maggiore è l’intensità. Nel nostro caso il valore della velocità è pari a 90 (1011010). Ovviamente il significato dei dati contenuti nei data byte varia a seconda del tipo di status byte che stiamo considerando. Vediamo ora i differenti tipi di messaggio MIDI.
22.5.1. Channel voice messages I channel voice messages sono i seguenti: 1.
Note off: interrompe l’esecuzione di una nota. Ha il seguente formato. I tre bit che identificano il tipo di messaggio sono: 000 [1 0 0 0 c c c c ] [0 n n n n n n n] [0 v v v v v v v] dove: c = canale midi (4 bit), n = nota suonata (7 bit), v = velocità (7 bit)
2.
Note on: attiva l’esecuzione di una nota. Ha il seguente formato. I tre bit che identificano il tipo di messaggio sono: 001 [1 0 0 1 c c c c ] [0 n n n n n n n] [0 v v v v v v v] dove: c = canale midi (4 bit), n = nota suonata (7 bit), v = velocità (7 bit)
3.
Polyphonic aftertouch (key pressure): dopo che un tasto è stato premuto, può essere ancora mosso per creare un effetto vibrato. Questo messaggio trasporta informazioni circa questo movimento. È raramente implementato perché richiede un sensore per ogni tasto e dunque risulta abbastanza costoso. I tre bit che identificano il tipo di messaggio sono: 010 [1 0 1 0 c c c c ] [0 n n n n n n n] [0 p p p p p p p] dove: c = canale midi (4 bit), n = nota suonata (7 bit), p = pressione (7 bit)
4.
Channel pressure (aftertouch): come il precedente solo che viene implementato un solo sensore per tutta la tastierasintetizzatore. Un movimento su un tasto applicherà una vibrazione a tutte le note suonate in quel momento sul canale in questione. Il controllo può essere applicato anche ad altre grandezze come un tremolo o la frequenza di taglio di un filtro. I tre bit che identificano il tipo di messaggio sono: 101 [1 1 0 1 c c c c ] [0 p p p p p p p ] [0 - - - - - - - ] dove: c = canale midi (4 bit), p = pressione (7 bit)
5.
Program change: con questo comando è possibile cambiare il suono assegnato ad un canale con un altro suono. I tre bit che identificano il tipo di messaggio sono: 100 324
[1 1 0 0 c c c c ] [0 p p p p p p p] [0 - - - - - - -] dove: c = canale midi (4 bit), p = programma - suono (7 bit) 6.
Control change: utilizzato per controllare parametri relativi al canale in questione come: volume, modulazione (applicata dal joystick presente su molte tastiere), pan. Per esempio per realizzare un volume crescente su un certo strumento suonato su un certo canale, possiamo mandare una serie di questi messaggi con valori di volume sempre crescenti. I tre bit che identificano il tipo di messaggio sono: 011 [1 0 1 1 c c c c ] [0 n n n n n n n] [0 v v v v v v v] dove: c = canale midi (4 bit), n = codice del controllo (volume, pan ecc) (7 bit), v = valore (7 bit)
7.
Pitch bending: permette di eseguire il bending (se non sapete cos’è, chiedete al vostro chitarrista di fiducia) di una nota. In questo caso 128 diverse sfumature di bending sono poche soprattutto in un bending lento e potrebbero generare un effetto ‘scaletta’. Per questo vengono impiegati anche i 7 bit del secondo data byte portando la risoluzione del bending a 14 bit ossia a 16384 gradazioni diverse. I tre bit che identificano il tipo di messaggio sono: 110 [1 1 1 0 c c c c ] [0 B B B B B B B] [0 b b b b b b b] dove: c = canale midi (4 bit), B = primi 7 bit del valore di bending, b = ultimi 7 bit
22.5.2. Channel mode messages Relativamente ai Channel Voice Messages di tipo 6 (control change) possiamo avere 127 diversi codici (sono i 7 bit del primo data byte) che prendono il nome di channel mode messages. I primi 120 sono relativi a parametri tipici come volume, pan ecc. Gli ultimi 7 sono messaggi che agiscono sulla modalità di funzionamento di un canale e sono: 121 - Reset all controllers: tutti i parametri del dispositivi vengono posti pari al loro valore iniziale (quello definito all’accensione del dispositivo). 122 - Local control on/off: per spiegare il funzionamento di questo tipo di messaggio riferiamoci alla figura seguente:
Local control In una tastiera dotata di una propria uscita audio, la pressione di un tasto agisce su un circuito che accede ad un suono residente nella memoria e lo trasferisce all’uscita audio dove diventa un suono. Il segnale generato dal tasto verso i circuiti della tastiera-sintetizzatore prende il nome di local control. Se la tastiera-sintetizzatore viene anche collegata via MIDI, alla pressione di un tasto, una copia del segnale, che indica quale tasto è stato premuto viene spedita tramite la porta MIDI Out. Questo segnale però rientra nella tastiera-sintetizzatore dall’ingresso MIDI In andando ad agire di nuovo sul banco dei suoni. In questo modo si genera un fastidioso effetto eco perché l’esecuzione di una nota viene generata da due eventi diversi: direttamente dalla pressione dal tasto della tastiera-sintetizzatore e dallo stesso segnale che però fa il giro passando dall’interfaccia MIDI del sequencer. Come si vede dalla figura, In una connessione MIDI il segnale local control viene disattivato eliminando il problema. 123 - All notes off: su alcuni sequencer viene chiamato anche ‘panic’ o ‘reset devices’. Può accadere che alcuni messaggi MIDI non vengano ricevuti correttamente e dunque per esempio che non venga ricevuto un messaggio di ‘note off’ lasciando una nota suonare indefinitamente. Questo messaggio manda un segnale di tipo ‘note off’ a tutte le note. 124-125-126-127: Gli ultimi 4 messaggi definiscono il cosiddetto MIDI mode ossia il modo in cui la tastiera-sintetizzatore interpreta i comandi MIDI. 124-125 Omni mode off-on: questi due messaggi attivano o disattivano la modalità Omni mode. Questa, se attivata, fa in modo che nei messaggi MIDI venga ignorata l’informazione relativa al canale e dunque ogni messaggio viene applicato a tutti i canali. Viceversa, quando la modalità è disattivata, ogni messaggio viene applicato al canale indicato nello status byte. 126-127 Mono On - Poly On: la modalità Mono on impone sul canale la possibilità di eseguire una sola nota per volta. La modalità Poly on consente di eseguire più note contemporaneamente sul singolo canale. Vale la pena di puntualizzare la differenza tra i termini polifonico e multitimbrico che indicano caratteristiche diverse di una tastiera-sintetizzatore. Con il termine polifonico si intende che la tastiera-sintetizzatore è in grado di suonare più note 325
contemporaneamente sullo stesso canale MIDI. Multitimbrico significa che una tastiera-sintetizzatore è in grado di suonare più di uno strumento contemporaneamente (ovviamente su canali MIDI diversi) mentre monotimbrico significa che può essere suonato un solo strumento alla volta.
22.5.3. System messages i system messages (messaggi di sistema) questi messaggi sono spediti contemporaneamente su tutti i canali MIDI. Il messaggio ha la forma seguente: [1 1 1 1 t t t t ] [0 d d d d d d d] [0 d d d d d d d] dove: t = tipo di messaggio di sistema (4 bit), d = dati Vi sono tre tipi di messaggio di sistema: 22.5.3.1. System common Questi comprendono: MTC: Midi Time Code (temporizzazione), per una dettagliata descrizione di questo argomento riferirsi alla sezione relativa alla sincronizzazione [Vedi: MIDI Time Code] . Song Position Pointer: identificativo temporale di un punto della canzone. Song select: selezione di una canzone nella memoria del dispositivo. End of exclusive: fine della trasmissione di dati di sistema, viene descritto più avanti. 22.5.3.2. System real time I system real time messages sono messaggi brevi (1 byte) che vengono spediti mischiati ai normali messaggi. Servono per mantenere la sincronizzazione tra i sistemi collegati via MIDI. Questi messaggi vengono spediti continuamente ad un ritmo di 24 ogni quarto di nota quindi il numero di messaggi spediti nell’unità di tempo aumenta col bpm del brano. Se la mole di dati MIDI da spedire è ingente, può convenire spedire i messaggi di temporizzazione su un’uscita MIDI separata. 22.5.3.3. System Exclusive I messaggi di tipo System Exclusive (chiamati anche SysEx) trasportano dati specifici del dispositivo in uso. Ogni dispositivo MIDI professionale è dotato di questa funzionalità che permette di scaricare via MIDI tutta la memoria (come si dice: eseguire un dump[66]). In questo modo tutti i settaggi che sono stati fatti sul dispositivo per un certo lavoro vengono spediti per esempio su un computer dove vengono memorizzati. Nella necessità di impostare il dispositivo su configurazioni completamente diverse è molto utile e immediato utilizzare i settaggi salvati su computer sotto forma di file ritrasferendoli nel dispositivo sempre via MIDI.
[66] In ambito informatico questo termine indica la generazione di una copia di riserva dei dati.
326
22.6. MIDI Time Code Il MIDI Time Code (MTC) è l’equivalente del SMPTE [Vedi: Il timecode SMPTE] in digitale nel senso che viaggia da macchina a macchina senza essere memorizzato su un supporto fisico. È possibile convertire il codice SMPTE in MTC in modo da sincronizzare macchine MIDI con il timecode SMPTE. Esistono 4 tipi di messaggi nel MTC: Full Frame Messages: contiene l’informazione temporale dunque: ora : minuto : secondo : frame È composto da 4 byte e ne viene spedito uno ogni frame. Per esempio per spedire il frame: 05 : 12 :19 : 10 Viene spedita la sequenza di byte riportata qui sotto (le informazioni numeriche sono contenute negli ultimi 5 bit di ciascun byte): 0 0 1 0 0 1 0 1 (ora) 0 0 0 0 1 1 0 0 (minuto) 0 0 0 1 0 0 1 1 (secondo) 0 0 0 0 1 0 1 0 (frame) Il secondo e il terzo bit del primo byte individuano il numero di frame al secondo come mostrato nella tabella seguente: Tabella 22.1. Codici binari per il fps del MTC Codice binario 00 01 10 11
Frame al secondo (fps) 24 25 29.97 30
Si vede che il messaggio di esempio indica un valore di fps pari a 25. 1/4 frame message: questo messaggio viene spedito ogni quarto di frame nel senso che nella sequenza di bit che individua un frame vengono infilati 4 di questi messaggi e hanno la funzione di indicare costantemente il ritmo. Cueing messages: sono messaggi per l’automazione e per il MIDI machine control. User bits: sono destinati a trasportare informazioni inserite dall’utente.
327
22.7. General MIDI Il protocollo General MIDI definisce una mappatura dei suoni associando ad ogni suono un determinato canale MIDI. In questo modo una partitura MIDI ricavata utilizzando un certo tipo di tastiera o modulo potrà essere suonata da un altro modulo senza che la corrispondenza dei suoni venga alterata. Senza questa specifica ogni canale MIDI può riferirsi ad un qualsiasi strumento e dunque succede che per esempio un pattern di batteria che viene spedito sul canale 1 venga suonato dal modulo in questione come un pianoforte… Con il protocollo GM si definisce dunque uno standard che, se rispettato, permette di evitare questi inconvenienti. All’interno del protocollo vengono inoltre definite altre specifiche riguardanti l’aftertouch e altri parametri del protocollo MIDI.
328
Capitolo 23. Sincronizzazione 23.1. Introduzione È ormai prassi utilizzare in studio, ma anche dal vivo, più macchine elettroniche o analogiche contemporaneamente: sequencer, computer, campionatori, multitraccia, effetti, dispositivi video, etc. etc. Il problema che sorge è dunque quello della loro sincronizzazione, elemento fondamentale per la qualità del lavoro e dello stesso prodotto finale. Questa sincronizzazione viene realizzata utilizzando opportuni timecode (codici di temporizzazione) che fungono da riferimento temporale per tutte le macchine coinvolte nella stessa sessione di lavoro. In questa sezione vedremo i più usati codici di temporizzazione ed il loro impiego.
329
23.2. Differenza timecode e clock Un codice di temporizzazione (timecode) è una sequenza di dati che indicano riferimenti temporali e permette di allineare più macchine sulla stessa linea temporale. Dunque, il timecode porterà in ogni istante informazioni relative a ora, minuto, secondo, frame (i dati relativi alla temporizzazione possono variare a seconda del sistema utilizzato). Il timecode consente anche di saltare da un punto all’altro della linea temporale e fare in modo che tutte le macchine sincronizzate si allineino sul nuovo istante di tempo selezionato e proseguano poi sincronizzate. Vi sono molti tipi diversi di timecode, di seguito vengono elencati i più importanti: SMPTE: Society of Motion Picture and Televisions Engineers [Vedi: Il timecode SMPTE] MTC: MIDI Time Code [Vedi: MIDI Time Code] Un clock invece è un segnale che consente di sincronizzare il bitrate (il trasferimento dei singoli bit) di diverse macchine. Dunque, a differenza del timecode, non trasporta informazioni relative alla linea temporale (ad es: ora, minuto, secondo, frame) ma fornisce solo impulsi che vengono utilizzati per dare il ritmo. Ad esempio, due schede audio che lavorano in parallelo dovranno, oltre che campionare alla stessa frequenza di campionamento e bit di quantizzazione, campionare negli stessi istanti, per fare in modo che i campioni relativi ai singoli canali siano sempre sincronizzati. Per garantire un’alta qualità nella riproduzione sonora è necessario che il clock sia il più possibile stabile, ossia che l’intervallo di tempo tra un impulso e l’altro sia il più possibile costante. Lo scostamento dall’istante di temporizzazione teorico si chiama jitter [Vedi: Jitter] ed è un parametro che deve essere il più possibile minimizzato. Vi sono molti tipi diversi di clock, di seguito vengono elencati i più importanti: S/PDIF AES/EBU MIDI Clock DINSYNC FSK - Frequency Shift Keying Black Burst (utilizzato solo in ambito video) Di seguito vengono elencati i sistemi più utilizzati per i segnali di sincronizzazione AES/EBU: Audio Engineering Society/European Broadcasting Union AES/EBU: è un tipo di interfaccia e non un vero e proprio timecode. Su questa interfaccia possono viaggiare segnali quali impulsi di clock[67] tra macchine digitali (il protocollo consente anche il trasporto di audio digitale). Vengono generalmente impiegati due connettori di tipo XLR [Vedi: XLR - Cannon: sono utilizzati per i cavi microfonici con connessione bilanciata. A volte questo tipo di connettore è utilizzato per connessioni nell’impianto luci, per connessioni digitali e per connessioni MIDI [Vedi: Il protocollo MIDI] . ] [68]. S/PDIF - Sony/Philips Digital Interface: protocollo utilizzato anche per scopi di temporizzazione. È utilizzato su macchine economiche o semiprofessionali. Vengono generalmente impiegati due connettori di tipo RCA [Vedi: RCA: altre denominazioni sono: phono, cinch, tulip. Viene utilizzato per le connessioni su impianti Hi-Fi casalinghi e per le connessioni digitali di tipo SPDIF [Vedi: S/PDIF] : ] [69]
[67] Gli impulsi di clock sono impulsi che vengono generati a intervalli di tempo costanti da un apposito circuito di
temporizzazione [68] Si noti che questa connessione è in grado di trasportare, oltre al segnale di sincronizzazione, anche segnali audio
digitali. [69] Si noti che questa connessione è in grado di trasportare, oltre al segnale di sincronizzazione, anche segnali audio
digitali.
330
23.3. Il timecode SMPTE È un timecode di tipo analogico nel senso che il segnale del timecode viene registrato su un supporto analogico come se si trattasse di un segnale audio. La sua registrazione può avvenire in due modalità a seconda del tipo di supporto sonoro che si ha a disposizione: VITC (Vertical Interval Time Code): viene usato un supporto con testine rotanti [Vedi: Supporti a testina rotante] e il timecode viene memorizzato su apposite tracce parallele alle tracce audio. In alcune macchine come l’Alesis ADAT [Vedi: ADAT: Acronimo di Alesis Digital Audio Tape: ogni macchina ADAT può registrare 8 tracce e si possono sincronizzare insieme fino a 16 macchine con un risultato di 128 tracce disponibili per la registrazione. La temporizzazione interna può essere sincronizzata con un segnale SMPTE [Vedi: Il timecode SMPTE] o MTC [Vedi: MIDI Time Code] proveniente dall’esterno in modo da non dover impiegare una traccia audio per la registrazione del timecode. La codifica dei dati è di tipo lineare a 16 bit con una frequenza di campionamento di 48 KHz (sovracampionata x64). Utilizza una versione migliorata delle normali videocassette VHS che però debbono essere preventivamente formattate. Monta connettori audio di tipo RCA [Vedi: RCA: altre denominazioni sono: phono, cinch, tulip. Viene utilizzato per le connessioni su impianti Hi-Fi casalinghi e per le connessioni digitali di tipo SPDIF [Vedi: S/PDIF] : ] e lavora ad uno standard operating level [Vedi: Standard Operating Level] di -10dBV.] ciò non è possibile e dunque si registra il timecode su una delle tracce audio. Ha il vantaggio di poter essere letto anche quando il nastro è fermo grazie alla continua rotazione della testina. LTC (Longitudinal Time Code): viene utilizzato un supporto con testine fisse (come per esempio un normale registratore multitraccia a bobine). Il timecode viene registrato su una delle tracce audio lungo la direzione longitudinale del nastro. Ha il vantaggio di essere leggibile anche per alte velocità del nastro (per esempio durante un avanzamento veloce). Il timecode SMPTE suddivide l’asse temporale secondo il formato seguente: ore : minuti : secondi : frame : subframe (opzionali) Oltre al riferimento temporale notiamo una suddivisione dei secondi in frames[70] (e questi a loro volta vengono suddivisi in subframe). Questa modalità si riferisce alla temporizzazione video in cui i frame sono il numero di fotogrammi al secondo. Naturalmente in audio non abbiamo fotogrammi ma conviene comunque adottare questo sistema di temporizzazione. Ciò ha origine dal fatto che il timecode video era già stato messo a punto e ben si prestava anche per finalità audio e inoltre avendo una temporizzazione di questo tipo è immediato sincronizzare audio e video dato che utilizzano lo stesso timecode. Il numero di frame varia a seconda del formato video che viene utilizzato. La tabella seguente riassume i diversi formati: Tabella 23.1. Formati video Utilizzo Film TV - Europa
Frame al secondo (fps) 24 25
TV Bianco e Nero - America 30 TV Colori - America 29.97 Il timecode non è altro che una sequenza ininterrotta di 1 e 0 che indicano di volta in volta l’istante corrente. Per indicare uno 0 oppure un 1 il SMPTE utilizza una codifica che prende il nome di Manchester Bi-Phase Modulation.
23.3.1. La registrazione del segnale Consideriamo la modalità LTC ossia registriamo il timecode su una traccia di una bobina. In questo caso le frequenze fondamentali utilizzate sono 1 KHz (per i bit 0) e 2 KHz (per i bit 1). Diamo di seguito una serie di criteri da seguire per la registrazione del timecode che è un segnale molto delicato e dunque rischia di essere compromesso facilmente: Il SMPTE va registrato ad un livello non troppo alto, generalmente a -7 Vu. Il percorso che il segnale compie a partire dal generatore di timecode fino al registratore deve essere il più diretto possibile. La cosa migliore è prelevare il segnale del generatore di SMPTE direttamente dalla patchbay [Vedi: La PatchBay] e da lì, inoltrarlo sempre attraverso la patchbay sulla traccia del registratore. In questo modo il segnale non passa neanche attraverso il mixer. Non utilizzare mai sistemi di Noise Reduction [Vedi: Riduzione del rumore] per la registrazione del time code in quando potrebbero alterarne irrimediabilmente il contenuto in frequenza. Il particolare contenuto in frequenza del SMPTE genera problemi di crosstalk[71]. Per questo, mettendolo sull’ultima traccia disponibile (o anche sulla prima ma per convenzione si sceglie l’ultima) si evita il crosstalk su due tracce 331
limitandolo a una sola. Sulla traccia che rimane adiacente al timecode si consiglia di registrare un segnale con un contenuto continuo ed esteso in frequenza (per esempio una chitarra con distorsore) in modo da mascherare il SMPTE. Per esempio non registreremo mai una piccola percussione che suona di tanto in tanto vicino alla traccia del timecode. Il timecode va registrato sull’intero nastro. La temporizzazione si fa partire sempre da almeno 1 ora in modo da poter cominciare il tracking un po’ prima per dare il tempo alle varie macchine, che si devono sincronizzare con il codice, di allinearsi.
23.3.2. Il formato dei frame Come abbiamo già visto vi sono diversi formati di frame [Vedi: Formati video] a seconda del paese e del contesto di utilizzo. È importante avere una conoscenza del funzionamento dei vari formati in quanto non è infrequente dover eseguire delle conversioni di formato. La misura di riferimento per i frame è il fps - frame per second ossia il numero di frame al secondo. 24 fps: è lo standard utilizzato per il cinema. Il numero di fotogrammi al secondo pari a 24 era considerato sufficiente per creare un effetto di movimento sfruttando il tempo di persistenza delle immagini sulla retina dell’occhio. 25 fps: è lo standard europeo sancito dalla EBU (European Broadcasting Union). Questo valore è stato fissato sia per la TV in bianco e nero che per quella a colori. Il valore dipende dal fatto che in Europa la corrente alternata ha una frequenza di 50 Hz. Ogni immagine viene disegnata sullo schermo riga per riga, in particolare se ci troviamo sul fotogramma n-esimo, le righe dispari saranno prese da questo mentre le righe pari saranno prese dal fotogramma successivo (n+1). In questo modo ad ogni ciclo di corrente viene mostrato un fotogramma (nel primo semiciclo per le righe dispari e nel secondo semiciclo per le righe pari). Il più diffuso sistema di codifica dell’immagine in Europa è il sistema PAL (Phase Alternating Line). In America sfortunatamente si utilizza uno standard diverso che impone la conversione da un formato all’altro a seconda del contesto di utilizzo. 30 fps: è lo standard NTSC (National Television Standards Commitee) Americano per la TV in bianco e nero. Il motivo risiede nel fatto che la corrente alternata in America ha una frequenza di 60 Hz. Questo formato e’ tuttora utilizzato su standard ATSC (acronimo di Advanced Television Systems Committee). Viene anche chiamata: modalità non-drop mode, vedremo tra un momento perché. 29.97 fps: viene chiamato drop frametime code mode ed è lo standard per la TV a colori americana. Questo numero così scomodo da utilizzare nasce dal fatto che una frequenza di 30 fps per immagini a colori generava problemi di aliasing su alcuni colori. Rallentando sensibilmente la velocità dei fotogrammi si ottiene una corretta riproduzione del colore. Per realizzare un timecode che segue i fotogrammi di questo formato si utilizza la modalità 30 fps in cui vengono saltati (dall’inglese drop: posare, lasciare) 2 frame ogni minuto. Questo garantisce che dopo un’ora la temporizzazione sarà esattamente di 29.97fps.
[70] fotogrammi [71] Con questo termine si indica l’interferenza reciproca tra due tracce adiacenti su un registratore analogico e su un mixer.
332
Capitolo 24. Suono live 24.1. Introduzione In questa sezione vengono descritti gli aspetti principali della gestione di un evento live dal punto di vista del suono comprendendo anche una descrizione dei materiali e le apparecchiature utilizzati nella pratica.
333
24.2. Descrizione dell’attrezzatura Presentiamo di seguito lo schema standard che viene realizzato per un concerto:
Schema dei collegamenti in una situazione live Si tratta di uno schema semplificativo che comunque fornisce una visione di insieme del funzionamento e dei vari collegamenti che vengono realizzati. Prima di passare all’aspetto tecnico è bene fare qualche cenno sull’aspetto organizzativo. L’organizzazione di un concerto può diventare una questione veramente complicata e in questi casi la gestione degli uomini che si hanno a disposizione e delle operazioni da eseguire va affidata ad una persona competente e con indubbie capacità di direzione. Questa figura si chiama stage manager ed è fondamentale nell’organizzazione di grossi eventi. Il suo compito è quello di dirigere le operazioni sul palco avendo presente l’avanzamento dei lavori e la sequenza delle operazioni da compiere; è la persona di riferimento per tutti. Naturalmente non tutti i concerti hanno dimensioni tali da richiedere uno stage manager, vi sono situazioni in cui è sufficiente una sola persona per mettere insieme tutto il necessario. Cominciamo a vedere come viene organizzato il palco. La prima cosa da fare è prelevare i segnali (microfonici o di linea) che vengono prodotti dai musicisti. Sul palco è presente un elemento denominato splitter box (comunemente: ciabatta) che ha la funzione di raccogliere tutti i segnali presenti sul palco e smistarli verso altre destinazioni in più copie. Le due copie che ci servono come si vede dalla figura sono destinate una al mixer di palco e una al mixer di sala. Dunque in una situazione live sono presenti sempre almeno due mixer: il mixer di sala, come si può immaginare, serve per realizzare il mix che alimenterà l’impianto di diffusione principale (più eventuali impianti di ritardo); il mixer di palco viene utilizzato per fornire ai musicisti sul palco un ascolto personalizzato dei suoni da essi prodotti. Come si può vedere dalla figura ogni musicista sul palco ha uno o due monitor dedicati. Questi monitor (detti anche spie) servono da riferimento ad ogni musicista per ascoltare se stesso e gli altri. Immaginate per esempio il batterista che si trova alle spalle del cantante e che oltretutto si trova già sommerso dai suoni che egli stesso produce. Per permettere al batterista di ascoltare gli altri musicisti, tra cui il cantante, viene predisposto un monitor (per i batteristi anche due, denominati drumfill) che viene alimentato da un segnale generato attraverso il mixer di palco. Sul mixer di palco, dove arrivano in ingresso tutti i segnali dal palco, è possibile creare una serie di mix diversi, tipicamente uno per ogni musicista. Questo dipende dal fatto che ogni musicista ha diverse esigenze di ascolto, per esempio un batterista ha necessità di sentire soprattutto il suono del bassista piuttosto che la voce del cantante o la chitarra solista. Dunque i mixer da concerto hanno la caratteristica di poter creare un elevato numero di mix separati destinati ai vari monitor presenti sul palco. In situazioni live ristrette (molto ristrette) è possibile utilizzare un solo mixer che assolve alle funzioni di mixer di palco e mixer di sala contemporaneamente. I segnali del palco, attraverso lo splitter, vengono inoltrati anche al mixer di sala. Sarà su quest’ultimo che il front of house engineer (l’ingegnere del suono che sta di fronte al palco, da noi il fonico di sala) eseguirà il mix che andrà ad alimentare l’impianto (in inglese il sistema di altoparlanti dedicato alla diffusione del suono nella sala viene chiamato P.A. - Public Address - e per semplicità nel seguito si adotterà questa denominazione). Dunque si vede come il mix che arriva all’impianto della sala e i mix presenti sul palco siano completamente 334
indipendenti. Vediamo ora più in dettaglio la catena dei collegamenti al mixer di palco e quella al mixer di sala e le apparecchiature coinvolte.
335
24.3. Catena del mixer di palco La catena standard è la seguente:
Catena del mixer di palco Come detto i segnali di ingresso arrivano al mixer di palco dallo splitter box e attraverso il mixer creiamo una serie di mix destinati a uno o più monitor presenti sul palco. La figura mostra che il segnale che esce dal mixer attraversa una serie di moduli prima di arrivare al monitor vero e proprio. Il primo è un equalizzatore grafico, generalmente a 31 bande [Vedi: Equalizzatore grafico] , che ha la funzione di rendere piatta la risposta del monitor. Ciò si rende necessario in quanto i monitor generalmente non hanno una risposta in frequenza piatta ossia amplificano e/o attenuano alcune bande di frequenza dello spettro udibile. Ciò è tanto più enfatizzato quanto più è scadente la qualità del monitor stesso. Per correggere questa risposta si utilizza un equalizzatore grafico che equalizza il segnale prima che arrivi al monitor. Se per esempio il monitor enfatizza troppo le basse frequenze, agendo sull’equalizzatore e attenuando le basse frequenze sul segnale avremo come risultato che sul monitor, le basse frequenze, verranno riprodotte con la corretta ampiezza. Si tratta di una correzione a posteriori che si rende necessaria in quanto solo monitor di elevata qualità (e dunque molto costosi) garantiscono una risposta piatta in frequenza (naturalmente la risposta piatta di un monitor il cui segnale è stato equalizzato da un equalizzatore grafico non compete minimamente dal punto di vista della qualità con la risposta piatta di un monitor al quale non è stata applicata nessuna correzione). In fondo non vale la pena spendere cifre esorbitanti per dare ai musicisti sul palco un suono di qualità cristallina, molto meglio impiegarli nella spesa di un impianto P.A. dove la qualità è un parametro essenziale. A valle dell’equalizzatore grafico troviamo un limiter (non sempre presente in quanto può introdurre distorsioni) [Vedi: Limiter] che protegge il resto della catena da picchi inaspettati del segnale. Da qui il segnale passa in un amplificatore che pilota il monitor sul palco (vengono impiegati spesso anche monitor che comprendono al loro interno anche lo stadio amplificatore).
336
24.4. Catena del mixer di sala La catena standard è la seguente:
Catena del mixer di sala Anche in questo caso i segnali di ingresso provengono dallo splitter di palco. La funzione di questo mixer è quella di creare il mix per la sala dunque il FOH engineer avrà a disposizione anche un rack effetti (oltre ai componenti disponibili sul mixer) per manipolare il suono a suo piacimento e fornire il mix finale sull’uscita master stereo. Anche in questo caso troviamo uno stadio con un equalizzatore grafico (in realtà sono due equalizzatori, uno per il canale sinistro e uno per il canale destro) generalmente a 31 bande. In questo caso si suppone che l’impianto sia di buona qualità e infatti lo stadio di equalizzazione non serve a correggerne la risposta che dovrebbe essere più che soddisfacente. La funzione dei due equalizzatori grafici è quella di adattare la risposta dell’impianto alle caratteristiche della sala (se per esempio ci troviamo ad operare in una sala in cui è presente un forte rimbombo alle basse frequenze dovremo attenuare questa banda agendo sui due grafici). Successivamente troviamo uno stadio di limiting (non sempre presente in quanto può introdurre distorsioni). Infine il segnale arriva ad un crossover attivo [Vedi: Il crossover] e da qui viene smistato ai vari amplificatori che amplificano le varie bande di frequenza. Ogni segnale amplificato arriva all’altoparlante che gli compete e il suono si diffonde nella sala.
337
24.5. Il mixer da live La differenza principale tra un mixer da live e un mixer da studio è l’assenza nel primo dei canali monitor e del monitor path in quanto questi si rendono necessari per la registrazione [Vedi: La registrazione] e il missaggio in studio [Vedi: Il missaggio] . Per semplificare la descrizione che segue, consideriamo un mixer che ingloba in sé sia le funzionalità di un mixer da palco che quelle di un mixer di sala. Come detto è possibile realizzare una serie di mix indipendenti ad uso dei musicisti sul palco. Questi vengono costruiti grazie alla presenza di un numero maggiore di mandate ausiliarie rispetto ai mixer da studio. Un mixer di medie dimensioni può avere anche 10 mandate ausiliarie di cui alcune verranno impiegate per gli effetti mentre le rimanenti saranno dedicate alla costruzione dei mix per i musicisti[72] . Dunque con le mandate ausiliarie di ogni canale controlliamo la quantità di segnale presente nel mix mentre il volume complessivo di ogni mix sarà controllato dagli aux send master. Naturalmente, a seconda del mixer saranno presenti su ogni canale una serie di moduli per la manipolazione del segnale quali equalizzatori, filtri, compressori, gate ecc. Alcuni mixer a volte invece delle mandate ausiliarie presentano un sistema di fader simile ai gruppi in cui ogni fader svolge la funzione equivalente ad un aux send master. La differenza è che il master è pilotato da un fader invece che dal potenziometro aux send master. Merita particolare attenzione l’organizzazione dei gruppi; questi infatti possono essere di due tipi: di tipo normale o di tipo VCA. I gruppi di tipo normale funzionano come i gruppi sui mixer da studio nel senso che permettono di raggruppare su un unico fader un insieme di segnali di ingresso. I gruppi di tipo VCA (Voltage Controlled Amplifiers - amplificatori controllati in tensione) consistono in un’ulteriore serie di fader ognuno dei quali controlla una serie di amplificatori presenti sui canali di ingresso secondo lo schema seguente:
Controlli VCA Dalla figura si vede come, in realtà, il segnale sul canale non sia regolato dalla resistenza variabile azionata dal fader ma da un amplificatore il cui guadagno è controllato dal fader. In altre parole, agendo sul fader di un canale stiamo intervenendo sul guadagno si un amplificatore che controlla il segnale e non su una semplice resistenza come nel caso dei normali canali. Se allora al fader di un gruppo di tipo VCA trasferiamo il controllo di uno o più amplificatori presenti sui canali, avremo come risultato che agendo sul fader del gruppo controlleremo il livello di tutti i canali che sono stati assegnati a quel gruppo.
[72] Generalmente i mix che si fanno sono di tipo mono dunque ogni mix occupa una sola mandata ausiliaria. Qualche volta
può capitare che un musicista richieda un mix stereo di fronte a lui utilizzando due monitor.
338
24.6. Rinforzo sonoro: torri di ritardo Vengono così denominate le torri che vengono allestite nei grandi eventi live allo scopo di diffondere il suono a grande distanza dal palco. Sulle torri sono montati sistemi P.A. (oltre a quelli presenti sul palco) che consentono di ottenere un suono virtualmente uniforme su superfici molto estese. A causa della distanza tra i sistemi P.A. le onde sonore da essi generate risultano sfasate per la “limitata” velocità del suono e il diverso posizionamento di ogni sorgente. Abbiamo visto come l’intensità sonora diminuisca all’aumentare della distanza, riscontrando una caduta di 6dB ogni volta che raddoppia la distanza. Si tratta di una problematica da risolvere in quanto nella messa a punto di un sistema di amplificazione destinato a sale molto grandi bisogna fare in modo che il campo sonoro sia il più uniforme possibile in qualsiasi punto della sala. È evidente che uno spettatore che si trova sotto al palco riceverà un’intensità sonora molto maggiore di uno spettatore situato a 40 metri dal palco! Non potendo per ovvii motivi aumentare a dismisura il volume sui P.A.[73] scegliamo di mettere un ulteriore altoparlante a 30 m dal palco il modo da rinforzare il fronte sonoro come mostrato in figura.
Esempio di rinforzo sonoro Il nuovo altoparlante sopperisce alla caduta di intensità dovuta alla distanza ma nasce così un problema: il segnale sonoro che parte dal palco impiega un certo tempo per arrivare all’ascoltatore 2 mentre il segnale elettrico che alimenta il rinforzo arriva subito. Questo fa sì che l’onda proveniente dal rinforzo arrivi prima di quella che proviene dal palco generando un innaturale effetto di sovrapposizione. Un primo passo per risolvere il problema consiste nell’applicare un effetto delay al segnale diretto al rinforzo e fare in modo che i due segnali arrivino insieme all’ascoltatore 2. Facciamo due calcoli per individuare le grandezze che stiamo trattando: s=v x t da cui t=s/v da cui t=30/344=87ms Dunque ritardando il segnale di rinforzo di 87ms (ms più ms meno) i due segnali arrivano insieme ed è già qualcosa. Ancora però non abbiamo risolto il problema in quanto il segnale proveniente dal palco si è molto affievolito (per questo abbiamo messo il rinforzo!) e dunque il segnale di rinforzo prevale creando un effetto innaturale in quanto vedremmo i musicisti suonare ma sentiremmo il suono provenire dal rinforzo. L’effetto Haas risolve egregiamente questo problema. Infatti, se ritardiamo ancora il segnale di rinforzo di un tempo interno alla zona di Haas, per l’effetto di precedenza avremo che la direzione del suono percepita dall’ascoltatore sarà quella dell’onda proveniente dal palco perché ora arriva prima del segnale di rinforzo, anche se quest’ultimo ha un’intensità considerevolmente maggiore (ciò vale fino a differenze di 10dB tra i due segnali, oltre l’effetto Haas perde di validità e il segnale, anche se ritardato, è talmente forte che copre quello diretto). Nell’esempio precedente, applicando un ritardo di 110 ms otterremmo il nostro scopo. Questo sistema viene impiegato sistematicamente nei grossi concerti all’aperto data la grande superficie da coprire.
Rinforzo Arene
[73] Public Address: è il sistema di altoparlanti che vengono disposti ai lati di un palco.
339
24.7. Messa a punto dell’attrezzatura A differenza dello studio di registrazione, in una situazione live l’attrezzatura va montata ogni volta ex-novo sul posto (e va anche rismontata alla fine del concerto!). Dunque di volta in volta vengono posizionati i vari elementi: lo splitter, le aste dei microfoni, i microfoni stessi, i monitor in corrispondenza delle posizioni dei musicisti. A volte, oltre agli altri, vengono disposti due monitor particolari più grandi degli altri ai lati del palco sui quali viene inviato un mix stereo che coinvolge tutto il palco (sidefill). In questo modo si riesce a dare a tutti i musicisti un fronte sonoro stereo e omogeneo. La figura seguente mostra una possibile disposizione:
Posizionamento Side Fill A volte, per concerti di grandi dimensioni, si predispone una linea di monitor diretti verso la band lungo il fronte del palco. Questo tipo di configurazione prende il nome di front fill. Generalmente il lavoro viene suddiviso in tre parti. Una squadra (gli assistenti di palco) si occupa del posizionamento sul palco di tutto il necessario. Il fonico di palco si occupa di tutti i collegamenti che lo riguardano ossia collega lo splitter al suo mixer e tutte le uscite monitor secondo la solita catena: equalizzatore grafico -> limiter -> amplificatore finale -> monitor. Collega infine il rack effetti che gli è necessario per costruire i mix destinati ai musicisti. Il fonico di sala si occupa dei collegamenti della sua postazione ossia collega il cavo proveniente dallo splitter con i segnali del palco al suo mixer, il suo rack effetti e l’uscita master ai P.A. che vengono montati ai lati del palco, generalmente seguendo le sue indicazioni. Quando tutti i collegamenti previsti sono stati fatti si passa al line check ossia si controlla che tutti i collegamenti funzionino. Una persona è presente sul palco e genera segnali sui canali a partire dal canale 1, se si tratta di un microfono ci parlerà dentro, se si tratta di uno strumento farà un contatto sui jack eccetera. In questa fase il fonico di palco e il fonico di sala sono nelle loro postazioni e verificano la corretta ricezione del segnale sul canale che di volta in volta viene testato. Ogni volta che entrambi danno l’Ok si passa al canale successivo. In seguito il fonico di palco passa alla taratura dei monitor e quello di sala alla taratura dell’impianto. È qui che entra in gioco l’esperienza coadiuvata da un orecchio raffinato. Il fonico di palco è vicino agli equalizzatori grafici, invia un segnale che conosce molto bene a una linea monitor[74] e agisce sul grafico in modo da conferire al monitor una risposta mediamente piatta. Il segnale da inviare varia a seconda del modo di lavorare di ognuno. Spesso si usa un microfono per inviare al monitor il segnale della propria voce in quanto questa è uno dei suoni che ognuno di noi conosce meglio, altre volte si può utilizzare un pezzo musicale che si conosce molto bene con un’estensione in frequenza molto ampia da usare come riferimento. Particolare attenzione va rivolta a quello che viene definito come effetto Larsen e che viene descritto nella prossima sezione [Vedi: L’effetto Larsen] . Il fonico di sala prova l’impianto inviando diversi tipi di segnali di test. Anche qui l’ausilio di musiche molto ben conosciute dal fonico e ascoltate in molteplici situazioni aiutano a trovare la giusta risposta dell’impianto alla sala in cui si trova e alla musica che riprodurrà (è chiaro che se stiamo preparando un concerto jazz non testeremo l’impianto con un pezzo degli Iron Maiden!). Una volta che tutte queste operazioni sono state ultimate il palco è pronto per accogliere i musicisti e si può passare alla fase successiva: quella del soundcheck.
[74] In effetti, raramente si ha il tempo di tarare tutti i monitor indipendentemente, più realisticamente si esegue la taratura
una volta sola su un unico monitor e la si riproduce per tutti gli altri visto che di solito i monitor sono tutti uguali. Ovviamente per monitor diversi si eseguono tarature diverse.
340
24.8. Il soundcheck Durante questa fase i musicisti provano i loro strumenti e mentre ciò avviene i due fonici lavorano sui guadagni e sui timbri dei suoni che arrivano dal palco. Generalmente ogni segnale audio deve essere tarato individualmente: ad ogni musicista viene chiesto di produrre un suono singolo con il proprio strumento. Per esempio il batterista suonerà ripetutamente ogni singolo elemento della sua batteria finché entrambi i tecnici del suono non sono soddisfatti delle loro manipolazioni sul singolo suono, dopodiché si passerà al successivo elemento. Per band con alle spalle grandi produzioni questa operazione, che spesso richiede un tempo non indifferente in quanto applicata ad ogni segnale proveniente dal palco, viene gestita da tecnici e non dai musicisti della band che arrivano quando tutti i segnali sono tarati e si può passare alla fase successiva. È il momento di eseguire interamente qualche pezzo per mettere a punto i mix FOH e quelli sul palco. Il fonico di palco crea i mix per i vari musicisti e, potendo ascoltare in cuffia (o su un monitor dedicato avente le stesse caratteristiche di quelli sul palco) ciò che sta mandando a ogni monitor (i mixer di palco hanno un sistema di SOLO che permette di ascoltare la singola uscita aux send master), genera dei mix iniziali secondo dei criteri generali. Per esempio nel mix destinato al batterista manderà soprattutto il segnale del basso e magari un po’ della voce solista. Invece il mix destinato al cantante solista avrà preponderante proprio il suo segnale in quanto ciò che un cantante deve sentire meglio è se stesso, magari con l’aggiunta di un po’ di riverbero. Partendo da questi mix di base ogni musicista chiede al fonico di palco di apportare le correzioni che desidera e questo li accontenta. Il fonico di sala durante tutte queste fasi si occupa del suono che esce dai P.A. e lo raffina continuamente. Alla fine del soundcheck tutti i livelli sono stati tarati dunque si interrompe lasciando tutto come sta (i macchinari restano tutti accesi e i canali vengono messi in modalità muta) in attesa dell’ora del concerto.
341
24.9. Il concerto L’inizio del concerto è sempre preceduto da una certa tensione per tutti gli addetti: per i musicisti per ovvii motivi ma anche per i fonici e gli assistenti di palco. Tutto è silenzioso ma pronto a produrre musica. Pensate cosa succederebbe se il concerto partisse con il primo pezzo e, dopo l’introduzione musicale il cantante attaccasse la prima strofa ma dal suo microfono non uscisse niente! Il concerto comincia e i suoni sono tutti un po’ grezzi. Sul palco i musicisti si devono assestare, i mix che sono stati messi a punto durante il soundcheck necessitano di alcune correzioni che vengono richieste al fonico di palco con gesti e occhiate. Contemporaneamente il fonico di sala è al lavoro per plasmare i suoni nella sala. Dopo i primi pezzi si comincia a raggiungere un buon equilibrio di tutte queste componenti e i fonici possono rilassarsi un po’ e godere del risultato del proprio lavoro anche se continuano a ritoccare i parametri dei suoni secondo le esigenze dei pezzi. Quando il concerto termina, scendiamo sul palco a chiacchierare con i musicisti e gli altri tecnici scambiandoci pareri e commenti. Non rimane che smontare e riporre tutto e, mentre gli ultimi spettatori vanno via, noi siamo già al lavoro perché la notte è iniziata da un pezzo e ci vorrà un bel po’ prima di poter piombare nel letto per ricominciare il giorno dopo da un’altra parte, tutto da capo.
342
24.10. L’effetto Larsen Viene chiamato effetto Larsen la risonanza dell’ambiente [Vedi: Acustica degli ambienti] a determinate frequenze con ampiezza sempre crescente che si innesca nella catena microfono-mixer-monitor. Quando una frequenza entra in un microfono, viene amplificata ed arriva ad un monitor. Se la frequenza ha un’ampiezza superiore ad una certa soglia ciò innesca un processo ricorsivo per cui la frequenza stessa viene amplificata ogni volta che compie un giro della catena. Generalmente la distanza dei microfoni dai monitor e le loro caratteristiche direzionali fanno in modo che i suoni provenienti dai monitor vengano captati dal microfono in modo molto attenuato. Di seguito viene mostrato un tipico posizionamento sul palco che dovrebbe minimizzare l’effetto Larsen:
Posizionamento dei monitor rispetto ai microfoni Come si vede il diagramma di tipo cardioide del microfono [Vedi: Diagramma polare di un microfono] dirige la sensibilità del microfono verso la voce del cantante mentre la minimizza nella direzione del monitor. Qualora, nonostante questi accorgimenti, le condizioni ambientali provochino l’effetto Larsen si ricorre all’utilizzo degli equalizzatori. In questo caso è possibile intervenire sia sugli equalizzatori grafici [Vedi: Equalizzatore grafico] , destinati a modificare la risposta dei monitor, sia sull’equalizzatore presente sul canale del mixer a cui è collegato il microfono che è causa della risonanza. L’intervento consiste nell’attenuare l’ampiezza della frequenza per la quale si è verificata la risonanza e portarla ad un’ampiezza tale per cui l’effetto non si innesca. La bravura del tecnico in questo caso consiste nell’individuare immediatamente la fonte dell’effetto e la frequenza eccitata. Una volta individuata la fonte, per esempio il microfono del cantante, si può scegliere di modificare la risposta del monitor del cantante utilizzando l’equalizzatore grafico oppure intervenire sul suono proveniente dal microfono. È a questo punto necessario individuare esattamente quale frequenza si è eccitata, ricordiamo che in queste situazioni si hanno a disposizione pochi attimi per risolvere il problema pena la produzione di un suono assordante che costringerà tutti i presenti a tapparsi le (preziose) orecchie. È buona norma allenarsi al riconoscimento delle frequenze dello spettro udibile per intervenire in questi casi con sicurezza e perizia. Di seguito vengono proposti i suoni di alcune frequenze che possono essere considerate come riferimento all’interno dello spettro udibile [Vedi: Lo spettro delle frequenze udibili] . Si consiglia di ascoltarle diverse volte e di imparare a riconoscerle a occhi chiusi; in questo modo sarà possibile acquisire la padronanza necessaria per agire d’istinto in modo corretto in situazioni dove occorre un intervento immediato. Le frequenze utilizzate negli esempi sono quelle tipiche di un equalizzatore grafico a 20 bande (l’ultima frequenza a 20 KHz potrebbe non risultare udibile per inadeguatezza del sistema audio del computer di cui si dispone o anche per deficienze del sistema uditivo, ricordiamo a questo proposito che l’orecchio umano in perfette condizioni non sempre riesce a percepire frequenze tanto elevate). Tabella 24.1. Frequenze di riferimento all’interno dello spettro udibile Esempio sonoro 24.1. Sinusoide Esempio sonoro 24.2. Sinusoide Esempio sonoro 24.3. Sinusoide [f=31Hz] [Traccia 57] [f=44Hz] [Traccia 58] [f=62Hz] [Traccia 59]
Esempio sonoro 24.4. Sinusoide Esempio sonoro 24.5. Sinusoide Esempio sonoro 24.6. Sinusoide [f=88Hz] [Traccia 60] [f=125Hz] [Traccia 61] [f=176Hz] [Traccia 62]
Esempio sonoro 24.7. Sinusoide Esempio sonoro 24.8. Sinusoide Esempio sonoro 24.9. Sinusoide [f=250Hz] [Traccia 63] [f=350Hz] [Traccia 64] [f=500Hz] [Traccia 65]
Esempio sonoro 24.10. Sinusoide Esempio sonoro 24.11. Sinusoide Esempio sonoro 24.12. Sinusoide [f=700Hz] [Traccia 66] [f=1KHz] [Traccia 67] [f=1.4KHz] [Traccia 68] 343
Esempio sonoro 24.13. Sinusoide Esempio sonoro 24.14. Sinusoide Esempio sonoro 24.15. Sinusoide [f=2KHz] [Traccia 69] [f=2.8KHz] [Traccia 70] [f=4KHz] [Traccia 71]
Esempio sonoro 24.16. Sinusoide Esempio sonoro 24.17. Sinusoide Esempio sonoro 24.18. Sinusoide [f=5.6KHz] [Traccia 72] [f=8KHz] [Traccia 73] [f=11.3KHz] [Traccia 74]
Esempio sonoro 24.19. Sinusoide Esempio sonoro 24.20. Sinusoide [f=16KHz] [Traccia 75] [f=20KHz] [Traccia 76]
344
Capitolo 25. Audio 3D 25.1. Introduzione Nella pratica audio, è noto e anzi auspicabile decentrare le sorgenti sonore sul fronte stereofonico al fine di far risaltare maggiormente i singoli suoni. Agendo sui controlli panoramici [Vedi: Panpot] , sulle frequenze, sui ritardi oppure su altri fattori quali per esempio il tempo di riverbero si riesce a collocare virtualmente la sorgente sonora nella posizione desiderata. Per esempio se vogliamo che un suono appaia come lontano, possiamo attenuare in modo opportuno le alte frequenze (dato che queste, per la loro natura, si attenuano maggiormente delle basse frequenze all’aumentare della distanza) e aumentare il riverbero (per dare l’impressione che il suono abbia compiuto parecchia strada prima di arrivare all’ascoltatore). Tutto questo è realizzabile rimanendo all’interno dei confini del sistema stereo che prevede come sappiamo l’utilizzo dei due canali separati left e right. In campo musicale questa è ancora la soluzione adottata e per il momento non si intravedono grosse rivoluzioni. Tuttavia nel campo audio-video il discorso cambia in quanto intervengono fattori aggiuntivi rispetto alla musica ed è per questo che nel settore si è assistito nel tempo ad una progressiva estensione del sistema di diffusione del suono. Naturalmente le maggiori innovazioni sono venute dal cinema in quanto i sistemi messi a punto erano inizialmente molto elaborati e costosi. Solo recentemente, l’abbattimento dei prezzi ha reso possibile l’acquisto di sistemi surround dedicati all’uso domestico che vanno sotto il nome di sistemi home theater. Di seguito viene mostrata una tabella che riassume le tappe fondamentali delle innovazioni tecnologiche introdotte nell’audio cinematografico: Tabella 25.1. Evoluzione dei sistemi di diffusione sonora nel cinema Anno Metà del 1800 Fine del 1800
Descrizione Si cominciano a sviluppare le prime tecniche che sfruttano la proprietà del cervello di concatenare immagini diverse passate velocemente in sequenza. Thomas Edison presenta il Kinetofono. Le immagini sono fissate su una pellicola flessibile e il sonoro viene proposto su un supporto a parte e non in sincronia con le immagini. Leon Gaumont presenta un sistema di proiettore collegato con due fonografi. L’esperimento fallisce per problemi di 1902 sincronizzazione. 1907 Si comincia ad utilizzare il formato 35mm 1917 L’industria Technicolor comincia i primi esperimenti con il colore. fino al Continuano i tentativi di proporre il suono in sincronia con il video. La tecnologia ancora non consente di ottenere 1920 risultati sostanziali. 1930 Nel laboratori Bell si comincia a sperimentare la riproduzione del sonoro multicanale. 1941 Il film Fantasia viene proiettato pubblicamente utilizzando un sistema audio a 3 canali (Left - Center - Right). 1950 Le pellicole cinematografiche vengono proiettate con suono stereo (4 o più canali) 1952
Sistema Cinerama. L’audio viene registrato su un nastro magnetico montato sulla pellicola. Consiste di 6 canali, 5 di fronte e uno posteriore.
1972 1976 1976
Comparsa delle prime videocassette Dolby Stereo 35 mm. L’audio è registrato su due tracce ottiche sulla pellicola. Il sistema MP Stereo della Dolby Labs viene utilizzato per la colonna sonora del film Star Wars.
1978 1982
Dolby Stereo 70 mm. Dolby Surround (3 canali, L - C- R)
1986 1987
Stereo TV (2 canali) Dolby SR (4 tracce audio ottiche con Dolby SR) Dolby Pro-Logic Surround (4 canali)
1991 1992
Dolby Stereo Digital SR 5.1 (5 canali +1 con Dolby SR) Dolby Surround Digital 5.1 (5 canali +1)
Tra le innumerevoli realizzazioni di sistemi surround, merita una citazione a parte quello creato appositamente per il film Fantasia dagli ingegneri della Disney in collaborazione con i Laboratori Bell e messo a punto nei primi anni ‘40. Per la prima volta un sistema da 3 a 8 altoparlanti indipendenti veniva utilizzato per riprodurre il sonoro di un film. Ovviamente a quei tempi le sale cinematografiche non erano attrezzate con tali tecnologie e dunque era necessario allestire di volta in volta l’impianto audio, denominato Fantasound, nella sala dove il film veniva proiettato. Uno staff di tecnici era adibito al missaggio dei suoni che veniva ripetuto ad ogni spettacolo essendo assente qualsiasi forma di automazione, secondo il modo di lavorare proprio dei moderni Service.
345
25.2. Il sistema Surround Il sistema stereo lascia un ‘buco’ nel centro del fronte sonoro che viene riempito in maniera virtuale in quanto si viene a creare una immagine fantasma [Vedi: Stereofonìa] dei suoni posizionati al centro. Questo avviene grazie al fatto che lo stesso suono proviene dall’altoparlante di sinistra e quello di destra viene percepito come proveniente dalla direzione centrale. Questa soluzione presenta un difetto fondamentale e cioè che l’immagine fantasma tende a spostarsi in base alla posizione dell’ascoltatore. È immediato rendersi conto che in una sala cinematografica ogni spettatore percepirebbe il suono centrale il modo diverso dagli altri. Soprattutto il suono centrale non sarebbe più tale se non per gli spettatori che si trovano esattamente sull’asse centrale del cinema perpendicolare allo schermo. Per ovviare all’inconveniente si è introdotto un canale centrale indipendente. In questo modo i dialoghi del film vengono spediti all’altoparlante centrale mentre quelli laterali servono per la musica (in stereo) e per gli effetti sonori (tipo il telefono che squilla nella stanza accanto fuori schermo). Volendo aggiungere un ulteriore suono di ambiente si è pensato di aggiungere un segnale sonoro alle spalle dello spettatore. Questo può essere mono o stereo a seconda dei sistemi impiegati. Su alcuni sistemi è presente un ulteriore segnale destinato agli effetti LFE - Low Frequency Effect e può essere riprodotto con diversi tipi di diffusore; spesso gli effetti consistono in suoni dalle frequenze molto basse e in questo caso il segnale viene collegato ad un sub woofer, definito LFE - Low Frequency Emitter[75]. [Vedi: Tipi di altoparlanti] Uno degli utilizzi più conosciuti di questo segnale si ha nelle catastrofiche esplosioni dei film americani in cui sembra che l’intero cinema stia per crollare. La tabella seguente riporta i vari tipi di Surround destinati alle sale cinematografiche e le loro caratteristiche: Tabella 25.2. Sistemi Surround utilizzati nel cinema Sigla
Nome Esteso
Anno
Tomlinson 1982 THX[a] Holman eXperiment Dolby Stereo 1987 (per il DSD Digital pubblico nel ‘92) Cinema Digital CDS 1990 Sound Digital Theater DTS 1993 System Sony Dinamic SDDS 1994 Digital System
Numero Canali Speakers 5.1 5.1 5.1 5.1 Fino a 8
Compressione
Left, Center, Right, Surround left, Surround right, Subwoofer Left, Center, Right, Surround left, Surround right, Subwoofer Left, Center, Right, Surround left, Surround right, Subwoofer Left, Center, Right, Surround left, Surround right, Subwoofer Left, Center, Right, Center left, Center right, Surround left, Surround right, Subwoofer
AC-3 (Audio Coding 10:1)
APT-X100 ATRAC
[a] Non e’ una vera e propria specifica sulla codifica delle informazioni spaziali, bensì una certificazione atta ad assicurare
degli standard di qualità nella riproduzione sonora.
[75] Attenzione a non confondere le due sigle LFE. Nel primo caso si parla di uno dei segnali tipici del Dolby Surround
(Low Frequency Effect), nel secondo si parla di uno specifico tipo di diffusore deputato alla riproduzione delle basse frequenze (Low Frequency Emitter). Di solito, il segnale Low Frequency Effect è riprodotto proprio da un diffusore di bassissime frequenze detto Low Frequency Emitter.
346
25.3. Dolby motion picture matrix encoder Questo sistema Dolby è uno dei primi sistemi surround che siano stati messi a punto e merita di essere analizzato nel dettaglio per la genialità della sua concezione. Il sistema prevede la codifica di 4 segnali indipendenti Sinistro (L), Centrale (C), Destro (R) e Surround (S) su due soli segnali (Lt e Rt dove t sta per totale). In questo modo il segnale codificato può essere memorizzato su un opportuno supporto stereo (CD, Nastro, DAT) se siamo in fase di registrazione o utilizzato come canale audio di un segnale televisivo stereo. Quando i due segnali Lt e Rt vengono recuperati (o dal supporto o da un ricevitore), vengono spediti ad un decodificatore che ricostituisce, almeno in maniera virtuale i 4 segnali iniziali. Vediamo nel dettaglio i due processi di codifica e decodifica.
25.3.1. Codifica Come detto i segnali da codificare sono 4: Sinistro (L), Centrale (C), Destro (R) e Surround (S). Vediamo l’operazione di codifica con riferimento alla figura seguente:
Schema logico dell’operazione di codifica Vediamo come il segnale C venga prima attenuato di 3 dB e poi inviato sui due canali Lt e Rt. Questo viene fatto perché mandando una copia di C su ogni canale lo abbiamo raddoppiato. Per riportarlo al volume originario lo dobbiamo attenuare di 3dB (ricordate come si sommano e si sottraggono i dB? [Vedi: Combinazione di sorgenti sonore] ). Per quanto riguarda il segnale S, questo viene prima attenuato di 3 dB per lo stesso motivo di prima, in seguito viene filtrato con un filtro passa banda [Vedi: Filtri] che elimina le frequenze esterne all’intervallo [100 Hz - 7 KHz]. Il segnale passa poi attraverso un stadio che applica un algoritmo di riduzione del rumore [Vedi: Sistemi di riduzione del rumore] e viene infine spezzato in due: una copia, anticipata di 90o, viene spedita su un canale mentre sull’altro viene spedita una copia ritardata di 90o. A questo punto i quattro segnali originari sono stati codificati in due nuovi segnali e sono pronti per essere spediti nell’etere insieme ad un segnale video nella forma di un normale segnale televisivo oppure registrati su un supporto stereo. Notiamo che per rifinire il suono S di sono adottati i seguenti accorgimenti: 1.
2.
Filtro passa banda: questo fa sì che il segnale S finale riproduca un suono ‘degradato’ al fine di non catalizzare troppo l’attenzione dello spettatore e di agire come suono di ambiente. Algoritmo di riduzione del rumore.
25.3.2. Decodifica In ricezione l’audio viene estratto dal segnale e viene spedito allo stadio di decodifica il cui schema viene riportato nella figura seguente:
Schema logico dell’operazione di decodifica I due e segnali Lt e Rt vengono inoltrati direttamente sui canali L e R frontali. Dato che L e R originari erano stati spediti direttamente su Lt e Rt, vengono riprodotti esattamente come sono stati codificati. Il segnale C viene sempre estrapolato dalle matrici di decodifica (in mancanza di un decodificatore, dato che il segnale C è stato aggiunto sia a Lt che a Rt, gli altoparlanti L e R riprodurranno la sua immagine fantasma al centro; si tratta di una ricostruzione virtuale ma è comunque efficace). Il segnale S invece è presente su Lt e Rt ma dato che è in opposizione di fase sui due canali, non dà la sensazione di provenire da L e R ma si trasforma in un suono di ambiente aiutato dal fatto che lo stesso, estratto da Lt e Rt, S sarà presente sugli altoparlanti posteriori. Vediamo come: i segnali Lt e Rt vengono fatti passare in uno stadio che ne calcola la differenza, dunque eseguendo Lt - Rt, i due segnali C aggiunti in fase di codifica si elidono. Viceversa, il segnale S è stato aggiunto sui due canali in opposizione di fase dunque la sottrazione dei segnali Lt e Rt ha l’effetto di amplificare di 3 dB il segnale S ed è per questo che in fase di codifica lo si è fatto passare attraverso un attenuatore a 3 dB. Riassumendo: siamo partiti con 4 segnali 347
indipendenti e li abbiamo codificati su 2 soli segnali. In fase di decodifica abbiamo cercato di ricostruire i 4 segnali originari e, anche se non siamo riusciti a mantenere la totale indipendenza, abbiamo comunque ricreato una configurazione simile a quella di partenza. Per rifinire il suono S si sono adottati i seguenti accorgimenti: 1.
Delay: applicando un delay di circa 10ms e dunque interno alla zona di Haas [Vedi: Effetto Haas] , il segnale S viene sfruttato come un rinforzo e dunque viene sottratto all’attenzione dello spettatore.
2.
Filtro Passa Basso: per attenuare le differenze di fase tra i segnali di fronte e quelli dietro lo spettatore; ricordiamo che le differenze di fase si percepiscono soprattutto alle alte frequenze. In ogni caso le alte frequenze nel segnale S non sono necessarie in quanto si tratta come detto di un segnale di ambiente.
3.
Decodifica dell’algoritmo di riduzione del rumore applicato in fase di codifica.
25.3.3. Caratteristiche della codifica Dolby Motion Picture Matrix Un’importante proprietà di questo sistema consiste nella sua compatibilità con i sistemi mono e stereo. Infatti su un televisore stereo avremo tutti i segnali presenti sugli altoparlanti L e R. Il segnale surround S è presente e anche se non potrà provenire da dietro lo spettatore, il fatto che sia in opposizione di fase garantisce comunque un comportamento ‘di ambiente’. Sommando L e R ricevuti ci mettiamo nel caso di un televisore mono. In questo caso il segnale C ritorna al suo volume originario essendo stato attenuato di 3 dB e poi sommato a se stesso. Il segnale S scompare in quanto è stato aggiunto a Lt e Rt in opposizione di fase dunque in mono l’unica informazione che perdiamo definitivamente e quella relativa al surround. Poco male perché pensandoci bene un televisore mono con Surround sarebbe un po’ ridicolo!
348
25.4. Dolby prologic e dolby digital L’algoritmo Dolby Motion Picture Matrix Encoder appena descritto viene impiegato nei sistemi di tipo Dolby Pro-Logic. Tuttavia questo sistema presenta alcune gravi lacune. In particolare, l’operazione di codifica non può non lasciare conseguenze in quanto codificando 4 segnali su 2 qualcosa inevitabilmente viene perso. Principalmente viene meno la completa indipendenza dei 4 segnali. In altre parole non sarà più possibile ottenere la separazione che si aveva prima della codifica con una conseguente degradazione dell’informazione sonora. L’algoritmo di decodifica descritto riesce ad estrarre solo una parte delle informazioni, per ottenere una decodifica migliore dobbiamo ricorrere ad algoritmi più sofisticati. Un esempio può aiutare a chiarire le idee. Abbiamo visto che dopo l’operazione di codifica il segnale C (centrale) è inviato in egual misura sui canali L e R. Quindi si è persa la separazione tra i canali L, C, R. Per limitare questo inconveniente possiamo inviare una piccola quantità di segnale L sul canale R invertita di fase. Ciò provocherà un abbassamento della parte di segnale C presente sul canale R. Lo stesso può essere fatto sul canale L. Se il procedimento sembra un po’ ingarbugliato, rileggetelo una volta di più, non c’è nulla di complicato. Questo accorgimento aumenta la separazione tra i canali L, C, R ma genera pericolose cancellazioni di fase sui canali L e R modificando a volte pesantemente la spazialità del suono. Non vogliamo spingerci oltre in queste considerazioni che sono state riportate solo per dare l’idea di algoritmi di decodifica più sofisticati. Il Dolby Digital è uno di questi ed è il sistema surround in commercio più utilizzato. Il sistema prevede una decodifica del segnale Lt e Rt in 5 segnali più uno dedicato alle basse frequenze. I segnali decodificati sono i seguenti: Tabella 25.3. Segnali del sistema Dolby Digital Sigla L C R Sl
Nome Esteso Left Center Right
Sr
Surround right
Surround left
Sub Subwoofer La figura seguente mostra la classica disposizione degli altoparlanti in un sistema Surround 5.1.
Disposizione degli altoparlanti in un sistema Surround Come si può notare gli altoparlanti frontali L e R sono disposti con un angolo di 30o rispetto all’asse centrale mentre quelli posteriori sono posizionati con un angolo di 110o. Il subwoofer [Vedi: Tipi di altoparlanti] può essere posizionato praticamente ovunque in quanto come è noto le frequenze inferiori a 80Hz non hanno caratteristiche direzionali [Vedi: Localizzazione di una sorgente sonora] e dunque vengono riprodotte correttamente indipendentemente dalla posizione della sorgente.
25.4.1. Missaggio in Dolby Pro-Logic con un normale mixer Vediamo ora come configurare un normale mixer per effettuare mixaggi per il sistema Surround. Naturalmente si tratta di riprodurre la codifica appena descritta. Facciamo riferimento alla figura seguente:
349
Simulazione di un mixer surround Ciò di cui abbiamo bisogno è sicuramente un decodificatore di segnale Dolby Pro-Logic e i 5 altoparlanti che fanno parte di un classico sistema surround. Un impianto home-theater può servire allo scopo anche se la qualità dell’audio sarà tutt’altro che eccezionale, tuttavia il fatto che stiamo simulando un mixer surround con uno normale indica con tutta probabilità che non puntiamo alla qualità assoluta. Posto che manderemo l’uscita stereo master del nostro mixer al decodificatore, vediamo come avviene la fase di codifica. Ricordiamo che dobbiamo codificare i seguenti segnali: L (left), C (center), R (right), S (surround). Per il mix stereo L e R utilizziamo due gruppi [Vedi: Gruppi] che manderemo uno sull’uscita master left (panpot [Vedi: Panpot] del gruppo tutto a sinistra) e uno sull’uscita master right (panpot del gruppo tutto a destra). Il segnale C verrà spedito in egual misura alle due uscite master (panpot in posizione centrale). Il segnale S viene prima inviato ad uno stadio Delay [Vedi: Delay] (per farlo possiamo utilizzare un aux send [Vedi: Auxiliary send] come in figura) e successivamente entra in due canali separati del mixer uno dei quali viene invertito di fase. Per quanto riguarda il filtro posto sul segnale S, questo può essere inserito in un qualsiasi punto della catena.
350
25.5. Riepilogo dei principali sistemi Surround Di seguito viene presentato un elenco dei diversi sistemi di sonorizzazione a partire dal più semplice composto da un solo altoparlante, ossia al sistema mono fino ad arrivare al sistema DTS ES che finora rappresenta la massima evoluzione dei sistemi surround.
25.5.1. Mono Il sistema Mono prevede un solo altoparlante frontale
25.5.2. Stereo Il sistema Stereo prevede due altoparlanti frontali
25.5.3. Dolby Surround Il sistema Dolby Surround prevede due altoparlanti frontali e uno posteriore
25.5.4. Dolby Pro Logic Il sistema Dolby Pro Logic prevede tre altoparlanti frontali (due laterali, uno centrale) e un altoparlante posteriore
25.5.5. Dolby Digital 5.1 Il sistema Dolby Digital 5.1 prevede tre altoparlanti frontali, due posteriori e un subwoofer
25.5.6. Dolby Digital Ex Il sistema Dolby Digital Ex prevede tre altoparlanti frontali, tre posteriori (due laterali e uno centrale) e un subwoofer
25.5.7. DTS Il sistema DTS, acronimo di Digital Theatre System, prevede tre altoparlanti frontali, due posteriori e un subwoofer. Stessa configurazione del Dolby Digital ma con una migliore separazione del canali
25.5.8. DTS ES Il sistema DTS ES è analogo al DTS ma con l’aggiunta di un ulteriore canale posteriore centrale
351
25.6. Tecniche di registrazione e riproduzione binaurale Le tecniche binaurali si prefiggono lo scopo di riprodurre il suono esattamente come viene percepito da un ascoltatore. Per la registrazione viene impiegata una finta testa in cui al posto dei timpani vengono collocati due microfoni:
Finta testa Neumann KU-100 per registrazioni binaurali Le caratteristiche della testa umana vengono riprodotte nel dettaglio, i microfoni si trovano alla fine di un condotto che simula il canale uditivo. In questo modo viene anche eliminata al massimo l’interferenza tra i due suoni registrati. Inoltre, la simulazione del canale uditivo permette di riprodurre esattamente la perdita di frequenze che subisce un suono che entra all’interno dell’orecchio umano. Anche il padiglione auricolare e le tube di Eustachio [Vedi: L’orecchio umano] sono riprodotte con grande cura. L’ascolto di queste registrazioni deve essere effettuato necessariamente con un paio di cuffie in modo da conservare intatto il realismo della simulazione. La stessa riproduzione su un paio di altoparlanti sarebbe inefficace a causa della vistosa interferenze tra i due segnali. Le tecniche binaurali si sono nel tempo evolute fino a permettere ascolti su normali diffusori opportunamente posizionati.
25.6.1. Tecniche di registrazione binaurale Il sistema di registrazione binaurale Holophonic (1983) messo a punto da Hugo Zuccarelli adotta questo tipo di approccio. Altre tecniche sono state in seguito sviluppate da diversi specialisti (Umberto Maggi, Dallas Simpson, Aachen Head) e società come la tedesca Neumann che ha sviluppato una finta testa denominata Neumann KU-100 e mostrata nella figura precedente. Le sue caratteristiche principali sono uno stadio di equalizzazione ed una perfetta riproduzione del padiglione auricolare. Vale la pena di citare il fatto che alcune registrazioni fatte per l’album ‘The Final Cut’ dei Pink Floyd adottano questa tecnica. Ancora più sorprendente è il fatto che il brano ‘Alan’s Psychedelic Breakfast’ dell’album Atom Heart Mother sempre dei Pink Floyd sembra registrato con questa tecnica mentre in realtà l’album è stato concepito molto prima (1970) e questo la dice lunga sulle capacità dei Pink Floyd riguardo alla manipolazione del suono! Andiamo adesso ad ascoltare attentamente un esempio di registrazione binaurale. Si raccomanda di effettuare l’ascolto attraverso un paio di cuffie di buona qualità. Questi esempi sonori sono stati forniti da Franco Russo. Per l’ascolto di altre registrazioni binaurali si rimanda al suo sito personale: www.terzoorecchio.com. La seguente registrazione riproduce un pezzo di carta pressato che viene mosso attorno alla testa dell’ascoltatore: Esempio sonoro 25.1. Paper experiment 3D - 00:54 [Traccia 84]
La seguente registrazione è stata effettuata durante una rappresentazione teatrale. Si noti l’assoluta fedeltà nella riproduzione dei suoni in posizioni differenti del palco: Esempio sonoro 25.2. Teatro sperimentale 3D - 03:20 [Traccia 85]
25.6.2. Tecniche di riproduzione binaurale Queste consentono, a partire da un segnale anche mono, di ottenere un segnale stereo in cui l’estensione del campo sonoro è una grandezza manipolabile. Il suono seguente mostra un’applicazione di questo genere di algoritmi. A partire da un suono mono l’immagine si allarga progressivamente fino ad arrivare alla sua apertura stereofonica massima. In seguito si richiude fino a ritornare al suono mono di partenza. Esempio sonoro 25.3. Trasformazione di un suono mono in un suono stereo [Traccia 86]
352
25.7. Q-Sound Si tratta di una macchina digitale (anno 1987) che implementa un algoritmo in grado di allargare l’immagine sonora lavorando sulle fasi. La figura seguente mostra le varie posizioni utilizzabili. Si vede come la posizione Q4 consenta un allargamento quasi a 180 gradi del fronte sonoro. Tale algoritmo risulta molto pesante in termini di potenza di calcolo richiesta e dunque il segnale si presenta all’uscita del modulo con un piccolo ritardo rispetto al segnale di ingresso. Ciò va tenuto in conto in situazioni in cui si rende necessaria una sincronizzazione.
Apertura del fronte sonoro del sistema Q-sound
353
25.8. RSS - Roland Sound Space system Questo sistema consente di posizionare una sorgente sonora in qualunque punto di uno spazio virtuale tridimensionale. L’algoritmo consente di codificare informazioni relative sia alla posizione orizzontale che alla posizione verticale. I controlli di questo apparecchio consistono in 8 potenziometri disposti a coppie. Ogni coppia agisce su un canale sonoro e consente il controllo di elevazione e azimuth nello spazio. La combinazione di questi due controlli posiziona la sorgente sonora nello spazio tridimensionale. Viene incluso anche un controllo per la simulazione dell’effetto doppler [Vedi: Effetto doppler] che consente di riprodurre in modo molto realistico suoni in movimento. La figura sottostante mostra una coppia di controlli:
Controlli tipici del sistema RSS
354
25.9. Ambisonics È una tecnica che risale agli anni ‘70 e che presenta caratteristiche uniche e tuttora assolutamente valide. La scarsa diffusione ai tempi del suo concepimento è dipesa anche dall’eclatante fallimento del sistema quadrifonico che non fu in grado di rispettare le aspettative e fu causa di forti perdite per le società che avevano deciso di puntare tutto su quel nuovo sistema. Tuttavia il sistema Ambisonics rimane uno dei più completi sistemi di microfonaggio e riproduzione sonora esistenti in quanto permette di conservare tutte le informazioni relative alla spazialità del suono e consente una decodifica del segnale diversa a seconda del numero di altoparlanti utilizzati per la riproduzione.Per la registrazione viene utilizzato un microfono omnidirezionale [Vedi: Microfoni omnidirezionali] posto nel centro e tre microfoni con diagramma polare a 8 disposti secondo le tre direzioni dello spazio. La riproduzione è stereo compatibile dunque può essere effettuata con 4, 3 o 2 altoparlanti. La figura seguente mostra il diagramma polare complessivo quando i quattro microfoni vengono assemblati nelle posizioni sopra descritte:
Diagramma polare di un microfono Soundfield Questo tipo di microfono viene chiamato Soundfield (campo sonoro) ed è in grado di registrare informazioni sonore relative alle tre direzioni dello spazio. I segnali estratti da questo microfono sono 4: X,Y,Z (a forma di 8, uno per ogni asse dello spazio) e W (omnidirezionale). Per poter gestire questi segnali è necessaria un’unità di controllo che permetta di manipolarli e miscelarli nella maniera desiderata. Si fa riferimento ai 4 segnali prelevati dal microfono come A-Format (formato A) mentre, dopo essere passati attraverso l’unità di controllo, i segnali vengono identificati come B-Format (formato B). L’azione principale svolta dall’unità di controllo è quella di rimediare alle differenze di tempo tra i vari segnali. Questo perché in realtà i 3 diagrammi polari [Vedi: Diagramma polare di un microfono] a forma di 8 vengono realizzati con 3 coppie di microfoni di tipo ipercardioide con le opportune inversioni di fase. Dato che il microfono soundfield deve simulare una ricezione puntiforme, per una riproduzione più accurata ma soprattutto per evitare le cancellazioni di fase nella miscelazione dei segnali, l’unità di controllo agisce sui ritardi in modo da simulare un posizionamento di microfoni con i diaframmi coincidenti. La figura seguente mostra la disposizione delle membrane in un microfono soundfield.
Membrane di un microfono Soundfield Una volta disponibili i segnali nel formato B è possibile simulare una qualsiasi tecnica di microfonaggio stereo a microfoni coincidenti [Vedi: Tecniche di microfonaggio stereo: Microfoni coincidenti] anche nelle tre dimensioni dello spazio ed è questa caratteristica che rende rivoluzionaria questa tecnica. Con riferimento al diagramma polare precedente, immaginiamo di combinare i soli segnali X e Y lasciandone inalterata l’ampiezza. Il diagramma polare risultante sarà una figura di 8 con i lobi disposti su un asse di 45o rispetto agli assi X e Y. Questo ci mostra la grande potenzialità di questa tecnica di microfonaggio la quale, fornendo tutte le informazioni necessarie riguardo alla spazialità del suono consente di simulare qualsiasi puntamento microfonico. Se per esempio decidiamo di alzare verso l’alto il diagramma polare appena ottenuto sarà sufficiente aggiungere una piccola quantità di segnale Z ai due precedenti. L’angolo verticale di puntamento sarà regolato dalla quantità di segnale Z che aggiungiamo. Immaginando di registrare con questa tecnica un’intera orchestra, saremo in grado di volta in volta di puntare il nostro ‘microfono virtuale’ verso qualsiasi zona e dunque di dare maggior enfasi ad una sezione di strumenti piuttosto che ad un’altra (ad esempio nei momenti tra un pezzo e l’altro potremmo decidere di puntare verso il pubblico[76]). Una volta disponibili, i 4 segnali X, Y, Z e W possono essere codificati e ridotti a 2 ossia ai canonici L e R seguendo un’idea analoga alla 355
codifica del Dolby ProLogic descritta in precedenza (anche se incompatibile con questa) e naturalmente viene fatto in modo di conservare la compatibilità stereo e mono. Per quanto riguarda la fase di decodifica, questa dipende strettamente dal numero di altoparlanti che si intende utilizzare per la riproduzione. Il numero va da 4 a 8 e influenza la decodifica anche in base al fatto di dover riprodurre o meno l’informazione sull’asse Z. Vi sono dei codificatori che effettuano una codifica del segnale in formato A nel formato 5.1 del Dolby Pro-Logic e che dunque può essere decodificato dal sistema surround più diffuso commercialmente evitando così di dover disporre di un decodificatore Ambisonics. Naturalmente in questo modo molte informazioni riguardo al suono originario vengono perse specialmente in quanto la decodifica non dipende più dal numero di altoparlanti impiegati.
[76] Ripetiamo a scanso di equivoci che si tratta di un puntamento virtuale e che questo viene effettuato nella fase di
riproduzione dei segnali e non durante la ripresa. Altrimenti sarebbe stato un puntamento reale, no?
356
Capitolo 26. Radiofrequenza 26.1. Introduzione In questa sezione descriveremo le onde elettromagnetiche e la loro trasmissione nello spazio. Vedremo come associare ad un’onda elettromagnetica un’informazione che vogliamo trasmettere ad un destinatario e come l’onda elettromagnetica possa essere emessa e ricevuta tramite dei trasduttori chiamati antenne. Come per altre sezioni di questo corso, la trattazione delle onde elettromagnetiche è una scienza a parte, che richiederebbe di essere analizzata in un testo a sé, anzi più di uno. In questa sede ci limiteremo a descriverne i concetti principali in modo che siano da fondamenta per la parte successiva, ossia: i radiomicrofoni. Questi ultimi vengono sempre più utilizzati nei contesti radio-televisivi, nei concerti, nella presa diretta per il cinema, nei grandi musical dal vivo. Descriveremo quindi i principi di funzionamento dei radiomicrofoni e le loro caratteristiche, sottolineando quando necessario le differenze con i microfoni convenzionali.
357
26.2. Onde elettromagnetiche Sia i fenomeni acustici che i fenomeni elettromagnetici si propagano nello spazio sotto forma di onde. Ciò non vuol dire che i due fenomeni siano gli stessi, ma che hanno alla loro base un movimento oscillatorio. Dunque vengono descritti dalle stesse grandezze (periodo, frequenza, lunghezza d’onda) e, entro certi limiti, alcuni comportamenti come per esempio la riflessione, si applicano ad entrambi i fenomeni, ma occorre tenere sempre presente che si tratta di fenomeni distinti. Un campo elettromagnetico, come si è visto in precedenza, è generato da cariche elettriche in movimento (induzione elettromagnetica) e, per propagarsi nello spazio deve assumere un comportamento ondulatorio. In altre parole, il campo elettromagnetico si propaga nello spazio sotto forma di onda elettromagnetica. Sperimentalmente, si riscontra un campo elettromagnetico che si propaga nella forma di onde le quali viaggiano nello spazio senza che sia necessaria la presenza in esso di alcun supporto materiale (mezzo di propagazione). Ciò evidenzia una differenza sostanziale con l’onda acustica, che invece ha bisogno di un mezzo (aria) attraverso il quale propagarsi. La velocità di un’onda elettromagnetica che si propaga nel vuoto è fissa e vale circa: c = 300.000 Km/s che viene anche chiamata velocità della luce, svelandoci l’importante segreto che la luce in realtà è anch’essa un’onda elettromagnetica, visibile dall’occhio umano con un colore diverso quando la sua lunghezza d’onda è compresa nell’intervallo: 0.39 micron - 0,78 micron Un’onda elettromagnetica è sempre composta da due componenti: un campo elettrico e un campo magnetico, sempre perpendicolari tra loro e perpendicolari alla direzione di propagazione dell’onda, come evidenziato dalla figura seguente:
Propagazione di un campo elettromagnetico in cui il vettore B rappresenta il campo magnetico e il vettore E quello elettrico. Nella figura seguente sono mostrate le fasce di suddivisione delle onde elettromagnetiche in base alla frequenza (scala di sinistra) e la lunghezza d’onda (scala di destra):
Suddivisione delle onde elettromagnetiche in base alla lunghezza d’onda Nel nostro caso ci concentreremo sulle radiofrequenze, essendo quelle che utilizziamo per trasmettere i segnali audio senza l’ausilio di cavi. Vale la pena sottolineare che, a differenza dei fenomeni acustici che coinvolgono particelle di un mezzo fisico, un’onda elettromagnetica è generata da un movimento di elettroni, ossia particelle atomiche. Quando ci troviamo in presenza di fenomeni che coinvolgono particelle atomiche o velocità prossime a quella della luce, la fisica classica arriva solo in parte a spiegare la realtà dei fenomeni. Occorre dunque interpretare questi fenomeni attraverso la teoria della fisica quantistica che presuppone un approccio completamente diverso, rivoluzionario, ma anche assolutamente affascinante[77].
[77] Naturalmente tali argomentazioni esulano dalle finalità di questo corso. Per i lettori che volessero approfondire tali
questioni, rimandiamo a testi specifici sull’argomento. 358
26.3. Trasmissione e ricezione di onde elettromagnetiche Come detto, un campo elettromagnetico si propaga nello spazio quando assume un andamento oscillatorio. Possiamo allora immaginare di applicare ai due capi di un conduttore una tensione alternata, in modo che al suo interno gli elettroni scorrano alternativamente in un verso e poi nell’altro. In queste condizioni, se la lunghezza del conduttore, che svolge il ruolo di antenna e viene definito dipolo, è molto minore della lunghezza d’onda dell’oscillazione applicata, si verifica una trasmissione dell’onda elettromagnetica. Da questa prima informazione deduciamo che minore è la lunghezza dell’antenna, maggiore è la frequenza che l’antenna è in grado di trasmettere. Come visto in precedenza [Vedi: Induttore] , all’interno di un conduttore immerso in un campo magnetico viene indotta una corrente. Su questo principio si basa la ricezione di un’onda elettromagnetica: un’antenna è un conduttore che viene investito da un campo magnetico che induce al suo interno una piccola corrente. Questa piccola corrente, opportunamente amplificata, riproduce l’andamento della corrente utilizzata in fase di trasmissione. A questo punto ne sappiamo abbastanza per trasmettere e ricevere un’onda elettromagnetica ad una certa frequenza. Vedremo ora come associare a quest’onda le informazioni che vogliamo trasmettere, per esempio il nostro segnale audio. In altre parole, utilizzeremo un campo elettromagnetico che avrà una determinata frequenza, che ha la proprietà di propagarsi, per trasmettere il nostro segnale audio a distanza. Tale segnale viene chiamato segnale portante (dato che letteralmente tras-porta l’informazione che vogliamo trasmettere), in gergo: la portante.
359
26.4. Modulazione di ampiezza La modulazione di ampiezza è detta anche Modulazione AM, dall’inglese Amplitude Modulation. Il termine modulazione indica l’alterazione di un segnale con un andamento proprio da parte di un secondo segnale. Il tipo di alterazione può essere di vario tipo, nel caso della modulazione di ampiezza consiste nella semplice moltiplicazione delle ampiezze dei due segnali, come visualizzato nella figura seguente:
Modulazione di ampiezza Possiamo vedere come la portante sia una sinusoide semplice di frequenza abbastanza elevata mentre il segnale modulante (che è poi l’informazione da trasmettere) è in questo caso una sinusoide ad una frequenza molto più bassa della portante. Il segnale modulante può essere un qualsiasi segnale a bassa frequenza, come per esempio un segnale audio. Allora possiamo pensare al segnale audio di un pezzo musicale, moltiplicarlo per un segnale di frequenza elevata (vedremo in seguito quanto) attraverso un circuito modulatore e mandare il segnale ottenuto su un’antenna. Da lì il segnale verrà trasmesso e infine captato da un’antenna ricevente alla cui uscita avremo una piccola corrente che ha l’andamento del segnale trasmesso. Attraverso opportuni circuiti (demodulatore) saremo in grado a valle di estrarre il segnale audio dal segnale ricevuto e del quale conosciamo la frequenza della portante. Per avere un esempio pratico pensiamo ai comuni apparecchi radio nei quali “cambiamo stazione”, ossia ci sintonizziamo di volta in volta su frequenze portanti differenti finché non ci fermiamo su quella che vogliamo ascoltare, che trasporta il nostro programma preferito. La modulazione di ampiezza viene impiegata sulle frequenze medie, ossia con onde che hanno una lunghezza tra 100m e 1 Km. Questo le rende molto adatte a viaggiare aggirando gli ostacoli grazie alla diffrazione. Inoltre non è soggetta alle interferenze dovute alle riflessioni che, essendo tutte alla stessa frequenza, contribuiscono a rinforzare il segnale o ad attenuarlo, ma non lo alterano.
360
26.5. Modulazione di frequenza [Detta anche FM, dall’inglese Frequency Modulation] In questo caso, il segnale modulante controlla la frequenza della portante che viene modificata in funzione del segnale modulante. Il risultato della modulazione è descritto nella figura seguente:
Modulazione di frequenza È il tipo di modulazione radiofonica più utilizzato. Anche in questo caso, a valle della ricezione un opportuno circuito demodulatore estrarrà il segnale modulante separandolo dalla portante. Viene utilizzata con le onde corte (frequenze molto alte), che possono trasportare meno potenza. Dunque si attenuano molto facilmente e non permettono trasmissioni a lunghissima distanza, come per le onde medie che possono propagarsi a lungo grazie anche alle riflessioni tra la terra e la ionosfera (ossia quello strato dell’atmosfera nel quale le radiazioni del sole, e in misura molto minore i raggi cosmici provenienti dallo spazio, provocano la ionizzazione dei gas componenti. Un’onda elettromagnetica che incontra la ionosfera può venire anche completamente riflessa). La modulazione ha un aspetto importante dal punto di vista dell’occupazione di banda. Dato che in questo caso la frequenza della portante viene modulata, ossia aumentata e diminuita, continuamente, un segnale così modulato occuperà una certa banda attorno alla portante. Dunque, la distanza tra le portanti nel caso di più sorgenti di trasmissione dovrà tenere conto del tipo di segnale modulante. Per questo, un’emittente radiofonica deve usare un segnale modulante con una banda limitata, pena lo sconfinamento nella banda riservata ad un’altra emittente. Questi limiti sono imposti per legge e regolamentano la convivenza delle emittenti radiofoniche. La tolleranza massima rispetto al valore della portante viene chiamato: deviazione di picco (in inglese: peak or maximum frequency deviation). I valori standard di questo parametro sono: +/- 75KHz (Stati Uniti e Europa Occidentale) +/- 50KHz (ex-USSR e Alcuni paesi dell’Europa) dunque ogni emittente ha a disposizione una banda di 100KHz (di 150KHz negli Stati Uniti). La modulazione di frequenza viene utilizzata per le trasmissioni radiofoniche stereo. Dunque i segnali da trasmettere sono due: left e right, manipolati con la codifica Mid Side [Vedi: Tecnica MS/Mid Side] nel seguente modo: Segnale MID = Left + Right Segnale SIDE = Left - Right Il segnale MID non subisce ulteriori manipolazioni mentre il segnale SIDE viene anche modulato in ampiezza su una portante di 38KHz. A questi si aggiunge un ulteriore segnale sinusoidale di frequenza 19KHz la cui rilevazione in ricezione indica la presenza di un segnale stereo. Questi tre segnali insieme vengono modulati in frequenza e spediti nell’etere. La figura seguente riassume le operazioni descritte:
Trasmissione in modulazione di frequenza
361
A questi segnali se ne possono aggiungere altri, purché non si sforino i limiti della banda consentita. Per esempio il segnale RDS (Radio Data System) che contiene informazioni testuali quali il nome dell’emittente e del programma attuale che vengono visualizzate sul display del ricevitore.
362
26.6. Modulazione di fase [Detta anche PM, dall’inglese Phase Modulation] In questo caso, il segnale modulante controlla la fase della portante. La modulazione di fase è molto utilizzata per le trasmissioni digitali. Il risultato della modulazione è descritto nella figura seguente:
Modulazione di fase
363
26.7. Lo spettro delle radiofrequenze Lo spettro delle radiofrequenze viene suddiviso in bande, ognuna delle quali è riservata ad un tipo di utilizzo. Di seguito una tabella riassuntiva e alcune indicazioni sull’utilizzo delle bande: Tabella 26.1. Utilizzazione delle bande della radiofrequenza
Nome Extremely Low Frequency Super Low Frequency Ultra Low Frequency Very Low Frequency Low Frequency Medium Frequency High Frequency
Sigla Estensione in freq Estensione in spazio da 10.000 km a 100.000 ELF da 3 a 30 Hz km SLF da 30 a 300 Hz da 1.000 km a 10.000 km ULF da 300 Hz a 3 kHz da 100 a 1000 km VLF da 3 a 30 kHz da 10 a 100 km LF da 30 a 300 kHz da 1 a 10 km MF da 300 a 3000 kHz da 100 m a 1 km HF da 3 a 30 MHz da 10 a 100 m
Very High Frequency
VHF da 30 a 300 MHz
Ultra High Frequency
UHF
da 1 a 10 m
da 300 a 3000 da 10 a 100 cm MHz SHF da 3 a 30 GHz da 1 a 10 cm
Super High Frequency Extremely High EHF da 30 a 300 GHz Frequency
da 1 a 10 mm
364
Note
(segnale audio: da 20 Hz a 20 kHz) Onde lunghe Onde medie, Modulazione di ampiezza Onde corte, Baracchini, Radioamatori Modulazione di frequenza television, aviation Televisione, telefoni cellulari, Reti wireless Reti wireless, radar, collegamenti satellitari
26.8. Radiomicrofoni Un radiomicrofono è un microfono collegato al resto della catena audio tramite un trasmettitore radio e non tramite un cavo, per questo viene anche chiamato wireless (dall’inglese: senza collegamento). Il segnale audio prodotto dalla capsula microfonica viene amplificato e poi spedito ad uno stadio trasmittente. Altrove, il segnale viene ricevuto, demodulato, amplificato e fornito a un cavo microfonico; da lì in poi può essere gestito come un normale segnale microfonico [Vedi: Connessioni elettriche] . Tutto ciò vale a livello teorico per descrivere la catena del segnale audio nel caso si utilizzi un radiomicrofono. Nella pratica, l’introduzione degli stadi di trasmissione e ricezione comporta notevoli problemi e aspetti correlati, che ci accingiamo a descrivere. I radiomicrofoni vengono realizzati generalmente nelle tre configurazioni seguenti: Radiomicrofono a mano (in inglese: handheld): somiglia ad un normale microfono, ma con un corpo più grande per ospitare il trasmettitore e la batteria che lo alimenta. Di seguito viene mostrato un famoso microfono utilizzato nella pratica professionale nelle sue due configurazioni: normale e wireless.
Normale microfono
Stesso microfono in versione wireless Radiomicrofono plug-on: consiste in una scatola che contiene batteria e apparato trasmittente e che monta un connettore XLR femmina [Vedi: XLR - Cannon: sono utilizzati per i cavi microfonici con connessione bilanciata. A volte questo tipo di connettore è utilizzato per connessioni nell’impianto luci, per connessioni digitali e per connessioni MIDI [Vedi: Il protocollo MIDI] . ] . In questo modo, qualsiasi microfono canonico può diventare un radiomicrofono. La figura seguente mostra un esempio di questo tipo di soluzione:
Trasmettitore per radiomicrofono plug-on Radiomicrofono con bodypack: in questo caso, il trasmettitore e la batteria sono contenuti in una scatolina che non si piazza direttamente sul microfono. Può essere montata su una cintura o un’altra parte del corpo in modo da venire nascosta dai capi d’abbigliamento. Generalmente si utilizza questa soluzione con i piccoli microfoni lavalier, headset e anche nel caso di strumenti elettrici (chitarra o basso). La figura seguente mostra un esempio di bodypack:
Trasmettitore per radiomicrofono bodypack
365
26.9. Stadio di trasmissione Lo stadio trasmettitore opera sulle frequenze VHF e UHF. In particolare, le frequenze disponibili per i radiomicrofoni sono generalmente comprese negli intervalli seguenti: 174 MHz - 223 MHz (VHF) 470 MHz - 845 MHz (UHF) La potenza di uscita è in genere compresa tra i 30 e i 50 mW (su alcuni trasmettitori si può arrivare a 250mW) e consente, in condizioni ottimali, una copertura non superiore a 100 m. Per migliorare il rapporto segnale rumore, viene utilizzato un sistema compander (compressione/espansione) che lavora sullo stesso principio degli algoritmi di riduzione del rumore dei registratori analogici [Vedi: Sistemi di riduzione del rumore] . In pratica, il segnale da trasmettere viene prima compresso e ciò ne rende possibile una ulteriore amplificazione senza incorrere nella saturazione. Una volta amplificato, il segnale si trova a maggiore distanza dal rumore di fondo. In ricezione, il segnale viene espanso, con la conseguenza che il rumore di fondo si troverà ancora più sotto il valore minimo del segnale, vedendo così ridotta notevolmente la sua influenza.
366
26.10. Stadio di ricezione Il ricevitore è il dispositivo che inverte il processo realizzato dal trasmettitore, riconvertendo il segnale dalla radiofrequenza al segnale sonoro originale. Questa trasformazione si effettua attraverso un processo chiamato eterodino dove la frequenza portante viene filtrata e in seguito convertita in una frequenza intermedia (IF) pari a una frazione della frequenza portante originale (nel caso di conversione in IF, la tecnica viene chiamata supereterodina). Dopo successivi filtraggi della IF, il segnale viene inviato a un demodulatore che separa il segnale audio dalla componente in radiofrequenza portandolo al un livello di un comune segnale microfonico; da questo punto in poi il radiomicrofono potrà essere trattato come un qualsiasi microfono a filo, collegandolo a un registratore o a un mixer. Può accadere che, assenza di segnale audio, il segnale sia disturbato da altri segnali, seppure di debole intensità. In questo caso, un controllo chiamato squelch che opera sostanzialmente come un gate [Vedi: Gate] permette di lasciare passare il segnale solo quando questo contiene il segnale audio. Un altro sistema, chiamato pilot-tone squelch permette evitare rumorosi sganci di segnale: grazie ad uno speciale tono sovrapposto al segnale audio, il ricevitore blocca il segnale quando non riscontra più una qualità sufficiente. Sfruttando il tono pilota il trasmettitore è anche in grado di mandare informazioni di altro tipo al ricevitore, come lo stato delle batterie. L’impedenza di uscita deve realizzare con l’antenna un corretto adattamento di impedenza. In particolare, l’antenna deve avere la stessa impedenza di uscita del ricevitore, generalmente pari a 50 Ohm. Lo stadio ricevente è di solito munito di un dispositivo scanner che effettua una ricerca sullo spettro di frequenze disponibili per verificare quali di queste risultino già occupate da altri sistemi trasmittenti. Una volta individuate le frequenze già occupate, i radiomicrofoni verranno assegnati alle frequenze rimaste disponibili. I ricevitori possono essere di due tipi: non-diversity, ad antenna singola, e diversity, con più antenne. Quest’ultima modalità nasce con l’intento di ridurre le cancellazioni dovute alla ricezione contemporanea di segnali radio diretti e riflessi. Tali segnali infatti risultano fuori fase tra loro a causa del tempo che intercorre tra la ricezione del segnale diretto e quello riflesso. Il ricevitore di tipo diversity risolve il problema della cancellazione adottando il seguente principio: due antenne separate in due punti differenti avranno una probabilità molto ridotta di ricevere due segnali con la stessa identica cancellazione. Il sistema sarà allora in grado di discriminare la differenza tra i due segnali, individuare la cancellazione e correggerla. La distanza tra le due antenne è pari, come minimo, alla lunghezza dell’onda portante. Di seguito, un tipico apparecchio ricevente di tipo diversity:
Ricevitore di tipo diversity Nei radiomicrofoni viene spesso adottata la modalità: switching diversity - active. In questo caso si impiegano due antenne e due stadi riceventi separati e collegati ad un comparatore che evidenzia le differenze tra i due segnali. Quando il segnale proveniente da uno dei due ricevitori inizia ad essere disturbato, il comparatore seleziona il segnale proveniente dall’altro ricevitore.
367
26.11. Antenne Come detto in precedenza, un’antenna è un conduttore che converte un campo elettromagnetico in un segnale elettrico. Un principio fondamentale dell’elettromagnetismo, detto principio di reciprocità, garantisce che qualsiasi antenna possa indifferentemente funzionare sia come antenna trasmittente che come antenna ricevente (se connessa rispettivamente ad un trasmettitore e ad un ricevitore). Sebbene in linea teorica qualunque oggetto elettricamente conduttore possa comportarsi da antenna, il fenomeno di trasduzione proprio dell’antenna è rilevante solo per forme e dimensioni ben precise dell’oggetto irradiante: le caratteristiche geometriche di un’antenna ne definiscono quindi caratteristiche e prestazioni e conseguentemente destinazione d’uso (trasmissione/ricezione). Questo spiega la grande varietà di dispositivi che la tecnologia realizza: un’antenna omnidirezionale per onde medie sarà costruttivamente del tutto differente da un’antenna direttiva per microonde. Tra i tipi di antenne più comunemente impiegati citiamo le seguenti: Antenna stilo: ha una lunghezza pari a 1/4 della lunghezza d’onda della portante. Genera un’irradiazione omnidirezionale. Antenna dipolo: ha una lunghezza pari a metà della lunghezza d’onda della portante. Genera un’irradiazione omnidirezionale.
Antenna di tipo dipolo Antenna logaritmica: ha una lunghezza pari a 5/8 della lunghezza d’onda della portante. Genera un’irradiazione direzionale. Permette la trasmissione di una larga banda di frequenze.
Antenna logaritmica Antenna Yagi: genera un’irradiazione direzionale. Ha una copertura di banda molto stretta.
Antenna Yagi Il posizionamento delle antenne deve essere effettuato seguendo alcuni criteri di base: Evitare il posizionamento vicino a superfici metalliche o materiali che contengono metallo perché possono generare riflessioni multiple e generare l’effetto cancellazione. Nel caso l’antenna sia omnidirezionale, è bene che sia posizionata lontano dalle pareti, in modo da limitare le riflessioni. Nel caso l’antenna sia direzionale, sarà possibile posizionarla anche a ridosso della parete, ma orientata verso la sorgente. Rispettare la polarizzazione del campo elettromagnetico: solitamente è verticale. Nel caso di uso contemporaneo di più radiomicrofoni è opportuno utilizzare uno splitter che con una sola coppia di antenne fornisca il segnale a più ricevitori di tipo diversity, evitandone l’affollamento sul carrello. Lo splitter deve essere scelto nella stessa banda di frequenze dei radiomicrofoni e con la stessa impedenza di uscita dei singoli ricevitori. 368
Vengono principalmente utilizzati splitter attivi che permettono di fornire a ciascun ricevitore un segnale adeguatamente amplificato.
369
26.12. Vantaggi e svantaggi dei radiomicrofoni Alcuni dei vantaggi dell’utilizzo dei radiomicrofoni sono: Grande libertà di movimento di musicisti, attori, presentatori in situazioni live. Pulizia dello spazio di lavoro in virtù della mancanza dei cavi. Eliminazione dei problemi dovuto all’utilizzo dei cavi, come per esempio la distorsione microfonica [Vedi: Distorsione sulle connessioni elettriche] . Alcuni degli svantaggi dell’utilizzo dei radiomicrofoni sono: Raggio d’azione a volte limitato (un cavo microfonico bilanciato [Vedi: Connessioni elettriche bilanciate] può arrivare ad una lunghezza di ben 100m!). Sistemi wireless più costosi consentono un raggio d’azione maggiore. Possibili interferenze con altri sistemi trasmittenti dello stesso tipo (risolte con una preliminare operazione di scan delle frequenze disponibili, come descritto in precedenza) e di tipo diverso. Operazioni limitate nel tempo, a causa della limitata autonomia delle batterie che alimentano il trasmettitore. Rumore di fondo e zone d’ombra in cui il segnale è assente (posizioni non coperte dal campo elettromagnetico), specialmente nei sistemi non-diversity. Numero limitato di microfoni operativi contemporaneamente dovuto al numero limitato di canali disponibili sulla una banda allocata.
370
Appendice A. Formati File Audio Digitali A.1. Formati audio non compressi In questo tipo di file non viene effettuata nessuna compressione dei dati. Alcuni di questi formati tuttavia consentono una variante compressa del file. AIFF - Audio Interchange File Format Formato audio standard utilizzato dalla Apple. Può essere considerato l’equivalente del wav in ambiente mac. I dati audio sono organizzati secondo la codifica PCM e non vengono compressi. Ne esiste anche una variante compressa, definita come AIFF-C o AIFC. ALAC - Apple Lossless Audio Codec E’ il formato audio lossless della Apple. E’ anche chiamato ALE (Apple Lossless Encoder). AU E’ il formato audio standard utilizzato dai sistemi operativi Sun, Unix and Java. La codifica dei dati può essere di tipo PCM (senza compressione) oppure compressa con i codec μ-law , a-law G729 . Il formato audio Au fu introdotto dalla società Sun Microsystems. Era un formato utilizzato sui sistemi NeXT e nei primi siti internet. Inizialmente il file era privo di header (dati iniziali di un file) in quanto la codifica era unica: 8-bit con compressione µ-law e frequenza di campionamento 8000 Hz. L’ultima versione di questo formato prevede un header composto da sei blocchi da 32 bit, un blooco di informazioni opzionale e infine i dati audio. WAV File audio utilizzato comunemente sui sistemi Windows. Generalmente memorizzano dati audio in formato PCM (non compresso). Questi file possono anche contenere dati audio in formato compresso (ad esempio con i formati GSM o MP3).
371
A.2. Formati audio compressi di tipo lossy In questo caso i dati sono compressi [Vedi: Compressione del segnale audio] con perdita di informazione. AAC - Advanced Audio Coding Chiamato anche AC3. E’ stato progettato come successore del formato mp3 rispetto a cui utilizza un algoritmo leggermente migliore e ciò permette di ottenere una migliore qualità a parità di bitrate. E’ il formato utilizzato per l’audio Dolby Digital [Vedi: Dolby prologic e dolby digital] presente nei DVD ed è tornato in audio in quanto adottato da Apple iTunes come standard di compressione. M4P E’ una versione proprietaria del formato AAC in MP4 con il sistema DRM (Digital Rights Management) sviluppato dalla Apple per la musica da scaricare dal sito iTunes Music Store. MPEG-4 Part 14 o MP4 (precedentemente chiamato ISO/IEC 14496-14:2003) è un contenitore di dati multimediali. E’ utilizzato principalmente per la memorizzazione di dati audio/video ma può essere utilizzato anche per la memorizzazione di altri tipi di dati, quali immagini fisse e sottotitoli. Come tutti i formati moderni, questo formato consente l’invio dei dati su internet in stremaing: tale funzionalità è implementata aggiungendo una traccia dati per la gestione dello streaming. L’unica estensione per i file che utilizzano questo codec è .mp4. ATRAC (.mp3)- Adaptive Transform Acoustic Coding Un vecchio formato audio della Sony con compressione di tipo ATRAC. I file hanno sempre l’estensione .mp3 ma per aprirli è necessario disporre del driver ATRAC3. Il MiniDisc è stato il promo prodotto commerciale a sfruttare questo tipo di formato. In seguito, il codec è stato migliorato con successive evoluzioni quali: ATRAC3 (1999), ATRAC3plus (2002) e ATRAC Advanced Lossless (2006). MP3 - MPEG Layer III Audio Si tratta del formato audio al momento più utilizzato il cui nome esteso è MPEG-1 or MPEG-2 Audio Layer III, chiamato più comunemente MP3. E’ un formato proprietario sviluppato dall’Istituto Fraunhofer IIS. E’ utilizzato per la fruizione di musica digitale a livello consumer. La codifica si basa su un modello psicoacustico, ma non esiste uno standard documentato e condiviso. Per questo esistono molti encoder diversi, con qualità diverse. Il file codificato (a blocchi, ognuno dei quali è preceduto da un’intestazione che contiene informazioni per la decodifica di quel blocco) tuttavia contiene tutte le informazioni per la decodifica e quindi, una volta che il file è stato creato, verrà decompresso da qualsiasi decodificatore nello stesso identico modo. Il grado di compressione è definito dal bit rate espresso in Kb/s (Kilo bit al secondo). Maggiore è il bit rate, migliore è la qualità del suono, minore è il grado di compressione applicato. Valori di bit rate standard presenti in tutti gli encoder sono: 32, 40, 48, 64, 80, 96, 112, 128, 160, 192, 224, 256 e 320 kbit/s mentre le frequenze di campionamento disponibili sono 32, 44,1 e 48 kHz. OGG E’ un contenitore Open Source che supporta diversi formati, il più conosciuto dei quali è il formato audio Vorbis. Questo formato offre una compressione audio simile all’mp3 ma è meno diffuso. La grande differenza con l’mp3 è l’assoluta gratuità del formato. A livello di prestazioni, a parità di parametri, il Vorbis è leggermente più efficiente dell’mp3. Il contenitore di formati Ogg può gestire contemporaneamente più flussi di dati indipendenti: audio, video, testi (comei sottotitoli) e dati aggiuntivi (metadata). RA & RM E’ un formato messo a punto da Real Audio per lo streaming audio su Internet. Il formato .ra consente di memorizzare in un unico file tutti i file audio che vogliamo trasmettere. Il codec prevede la possibilità di streaming che vanno dalla bassissima qualità all’alta fedeltà. VOX Questo formato audio utilizza la codifica Dialogic ADPCM (Adaptive Differential Pulse Code Modulation). Effettua una compressione 4 a 1. I file di tipo Vox sono simili ai file wave, tranne che non hanno header e dunque le informazioni circa la frequenza di campionamento, la quantizzazione e altro devono essere specificate prima dell’esecuzione del file.
372
A.3. Formati audio compressi di tipo loseless In questo caso i dati sono compressi [Vedi: Compressione del segnale audio] senza perdita di informazione. FLAC - Free Lossless Audio Codec E’ un codec audio con compressione loseless (senza perdita di informazione). La compressione dei dati può arrivare al 50-60% senza nessuna perdita di qualità. ALAC - Apple Lossless Audio Codec E’ l’equivalente del formato FLAC nel mondo Apple. Il codice è ora disponibile in formato Open Source. RAW Un file RAW può contenere qualisasi tipo di dato, ma in effetti è impiegato principalmente per dati audio con codifica PCM (non compressi). Dunque, a differenza dei formati audio non compressi (wav, aiff), il file raw non contiene nessun header con informazioni riguardati i dati stessi (di solito l’header contiene informazioni su: frequenza di campionamento, bit di quantizzazione, canali, tipo di notazione usata per idati). L’estensione tipica per questo tipo di files è: .raw, .pcm, nessuna estensione. WMA - Windows Media Audio Formato audio proprietario di Microsoft. Tra le sue peculiarità c’è il Digital Rights Management (DRM) per la protezione dalle copie.
373
Appendice B. Formati Audio Plugins B.1. Audio plugins: formati principali Vengono di seguito elencati i principali formati per i plugins audio presenti sul mercato. Sono stati presi in considerazione solo i formati più utilizzati e diventati uno standard in ambito lavorativo. Tabella B.1. Audio plugins Sigla Nome AU
Audio Units
Produttore Sys Op Apple
Mac OS X
Real Time Mac OS RTAS Audio Digidesign X / Suite Windows Virtual Mac OS VST Studio Steinberg X / Technology Windows
AAX
Avid Audio Avid eXtension
Mac OS X / Windows
Descrizione E’ il formato nativo del sistema operativo Mac OS X della Apple ed è stato sviluppato nel 2001. E’ supportato dalla maggior parte delle applicazioni audio, ma solo su sistemi Apple. Questo formato è stato sviluppato per il software Pro Tools e non è supportato da altri software. Non è più utilizzato a partire dalla versione 11 di Pro Tools che ha introdotto un nuovo tipo di formato (AAX) E’ stato creato nel 1996 dalla casa Steinberg per il suo software audio Cubase . E stato uno dei primi formati per plugin messi a punto e rilasciato pubblicamente. Ciò ha fato sì che altri sviluppatori potessero creare autonomamente plugins VST. Questo è il motivo principale della diffusione di questo formato che resta attualmente il più utilizzato e supportato nei diversi software audio. Questo formato ha sostituito definitivamente i formati RTAS e TDM utilizzati fino alla versione 10 di Pro Tools. Dalla versione 11 il formato è AAX e permette il supporto a 64 bit. Ne esistono due versioni: AAX DSP per Pro Tools HD (con hardware dedicato) e AAX Native per le versioni di Pro Tools senza harware dedicato che girano con qualsiasi scheda audio.
374
Appendice C. Grandezze fisiche Tabella C.1. Grandezze e unità di misura Grandezza
Unità
Simbolo
Temperatura
oC [grado]
T
Lunghezza, spazio Massa
m [metro] kg [kilogrammo]
L m
Densità
ρ
Tempo Periodo di un’onda Lunghezza d’onda Frequenza Angolo Pulsazione Numero d’onda Velocità Forza Pressione Lavoro Potenza meccanica
kg/m3 s [secondo] s [secondo] m [metro] Hz [hertz] rad [radiante] rad/s [radiante/secondo] rad/m [radiante/metro] m/s [metro/secondo] N [newton] Pa [pascal] J [joule] W [watt]
Intensità sonora
W/m2
I
t T λ f α, β … ω k v F P L W
Livello di intensità sonora dB [decibel]
IdB
Livello di pressione sonora dB [decibel]
dBspl
Sonorità Sonìa
S LL
Impedenza acustica
son phon Ωa [ohm acustico]
Tensione elettrica Corrente elettrica Resistenza elettrica Potenza elettrica Capacità
V [volt] A [ampere] Ω [ohm] W [watt] F [farad]
V i R W C
Induttanza
H [henry]
L
Z
375
Nella stessa collana Pro Tools in un’ora (compresa la pausa caffè) di Simone Corelli
Pro Tools in un’ora (compresa la pausa caffè) Elementi di cinematografia sonora di Simone Corelli, Fabio Felici, Gilberto Martinelli
Elementi di cinematografia sonora L’ascolto professionale di Gilberto Martinelli
376
L’ascolto professionale
377
378