593 57 2MB
Italian Pages 144 [162] Year 1986
:
Il mondo dell'informatica
Claude E.Shannon-Warren Weaver
LA TEORIA MATEMATICA DELLE COMUNICAZIONI
ETAS LIBRI
>
> e '' de siderata » nella frase iniziale di questa sezione sulla efficacia. Il problema della efficacia è in stretto rapporto con il pro blema semantico e in un certo qual modo lo comprende; e, in effetti, esiste sovrapposizione fra tutte le sopraindicate categorie di problemi. 1.3. Osservazioni Detto questo, si potrebbe essere indotti a ritenere che il livello A sia relativamente superficiale, riguardando solamente i parti colari tecnici di un buon progetto di sistema di comunicazioni, mentre i livelli B e C paiono comprendere, se non tutta, la mag gior parte del contenuto concettuale del problema generale delle comunicazioni. La teoria matematica degli aspetti tecnici delle comunicazioni, come è stata sviluppata principalmente da Claude Shannon ai Bell Telephone Laboratories, esplicitamente si applica in primo luogo solo al problema A, vale a dire al problema tecnico della correttezza del trasferimento di vari tipi di segnali dal trasmit tente a chi riceve. Ma la teoria ha, ritengo, un profondo significato che prova come il precedente paragrafo sia gravemente inesatto. Parte del significato della nuova teoria deriva dal fatto che i livelli B e C, di cui sopra, possono utilizzare esclusivamente quelle
cavalli se potevano vedere tali piccoli movimenti ed essi compitarono un enfa tico 11 No 11. Sfortunatamente noi non possiamo essere cosi sicuri che le nostre domande siano comprese, nè di ottenere risposte altrettanto chiare 11. Si veda: Lashley K. S. 11 Persistent problems in the evolution of mind 11 in Quarterly Review oj Biology, v. 24, Marzo 1949, p. 28.
4
precisioni di segnali che risultano possibili quando vengono ana lizzate al livello A. In tal modo qualunque limitazione trovata nella teoria al livello A si applica ai livelli B e C. Ma una più larga parte di questo significato discende dal fatto che l'ana lisi al livello A mostra che questo livello abbraccia gli altri due più di quanto si possa superficialmente ritenere. Pertanto la teo ria del livello A, almeno ad uno stadio significativo, costituisce una teoria anche per i livelli B e C. Spero che le successive parti di questo scritto serviranno a chiarire ed a giustificare questa ultima osservazione.
5
2
Problemi della comumcaztone al livello A
2.1. Un sistema di comunicazione e i problemi relativi Il sistema di comunicazione considerato può essere sentato simbolicamente come segue :
rappre
sorgente della informazione trasmettitore
ricevitore
destinazione
sorgente d i disturbi
La
sorgente di informazione sceglie un messaggio desiderato tra un insieme di messaggi possibili (è questa una osservazione particolarmente importante che richiederà in seguito una note vole spiegazione). Il messaggio scelto può consistere di parole scritte o dette, oppure di immagini, musica, ecc.
Il trasmettitore converte questo messaggio nel segnale, il qua le viene inviato al ricevitore tramite il canale di comunicazione. Nel caso del telefono, il canale è un filo, il segnale una corrente elettrica non costante su questo filo ; il trasmettitore è costi6
tuito dall'insieme di dispositivi (trasmettitore del telefono, ecc.), che converte l'intensità del suono della voce nella corrente elet trica variabile. In telegrafia, il trasmettitore codifica parole scritte in sequenze di impulsi elettrici di durata variabile (punti, linee, spazi). Nel parlare, la sorgente di informazioni è il cer vello, e il trasmettitore è il meccanismo vocale che emette le di verse intensità di suono (il segnale) le quali vengono trasmesse attraverso l'aria. Nel caso della radio, il canale è semplicemente lo spazio (o l'etere, se qualcuno preferisce ancora questo ter mine antiquato e ingannevole) mentre il segnale è l'onda elettro magnetica che viene trasmessa. Il ricevitore è una specie di trasmettitore alla rovescia, il quale riconverte i segnali trasmessi in un messaggio e che invia questo messaggio fino a destinazione. Quando io vi parlo, il mio cervello è la sorgente di informazioni, il vostro è la destina zione delle stesse; il mio sistema vocale è il trasmettitore, men tre il vostro orecchio e il nervo auditivo collegato costituiscono il ricevitore. E' purtroppo caratteristico che nel corso della trasmissione
si aggiungano al segnale certe cose non volute dalla sorgente di informazioni. Queste aggiunte non volute possono essere di storsioni del suono (per esempio nella telefonata) o disturbi atmosferici (nella radio), oppure deformazioni riguardanti la forma o il contrasto di figure (televisione), o errori nella tra smissione (telegrafia o teleriproduzione), ecc. Ogni alterazione nel segnale trasmesso viene detta disturbd'. Domande tipiche che ci si pone su un tale sistema di comuni cazione sono :
a. Come si misura la quantità di informazione? b . Come si misura la capacità di un canale di comunicazione? c. L'operazione del trasmettitore di convertire il messaggio in segnali spesso comporta un processo di codifica. Quali sono le caratteristiche di un processo di codifica ad alto rendi3
Si è tradotto con disturbo il termine inglese « noise » dato il più ampio significato che non la parola italiana l'l.lmore, limitata solitamente al campo acustico. Si fa presente però che nel linguaggio tecnico spesso si usa la parola rumore con significato più ampio (N.d.T.>.
7
mento ? E quando la codifica sia la più valida possibile, a quale velocità può il canale convogliare informazioni?
d. Quali sono le caratteristiche generali del disturbo? In che modo influenza, il disturbo, la precisione del messaggio che giunge a destinazione ? Come si possono rendere minimi gli indesiderabili effetti del disturbo, e sino a che punto possono venire eliminati?
e. Se il segnale trasmesso è continuo ( come nel parlare o nella musica) invece che formato da simboli discreti (come nella scrittura, nel telegrafo, ecc.), che conseguenze ha questo fatto per il problema? Enunceremo ora, senza alcuna dimostrazione e con un mi nimo di terminologia matematica, i principali risultati ottenuti da Shannon. 2.2. Informazione Il termine informazione, in questa teoria, viene usato in una accezione speciale che non deve essere confusa con quella corrente. In particolare, informazione non deve essere confusa con significato. Infatti, due messaggi, uno dei quali sia ricco di significato mentre l'altro sia un puro nonsenso, possono, dal presente punto di vista, essere esattamente equivalenti per quanto riguarda l'in formazione. E' senza dubbio questo ciò che Shannon intende quando afferma che « gli aspetti semantici della comunicazione sono irrilevanti per quelli tecnici ». Ma ciò non significa che gli aspetti tecnici siano necessariamente irrilevanti per gli aspetti semantici. Senza dubbio, il termine informazione nella teoria delle co municazioni non riguarda tanto ciò che si dice effettivamente, quanto ciò che si potrebbe dire . Cioè, l'informazione è una misura della libertà di scelta che si ha quando si sceglie un messaggio. Se ci si trova di fronte ad una situazione molto elementare, nella quale si deve optare per uno fra due messaggi alternativi, allora arbitrariamente si dice che l'informazione, in relazione a questa 8
situazione, equivale ad una unità. Si noti che è ingannevole ( an che se spesso conveniente) dire che l'uno o l'altro messaggio trasferisce una unità di informazione. Il concetto di informazione non si applica ai messaggi particolari (come vorrebbe il con cetto di significato), ma piuttosto all'informazione intesa come un tutto, l'unità di informazione stando ad indicare che in questa situazione si ha una quantità di libertà nella scelta del messag gio che è conveniente considerare come una quantità standard o unitaria. I due messaggi tra i quali si deve optare, in una tale scelta, possono essere qualunque cosa si desideri. Uno potrebbe essere il testo della Versione della Bibbia di Re Giacomo, mentre l'altro potrebbe e ssere « sì )), Il trasmettitore potrebbe codificare questi due messaggi in modo che > in successione siano scelte in modo indipendente e siano separate da uno spazio. Un mes saggio tipico potrebbe essere : DAB EE A BEBE DEED DEB ADEE ADEE EE DEB BEBE BEBE BEBE ADEE BEO DEED DEED CEED ADEE A DEED DEED BEBE CABED BEBE BED DAB DEED ADEB. Se tutte le parole sono di lunghezza finita questo processo è equivalente ad uno del tipo precedente, ma la descrizione in termini di struttura delle parole e di probabilità può risul tare più semplice. A questo punto possiamo anche genera lizzare e introdurre le probabilità di transizione tra parole, ecc. Questi linguaggi artificiali risultano utili nella costruzione di semplici problemi ed esempi per illustrare diverse possibilità. Possiamo anche avvicinarci con successive approssimazioni ad un linguaggio naturale per mezzo di una serie di semplici lin guaggi artificiali. L'approssimazione di grado zero viene ottenuta scegliendo tutte le lettere con la stessa probabilità e in modo indipendente. L'approssimazione di primo grado si ottiene sce gliendo indipendentemente l'una dall'altra le lettere in succes sione, avendo però ciascuna lettera la stessa probabilità che pos siede nel linguaggio naturale6• Così, nella approssimazione di pri mo grado alla lingua inglese, la lettera E viene scelta con pro babilità 0,12 (la sua normale frequenza in inglese) e la W con probabilità 0,02, ma non esiste rapporto tra le lettere consecu tive e pertanto non vi è tendenza a formare i digrammi più co muni, come TH, ED, ecc . Nella approssimazione di secondo grado viene introdotta la struttura del digramma. Dopo che una lettera è stata scelta, la successiva viene scelta in conformità delle fre•
Frequenze di lettere, di digrammi e di trigrammi si trovano in Secret and Urgent di Fletcher Pratt, Blue Ribbon Books, 1939. Tabelle di frequenze di parole si trovano in Relative Frequency of English. Speech. Sounds, G. Dewey, Harvard University Press, 1923.
46
quenze con cui le diverse lettere seguono la prima. Ciò richiede una tavola di frequenze di digramma p;(j). Nella approssimazio ne di terzo grado, viene introdotta la struttura del trigramma. Ciascuna lettera viene scelta in base a probabilità che dipendono dalle due lettere precedenti.
3. La successione di approssimazioni della lingua inglese Per dare un'idea visiva di come questa serie di processi si avvicina ad una lingua, sono state costruite delle sequenze ti piche di approssimazione all'inglese; esse sono riportate qui sotto. In tutti i casi abbiamo assunto un « alfabeto » di 27 sim boli, le 26 lettere ed uno spazio7• Approssimazione di grado zero ( simboli indipendenti ed ugual mente probabili). XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSG HYD QPAAMKBZAACIBZLHJQD. 2. Approssimazione di primo grado (simboli indipendenti ma con frequenze proprie della lingua inglese). OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL. 3. Approssimazione di secondo grado (struttura dei digrammi come in inglese). ON lE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE. 4. Approssimazione di terzo grado ( strutture dei trigrammi come in inglese). IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE . 1.
7
Fino alla approssimazione di terzo grado compresa sono scritte in corsivo le sequenze di lettere che, da sole, costituiscono termini inglesi aventi un senso compiuto. Altre parole sarebbero estrapolabili da sequenze di lettere più lunghe, sovente con diverse combinazioni ( ad es., nella sequenza 11 regoactiona 11 sono compresi i termini : 11 action 11, 11 act 11 e 11 on Il). Nei due casi di approssimazione alle parole non si è ritenuto di doverle tradurre, dato che le loro sequenze sono prive di significato, ad eccezione del caso preso in considerazione dal l'Autore ( v. nota 8 ) . (N.d.T. >.
47
S.
Approssimazione di primo grado, con riguardo alle parole. Piuttosto che continuare con la struttura dei tetragrammi, . . . , degli n-grammi, risulta più semplice e più proficuo, a questo punto, saltare alle unità di parola. Qui le parole sono scelte indipendentemente l'una dall'altra, ma con frequenze appro priate. REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN A CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE. 6. Approssimazione di secondo grado, con riguardo alle parole. Le probabilità di transizione delle parole sono corrette, ma non è inclusa alcuna ulteriore struttura. THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED. La rassomiglianza con un normale testo inglese aumenta in maniera notevole ad ognuno dei suesposti passaggi. Si noti che questi esempi hanno una struttura ragionevolmente buona fino a circa due volte l 'estensione che è presa in considerazione nella loro costruzione. Così, al punto 3 il processo statistico assicura un testo comprensibile per sequenze di due lettere, ma sequenze di quattro lettere possono normalmente essere inserite, previo adattamento, in frasi corrette. Nel caso di cui al punto 6, sequenze di quattro o più parole possono facilmente venir inserite entro delle frasi, senza ricorrere a costruzioni strane o forzate. La par ticolare sequenza di dieci parole /P e =. p log - . p
In tal caso è possibile costruire una codifica abbastanza buona del messaggio su un canale di O e l inviando una particolare sequenza, poniamo 0000, per il poco frequente simbolo A e quindi una sequenza che indica il numero di B che lo seguono. Questo potrebbe essere espresso in termini binari eliminando tutti i numeri contenenti la particolare sequenza ; i numeri fino a 16 sono rappresentati come al solito; 1 6 è rappresentato dal numero binario successivo a 16 che non contiene quattro zeri, precisa mente 17 = 1000 1 , ecc . Si può dimostrare che quando p --+ O la codifica tende all'ideale, a patto che la lunghezza della particolare sequenza sia opportu namente adattata.
70
2
Il
canale discreto con disturbo
1 1 . Rappresentazione di un canale discreto disturbato Consideriamo ora il caso in cui il segnale è perturbato da disturbi durante la trasmissione o all'uno o all'altro dei terminali. Ciò significa che il segnale ricevuto non è necessariamente quello stesso emesso dal trasmettitore. Si possono distinguere due casi. Se un particolare segnale trasmesso produce sempre lo stesso segnale ricevuto, se cioè il segnale ricevuto è una funzione defi nita del segnale trasmesso, allora l'effetto può esser chiamato distorsione. Se questa funzione ha un inverso - non producendo due segnali trasmessi il medesimo segnale ricevuto - la distor sione può essere corretta, almeno in via di principio, compiendo l'operazione funzionalmente inversa sul segnale ricevuto. Il caso che qui interessa è quello in cui il segnale non subisce sempre lo stesso cambiamento nel corso della trasmissione. In questo caso possiamo assumere che il segnale ricevuto E sia una funzione del segnale trasmesso S e di una seconda variabile, il disturbo N.
E = f(S, N) Il disturbo è considerato come una variabile casuale proprio come lo era precedentemente il messaggio. In generale, esso può essere rappresentato mediante un idoneo processo stocastico. Il tipo più generale di canale discreto disturbato che prenderemo in con siderazione è una generalizzazione del canale a stati finiti privo di disturbi descritto precedentemente. Assumiamo un numero
71
finito di stati e un insieme di probabilità
P".;({J, j). Questa è la probabilità che, se il canale si trova in uno stato a e viene trasmesso il simbolo i, sia ricevuto il simbolo i e che il canale venga a trovarsi nello stato {3. Pertanto a e {3 si estendo no ai possibili stati ; i si estende ai possibili segnali trasmessi e i si estende ai possibili segnali ricevuti. Nel caso in cui sim boli successivi vengano perturbati in modo indipendente dal di sturbo, vi è un solo stato e il canale è rappresentato dall'insieme di probabilità di transizione p;(j), la probabilità che il simbolo i trasmesso venga ricevuto come simbolo i· Se un canale disturbato è alimentato da una sorgente vi sono in azione due processi statistici : la sorgente e il disturbo. In tal modo vi sono un certo numero di entropie che possono es sere calcolate. Prima vi è l'entropia H(x) della sorgente o del l'ingresso al canale (esse saranno uguali se il trasmettitore è non-singolare). L'entropia dell'uscita del canale, vale a dire dei segnali ricevuti, sarà indicata con H(y). Nel caso non disturbato si aveva H(y) = H(x). L'entropia congiunta d'ingresso e di uscita sarà H(x, y ) Vi sono infine due entropie condizionali H (y) e H1(x), l'entropia di uscita quando è noto l'ingresso e viceversa. Tra queste quantità abbiamo le relazioni .
H(x, y)
=
H(x) + Hx(Y)
=
H(y) + Hy(x).
Tutte queste entropie possono venir misurate o come entropia al secondo oppure come entropia per simbolo. 12. Equivocazione e capacità del canale Se il canale è disturbato non è, in linea generale, possibile rico struire con certezza il messaggio originale o il segnale trasmesso mediante alcuna operazione sul segnale ricevuto E . Vi sono, co munque, dei modi di trasmettere le informazioni i quali sono ottimali nel combattere il disturbo. Questo è il problema che prendiamo ora in considerazione. Supponiamo che vi siano due possibili simboli O e l e che stiamo trasmettendo alla velocità di 1000 simboli al secondo con prcr 72
babilità po = p, = ; Pertanto, la nostra sorgente produce infor mazioni al ritmo di 1000 bit al secondo. Durante la trasmissione il disturbo introduce degli errori cosicché, in media, l simbolo su 100 viene ricevuto in modo sbagliato (O invece di l , oppure l invece di O). Quale è la velocità di trasmissione delle informa zioni? Certamente meno di 1000 bit al secondo, dato che circa l' l % dei simboli ricevuti non sono esatti. Il nostro primo impulso potrebbe essere quello di dire che la velocità è di 990 bit al se condo, semplicemente sottraendo il supposto numero di errori. Questa soluzione non è affatto soddisfacente dato che trascura di tener conto della mancanza di conoscenza da parte del destina tario della localizzazione degli errori. Possiamo arrivare ad un caso limite ed immaginare che il disturbo sia talmente grande che i simboli ricevuti sono completamente indipendenti da quelli trasmessi . La probabilità di ricevere l è !, qualunque sia il sim bolo trasmesso, e lo stesso dicasi per O. Quindi circa la metà dei simboli ricevuti sono esatti grazie al solo caso e diremmo che il sistema trasmette 500 bit al secondo, mentre in realtà non è stata trasmessa assolutamente alcuna informazione. Si otter rebbe una trasmissione ugualmente 11 buona » facendo comple tamente a meno del canale e giocando a testa o croce al terminale ricevente. Evidentemente la giusta correzione da applicare al l'ammontare di informazioni trasmesse è costituita dalla quan tità di queste informazioni che viene persa nel segnale ricevuto, o alternativamente dall'incertezza riguardo a ciò che è stato ef fettivamente inviato, quando abbiamo ricevuto un segnale. Te nendo conto del nostro precedente discorso sulla entropia come di una misura dell'incertezza, sembra logico servirsi della entro pia condizionale del messaggio, conoscendo il segnale ricevuto, come di una misura di questa informazione perduta. Questa è in dubbiamente la definizione corretta, come vedremo in seguito. Seguendo questa idea, si otterrebbe la velocità della effettiva tra smissione, R, col sottrarre dalla velocità di produzione (cioè, dal l'entropia della sorgente) l'entropia condizionale media : .
R
=
H(x) - Hy(X).
L'entropia condizionale Hy(x) sarà chiamata, per convenienza, l'equivocazione. Essa misura la ambiguità media del segnale rice vuto. Nell'esempio considerato prima, se viene ricevuto uno O, 73
la probabilità a posteriori che sia stato trasmesso uno O è di 0,99, mentre quella che sia stato trasmesso un l è di 0,01 . Questi valori sono invertiti se viene ricevuto un l . Donde [0,99 log 0,99 + 0,01 log 0,01 ] 0,08 1 bit/ simbolo ovvero 8 1 bit al secondo. H1(x)
= =
Possiamo dire che il sistema sta trasmettendo ad una velocità di 1000 - 8 1 = 919 bit al secondo. Nel caso estremo in cui uno O ha le stesse probabilità di essere ricevuto come O o come l, e idem per un l , le probabilità a posteriori sono t, !- . e H,(x)
= =
-
[t log t + t log !- ]
l bit per simbolo
o 1000 bit al secondo. La velocità di trasmissione è allora O, come deve essere. Il teorema seguente fornisce una diretta, intuitiva interpretazione dell'equivocazione e serve anche a giustificarla come l'unica misura appropriata. Prendiamo in considerazione un sistema di comunicazione e un osservatore (o un dispositivo ausi liario) che può vedere sia ciò che viene inviato, sia ciò che viene recuperato (con gli errori dovuti al disturbo). Questo osservatore nota gli errori nel messaggio ricostruito e trasmette su un O. Ma questa è l'incertezza di ciò che è stato inviato, conoscendo sia il segnale ricevuto che il segnale di correzione. Se essa è maggiore di zero la frequenza di errori non può essere arbitrariamente piccola.
Esempio : Supponiamo che gli errori si verifichino a caso in una sequenza di cifre binarie: sia p la probabilità che una cifra sia errata e sia q = l - p la probabilità che sia esatta. Questi errori possono venir corretti se la loro posizione è nota. Pertanto il canale di correzione deve soltanto inviare
75
informazioni riguardo a queste posizioni. Questo equivale a trasmettere da una sorgente che produce cifre binarie con probabilità p per l (sba gliato) e q per O (esatto). Ciò richiede un canale di capacità
- [ p log p + q log q]
che è l'equivocazione del sistema originale.
La velocità di trasmissione R può essere scritta in altre due forme dovute alle identità sopra notate. Abbiamo
R
=
H(x) - H1(x) H(y) - Hx(Y) = H(x) + H(y) - H(x, y). =
La prima espressione è una definizione ed è già stata interpretata come l'ammontare di informazioni inviate meno l'incertezza su ciò che è stato inviato. La seconda misura l'ammontare ricevuto meno la parte di esso dovuta al disturbo. La terza è la somma delle due quantità meno l'entropia congiunta e perciò in un certo senso è il numero di bit al secondo comune alle due. Pertanto tutte e tre le espressioni hanno un certo significato intuitivo. La capacità C di un canale disturbato dovrebbe essere la massima velocità di trasmissione possibile, vale a dire la velocità quando la sorgente è opportunamente messa in rapporto col canale. Definiamo perciò la capacità del canale con
C
=
Max (H(x) - H1(x))
dove la differenza massima è con riferimento a tutte le possibili sorgenti di informazioni usate come ingressi al canale. Se il ca nale è non disturbato, H1(x) = O . La definizione è allora equiva lente a quella già data per un canale non disturbato, dato che l'entropia massima per il canale è la sua capacità, come risulta dal teorema 8. 13. Il teorema fondamentale per un canale discreto con disturbo Può apparire sorprendente definire una capacità C determinata per un canale disturbato, dal momento che in questo caso non possiamo mai inviare informazioni sicure. E' chiaro, comunque, che inviando le informazioni in una forma ridondante la proba bilità di errori può venir ridotta. Per esempio, ripetendo più volte 76
il messaggio e mediante uno studio statistico delle differenti ver sioni del messaggio che si sono ricevute, la probabilità di errori potrebbe essere resa molto piccola. Ci si aspetterebbe, comun que, che, per fare tendere a zero questa probabilità di errori, debba aumentare indefinitamente la ridondanza della codifica, e perciò tendere a zero la velocità di trasmissione. Questo non è assolutamente vero. Se lo fosse non esisterebbe una capacità molto ben definita, ma solamente una capacità per una data fre quenza di errori, o per una data equivocazione ; la capacità di minuirebbe quando i requisiti di errore fossero resi più strin genti. In realtà la capacità C sopra definita ha un significato molto preciso. E' possibile inviare informazioni alla velocità C attraverso il canale con una frequenza di errori o una equivoca zione piccola quanto si vuole mediante una opportuna codifica. Questa affermazione non è vera per alcuna velocità superiore a C. Se si opera un tentativo di trasmettere ad una velocità superiore a C, poniamo C + R1, allora vi sarà necessariamente una equivo cazione uguale o maggiore della eccedenza R1. La natura si prende la contropartita col richiedere proprio quella incertezza, cosicché otteniamo, in effetti, di completamente esatto, non altro che C. La situazione è presentata nella fig. 9. La velocità di informazione entro il canale è riportata in ascisse e l'equivocazione in ordinate. Qualsiasi punto sopra la linea in grassetto nella regione tratteg giata può essere raggiunto, mentre i punti al di sotto della stessa, no. I punti della linea non possono in generale essere raggiunti, salvo, normalmente, due di essi. Questi risultati costituiscono la principale giustificazione per la definizione di C e saranno ora provati.
Teorema 11 : Si abbia un canale discreto con capacità C e si abbia una sorgente discreta con entropia al secondo H. Se H � C, esi ste un sistema di codifica tale che l'uscita della sorgente può es-
Fig. 9
C
-
H (x)
L'equivocazione possibile per una data entropia di ingresso ad un canale.
77
sere trasmessa sul canale con una frequenza di errori arbitraria mente piccola (o una equivocazione arbitrariamente piccola). Se H > C, è possibile codificare la sorgente in modo che l'equivo cazione sia minore di H - C + E, dove E è arbitrariamente piccola. Non esiste alcun metodo di codifica che consenta una equivoca zione minore di H - C. Il metodo per dimostrare la prima parte di questo teorema non consiste nell'esporre un metodo di codifica che abbia le proprietà desiderate, bensì nel mostrare che un tale codice deve esistere in un certo gruppo di codici. Infatti faremo la media della fre quenza di errori in questo gruppo e mostreremo che questa media può essere resa minore di E. Se la media di un insieme di numeri è minore di E deve esistere almeno uno dei componenti dell'in sieme che è minore di E. Questo confermerà il risultato desiderato. La capacità C di un canale disturbato è stata definita come C
=
Max (H(x) - Hy(x))
dove x è l'ingresso e y l'uscita. Il calcolo della differenza mas· sima avviene fra tutte le sorgenti che potrebbero essere usate come ingresso al canale. Sia So una sorgente che raggiunge la massima capacità C. Se que sta capacità massima non è in realtà raggiunta da alcuna sorgente (ma soltanto avvicinata come limite), So sarà una sorgente che si approssima a fornire la velocità massima. Supponiamo che So sia usata come ingresso al canale. Consideriamo le possibili sequenze di lunga durata T, trasmesse e ricevute. Sarà vero quanto segue: l. le sequenze trasmesse si suddividono in due classi, un gruppo ad alta probabilità con circa 2TH membri e le restanti sequenze di bassa probabilità totale;
2. analogamente, le sequenze ricevute si suddividono in un in sieme ad alta probabilità di circa 2TH , loc. cit. Root Mean Square » ( radice quadrata dei valori medi al quadrato ) . (N.d.T. ).
21 «
1 10
. l1m 1 1m . ._.o
T-+ -
log M (e, T)
--=--=::-'---'-':...._
T
W log
P+N , N
cosicché, indipendentemente da quanto sia piccola e, possiamo, prendendo T sufficientemente grande, trasmettere un numero di P+N . . . . CI'fre b'mane ch e SI avvtcma quanto vogl'1amo a TW l og nel tempo T. Formule simili a C = W log
�
P N
N
,
per il caso di rumo
re bianco sono state sviluppate in modo indipendente da parecchi altri autori, sebbene con interpretazioni un poco differenti. Pos siamo menzionare a questo proposito l 'opera di N. Wiener22, W. G. Tuller23 e di H . Sullivan. Nel caso di perturbazioni dovute ad un disturbo arbitrario (non necessariamente rumore bianco termico) non sembra che sia possibile risolvere esplicitamente il problema di massimizzazione relativo alla determinazione della capacità C del canale. Si pos sono, comunque, stabilire limiti inferiori e superiori per C in termini di potenza media N del disturbo e di potenza entropica N, del disturbo. Questi limiti nella maggior parte dei casi sono sufficientemente vicini da fornire una soddisfacente soluzione del problema.
Teorema 18: La capacità di un canale di banda W perturbato da un dis turbo arbitrario è determinata dalle disuguaglianze W log
P + N1 P+N � C � W log --:-::-N, N,
dove P = potenza media del trasmettitore N = potenza media del disturbo N, = potenza entropica del disturbo. 22
Cybernetics, loc. cit.
23
(( Theoretical Lirnitations on the Rate of Transmission of Infonnation >>, Proceedings oj the Institute oj Radio Engineers, v. 37, No. 5, maggio 1949, pp. 468-78.
111
Anche qui la potenza media dei segnali disturbati sarà P + N. Il massimo di entropia per questa potenza lo si avrebbe se il segnale ricevuto fosse rumore bianco e sarebbe W log 2TCe(P +N). Può non essere possibile raggiungere questo massimo; cioè, può non esserci alcun complesso di segnali trasmessi che, aggiunto al disturbo perturbatore, produca un rumore bianco termico al punto di ricezione, ma quanto meno esso stabilisce un limite superiore per H(y). Abbiamo perciò
C = Max H(y) - H(n) :;::; W log 2TCe(P + N) - W log 2TCeNI . Questo è il limite superiore dato dal teorema. Si ottiene il limite inferiore considerando la velocità quando il segnale trasmesso è un rumore bianco, di potenza P. In questo caso la potenza en tropica del segnale ricevuto deve essere grande almeno quanto quella di un rumore bianco di potenza P + N1 , dato che abbiamo dimostrato nel teorema 1 5 che la potenza entropica della somma di due complessi è maggiore o uguale alla somma delle singole potenze entropiche. Donde Max H(y) � W log 2TCe(P + N1) e
C � W log 2TCe(P + N1) P + N1 = W l og N1
-
W log 2TCeNI
Quando P aumenta, i limiti superiore ed inferiore di cui al teo rema 18 si avvicinano l'un l'altro ; si ha quindi una velocità asin totica
W log
P+N N1
•
Se il disturbo è esso stesso un rumore bianco, N = N1 e il risul tato si riduce alla formula precedentemente dimostrata :
C = W log
(
l +
� ).
Se il disturbo è gaussiano ma con uno spettro che non è neces-
1 12
sariamente uniforme, N1 è la media geometrica della potenza del disturbo alle varie frequenze nella banda W. Perciò N1
=
exp
-t-J
w
log N(f) df
dove N(f) è la potenza del disturbo alla frequenza f.
Teorema 19: Se poniamo la capacità per una data potenza P del trasmettitore uguale a p + N - TJ N1
C = W log -- ---
,
allora TJ è monotonica decrescente quando P aumenta e tende a O come limite. Supponiamo che per una data potenza P1 la capacità del canale sia
Ciò significa che la migliore distribuzione del segnale, poniamo p(x), quando è sommata alla distribuzione del disturbo q(x), dà una distribuzione ricevuta r(y) la cui potenza entropica è (P1 + N - TJI). Aumentiamo la potenza a P1 + !J.P aggiungendo al segnale un rumore bianco di potenza !J.P. L'entropia del segnale ricevuto è ora almeno
H(y)
=
W log 27re(Pl + N - TJi + !J.P)
in base al teorema sul minimo di potenza entropica di una som ma. Quindi, dato che possiamo conseguire la H indicata, l'entro pia della distribuzione massimizzante deve essere almeno altret tanto grande e TJ deve essere monotonica decrescente. Per dimo strare che TJ --+ O quando P --+ oo si consideri un segnale che sia un rumore bianco con una P grande. Qualunque sia il disturbo perturbatore, se P è sufficientemente grande il segnale ricevuto sarà approssimativamente un rumore bianco, nel senso che avrà una potenza entropica tendente a P + N.
1 13
26 . La capacità del canale con una limitazione nella potenza di picco In alcune applicazioni il trasmettitore è limitato non dall'uscita di potenza media, bensì dalla potenza di picco istantanea. Il pro blema di calcolare la capacità del canale è allora quello di ren dere massima (mediante variazione del complesso di simboli trasmessi)
H(y) - H(n) subordinatamente alla condizione che tutte le funzioni f( t) del complesso siano minori od uguali a, poniamo, � per ogni t. Una condizione di questo tipo non risolve la questione, matema ticamente, altrettanto bene della limitazione di potenza media. Tutto quanto abbiamo ottenuto per questo caso è un limite infe riore valido per ogni S/ N, un limite > . Mostreremo ora che, sotto condizioni molto generali e ragione voli, è possibile scrivere la funzione v( P( x, y)) in una forma appa rentemente molto più specifica, precisamente come media di una funzione p(x , y) tra l'insieme di possibili valori di x e di y :
v(P(x, y))
=
JJ P(x, y) p(x, y) dx dy.
119
Per ottenere questo dobbiamo solamente assumere ( l ) che la sorgente ed il sistema siano ergodici cosicché un campione molto lungo sarà, con probabilità pressoché l , tipico del complesso, e (2) che la valutazione sia « ragionevole >>, nel senso che sia pos sibile, esaminando un ingresso e un'uscita tipici, x, e y,, formu lare una valutazione di prova sulla base di questi campioni; e se si aumenta la durata di questi campioni, la valutazione di prova tenderà, con probabilità l , alla valutazione esatta, basata su una conoscenza piena di P( x, y ). Sia p(x, y ) la valutazione di prova. Allora la funzione p(x, y) tende ad essere (quando T -- oo ) una costante per quasi tutti gli (x, y ) che si trovano nella regione ad alta probabilità corrispondente al sistema:
p(x, y ) --- v(P(x, y )) e possiamo anche scrivere
p(x, y ) dato che
__.
JJ P(x, y) p(x, y) dx dy
JJ P(x, y ) dx dy
=
l.
Questo dimostra quanto desiderato. La funzione p(x, y ) ha la natura di una « distanza » tra x e y24• Essa misura quanto sia indesiderabile (relativamente al nostro criterio di fedeltà) ricevere y quando viene trasmesso x. La for mulazione generale di cui sopra può essere denunciata come segue : qualunque ragionevole valutazione può essere rappresen tata come media di una funzione di distanza sull'insieme di mes saggi e di messaggi ricostruiti x e y , pesata in conformità della probabilità P(x, y) di ottenere la coppia in questione, a patto che la durata T dei messaggi sia sufficientemente grande.
I seguenti costituiscono semplici esempi di funzioni di valuta zione. 2• Non si tratta, comunque, di una distanza 11 metrica momento che in generale essa non soddisfa né p( X, y ) + p(Y,Z) > p(X, 2).
120
11
in senso stretto, dal = p oé
p ..S 1]
=
m[S2 ]
=
m[S1]
ciò comporta che
H>..S1
=
S2
Per ogni À. con m[S2 ] ;é O, l . Questa contraddizione mostra che S1 non esiste.
138
Appendice
6
Il limite superiore, N3 � N1 + N2, è dovuto al fatto che la mas sima entropia possibile per una potenza N1 + N2 si verifica quan do abbiamo un rumore bianco di questa potenza. In questo caso la potenza entropica è N1 + N2. Per ottenere il limite inferiore, supponiamo di avere due distri buzioni in n dimensioni p(x;) e q(x;) con potenze entropiche N1 e N2. Ci si chiede che forma dovrebbero avere p e q per rendere minima la potenza entropica N3 della loro convoluzione r(x;):
r(x;)
=
Jp(y;)q(x; - y;) dy;
La entropia H3 di r è data da
H3
=
-
Jr(x;) log r(x;) dx;.
Vogliamo renderla minima subordinatamente alle restrizioni
H1
=
-
H2
=
-
Consideriamo quindi V
oU
= =
-
-
J p(x;) log p{x;) dx; J q(x;) log q(x;) dx;.
J [ r(x) log r(x) + À.p(x) log p(x) + (.J.q(x) log q(x) ] dx f { [ l log r(x) ] or(x) + À. [ l log p(x) ] op(x) +
+
+ (..L[ l + log q(x) oq(x) ] } dx.
139
Se p(x) viene modificata in un particolare argomento X; = s;, la variazione in r(x) è
or(x) e
oU
=
-
=
q(X; - S;)
J q(x; - S;) log r(x;) dx; - À log p(s;) = o
e analogamente quando viene modificata q. Quindi le condizioni per un minimo sono
J q(x; - s;) log r(x;) = - À log p(s;) J p(x; - s;) log r(x;) = - log q(s;). u
Se moltiplichiamo la prima per p(s;) e la seconda per q(si) ed integriamo rispetto ad s, otteniamo
Hl = - ..l. H, Hl = - f.J. H2
ovvero risolvendo per À e
f.J.
e sostituendo nelle equazioni
J q(x; - s; ) log r(x;) dx; - Hl log p(s;) H2 J p(x; - s;) log r(x;) dx; = - Hl log p(s;). =
H,
Supponiamo ora che p(x;) e q(x;) siano normali
q(x;)
=
l Aij l n/2
( Zn )n/2 exp - t EA;iXiXi l Bij l n/2 ( Zn )nf2 exp - t 'f.B;iXiXi .
p( x;)
=
Allora r(x; ) sarà a sua volta normale con forma quadratica C;i. Se gli inversi di queste forme sono a;i, b;i, c;i allora Vogliamo dimostrare che queste funzioni soddisfano alle condi zioni minimizzatrici se e solo se a;i = Kb;i e quindi danno il valore minimo di Hl in presenza delle restrizioni imposte. Innan zitutto
140
log
J q(x; -
s;) log
r(x;)
n =
1 2,. l C11 l - i 'f.C;�;XJ
log
n
1
r(x;) = 2 log 2 ,. l C;; l - ! 'f.C;JS;s1 - ! 'f.C;;b;J.
Questo dovrebbe uguagliare
�: [ il che richiede A;1
=
In questo caso A11 cono ad identità.
n
=
log
�: ::
�
2
l A;; l - ! 'i:.A;JS;SI
]
C;1• B;1 ed entrambe le equazioni si ridu
141
Appendice
7
Quanto segue indicherà un accostamento più generale e più ri goroso alle definizioni centrali della teoria delle comunicazioni. Si consideri uno spazio di misura di probabilità i cui elementi siano ordinati in coppie (x, y ). Le variabili x, y devono essere identificate come i possibili segnali trasmessi e ricevuti di una certa lunga durata T. Chiamiamo fascia di S1 l'insieme di tutti i punti i cui x appartengono ad un sottoinsieme S1 di punti x, e analogamente fascia di S2 l'insieme i cui y appartengono al sotto insieme S2 . Dividiamo x e y in una raccolta di sottoinsiemi mi surabili X; e Y; non sovrapponentisi e approssimanti la velocità di trasmissione R R
l
=
1 T
dove
t:
P(X;,
y)
; log
P( X;, Y;) P(X;)P( Y;)
P(X;) è la misura di probabilità della fascia di X; P(Y;) è la misura di probabilità della fascia di Y; P(X;, Y;) è la misura di probabilità della intersezione delle fasce. Una ulteriore suddivisione non può mai diminuire R1 . Infatti sia X1 diviso in X1 = Xl + Xl' e sia P(Y1 ) P{Xl) P(Xl')
142
= a =
b
c
P(X, , Y,) = d +
P(X,) = b + c P(Xl , Y,) = d P(Xl', Y,) = e e.
Ne segue che nella somma (per la intersezione X1, Y1) sostituiamo
d+e (d + e) log a( b + c)
d
con d log ab + e log
e ac
.
Si dimostra facilmente che, con la limitazione esistente per b ,
c,
d, e,
[
d
]
+ e d+e b+c
�
""
dde• b dc•
e di conseguenza la somma è aumentata. Così le varie possibili suddivisioni formano un insieme ordinato, con R monotona cre scente con il raffinamento della suddivisione. Possiamo definire R senza ambiguità come il più piccolo limite superiore per R1 e scrivere R
=
l T
JJ P(x, y) log
P(x, y) dx dy. P(x)P(y)
Questo integrale, inteso nel senso di cui sopra, include sia il caso discreto che quello continuo e naturalmente molti altri che non possono essere rappresentati né nell'una né nell'altra forma. E' ovvio in questa formulazione che se x e u sono in corrispon denza biunivoca, la velocità da u a y è uguale a quella da x a y. Se v è una qualsiasi funzione di y (non necessariamente con un inverso) allora la velocità da x a y è maggiore o uguale a quella da x a v, dato che, nel calcolo delle approssimazioni, le suddivi sioni di y costituiscono essenzialmente una suddivisione più pre cisa di quanto non siano quelle di v. Più generalmente se y e v sono in relazione non funzionale ma statistica, se cioè abbiamo uno spazio (y, v) di misura di probabilità, allora R(x, v) � R(x, y). Ciò significa che qualunque operazione effettuata sul segnale ri cevuto, anche se coinvolge elementi statistici, non incrementa R. Un altro concetto che dovrebbe essere definito precisamente in una formulazione astratta della teoria è quello di « flusso delle dimensioni », che è il numero medio di dimensioni richieste al secondo per specificare un membro del complesso. Nel caso di banda limitata sono sufficienti 2W numeri al secondo. Una defi nizione generale può essere formulata come segue. Sia M t ) un complesso di funzioni e sia pr[fa(t), fp( t) ] una misura metrica della > tra f,. e f11 nel tempo T (per esempio la differenza
143
R.M.S. in questo intervallo). Sia N(E, ò, T) il minimo numero di elementi f che possono venir scelti in modo che tutti gli elementi del complesso, a parte un insieme di misura ò, sono compresi entro la distanza E di almeno uno di quelli scelti . Pertanto co priamo lo spazio compreso entro E, a parte un insieme di pic cola misura ò . Definiamo il flusso di dimensioni À. del complesso con il triplice limite Il.
,
=
E,--' Ò,'T.:._ --) N::-'-(--'log =. 1Im l'Im 1.Im __""= 6_o ._o T_ .. T log E
Questa è una generalizzazione delle definizioni di tipo di misura della dimensione in topologia, e si accorda con l'intuitivo flusso delle dimensioni di semplici complessi dove il risultato desiderato è evidente.
144
Finito di stampare nel mese di aprile 1983 dalla Milanostampa o Farigliano (CN) per conto del Gruppo Editoriale Fabbri o Bompiani, Sonzogno, Etas S.p.A., Via Mecenate, 91 o 20138 Milano