181 85 53MB
German Pages 226 [230] Year 1964
PETER
FEY
INFORMATIONSTHEORIE
ELEKTRONISCHES RECHNEN UND REGELN Herausgegeben von
Prof. Dr. HANS F R Ü H A U F
Prof. Dr. W I L H E L M K Ä M M E R E R
Prof. Dr. K U R T S C H R Ö D E R • Prof. Dr. H E L M U T W I N K L E R
BAND
3
INFORMATIONSTHEORIE von
Dr.-Ing. P E T E R F E Y
A K A D E M I E - V E R L A G - B E R L I N 1963
INFORMATIONSTHEORIE E i n f ü h r u n g in die statistische Theorie der elektrischen N a c h r i c h t e n ü b e r t r a g u n g
von
Dr.-Ing. P E T E R
FEY
Berlin
Mit 94 Abbildungen
und 16
Tabellen
A K A D E M I E - V E R L A G - B E R L I N
1963
Erschienen im Akademie-Verlag GmbH, Berlin W 8, Leipziger Str. 3—4 Copyright 1963 by Akademie-Verlag GmbH Lizenznummer: 202 • 100/529/63 Gesamthcrstellung: VEB Druckerei „Thomas Müntzer 44 Bad Langensalza Bestellnummer: 5507 • ES: 19 B 5/20 K 5
V O R W O R T DES H E R A U S G E B E R S
Der vorliegende dritte Band der Reihe ergänzt die in den beiden ersten Bänden behandelte Theorie und Praxis der Verarbeitung digitaler und analoger Information in Rechenmaschinen durch die Theorie der Übertragung diskreter und kontinuierlicher Information. Der neue Aspekt, der sich bei der Erzeugung, der Übertragung und dem Empfang von Information darbietet, ist der stochastische Charakter informationstragender Prozesse. Die dadurch bedingte wahrscheinlichkeitstheoretische Behandlungsweise der Probleme der Nachrichtentechnik bedarf zu ihrer zielgerichteten Anwendung durch den Nachrichteningenieur solider Kenntnisse der mathematischen und physikalisch-technischen Grundlagen. Diesem Bedürfnis Rechnung tragend, entstand, fußend auf Arbeiten des Herausgebers in Lehre und Forschung am Institut für Hochfrequenztechnik und Elektronenröhren der Technischen Universität Dresden, sowie auf zahlreichen Veröffentlichungen und Vorträgen nachfolgende zusammenfassende Arbeit einer seiner Schüler. H . FRÜHAUF
V O R W O R T DES V E R F A S S E R S
Die Informationstheorie im weiteren Sinne und die speziell im vorliegenden Buch abgehandelte statistische Theorie der elektrischen Nachrichtenübertragung als Informationstheorie im engeren Sinne sind Teilgebiete einer sich neu herausbildenden wissenschaftlichen Disziplin, der Kybernetik. Die jeder Wissenschaft eigene Abstraktion und Zusammenfassung äußerlich verschiedener Erscheinungen in einer gemeinsamen Theorie ist im Falle der Informationstheorie besonders ausgeprägt. Der Verfasser hofft, durch die gewählte Art der Darstellung, ergänzt durch zahlreiche Beispiele, diese Schwierigkeit für das Verstehen und Anwenden der Theorie nach Möglichkeit herabgemindert zu haben. Für die Unterstützung bei diesem Bemühen dankt der Verfasser besonders Herrn Professor Dr.-Ing. H. FRÜHAXJF und Herrn Professor Dr. K Ä M M E R E R . Dank gebührt weiter den Herren Prof. Dr. LANOE und Dr. W U N S C H für wertvolle Hinweise und Diskussionen sowie dem Verlag für die gute Gestaltung des Buches. Berlin, im Juni 1963 P. FEY
INHALTSVERZEICHNIS
Einleitung
1
Vorbemerkungen
3
1. D i s k r e t e I n f o r m a t i o n 1.
Diskrete Quellen u n d ihre Eigenschaften
1.1 Zufällige Folgen 1.2 MARKOFF-Prozesse 2.
E n t r o p i e diskreter Quellen
2.1 E i n f a c h e E n t r o p i e 2.2 V e r b u n d e n e u n d bedingte E n t r o p i e 2.3 E n t r o p i e von MABKOFF-Prozessen 3.
K o d i e r u n g diskreter Quellen
5 5 6 15 28 29 35 41 46
3.1 Dekodierbarkeitsbedingung 3 . 2 K o d i e r u n g nach S H A N N O N 3 . 3 K o d i e r u n g s m e t h o d e nach F A N O 3.4 Technische Realisierung der K o d i e r u n g 3.5 F u n d a m e n t a l s a t z der K o d i e r u n g
66 71
4.
74
I n f o r m a t i o n bei N a c h r i c h t e n ü b e r t r a g u n g
50 52 59
4.1 Ü b e r t r a g e n e I n f o r m a t i o n 4.2 Maximal ü b e r t r a g b a r e I n f o r m a t i o n 4.3 S y m m e t r i s c h gestörter binärer K a n a l
76 93 109
5.
139
Störungsgeschützte Kodierungen
5.1 Fehlerfeststellende u n d korrigierende B i n ä r k o d i e r u n g e n 5.2 G r u p p e n k o d e s 5.3 Technische Realisierung der K o d i e r u n g u n d Dekodierung II. K o n t i n u i e r l i c h e I n f o r m a t i o n
141 154 167 173
6.
E i g e n s c h a f t e n kontinuierlicher Quellen
173
6.1 6.2 6.3 6.4 6.5 0.6 6.7 6.8
Beschreibung zufälliger Prozesse Klassifizierung s t a t i o n ä r e r zufälliger Prozesse Mittelwerte, K o r r e l a t i o n s f u n k t i o n Lineare T r a n s f o r m a t i o n zufälliger Prozesse GAUss-Prozesse Korrelationsfunktion und Leistungsspektrum Nichtlineare T r a n s f o r m a t i o n zufälliger Prozesse . . . . Verteilung der S u m m e zweier zufälliger Variabler, charakteristische F u n k t i o n
174 175 176 179 181 184 188 190
VIII
Inhaltsverzeichnis 7. Zeitliche Quantisierung kontinuierlicher Prozesse . . . 7.1 Zeitliche Quantisierung eines ideal frequenzbeschränkten Prozesses 7.2 Technische Realisierung der Quantisierung 8. Kontinuierliche Information 8.1 Différentielle Entropie kontinuierlicher Quellen 8.2 Maximal übertragbare Information 8.3 Übertragene kontinuierliche Information 8.4 Idealer K a n a l 8.5 Reale Kanäle
192 192 195 197 197 200 200 202 206
Schlußbemerkungen
210
A n h a n g . T a b e l l e f ü r — .rlda:
211
Literaturverzeichnis
212
Sachregister
215
EINLEITUNG
I n der heutigen, technisch hochentwickelten Gesellschaft spielt die Überm i t t l u n g von Nachrichten aller A r t eine wichtige Rolle. R u n d f u n k , Fernsehen, Telefon und Fernschreiher sind zu unentbehrlichen Einrichtungen geworden. Die sich speziell m i t dieser elektrischen Nachrichtenübertragung befassenden Disziplinen sind die Hochfrequenztechnik und die Fernmeldetechnik. Die Techniken h a b e n Nachrichtenübertragungssysteme entwickelt, von denen sich ein allgemeines Schema der N a c h r i c h t e n ü b e r t r a g u n g (s. Abb. 0) abstrahieren läßt, d a s die allen Systemen gemeinsamen, vom S t a n d p u n k t der Theorie her wesentlichen Bestandteile widerspiegelt. U m bei einem nach diesem Schema aufgeteilten
Abb. 0. Allgemeines Schema der Nachrichtenübertragung (Nachrichtenübertragungskette)
System beurteilen zu können, inwieweit es der gestellten Aufgabe der Übert r a g u n g von I n f o r m a t i o n , von Nachrichten, gerecht wird, ist zunächst die K l ä r u n g des Wesens der I n f o r m a t i o n und eine q u a n t i t a t i v e E r f a s s u n g der I n f o r m a t i o n erforderlich. Versuche in dieser R i c h t u n g wurden zuerst von HARTLEY 1928 u n t e r n o m m e n . Von einer eigentlichen Theorie der N a c h r i c h t e n ü b e r t r a g u n g k a n n jedoch erst seit dem Erscheinen der Arbeiten von SHANNON [56] im J a h r e 1948 gesprochen werden. Der Grundgedanke dieser Theorie b e r u h t auf dem Zusammenh a n g zwischen I n f o r m a t i o n u n d Wahrscheinlichkeit. D a n a c h liefern determinierte Prozesse, wie z. B. die Ü b e r t r a g u n g der Zahler, der Lösungsfunktion einer homogenen Differentialgleichung oder einer periodischen Impulsfolge keine I n f o r m a t i o n im Sinne der statistischen Theorie der N a c h r i c h t e n ü b e r t r a g u n g ; sie sind vollständig vorhersagbar, die Angabe ihres Bildungsgesetzes genügt. Nach der statistischen Theorie liefert eine Nachrichtenquelle einen zumindest n u r teilweise determinierten Vorgang, einen zufälligen Prozeß. Die von der Theorie hinsichtlich des m a t h e m a t i s c h e n Modells der Quelle gemachten Voraussetzungen, insbesondere die der S t a t i o n a r i t ä t , sind praktisch nicht immer e r f ü l l t ; die Modell-
2
Einleitung
Vorstellung des Kanals hingegen ist infolge des zufälligen Charakters einer großen Gruppe von Störungen sehr wirklichkeitsnahe. Sowohl die Theorie als auch die praktischen Anwendungen befinden sich noch im Fluß, ausgenommen die Theorie der diskreten Information, wo insbesondere durch die Arbeiten von Chintschtn [3] ein gewisser Abschluß erzielt werden konnte. Dieser Umstand, sowie die qualitativen und quantitativen Unterschiede zwischen diskreter und kontinuierlicher Information, veranlaßten eine entsprechende Aufteilung des Stoffes. Diese Aufteilung entspricht der auch bei elektronischen Rechenmaschinen vorgenommenen Einteilung in digitale und analoge Maschinen (Bd. 1 und 2 dieser Reihe). Innerhalb der Hauptteile erfolgt eine Unterteilung des Stoffes nach dem in der Abbildung angegebenen allgemeinen Schema der Nachrichtenübertragung. So werden zuerst die Eigenschaften der Quellen als Nachrichtenerzeuger und ihre informationstheoretische Charakterisierung, dann die Kodierung der Quellen und schließlich die Übertragung der Information durch gestörte Kanäle behandelt.
VORBEMERKUNGEN
Die Beantwortung der qualitativen Frage : Was ist Information ? und der quantitativen Frage : Wie wird Information gemessen ? setzt eine Analyse der bekannten Systeme der Nachrichtenerzeugung und Übertragung voraus. Hierbei zeigt sich, daß sich die von der Nachrichtenquelle erzeugten und übertragenen Signale in zwei Klassen teilen lassen: 1. Signale, die nur eine endliche Zahl diskreter Werte annehmen können, und 2. kontinuierliche Signale. Zu den ersteren gehören z. B. die Signale eines Telegrafen oder die die Buchstaben unserer Schriftsprache symbolisierenden Winkzeichen mit Signalflaggen, zu den letzteren z. B. die durch Sprechen hervorgerufenen zeitlichen Stromschwankungen im Mikrofonkreis eines Telefonapparates oder der durch jeweilige Länge der Quecksilbersäule eines Thermometers widergespiegelte Verlauf der L u f t t e m p e r a t u r . Gemeinsam ist beiden Klassen von Signalen, d a ß sie nicht vollständig vorhersagbar sein dürfen, wenn sie Träger von Information sein sollen. Mit dieser Einteilung und Charakterisierung der Signale als Träger der Information ist die Frage nach dem Wesen der Information zwar noch nicht beantwortet, aber es ist möglich, damit ein abstraktes mathematisches Abbild zu schaffen, das die wesentlichsten, allen Signalen als Trägern von Information gemeinsamen Eigenschaften widerspiegelt. Dieses mathematische Abbild der informationstragenden Struktur der Signale mit ihrem geforderten nicht vollständig determinierten Charakter stellen in der statistischen Informationstheorie die diskreten und kontinuierlichen zufälligen Prozesse, Vorgänge, deren Ablauf von Wahrscheinlichkeitsgesetzen gesteuert wird, dar. Eine auf diesem Abbild fußende mathematische Theorie m u ß aber die Frage nach dem Wert einer Information hinsichtlich ihres bedeutungsmäßigen Inhalts unbeantwortet lassen ; die Information „ K o p f " oder „Wappen", die durch den Ausgang eines Münzwurfes erhalten wird, oder die Information über den Ausgang einer anderen gleichwahrscheinlichen Alternative sind im Sinne der statistischen Informationstheorie völlig gleichwertig. Diese Einengung des Begriffs Information ist f ü r den vorgegebenen Zweck einer Theorie der technischen Nachrichtenübertragung zulässig und notwendig ; denn jede technische Einrichtung als lebloser Mechanismus ohne Bewußtsein ist zur Bildung solcher Werturteile nicht in der Lage. Eine Informationstheorie, die den lebenden Organismus, insbesondere den Menschen, als Nachrichtenquelle und Nachrichtenempfänger mit in die Nachrichtenübertragungskette einbeziehen wollte, m ü ß t e n a t u r g e m ä ß einen erwei-
4
Vorbemerkungen
terten, hier nicht zur Diskussion stehenden Informationsbegriff zur Grundlage haben. Nur auf dieser Basis ist die Beantwortung der zweiten Frage nach einem quantitativen Maß der Information möglich. Dabei ist aber zu beachten, d a ß das mathematische Abbild in seinen Annäherungsstufen an die tatsächlichen Verhältnisse mehr oder minder unvollkommen ist. Die Frage „Was ist Inform a t i o n ? " wandelt sich auf Grund dieser Unvollkommenheit in die Frage ..Was ist im Rahmen der getroffenen Idealisierungen eine sinnvolle Definition der I n f o r m a t i o n ? " , u n d die Antwort auf diese Frage gibt die Überprüfung der erhaltenen Ergebnisse an H a n d der Praxis. Die Informationstheorie ist noch relativ jung, und es bedarf noch vieler Wechselwirkungen zwischen Theorie und Praxis, um sowohl die Theorie zu vervollkommnen als auch ihre praktische Anwendung voranzutreiben.
I. D I S K R E T E
INFORMATION
1. Diskrete Quellen und ihre Eigenschaften Eine diskrete Nachrichtenquelle ist dadurch gekennzeichnet, daß sie eine endliche Zahl 11 verschiedener Symbole, auch Alphabet genannt, besitzt. Aus diesem Symbolinventar produziert die Quelle Nachrichten, indem in unendlicher Folge Symbole aneinandergereiht werden. E i n einfaches Beispiel für eine diskrete Nachrichtenquelle ist ein Würfel; die Zahl der verschiedenen Symbole ist hier gleich Sechs, nämlich die Zahlen 1, 2, 3, 4, 5 und 6. Die durch Würfeln gewonnene Folge von Symbolen stellt den Produktionsprozeß der Nachrichtenquelle dar. Neben der Feststellung, daß die Quelle sechs verschiedene Symbole liefert, läßt sich darüber hinaus noch angeben, mit welchen Wahrscheinlichkeiten die einzelnen Symbole von der Quelle geliefert werden. I m vorliegenden Beispiel t r i t t jedes Symbol auf Grund des Auf baus der Quelle mit der Wahrscheinlichkeit 1/6 auf. Mit der Angabe der Wahrscheinlichkeiten für das Auftreten der verschiedenen Symbole ist die Nachrichtenquelle des Beispiels vollständig beschrieben. Eingangs wurde bemerkt, daß das mathematische Abbild für eine diskrete Nachrichtenquelle der diskrete zufällige Prozeß sei. Die zufällige Folge unabhängiger Ereignisse, wie sie der Ausgang des Würfelexperimentes liefert, stellt den einfachsten diskreten zufälligen Prozeß dar. Liefert die Nachrichtenquelle die einzelnen Symbole nicht unabhängig voneinander, sondern bestehen Nachwirkungen des vorhergehenden Symbols auf das folgende, so l ä ß t sich dieser Vorgang ebenfalls durch einen zufälligen Prozeß komplizierterer Art, die sogenannten MABKOirschen 1 ) K e t t e n , beschreiben. Zur Kennzeichnung einer solchen Quelle mit n verschiedenen Symbolen sind bereits n 2 Zahlen, ebenfalls Wahrscheinlichkeiten, die die Abhängigkeit aufeinanderfolgender Symbole charakterisieren, erforderlich. Doch auch dieser zufällige Prozeß stellt noch eine sehr niedrige Annäherungsstufe an praktische Nachrichtenquellen, z. B . an die deutsche Schriftsprache mit ihren erst nach sehr vielen Symbolen abklingenden statistischen Abhängigkeiten, dar. Zufällige Prozesse höherer Ordnung müssen zur Beschreibung solcher komplizierter Quellen herangezogen werden. Darüber hinaus wird bei allen diesen Annäherungsstufen vorausgesetzt, daß der zufällige Prozeß zeitlich invariant, stationär, i s t ; d. h. er ist unabhängig von den Anfangsbedingungen, ähnlich wie der stationäre (eingeschwungene) Zustand bei der Untersuchung der Wirkungen determinierter Prozesse an elektrischen Systemen [67]. A. A.
MABKOFF,
russ. Mathematiker 1856—1922.
6
I. Diskrete Information
In den folgenden Abschnitten werden, stufenweise vom Einfachen zum K o m plizierten aufsteigend, die Eigenschaften der mathematischen Abbilder der Nachrichtenquelle beschrieben. Die der Beschreibung zugrunde liegende mathematische Theorie ist die Wahrscheinlichkeitsrechnung [15], [18], [53], die dabei jedoch nur soweit entwickelt werden soll, als es für den vorliegenden Zweck erforderlich erscheint. Zur ersten Einführung sei dem Leser die Lektüre von [25] empfohlen. Als einheitliches mathematisches Modell der Nachrichtenquelle wird das bereits in der Wahrscheinlichkeitsrechnung bewährte Urnenmodell verwendet, um dem Leser die Möglichkeit zu Gedankenexperimenten zu geben. Damit können abstrakte Definitionen und Formalismen weitgehend mit konkretem Inhalt versehen werden mit dem Ziel, daß dadurch die Brücke zu den Anwendungen leichter geschlagen werden kann. 1.1 Z u f ä l l i g e
Folgen
D a s einfachste mathematische Abbild einer Nachrichtenquelle ist die zufällige Folge unabhängiger Ereignisse bzw. Symbole. Liefert die Nachrichtenquelle n verschiedene Symbole 8 ( , so sind diesen Symbolen Maßzahlen, die Wahrscheinlichkeiten wit zugeordnet. Diese Maßzahlen liegen, bestimmt durch den inneren A u f b a u der Nachrichtenquelle, von vornherein fest. Sie geben die Zahl-Ä^ der Symbole Sit bezogen auf den gesamten Symbolvorrat N der Quelle, an und genügen deshalb der Ungleichung 0 < Wj =
< 1
(1.1)
mit der Normierungsbedingung
E
i = l
= E -i = 1 • t= l
d-2)
Die zufällige Folge unabhängiger Symbole mit den Symbolwahrscheinlichkeiten w i läßt sich experimentell durch folgendes mathematische Modell realisieren : Gegeben sei eine Urne mit N gleichen Kugeln, von denen jeweils Ni in irgendeiner Weise mit dem Symbol S{ versehen sind; die Ni bestimmen sich aus den vorgegebenen wi zu Nt = wi N, wobei N an sich beliebig, jedoch mindestens so groß gewählt werden muß, daß die N t in genügender Näherung durch ganze Zahlen approximiert werden; bekanntlich ist dies bei rationalen u\ exakt, bei irrationalen w^ mit beliebig kleinem Fehler möglich. Durch willkürliches Ziehen einer Kugel aus der Urne, Notieren des Symbols, anschließendes Zurücklegen der Kugel und Durchmischen aller Kugeln, um für die nächste Ziehung die gleichen Bedingungen zu erhalten, ergibt sich in Fortführung des Experimentes eine Realisierung der gewünschten zufälligen Folge; daß die Folge den vorgegebenen Wahrscheinlichkeiten genügt, war durch die Struktur des Modells ge-
7
1. Diskrete Quellen und ihre Eigenschaften
sichert, die Unabhängigkeit aufeinanderfolgender Symbole durch die Vorschrift des Ziehvorganges u n d das Durchmischen gewährleistet. Ein praktisches Beispiel einer Nachrichtenquelle mit unabhängigen Symbolen bildet die deutsche Schriftsprache, wenn m a n n u r die Buchstabenwahrscheinlichkeiten berücksichtigt u n d weitere statistische Gesetzmäßigkeiten vernachlässigt. Tabelle 1 gibt die Wahrscheinlichkeiten der einzelnen Buchstaben in alphabetischer Reihenfolge, wie sie näherungsweise durch Auszählen der Buchstabenhäufigkeiten in sehr langen Texten ermittelt wurden [26], [54], wieder. Tabelle 1 a
Symbol Wi
nach [26] : 0,0651 nach [54] ; 0,0594 j
Symbol Wi
nach [26] ; 0,0019 nach [54] 0,0028 Symbol
Wi
•
s
nach [26] 0,0678 nach [54] ' 0,0646
b
c
d
R
1
f
0,1669 1 0,0204 0,1440 i 0,0078
0
0,0257 0,0138
0,0284 0,0255
0,0541 0,0546
k
l
m
0,0188 0,0071
0,0283 0,0345
0,0301 0,0172
w
V
tv
X
y
0,0107 0,0079
0,0140 0,0113
0,0002 0,0008
0,0003 0,0000
l
|
0,0674 ! 0,0370 0,0536 | 0,0422
n
o
0,0902 0,0229 0,0865 i 0,0211
i
i
h
0,0365 ! 0,0406 0,0782 0,0236 0,0361 0,0628 V
?
r
0,0094 ! 0,0007 0,0654 0,0067 1 0,0005 0,0622 z
*
0,0100 0,0092 0,1442
Es ergeben sich bei beiden Autoren unterschiedliche Werte, deren Ursache einerseits in der Berücksichtigung von I n t e r p u n k t i o n u n d Wortzwischenraum als 27. Symbol (in der Tabelle mit * gekennzeichnet), andererseits im unterschiedlichen U m f a n g und in der Art der ausgewählten Texte liegt. Die Reihenfolge der Buchstaben nach fallender Wahrscheinlichkeit ist in beiden Fällen in den ersten 4 Buchstaben übereinstimmend: e, n, i, s, ...; in den beiden nächsten Buchstaben t u n d r ergeben sich bereits Abweichungen. Die Bestimmung der relativen Häufigkeiten als Näherungswerte f ü r die Wahrscheinlichkeiten aus einem endlichen Teil der Realisierung einer zufälligen Folge ist allgemein u m so zuverlässiger, je größer die Zahl der ausgewerteten Symbole ist. Diese durch die E r f a h r u n g bestätigte Tatsache der Konvergenz der relativen Häufigkeiten gegen die tatsächlichen Wahrscheinlichkeiten wird weiter u n t e n noch durch eine spezielle Form des sogenannten „Gesetzes der großen Z a h l e n " exakter formuliert werden. Bevor dies jedoch geschehen kann, müssen noch einige wahrscheinlichkeitstheoretische Begriffe entwickelt werden. Bisher wurde als Nachricht einer Nachrichtenquelle eine zufällige Folge von Symbolen betrachtet. Es gibt aber auch Nachrichtenquellen, welche als Ausgang eine zufällige Folge von diskreten Signalen liefern, wobei unter Signal jetzt der Zahlenwert einer physikalischen Größe, z. B. der Spannung, verstanden werden soll. Als einfaches Beispiel soll ein Telegrafiesender dienen; an seinem Ausgang erscheint in regelmäßigem Abstand eine zufällige Folge von Spannungswerten,
8
I. Diskrete Information
z. B. 0 Volt und 1 Volt, wobei diesen beiden Werten die Wahrscheinlichkeiten w1 und w>2 zugeordnet sein sollen (Abb. 1). Ganz allgemein soll eine Größe, die bestimmte Werte nach einer zugehörigen Wahrscheinlichkeitsverteilung annimmt, eine zufällige Variable S genannt werden. Im vorliegenden Falle diskreter Nachrichtenquellen nimmt die zufällige Variable nur die diskreten Werte mit den zugehörigen Wahrscheinlichkeiten an, wobei im Falle der Buchstaben der Schriftsprache die s( den OrdnungsU/Vott
0
1
Z
1 1 1 1
3
1 1 4-
I
5
6
7
8
1
3
10
t/sec
Abb. 1. Beispiel eines Telegrafiesignals
zahlen 1 —27 der Symbole, im Falle des Telegrafiesenders den Zahlenwerten 1 und 0 der Signale entsprechen können. Mit dieser Schreibweise für die zufällige Variable kann man an Stelle der Wahrscheinlichkeiten W{ auch die Wahrscheinlichkeitsfunktion W ( S = s ) = w (1.3) i
i
setzen, was so viel bedeutet wie die Wahrscheinlichkeit dafür, daß die zufällige Variable S den diskreten Wert s» annimmt. Dagegen bedeutet i=m
W ( S ^ s m ) = z;wi ¡=i
(i.4)
die Wahrscheinlichkeit für die Erfüllung der in der Klammer zum Ausdruck kommenden Ungleichung, nämlich die Wahrscheinlichkeit dafür, daß die zufällige Variable kleiner oder gleich sm ist; diese ist gleich der Summe der zu den Werten sx bis sm gehörigen Einzelwahrscheinlichkeiten it\. Allgemeiner bezeichnet man mit W (S ^ s) = F ( s ) = J J Wi (1.5) «¡Ss
F(s) als die Verteilungsfunktion von S, wobei die Summation über alle Punkte s( zu erstrecken ist, die die Ungleichung s erfüllen. Die Funktion F(s) besitzt Sprungstellen bei s = der Höhe und ferner die Eigenschaft, eine nicht fallende Funktion von s zu sein; insbesondere ist F(—oo) = 0 ,
.F(+oo) = 1
(1.6)
wobei die letztere Beziehung identisch mit der Normierungsbedingung Gl. (1.2) ist. In Abb. 2 sind die Wahrscheinlichkeits- und die Verteilungsfunktion für das Beispiel des Telegrafiesenders aufgetragen. Durch die Wahrscheinlichkeits- oder Verteilungsfunktion ist die zufällige Folge unabhängiger Symbole als einfachstes Modell einer Nachrichtenquelle hinreichend
9
1. Diskrete Quellen und ihre Eigenschaften
gekennzeichnet. Aus der Wahrscheinlichkeitsfunktion lassen sich die Wahrscheinlichkeiten zusammengesetzter Ereignisse sowie weitere zugeordnete charakteristische Größen, die Mittelwerte, ableiten. Als Beispiel für eine aus der ursprünglichen Wahrscheinlichkeitsverteilung abgeleitete Verteilung soll die Wahrscheinlichkeit des r-maligen Auftretens des Wertes 1 unabhängig von der Anordnung bei n aufeinanderfolgenden Signalen des Telegrafiesender-Beispiels mit der Wahrscheinlichkeitsverteilung gemäß Abb. 2 berechnet werden. In der Wahrscheinlichkeitsrechnung bezeichnet man diese „Nachrichtenquelle" als „BERNOULLisches Versuchsschema". 1 ) Die zufällige Variable Sn stelle die Anzahl (Häufigkeit) des Eintretens des Wertes 1 bei n aufeinanderfolgenden Signalen unabhängig von der Anordnung innerhalb der n Signale dar. Die ursprüng-
. WiS-S/}
W(S*s)-F(s)
7 0,5 •IV,
-wz
0,5
Sj-0 s2 = 1 Abb. 2.
0 s,
i w, • '
f f
Wahrscheinlichkeits- und Verteilungsfunktion einer Zweipunktverteilung (Telegrafiesender)
liehe Wahrscheinlichkeitsfunktion lautet W (S = s2 = 1) = w , W (S = .Sj = 0) = 1 — w . Da im vorliegenden Falle aufeinanderfolgende Signale voraussetzungsgemäß keine statistischen Nachwirkungen aufweisen (zufällige Folge unabhängiger Ereignisse), multiplizieren sich die Einzelwahrscheinlichkeiten, und man erhält zunächst für die Wahrscheinlichkeit des r-maligen Eintretens des Wertes 1 und dementsprechend des n — r-maligen Eintretens des Wertes 0 in einer ganz bestimmten Anordnung von n Signalen vf(\ — w) n '. Nach den Regeln der
(
7i \
n\
I — - - - - — ^ j verschiedene Anordnungen (Permuta-
tionen) der r Einsen und n — r Nullen, so daß sich für die gesuchte Wahrscheinlichkeit unabhängig vonW der (Sn Anordnung =r) = w r( 1 ergibt - w) n
(1-7)
Diese in der Wahrscheinlichkeitsrechnung „Binomialverteilung" genannte Wahrscheinlichkeitsfunktion läßt in der auf die Zahl n der aufeinanderfolgenden Signale normierten Form
w Jakob B e r n o u l l i , Schweiz. Mathem. (1654 — 1705). 2
Informationstheorie
10
I. Diskrete Information gi
bereits erkennen, daß die relative Häufigkeit ~ des Eintretens des Wertes 1 mit steigendem n immer weniger um den Wert der Wahrscheinlichkeit w streut (Abb. 3), obwohl die Wahrscheinlichkeit = w) für exakte Übereinstimmung der relativen Häufigkeit mit der Wahrscheinlichkeit, wenn sie existiert, mit steigendem n abnimmt. In Abb. 3 wurde w = 1 — w = 0,5 gewählt, d. h. die Werte 0 und 1 sind gleichwahrscheinlich, wie dies auch z. B. bei einer Folge von Münzwürfen mit den Ergebnissen Zahl-Wappen ist. n 7 x 5 ° 10 20 •
m-l-w-0,5 n *
Parameter
0,5
JL
0.5
iLL
0,5
0,5
7
s n
Abb. 3. Binomialverteilung für w — 1 — w = 0,5, n = Parameter
1. Diskrete Quellen und ihre Eigenschaften
11
Die Bezeichnung „Binomial Verteilung" r ü h r t daher, daß die Ausdrücke f ü r die Wahrscheinlichkeit nach Gl. (1.7) bzw. (1.8) die Glieder der Entwicklung von [w + (1 — w)\" in eine Binomialreihe sind; man erkennt aus dieser Darstellung auch sofort, daß die Summe aller Glieder gleich Eins ist. Unter dem (statistischen) Mittelwert oder Erwartungswert einer zufälligen Variablen, die im allgemeinen Fall als eine Funktion der zufälligen Variablen gegeben ist, f ü r die die Wahrscheinlichkeitsfunktion definiert ist, versteht man im diskreten Fall bei gegebenem f(S) den Wert Hß)
=
21 i
w
i
f(si) •
(1-9)
Sonderfälle dieser Mittelwerte stellen die sogenannten Momente (in Analogie zu den Momenten der Mechanik) &-ter Ordnung mit f(S) = Sk dar. S* = 2 > ( a * . i
(1.10)
Für Je = 1 ergibt sich der lineare Mittelwert (Moment 1. Ordnung) S = Z w i
i
S
i
,
(1.11)
der, interpretiert in der Mechanik, die Koordinate des Schwerpunktes der Wahrscheinlichkeitsfunktion angibt, wenn die Wj als normierte Massen mit den Koordinaten Sj aufgefaßt werden. I n der hier mehr interessierenden elektrischen Interpretation stellt bei Auffassung der zufälligen Variablen als Strom oder Spannung der lineare Mittelwert den Gleichstrom- bzw. Gleichspannungsanteil d a r ; f ü r das Beispiel des Telegrafiesignals (Abb. 1) mit den Amplitudenwerten = 0 und s 2 = l und den zugehörigen Wahrscheinlichkeiten u n d w2 (Abb. 2) ergibt sich als linearer Mittelwert S = 0 • w1 + 1 • w2 = w2 bzw. mit den Zahlenwerten des Beispiels ein Gleichspannungsanteil von 0,6 Volt. F ü r k = 2 ergibt sich der quadratische Mittelwert (Moment 2. Ordnung) ~S2 = Z w i s h
(1-12)
i
der in der Interpretation der zufälligen Variablen als Strom oder Spannung die mittlere Leistung am Widerstand R = 1 Ohm entsprechend der Beziehung —
N = i2 R = — darstellt. Von Bedeutung sind ferner noch die zentralen Momente k-ter Ordnung, die Momente in bezug auf den linearen Mittelwert darstellen: \S~-$)k = Z w i h - S f .
(1.13)
i
Hierbei ist wiederum das zentrale Moment 2. Ordnung JS-
S)2 = ¥ - 2 S S + S2 = S* - S2 = a2
(1.14)
von besonderem Interesse; wie Gl. (1.14) zeigt, läßt sich das zentrale Moment 2. Ordnung durch das gewöhnliche Moment 2. Ordnung abzüglich des Quadrates 2
12
I. Diskrete Information
des linearen Mittelwertes ausdrücken. Für den Fall, daß der lineare Mittelwert Null ist, fallen zentrale und gewöhnliche Momente zusammen. Die in der Mechanik als der Satz von S T E I N E R bekannte Beziehung (1.14) liefert in der Interpretation mit elektrischen Größen Wechselleistung = Gesamtleistung — Gleichleistung. In der Wahrscheinlichkeitsrechnung wird das zentrale Moment 2. Ordnung als mittlere quadratische Abweichung der zufälligen Variablen S vom Mittelwert S, Dispersion (Streuung) oder Varianz bezeichnet; die Wurzel aus der Varianz wird als Standardabweichung a bezeichnet und entspricht in der elektrischen Interpretation dem Effektivwert der Wechselgröße. Die Dispersion ist mit die wichtigste aus der Wahrscheinlichkeitsfunktion abgeleitete Größe; sie ist ein Maß für die Streuung der zufälligen Variablen um den Mittelwert, und mit der Kenntnis ihres Wertes läßt sich eine Reihe quantitativer Abschätzungen durchführen, von denen zunächst als Vorstufe für das bereits angekündigte Gesetz der großen Zahlen die T s c H E B Y S C H E F F s c h e 1 ) Ungleichung behauptet und bewiesen werden soll. Es gilt für ein beliebiges £ > 0 W(\s - S\ > e) < ~ .
(1.15)
In Worten: Die Wahrscheinlichkeit der absoluten Abweichung der zufälligen Variablen vom Mittelwert um mehr als e ist kleiner oder gleich der Dispersion, dividiert durch e2. Beweis: Entsprechend Gl. (1.4) ist -S\^e)=
£ wit \s-s\ie wobei die Summation über die wt zu erstrecken ist, die im Bereich der die Ungleichung unter dem Summenzeichen erfüllenden Werte der zufälligen Variablen liegen (schraffierter Bereich in Abb. 4). Da im Summationsgebiet voraussetzungsgemäß 1 gilt, ist
_ y Zl,
|S — |
w^ oo ist es praktisch sicher, daß die relative Häufigkeit um weniger als e von der Wahrscheinlichkeit abweicht. Damit ist die Berechtigung der Interpretation der Wahrscheinlichkeit als relative Häufigkeit bei großem n gerechtfertigt; die Konvergenz der Wahrscheinlichkeit der Ungleichung gegen Eins besagt aber nicht, daß die relative Häufigkeit mit wachsendem n gegen w
1. Diskrete Quellen und ihre Eigenschaften
15
konvergiert, wie schon in der Diskussion zu Gl. (1.8) bzw. Abb. 3 festgestellt wurde; Gl. (1.20) besagt auch noch nicht, daß die relative Häufigkeit mit der Wahrscheinlichkeit Eins gegen die Wahrscheinlichkeit w konvergiert; deshalb stellt das BERNOULLische Gesetz auch nur ein schwaches Gesetz der großen Zahlen dar. Um eine Größenvorstellung über die praktisch auftretenden Zahlenwerte zu erhalten, werde gefordert: e = 10" s , ferner soll in Gl. (1.19) W > 1 - 10 3 sein; dann ergibt sich ein erforderliches n selbst unter Berücksichtigung der etwas schärferen Ungleichung (1.18) mit 10~3 =
4 n
^ ^
von n = 0,25- 10 9 !, d. h. es
ist wirklich eine sehr große Zahl von Signalen erforderlich, um eine Übereinstimmung von l°/00 zu gewährleisten; untersucht man eine große Anzahl von Signalfolgen von je 250 Millionen Signalen, wobei die Wahrscheinlichkeit w für das Auftreten einer Eins w = 0,5 sei, so werden 9 9 , 9 % aller Folgen den Wert 1 mit einer zwischen 124,750 Mio und 125,250 Mio liegenden Häufigkeit bieten, nur l°/00 der Folgen wird ein davon abweichendes Verhalten zeigen. Die im Vorstehenden für eine zufällige Folge unabhängiger Signale mit zwei diskreten Werten bewiesenen Behauptungen, die relative Häufigkeit betreffend, lassen sich auf eine beliebige Anzahl von Werten erweitern, wenn die jeweils nicht betrachteten Werte als Alternative gegenüber dem in B e t r a c h t gezogenen Wert der zufälligen Variablen bzw. dessen relativer Häufigkeit aufgefaßt werden. 1.2
MARKOir-Prozesse
Das bisher betrachtete einfachste Modell einer diskreten Nachrichtenquelle als zufällige Folge unabhängiger Symbole bzw. Signale spiegelt die tatsächlichen Verhältnisse in nur sehr beschränktem Umfang wider. Am Beispiel der deutschen Schriftsprache zeigt sich dies ganz deutlich; so ist z. B . der Buchstabe u durchaus nicht unabhängig von den vorausgegangenen Buchstaben, sondern im Falle eines vorausgegangenen q folgt entsprechend den Regeln unserer Rechtschreibung mit Sicherheit ein u, dagegen sind z . B . zwei aufeinanderfolgende y äußerst unwahrscheinlich. Diese weitergehenden inneren Gesetzmäßigkeiten der Sprache, die allerdings in nur wenigen Fällen so klar als Gesetzmäßigkeiten mit Wahrscheinlichkeiten Null oder Eins zutage treten, bedürfen zu ihrer Beschreibung einer größeren Zahl von Parametern, als sie in erster Näherung durch die Buchstabenwahrscheinlichkeiten gegeben sind. Auch andere praktische Nachrichtenquellen sind im allgemeinen mehr gesetzmäßig als ein „Würfelspiel". Der nächstkomplizierte zufällige Prozeß, der die Abhängigkeit zweier aufeinanderfolgender Symbole berücksichtigt, ist der MARKOFF-Prozeß, in der diskreten Form „MARKOFFsche K e t t e " genannt. Die aufeinanderfolgenden Phasen oder Zustände der MARKOFFSchen K e t t e werden mit Sf> bezeichnet, wobei (k) die Ordnungszahl des Zustandes kennzeichnet. Mit dem Übergang in einen
16
I. D i s k r e t e I n f o r m a t i o n
Zustand wird jeweils ein Symbol der n verschiedenen Symbole produziert. Beim MARKOFF-Prozeß 1. Ordnung mit statistischer Abhängigkeit zweier aufeinanderfolgender Zustände existieren maximal n 1 Zustände mit n l " 1 Übergängen zwischen den Zuständen bei n Symbolen. Diese Übergänge von einem Zustand zum anderen werden durch n 2 Übergangs- oder bedingte Wahrscheinlichkeiten IFjsfj1',S f ) = ^ ^ ^ = (j) (1.21) wtä'-V) gesteuert, die sich in Matrixform anordnen lassen und angeben, mit welcher Wahrscheinlichkeit sich die ,,MARKOFFsche K e t t e " , die sich im Zustand befindet, beim ¿-ten Übergang in den Zustand S j übergeht. Die Folge von Zuständen bildet eine MABKOFF-Kette 1. Ordnung, wenn die Übergangswahrscheinlichkeit nur vom 1. Zustand vor dem Übergang und nicht von beliebigen vorausgegangenen Zuständen abhängt, wenn also gilt W(S?-»\Sf)
w f \ j ) = JTOSf- 1 * |) = JF(S(0>, S (1) , . . . , £ , S?-»|
Äf>) .
(1.22)
Da mit Sicherheit bei jedem Übergang einer der n Zustände eintreten muß, gilt ¿ w f \ j ) = 1.
(1.23)
Ist die Matrix dieser Übergangswahrscheinlichkeit bei jedem Übergang gleich, d. h. sind die w f \ j ) von der Ordnungszahl des Überganges unabhängig gemäß w f \ j ) = wdj) ,
(1.24)
so bezeichnet man die Kette als homogen; die MABKOFF-Kette 1. Ordnung ist damit bei n verschiedenen Symbolen entsprechend einer Zahl von n2 Übergängen durch die quadratische Matrix mit n2 Übergangswahrscheinlichkeiten /w 1 (l)w 1 (2) . . - W j W x («*(/))= h " 2 ( l )
1
(1-25)
\m>»(1) / gekennzeichnet. Auf Grund von Gl. (123) ist die Summe jeder Zeile gleich Eins, so daß nur n2 — n Zahlen vorgebbar sind. Die Homogenität der K e t t e ist beispielsweise nicht gewährleistet, wenn die Nachrichtenquelle von deutschem auf russischen oder englischen Sprachtext übergeht, da dann andere Übergangswahrscheinlichkeiten existieren. Die Wahrscheinlichkeit der Aufeinanderfolge einer Reihe von m bestimmten Zuständen, wenn die Wahrscheinlichkeit des Anfangszustandes mit gegeben ist, beträgt lf(m)
= Keo)2.
(i-29)
und durch Induktion erhält man die für die Theorie der homogenen Ketten bedeutsame Gleichung Wi(i)m = E wdk)i k
w
k(j)m-l
mit
1
Sä l < m
MABKOFFschen
(1.30)
18
I. Diskrete Information
bzw. =
(Wiij),,,)
.
( W i i j ) ) 1 {wAj))™-'
(1.31)
Gl. (1.30) bzw. (1.31) besagt zunächst, daß die Wahrscheinlichkeit für den Zustand Sj nach m Übergängen noch von dem Anfangszustand abhängt. Nun sollte man aber annehmen, daß sich diese Abhängigkeit mit wachsendem m verringert, da die Fortpflanzung des Einflusses des Anfangszustandes nur über die jeweils aufeinanderfolgenden wt{j) erfolgt. Dies ist tatsächlich der Fall; unter der (hinreichenden) Voraussetzung, daß es eine Zahl k gibt derart, daß alle Elemente W i ( j ) k der Übergangsmatrix nach k Übergängen positiv sind, gilt nach MARKOFF [15J, [18]
lim
w{(j).„,
=
w(j)
m-> cc
> 0.
(1.32)
Diese sogenannten Grenzwahrscheinlichkeiten oder ergodischen1) Wahrscheinlichkeiten lassen sich unter der Voraussetzung ihrer Existenz aus Gl. (1.30) mit l = m — 1 w> = 1
_
—
'
einer
M ARKOFF-Kette
0. Ord-
nung für 2 Symbole (Folge zweier unabhän-
ist f ü r z w e i S y m -
giger Symbole)
bole in A b b . 6 dargestellt. D i e Z a h l der Z u s t ä n d e ist bei der K e t t e 1. O r d n u n g gleich der Z a h l der v e r schiedenen S y m b o l e .
D i e S u m m e der v o n einem Z u s t a n d w e g f ü h r e n d e n Ü b e r -
gangswahrscheinlichkeiten
W ( { j ) ist entsprechend
der
Normierung
der
Wahr-
w,(2)
iv2m Abb. 6. Graph einer MARKOFF-Kette 1. Ordnung für 2 Symbole scheinlichkeit f ü r das sichere E r e i g n i s gleich Eins.
F ü r den stationären Z u s t a n d
der K e t t e e r g i b t sich f ü r die W a h r s c h e i n l i c h k e i t eines Zustandcs entsprechend Abb. 6 w ( l ) = w ( l ) W j ( l ) + w ( l ) m>i(2) =
w ( l ) w x ( l ) + w(2)
w2( 1)
ablaufend, zulaufend,
(1.38)
d. h. i m Gleichgewichtszustand ist die W a h r s c h e i n l i c h k e i t eines Zustandes gleich der S u m m e der Ü b e r g a n g s w a h r s c h e i n l i c h k e i t e n , die v o n d e m Z u s t a n d w e g f ü h r e n , j e w e i l s m i t der W a h r s c h e i n l i c h k e i t des Ausgangszustandes m u l t i p l i z i e r t Z e i l e in Gl. (1.38)), aber auch gleich der S u m m e der
(erste
Übergangswahrscheinlich-
keiten, m u l t i p l i z i e r t m i t der W a h r s c h e i n l i c h k e i t des Ausgangszustandes, die auf den Z u s t a n d hinführen ( z w e i t e Zeile in G l . (1.38)).
Während
die erste
Zeile
nichts N e u e s b i e t e t , denn sie ist nach A u s k l a m m e r n v o n w( 1) w e i t e r nichts als die N o r m i e r u n g s b e d i n g u n g w>i(l) + rechnung v o n w ( l )
w 1 (2) =
1, g e s t a t t e t die z w e i t e Z e i l e die B e -
b z w . allgemein wegen der v o r a u s g e s e t z t e n Station a r i t ä t die
Berechnung der ergodischen oder Grenzwahrscheinlichkeiten
und ist identisch
m i t Gl. (1.33) b z w . (1.36). U n t e r B e r ü c k s i c h t i g u n g v o n Gl. (1.2) e r g i b t sich i m v o r l i e g e n d e n Beispiel f ü r die ergodischen W a h r s c h e i n l i c h k e i t e n nach k u r z e r R e c h n u n g
22
I . Diskrete Information
d.h. die Grenz Wahrscheinlichkeiten werden durch die Elemente der Matrix der Übergangswahrscheinlichkeiten, von denen im vorliegenden Fall nur zwei infolge der Normierungsbedingung vorgebbar sind, bestimmt. Daraus lassen sich ferner die Verbundwahrscheinlichkeiten w{\, 1) = W(1) W 1 (1),
«>(1,2) =w(l)wu-,*i(2) , 1,
w(2, 1) =
w(2, 2 ) =
w(2)
1) ,
w(2) iv 2{2) »»(2)
J
für das Eintreten der Symbolfolge i, j bestimmen. Im vorliegenden speziellen Fall mit n = 2 gilt mit (1.39) w(l,2) = w(2, 1); allgemein gilt für r = 1 im stationären Zustand = £
(i> j) = £
w
und (1.40)
ü> i).
(i-4i)
w
j
wobei der erste Teil der Gleichung (1.41) aus Gl. (1.23), der zweite Teil aus Gl. (1.33) mit w(i, j) = w(i) w^j) auf Grund der für eine stationäre Kette gültigen Unabhängigkeit der Symbolwahrscheinlichkeiten von der Ordnungszahl des Uberganges gemäß Gl. (1.35) folgt. Nachfolgend ein Zahlenbeispiel für eine Kette mit drei Zuständen mit untenstehender Matrix der Übergangswahrscheinlichkeiten (die Voraussetzung für die Existenz der ergodischen Wahrscheinlichkeiten nach Gl. (1.32) ist im Beispiel bereits für k = 2 erfüllt, denn in (wj(;')2) = (w*:(?))2 sind alle Elemente größer als Null) und den daraus berechneten stationären einfachen und Verbundwahrscheinlichkeiten der Symbole sowie einer typischen Realisierung (Übereinstimmung der relativen Häufigkeiten mit den Wahrscheinlichkeiten) 0,3
0,6\
0,5
Ol,
0,1
/1-0,1 «(1):„(2):„) = 1 , /
\n -*• co ' k = 1
(1.42)
d.h. mit der Wahrscheinlichkeit Eins konvergiert der arithmetische Mittelwert der zufälligen Variablen, gebildet aus den bei einer Realisierung aufeinanderfolgenden, den Zuständen entsprechenden Werten, für n —*• oo gegen den linearen Mittelwert (oder Moment 1. Ordnung) der zufälligen Variablen für den ersten (oder einen beliebigen) Zustand. Die Gl. (1.42) ist eine spezielle Form einer Reihe von Ergodensätzen [18], die, grob gesagt, für zufällige Prozesse die Voraussetzungen dafür angeben, daß zeitliche Mittelwerte einer Realisierung gegen die statistischen Mittelwerte über die gesamte Menge der Realisierungen (Ensemblemittelwerte) konvergieren; da in der Praxis immer nur eine sehr beschränkte Zahl von Realisierungen zur Verfügung steht, ist die Möglichkeit, die statistischen Mittelwerte aus einer einzigen Realisierung zu erhalten, von großer praktischer Bedeutung. Ordnet man den Zuständen S1 und S2 der MARKOFFschen K e t t e nach Abb. 6 die Werte Sj und s2 zu und betrachtet die Folge der zufälligen Variablen (11) w>n(l) + w(21) w 21 (l) usw. bzw. allgemein M h
?) =
U k
i) wki(j)
,
i,j,k=
1,2.
(1.44)
Ferner gilt auch wegen der Normierungsbedingung f ü r die Übergangswahrscheinlichkeiten, 2J w ij(k) = i , k «>(», j) =
E k
M h
j) wtj(k),
(1.45)
und aus Gl. (1.44) u. Gl. (1.45) folgt analog zu Gl. (1.41) w
(h Í) = U w{k, i, j) = 2J m>(», j, k) . k
(1-46)
k
Die Existenz der ergodischen Wahrscheinlichkeiten nach Gl. (1.32) läßt sich außer an der Positivität aller Elemente der Übergangsmatrix w¡(j)k nach k Übergängen auch direkt an der S t r u k t u r des zu der MAEKOFF-Kette gehörigen Graphen ablesen, wobei die an einen Graphen zu stellenden Bedingungen f ü r die Existenz der ergodischen Wahrscheinlichkeiten der Zustände auch f ü r Prozesse höherer als erster Ordnung gelten; ein Prozeß, f ü r den die ergodischen Wahrscheinlichkeiten existieren, wird im folgenden kurz ergodischer Prozeß genannt. Die Bedingungen an den Graph, daß der zugehörige Prozeß ergodisch ist, lauten [55]:
1. Diskrete Quellen und ihre Eigenschaften
25
1. Der Graph darf nicht aus zwei isolierten Teilen bestehen derart, daß es unmöglich ist, entlang den Übergangslinien des Graphs in Pfeilrichtung von dem einen Teil in den anderen und zurück zu gelangen. 2. Der größte gemeinsame Teiler der Zahl der verschiedenen, einen geschlossenen Kreis bildenden Übergänge darf nicht größer als Eins sein; anderenfalls weist der Prozeß eine gewisse periodische S t r u k t u r auf. Zwei Beispiele sollen die beiden Bedingungen erläutern und den Zusammenhang mit den an die Übergangsmatrix zu stellenden Bedingungen f ü r einen ergodischen Prozeß aufzeigen. Abb. 8 stellt einen Graph f ü r einen Prozeß, derdie 1. Bedingung f ü r die Ergodizität verletzt, d a r ; ein Übergang von Zustand 3 in Zustand 2 u n d umgekehrt ist nicht möglich, der Graph zerfällt in zwei Teile oder zwei Klassen; der Zustand 1
7 Abb. 8. Graph einer nichtergodischen, zerfallenden MAKKOFF-Kette 1. Ordnung mit 3 Zuständen
ist ein vorübergehender Zustand, der nur als Anfangszustand auftreten k a n n , d a w(( 1) = 0, während die Zustände 2 und 3 wesentliche Zustände mit zu- u n d ablaufenden Übergangswahrscheinlichkeiten größer Null darstellen. Die verschiedenen Realisierungen dieses Prozesses l a u t e n : 122 . . . 133 • • • 222 . . . 333. Aus der Übergangsmatrix ergibt sich, d a ß Potenzieren wieder auf die gleiche Matrix f ü h r t , d . h . m a n k a n n kein k finden, f ü r das alle Elemente der Übergangsmatrix nach 1c Übergängen größer als Null sind, d . h . die Bedingung f ü r die Existenz der ergodischen Wahrscheinlichkeiten nach Gl. (1-32) ist nicht erfüllt. Abb. 9 stellt einen Graph f ü r einen Prozeß, der die 2. Bedingung f ü r die Ergodizität verletzt, d a r ; es existieren zwei geschlossene Kreise mit einem gemeinsamen größten Teiler Zwei der Zahl der Übergänge, d . h . es t r i t t eine Periodizität nach zwei Übergängen auf; eine typische Realisierung besitzt etwa folgende F o r m : 121213121313. Aus der Übergangsmatrix (w^j)) ergibt sich, d a ß die Übergangsmatrizen nach m Übergängen (w¡(/)m) f ü r m = 2 k und m = 2 & + 1, k= 1 , 2 , . . . untereinander gleich sind und sich periodisch wiederholen; die Bedingung der Positivität aller Elemente ist nicht erfüllt. Nach der Klassifikation der Zustände einer M a r k o f f 3
Informationstheorie
26
I. Diskrete Information
Kette nach KOLMOGOROFF [29]1) bezeichnet man einen wesentlichen Zustand St als periodisch, wenn es eine natürliche Zahl d > 1 gibt, so daß für alle durch d nicht teilbaren m die Beziehung wt(i)m = 0 gilt; die Zahl d ist im vorliegenden Fall gleich Zwei, und da alle Diagonalelemente der Übergangsmatrizen nach m = 2 k J r 1 Übergängen verschwinden, sind alle drei Zustände periodisch.
1. Ordnung mit 3 Zuständen
Abschließend hierzu noch ein Beispiel für einen entarteten MARKOFF-Prozeß, der eine vollständig determinierte Folge liefert. Wie aus Abb. 10 hervorgeht, werden alle drei Zustände zyklisch durchlaufen. Die Übergangsmatrizen sind nach w Übergängen für m = 3 k, 3 k + 1 und 3& + 2, & = 0, 1 , 2 jeweils untereinander gleich, die einzig mögliche Realisierung (bis auf eine Verschiebung) lautet 123123 . . . .
1. Ordnung für 3 Zustände
Wie durch Berücksichtigung statistischer Abhängigkeiten steigender Ordnung bei der Schriftsprache ein der Wirklichkeit immer näher kommendes Abbild der Nachrichtenquelle Sprache geschaffen wird, zeigen sehr eindrucksvoll Realisierungsbeispiele von SHANNON [57] für die englische und KÜPFMÜLLER [30] für die deutsche Schriftsprache. Als nullte Näherung kann man die zufällige Folge unabhängiger Symbole ansehen, bei der alle Symbole die gleiche Wahrscheinlichkeit besitzen. Für die A. N. KOLMOGOROFF, sowj. Mathematiker.
1. Diskrete Quellen u n d ihre E i g e n s c h a f t e n
27
26 Buchstaben des deutschen als auch des englischen Alphabets und einen Wortzwischenraum als 27. Symbol ergibt sich beispielsweise die Folge MOTCFBIWQK N J R B U E J Q P H L Y N D U B A F W . Als erste Näherung ergibt sich die Folge unabhängiger Symbole mit der Wahrscheinlichkeit der Symbole entsprechend der deutschen bzw. englischen Schriftsprache. Nach KÜPFMÜLIJER [30] lautet eine typische deutsche SymbolfoJge EME GKNEET ERS TITBL BTZENFNDBGD E A I E LASZ B E T E A T R IASMIRCH EGEOM; es sind ohne weiteres Symbol E irnd Wortzwischenraum als häufigste Symbole erkennbar. Eine entsprechende erste Näherung der englischen Sprache lautet [57] OCRO H L I R G W R N M I E L W I S E U L L N B N E S E B Y A T H E E I A L H E N H T T P A OOBTTVA N A H B R L . Als zweite Näherung ergibt sich die MARKOFF-Kette 1. Ordnung mit den der jeweiligen Sprache entsprechenden Übergangswahrscheinlichkeiten oder verbundenen Wahrscheinlichkeiten zweier aufeinanderfolgender Symbole. Eine Realisierung dieser K e t t e f ü r die deutsche Sprache ist beispielsweise AUSZ K E I N U W O N D I N G L I N D U F R N I S A R STEISBERER ITEHM ANORER und vergleichsweise f ü r englisch ON I E ANTSOUTINYS A R E T I N C T O R E ST B E S D E A M Y A C H I N D ILONASIVE TUCOOWE AT T E A S O N A R E F U S O T I Z I N ANOY T O B E SEACE CTISBE. An H a n d einzelner Silben oder teilweise auch Wörter sind bereits die ersten Ähnlichkeiten mit der jeweiligen Sprache zu erkennen. Die dritte Näherung stellt die MARKOFF-Kette 2. Ordnung d a r ; hierbei sind die Übergangswahrscheinlichkeiten oder die verbundenen Wahrscheinlichkeiten dreier aufeinanderfolgender Symbole w(i, j, k) = w(i, j) wtj(k) der Sprache berücksichtigt. Als Realisierungsbeispiel f ü r die deutsche Sprache ergibt sich P L A N Z E U D G E S P H I N I N E U N D E N V E B E I C H T GES A U F ES SO U N G GAN D I C H W A N D E R S O und f ü r die englische Sprache I N NO IST LAT W H E Y CRACTICT F R O U R E B I R S GROCID P O N D E N O M E O F D E M O N S T U R E S O F T H E R E P T A G I N IS REGOACTIONA O F C R E ; kurze Wörter sind hierbei schon als zu dem Wortschatz der jeweiligen Sprache zugehörig zu erkennen. Ein Beispiel f ü r eine vierte Näherung f ü r die deutsche Sprache lautet schließlich ICH FOLGEMAESZIG B I S S T E H E N D I S P O N I N S E E L E NAMEN. 3
28
I. Diskrete Information
U m die Verbundwahrscheinlichkeiten höherer O r d n u n g m i t möglichst großer Zuverlässigkeit aus den relativen Häufigkeiten bestimmen zu können, m u ß , wie schon bei Gl. (1.37) a u s g e f ü h r t , eine mit der O r d n u n g steigende Zahl von Symbolfolgen, im Falle der Schriftsprache entsprechend umfangreichere Texte, ausgew e r t e t werden. Die A n n ä h e r u n g ist vollständig, wenn bei den bedingten W a h r scheinlichkeiten die N ä h e r u n g e n höherer O r d n u n g keine Ä n d e r u n g m e h r hervorrufen, d.h. wenn gilt Wir V-, • • • (?) =
W
inin-1 • • • i, 0') >
n>T
.
(1.47)
Die Zahl r stellt d a n n die zur vollständigen statistischen Beschreibung der Nachrichtenquelle erforderliche O r d n u n g der MAEKOIT-Kette dar. Die E x i s t e n z einer endlichen Zahl r u n d d a m i t eines zugehörigen Graphen m i t endlich vielen Zus t ä n d e n ist eine notwendige Voraussetzung f ü r das Existieren der ergodischen Wahrscheinlichkeiten u n d d a m i t der E r g o d i z i t ä t des Prozesses. Inwieweit dies bei einer praktischen Nachrichtenquelle erfüllt ist, k a n n n u r experimentell erm i t t e l t werden; da diese E r m i t t l u n g praktisch meist nicht d u r c h f ü h r b a r ist, wird die Ergodizität in vielen Untersuchungen als H y p o t h e s e vorangestellt. Abschließend soll noch b e m e r k t werden, d a ß auch die vollständige statistische Beschreibung der Nachrichtenquelle noch keine Nachrichtenquelle zu konstruieren g e s t a t t e t , deren Realisierungen sinnvolle Nachrichten darstellen. 2. Entropie diskreter Quellen Auf der Grundlage des im 1. K a p i t e l entwickelten m a t h e m a t i s c h e n Abbildes diskreter Nachrichtenquellen in F o r m von MARKOFF-Ketten, deren Realisierungen m i t den von praktischen Nachrichtenquellen gelieferten Nachrichten, a b s t r a h i e r t von ihrem b e d e u t u n g s m ä ß i g e n I n h a l t , in ihrer statistischen S t r u k t u r übereinstimmen, sind n u n die Voraussetzungen f ü r eine sinnvolle Definition der Inform a t i o n gegeben. Wie einleitend b e m e r k t wurde, sind Signale n u r d a n n T r ä g e r von I n f o r m a t i o n , wenn sie nicht vollständig vorhersagbar sind. Bei den von einer Nachrichtenquelle gelieferten Symbolen oder Signalen m u ß also n a c h E m p f a n g •einer gewissen Anzahl f ü r das folgende Symbol eine Unsicherheit bestehen, die •erst n a c h E m p f a n g dieses Symbols beseitigt, d . h . in Sicherheit u m g e w a n d e l t w i r d ; diese Unsicherheit wird f ü r die einzelnen Symbole im allgemeinen verschieden sein, u n d zwar f ü r seltene Symbole größer als f ü r häufige. E s erscheint d e m n a c h sinnvoll, zu definieren: I n f o r m a t i o n ist beseitigte Unsicherheit, u n d es gilt n u n , ein geeignetes Maß f ü r die Unsicherheit zu finden. Hierbei interessiert nicht die hinsichtlich eines b e s t i m m t e n Symbols bestehende Unsicherheit, sondern der Mittelwert, gebildet über alle verschiedenen Symbole; d e n n n u r diese mittlere Unsicherheit, bezogen auf ein Symbol, charakterisiert die Quelle als Ganzes. E s w a r das Verdienst von S H A N N O N [56], den aus der T h e r m o d y n a m i k geläufigen Begriff der E n t r o p i e n a c h einigen Abwandlungen als Maß f ü r die m i t t -
2. Entropie diskreter Quellen
29
lere Unsicherheit u n d I n f o r m a t i o n einer Nachrichtenquelle in die Nachrichtentheorie eingeführt zu h a b e n ; in welchem Maße die Entropie 1 ) auch ein f ü r die technische N a c h r i c h t e n ü b e r t r a g u n g geeignetes Maß der von einer Nachrichtenquelle gelieferten I n f o r m a t i o n ist, wird in vollem U m f a n g erst im 3. K a p i t e l über die K o d i e r u n g diskreter Nachrichtenquellen ersichtlich werden. I n den folgenden Abschnitten wird zunächst eine q u a n t i t a t i v e Definition f ü r die E n t r o p i e einer Quelle m i t statistisch u n a b h ä n g i g e n Symbolen angegeben u n d hinsichtlich ihrer Eigenschaften u n t e r s u c h t ; darauf a u f b a u e n d werden die E n t r o pien f ü r die im 1. K a p i t e l in F o r m von MARKO FF-Ketten höherer O r d n u n g dargestellten Nachrichtenquellen entwickelt. 2.1 E i n f a c h e E n t r o p i e N a c h A b s c h n i t t 1.1 w a r das einfachste m a t h e m a t i s c h e Abbild einer Nachrichtenquelle eine zufällige Folge, gekennzeichnet d u r c h die Zahl n ihrer verschiedenen Symbole u n d die diesen Symbolen zugeordneten Wahrscheinlichkeiten w{ . Die bei dieser Nachrichtenquelle bei der Lieferung eines Symbols bestehende mittlere Unsicherheit ist durch die E n t r o p i e erster O r d n u n g n . . . , Wn )
=
—
«log
J J W i
¿=1
(2.1)
Wi
gegeben, wobei noch m i t Gl. (1.2) gilt n
2>< = i ; ¿=i
(2-2)
die Basis a des L o g a r i t h m u s soll hierbei zunächst noch offen bleiben; denn wegen a log
x = „log b 6 log x
ist eine Ä n d e r u n g der Basis gleichbedeutend m i t der Multiplikation m i t einer K o n s t a n t e n , so d a ß die W a h l der Basis gleichbedeutend m i t der W a h l der Maßeinheit f ü r die Größe H 1 ist. Es sollen jetzt die Eigenschaften der durch Gl. (2.1) definierten E n t r o p i e u n t e r sucht werden, u m zu ü b e r p r ü f e n , ob die sich d a r a u s ergebenden Folgerungen n i c h t im Widerspruch zur praktischen E r f a h r u n g stehen. In mehr m a t h e m a t i s c h e n Darstellungen [2], [8], [56] werden einige der im folgenden aus der durch Gl. (2.1) gegebenen Definition der E n t r o p i e abgeleiteten Eigenschaften als Axiome vorangestellt u n d gezeigt, d a ß H x die einzige d e m Axiomensystem genügende F u n k t i o n ist. Aus lim x l o g « = 0 folgt, d a ß die wit die identisch Null sind, keinen B e i t r a g zur E n t r o p i e liefern; d a m i t folgt m i t log 1 = 0 u n d Gl. (2.2) H^w,,
. . .,
wn )
= 0 für
Wi
= ° 1
Entropie: [griech.] entrepein: umkehren.
4 i
+
—
m m
'
,
1^
m