224 86 10MB
German Pages 212 Year 1991
Linguistische Arbeiten
264
Herausgegeben von Hans Altmann, Peter Blumenthal, Herbert E. Brekle, Hans Jürgen Heringer, Heinz Vater und Richard Wiese
Siegfried Kunzmann
Die Worterkennung in einem Dialogsystem für kontinuierlich gesprochene Sprache
Max Niemeyer Verlag Tübingen 1991
CIP-Titelaufnahme der Deutschen Bibliothek Kunzmann, Siegfried : Die Worterkennung in einem Dialogsystem für kontuierlich gesprochene Sprache / Siegfried Kunzmann. — Tübingen : Niemeyer, 1991 (Linguistische Arbeiten ; 264) NE: GT ISBN 3-484-30264-X
ISSN 0344-6727
© Max Niemeyer Verlag GmbH & Co. KG, Tübingen 1991 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Druck: Weihert-Druck GmbH. Darmstadt Einband: Heinr. Koch, Tübingen
Zum Geleit Die Kommunikation mit einer Maschine über gesprochene Sprache verspricht eine einfache und rasche Nutzung der Informationsverarbeitungs- und -speicherungsmöglichkeiten von datenverarbeitenden Systemen. Ein Teilproblem ist dabei die Worterkennung in fließender Rede, in der normalerweise Wortgrenzen fehlen. Die Erkennung der Wörter sollte mit großer Zuverlässigkeit, sprecherunabhängig, mit genügend großem Wortschatz, unter Tolerierung von Nebengeräuschen und in Echtzeit erfolgen. Um diese Ziele zumindest teilweise zu erreichen sind umfangreiche experimentelle Untersuchungen mit unterschiedlichen Ansätzen erforderlich. Das vorliegende Buch präsentiert ein Experimentiersystem für diesen Zweck sowie experimentelle Ergebnisse, die damit erzielt wurden. Zur Zeit sind in das System laut- und lautkomponenten-basierte Verfahren zur Worterkennung auf der Basis von Hidden-Markov-Modellen integriert. Das Buch enthält dazu eine Fülle von Einzelheiten und Ergebnissen. Die Worterkennung wird unterstützt durch eine syntaktische Analyse mit einer kontextfreien Grammatik. Eine entsprechende Benutzeroberfläche steht zur Verfügung. Damit liegt ein System vor, das systematische Experimente zur Worterkennung wirkungsvoll unterstützt. H. Niemann
Inhaltsverzeichnis Vorwort 1
2
3
4
Einführung
xi 1
1.1
Automatisches Erkennen und Verstehen von Sprache
1
1.2
Spracherkennungssysteme
3
1.3
Das Spracherkennungs- und Dialogsystem EVAR
7
1.4
Die Komponenten des Erkennungs- und Dialogsystems EVAR
9
1.5
Charakterisierung der Worterkennung im Spracherkennungssystem
14
1.6
Konzept der Arbeit
17
Ein flexibles Experimentiersystem zur Worterkennung
20
2.1
Anforderungen an ein Experimentiersystem zur Worterkennung
20
2.2
Aufbau des Experimentiersystems
21
2.3
Beispielkonfigurationen für verschiedene Aufgabenstellungen der Worterkennung
24
2.4
Beurteilungskriterien für Vergleichsverfahren
27
Erzeugen von Aussprachemodellen
32
3.1
Variation der Aussprache in kontinuierlich gesprochener deutscher Sprache
32
3.2
Definition von Regelsätzen für Aussprachevarianten
36
3.3
Repräsentation und Konstruktion von Aussprache-Referenzmodellen
39
3.4
Automatisches Erzeugen von Aussprachemodellen anhand eines Lexikons
43
3.5
Interaktives Erzeugen von Aussprachemodellen
45
3.6
Einbettung der lexikalischen Einheit in das Experimentiersystem
46
Hidden-Markov-Modelle
49
4.1
49
Einführung in die theoretischen Grundlagen
4.2
Das Vergleichsverfahren
53
4.3
Schätzung der Modellparameter
55
4.4
Berechnungsvorschriften für kantenorientierte Hidden-Markov-Modelle
58
4.5
Ersetzung der Kanten der Aussprachemodelle durch elementare Markov-Modelle
59
viii
5
Klassifikation vorgegebener Zeitbereiche mit Hidden-Markov-Modellen anhand kleiner Modellinventare
64
5.1
Motivation der Aufgabenstellung
64
5.2
Konkretisierung der Parameterschätzung und des Vergleichsverfahrens für HMM
5.3
6
7
mit kontinuierlichen Ausgabeverteilungen
67
Versuchsaufbau und Ergebnisse
71
Explizite Segmentierung in Wortuntereinheiten mit Hidden-Markov-Modellen
79
6.1
Struktur des Segmentierers
79
6.2
Bestimmung einer Initialsegmentierung und Suche der optimalen Zerlegung
82
6.3
Versuchsergebnisse
85
Positionieren von Aussprachemodellen mit Hidden-Markov-Modellen (großer Wortschatz 7.1
Vergleichsverfahren und Parameterschätzung für Aussprachemodelle auf der Basis von Wortuntereinheiten
8
9
93
93
7.2
Positionieren von Aussprachemodellen durch 'Vertikale Summation'
103
7.3
Einflußgrößen zur Erzeugung und Normierung von Hypothesen
111
Verifizieren von Hypothesen mit Hidden-Markov-Modellen
121
8.1
Verschiedene Gründe für die Verifikation von Hypothesen
121
8.2
Verifizieren von Hypothesen auf Laut- und Lautkomponentenebene
122
8.3
Verifizieren von Worthypothesen bei Verwendung von Aussprachevarianten
127
Verifizieren von Hypothesen mit dynamischer Zeitverzerrung (DTW)
131
9.1
Funktionsprinzip
131
9.2
Abstandsmaße zur Berechnung der Ähnlichkeit
136
9.3
Globale Wegbeschränkung, Überführungsregeln und Bewertungsnormalisierung
139
10 Eine Suchstrategie zur kontextfreien Analyse von Wortkettenhypothesen unter Verwendung von Hidden-Markov-Modellen
143
10.1 Der A*Algorithmus zur Suche von Wortketten
143
10.2 Konkretisierung des Suchverfahrens zur kontextfreien Analyse von Wortketten
146
10.3 Versuchsergebnisse
154
ix 11 Erwartungsgesteuerte Analyse von Wortketten 11.1 Einbettung der Worterkennung in eine erwartungsgesteuerte Analyseumgebung 11.2
165 165
Untersuchungen zur erwartungsgesteuerten syntaktischen Analyse von Konstituentenhypothesen
167
12 Zusammenfassung
171
13 Literatur
177
14 Anhang
186
14.1
186
Liste der erkennbaren Lautkomponenten des Akustik-Phonetik-Moduls in E V A R
14.2 Liste der vereinbarten Lautklassen des Akustik-Phonetik-Moduls in E V A R
187
14.3
Regelsatz für Aussprachevarianten
189
14.4
Liste der Wortarten, semantischen Klassen und pragmatischen Konzepte
191
14.5
Modellinventar zur Unterscheidung von 14 Lautoberklassen
194
14.6
Lauterkennungsraten für unterschiedliche Modellinventare
195
14.7
Klassifikationsergebnisse aufgeschlüsselt nach 36 Lautklassen
196
14.8
Regelsatz zur Transkription von Lauten nach Lautkomponenten
197
14.9
Stichprobe für die Verifikationsverfahren mit dynamischer Zeitnormierung
197
14.10 Sprachumfang der ATN-Grammatiken
198
14.11 Stichprobe für die Konstituenten- und Satzanalyse
200
14.12 Erkennungsraten bei einer lokalen Beschränkung des Suchraums
200
Vorwort Seit vielen Jahren finden Computer einen immer stärkeren Einzug in die verschiedensten Lebensbereiche der Menschen. Um die Kommunikation zwischen einem menschlichen Benutzer und einem Computer möglichst einfach und flexibel zu halten, wird daher seit langem an direkten sprachlichen Zugangsmöglichkeiten gearbeitet. Damit eine hohe Akzeptanz durch einen Benutzer erreicht wird, sollte die Kommunikation mit der Maschine möglichst natürlichsprachlich geführt werden können. Zur Verwirklichung dieses Ziels muß sowohl der vom Computer zu erkennende Wortschatz, als auch die linguistische Kompetenz des Systems groß genug sein, um zumindest die gängigsten Satzkonstellationen ausdrücken zu können. Für einen flexiblen Informationsaustausch zwischen dem Menschen und einer Maschine ist allerdings das Erkennen Äußerungen allein nicht ausreichend, da die Maschine auch Verstehen
der Wörter der
muß, was der Benutzer
aussagen und damit erreichen will. Das vorliegende Buch beschäftigt sich mit der Untersuchung und Realisierung von Methoden zur Erkennung von natürlichsprachlichen Äußerungen. Neben einem Überblick über vorwiegend neuere spracherkennende und sprachverstehende Systeme wird sowohl auf die theoretische Behandlung, als auch auf die Realisierung von gängigen Verfahren in der Literatur und neu entwickelten Verfahren eingegangen. Die Methoden zur Erkennung der gesprochenen Wörter werden anhand verschiedener Beurteilungskriterien miteinander verglichen und bezüglich ihrer Eignung in einem System zur Erkennung von natürlich gesprochenen Äußerungen untersucht. Um dies zu ermöglichen, wurde ein flexibles Experimentiersystem entwickelt, welches die einfache Einbindung der realisierten Verfahren in ein sprachverstehendes System ermöglicht. Die Einbindung der Erkennungsverfahren wird anhand des Spracherkennungs- und Dialogssystems EVAR (Erkennen, Verstehen, Antworten, Rückfragen) demonstriert. Das Ziel dieses sprachverstehenden Systems ist das automatische Führen eines Auskunftsdialogs über Anfragen im Zusammenhang mit Intercity-Zügen. Die vorliegende Arbeit wurde am Lehrstuhl für Informatik 5 (Mustererkennung)
der
Technischen Fakultät der Universität Erlangen-Nürnberg erstellt. Die Realisierung des Experimentiersystems und die Untersuchung der Verfahren zur Erkennung von natürlich gesprochener Sprache wurden innerhalb der Verbundvorhaben "Sprachverarbeitung" (1985-1987) und "Sprachverstehende Systeme" (1988-1990) des Bundesministeriums für Forschung und Technologie (BMFT) durchgeführt. Mit einem herzlichen Dankeschön möchte ich mich an dieser Stelle bei Allen bedanken, die mich durch Anregungen und Diskussionen bei meinen Arbeiten an diesem Buch, sowie bei der Realisierung der Erkennungsverfahren unterstützt haben. Insbesondere gilt mein Dank: • Dem Leiter des Lehrstuhls, Herrn Prof. Dr. H. Niemann, für die Betreuung dieser Arbeit.
xii
• Herrn Prof. Dr. J. Swoboda und Herrn Dr. R. Ruske für Ihre Gutachtertätigkeit. • Den Kolleginnen und Kollegen am Lehrstuhl Informatik 5 (Mustererkennung) der Universität Erlangen-Nürnberg, besonders Herrn F. Popp und Herrn W. Obermayer. Für die rege Diskussionsbereitschaft möchte ich mich vor allem bei Herrn Dr. E. Nöth bedanken. • Den Studentinnen und Studenten, ohne deren Mitwirkung diese Arbeit nicht in diesem Umfang durchzuführen gewesen wäre. Insbesondere bedanke ich mich bei Herrn T. Kuhn für seine vielfältige Unterstützung bei der Realisierung. Ganz besonders möchte ich mich bei meiner Frau Monika und meinen Kindern Martin und Max für ihr großes Verständnis während des Entstehens dieser Arbeit bedanken. Siegfried Kunzmann
1 Einführung 1.1 Automatisches Erkennen und Verstehen von Sprache Zur Kommunikation eines menschlichen Benutzers mit einer Maschine werden heute meist formale Sprachen eingesetzt. Doch ist der Wunsch, dem Menschen einen einfacheren Zugang zu einem Computer zu ermöglichen, indem eine natürliche Sprache verwendet wird, schon recht alt. Insbesondere ist das Ziel, mit dem Computer unmittelbar sprechen zu können, seit vielen Jahren Gegenstand der Forschung. U m die Kommunikation zwischen dem Benutzer und einer Maschine möglichst flexibel zu gestalten, ist das Erkennen
einer Äußerung, d. h. das Wissen, welche Wörter in welcher
Reihenfolge gesprochen wurden, allein nicht ausreichend. Es ist vielmehr wichtig auch zu verstehen, was der Benutzer mit dieser Äußerung eigentlich aussagen und damit erreichen will. Dies erfordert also die Interpretation der Äußerung. Anhand von zwei Beispielen wird nun die große Bandbreite an Anforderungen demonstriert, die an spracherkennende und sprachverstehende Systeme gestellt werden können. Das erste System zur automatischen Erkennung von Sprache wurde schon 1952 von /Davis 52/ entwickelt. Dieses System konnte nach einer Adaption an einen Sprecher einzeln gesprochene Ziffern in über 97% der Fälle richtig erkennen. Die ersten größeren Arbeiten zum automatischen
Verstehen von kontinuierlich
gesprochener
Sprache unter Verwendung eines Lexikons mit mindestens 1000 Einträgen begannen vor ca. 20 Jahren im Rahmen des ARPA-SUR-Projekts (/Klatt 77/, Advanced Research Projects Agency Speech Understanding Research). Im Rahmen dieses Projekts entstanden vier sprachverstehende Systeme. Diese Arbeiten initiierten wachsende Forschungstätigkeiten auf diesem Gebiet. Der Prozeß des 'Verstehens von Sprache' läßt sich nach /Lea 80b/ folgendermaßen beschreiben: Speech recognition can be generally defined as the process of transforming the continuous speech signal into discrete representations which may be assigned proper meanings and which, when comprehended, may be used to affect responsive behavior. The ultimate goal is to understand the input sufficiently to select and produce an appropriate response. /Lea 80b, S. 40/ Die beiden Beispiele sind Extremfälle für die stark unterschiedlichen Anforderungen an Systeme zum 'automatischen Erkennen und Verstehen von Sprache'. Sie verdeutlichen allerdings, daß für die Beurteilung von Spracherkennungssystemen bezüglich ihrer Mächtigkeit und damit
ihrer
Schwierigkeitsgrade verschiedene Kriterien angewendet werden müssen: o Erkennung von Einzelwörtern (isolated words) vs. Erkennung von kontinuierlich gesprochener Sprache (connected words, continuous speech).
2 o Sprecherabhängigkeit vs. Sprecheradaption vs. Sprecherunabhängigkeit o Größe des Wortschatzes (Lexika mit einer kleinen (mehrere Hundert) bzw. großen (mehrere Tausend) Zahl von Einträgen). Die Erkennung von kontinuierlich gesprochener Sprache ist meist durch die Verwendung eines syntaktischen
Sprachmodells
zur
Bildung
der gültigen Wortketten
gekennzeichnet.
Das
Sprachmodell wird dabei durch eine zugrundeliegende Grammatik oder ein Netzwerk charakterisiert. Als Maß für die Komplexität der Erkennungsaufgabe hat sich der Begriff Perplexität (/Lee 88/, /Kimball 86/) etabliert, welcher ein Maß für die Zahl der Nachfolger in einer Grammatik oder einem Netzwerk angibt. Anhand der Verwendung des Sprachmodells während der Erkennungsphase lassen sich zwei Typen unterscheiden: ° Während der Erkennungsphase wird die Grammatik direkt zur Einschränkung der möglichen Fortsetzungen einer Menge von Wortkettenhypothesen verwendet (Links-Rechts-Suche), o Positionieren der Wörter im Sprachsignal (word Spotting) ohne die Verwendung einer Grammatik und anschließende Verkettung der Hypothesen anhand der Grammatik (LinksRechts-Suche oder Insel-Suche). Neben der Verwendung eines syntaktischen Sprachmodells lassen sich sprachverstehende Systeme z. B. durch die folgenden Fragestellungen charakterisieren: o Wie mächtig ist die linguistische Kompetenz des Systems? o Wie stark ist der Anwendungsbereich eingeschränkt? o Handelt es sich um ein Frage-Antwort-System? o Gibt es Möglichkeiten, vom Benutzer Informationen nachzufordern, um die Beantwortung einer Anfrage oder die Ausführung einer gewünschten Aktion zu ermöglichen? o Besitzt das System ein Dialoggedächtnis (z. B. zur Auflösung von Ellipsen)? Das Ziel dieser Arbeit ist die Entwicklung eines flexiblen Experimentiersystems für die automatische Wort- bzw. Wortkettenerkennung in kontinuierlich gesprochener Sprache. Das Experimentiersystem ist in ein Spracherkennungs- und Dialogsystem eingebunden und erlaubt das einfache Untersuchen und Integrieren von unterschiedlichen Suchstrategien nach Wort- bzw. Wortkettenhypothesen. Zur Unterstützung der Interpretation einer Äußerung können die Suchstrategien sowohl in einer datengetriebenen als auch in einer
erwartungsgesteuerten
Analyseumgebung eingesetzt werden. Für die Suche nach Wort- bzw. Wortkettenhypothesen wurden die folgenden Randbedingungen berücksichtigt: •
Sprecherunabhängigkeit.
• Erkennung eines großen Wortschatzes. • Behandeln von häufigen Aussprachevariationen in kontinuierlich gesprochener, deutscher Sprache. Im folgenden Abschnitt wird zunächst ein Überblick über vorwiegend neuere sprachverstehende und spracherkennende Systeme gegeben. Danach wird das Spracherkennungs- und Dialogsystem
3 EVAR mit seinen Komponenten beschrieben und die Aufgaben des Experimentiersystems innerhalb von EVAR charakterisiert. Mit den in das Experimentiersystem integrierten Suchverfahren läßt sich die gesamte Erkennungsphase von EVAR abdecken. Zum Schluß wird ein Überblick über den Aufbau der Arbeit gegeben.
1.2 Spracherkennungssysteme Im allgemeinen werden sprachverarbeitende Systeme anhand von Wort- oder Satzerkennungsraten verglichen. Ein direkter Vergleich ist häufig jedoch schwierig, da sowohl unterschiedliches Sprachmaterial als auch unterschiedlich schwierige Sprachmodelle verwendet werden. Weitere Probleme ergeben sich durch die Auswahl verschiedener Auswertungskriterien. Beispielhaft werden nun einige Systeme (vorwiegend neuere für das Erkennen bzw. Verstehen kontinuierlicher Sprache) in Form einer Auflistung charakterisiert. Weitere Gegenüberstellungen finden sich z. B. in /Mariani 89/, / L e e 88/, /Moore 85/ und /Lea 80a/. HEARSAY II (/Lesser 75/. / E r m a n 80/): Während der Analyse kommunizieren mehrere Wissensquellen in Form von Hypothesen über eine globale Datenbank (Blackboard). Das System wird sprecherabhängig trainiert, verwendet ein Lexikon mit 1011 Einträgen und eine Grammatik mit Perplexität 4,5 (nach /Bahl 78/). Es kann 90% der Sätze semantisch korrekt interpretieren, wobei 73% der Äußerungen Wort für Wort erkannt werden. HARPY (/Lowerre 80/): Die in HEARSAY verwendete Grammatik und das 1011 Einträge umfassende Lexikon wird in ein endliches Zustandsnetzwerk transformiert. Die Wissensquellen werden somit im Gegensatz zu HEARSAY explizit repräsentiert. Durch ein 'best-few beam search' Verfahren wird eine Worterkennungsrate von 98% erreicht. IBM System (/Bahl 78/): Mit Hilfe eines statistischen 'Stack Decoding' Verfahren (/Jelinek 75/) und der in HEARSAY verwendeten Grammatik werden 99% der Sätze richtig erkannt, bei einer Wortfehlerrate von 0,1% (sprecherabhängig). Für eine verbesserte Version und mit einer komplexeren Grammatik (Laser Patent Task, Perplexität 24,1) ergibt sich eine Wortfehlerrate von 8,9% (/Bahl 80/). Tangora System /Jelinek 85/: Nach einer Sprecheradaptionsphase von 20 Minuten ist das System in der Lage einen Wortschatz von 5000 Wörter zu erkennen. Die Wörter müssen isoliert gesprochen werden. Das Sprachmodell wird durch Worttrigramme definiert, welche anhand von 100.000 Geschäftsbriefen und Memos bestimmt wurden. Bei gelesener (bzw. spontaner) Sprache wird eine Erkennungsrate von 96,9% (bzw. 94,3%) angegeben. Der Vergleich des Sprachsignals mit dem 'Language Model' wird auf der Basis von Hidden-Markov-Modellen (HMM) durchgeführt.
4 BYBLOS C/Kubala 88/./Chow 8 7 / L a u t e werden kontextabhängig durch Markov-Modelle mit diskreten
Ausgabeverteilungen
(Vektorquantisierung
des
Signals
mittels
Clusteranalyse)
repräsentiert. Anhand einer kontextfreien Grammatik und der kontextabhängigen Lautmodelle wird ein endlicher Zustandsautomat generiert. Bei der Verwendung eines Lexikons mit 1000 Einträgen und Grammatiken mit Perplexitätswerten von 9 (einfaches Sprachmodell), 60 (Wortpaare) bzw. 1000 (jedes Wort kann auf jedes folgen) ergeben sich Wortfehlerraten von 1,4%, 7,5% sowie 32,4% bei sprecherabhängiger Erkennung von kontinuierlicher Sprache. Bell Laboratories /Rabiner 88a/: Die Erkennung von kontinuierlich gesprochenen Ziffernfolgen wird mit einem Vergleichsverfahren, basierend auf dem Viterbi-Algorithmus, durchgeführt. Neben der Charakterisierung der Modellzustände durch kontinuierliche Ausgabeverteilungen, diskrete Energie- und Längenverteilungen werden die Ziffernmodelle durch eine Wortdauerverteilung bestimmt. Beim sprecherunabhängigen Vergleich ergibt sich für Ziffernfolgen mit unbekannter (bekannter) Zahl von gesprochenen Ziffern eine Fehlerrate von 2,94% (1,75%). Pro Ziffer wurden 4 alternative Modelle verwendet. CSELT System i/Fissore 89/./DeMattia 89/): Auf der Basis eines Lexikons mit 1018 Einträgen können kontinuierlich gesprochene Anfragen an das System gestellt werden. Die HMM-basierte Worthypothesengenerierung erzeugt eine Hypothesenmenge. Die Verkettung der Hypothesen wird durch einen syntakisch-semantischen Parser oder mit einer Wortpaargrammatik (Perplexität 25) gesteuert. Mit der Wortpaargrammatik werden 89,3% der Sätze erkannt, bei einer Worterkennungsrate von 94,5%. DragonDictate™ (/Baker 89/): Verschiedene Textkorpora wurden analysiert, um n-GrammStatistiken und anwendungsspezifische, linguistische Informationen für ein Sprachmodell abzuleiten. Mit Hilfe eines schnellen Vergleichs ('rapid match') wird aus der Menge aller Wörter die Menge der am wahrscheinlichsten gesprochenen Wörter bestimmt. Diese Wortmenge wird genauer mit dem Sprachsignal verglichen (HMM-basierter Vergleich unter Verwendung von Lautmodellen). Das System arbeitet sprecheradaptiv und erkennt bis zu 30.000 isoliert gesprochene Wörter nahezu in Echtzeit. IBM System (/Bahl 89/1: Basierend auf dem Diktiersystem Tangora (/Averbuch 86/, /Jelinek 85/) wurde ein System zur Erkennung von kontinuierlich gelesener Geschäftskorrespondenz entwickelt. Das System arbeitet sprecherabhängig mit einem Wortschatz von 5000 Einträgen. Die Perplexität der Testsätze wird mit 93 angegeben. Das System erreicht eine mittlere Wortfehlerrate von 11,0%, wobei das Einfügen eines Wortes nicht als Fehler gezählt wird. Lincoln System (/Paul 89a/~l: HMM mit kontinuierlichen Ausgabeverteilungen (Gauss-Verteilung mit diagonaler Kovarianzmatrix) dienen zur Modellierung von Triphonen. Bei sprecherabhängiger Erkennung von kontinuierlich gesprochener Sprache (Wortpaargrammatik und Stichprobe siehe
5 /Kubala 88/) werden an den Wortgrenzen kontextabhängige Triphone eingesetzt. Dies führt zu einer Wortfehlerrate von 3,5%. Für die sprecherunabhängige Erkennung werden kontextunabhängige Triphone verwendet (Wortfehlerrate 12,6%). Kontextabhängige Triphone führten zu einer leichten Verschlechterung der Erkennungsergebnisse, da wahrscheinlich zuwenig Trainingsdaten vorlagen. SPICOS (/Brenner 89/. /Paeseler 89/1: Innerhalb des SPICOS-Projekts wird das Verstehen von kontinuierlich gesprochener deutscher Sprache (sprecherabhängig, 917 Wörter) anhand von zwei alternativen Systemstrukturen untersucht (/Brenner 89/, /Paeseler 89/). Beispielhaft wird der Ansatz von /Paeseler 89/ beschrieben. Das stochastische Sprachmodell ('Language Model') wird durch die Häufigkeiten von Bi- und Trigrammen bezüglich Wortkategorien und der Abbildung der Kategorien auf die zugehörigen Wörter definiert. Die Folgen von Wortkategorien repräsentieren dabei syntaktische und semantische Aspekte des Anwendungsbereichs. Mit Hilfe des ViterbiAlgorithmus (kontinuierliche Mischverteilungen) wird bei der Erkennung eine Links-Rechts-Suche durchgeführt, wobei nur vielversprechende Suchraumknoten expandiert werden (beam search). Bei Verwendung eines Sprachmodells (Bigramme, Perplexität 124) führt dies zu einer Wortfehlerrate von 9,1%. Ohne Sprachmodell (Perplexität 917) ergeben sich 21,8% Wortfehler. SPHINX (/Lee 89a/1: Bei der sprecherunabhängigen Erkennung von kontinuierlich gesprochener Sprache wird eine Viterbi-Suche in einem HMM-Netzwerk mit diskreten Ausgabeverteilungen durchgeführt. Charakteristika des Systems sind die Modellierung der Wortdauer und die kontextunabhängige Modellierung von Lauten, wobei kontextabhängige Modelle für Funktionswörter und Funktionswortfolgen eingesetzt werden. Es werden mehrere Codebücher, verallgemeinerte Triphone und der 'corrective training' Algorithmus (/Bahl 88a/) verwendet. Koartikulation über Wortgrenzen hinweg wird berücksichtigt. Für eine Stichprobe mit Perplexität 997 (60) wurden Worterkennungsraten von 82% (96%) erreicht. DECIPHER (/Weintraub 89/1: Unter Ausnutzung einer detaillierten phonologischen Modellierung, wobei häufig auftretende Aussprachevarianten und Interwort-Verschleifungen im HMM-basierten Aussprache-Netzwerk
(diskrete
Ausgabeverteilungen)
berücksichtigt
werden,
wird
eine
Verbesserung der Erkennungsrate erreicht. Bei einer Perplexität von 1000 (jedes Lexikonwort kann auf jedes folgen) bzw. 60 (Wortpaargrammatik) führt dies zu Wortfehlerraten von 21,7% bzw. 5,0%. Die Grammatik und die Stichprobe sind mit der in /Kubala 89/ identisch. Aus dem Überblick über die neueren Systeme wird ersichtlich, daß der Schwerpunkt der Forschung im Bereich der Erkennung von Sprache liegt. In den letzten Jahren wurden bereits große Erfolge bei der Erkennung von isoliert gesprochenen Wortfolgen (/Baker 89/, /Jelinek 85/) oder kontinuierlich gesprochener Sprache (/Lee 89a/, /Bahl 89/) erreicht.
Die Größe des
erkennbaren Wortschatzes variiert in den unterschiedlichen Systemen von mehreren 1000
6 Einträgen bei der Erkennung kontinuierlich gesprochener Sprache (/Kubala 88/, /Bahl 89/) bis zu 30.000 Lexikoneinträgen bei isoliert gesprochenen Äußerungen (/Baker 89/). Neben der sprecherunabhängigen Erkennung von Äußerungen (/Lee 89a/) wurde am Einsatz von Methoden zur Adaption an einen Sprecher gearbeitet. In /Jelinek 85/ ist z. B. eine Adaptionsphase von ca. 20 Minuten erforderlich, um die sprecherunabhängig bestimmten Systemparameter auf einen neuen Sprecher einzustellen. Im DragonDictate™-System (/Baker 89/) erfolgt die Adaption an einen neuen Sprecher durch eine Art überwachtes Lernen. Während der Erkennung einer Äußerung zeigt das System auf einem Bildschirm das potentiell gesprochene Wort. Spricht der Benutzer weiter, wird es als richtig erkannt eingestuft. Bei beiden Systemen handelt es sich um sogenannte 'Diktiersysteme'. Es kann also davon ausgegangen werden, daß ein Benutzer häufig und im allgemeinen relativ lang mit dem System arbeitet. Diese Techniken können für ein System zum Führen von Auskunftsdialogen in dieser Form nicht übernommen werden, da einem Benutzer nicht zugemutet werden kann, für einen häufig kurzen Auskunftsdialog eine Adaptionsphase zu durchlaufen. Mit einer entsprechenden Argumentation kann das sprecherabhängige Erkennen einer Äußerung (/Paul 89a/) in einem solchen Dialogsystem nicht eingesetzt werden. In nahezu allen Systemen erfolgt die Erkennung datengetrieben unter Verwendung eines LinksRechts-Suchverfahrens (/Paeseler 89/). Um die Zahl der potentiellen Wortfolgen während der Erkennungsphase zu beschränken, wird bei allen Systemen ein syntaktisches Sprachmodell eingesetzt. Die Sprachmodelle sind dabei in Form von Aussprache-Netzwerken (/Weintraub 89/), Grammatiken (/Kubala 88/ verwendet z. B. eine kontextfreie Grammatik) oder/und n-GrammStatistiken (/Baker 89/, Bi- und Trigramme /Paeseler 89/, /Jelinek 85/) gegeben. Im Verlauf der Suche wird die am besten zum Sprachsignal passende Wortfolge bestimmt. Eine Ausnahme bildet das CSELT System (/Fissore 89/), in welchem zunächst eine Menge von Worthypothesen bestimmt wird, welche anschließend mit einem Parser verkettet werden. Um eine hohe Akzeptanz durch einen Benutzer zu erreichen, sollte der zu erkennende Sprachumfang wenig eingeschränkt werden, so daß der Benutzer in die Lage versetzt wird mit einem System möglichst natürlichsprachlich zu kommunizieren. Dies erfordert das Erkennen eines großen Wortschatzes und ein wenig eingeschränktes Sprachmodell (Perplexitätswerte » 20, /Lee 89a/, /Paul 89a/, /Kubala 88/). Da in einem Auskunftssystem zum Führen von natürlichsprachlichen Dialogen nicht davon ausgegangen werden kann, daß alle Wörter einer Äußerung im Wortschatz enthalten sind (z. B. Eigennamen) kann die Interpretation einer Äußerung nicht ausschließlich mit einem Links-RechtsSuchverfahren durchgeführt werden (Verbalgruppen sind häufig diskontinuierlich, z. B. 'ich möchte morgen nach Ulm fahren1). Wird davon ausgegangen, daß zur Interpretation einer Äußerung nicht notwendigerweise alle Äußerungsteile erkannt werden müssen (z. B. für die Äußerung 'Grüß Gott, ich möchte morgen nach Bonn fahren' ist die Begrüßungsfloskel 'Grüß Gott' zur Interpretation nicht notwendig) und in Abhängigkeit von der aktuellen Dialogsituation und linguistischem Wissen
7 fehlende Bestandteile spezifiziert werden können, ist es sinnvoll, Möglichkeiten für eine erwartungsgesteuerte Analyse einer Äußerung zu entwickeln. Analog zur Bestimmung von Worthypothesen im CSELT System (/Fissore 89/) muß die Worterkennungseinheit
damit
Methoden zur schnellen Bestimmung von gut passenden Zeitbereichen für eine Menge von Wortoder Wortkettenhypothesen im Verlauf einer Interpretation zur Verfügung stellen. Zur Ähnlichkeitsberechnung zwischen Wortfolgen und dem Sprachsignal werden in nahezu allen Systemen
statistische
Vergleichsverfahren
(Hidden-Markov-Modelle,
Viterbi-Algorithmus)
eingesetzt. In Abhängigkeit von der zur Verfügung stehenden Trainingsstichprobe werden die Aussprachen der Wörter oder Wortfolgen durch unterschiedliche Modelltypen repräsentiert. Einen groben Eindruck über die Größe der notwendigen Stichprobe gibt Tabelle 1.1 (nach /Lee 89b/). In den beschriebenen Systemen werden sowohl kontextabhängige als auch kontextunabhängige Laut- und Triphone-Modelle eingesetzt.
Zahl der Trainingsäußerungen > >
100 1.000
>
10.000
>
100.000
> 1.000.000
Modell typen Phonetische Modelle Phonetische Modelle mit einfachem Kontext (z. B. Triphone) Lautmodelle mit mehr Kontext (z. B. Betonung, S i l b e n - , Wortposition) Längere Modelle (z. B. S i l b e n ) ; Grobe Unterscheidung von Sprechergruppen (z. B. männlich/weiblich) Noch längere Modelle (z. B. Morpheme, Wörter) D e t a i l l i e r t e Unterscheidung von Sprechergruppen (z. B. nach D i a l e k t )
Tabelle 1.1: Unterschiedliche Modelltypen, die mit einer wachsenden Zahl von Äußerungen trainiert werden können (nach /Lee 89b/).
1J Das Spracherkennungs- und Dialogsystem EVAR Im Rahmen des Systems EVAR (Erkennen, Verstehen, Antworten, Rückfragen, siehe /Niemann 88b/) wird seit ca. 10 Jahren an der Erkennung natürlich gesprochener deutscher Sprache gearbeitet. Das Projektziel ist das automatische Führen eines Auskunftsdialogs. Dies erfordert sowohl das Erkennen als auch das Interpretieren von Benutzeräußerungen. Auf die Äußerung kann als Systemreaktion die gestellte Informationsfrage beantwortet werden oder weitere zur Beantwortung der Anfrage wichtige Informationen erfragt werden. Aus der gegebenen Problemstellung lassen sich einige Anforderungen an das System ableiten und auch Einschränkungen für das System formulieren:
8 -
Zum Führen eines Auskunftsdialogs ist die sprecherunabhängige Erkennung von Benutzeräußerungen eine unabdingbare Voraussetzung. Eine Adaption an einen Benutzer könnte nur während eines Dialogs durchgeführt werden.
-
Eine hohe Benutzerakzeptanz kann erwartet werden, wenn Anfragen kontinuierlich gesprochen werden dürfen.
-
Um eine möglichst natürliche Eingabe zu ermöglichen, sollte die linguistische Kompetenz des Systems die gängigen deutschen Satzkonstellationen umfassen.
-
Der erkennbare Wortschatz muß groß genug sein, um ein leichtes Formulieren von Anfragen zu ermöglichen. Zur Zeit sind im Lexikon ca. 4000 Vollformen eingetragen (/Ehrlich 90/).
-
Die Aussprache der Wörter wird aus der Standardaussprache nach / D u d e n 74/ abgeleitet. Damit wird die Behandlung von Dialekten explizit ausgeschlossen.
-
Beispielhaft werden als Diskursbereich Anfragen im Zusammenhang mit Intercity-Zügen behandelt. Das System sollte dabei so flexibel gehalten werden, daß ein Anpassen auf andere Anwendungsbereiche möglich ist.
-
Da Anfragen über eine Telefonleitung zugelassen sind, ist das Signal auf Telefonbandbreite begrenzt.
Die Komplexität dieser Beispielanwendung wird anhand des Protokolls (Transkription) eines real geführten Dialogs (Bild 1.1) zwischen dem Benutzer O. und der Reiseauskunft B. verdeutlicht. Die Aufnahme entstand im Rahmen der Erstellung einer Dialogstichprobe (/Nöth 91/). Nach der Begrüßung erfolgt die eigentliche Anfrage durch den Benutzer O.. Die Beantwortung der Frage wird durch das Wiederholen der gewünschten Information unterbrochen. Danach wird eine Zusatzinformation gewünscht. Den Abschluß des Dialogs bilden die Abschiedsfloskeln der Dialogpartner. Die Transkription des Dialogs verdeutlicht, daß einige Anforderungen an das System in ihrer strikten Form nicht bestehen können: -
Im allgemeinen werden nicht alle Wörter der Äußerungen im erkennbaren Wortschatz enthalten sein (z.B. Eigennamen, wie 'Obermayer').
-
Es ist nicht notwendig, alle Teile einer Äußerung zu verstehen und damit zu erkennen, um die Äußerung im Anwendungsbereich korrekt interpretieren zu können. Die Interpretation der Benutzeräußerung sollte daher auch mit Äußerungsteilen durchführbar sein.
-
Zusätzlich zur Standardaussprache müssen auch häufig auftretende Aussprachevariationen berücksichtigt werden (z.B. 'und zwar fahren Sie').
Im System EVAR ist die vorliegende Arbeit im Bereich der Erkennungsphase anzusiedeln. Die Erkennungsphase umfaßt dabei die Akustisch-Phonetische Erkennung, die Generierung und Verifikation von Worthypothesen sowie die Bildung von Wortketten anhand einer Grammatik mit Hilfe von Graphsuchverfahren. Da die betrachteten Suchstrategien ursprünglich für die Anwendung in der Worterkennung implementiert wurden, wird das entwickelte Experimentiersystem im folgenden auch als Worterkennungsmodul bezeichnet.
9
B: Reiseauskunft Bahnhof Erlangen, GrüB Gott O: Ja, hier ist Obermayer, Grüß Gott, ich hätt'eine Frage - ich möcht'Morgen von Nürnberg nach Ulm fahren und möcht' ungefähr um 4 Uhr in Ulm sein. Wann muß ich da in Nürnberg wegfahren? B:
...und zwar fahr'n Sie um 13 25 in Erlangen weg
O. 13 25 in Erlangen weg, ja... B:
...fahr'n bis nach Donauwörth...
O: bis Donauwörth... B:
sind dort um 15 Uhr 4...
O: 15 Uhr 4 in Donauwörth... B:
...und ab 29sten, also seit einer Woche gibt's den Anschlußzug wieder, um 15 9 geht's weiter...
O: 15 Null 9 in Donauwörth weiter B:
...der is in Ulm 15 Uhr 53...
O: 15 Uhr 53 in Ulm - des paßt wunderbar, ... und in Nürnberg, wann fährt der in Nürnberg los? B: In Nürnberg würde er 14 Uhr 8 weggehen... O: Um 14 Uhr 8 in Nürnberg los... B:
Ja
O: Gut, bedanke mich, auf Wiederhören B:
Bitte, Wiederhören.
Bild 1.1: Protokoll eines real geführten Dialogs zwischen dem Benutzer O. und der Reiseauskunft B.. Die Aufnahme entstand im Rahmen der Erstellung einer Dialogstichprobe (/Nöth 89/).
1.4 Die Komponenten des Erkennungs- und Dialogsystems EVAR Das Erkennungs- und Dialogsystem EVAR besteht aus mehreren unabhängigen Verarbeitungseinheiten, wobei jede einzelne eine linguistische Abstraktionsebene modelliert. Das Zusammenwirken der Moduln läßt sich in die folgenden Verarbeitungsphasen gruppieren: Erkennung:
Segmentierung des Sprachsignals, Generieren und Verifizieren von Worthypothesen, Verkettung von Worthypothesen mit Graphsuchverfahren.
Verstehen:
Syntaktische Analyse von Wortketten, semantische und pragmatische Interpretation der syntaktischen Strukturen.
Dialog:
Dialogkontrolle in Abhängigkeit vom aktuellen situationeilen und sprachlichen Kontext, Abfragen der gewünschten Benutzerinformation über eine Datenbank, Generieren der Systemantwort.
Die Einbeziehung von prosodischer Information kann in allen drei Verarbeitungsphasen erfolgen. Bild 1.2 zeigt das geschichtete Modell für ein sprachverstehendes Dialogsystem, auf dem die Architektur des Systems EVAR basiert (/Niemann 87/). Das Akustik-Phonetik-Modul (/Regel 88a/) führt die Extraktion von Merkmalen für äquidistante Zeitfenster, die Klassifikation der Zeitscheiben und eine Segmentierung in lautliche Einheiten
10 Wissen
Prozesse
Ergebnisse
Bild 1.2: Das geschichtete Modell für ein sprachverstehendes Dialogsystem, auf welchem die Architektur von EVAR basiert (nach /Niemann 87/).
11
durch. Diese Daten werden von den Vergleichsalgorithmen der Worterkennung zur Generierung und Verifikation von Worthypothesen verwendet. Die Berechnungsschritte des Akustik-PhonetikModuls lassen sich folgendermaßen charakterisieren: • Das bandbegrenzte Sprachsignal (0,1 - 3,4 kHz) wird mit 10kHz abgetastet. Die Auflösung des digitalisierten Signals beträgt 12 Bit. • Die Abtastwerte werden zu äquidistanten Zeitfenstern von 12,8 Millisekunden zusammengefaßt. Ein solches Zeitfenster wird im folgenden auch als 'Frame* bezeichnet. • Für jedes Zeitfenster wird eine Menge von Merkmalen berechnet. • Die Klassifikation der Frames in 49 Lautkomponenten wird mit einem Normalverteilungsklassifikator durchgeführt. Die Liste der Lautkomponenten findet sich im Anhang 14.1. Die besten Ergebnisse ergaben sich für einen Merkmalsatz bestehend aus den ersten 10 MelCepstrum-Koeffizienten und einem Maß für die Lautstärke. • Jedem Frame werden die (maximal) fünf Klassen mit der besten Bewertung zugeordnet. • Folgen von gleichartigen Framebereichen werden zu lautlichen Einheiten (Segmenten) zusammengefaßt. Das Finden der Lautgrenzen wird mit einem mehrstufigen syntaktischen Verfahren durchgeführt, wobei die gefundenen Bereiche sich nicht überlappen (keine Segmentierungsalternativen). In jeder Stufe werden die gefundenen Segmente in feinere Klassen eingeteilt. Letztlich werden 36 Lautklassen unterschieden (Anhang 14.2). • Jedem Segment werden die (maximal) fünf Lautklassen mit der besten Bewertung zugeordnet. Bei sprecherunabhängiger Messung der Erkennungsrate werden folgende Ergebnisse erzielt: • Die richtige Lautkomponente findet sich in 78% der Fälle unter den ersten 5 Alternativen eines Zeitfensters. In der ersten Alternative sind ca. 40% der richtigen Lautkomponenten. • Der richtige Laut ist in ca. 79% aller Segmente unter den ersten fünf Alternativen. Bei 51% der Segmente ist der richtige Laut die erste Alternative. Beispielhaft zeigt Bild 1.3 für die Äußerung 'Wo muß ich umsteigen' das Sprachsignal (Bild 1.3-a), die Handklassifikation nach Lautkomponenten (Bild 1.3-b), die Klassifikation in Lautkomponenten (Bild 1.3-c), die Handklassifikation nach Lauten (Bild 1.3-d), sowie die zugehörige Segmentierung in lautliche Einheiten (Bild 1.3-e). Die Positionierung von Wörtern bzw. Wortketten im Sprachsignal und deren Vergleich mit dem Signal wird vom Worterkennungs-Modul durchgeführt. Die Vergleichsergebnisse werden in Form von Hypothesen an die anderen Moduln weitergegeben. Eine Hypothese enthält eine eindeutige Identifikation, den zugehörigen Zeitbereich, eine Bewertung, sowie die optimale Zuordnung zwischen dem Wort und dem hypothetisierten Zeitbereich. Eine genauere Charakterisierung der Worterkennung und der gestellten Anforderungen innerhalb des Systems wird in Abschnitt 1.5 vorgenommen. Das Syntax-Modul (/Brietzmann 87/) nimmt eine Verkettung von Worthypothesen zu Konstituenten bzw. Sätzen vor. Neben der zeitlichen Nachbarschaft der einzelnen Hypothesen muß
12
Satz bd2121: Vo m s s ich umsteigen
u
11»i»m«mFi»ffi"wppi»11ee
OH UH Z U 0
N M
p1t1'i'i'ppppffliwwp\ni»fffi»i»i»WWWH'Wfwww
Z s
NE
XI
NG UH
V F
IH I ER L EH
XI
V F
U UH OH N NE
N M NE NG UH
SH
A AR ER T E
I (i
;
Bild 1.3 Zur Äußerung 'Wo muß ich umsteigen' sind das Sprachsignal (a), die Klassifikation in Lautkomponenten (c), die Segmentierung in lautliche Einheiten (e) und die Handklassifikation nach Lautkomponenten (b) und Lauten (d) dargestellt.
auch die syntaktische Korrektheit der Kette bezüglich einer Grammatik gelten. Da das Worterkennungs-Modul in einer datengesteuerten (Bottom-Up-) Analyse eine Vielzahl von Hypothesen liefert, wird die Verkettung der Worthypothesen in zwei Schritten vorgenommen. Zunächst werden mit einem Early-Parser anhand einer kontextfreien Grammatik Konstituenten- bzw. Satzhypothesen erzeugt. Diese Ketten werden im Anschluß daran mit einem kontextsensitiven ATN-Netzwerk (Augmented Transition Network) verglichen und strukturell analysiert. Inkonsistente Ketten werden verworfen. Die kontextfreie Grammatik läßt sich automatisch aus dem ATN erzeugen und definiert eine Obermenge der vom ATN erzeugten Sprache. Ein Beispiel für kontextfrei generierte Konstituentenhypothesen gibt Bild 1.4 für den Äußerungsteil 'fährt nach Frankfurt'
aus der Äußerung 'Der Zug fährt nach Frankfurt': zum
Sprachsignal (Bild 1.4-a) werden die erzeugten Worthypothesen (Bild 1.4-c) mit der zugehörigen Handklassifikation (Bild 1.4-b) und die aus den Worthypothesen abgeleiteten Konstituentenhypothesen (Bild 1.4-e, Handklassifikation: Bild 1.4-d) dargestellt. Die richtigen Worthypothesen sind mit '***' markiert, während die richtigen Konstituentenhypothesen mit ' + + +' markiert sind. Syntaktisch korrekte Wortfolgen werden in der semantischen und pragmatischen Analyse (/Ehrlich 90/) auf inhaltliche Konsistenz überprüft und strukturell interpretiert. In der semantischen Analyse wird anwendungsunabhängiges Wissen (z. B. es gibt keine schnelle Fahrkarte) eingesetzt, während in der pragmatischen Analyse problemabhängiges Wissen über den Diskursbe-
13
Satz bu2120: Der Zug 'faehrL nach Frankfurt'
faehrt
| nach
|
Frank f ü r t
Mass
nach
s i e
abend
N a s a 1en Nacht das macht
alles abend
aus Wasser ~
faehrt n _
0rts
1
1
^
^ ,
Hagen
^ | Bach
f aehr t
|
nach
und Frankfurt | hilft
| KSKTT
Frankfurt
Rahmen Bahnhof Bahn ihre Ihre dann | Frank fur t nach Frankfurt -f-
Bild 1.4 Für den Äußerungsteil 'fährt nach Frankfurt' sind das Sprachsignal (a), die Wort- (c) und Konstituentenhypothesen (e) mit den zugehörigen Handklassifikationen (b, d) dargestellt. reich zum Tragen kommt. Das notwendige Wissen wird durch semantische Netzwerke repräsentiert. Das Dialog-Modul reagiert in Abhängigkeit von der aktuellen Situation und dem sprachlichen Kontext auf eine interpretierte Äußerung. Dies umfaßt die Abfrage der gewünschten Benutzerinformation über eine Datenbank, das Erzeugen einer Antwort oder das Einholen von weiteren Informationen, um die Beantwortung einer Anfrage zu ermöglichen. Das Prosodie-Modul (/Nöth 91/) detektiert Silbenkerne aufgrund der Ausgangssignale von drei Bandpaßfiltern. Mit Hilfe von Merkmalen, welche das Verhalten der prosodischen Parameter Tonhöhe, Dauer und Intensität repräsentieren, wird jedem Silbenkern eine Betonungsbeschreibung
14
zugeordnet. Auf Grund dieser Beschreibung kann z. B. auf die explizite Segmentierung eines Sprachsignals Einfluß genommen, können Worthypothesen prosodisch verifiziert oder eine Bestimmung des Satzfokus durchgeführt werden. Mit Satzfokus wird das Informationszentrum des Satzes bezeichnet, auf das das Mitteilungsinteresse des Sprechers gerichtet ist (/Bußmann 83/). Die Reihenfolge der Darstellung legt als Kontrollstrategie für das Erkennungssystem eine datengetriebene Analyse (Bottom-Up-Analyse) nahe. Wie die Architektur von EVAR (Bild 1.2) jedoch verdeutlicht, sind in Abhängigkeit vom Analysestand erwartungsgesteuerte Anforderungen (Top-Down-Anforderungen) an andere System-Module vorgesehen und beabsichtigt.
1.5 Charakterisierung der Worterkennung im Spracherkennungssystem In diesem Abschnitt wird die Einbettung der Worterkennung in das Spracherkennungssystem EVAR charakterisiert. Zunächst wird auf einige, für die Worterkennung relevante, Systemanforderungen (Sprecherunabhängigkeit, großer Wortschatz, das Verwenden von Wortuntereinheiten, das Behandeln von Aussprachevarianten in kontinuierlicher Sprache, große Erkennungsrate, Effizienz) eingegangen, und im Anschluß daran werden die Aufgaben der Worterkennung anhand verschiedener Zielsetzungen diskutiert. Für ein Auskunftssystem ist die sprecherunabhängige Erkennung der Benutzeräußerung unabdingbar. Es liegt auf der Hand, daß die Erkennungsaufgabe für die Worterkennung durch diese Randbedingung merklich schwieriger wird. Eine Adaption an einen Benutzer in Form einer kurzen Lernphase ist nur nach dem Erkennen einiger Äußerungsteile möglich. In der Literatur werden verschiedene Verfahren zur schnellen Sprecheradaption vorgeschlagen (/Class 88/, /Schwartz 88/). Im Rahmen dieser Arbeit werden keine adaptiven Verfahren untersucht, obwohl der Einsatz solcher Algorithmen prinzipiell möglich und sinnvoll ist. Um einem Benutzer das leichte Formulieren einer Anfrage zu ermöglichen, muß die Worterkennung in der Lage sein, einen Wortschatz mit mehreren tausend Einträgen zu erkennen. Aufgrund der großen Zahl von Einträgen im Lexikon und einer im allgemeinen zu kleinen Stichprobe kann nicht davon ausgegangen werden, daß jedes einzelne Wort durch ein Ganzwortmuster repräsentiert werden kann. Die Worterkennung muß daher aus einer symbolischen Beschreibung eines Wortes automatisch ein geeignetes Referenzmuster für die Aussprache erzeugen, welches das Ganzwortmuster möglichst gut approximiert. Die Wörter werden dazu häufig durch Wortuntereinheiten beschrieben, wie z. B. Laute (/Ney 88/), Silben (/Schmidbauer 87/), Halbsilben (/Ruske 88/) oder Diphone (/Scagliola 88/). In EVAR werden zur Beschreibung der Aussprache eines Wortes Laute verwendet. Die Aussprache basiert auf der Standardaussprache nach /Duden 74/. Durch diese Art der Modellierung der Wortaussprachen ist es auch möglich, den zu erkennenden Wortschatz des Systems leicht zu erweitern.
15
In kontinuierlich gesprochener Sprache treten Ausspracheverschleifungen sowohl innerhalb der Wörter als auch in aufeinanderfolgenden Wörtern auf, so daß die Beschreibung allein anhand der Standardaussprache nicht adäquat erscheint. In /Mühlfeld 86/ werden häufig auftretende Aussprachevariationen in Form von Regelsätzen modelliert. Die Worterkennung sollte daher bei der Konstruktion der Aussprache-Referenzmuster für Wörter bzw. Wortfolgen versuchen, diese Information gewinnbringend einzubeziehen. Die Worterkennung ist im Erkennungssystem das Bindeglied zwischen der akustisch-phonetischen Erkennung und den Moduln zur Interpretation von Wortketten. Sie hat ganz generell die Aufgabe, Wörter oder Wortketten im Signal zu finden bzw. mit dem Signal zu vergleichen, wobei ein Lexikon und ein geeignet repräsentiertes Sprachsignal zugrundegelegt wird. Die akustischphonetische Analyse führt die Transformation des Sprachsignals in Lautkomponenten- bzw. Lauthypothesen durch. Diese Hypothesen bilden die Eingabe für die Worterkennung und legen den Suchraum fest, in welchem Wörter bzw. Wortketten gesucht werden. Das Lexikon bildet die Grundlage zur Konstruktion der Referenzmuster für die Aussprache einzelner Worte. In Abhängigkeit vom aktuellen Analysezustand lassen sich nun verschiedene Zielsetzungen für die Worterkennung formulieren, woraus sich auch unterschiedliche Erkennungsaufgaben ableiten lassen. Zu Beginn eines Dialogs sollten möglichst schnell die potentiell gesprochenen Wörter in einer Äußerung gesucht werden. Die Worterkennung kann dies durch eine datengetriebene (BottomUp) Analyse durchführen. Jedes Element einer Wortmenge (z. B. das gesamte Lexikon) wird mit dem Signal verglichen, und die Zeitbereiche der am besten passenden Wörter werden ermittelt. Zur qualitativen Beurteilung der Übereinstimmung mit dem Signalausschnitt muß eine Ähnlichkeitsbewertung berechnet werden. Zur Bestimmung der potentiellen Anfangs- und Endzeitpunkte führt die Worterkennung in dieser Phase eine Positionierung der Wörter im Signal durch. Diese Vorgehensweise wird auch als Word Spotting (/Kawabata 86/, /Christiansen 76/) bezeichnet. Nach dem Positionieren der Wortmenge im Signal liegt ein Hypothesengitter (hypotheses lattice) vor, dessen. Elemente bezüglich ihrer Bewertung und Position im Signal konkurrieren. Ein Beispiel zeigt Bild 1.4-c. Da die Generierung des Hypothesengitters schnell erfolgen soll, wird der Vergleich meist auf dem in lautliche Einheiten zerlegten Signal durchgeführt. Ein genauer Vergleich der Hypothesen mit dem Signal ist durch eine Hypothesenverifikation möglich. Im Unterschied zur Hypothesengenerierung sind in diesem Fall die Signalausschnitte für die Hypothesen bekannt, und der Vergleich wird im allgemeinen auf der Ebene der Lautkomponentenhypothesen (äquidistante Zeitfenster, Frames) durchgeführt. Die Zeitfenster können dabei durch Merkmale oder Lautkomponentenklassen (klassifizierte Frames) repräsentiert sein.
16
Die Verkettung von Worthypothesen zu Konstituenten- bzw. Satzhypothesen durch Graphsuchverfahren ist in EVAR der Erkennungsphase zuzuordnen. Der Suchraum ist dabei durch die Menge der Worthypothesen und eine Grammatik gegeben. In /Brietzmann 87/ wird die Ähnlichkeit einer Wortkette mit dem Signal durch eine Kombination der Bewertungen der einzelnen Kettenelemente bestimmt. Die Integration der Vergleichsverfahren zur Verifikation von Hypothesen in das Suchverfahren erlaubt die direkte Berechnung der Ähnlichkeit der Wortketten während der Suche. Eine Verbesserung der Erkennung ist daher zu erwarten. Zur Analyse einer vollständigen Äußerung kann auch auf das initiale Hypothesengitter verzichtet werden. Der Suchraum wird damit ausschließlich durch die Grammatik definiert. Die Analyse eines Satzes wird häufig durch eine Links-Rechts-Suche (z. B. /Lee 89/, /Bahl 89/, /Rabiner 88a/) durchgeführt. Da im Rahmen eines Auskunftsdialogs nicht immer die gesamte Äußerung analysiert werden kann (z. B. Fehlen von Eigennamen im erkennbaren Wortschatz), darf die Analyse nicht ausschließlich mit einem LinksRechts-Suchverfahren durchgeführt werden. Für eine Insel-Suche sind im Signal gute Ankerpunkte (z. B. betonte Stellen im Signal /Nöth 91/) für die Initialisierung der Suche zu ermitteln. Der Parser für die Grammatik muß allerdings in der Lage sein, zu einer gegebenen Teilkette zu entscheiden, ob durch links- bzw. rechtsseitiges Erweitern der aktuellen Kette noch ein gültiger Satz entstehen kann. Im Rahmen dieser Arbeit werden aus Aufwandsgründen Insel-Suchverfahren nicht weiter betrachtet. Durch linguistisches Wissen und die aktuelle Dialogsituation können anhand von interpretierten Äußerungsteilen fehlende Bestandteile der Äußerung sowie potentielle Zeitbereiche für die fehlenden Teile spezifiziert werden. Fehlende Bestandteile sind z. B. Nominalgruppen, Verbalgruppen oder Einzelwörter (Artikel). Diese Informationen erlauben eine erwartungsgesteuerte (TopDown-) Analyse der Äußerung. An die Worterkennung werden dazu Anforderungen zur Suche (zum Positionieren) von Wortketten in einem Signalbereich bzw. zum Vergleich (zur Verifikation) von Wortketten
mit einem vorgegebenen Signalausschnitt gestellt. Nachfolgend ist eine
Beispielanforderung angegeben: Das Semantik-Modul nimmt an, daß ein Zielort in der Äußerung gefunden wurde ("nach Hamburg"). Die Worterkennung wird nun aufgefordert, für alle Einträge im Wortschatz mit der syntaktischen Klasse Verb und der semantischen Klasse Movement (z. B. gehen, fahren, usw.) Hypothesen zu erzeugen. Der Suchraum im Sprachsignal kann durch den Ausschluß des Zeitbereichs des Zielorts eingeschränkt werden. Sowohl das Positionieren als auch das Verifizieren von Bestandteilen muß effizient auf lautlichen Einheiten und auch bezüglich Zeitfenstern möglich sein. Zusammenfassend ergeben sich somit die folgenden Aufgaben für ein Worterkennungs-Modul in einem System zum Erkennen und Verstehen von kontinuierlich gesprochener Sprache: • Positionieren und Verifizieren von Wörtern im Signal zu Beginn der Analyse einer Äußerung.
17 • Verkettung von Worthypothesen zu Konstituenten oder sogar Sätzen. • Bearbeiten von Top-Down-Anforderungen anderer Moduln im Laufe der Analyse, um das Suchen fehlender Bestandteile im Signal bzw. das Vergleichen von Teilketten mit dem Signal zu ermöglichen. • Die verschiedenen Suchstrategien müssen eine gute Trennung zwischen richtigen und falschen Hypothesen erlauben.
1.6 Konzept der Arbeit In dieser Arbeit wird ein flexibles Experimentiersystem für die automatische Worterkennung in kontinuierlich gesprochener Sprache vorgestellt. Das Experimentiersystem erlaubt das leichte Einbringen von unterschiedlichen Vergleichsverfahren nach Wörtern bzw. Wortketten. Es wurde eine Versuchsumgebung geschaffen, die das einfache Untersuchen der integrierten Algorithmen auf ihre Einsatzfähigkeit in einem sprachverstehenden System zuläßt. Neben der Durchführung großer Versuchsreihen wurden auch Möglichkeiten zum interaktiven Arbeiten mit dem Experimentiersystem geschaffen. Das Ziel aller in das Experimentiersystem integrierter Verfahren ist die Erkennung eines großen Wortschatzes im sprecherunabhängigen Betrieb. Um umfangreiche Untersuchungen zur Verwendung von Aussprachevarianten innerhalb eines Spracherkennungssystems zu ermöglichen, wurde systematisch eine Trennung zwischen der Erzeugung von AusspracheReferenzmustern
und
den
Vergleichsalgorithmen
durchgeführt. Außer
Algorithmen
zur
Generierung und Verifikation von Worthypothesen wurden auch Suchstrategien zur Erkennung von Konstituenten bzw. Sätzen implementiert. Besonderer Wert wurde dabei auf die Integration der Vergleichsstrategie in das Suchverfahren gelegt. Ein Anpassen der Restkostenschätzung der Graphsuche in Abhängigkeit vom Vergleichsverfahren fuhrt zu einem schnelleren Finden der potentiell gesprochenen Wortkette(n) und damit zu einer Verbesserung der Erkennung. Die schnelle Durchführung der Positionierung von Wörtern im Sprachsignal wird im allgemeinen auf der Basis eines in Wortuntereinheiten segmentierten Signals durchgeführt. Um die akustischphonetische Dekodierung des Signals auf die Erfordernisse der Vergleichsalgorithmen auf Wortebene anzupassen, wurde unter Verwendung der Verifikationsverfahren des Experimentiersystems ein neuartiger Segmentierer entwickelt und in das System eingebunden. Als Wortuntereinheit wurden beispielhaft Laute gewählt. Dieser Segmentierer führt zu einer merklichen Verbesserung der Erkennungsleistung auf Wortebene. Nach der datengetriebene Analyse des Signals (Segmentieren in Wortuntereinheiten, Generieren und Verifizieren von Worthypothesen, Verkettung zu Konstituenten bzw. Sätzen) ergeben sich für die weitere Analyse andere Aufgaben für die Worterkennung. Die Module zur Interpretation der Äußerung können durch Anfragen im Rahmen einer erwartungsgesteuerten (Top-Down-) Analyse komplexe Suchanforderungen nach Wörtern oder Wortketten stellen (siehe Beispielanforderung
18 Abschnitt 1.5). Die Transformation dieser Anforderungen in einfache Anfragen wurde systematisch vom Vergleichsverfahren getrennt und gesondert realisiert. In Kapitel 2 werden zunächst die Anforderungen an das Experimentiersystem definiert. Danach wird auf die Gesamtstruktur des Systems und die Möglichkeiten zum interaktiven Arbeiten eingegangen. Einige Beispielkonfigurationen werden beschrieben. Um eine Beurteilung der Vergleichsverfahren zu ermöglichen, werden verschiedene Auswertungskriterien eingeführt. Die Interaktion mit dem Benutzer bzw. das Bearbeiten von Anforderungen der anderen Moduln und die automatische Erzeugung von Aussprache-Referenzmodellen für die Vergleichsalgorithmen sind die Aufgaben der 'lexikalischen Einheit'. Bei der Beschreibung der lexikalischen Einheit in Kapitel 3 wird auch auf das Einbringen von Informationen zur Bildung von Aussprachevarianten im Referenzmodell eingegangen. Die Mehrzahl der in das System integrierten Vergleichsalgorithmen sind statistische Verfahren basierend auf Hidden-Markov-Modellen. In Kapitel 4 werden zunächst die für das weitere Verständnis notwendigen theoretischen Grundlagen eingeführt. Danach wird das Prinzip der Schätzung der Modellparameter sowie der Vergleichsalgorithmus allgemein beschrieben. Es werden einige primitive Modelle vorgestellt und die Substitution der Kanten des Aussprachegraphen durch diese Modelle erläutert. Der Einsatz der statistischen Vergleichsverfahren mit kleinen Modellinventaren wird anhand des Entwurfs eines expliziten Segmentierers in Wortuntereinheiten (Laute) demonstriert. Charakteristika des Segmentierers sind die Ableitung eines Segmentnetzes aus einer Initialzerlegung des Sprachsignals, die Klassifikation des Segmentnetzes anhand eines Inventars von Wortuntereinheiten und die anschließende Suche nach einer optimalen Segmentierung. Zunächst wird das Problem der Klassifikation von vorgegebenen Zeitbereichen mit HMM diskutiert, die Berechnung für die Parameterschätzung
und
das Vergleichsverfahren
konkretisiert
und
Erkennungsergebnisse
wiedergegeben (Kapitel 5). Danach wird auf die Bildung des Segmentnetzes und auf die Suche nach der optimalen Segmentierung eingegangen (Kapitel 6). Die Erkennungsergebnisse werden mit dem Segmentierer aus /Regel 88a/ verglichen. Die Positionierung von Wörtern mit HMM (großer Wortschatz) im Signal wird in Kapitel 7 behandelt. Nach der Beschreibung der Probleme bei der Parameterschätzung wird das Prinzip der 'Vertikalen Summation' (/Schukat 87/) eingeführt und der Einfluß verschiedener Normierungen der Hypothesenbewertung auf die Erkennungsleistung untersucht. Methoden zur Verifikation von Hypothesen werden in den Kapiteln 8 und 9 angesprochen. In Kapitel 8 wird der Einsatz der HMM-Verfahren auf der Ebene von äquidistanten Zeitfenstern betrachtet und Ergebnisse von Experimenten angegeben. Ein alternativer Ansatz zur Verifikation von Hypothesen (Kapitel 9) ergibt sich durch Verfahren der dynamische Zeitverzerrung (Dynamic Time Warping). Zunächst wird das Funktionsprinzip erläutert. Verschiedene Abstandsmaße zur
19
Berechnung der Ähnlichkeit werden definiert. Die Erkennungleistung wird anhand verschiedener Überführungsregeln und Bewertungsnormierungen untersucht. In Kapitel 10 wird auf den Einsatz von HMM zur kontextfreien Analyse von Wortketten (Konstituenten, Sätze) eingegangen. Basierend auf einem Worthypothesengitter wird eine Verkettung von Hypothesen anhand einer Grammatik durch ein Graphsuchverfahren (A*Algorithmus) vorgenommen. Durch die Integration des Vergleichsalgorithmus in die Suche kann eine neuartige Restkostenschätzung angegeben werden, so daß eine gezielte Suche durchgeführt werden kann. Durch einige Experimente wird der Einfluß unterschiedlicher Normierungen der Kettenbewertung auf die Erkennung demonstriert. Für die erwartungsgesteuerte Analyse von Wortketten werden in Kapitel 11 anhand von zwei Systemumgebungen (/Ehrlich 90/, /Sagerer 88/) die Anforderungen an die Worterkennung konkretisiert. Exemplarisch werden die erreichten Verbesserungen der Ergebnisse gegenüber einer ausschließlich datengetriebenen syntaktischen Analyse vorgestellt. In Kapitel 12 wird eine Zusammenfassung und Bewertung aller Ergebnisse vorgenommen.
2 Ein flexibles Experimentiersystem zur Worterkennung Im folgenden Kapitel wird das Grundgerüst eines flexiblen Experimentiersystems für die automatische Erkennung kontinuierlich gesprochener Sprache vorgestellt. Zunächst wird auf die Anforderungen eingegangen, die das System erfüllen muß. Danach wird die Systemstruktur beschrieben, und es werden einige Beispielkonfigurationen zur Erfüllung der Aufgaben einer Worterkennungseinheit vorgestellt. Um die integrierten Algorithmen miteinander vergleichen zu können, werden einige Beurteilungskriterien eingeführt.
2.1 Anforderungen an ein Experimentiersystem zur Worterkennung Innerhalb eines sprachverstehenden Systems hat die Worterkennungseinheit vielfältige Aufgaben zu erfüllen. Sie muß die schnelle Suche und den genauen Vergleich von Wörtern bzw. Wortketten in einem geeignet repräsentierten Signal ermöglichen und einen großen Wortschatz sprecherunabhängig in kontinuierlich gesprochenen Äußerungen erkennen können. Um das Untersuchen und Auswerten verschiedener Vergleichsverfahren und Suchstrategien zu ermöglichen, wurde eine flexible Experimentierumgebung (/Kunzmann 88/) geschaffen. Das Experimentiersystem entstand dabei unter Beachtung der folgenden Randbedingungen: • Das Experimentiersystem muß die Bildung einer Worterkennungseinheit unterstützen, welche die in Abschnitt 1.5 beschriebenen Aufgaben erfüllt. • Der Suchraum der Vergleichsalgorithmen ist durch eine symbolische bzw. parametrische Repräsentation des Sprachsignals gegeben. • Für den gesamten erkennbaren Wortschatz stehen Beschreibungen der Aussprachen der Wörter zur Verfügung. Lexikalische Informationen, wie Aussprache, syntaktische und semantische Klassen, pragmatische Konzepte, müssen automatisch aus der Lexikondatenbank (/Ehrlich 86/) extrahierbar sein. • Die Aussprache-Referenzmuster werden nicht durch Ganzwortmodelle repräsentiert, sondern entstehen aus einer Menge von Wortuntereinheiten. Die automatische Erzeugung von Aussprachevarianten aus der Standardaussprache eines Wortes muß möglich sein. • In die Versuchsumgebung müssen sich leicht neue Vergleichsverfahren und Suchstrategien integrieren lassen. • Um ein leichtes Austauschen zu ermöglichen, müssen die entwickelten Methoden einheitliche Schnittstellen besitzen. • Die integrierten Verfahren sollen einfache Aufgaben lösen können (z. B. sortieren von Hypothesen, Vergleich eines Aussprachemodells mit einem Signalbereich). Durch das Zusammenwirken von Verfahren werden verschiedene Bausteine des Experimentiersystems realisiert (z. B. Segmentierung von Sprachsignalen, Generierung von Worthypothesen).
21 • Die Untersuchung der entwickelten Verfahren anhand von großen, aussagefähigen Stichproben muß einfach durchführbar sein. • Die Auswertung der Verfahren muß automatisch erfolgen und eine Beurteilung der Leistungsfähigkeit der Algorithmen erlauben. • Zur einfachen und schnellen Beurteilung einzelner Verfahren, sowie zu Testzwecken, muß ein interaktives Arbeiten möglich sein. In das Experimentiersystem wurden verschiedene Vergleichsverfahren basierend auf HiddenMarkov-Modellen (Kapitel 4) bzw. dynamischer Zeitverzerrung (Kapitel 9) integriert. Die statistischen Vergleichsverfahren wurden außer zur Generierung und Verifikation von Worthypothesen bzw. Worthypothesenketten auch zur kontextfreien Analyse von Worthypothesenketten (Konstituenten, Sätze) und zur Segmentierung des Sprachsignals in Wortuntereinheiten herangezogen. Die dynamischen Zeitverzerrungsverfahren wurden nur im Zusammenhang mit der Verifikation von Worthypothesen betrachtet, da sie gegenüber den statistischen Verfahren merklich schlechtere Erkennungsergebnisse zeigten.
2.2 Aufbau des Experimentiersystems Um die oben gestellten Anforderungen zu erfüllen und eine flexible Systemstruktur zu erreichen, wurde ein geschichteter Systemansatz bestehend aus drei Ebenen verwendet. Die unterste Ebene bildet eine Menge von Funktionsbibliotheken. Sie sind die Grundlage für einen Entwickler zur Integration von neuen Algorithmen (Vergleichsverfahren, Auswertungshilfen, Hilfsprogramme) in das Experimentiersystem (Ebene 2). Durch die Verwendung der in den Bibliotheken enthaltenen Funktionen wird sichergestellt, daß einheitliche Schnittstellen innerhalb der Versuchsumgebung und im gesamten Spracherkennungssystem erhalten bleiben. Die dritte Ebene wird durch Kommandoprozeduren definiert. Sie stellt Bausteine für verschiedene Suchstrategien zur Verfügung und erlaubt das Untersuchen und Auswerten der Vergleichsalgorithmen. Die Kommandoprozeduren sollen dem Benutzer einen einfachen Zugang zu den verschiedenen, integrierten Methoden des Experimentiersystems
(z. B. datengetriebene
oder
erwartungsgesteuerte
Generierung
von
Worthypothesen) ermöglichen, da so weit als möglich die Aufrufparameter vorbesetzt sind (z. B. Pfade zu den Sprachdaten, Typ des Vergleichsverfahrens, spezifische Parameter für das Vergleichsverfahren, automatisches Auswerten eines Experiments). Bild 2.1 zeigt für die verschiedenen Systemebenen einige Beispiele. Die Bausteine für Suchstrategien können von einem Benutzer im Normalfall als Blackbox verwendet werden, da sämtliche Steuerungsparameter vorbesetzt sind. Das voreingestellte Verhalten läßt sich jedoch durch die Angabe von optionalen Parametern ändern. In Bild 2.2 ist die Struktur einer Blackbox zur Integration einer Suchstrategie in das Experimentiersystem mit allen Schnittstellen angegeben. In Abhängigkeit von den Anforderungen werden verschiedene
22
Konrnandoorozeduren (Ebene 3): • • • • • • • • •
Generleren von WortHypothesen Verifizieren von Wort(ketten)hypothesen Generleren von Konstituentenhypothesen Generieren von SatzHypothesen Segmentieren des Sprachsignals In Wortuntere1nhe1ten Schätzen der Mode11Parameter für unterschiedliche Vergleichsverfahren Bestimmung von Normierungsparametern für Hypothesen Auswertung von Versuchslaufen nach verschiedenen Kriterien Erzeugen der Worterkennungslexika aus der Lexikondatenbank
Proqrairmebene (Ebene 2).: • • • • • • •
Darstellen von Sprachdaten Bearbeiten der Sprachdaten Konsistenzüberprüfung von Sprachdaten Vergleichsverfahren und Suchstrategien (Eingaben: Merkmale, Lautkomponenten, Laute) Schatzalgorithmen für Bestimmung der Modellparameter eines Vergleichsverfahrens Methoden zur Auswertung der Vergleichsverfahren Bestimmung von statistischen Zusammenhängen zwischen Hypothesen
Unterproqranribibliotheken (Ebene 1): • • • • • • •
allgemeine Hilfsfunktionen Zugriff auf und Bearbeitung von Sprachdaten Extraktion verschiedener Teillexika aus der Lexikondatenbank Zugriff auf und Manipulation von Lexikondaten Erzeugen von Referenzmodellen mit Aussprachevarianten anhand von Regelsätzen graphisches Darstellen von Daten und Versuchsergebnissen Vergleichsverfahren
Bild 2.1: Die drei Ebenen des flexiblen Experimentiersystems mit Beispielen für jede Ebene. Lexika benötigt (z. B. für die Anforderung von Worthypothesen mit einer bestimmten Wortart wird zusätzlich ein Wortklassenlexikon gebraucht).
Bild 2.2: Struktur einer Blackbox zur Integration einer Suchstrategie in das Experimentiersystem mit allen Schnittstellen.
23 Die Aufgaben der lexikalischen Einheit (/Paul 89b/) bestehen im Auflösen von komplexen Anforderungen von Benutzern bzw. anderen Systemeinheiten und dem Erzeugen der entsprechenden Aussprache-Referenzmodelle für die Vergleichsverfahren. Damit läßt sich auf der Ebene der Aussprachemodelle die zugrundeliegende Wortuntereinheit (z.B. Laute, Lautkomponenten) ändern, ohne daß dies zu Änderungen im Vergleichsverfahren führen muß. Die Behandlung von Anforderungen und die Erzeugung der Aussprache-Referenzmuster aus dem Lexikon anhand von phonologischen Regeln wird in Kapitel 3 näher beschrieben. Die Genauigkeit des Vergleichsverfahrens wird durch die akustisch-phonetische Abstraktionsebene (Silben, Halbsilben, Laute, Lautkomponenten) der Äußerung bestimmt. Bei niedrigeren Abstraktionsebenen (z. B. Lautkomponenten) ist zwar eine oberflächengetreuere Repräsentation des Sprachsignals zu erwarten, allerdings muß in diesem Fall im Vergleichsverfahren das Wissen zur Zusammenfassung (implizite Segmentierung) in höhere Abstraktionsebenen (z. B. Laute, Worte) modelliert werden. In /Regel 88/ wird auf Lautkomponentenebene eine Erkennungsrate von 40% (erste Alternative) angegeben. Nach der Segmentierung in Laute und dem Bestimmen der richtig klassifizierten Framebereiche ergibt sich eine Frameerkennungsrate von 60% (erste Alternative). Das komfortable interaktive Arbeiten mit dem Experimentiersystem wird durch eine menügesteuerte Arbeitsumgebung (/Weper 89/) unterstützt. Sie erlaubt neben dem interaktiven Darstellen und Bearbeiten von Sprachdaten auch eine graphische Ausgabe von Ergebnissen der Vergleichsverfahren an einem graphischen Bildschirm (Bitmapterminal). Die interaktive Umgebung wurde auf der Basis des X User Interface (XUI) Toolkit (/DEC 88/) entwickelt. Das XUI Toolkit verwendet als Grundlage das X Window System. Das X Window System implementiert die X Protokollversion 11 und stellt hierarchische Subwindows, Text- und primitive Graphikoperationen für Monochrom- und Farbbildschirme zur Verfügung. Die Routinen zur graphischen Darstellung (/Hermann 89/) von Daten und Vergleichsergebnissen setzen auf einem 3D-Graphik Kernsystem (GKS) (/DEC 89/) auf. Gerätetreiber stehen für Bitmapterminals (X Window System), Standardgraphikterminals, Plotter und Laserdrucker zur Verfügung. Die Integration der menugesteuerten Arbeitsumgebung führt zu der in Bild 2.3 dargestellten erweiterten Struktur des Experimentiersystems. Bild 2.4 zeigt eine Beispielsitzung in der interaktiven Arbeitsumgebung: dargestellt sind die lexikalische Einheit und das Vergleichsergebnis für das Wort 'umsteigen' bezüglich der Äußerung 'wo muß ich umsteigen'. Im Fenster Lexikalische Einheit sind die möglichen Aussprachevarianten zu den Wörtern der Äußerung angegeben. Das Fenster Worterkennung enthält neben dem Sprachsignal die graphische Darstellung der potentiellen Zuordnungen zwischen dem Wort umsteigen und der Äußerung. Die Spalten der Zuordnungsmatrix markieren hypothetisierte Lautgrenzen im Sprachsignal.
24
Konraandoprozeduren (Ebene 31: • • • •
Generleren von Worthypothesen Verifizieren von Wort(ketten)hypothesen Generieren von Konstituentenhypothesen Generieren von Satzhypothesen
Proaranmebene (Ebene 21: • Darstellen von Sprachdaten • Bearbeiten der Sprachdaten • Vergleichsverfahren und Suchstrategien (Eingaben: Merkmale, Lautkomponenten, Laute)
Unterproqranmbibliotheken (Ebene 11: • • • • • •
allgemeine Hilfsfunktionen Zugriff und Bearbeiten von Sprachdaten Zugriff und Manipulation von Lexikondaten Erzeugen von Referenzmodell mit Aussprachevarianten anhand von Regelsätzen graphisches Darstellen von Daten und Versuchsergebnissen Vergleichsverfahren
X User Interface Toolkit
Graphik Kernsystem
X Window System
Bild 2.3: Erweiterung des Experimentiersystems um eine komfortable interaktive Arbeitsumgebung.
23
Beispielkonfigurationen für verschiedene Aufgabenstellungen der Worterkennung
Anhand einiger Aufgabenstellungen für die Worterkennung wird beispielhaft der Einsatz von Bausteinen des Experimentiersystems in unterschiedlichen Systemumgebungen durch Datenflußpläne demonstriert. Die folgenden Bausteine werden verwendet: Segmentierung: Als Eingaben werden die merkmalhafte oder symbolische Beschreibung des Sprachsignals /Regel 88/ und die Pausenentscheidung /Nöth 91/ verwendet. Die Segmentierung des Signals wird anhand eines Inventars von 36 Klassen in lautliche Einheiten vorgenommen (Kapitel 6). Generierung:
Auf der Basis eines in lautliche Einheiten segmentierten Signals wird eine schnelle Positionierung (Kapitel 7) im gesamten Signal bzw. in Teilbereichen des Signals durchgeführt. Anforderungsmodi sind gesamtes Aussprachelexikon (einschließlich der Vorauswahl der am besten passenden Hypothesen), einzelne Einträge, regulärer Ausdruck (Abschnitt 3.3). Zur Auflösung der Anforderung regulärer Ausdruck ist die zusätzliche Angabe eines Klassenlexikons notwendig.
25
Hum»«« B logln(fnulSc) | [ I f Lexikalische Einheit j i f Worterktnnung
E Ü E file
92 92 32 93 33 33 93 33 93 33 33 33 33 94 94 95 35 35 35 35 35 35 95 369 930 330 930 331 271 271
Cmtoiwln
Anforderungen
V.A.G.NEN.U.M.A* V.A.XAERN.N.U.M.AR V.A.XANEN.U.M.AR V.E.R.T.A.K. V.EXT.A.XA V.E.R.K.T.A.H V.E.R.K.T.A.XA V.E.R.XAT.A.K. V.E.R.XAT.A.XA V.E.ART.A.K. V.E.ART.A.XA V.E.ARK.T.A.K. V.E.ARK.T.A.XA V.O.XAERN.E.N.D.ER V.O.XAERN.E.N.ER V.O.XAERN.E.N.T.R.Y.K.F.A.AIUC.A.IIT.ER V.O.XAERN.E.N.T.R.Y.K.F.A.ARK.A.ART.ER V.O.XAERN.E.N.T.R.Y.K.F.V.A.ARK.A.R.T.ER V.O.XAERN.E.N.T.R.Y.K.F.V.A.ARK.A.ART.ER V.O.XAERN.E.N.T.R.Y.XIF.A.ARK.A.R.T.ER V.O.XAE*N.E.N.T.R.Y,XIF.A,ARK.A.ART,ER V.O.XAERN.E.N,T.R.Y.XIF.V.A.ARK.A.R.T.ER V.O.XAERN.E.N.T.R.Y.XIF.V.A.ARK.A.ART.ER V.OH M.U.S. M.U.SH M.U.Z.S. LXI U.M.SHT.A.I.G.NE U.M.SHT.A.I.XINE
Ausgabe
Bildschirm
•
Datei :tdout
•
Profilvektor ausgeben
elmeln
9
I
t
5
... M ( K ) )
für
die
a^ und bj (O k ) kann nun unter der Annahme stochastisch unabhängiger
Folgen von Beobachtungen folgendermaßen geändert werden: P* (O I M) =
K K n P ( 0 ( k ) I M( k ) ) = n P ( k ) - lokaler Extremwert k=1 k=1
Die Produktionswahrscheinlichkeit P* (O | M) läßt sich damit durch das Produkt der lokalen Ähnlichkeiten zwischen der Beobachtung und dem Markov-Modell M formulieren. Zur Berechnung der lokalen Ähnlichkeiten sind für das obige Beispiel zur Bestimmung der Vorwärtsund Rückwärtswahrscheinlichkeiten
Matrizen mit ca. 30 • 30 Elementen
zu bestimmen.
Beispielhaft wird die modifizierte Berechnungsvorschrift für die Wachstumstransformation der Transitionswahrscheinlichkeiten a^ angegeben. Die Wachstumstransformationen für die anderen Modellparameter lassen sich analog ändern. Ausführliche Herleitungen der Wachstumstransformationen für die Modellparameter bezüglich des Optimierungskriteriums P* (O | M) finden sich z. B. in /Kuhn 87/, /Schukat 87/, /Levinson 83/. K a'j
=
i
TW
I
k i l i M ' . i i K
k
2 :
1
x
. p(k)
T i > 0, T > t > 1
Werden statt Links-Rechts-Modellen allgemeine HMM verwendet, müssen sich die Summen für
Z
•
/
E
s '
y
/'C"
•
e.
\ 10 R«»a = 1 8 6 . G L E X S S X E=> . KZI ^ X S
S I
20
50
100
200
P o s i t io n e 1 1 e r
. C3-I— E X S
i
500
R a n g
s s . KLEXS
Bild 6.5: Erkennungsraten auf Wortebene (positioneller Rang) für die Segmentierung mit SID (36 Lautklassen) und /Regel 88/ bei Verwendung der Lexika KLEXS und GLEXS. Prozentpunkte über den Ergebnissen nach /Regel 88/. Bei einer Unterscheidung von 36 Lautklassen und einer maximalen Silbenkernlänge von 5 Frames liegen die Worterkennungsergebnisse nur leicht (ca. 2 Prozentpunkte) unter den Ergebnissen für die beste Segmentierung (vergleiche z. B. Bild 6.4 für das elementare Markov-Modell SID). Der etwas geringere Aufwand bei der Verwendung der Silbenkerne muß also mit einem leichten Verlust an Erkennungsleistung bezahlt werden. Für die ausführliche Diskussion der Erkennungsergebnisse unter Verwendung von Silbenkernen und Sprechpausen sei auf /Fischer 89/ verwiesen. Für die bisherigen Versuche wurde das Sprachsignal durch die Frameklassifikation nach /Regel 88/ repräsentiert. In /Schukat 89/ werden zur Klassifikation der Zeitfenster auch dynamische Merkmale hinzugenommen. Die Erkennungsrate auf Frameebene steigt dabei um ca. 5 Prozentpunkte. Werden diese Daten als Eingabe für den neuen Segmentierer verwendet, kann die Erkennungsleistung der Worthypothesengenerierung im gesamten Auswertungsbereich nochmals um durchschnittlich 5 Prozentpunkte verbessert werden (Tabelle 6.4). Bei den Untersuchungen von /Fischer 89/ wurden die Modellparameter der elementaren Markov-Modelle bezüglich der Handklassifikation nach Lauten geschätzt und eine Segmentierung der Stichprobe vorgenommen. Um möglichst viel Information über das Segmentierungsverhalten in die Schätzung der Modellparameter einzubringen, kann folgende iterative Methode zur
91
Eingabedaten auf Lautkomponentenebene (lkp)
1.0
Relativer Rang Prozent erkannte Wörter bei Erzeugung von 2.0 3.0 4.0 5.0 7.0 10.0 20.0 Hypothesen pro Segment
50.0
SID bzgl. lkp /Regel 88/ SID bzgl. lkp /Schukat 89/
39.3 44.7
53.3 59.3
61.8 65.9
66.3 71.4
70.4 76.0
75.8 80.9
81.2 85.6
87.7 90.8
93.4 94.6
SID bzgl. lkp und Segmentierung nach /Regel 88/
34.0
45.7
52.9
57.8
61.6
66.8
71.7
82.1
88.0
Tabelle 6.4: Erkennungsergebnisse auf Wortebene bei Verwendung unterschiedlicher Klassifikatoren für Zeitfenster. Verbesserung der Modellparameter und zur automatischen Optimierung der Erkennungsleistung eingesetzt werden: 1) Anhand einer Handklassifikation nach Lauten werden die initialen Modellparameter für die elementaren Modelle bestimmt. 2) Die Trainingsstichprobe wird segmentiert und die Erzeugung von Worthypothesen wird vorgenommen. 3) Mit dem in Abschnitt 5.3 beschriebenen Verfahren wird automatisch eine Zuordnung für die neu segmentierten Sprachdaten abgeleitet und eine erneute Schätzung der Modellparameter durchgeführt. 4) Verbessert sich die Worterkennungsrate für die Trainingsstichprobe wird mit Schritt 2 fortgefahren, ansonsten abgebrochen. Damit lassen sich systematisch die Modellparameter anhand der Trainingsstichprobe verbessern. Für das elementare Modell SID und das Modellinventar mit 36 Lautklassen wurden zwei Iterationen durchgerechnet. Die Veränderungen der Ergebnisse auf Wortebene zeigt Tabelle 6.5. Die erste Iteration zeigt bis 10 Hypothesen pro Segment eine Verbesserung um ca. 2 Prozentpunkte. Bei der zweiten Iteration sinkt die Erkennungsrate relativ zur ersten Iteration leicht ab. Dies deutet auf zu kleine Test- und Trainingsstichproben hin, da entweder die Verbesserung der ersten Iteration nicht signifikant ist bzw. die Modellparameter nicht gut genug geschätzt werden können.
automatische Optimierung der Erkennungsraten SID, Initialisierung SID, Iteration 1 SID, Iteration 2
1.0
39.3 43.8 40.5
Relativer Rang Prozent erkannte Wörter bei Erzeugung von 2.0 3.0 4.0 5.0 7.0 10.0 20.0 Hypothesen pro Segment 53.3 57.6 55.1
61.8 64.3 62.6
66.3 67.7 68.5
70.4 72.6 72.6
75.8 77.0 76.8
81.2 82.5 81.9
87.7 90.0 88.4
50.0
93.4 94.0 93.8
Tabelle 6.5: Automatische Optimierung der Erkennungsleistung durch ein iteratives Trainieren der Modellparameter auf Segmentebene.
92 Die vorliegenden Ergebnisse zeigen, daß durch die vorgestellte Segmentierungsmethode und eine beabsichtigte Übersegmentierung des Sprachsignals eine drastische Verbesserung der Erkennungsrate auf Wortebene erreicht werden kann. Das stochastische Modellieren der phonetischen Einheiten mit Hidden-Markov-Modellen erlaubt das automatische Anpassen der modellbeschreibenden Parameter an eine Trainingsstichprobe. Aussprachevariationen und Koartikulationseffekte können damit automatisch berücksichtigt werden, ohne dafür spezielle Regeln aufstellen zu müssen. Durch die Wahl der initialen Segmentierung kann leicht festgelegt werden, in welche Wortuntereinheiten das Sprachsignal zerlegt werden soll. Das Modellinventar erlaubt eine flexible Beschreibung der zu erkennenden phonetischen Einheiten. Eine Verbesserung der Ergebnisse bzw. das Einbringen von Informationen für unterschiedliche Phasen des Segmentierers kann systematisch an
die
nachfolgenden
Segmentierungsphasen
weitergegeben
werden
unterschiedlicher Eingabedaten, Einbeziehen von Silbenkerninformationen).
(z. B.
Verwendung
7 Positionieren von Aussprachemodellen mit Hidden-MarkovModellen (großer Wortschatz) In Abschnitt 4.5 wurden Hidden-Markov-Modelle zum effizienten Vergleich von kantenorientierten Aussprachemodellen mit einem Sprachsignal eingeführt. Durch das Aussprachemodell wird auf der Basis von Wortuntereinheiten (z. B. Laute, Lautkomponenten) die Aussprache eines Wortes oder einer Wortkette beschrieben. Das Aussprachemodell wird unter Berücksichtigung von Regelsätzen zur Modellierung von Aussprachevarianten aus der Standardaussprache nach /Duden 74/ konstruiert. Zur Erkennung eines großen Wortschatzes wird jede Wortuntereinheit durch ein korrespondierendes elementares Markov-Modell ersetzt. Durch die Verwendung von elementaren Markov-Modellen kann das Hidden-Markov-Modell für ein Wort bzw. eine Wortkette aus dem Aussprachemodell gebildet werden (weitere Vorteile siehe Abschnitt 4.5). In den folgenden Abschnitten werden die Berechnungsvorschriften für die Kanten Substitute, Insert, Delete und Skip konkretisiert. Aus den Berechnungsvorschriften werden die Vergleichs- und Schätzalgorithmen für die unterschiedlich strukturierten, elementaren Markov-Modelle abgeleitet. Um möglichst schnell eine Menge von gut passenden Bereichen im Sprachsignal für ein Aussprachemodell (Positionieren von Aussprachemodellen bzw. deren zugehöriges HiddenMarkov-Modell) bestimmen zu können, werden einige Erweiterungen am Vergleichsverfahren vorgenommen. Auf der Basis eines durch Laute oder Lautkomponenten
repräsentierten
Sprachsignals wird das Positionierungsverfahren bezüglich unterschiedlicher Normierungs- und Ordnungsoperationen untersucht.
7.1 Vergleichsverfahren und Parameterschätzung für Aussprachemodelle auf der Basis von Wortuntereinheiten Ausgehend von der Beschreibung des Aussprachemodells und des Testmusters wird die Konkretisierung der Berechnungsvorschriften für die Kanten Substitute, Insert, Delete und Skip vorgenommen. Durch die unterschiedliche Behandlung der Ausgabeverteilungen für die Kante Delete lassen sich drei verschiedene Berechnungsvorschriften (Delete, Delete Vorwärts und DeleteRückwärts) angeben. Aus diesen Berechnungsvorschriften werden für die elementaren Markov-Modelle Substitutelnsert, SubstitutelnsertDelete und SubstitutelnsertSkip die Vergleichsalgorithmen abgeleitet und die Schätzfunktionen für die Modellparameter der Substitute-Kante beispielhaft für den Markov-Modus SID angegeben. Beim Markov-Modus SID werden die Kanten Substitute, Insert, Delete verwendet. Danach werden anhand des Markov-Modus SID die notwendigen Anpassungen an den Vergleichsalgorithmus zur Berücksichtigung von Wort bzw. Morphemgrenzen (Kodierung '#.') und Aussprachevarianten im Aussprachemodell dargelegt.
94 In Abschnitt 3.3 wurde ein Aussprachemodell als kantenorientierter, gerichteter, zyklenfreier, markierter Graph mit einem ausgezeichneten Start- und Endknoten eingeführt. Der Graph wird durch eine Menge von Knoten aufgebaut, welche über ein Indexfeld anzusprechen sind. Zur Referenzierung der Knoten in den Berechnungsvorschriften wird davon ausgegangen, daß die Knoten über ihren Index im Feld anzusprechen sind (der erste Knoten hat die Nummer 0). Die Kanten definieren die erlaubten Übergänge im Graphen. Für die weiteren Betrachtungen gelten die folgenden Aussagen: • Mit Ausnahme von ' # . '
(Wort-, Morphemgrenze)
stehen die
Kantenmarkierungen
stellvertretend für eine Menge von Wortuntereinheiten (z. B. Laute, Lautkomponenten). Für jede Wortuntereinheit existiert genau ein elementares Markov-Modell. • Sind im Aussprachemodell Aussprachevarianten berücksichtigt, wird davon ausgegangen, daß der Graph durch die lexikalische Einheit 'expandiert' wurde (siehe Abschnitt 3.6). Die Expansion wird zur Vereinfachung der Berechnungsvorschriften durchgeführt und um sicherzustellen, daß die Summe der Wahrscheinlichkeiten für das Verlassen eines Knotens mit mehreren Ausgangskanten (im folgenden als £-Knoten bezeichnet) gleich 1 ist. U m dies zu erreichen, wird jede Ausgangskante eines £-Knotens durch das Einfügen eines zusätzlichen Knotens aufgetrennt, so daß gilt (siehe auch Bild 3.9): • Die Ausgangskanten der zusätzlich eingefügten Knoten erhalten die entsprechende Kantenmarkierung (d. h. die Wortuntereinheit). • Die Ausgangskanten des £-Knotens erhalten keine Markierung. • Die Wahrscheinlichkeit einer Ausgangskante eines £-Knotens zu folgen, wird als gleichwahrscheinlich angenommen, d. h. mit der Wahrscheinlichkeit p ü =
wobei
k die Anzahl der Ausgangskanten bezeichnet. • Mit Ausnahme des £-Knotens besitzt jeder Knoten genau einen Nachfolger. • Die Nachfolgeknoten (zusätzlich eingefügte Knoten) der £-Knoten besitzen genau einen Vorgänger. • Es wird davon ausgegangen, daß das Aussprachemodell 'linearisiert' ist (siehe auch Abschnitt 3.6). Für jede Zustandsfolge ß der Länge m vom Startknoten 0 zu einem Knoten des Aussprachemodells gilt damit: (V ß, m ¡ ß = ßfjß^ ... ßm, 0 < /i; < N) (0 < i < j < m - /i¡ < /tp Die oben beschriebenen Aussagen werden durch Bild 7.1 nochmals verdeutlicht. In Bild 7.1-a ist das Aussprachemodell für das Wort 'sagen' (Standardaussprache: '.Z.A.G.NE) nach der Anwendung des kompletten Regelsatzes nach /Mühlfeld 86/ dargestellt. Die Anwendung der Expansionsregel (Bild 7.1-b) führt zu dem in Bild 7.1-c dargestellten Teilgraph für das Aussprachemodell. Die Ersetzung der Wortuntereinheiten durch die Struktur der zugehörigen elementaren MarkovModelle SubstitutelnsertDelete (Bild 7.1-d) und die Linearisierung führen zu dem in Bild 7.1-e
95 gegebenen Aussprachegraphen. Die Interpretation des Aussprachegraphen wird im folgenden dargelegt. Um eine leichte Erweiterung der Vergleichs- und Testverfahren zur Bearbeitung von alternativen Segmentgrenzen zu ermöglichen, wird das Testmuster (das Sprachsignal) analog zum Aussprachemodell durch einen kantenorientierten, gerichteten und markierten Graph repräsentiert. Die folgenden Ausführungen beschränken sich allerdings auf die Behandlung linearer Testfolgen O = OJ... O t . Für die Testfolgen gilt: • Die Knoten sind über ein Indexfeld anzusprechen. Der erste Knoten hat die Nummer 0. • Der Kantenübergang vom Knoten (t - 1) zum Knoten t mit 1 < t < T ist mit der Beobachtung O, markiert. Um Formulierungen der Form 'die Beobachtung Ot beim Übergang vom Knoten (t - 1) zum Knoten t' zu vermeiden, wird ein Element der Beobachtungsfolge weiter mit O, angesprochen. • Um ein stabileres Erkennungsverhalten zu erreichen, kann jede Beobachtung Ot durch bis zu 5 alternative Klassenkennungen OJ (Laute oder Lautkomponenten) mit zugehöriger a-posteriori Wahrscheinlichkeit bew (Oj) repräsentiert werden. Die Summe der maximal 5 a-posteriori Wahrscheinlichkeiten ist auf 1 normiert. Unter dem Begriff multi-labeling wird in /Nishimura 87/ eine entsprechende Vorgehensweise zur Berücksichtigung von alternativen Ausgaben für Hidden-Markov-Modelle vorgeschlagen. Zur Berechnung der Ähnlichkeiten zwischen verschiedenen Aussprachemodellen und einer Testfolge sind häufig Produkte der Form Lok M (O t | a¡j) = a¡j • b ;j (t) für die elementaren Markov-Modelle der Wortuntereinheiten zu bestimmen. Die lokale Ähnlichkeit Lok M (O, | a») gibt die Wahrscheinlichkeit an, beim Befolgen der Kante a;j- die Ausgabe O t zum Zeitpunkt t zu produzieren (d. h. beim Übergang vom Knoten (t - 1) zum Knoten t der Testfolge). Zur Optimierung der Ähnlichkeitsberechnung werden diese Terme vorab für alle Kanten der elementaren Markov-Modelle und alle Elemente der Testfolge berechnet. Unter Verwendung der lokalen Ähnlichkeit Lok M (Ot | a¡p lassen sich nun die Berechnungsvorschriften für die Kanten Substitute, Insert und Skip konkretisieren: Lok M (Ot | Substitute) = a^ ubstitu(e • [ ^
bew (Oj) • P M (Oj | Substitute) ]
Lok M (O t | Insert)
= a™ ert
•[
bew (Oj) • P M (Oj | Insert) ]
Lok M (O t | Skip)
=
•[ J
i
bew (Oj) • P M ( o j | Skip) ],
wobei mit M ein elementares Markov-Modell für eine Wortuntereinheit bezeichnet wird.
96
Bild 7.1: Transformation des Aussprachemodells in einen Aussprachegraph für die Ähnlichlceitsberechnung.
97 Beim Befolgen eines Delete-Übergangs erfolgt ein Zustandswechsel im Aussprachemodell und keine Ausgabe (siehe Abschnitt 4.5). In der Testfolge wird dabei kein Zeitschritt vorgenommen. Die lokale Ähnlichkeit ergibt sich durch: l ^ k M (O, | Delete)
= a£,ete
Aufgrund des Ungleichgewichts der Anzahl der Faktoren zwischen der lokalen Ähnlichkeit Lok M (O t | Delete) und den lokalen Ähnlichkeiten der anderen Kanten werden zwei alternative Ausdrücke für die lokale Ähnlichkeit beim Befolgen einer Delete-Kante definiert: Lok M (O t | DeleteRückwärts) = a
DeleteRückwärts " [ Í = í
bew
(oj) • P M (Oj | DeleteRückwärts) ]
Lok M (O t | Delete Vorwärts) = a
Dele.eVorwär,s •
t^
(oj+1) .
P M (0¡ + 1 | DeleteVorwärts) ]
Bei diesen beiden Ausdrücken wird also die lokale Ähnlichkeit mit der Ausgabe des Vorgängersymbols O t bzw. der Ausgabe des Nachfolgersymbols O t + 1 verknüpft. Diese Vorgehensweise ist nicht ganz unproblematisch, da die Löschung einer Wortuntereinheit ausschließlich von der aktuellen Wortuntereinheit (dem aktuellen Zustand) abhängt und nicht vom umgebenden Kontext. Aufgrund der nur wenige 100 Äußerungen umfassenden EVAR-Stichprobe mußte allerdings von der Kontextunabhängigkeit ausgegangen werden. Nach Tabelle 1.1 sind zum Training einfacher Kontexte mehrere 1000 Äußerungen notwendig. In /Chow 86/ konnte durch die Verwendung von kontextabhängigen und kontextunabhängigen Lautmodellen eine bessere Erkennungsrate erreicht werden. Durch obige Annahme wird jedoch zumindest erreicht, daß für die elementaren MarkovModelle der Wortuntereinheiten die Zahl der Faktoren für die Bestimmung der lokalen Ähnlichkeit gleich wird. Zusätzlich läßt sich formal eine 'Wachstumstransformation' zur automatischen Schätzung der Ausgabeverteilungen ableiten. Mit Hilfe der lokalen Ähnlichkeiten für die unterschiedlichen Kanten lassen sich nun die Berechnungsvorschriften für die Vorwärtswahrscheinlichkeiten der unterschiedlich strukturierten, elementaren Markov-Modelle SubstituteInsert, SubstitutelnsertSkip und SubstitutelnsertDelete angeben. Im folgenden werden dabei weder Wort- bzw. Morphemgrenzen noch Aussprachevarianten berücksichtigt, d. h. zum Knoten i des Aussprachemodells ist der Vorgängerknoten durch (i - 1) bestimmt. Mit dem Index (r,s) wird im folgenden das elementare Markov-Modell M zwischen dem Knoten r und s bezeichnet. Die Vorwärtswahrscheinlichkeiten für ein Aussprachemodell mit N Zuständen und der Beobachtungsfolge O = 0 1 ... O t ergeben sich zu:
98 Substitutelnsert (Markov-Modus SI): «0 (0) = 1 a
o (») =
für 0 < i < N
0
a, (0) = OJ.J (0) o t (i) =
(i - 1) o ^ (i)
a, (N) = a ^ (N - 1)
• Lok'0-1* • Lok''" -') • Lok('-
für 0 < t < T
(O, | Insert)
1
i+1
(O t | Substitute) + )
• Lok(N"1>N>
für 0 < t < T, 0 < i < N-l
(O t | Insert)
für 0 < t i T
(O t | Substitute)
SubstitutelnsertSkip (Markov-Modus SIS): «0 (0) =
1
«0 ( 0 = ttt (0) =
0 a
t-i (0)
«t (1) = «t-1 (0) a
«t (i) =
a
(°t
Insert)
(°t (O t
Substitute) +
Substitute) +
0 1
. Lok' ' )
t-l (1)
• Lok' 1,2 )
t-i 0 " 1)
• Lok'1"1-')
(°t
• LokW + 1 )
(°t
Insert)
(°t
Skip)
«t-i ( 0 a,.! (i - 2) a
«t (N) = t-i (N - 1) a
für 0 < i < N . Lok' 0 - 1 )
t-i (N - 2)
. Lok''" 2 ''" 1 ) • Lok^'W
(°t . L o k ^ ' N " 1 ) (O t
für 0 < t < T
Insert)
für 0 < t < T + für 0 < t < T, 2 < i < (N - 1)
Substitute) + Skip)
für 0 < t < T
ubstitutelnsertDelete (Markov-Modus SID. /Kuhn 87/V ®o (°) = 1 ®t (0) =
a
t-i (0)
• Lok' 0 ' 1 )
(O.
Insert)
für 0 < t < T
(Ot
Delete)
für 0 < i < N
(Ot
Substitute) +
(Ot
Insert)
(O t
Delete)
• Lok'N" ^
(O,
Substitute) +
. Lok^W
(O t
Delete)
1
«0 W = 0
• ß t + 1 (i + 1) + • ß f i 1 (i)
+
100 ßt ( i ) gibt damit die Wahrscheinlichkeit der Ausgabe der restlichen Beobachtungsfolge O T + 1 ... O T an, unter der Bedingung, daß zum Zeitpunkt t der Zustand (Knoten) i eingenommen wurde. Die Ausdrücke zur Schätzung der Modellparameter der Substitute-Kante anhand einer Folge von statistisch unabhängigen Beobachtungen (Optimierungskriterium P* ( O | M), siehe Abschnitt 4.3 und 4.4) ergeben sich damit zu: K
N«-l I< k )-1 2 2 i=0 t=0 (i,i + l)=WU
J_
k=1 P ( k >
a[ k )(i) • Lx)k( i - i + 1 )(0[ k \| Substitute) • ß [ k \ ( i + l )
äWU Substitute K
J_ P « K k=l
2 i=0 (i,i +1) = WU N(i) 1
T ( k ) -1
2
2
a W ( i ) • Lok( 1 , 1 + 1 )(O t ( k \ | Substitute) • ß £ \ ( i + l )
(i',i+i)=wu Ot'=vk ^Substitute ( v k ) ~ _L k=l p( k ) K
Nt = Lok^ 0,1 ' (O t | Insert) • P Q ^ + 1 Die Berechnungsvorschrift für P ; , mit 0 < i < N und 0 < t < T lassen sich analog ableiten und ergeben sich zu: Pi,0
=
P i-1,0
pi,t
=
Pi-l,t-l
P i.t-1
Pi-l,t PN,t
= PN-l,t-l
PN-l,t
. Lok^ 1 -')
(O 0 | Delete)
• LokC"1-')
( 0 , | Substitute) +
. Lok(' , i + 1 ) (O t | Insert) . Lok^" 1 ^
für 0 < i < N
+
(O t | Delete)
für 0 < t < T, 1 < i < (N - 1)
. L o k ^ W (Ot | Substitute) + . L o k ^ " 1 ^ ) (O, | Delete)
Analog zu Abschnitt 7.1 läßt sich eine Funktion zur Berechnung der Matrix M p
für 0 < t < T ableiten, wobei
die folgenden Erweiterungen berücksichtigt sind: • Wort- bzw. Morphemgrenzen dürfen im Aussprachemodell auftreten. • Es können Aussprachevarianten bearbeitet werden. • Mit Hilfe der Präfix-Äquivalenz wird eine dynamische Berechnungsoptimierung durchgeführt. Gegenüber der Funktion 'berechne_a' (Bild 7.3) ist nur die Berechnungsvorschrift für den Knoten 0 zu modifizieren. Der Vorgang der Erzeugung der Hypothesen aus dem Profilvektor P N t eines Aussprachemodells läßt sich durch die folgenden Schritte charakterisieren:
107 • Wähle anhand der Bewertung maximal n alternative Endpunkte aus. Mit n wird die Zahl der 'Positionsaltemativeri einer Hypothese bezeichnet. • Lösche aus der Liste der n alternativen Endpunkte alle Elemente für die gilt: Es gibt einen Endpunkt mit besserer Bewertung, und der Abstand zu diesem Endpunkt ist kleiner als eine vorgegebene Schwelle (Maskierung benachbarter Endpunkte). • Für die verbleibenden Endpunkte der Liste werden Hypothesen erzeugt. Die Bewertung ergibt sich aus dem negativen Logarithmus der Bewertung des Endpunktes im Profilvektor. Alternative Hypothesen eines Aussprachemodells unterscheiden sich damit sowohl durch ihre Bewertung als auch durch ihre Endpunkte. Die Anfangspunkte müssen sich nicht notwendigerweise unterscheiden, da sich zu unterschiedlichen Endpunkten die gleichen Anfangspunkte ergeben können. Die Erzeugung der Hypothesen durch das Betrachten alternativer Positionen und der Durchführung einer Maskierung der potentiellen Endpunkte wird analog zu /Schukat 87/ durchgeführt. Da die Hypothesen sowohl über verschiedenen als auch unterschiedlich langen Zeitbereichen liegen und sich die zugehörigen Aussprachemodelle auch in ihrer Länge unterscheiden, können die Hypothesen einer Äußerung nicht direkt miteinander verglichen werden. Es sind daher Normierungsmaßnahmen für die Bewertungen der Hypothesen notwendig. Experimentelle Untersuchungen zeigten, daß die Ähnlichkeiten für richtige Hypothesen stark mit der Länge der Hypothesen korreliert sind, wobei als Länge einer Hypothese die Länge des zugehörigen Zeitbereichs in der Beobachtungsfolge (Testfolge), die Wortlänge oder auch die Länge der Zuordnung unterschieden wird. Beispielhaft zeigt Bild 7.5 die Korrelation zwischen der Bewertung der richtigen Hypothesen einer Stichprobe und der Wortlänge. Die eingetragene Regressionsgerade (Korrelation: 0.96) ist durch den Korrelationskoeffizienten 2.79 und die Korrelationskonstante -1.33 bestimmt. Für die verschiedenen Hypothesenlängen werden die folgenden multiplikativen und additiven Bewertungsnormierungen unterschieden. Mit P wird die Bewertung eines Endpunktes im Profilvektor bezeichnet. multiplikative Normierung: bew
Division = " l o 8 ( p ) / Länge additive Normierung: bew
Regression = " l o 8 ( P ) " ( a ' 2-stufige additive Normierung:
Un
g e + b)
bew
Regression_2 = " l o 8 ( p ) " ( a i * Länge + b i )
bew
Regression_2 = '
lo
p
g ( )"
' Länge
+ b
2 )
falls falls
Länge * Schwelle Länge
>
Schwelle,
wobei a, a l t a^ die zugehörigen Regressionskoeffizienten und b, bj, b 2 die Regressionskonstanten bezeichnen.
108
Wo r L 1 a e n g e
Bild 7.5: Linearer Zusammenhang zwischen der Bewertung der richtigen Hypothesen einer Stichprobe und der Wortlänge. Auf der Basis der 'vertikalen Summatiori,
der oben beschriebenen Erzeugung von Hypothesen
und den verschiedenen Normierungen wurden für die unterschiedlich strukturierten, elementaren Markov-Modelle die Markov-Modi SI, SIS, SID, SIDVorwärts und SIDRückwärts in das Experimentiersystem integriert. In Tabelle 7.2 sind die Erkennungsraten für die verschiedenen Verfahren aufgetragen. Dabei wurden die folgenden Parametereinstellungen verwendet: • Die Hypothesengenerierung erfolgt für alle Einträge des Lexikons KLEXS ohne Verwendung von Aussprachevarianten. • Für jeden Eintrag wurden maximal 10 Positionsalternativen betrachtet. • Die Schwelle für die Maskierung wurde auf 2 festgelegt. • Die Bewertungen würden mit der zugehörigen Regressionsgerade b e w R c g r e s s i o n und der Hypothesenlänge Wortlänge normiert. • Für das Parametertraining wurden 118 Äußerungen verwendet. Die Teststichprobe enthält 129 Äußerungen. Näheres zu den Stichproben ist in Abschnitt 5.1 zu finden. • Die Äußerungen werden durch die Lautsegmentierung nach Kapitel 6 repräsentiert. Die Markov-Modi SID und SIS zeigen enttäuschend schlechte Erkennungsraten gegenüber den anderen Verfahren. Für den Modus SID ist dies auf das Ungleichgewicht bezüglich der Anzahl der Faktoren der lokalen Ähnlichkeiten der Kanten Substitute, Insert und Delete (fehlende
109
vertikale Sunmation für die unterschiedlichen Markov-Modi Markov-Modus Markov-Modus Markov-Modus Markov-Modus Markov-Modus
SI SIS SID SIDVorwärts SIDRückwärts
Relativer Rang Prozent erkannte Wörter bei Erzeugung von 2.0 3.0 4.0 5.0 7.0 10.0 20.0 Hypothesen pro Segment
1.0 33.4 15.9 2.8 34.5 34.4
45.3 23.3 5.6 48.0 47.0
54.1 29.5 7.1 55.4 53.3
60.1 33.9 9.6 61.2 61.2
63.0 38.7 11.5 65.0 66.0
67.7 46.7 15.3 70.7 71.5
73.7 54.8 21.3 75.8 76.7
81.8 69.1 40.2 84.3 85.1
50.0 89.7 83.5 62.8 91.1 91.3
Tabelle 72\ Generieren von Worthypothesen für das Lexikon KLEXS bei Verwendung der verschiedenen Markov-Modi. Ausgabeverteilung) zurückzuführen. Bei dieser Kantenkombination profitieren vor allem schlecht passende Aussprachemodelle von der Löschung eines Lautes. Da sämtliche Modellparameter Werte kleiner 1 (i. a. < 10"2) annehmen, gilt häufig für die lokalen Ähnlichkeiten selbst bei guter Übereinstimmung: Lok M (O, I Substitute) = aSubstitute ' hok M (O t | Insert)
* a^sert
10"2
< aDele,e = ^
(°t I
Delete
)
. 10"2 < a^ e l e t e = Lok M (O t | Delete).
Aussprachemodelle deren Bewertungen vor allem durch die Löschung von Wortuntereinheiten bestimmt werden, erhalten damit relativ gute Bewertungen im Profilvektor. Eine entsprechende Situation liegt beim Markov-Modus SIS vor. Das häufige Befolgen eines Skip-Übergangs bei falschen Hypothesen (d. h. nicht gesprochenen Wörtern) sorgt bei der Pfadrückverfolgung für die starke Verkürzung des zugeordneten Signalbereichs in der Lauthypothesenfolge. Da die Normierung der Bewertung des Profilvektors über die Länge des Aussprachemodells erfolgt, erhalten diese Hypothesen, insgesamt gesehen, relativ gute Bewertungen und verdrängen damit die richtigen Hypothesen auf schlechtere absolute Ränge. Zusätzlich deutet das schlechte Abschneiden des Markov-Modus SIS darauf hin, daß sowohl die in Abschnitt 7.1 getroffene Annahme der Unabhängigkeit der Lautlöschung vom umgebenden Kontext nicht zutreffend ist, und die Übergangs- und Ausgabewahrscheinlichkeiten der Skip-Kanten aufgrund einer zu kleinen Stichprobe nicht richtig geschätzt wurden. Die Markov-Modi SI, SIDVorwärts und SIDRückwärts zeigen nahezu gleiche Erkennungsraten. Die beiden Varianten des elementaren Markov-Modells SubstitutelnsertDelete verdeutlichen, daß durch die Zuordnung einer Ausgabeverteilung an die Delete-Kante die Löschung einer Wortuntereinheit gut modelliert werden kann. Zusätzlich bietet dieses Vorgehen die Möglichkeit, die Ausgabeverteilungen eines Delete-Übergangs konsistent mit den anderen Modellparametern durch den Baum-Welch-Algorithmus (Abschnitt 4.3 und 4.4) zu schätzen. Interessant ist das Verhalten des Markov-Modus SI, der sogar ohne Modellierung der Auslassung von Wortuntereinheiten recht respektable Ergebnisse liefert.
110 Zur Beeinflussung des Übergangsverhaltens der elementaren Markov-Modelle bei der Generierung von Hypothesen besteht die Möglichkeit, die lokalen Ähnlichkeiten für alle Wortuntereinheiten und Kanten global mit den Konstanten C S u b s t ¡ t u t e , C I n s e r t , C j ^ ^ g und C s k i p zu gewichten. Die lokalen Ähnlichkeiten für die Kanten der elementaren Markov-Modelle ergeben sich damit zu: Lok M (O t | Substitute) = a^ u b s t i t u t e • [ ^
bew (oj) . P M (Oj | Substitute) ] . C S u b s t i t u t e
Lok M (O t | Insert)
= a ^
. [ ^
bew (Oj) . P M ( o j | Insert) ]
Lok M (O, | Skip)
= a^p
• [ .2 i bew (oj) • P M (0{ | Skip) ]
Lok M (O t | Delete)
= a& l e t e . C D e l e t e
. CInsert • Csldp
Lok M (O t | DeleteRückwärts) = a
DeleteRückwärts
• I ^
Lok M (O, | Delete Vorwärts)
+
+ d(i-1.j) +
d(i.j);
Bild 9.3: Überführungsregeln aus /Sakoe 78/. Ebene verläuft. Es sei noch angemerkt, daß die Einschränkung des Suchraums niemals zu einer Verringerung, sondern nur zu einer Vergrößerung des globalen Abstands zwischen den Funktionen A und B führen kann, da der beste Pfad möglicherweise unterdrückt wird. Die Bilder 9.4 und 9.5 zeigen einige in der Literatur vorgeschlagene globale Beschränkungen für den Suchraum. Durch die Wahl einer festen Steigung für den erlaubten Suchbereich nach /Sakoe 78/ wird eine zu große Abweichung der Signallängen der Funktionen A und B verhindert. Aus der Berechnungsvorschrift für den globalen Abstand D (A, B) ist ersichtlich, daß der Gesamtabstand der Funktionen A und B von der Anzahl der verglichenen Werte und damit von den Signallängen abhängig ist. Der direkte Vergleich der globalen Abstände für verschiedene Worthypothesen und auch unterschiedliche Signalbereiche ist daher nicht möglich. Für den Vergleich von Worthypothesen muß daher eine nachträgliche Normierung der globalen Bewertung D (A, B) bezüglich der Länge des Zuordnungspfades vorgenommen werden. In vielen Ansätzen wird die Normierung mit einer Division durch die Pfadlänge L oder einer Approximation der Pfadlänge L erreicht (multiplikative Normalisierung). Dies führt im allgemeinen zur Bestimmung des mittleren globalen Abstandes. Für die HMM-Verfahren in Kapitel 7 wurde eine Normierung mit der Regressionsgeraden vorgeschlagen. Diese Vorgehensweise kann zur Normierung des globalen Abstands D (A, B) analog eingesetzt werden. Für die Bewertungen einer Menge von richtigen Hypothesen werden der Regressionskoeffizient ß und die -konstante c in Abhängigkeit
135
y' j-
0
^ ^' J
i
*
y *
TVERSCHJ
J X Testmuater
1
Bild 9.5: Suchraumbeschränkungen nach /Sakoe 78/ und /Waibel 83/. von der Pfadlänge L der Hypothesen bestimmt. Liegt der Korrelationskoeffizient nahe bei 1, so kann von einem linearen Zusammenhang zwischen der Bewertung und der Pfadlänge ausgegangen werden. D i e normierte Bewertung ergibt sich dann durch Subtraktion der G e r a d e n (ß • L + c) v o m globalen Abstand D ( A , B). D i e Konstante c verschiebt den Bewertungsbereich in den Nullpunkt, ist unabhängig von der Pfadlänge L und kann somit vernachlässigt werden. D i e normierte Bewertung gibt also die längenunabhängige Abweichung von der Regressionsgeraden an. D i e Normierung der globalen Bewertung D ( A , B ) durch Subtraktion einer Regressionsgeraden wird im folgenden als additive Normalisierung bezeichnet.
136 Durch die Normierung des globalen Abstandes darf allerdings das Optimalitätsprinzip nicht verletzt werden, da sonst die Zulässigkeit des Verfahrens verloren geht. Eine nachträgliche Normierung der globalen Bewertung ist für das folgende Beispiel nicht zulässig: {(0, 1), (1, 1), (1, 0)} mit der Gewichtung (1, 1, 1)
/Schukat 87/
Häufig kann durch eine geeignete Gewichtung der einzelnen Transitionen sichergestellt werden, daß die Länge der Pfade für unterschiedliche Zuordnungen gleich ist. Dann ist auch eine Trennung der Längennormalisierung von der eigentlichen Abstandsberechnung zulässig, siehe hierzu das folgende Beispiel: {(0, 1), (1, 1), (1, 0)} mit der Gewichtung (1, 2, 1) Die nichtlinearen Zuordnungsalgorithmen sollen die Funktion einer Verifikationseinheit übernehmen. Es wird also davon ausgegangen, daß bereits eine Menge von Hypothesen vorliegt. Analog zu Kapitel 8 hat die Verifikation die Aufgabe, die Hypothesen genau mit dem Signal zu vergleichen und die Trennung zwischen richtigen und falschen Hypothesen zu verbessern. Für den genauen Vergleich werden die Merkmale (hier: Mel-Cepstrum-Koeffizienten eines Frames) des Zeitbereichs der Hypothese mit dem Referenzmuster des Wortes verglichen. Die Referenzmuster werden analog zu Abschnitt 3.3 aus der Standardaussprache eines Wortes bestimmt, wobei für die folgenden Versuche ausschließlich Transkriptionsregelsätze verwendet werden. Alle Untersuchungen wurden anhand einer Stichprobe bestehend aus 26 Sätzen von 6 verschiedenen Sprechern (Anhang 14.9) durchgeführt. Die Hypothesen wurden mit dem in Abschnitt 7.3 charakterisierten Referenzverfahren V3 von /Schukat 87/ erzeugt.
9.2 Abstandsmaße zur Berechnung der Ähnlichkeit In diesem Abschnitt werden die Untersuchungen mit unterschiedlichen lokalen Abstandsmaßen dargestellt (/Salzbrunn 87/). Zunächst werden die Abstandsmaße definiert und danach deren Einfluß auf die Leistungsfähigkeit der DTW-Algorithmen beschrieben. Als Merkmalsatz wurden die 10 Mel-Cepstrum-Koeffizienten und die normierte mittlere Lautstärke eines jeden Frames (/Regel 88/) verwendet. Da für jede Äußerung eine Handklassifikation nach Lautkomponenten existiert, lassen sich unter Annahme einer Normalverteilung die klassenweisen Dichten der Merkmalvektoren £ für die Lautkomponenten (49 Klassen) schätzen (/Jäpel 80/). Die klassenbedingte Dichte ist gegeben durch:
w (c I flk) =
12 • , . Skr'/2 .
e-
1/2
'
(£
"mk)t ' ^
•
fc-V
wobei m k der Mittelwertvektor und 2 k die Kovarianzmatrix der Klasse k ist. Die Verbunddichte des Merkmalvektors £ und der Klasse flk (mit der a-priori Wahrscheinlichkeit p k = P (fl k )) läßt sich nach der Bayes'schen Regel umformen zu
137
w (fi, Ok) =
W
(fi) . P (Ok | fi) = p k
. W
(fi I 0 k )
Die Logarithmierang von w (£, flk) und die Zerlegung des Produkts ergibt: w (fi, Qk) = 2 • In w (fi ,ßk) = -ct • Sjj1 • £ +
• 2 • S^1 • m k + constk
mit constk = - m kt • S^1 • m k + 2 • In (p k • |2 n 2 k | ~Vr) Der Wert constk ist von £ unabhängig und kann daher für jede Klasse vorab berechnet werden. Mit obigen Definitionen läßt sich der Abstand des Merkmalvektors £ von der Klasse ilk bei Annahme einer Normalverteilung angeben als d
NV & n k) = " w ' (£- n k)
Der Abstand zwischen den Funktionen A (z.B. Lautkomponentenfolge) und B (Folge von Merkmalvektoren) kann als Produkt der Einzelwahrscheinlichkeiten d N V aufgefaßt werden. Unter Annahme der statistischen Unabhängigkeit der Merkmalvektoren £ ist das Produkt gleich der Wahrscheinlichkeit P (A, B). Mit einigen vereinfachenden Annahmen läßt sich der Berechnungsaufwand für die lokalen Ähnlichkeiten zwischen A und B stark reduzieren. Wird von der Gleichverteilung der einzelnen Lautkomponenten ausgegangen, so kann die apriori Wahrscheinlichkeit pk vernachlässigt werden. Die logarithmierte, klassenbedingte Dichte ergibt sich damit zu: w" (fi I n k ) = - (£ - m k ) T • S^1 • (£ - m k ) + 2 • In (|2 • TT . E^"*) Der Maximum-Likelihood-Abstand wird damit definiert zu: dMLH fe ßk) = * w " (£ I n k) Wird der konstante Teil der Verbunddichte w (£, ß k ) vernachlässigt, ergibt sich der modifizierte Minimum-Abstand zu: d
MMA (£ I °k) = (£ ' Iük)T ' Sk1 • (fi - m k )
Der modifizierte Minimum-Abstand kann auch als euklidischer Abstand angesehen werden, der mit der inversen klassenabhängigen Kovarianzmatrix gewichtet wird. d
EUK (£ I ß k) = (£ ' ¡S k ) T • (fi - m k )
In /Mühlfeld 86/ wird als Unähnlichkeitsmaß vorgeschlagen: < W (£. n k) =
1
- p ( ß k I £)
Der Vorteil dieses Unähnlichkeitsmaßes liegt darin, daß die a-posteriori Wahrscheinlichkeiten schon als Zwischenergebnis des Akustik-Phonetik-Moduls /Regel 88/ vorliegen. Um den globalen
138 Abstand als Summe der Einzelwahrscheinlichkeiten interpretieren zu können, wird eine Logarithmierung vorgenommen, d.h. d
APO 50) Hypothesen pro Segment (Segmentierung /Regel 88/) im Mittel nur noch 9 (37) Hypothesen pro Segment erzeugt werden. Die Verwendung der unterschiedlichen
Markov-Modi zeigte keine signifikanten
Unterschiede in der Erkennungsleistung. Um möglichst viel Information über das Segmentierungsverhalten in die Schätzung der Modellparameter einzubringen, wurde eine iterative Methode zur Verbesserung der Modellparameter und zur automatischen Optimierung der Erkennungsleistung entwickelt. Im Bereich unterhalb von 10 Hypothesen pro Segment konnte dadurch die Erkennungsrate nochmals um durchschnittlich zwei Prozentpunkte verbessert werden. Das segmentierte Sprachsignal bildet die Basis für die schnelle Ermittlung von gut passenden Bereichen für die Aussprachemodelle eines Lexikons in einer kontinuierlich gesprochenen Äußerung. Dieses Vorgehen ist z. B. zu Beginn eines Auskunftsdialogs notwendig, um die Initialisierung der Module zur Interpretation einer Äußerung zu ermöglichen. Die Bestimmung der potentiellen Anfangs- und Endpunkte eines Aussprachemodells wird häufig als Word-Spotting bezeichnet. Zur effizienten Bestimmung der gut passenden Bereiche wurde das in /Schukat 87/ vorgestellte Prinzip der 'vertikalen Summation'
angewendet. Die notwendigen Anpassungen an die
verschiedenen in das Experimentiersystem integrierten Markov-Modi wurden durchgeführt. Das Ergebnis der Positionierung von Aussprachemodellen
im Sprachsignal ist ein Hypothesengitter,
dessen Elemente bezüglich ihrer Ähnlichkeitsbewertung und Position im Signal miteinander konkurrieren. U m die Bewertungen der Hypothesen miteinander vergleichen zu können, sind Normierungsmaßnahmen notwendig. Als beste Normierungsmaßnahme erwies sich für alle MarkovModi die Subtraktion einer Regressionsgeraden von der Bewertung in Abhängigkeit von der Länge der Hypothese (Zahl der elementaren Markov-Modelle der Standardaussprache bzw. die Länge der Pfadrückverfolgung). Der Vergleich der verschiedenen Markov-Modi zeigte, daß der MarkovModus SID durch das Einführen von konstanten Kantengewichtungen leicht bessere Erkennungsergebnisse erzielt als die anderen Positionierungsverfahren. Der Markov-Modus SID wurde daher dem besten Positionierungsverfahren nach /Schukat 87/ (Version V3) gegenübergestellt. Die Analyse verdeutlichte, daß mit beiden Verfahren vergleichbare Erkennungsleistungen erzielt werden. Im Unterschied zur Generierung von Worthypothesen sind bei der Verifikation von Wort- bzw. Wortkettenhypothesen
die zugehörigen Bereiche im Sprachsignal bekannt. Das Ziel der
175 Verifikation besteht im allgemeinen darin, durch die Bestimmung der Ähnlichkeit zwischen dem Aussprachemodell der Hypothese und dem hypothetisierten Zeitbereich (repräsentiert durch Lautkomponenten oder Laute) eine Umordnung der Hypothesen zu erreichen, so daß die Trennung zwischen richtigen und falschen Hypothesen erleichtert wird. Ein weiterer Grund für die Verifikation von Hypothesen ergibt sich daraus, daß während der Analyse einer Äußerung eine einheitliche Bewertungsgrundlage zwischen Wort- und Wortkettenhypothesen erhalten bleiben muß. Analog zur Generierung von Worthypothesen wurden für die Markov-Modi verschiedene Normierungsfunktionen und Kombinationen von Gewichtsfaktoren für die einzelnen Kanten untersucht. Mit keinem der betrachteten Verfahren konnte eine Verbesserung der Erkennungsergebnisse erzielt werden. Wird das Sprachsignal durch Laute repräsentiert, werden die Erkennungsraten der Hypothesengenerierung erreicht, so daß für die Analyse von Wort- und Wortkettenhypothesen eine einheitliche Bewertungsgrundlage - ohne Verlust an Erkennungsleistung - erhalten bleibt. Für den Markov-Modus SID wurden erste Untersuchungen zur Verwendung von Aussprachevarianten bei der Verifikation von Worthypothesen (Lautebene) durchgeführt. Anhand eines Beispielregelsatzes und wenigen Äußerungen konnte gezeigt werden, daß die genauere akustischphonetische Modellierung der Aussprache eines Wortes dessen Erkennungsrate verbessert. Untersuchungen für verschiedene Regelsätze und größere Stichproben zeigten jedoch, daß im allgemeinen für viele falsche Hypothesen durch alternative Aussprachen die Ähnlichkeit zum Sprachsignal erhöht wird und damit die richtigen Hypothesen auf schlechtere Positionen verdrängt werden. Im Rahmen von Voruntersuchungen konnte allerdings verdeutlicht werden, daß der Einsatz von Aussprachevarianten bei der Verifikation von Wortkettenhypothesen durchaus zu einer Verbesserung der Erkennungsergebnisse führen kann. Als alternative Methode zur Verifikation von Worthypothesen mit Hidden-Markov-Modellen wurden Untersuchungen mit dynamischen Zeitverzerrungsverfahren (Dynamic Time Warping) durchgeführt. Als Einflußgrößen wurden für eine Stichprobe von 26 Sätzen unterschiedliche Abstandsmaße, globale Suchraumbeschränkungen, Überführungsregeln und Bewertungsnormalisierungen untersucht. Aufgrund der insgesamt schlechten Erkennungsergebnisse wurden die dynamischen Zeitverzerrungsverfahren nicht weiter betrachtet. Der letzte Schritt der Erkennungsphase in EVAR ist durch die kontextfreie Analyse von Wortkettenhypothesen charakterisiert. Ausgehend von einem Worthypothesengitter erfolgt mit einem Graphsuchverfahren (A*-Algorithmus) eine gezielte Suche nach Konstituenten- bzw. Satzhypothesen. Zur Beschränkung des potentiellen Suchraums werden kontextfreie, deterministische Grammatiken verwendet, so daß nur syntaktisch korrekte Fortsetzungen einer Wortkette während der Analyse weiterbetrachtet werden. Durch die Beschränkung auf diese Teilklasse von Grammatiken
konnten
Parser eingesetzt
werden, deren
Zeitbedarf
für die syntaktische
Überprüfung nur linear mit der Länge einer Wortkette wächst. Zur Bewertung eines Suchraumkno-
176
tens wurden die oben beschriebenen Vergleichsverfahren basierend auf Hidden-Markov-Modellen in das Analyseverfahren integriert. Die Untersuchungen zeigten, daß während der Suche nach Konstituenten- bzw. Satzhypothesen durch die dynamischen Ähnlichkeitsberechnung zwischen gefundenen Wortketten mit dem zugehörigen Sprachsignal verbesserte Erkennungsraten zu erreichen sind. Für die Suche nach Konstituentenhypothesen wurde verdeutlicht, daß auch mit einer großen Zahl von Worthypothesen mit vertretbarem Aufwand eine Analyse durchführbar ist. Zur Interpretation einer Äußerung werden in EVAR zwei alternative Ansätze untersucht. Im Verlauf der Analyse einer Äußerung können Anfragen an die Worterkennung zur dynamischen Generierung bzw. Verifikation von Wort- bzw. Wortkettenhypothesen gestellt werden. Die notwendigen Verbindungen zwischen der Worterkennung und den beiden Analyseumgebungen sind realisiert und ausgetestet. In ersten Untersuchungen wurde gezeigt, daß die dynamische Verifikation von Wortkettenhypothesen die Erkennungsraten verbessert. Im Rahmen dieser Arbeit wurde ein flexibles Experimentiersystem für die automatische Worterkennung in kontinuierlich gesprochener Sprache realisiert. Alle integrierten Vergleichsmethoden können im sprecherunabhängigen Betrieb zur Erkennung eines großen Wortschatzes eingesetzt werden. Durch die systematische Verwendung von stochastischen Vergleichsverfahren auf den unterschiedlichen Ebenen der Erkennungsphase in EVAR konnten merkliche Verbesserungen im Erkennungsverhalten erreicht werden.
13 Literatur /Averbuch 86/
A. Averbuch, L. Bahl, R. Bakis, P. Brown, A. Cole, G. Daggett, S. Das, K. Davies, S. DeGennaro, P. de Souza, E. Epstein, D. Fraleigh, F. Jelinek, S. Katz, B. Lewis, R. Mercer, A. Nadas, D. Nahamoo, M. Picheny, G. Shichman, P. Spinelli: "An IBM PC Based Large-Vocabulary Isolated-Utterance Speech Recognizer", Int. Conf. on ASSP, 53-56, Tokyo, 1986
/Bahl 75/
L. R. Bahl, F. Jelinek: "Decoding For Channels With Insertions, Deletions And Substitutions With Applications To Speech Recognition", IEEE Trans, on Information Theory, IT-21, 404-411, 1975
/Bahl 78/
L. R. Bahl, J. K. Baker, P.S. Cohen, A. G. Cole, F. Jelinek, B. L. Lewis, R. L. Mercer: "Automatic Recognition of Continuously Spoken Sentences From a Finite State Grammar", Int. Conf. on ASSP, 418-421, Tulsa, 1978
/Bahl 80/
L. R. Bahl, R. Bakis, P.S. Cohen, A. G. Cole, F. Jelinek, B. L. Lewis, R. L. Mercer: "Further Results on the Recognition of a Continuously Read Natural Corpus", Int. Conf. on ASSP, 872-875, Denver, 1980
/Bahl 83/
L. R. Bahl, F. Jelinek, R. L. Mercer: "A Maximum Likelihood Approach To Continuous Speech Recognition", IEEE Trans, on Pattern Analysis And Machine Intelligence, Vol. PAMI-5, No. 5, 179-190, 1983
/Bahl 86/
L. R. Bahl, P. F. Brown, P. V. de Souza, R. L. Mercer: "Maximum Mutual Information Estimation of Hidden Markov Model Parameters for Speech Recognition", Int. Conf. on ASSP, 49-52, Tokyo, 1986
/Bahl 88a/
L. R. Bahl, P. F. Brown, P. V. de Souza, R. L. Mercer: "A New Algorithm for the Estimation of Hidden Markov Model Parameters", Int. Conf. on ASSP, 493496, New York City, 1988
/Bahl 88b/
L. R. Bahl, P. F. Brown, P. V. de Souza, R. L. Mercer: "Speech Recognition With Continuous-Parameter Hidden-Markov-Models", Int. Conf. on ASSP, 4043, New York City, 1988
/Bahl 88c/
L. R. Bahl, P. F. Brown, P. V. de Souza, R. L. Mercer, M. A. Picheny: "Acoustic Markov Models Used In The Tangora Speech Recognition System", Int. Conf. on ASSP, 497-500, New York City, 1988
/Bahl 89/
L. R. Bahl, R. Bakis, J. Bellegarda, P. F. Brown, D. Burshtein, S. K. Das, P. V. de Souza, P. S. Gopalakrishnan, F. Jelinek, D. Kanevsky, R. L. Mercer, A. J. Nadas, D. Nahamoo, M. A. Picheny: "Large Vocabulary Natural Language Continuous Speech Recognition", Int. Conf. on ASSP, 465-467, Glasgow, 1989
/Baker 75/
J. K. Baker: "Stochastic Modeling For Automatic Speech Understanding", in /Reddy 75/, 521-542, New York, 1975
/Baker 89/
J. M. Baker: "DragonDictate™-30K: Natural Language Speech Recognition With 30,000 Words", Europeon Conf. on Speech Communication and Technology, Paris, Vol 2, 161-163, 1989
178 /Bakis 76/
R. Bakis: "Continuous Speech Recognition Via Centisecond Acoustic States", 91st Meeting of the Acoustical Society of America, 1976
/Bangemann 89/
E. Bangemann: "Klassifikation auf Lautkomponentenebene mit MarkovModellen", Studienarbeit, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1989
/ B a u m 70/
L. E. Baum, T. Petrie, G. Soues, N. Weis: "A Maximization Technique Occuring In The Statistical Analysis of Probabilistic Functions of Markov Chains", The Annals of Mathematical Statistics, Vol. 41, No. 1, 164-171, 1970
/ B a u m 72/
L. E. Baum: "An Inequality And Associated Maximization Technique in Statistical Estimation For Probabilistic Functions of Markov Processes", Inequalities 3, 1-8, 1972
/Bellman 72/
R. E. Bellman: "Dynamic Programming", Princeton University Press, Princeton, N.J., 1972
/Beizer 89/
E. Beizer: "Erwartungsgesteuerte Analyse von Ellipsen in einem natürlichsprachlichen Dialogsystem", Diplomarbeit, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1989
/Bourlard 85/
H. Bourlard, Y. Kamp, C. J . Welekens: "Speaker Dependent Connected Speech Recognition Via Phonemic Markov Models", Int. Conf. on ASSP, 1213-1216, Tampa, 1985
/Brenner 89/
M. Brenner, H. Höge, E. Marschall, J. Romano: "Word Recognition in Continuous Speech Using Phonological Based Two-Network Matching Parser and a Synthesis Based Prediction", Int. Conf. on ASSP, 457-460, Glasgow, 1989
/Brietzmann 87/
A. Brietzmann: "Stufenweise Syntaktische Analyse mit integrierter Bewertung für die kontinuierliche Spracherkenunng", Arbeitsberichte des IMMD der Universität Erlangen, Band 20 Nr. 9, Erlangen, 1987
/Bronson 83/
E. C. Bronson: "Syntactic Pattern Recognition of Discrete Utterances", Int. Conf. on ASSP, 719-722, Boston, 1983
/Bunke 88/
H. Bunke, O. Kübler, P. Stucki (Hgg.): "Mustererkennung 1988", InformatikFachberichte 180, Springer-Verlag, Berlin, 1988
/Bußmann 83/
H. Bußmann: "Lexikon der Sprachwissenschaft", Alfred Kröner Verlag, Stuttgart, 1983
/Butcher 77/
A. Butcher, K. Kohler, H. Kuenzel: "Experimentelle Untersuchungen zur Koartikulation und Steuerung im Deutschen", Arbeitsbericht des Instituts für Phonetik der Universität Kiel, Band 8, 1977
/Christiansen 76/ R. W. Christiansen, C. K. Rushforth: "Word Spotting in Continuous Speech Using Linear Predictive Coding", Int. Conf. on ASSP, 557-560, Philadelphia, 1976 /Chow 86/
Y. L. Chow, R. Schwartz, S. Roucos, O. Kimball, P. Price, F. Kubala, M. Dunham, M. Krasner, J . Makhoul: "The Role Of Word-Dependent Coarticulatory Effects In A Phoneme-Based Speech Recognition System", Int. Conf. on ASSP, 1593-1596, Tokyo, 1986
179 /Chow 87/
Y. L. Chow, M. O. Dunham, O. A. Kimball, M. A. Krasner, G. F. Kubala, J. Makhoul, P. J. Price, S. Roucos, R. M. Schwartz: "BYBLOS: The BBN Continuous Speech Recognition System", Int. Conf. on ASSP, 89-92, Dallas, 1987
/Class 88/
F. Class, P. Regel: "Untersuchung verschiedener Verfahren zur Sprecheradaption für ein Spracherkennungssystem mit großem Wortschatz", ITG-Fachberichte 105, vde-Verlag GmbH, 111-116, Bad Nauheim, 1988
/Cox 88/
S. J. Cox: "Hidden Markov Models For Automatic Speech Recognition: Theory And Application", Br. Telecom Tech. Journal, Vol. 6, No. 2, 105-115, 1988
/Cravero 84/
M. Cravero, L. Fissore, R. Pieraccini, S. Scagliola: "Syntax Driven Recognition Of Connected Words By Markov Models", Int. Conf. on ASSP, 35.5.1-4, San Diego, 1984
/Davis 52/
K. H. Davis, R. Biddulph, J. Balashek: "Automatic Recognition of Spoken Digits", Journal of the Acoustical Society of America, Vol. 24, 637-645, 1952
/ D E C 88/
Digital Equipment Corporation, ULTRIX Documentation Group: "ULTRIX Worksystem Software: Programming 1-6", Nashua, 1988
/ D E C 89/
Digital Equipment Corporation: "GKS-3D For ULTRIX: Reference Manual", DEC USA, Field Test Version, Nashua, April 1989
/DeMattia 89/
M. De Mattia, E. G. Giachin: "Experimental Results on Large Vocabulary Continuous Speech Understanding", Int. Conf. on ASSP, 691-694, Glasgow 1989
/DeMori 85/
R. De Mori, C. Suen: "New Systems and Architectures for Automatic Speech Recognition and Synthesis", Springer Verlag, Berlin, 1985
/D'Ortha 88/
P. D'Ortha, M. Ferretti, A. Martelli, S. Melecrinis, S. Scarci, G. Volpi: "LargeVocabulary Speech Recognition: A System For The Italian Language", IBM Journal of Research Development, Vol. 32, No. 2, 217-226, 1988
/Dressier 72/
W. Dressier: "Methodisches zu Allegro-Regeln", Phonologica 1972, Wien, 219234, 1972
/Duden 74/
DUDEN: "Das Aussprachewörterbuch, Wörterbuch der deutschen Standardaussprache", Bibliographisches Institut Mannheim/Wien/Zürich, 2. Auflage, Band 6, 1974
/Ehrlich 86/
U. Ehrlich: "Ein Lexikon für das natürlich-sprachliche Dialogsystem EVAR", Arbeitsberichte des IMMD der Universität Erlangen, Band 19 Nr. 3, Erlangen, 1986
/Ehrlich 90/
U. Ehrlich: "Bedeutungsanalyse in einem sprachverstehenden System unter Berücksichtigung pragmatischer Faktoren", Max Niemeyer Verlag, Tübingen, Sprache und Information, Band 22, 1990
/Ephraim 88/
Y. Ephraim, L. R. Rabiner: "On The Relations between Modeling Approaches For Information sources", Int. Conf. on ASSP, 24-27, New York City, 1988
180 /Erman 80/
L. D. Erman, V. R. Lesser: "The HEARSAY-II Speech Understanding System: A Tutorial", in /Lea 80a/, 361-381, 1980
/Fischer 89/
V. Fischer: "Eine explizite Segmentierung von Sprachsignalen für die Lautklassifikation mit Markov-Modellen", Diplomarbeit, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1989
/Fissore 89/
L. Fissore, P. Laface, G. Micca, R. Pieraccini: "A Word Hypothesizer for a Large Vocabulary Continuous Speech Understanding System", Int. Conf. on ASSP, 453-456, Glasgow, 1989
/Fisz 80/
M. Fisz: "Wahrscheinlichkeitsrechnung und mathematische Statistik", V E B Verlag deutscher Wissenschaften, 10. Auflage, Berlin, 1980
/Haimos 8 7 /
Haimos J.: "Untersuchung und Beurteilung globaler Bewertungen für nichtlineare Zuordnungsalgorithmen", Studienarbeit am Lehrstuhl 5 (Mustererkennung), Universität Erlangen-Nürnberg, 1987
/Hart 68/
P. Hart, N. Nilsson, B. Raphael: "A Formal Basis For The Heuristic Determination Of Minimizing Cost Paths", I E E E Trans. Systems, Cybernetics 4(2), 100-107, 1968
/Hermann 89/
L. Hermann: "Erstellung eines interaktiven Akustik-Phonetik-Arbeitsplatzes zur Handklassifikation von Sprachsignalen", Diplomarbeit, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1989
/Hildebrandt 63/
B. Hildebrandt: "Effektives Sprechtempo, reflexives Sprechtempo und Lautzahlminderung", Zeitschrift für Phonetik, allgemeine Sprachwissenschaft und Kommunikation, Band 16, 63-76, 1963
/Itakura 75/
Itakura F.: "Minimum Prediction Residual Principle Applied to Speech Recognition", I E E E Trans, on ASSP-23, No. 1, 67-72, 1975
/Jäpel 80/
Jäpel D.: "Klassifikatorbezogene Merkmalsauswahl", Dissertation am Lehrstuhl 5 (Mustererkennung), Universität Erlangen-Nürnberg, 1980
/Jelinek 75/
F. Jelinek, L. R. Bahl, R. L. Mercer: "The Design of a Linguistic Statistical Decoder for the Recognition of Continuous Speech", Trans, on Information Theory, Vol IT-21, Nr. 3; 250-256, 1975
/Jelinek 85/
F. Jelinek: "The Development of an Experimental Recognizer", Proc. IEEE-73, Nr. 11, 1616-1624, 1985
/Juang 84/
B.-H. Juang: "On The Hidden Markov Model And Dynamic Time Warping For Speech Recognition - A Unified View", Bell Systems Technical Report, Vol. 63, 1213-1245, 1984
/Juang 85/
B.-H. Juang: "Maximum-Likelihood Estimation For Mixture Multivariate Stochastic Observations Of Markov Chains", At&T Technical Journal, Vol. 64-6, 1985
/Kawabata 86/
T. Kawabata, M. Kohda: "Word Spotting Method Taking Account of Duration Change Characteristics for Stable and Transient Parts of Speech", Int. Conf. on ASSP, 2307-2310, Tokyo, 1986
Discrete
Dictation
181 /Kawabata 89/
T. Kawabata, K. Shikano: "Island-Driven Continous Speech Recognizer Using Phone-Based HMM Word Spotting", Int. Conf. on ASSP, 461-464, Glasgow, 1989
/Kimball 8 6 /
O. Kimball, P. Price, S. Roucos, S. Schwartz, R. Kubala, F. Chow, Y.-L. Haas, A. Krasner, J . Makhoul: "Recognition Performance and Grammatical Constraints", In Lee S. Baumann (editor), Speech Proceedings of the DARPA Recognition Workshop, 53-59, Feb. 1986
/Klatt 77/
D. H. Klatt: "Review of the A R P A Speech Understanding Project", Journal of the Acoustic Soc. of America, Vol. 62, 1345-1366, 1977
/Kohler 7 7 /
K. J. Köhler: "Einführung in die Phonetik des Deutschen", Erich Schmidt Verlag, Berlin, 1977
/Kohler 81/
K. J . Kohler: "Phonetische Untersuchungen zur gesprochenen Sprache im Deutschen", Arbeitsbericht des Instituts für Phonetik der Universität Kiel, Band 16, 111-121, 1981
/Kubala 88/
F. Kubala, Y. Chow, A. Derr, M. Feng, O. Kimball, J. Makhoul, P. Price, J . Pohlicek, S. Roucos, R. Schartz, J . Vandegrift: "Continuous Speech Recognition Results of B Y B L O S System on the DARPA 1000-Word Resource Management Database", Int. Conf. on ASSP, 291-294, New York City, 1988
/Kuhn 87/
T. Kuhn: "Implementation von Algorithmen zum Vergleich von eindimensionalen Mustern", Studienarbeit, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1987
/Kuhn 89/
T. Kuhn: "Eine Suchstrategie zur kontextfreien Analyse von Worthypothesen", Diplomarbeit, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1989
/Kunzmann 88/
S. Kunzmann, T. Kuhn, H. Niemann: "An Experimental Environment For The Generation And Verification Of Word Hypothesis In Continuous Speech", Speech Communication 7, Elsevier Science Publishers B.V, North-Holland, 381388, 1988
/Kunzmann 8 9 /
S. Kunzmann, T. Kuhn: "Ordnungsoperationen zur Neubewertung von Hypothesen aus der automatischen Worterkennung", Proc. der 15. Jahrestagung der Deutschen Arbeitsgemeinschaft für Akustik, Duisburg, 339-342, 1989
/ L e a 80a/
W. A. Lea: 'Trends in Speech Recognition", Prentice-Hall Inc., New Jersey, 1980
/Lea 80b/
W. A. Lea: "Speech Recognition: Past, Present, And Future", in /Lea 80a/, 39-98, 1980
/ L e e 88/
K. F. Lee: "Large-Vocabulary Speaker-Independent Continuous Speech Recognition: The SPHINX System", Dissertation, Computer Science Department, Carnegie Mellon University, Pittsburgh, 1988
/ L e e 89a/
K. F. Lee, H.-W. Hon, M.-Y. Hwang, S. Mahajan, R. Reddy: "The SPHINX Speech Recognition System", Int. Conf. on ASSP, 445-448, Glasgow, 1989
182 /Lee 89b/
K. F. Lee: "Hidden Markov Models: Past, Present And Future", Europeon Conf. on Speech Communication and Technology, Paris, Vol 1, 148-155, 1989
/Lesser 75/
V. R. Lesser, R. D. Fennel, D. Erman, R. D. Reddy: "Organization of the HEARSAY II Speech Understanding System", IEEE Trans, on ASSP-23, NO. 1, 11-24, 1975
/Levinson 83/
S. E. Levinson, L. R, Rabiner, M. M. Sondhi: "An Introduction To The Application Of The Theory Of Probabilistic Functions Of A Markov Process To Automatic Speech Recognition",The Bell System Technical Journal, Vol. 62, No. 4, 1035-1074, 1983
/Liporace 82/
L. A. Liporace: "Maximum Likelihood Estimation For Multivariate Observations Of Markov Chains", IEEE Trans, on Information Theory, Vol. IT28, No. 5, 729-734, 1982
/Lowerre 80/
B. Lowerre, R. Reddy: 'The HARPY Speech Understanding System", in /Lea 80a/, 340-360, 1980
/Mariani 89/
J. Mariani: "Recent Advances in Speech Processing", Int. Conf. on ASSP, 429440, Glasgow, 1989
/Mayer 82/
O. Mayer: "Syntaxanalyse", Bibliographisches Institut, Reihe Informatik, Band 27, Mannheim, 1982
/Merialdo 88/
B. Merialdo: "Phonetic Recognition Using Hidden Markov Models And Maximum Mutual Information Training", Int. Conf. on ASSP, 111-114, New York City, 1988
/Miller 88/
L. G. Miller, S. E. Levinson: "Syntactic Analysis For Large Vocabulary Speech Recognition Using A Context-Free Covering Grammar", Int. Conf. on ASSP, 271-274, New York City, 1988
/Moore 85/
R. K. Moore: "Systems for Isolated and Connected Word Recognition", in /DeMori 85/, 73-143, 1985
/Mühlfeld 86/
R. Mühlfeld: "Verifikation von Worthypothesen", Dissertation, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1986
/Myers 80/
C. S. Myers, Rabiner L.R., Rosenberg A.E.: "Performance Tradeoffs in Dynamic Time Warping Algorithms for Isolated Word Recognition", IEEE Trans, on ASSP-28, No. 6, 623-635, 1980
/Myers 81/
C. S. Myers, L. R. Rabiner: "Connected Digit Recognition Using a Level Building DTW Algorithm", IEEE Trans, on ASSP-29, No. 3, 351-363, 1981
/Ney 84/
H. Ney, R. Geppert, D. Mergel, A. Noll, H. Piotrowski, P. Schwartau, H. Tomaschewski: "Statistical Modeling And Dynamic Programming In Speech Recognition", Sprache und Datenverarbeitung, Heft 1/2, 17-33, 1984
/Ney 87/
H. Ney, D. Mergel, A. Noll, A. Paeseler: "A Data-Driven Organization Of The Dynamic Programming Beam Search For Continuous Speech Recognition", Int. Conf. on ASSP, 833-836, Dallas, 1987
183 /Ney 88/
H. Ney, A. Noll: "Phoneme Modeling Using Continuous Mixture Densities", Int. Conf. on ASSP, 437-440, New York City, 1988
/Niemann 87/
H. Niemann, H. Bunke: "Künstliche Intelligenz in Bild- und Sprachanalyse", B. G. Teubner Verlag, Stuttgart, 1987
/Niemann 88a/
H. Niemann, M. Lang, G. Sagerer: "Recent Advances in Speech Understanding and Dialog Systems", Springer Verlag, Berlin, 1988
/Niemann 88b/
H. Niemann, A. Brietzmann, U. Ehrlich, S. Posch, P. Regel, G. Sagerer, R. Salzbrunn, G. Schukat-Talamazzini: "A Knowledge Based Speech Understanding System", International Journal of Pattern Recognition and Artificial Intelligence, Vol 2, No. 2, 321-350, 1988
/Niemann 89/
H. Niemann, G. Sagerer, S. Schröder, F. Kümmert: "A Semantic Network For Pattern Understanding", PAMI, 89, eingereicht
/Nilsson 71/
N. Nilsson: "Problem solving methods in Artificial Intelligence", Mc GrawHill, Ney York, 1971
/Nilsson 82/
N. Nilsson: "Principles of Artificial Intelligence", Springer Verlag, Berlin, Heidelberg, New York, 1982
/Nishimura 87/
M. Nishimura, K. Toshioka: "HMM-Based Speech Recognition Usung MultiDimensional Multi-Labelling", Int. Conf. on ASSP, 1163-1166, Dallas, 1987
/Nöth 85/
E. Nöth: "Einsatzmöglichkeiten der Erfahrung von Spektrogrammlesern für die automatische Lauterkennung", Diplomarbeit, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1985
/Nöth 88/
E. Nöth, R. Kompe: "Der Einsatz prosodischer Information im Spracherkennungssystem EVAR", in /Bunke 88/, 2-9, 1988
/ N ö t h 91/
E. Nöth: "Prosodische Information in der automatischen Spracherkennung Berechnung und Anwendung", erscheint im Max Niemeyer Verlag, Tübingen, Linguistische Arbeiten, 1991
/Paeseler 89/
A. Paeseler, H. Ney: "Continuous-Speech Recognition Using a Stochastic Language Model", Int. Conf. on ASSP, 719-721, Glasgow, 1989
/Paul 89a/
D. B. Paul: "The Lincoln Robust Continuous Speech Recognizer", Int. Conf. on ASSP, 449-452, Glasgow, 1989
/Paul 89b/
M. Paul: "Generieren von Aussprachemodellen für die Worterkennung in gesprochener deutscher Sprache", Studienarbeit, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen
/Poritz 88/
A. B. Poritz: "Hidden Markov Models: A Guided Tour", Int. Conf. on ASSP, 7-13, New York City, 1988
/Posch 85/
S. Posch: "Suchstrategien zur syntaktischen Analyse in der automatischen Spracherkennung", Diplomarbeit am Lehrstuhl 5 (Mustererkennung), Universität Erlangen-Nürnberg, 1985
184 /Rabiner 78/
Rabiner L.R., Rosenberg A.E., Levinson S.E.: "Considerations in Dynamic Time Warping Algorithms for Discrete Word Recognition", I E E E Trans, on ASSP26, 575-582, No. 6, 1978
/Rabiner 85/
L. R. Rabiner, B.-H. Juang, S. E. Levinson, M. M. Sondhi: "Some Properties Of Continuous Hidden Markov Model Representations", A T & T Technical Journal, Vol. 64, Nr. 6, 1251-1269, 1985
/Rabiner 86/
L. R. Rabiner, B. H. Juang: "An Introduction to Hidden Markov Models", ASSP Magazine 3(1), 4-16, 1986
/Rabiner 87/
L. R. Rabiner: "Theory Of Hidden Markov Models And Its Application To Speech Recognition", Vortragsunterlagen, NATO Advanced Study Institute on "Recent Advances In Speech Understanding And Dialog Systems", Bad Windsheim (Deutschland), 5-18 July 1987
/Rabiner 88a/
L. R. Rabiner, J . G. Wilpon, F. K. Soong: "High Performance Connected Digit Recognition, Using Hidden Markov Models", Int. Conf. on ASSP, 119-122, New York City, 1988
/Rabiner 88b/
L. R. Rabiner: "Mathematical Foundations of Hidden Markov Models", in /Niemann 88a/, 183-205, 1988
/Reddy 75/
D. R. Reddy: "Speech Recognition", Academic Press, New York, 1975
/ R e g e l 88/
P. Regel: "Akustisch-phonetische Transkription Spracherkennung", VDI-Verlag, Düsseldorf, 1988
/Royé 83/
H. Royé: "Segmentierung und Hervorhebung in gesprochener deutscher Standardaussprache", PHONAI Band 27, Niemeyer, Tübingen, 1983
/Ruske 88/
G. Ruske: "Automatische Spracherkennung", Oldenbourg Verlag, München, 1988
/Sagerer 8 8 /
G. Sagerer, F. Kümmert: "Knowledge Based Systems for Speech Understanding", in /Niemann 88a/, 421-458, 1988
/Sagerer 90/
G. Sagerer: "Automatisches Verstehen gesprochener Sprache", BI-Wissenschaftsverlag, Mannheim, Reihe Informatik, Band 74, 1990
/Sakoe 78/
Sakoe H., Chiba S.: "Dynamic Programming Algorithm Optimization for Spoken Word Recognition", I E E E Trans, on ASSP-26, No. 1, 43-49, 1978
/Sakoe 79/
Sakoe H.: "Two-Level DP-Matching - A Dynamic Programming-based PatternMatching Algorithm for Connected Word Recognition", I E E E Trans, on ASSP27, No. 6, 588-595, 1979
/Salzbrunn 87/
Salzbrunn R.: "Mehrstufige Dynamische Programmierung zur Wortverifikation", Diplomarbeit am Lehrstuhl 5. (Mustererkennung), Universität ErlangenNürnberg, 1987
/Scagliola 88/
C. Scagliola, A. Carossino, A. M. Colla, C. Favareto, P. Pedrazzi, D. Sciarra, C. Vincenzi: "Real-Time Large Vocabulary Word Recognition Via Diphone Spotting And Multiprocessor Implementation", in /Niemann 88a/, 273-278,1988
für
die
automatische
185 /Schmidbauer 87/ O. Schmidbauer: "Syllable-based Segment-Hypotheses Generation in Fluently Spoken Speech Using Gross Articulatory Features", Int. Conf. on ASSP, 391394, Dallas, 1987 /Schukat 87/
E. G. Schukat-Talamazzini: "Generierung von Worthypothesen in kontinuierlicher Sprache", Springer Verlag, Berlin, 1987
/Schukat 89/
E. G. Schukat-Talamazzini, unveröffentlichte Ergebnisse, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1989
/Schwartz 88/
R. M. Schwartz: "Acoustic-Phontic Decoding of Speech (Statistical Modeling for Phonetic Recognition)", in /Niemann 88a/, 25-49, 1988
/Siebs 69/
Siebs: "Deutsche Aussprache. Reine und gemäßigte Hochlautung mit Aussprachewörterbuch", Hg. v. H. de Boor, H. Moser & C. Winkler, Berlin, 19. Auflage, 1969
/Tillmann 80/
H. G. Tillmann: "Phonetik: Lautsprachliche Zeichen, Sprachsignale und lautsprachlicher Kommunikationsprozeß", Klett-Cotta, Stuttgart, 1980
/Tomita 85/
M. Tomita: "Efficient Parsing For Natural Language", Kluwer Academic Publishers, Boston, 1985
/Tomita 86/
M. Tomita: "An Efficient Word Lattice Parsing Algorithm For Continous Speech", Int. Conf. on ASSP, 1569-1572, Tokyo, 1986
/Viterbi 67/
A. J. Viterbi: "Error Bounds For Convolutional Codes and an Asymptotically Optimal Decoding Algorithm", IEEE Trans, on Information Theory, IT-13,260289, 1967
/Waibel 83/
A. Waibel, B. Yegnanarayana: "Comparative Study Of Nonlinear Time Warping Techniques In Isolated Wort Recognition Systems", IEEE Trans, on ASSP31, No. 6, 1582-1586, 1983
/Ward 88/
W. H. Ward, A. G. Hauptmann, R. M. Stern, T. Chanak: "Parsing Spoken Phrases Despite Missing Words", Int. Conf. on ASSP, 275-278, New York City, 1988
/Weintraub 89/
M. Weintraub, H. Murveit, M. Cohen, P. Price, J. Bernstein, G. Baldwin, D. Bell: "Linguistic Constraints in Hidden Markov Model Based Speech Recognition", Int. Conf. on ASSP, 699-702, Glasgow, 1989
/Weper 89/
R. Weper: "Interaktives Darstellen von Daten und Ergebnissen der Worterkennung", Studienarbeit, Lehrstuhl für Informatik 5 (Mustererkennung), Universität Erlangen, 1989 (in Vorbereitung)
/Woods 70/
W. A. Woods: Transition Network Grammars For Natural Language Analysis", Comm. of the ACM-13, 591-602, 1970
/Woods 82/
W. A. Woods: "Optimal Search Strategies For Speech Understanding Control", Artificial Intelligence, Vol. 18, 295-326, 1982
14 Anhang 14.1 Liste der erkennbaren Lautkomponenten des Akustik-Phonetik-Moduls in EVAR Lautkomponenten
" stimmhaft nicht-frikativ"
[ M
IH
vital
[I]
I.
bist
Ce 1 EH
[8]
E.
h»tte
[3]
ER
halte
[0]
]
0.
Post
[U]
UH
kulant
[y ]
YH
Rübe
M
Y.
füllt
[ ß ] AR
oder
[1 ]
L.
[O
Methan
OH
Moral
[0]
U.
Pult
A.
hat
Laut
ta ] [m]
M.
Mast
[n]
N.
Naht
[N]
NE
baden
[Q]
NG
Schwung
[0]
Q.
Götter
[Cß] QH
mögen
[R]
R.
Traum
Lautkomponenten
[ z ] z.
Hase
CA
Echo
[v]
"stimmhaft-frikativ"
V.
was
CI
(ich im)
Lautkomponenten M
RA
[g ] xi [ s ] s.
[J] [f]
Haare ich
SH
Schal
F.
Faß
[3]
ZH
(engl, measure)
XA
ach
H.
Haus
"stimmlos"
[x] [hl
was
T.
Burst von
Burst von
[k
]
P.
Burst von
Burst von
et 3 [dl
K.
D.
G.
Burst von
[Q ]
B.
Burst von
TH
Behauchung von
[t ]
KH
Behauchung von [ k l
PH
Behauchung von
[P]
[b] [p]
Lautkomponenten bzgl. Pause Pause
TP
Verschluß von
[t ]
DP
Verschluß von
Cd J
KP GP
Verschluß von [ k
]
PP
Verschluß von
Verschluß von
]
BP
Verschluß von
[p] Cb J
187
14.2
Liste der vereinbarten Lautklassen des Akustik-Phonetik-Moduls in EVAR Vokale Offenes I Offenes E Murmel laut Dunkles A Offenes 0 Offenes U A-Laut Offenes Ü
Ii ] i. [£ ] E . [3 1 E R [0 I A H h (ö [Œ [ Ï
1 o. lu. lAE LY.
bist
Geschlossenes I
hatte
Geschlossenes E
halte
Helles A
Wal
Abgeschwächtes A
Post
Geschlossenes 0
Pult
Geschlossenes U
(engl
bat)
füllt
Offenes Ö Geschlossenes Ü
IH II EH (e A. [3 I AR le lo 1 OH (u 1 UH ID Q. 1 YH [y
vital Methan hat Ober Moral kulant Götter Rübe
Unsilbische Vokale Unsilbisches I Unsilbisches 0 Unsilbisches Ü
[|
LLJ fo 1 OJ [y L Y I
Studi 3
Unsilbisches A
loyal
Unsilbisches U
[e 1 AJ iy 1 UJ
Uhr Statue
Etui
Nasale Vokale Nasales E Nasales 0
II 1 EN [ O 1 ON
(frz. timbre)
Nasales A
(frz. fondue)
Nasales ö
AN [0 li 1 QN
{frz. penser) (frz. lundi)
Diphthonge Von A nach I Von 0 nach Ü
lai 1 A I Ii 1 OY
Von A nach U
weit
la 1 AU
Haut
1:
ka:m
Heu
Zusatzlaute Hauptakzent
['
be'konnten
Langer Vokal
Stiimritzenverschluß
[ 1w.
be+achten
Pause
[
188
(Fortsetzung)
Konsonanten Stimmloses F
[f
Stlimihaftes U
[w
StImnhaf tes S
[z
Stlimihaftes SCH
F.
Faß
Stimmhaftes F
V )
V.
Was
W. z.
(engl, wind)
Stimnloses S
s 1
s.
Was
Hase
Stimnloses SCH
i 1
SH
Schal
ZH
(engl, measure)
Ich-Laut Stinmhaftes J
?]
XI
ach-Laut
[J [x
XA
ach
Stimnloses H
ih
H.
Haare
Zäpfchen R
[ R
R.
L-Laut
(1
L.
Laut
] ]J.
ich jubeln
Reibe R
N 1
RA
Zungenspitzen R
r 1
RR
Silbisches L
\
LE
Nabel
ME
großem
NE
baden
)
Haare
Nasale Konsonanten M-Laut N-Laut NG-Laut
[ m
In b
M.
Mast
Silbisches M
N.
Naht
Silbisches N
NG
Schwung
rp ] P1
Verschlußlaute Stlimiloses P Stimnloses T Stimnloses K
lp
lt Ii
P.
Pakt
Stimmhaftes B
T. K.
Tal
Stimnhaftes D
kalt
Stiumhaftes G
b1 d )
B.
Ball
D.
dann
91
G.
Gast
Affri kate PF-Laut Stimnloses TSCH
\i
PF
Pfahl
TS-Laut
ts 1
TS
Zahl
C.
Cello
St imnhaf tes DSCH
$1
CH
Gin
189
143 Regelsatz für Aussprachevarianten Beschreibung des Regelsatzes für Aussprachevarianten nach /Mühlfeld 86/. Regel 1: In intervokalischer Position können stimmhafte labiale und velare Plosive ( / B . / und / G . / ) durch beidseitige Assimilation in die homorganen (d. i. gleicher Artikulationsort) Frikative überführt werden. Regel 2: Nach / L . / und / R . / treten Frikatisierungen der stimmhaften Plosive / B . / und / G . / häufig auf, jedoch kaum bei /L.D./ und / R . D . / . Regel 3: Durch progressive Assimilation der Nasalität können stimmhafte Plosive nach Nasalen in die homorganen Nasale übergehen. Regel 4: Folgen stimmhafte Plosive oder / Z . / auf stimmlose Plosive oder stimmlose Frikative, so werden die stimmhaften Plosive total entstimmlicht (progressive Assimilation der Stimmlosigkeit). Regel 5: Im Wortan- bzw. Wortauslaut können stimmhafte Plosive total entstimmlicht werden. Regel 6: Durch regressive Assimilation der Nasalität können stimmhafte Plosive vor Nasal innerhalb eines Wortes zu den homorganen Nasalen werden. Regel 7: Ist / T . / der mittlere Konsonant einer Dreiergruppe, so kann er elidiert werden, a) nach / N . / oder / L . / vor / S . / b) vor / L . / nach Frikativen c) in der Folge < apikaler Frikativ + apikaler Plosiv + apikaler Frikativ> d) in Senkungssilben nach Frikativ oder /N./. Regel 8: Vor stimmlosem Plosiv im Silbenauslaut, aber auch vor stimmlosem Plosiv im Morphemanlaut unterbleibt die Explosion von stimmlosen Plosiven. Regel 9: Am Wortanfang ist / Z . / stimmlos bzw. ist nur schwach stimmhaft. Regel 10:
/ S . / kann durch regressive Assimilation der Artikulationsart an folgendes / S H / assimiliert werden.
Regel 11:
Durch progressive bzw. regressive Assimilation der Stimmhaftigkeit können stimmlose Frikative nach bzw. vor Vokalen stimmhafte Anteile enthalten.
Regel 12:
Nach einem Vokal kann / R . / am Wortende oder vor einem Konsonant durch / A R / ersetzt werden.
Regel 13:
Nach Konsonant kann die Plosion in / P F / schwinden. Nach /S./, / L . / oder /N./ kann die Plosion in / T S / schwinden.
Regel 14:
/ E R N . / und / E R M . / können nach Konsonant am Wortende oder vor Konsonant durch (silbische) Nasalkonsonanten ersetzt werden.
Regel 15:
Nach Vokalen kann / E R / elidiert werden.
Regel 16:
In Auslautklustern wird bevorzugt der erste Reduktionsvokal elidiert.
190 Regel 17:
In Präfixen wie er-, zer- und ver- kann die Vokalfolge / E H A J / zu / E R / verschliffen werden.
Regel 18:
Zu den folgenden Wörtern werden schwache Formen berücksichtigt:
Wort
starke Form
schwache Form
die der ich du er ihm ihn sie es für in zu vor und ist
/D.IH:./ /D.EH:.AJ/ /I.XI/ /D.UH:./ /EH:.AJ/ /IH:.M./ /IH:.N./ /Z.IH:./ /E.S./ /F.YH:.AJ/ /I.N./ /TSUH:./ /F.OH:.AJ/ /U.N.T./ /I.S.T./
/D.ER/ /D.AR/ /XI/ /D.ER/ /ER/ /ERM./ /ERN./ /Z.ER/ /S./ /F.AR/ /N./ /TSER/ /F.AR/ /ERN./ /ERS./
Regel 19:
Apikale Plosive und Nasale vor Wort- und Morphemgrenzen können an folgende
Regel 20:
Wie in Regel 4 können stimmhafte Plosive auch über Wortgrenzen hinweg durch
labiale und velare angeglichen werden (regressive Assimilation des Artikulationsortes).
progressive Assimilation der Nasalität in die homorganen Nasale übergehen. Regel 21:
Wie in Regel 10 kann über Wortgrenzen hinweg durch regressive Assimilation der Artikulationsart /S./ an folgendes / S H / angeglichen werden.
Regel 22:
Nach / L . / , / N . / und / S . / kann wortfinales / T . / vor / Z . / und / S H / elidiert werden.
Regel 23:
An Wortfugen kann es darüber hinaus noch zur Elimination von konsonantischen Geminaten, d. i. zwei unmittelbar aufeinanderfolgende gleiche Lautsegmente, kommen.
191
14.4 Liste der Wortarten, semantischen Klassen und pragmatischen Konzepte Liste der Wortarten Abkürzung
Wortart
Abkürzung
Wortart
adj det wadv wpron auxs infpar konj mverb neg ordzahl praepraep reflpron subj adju verbprae Zahlwort
Adjektiv Determinans Frageadverb Fragepronomen Hilfsverbsein Infinitivpartikel Konjunktion Modalverb Negationspartikel Ordinalzahl Präpräposition Reflexivpronomen Subjunktion unflektiertesAdjektiv Verbpräfix Zahlwort
adv flos wdet auxh auxw infsubj koord n npr praep pron relpron satzwort verb vglpar
Adverb Floskel Fragedeterminans Hilfsverb_haben Hilfsverbwerden Infinitivsubjunktion Koordination Nomen Nomenproprium Präposition Pronomen Relativpronomen Satzwort Verb Vergleichspartikel
192 Liste der Semantischen Klassen Abkürzung
semantische K l a s s e
Abkürzung
semantische K l a s s e
Abs Act Adv Age Ani App Bes Bpa Cha Cla Cnc Col Con Cpr Des Dsp Eex Flo Fre Fre&Tim Gen Hum&Abs Ide Inf Inf&Con Int Lod Mat Men Mod Mov Nbl Pat Pia Pro Qal qua Rel Res Res&Con Rpl Sha Sol Spe Sum Tem Tid Tra Tru Uni Usp Uwo Vol Wor
ABStract ACTion ADVersative AGE ANImate APPosition BEStial BodyPArt CHAracter CLAssifying CoNCessive COLour CONcrete ComPaRison DEScription Di mens i on_of_SPace Emotional-EXpressive FLOwer FREquency FREquency&TIMe GENeralization HUManbeing&ABStract IDEntification INFormation INFormation&CONcrete INTensity LOcation D i f f u s e MATerial MENtal s t a t e MODality MOVement NamaBLe a b s t r a c t s PATh PLAce PROcess QuALitative QUAlity RELation RESult RESult&CONcrete RePLacive SHApe SOL id SPEed SUMmative TEMperature TImeDiffuse TRAnsport TRUth value UNIt Unit of SPace Unit of WOrth VOLational WORth
Acp Add Aft Agg Ant Ben Bhv Cau Chg Cmrn Cnd Com Cot Csq Dir Dur Enu Flu Fre&Loc Gas Hum Hum&Con Ina Inf&Abs Ins Loc Man Mea Met Mom Nam Ori Per Prd Pur Qan Ref Rel&Loc Res&Abs Rlv Rst Sin Sou Stt Tas Thi Tim Trn Ulo Unt Uti Val Wei
ACting Person ADDÌ t i ve AFTer state_of_AGGregation ANTerior BENefactive BeHaViour CAUse CHanGe_of_state CoMMunication CoNDition COMpanion COT ConSeQuence DIRection DURation ENUmerative FLUid FREquency&LOCati on GAS HUMan being HUManbeing&CONcrete INAnimate INFormation&ABStract INStrument LOCation MANner MEAsure METhod MOMent NAMe ORIgin PERception P R e D i c a t i v e verbs PURpose QuANtitative REFerence RELation&LOCation RESult&ABStract ReLationalVerbs ReSTrictive SINce SOUnd STaTe TASte THIng TIMe TRaNsitional Unit o f LOcation UNTil UnitofTIme VALuation WEIght
193 Liste der pragmatischen Konzepte Die Konzeptnamen sind im allgemeinen selbsterklärend. Abkürzungen (z. B. Hum) siehe semantische Klassen. 1.Klasse 1 .Klasse_Grossraumwagen 2.Klasse Abteilwagen Abteil Abteilwagen Auto Bahnsteig D-Zug Diesellok E-Lok einfach zurueck ErmaessTgungswert/15 Ermaessigungswert Fahrkarte Fahrpreisangabe Fensterplatz Frau Grossraumwagen Gueterzug Hum IC-Bahnhof IC nach Fahrplan iterat Z e i t i n t Jugendlicher Kind Landfahrzeug Liste IC Orte Lokomotive Maedchen Nichtraucherabteil Personenwaggon PIatznummer Preisangabe Qan Quick-Pick-Wagen Reservierungsauskunft Schiff Sitzplatz Stadt Stadt mit IC-Bahnhof Stt Teilverbindung Tim Ulo UmsteigenJa Verbindung Vol Waggon Wor Zeitintervall Zug Zugnummer Zugverbindung Zugverbi ndung_Prei s
1.Klasse Abteilwagen 2.Klasse 2.Klasse_Grossraumwagen AbteiInummer AItersangabe Bahnhof Col Dampflok Dur Eilzug Ermaessigungswert/50 Ermaessigungswert/O Erwachsener Fahrplanauskunft Fahrpreisauskunft Flugzeug Gepaeckwaggon Gueterwaggon Hauptbahnhof IC-Wagen IC-Aufenthalt Intercity-Zug iteratZeitpunkt Junge Klassenangabe Liegewagen Loc Luftfahrzeug Mann Objektauskunft Personenzug Preis Platzkarte Qal Qua Raucherabteil Schienenfahrzeug Schlafwagen Speisewagen Stadt mit Bahnhof Strassenfahrzeug TEE Thi Tra Umsteigeausdruck Umsteigen_Nein Verbi ndungsauskunft Wagennummer Wasserfahrzeug Zeitdauer Zeitpunkt Zugausstattung Zugrestaurant Zugverbindung_Objekt Zugverbindung Reserv
194
14.5 Modellinventar zur Unterscheidung von 14 Lautoberklassen
Modell inventar für das Klassifizieren von Segmenten mit 14 Klassen und 12 Modellen Nr.
Label
15 18 11 41 21 33 32 39 31 23 45 43 30 22 36 29 34 9 5 16 25 35 6
+ .>WP A. AI>A. AU>A. D.>WP EH>E. F. H.>F. IH>I. K.>HP LE>N. ME>N. NE>N. 0. 0Y>0. Q.>E. R.>A. SH U. V.>F. XA Y.>E. Z.>S.
Labelumschrift XX
A.A.A. XX XX XX XX
F.F.F. XX XX XX XX XX XX
0.0.0. XX XX XX
SHSHSH U.U.U. XX
XAXAXA XX XX
Nr.
Label
1 44 19 24 28 13 12 7 38 17 4 14 40 3 26 42 20 10 27 2 8 37
AE>A. AR>A. B.>WP E. ER>E. G.>WP I. J.>I. L.>N. M.>N. N. NG>N. 0H>0. P. >HP QH>E. S. T.>HP UH>U. W.>F. XI YH>E.
Labelumschrift XX XX XX
E.E E. XX XX
I.I I. XX XX XX
N.N N. XX XX XX XX
S.S S. XX XX XX
XIXIXI XX
Zusätzlich eingeführt 46
WP
-.-.f.
47
HP
-.f.f.
Mit xx sind ungültige Umschriften für die konstruierten H M M gekennzeichnet.
195
14.6 Lauterkennungsraten für unterschiedliche Modellinventare
Länae der Lautumschrift
% erkannt in Lautalternative 1 2 4 5
2
% nicht erkannt
14 Klassen Regel 88 SIS SID SIDRückwärts SIDVorwärts
64 61 61 61 61
8 2 1 4 7
75.4 80.0 79.6 79.9 80.2
80 3 87 7 87.1 87 5 87 9
82.3 91.1 90.9 91.3 91.4
83.4 93.6 93.1 93.6 93.6
16.6 6.4 6.9 6.4 6.4
46 7 45 7 46 4 46.0 46 0
61.3 60.5 61.5 60.9 61.0
68 70 72 71 71
6 8 0 4 5
71.8 78.2 78.6 78.1 78.3
73.8 84.2 84.2 84.0 84.1
26.2 15.8 15.8 16.0 15.9
46 45 46 45 45
60.5 59.9 60.3 60.2 60.3
67 70 70 70 70
9 3 9 5 7
71.3 77.1 77.3 77.0 77.1
73.4 82.1 81.9 81.6 81.7
26.6 17.9 18.1 18.4 18.3
36 Klassen Regel 88 SIS SID SIDRückwärts SIDVorwärts 39 Klassen Regel 88 SIS SID SIDRückwärts SIDVorwärts
4 9 0 8 9
196
14.7 Klassifikationsergebnisse aufgeschlüsselt nach 36 Lautklassen Lautklass fikatlon für SID mit Laut lange 3
Regel 88
Segmentalternat ive 1
2
3
4
Segmentalternative 5
nicht erkannt
1
2
4
3
nicht erkannt
5
_
77.6
78.9
78.9
81
6
81.6
18.4
83.7
86.4
86.4
86.4
87.1
A!
83.1
92.3
96.4
96.9
97.4
2.6
86.7
90.8
91
8
93.3
93
AI
32.7
36.3
57.5
68.1
73.5
26.5
0.0
0
0
0.0
AR
13.1
22.6
44.0
66
7
78.6
21.4
19.0
72.6
78.6
AU
31.7
65.0
73
81
7
86.7
13.3
0.0
0
0.
15.1
29.5
44.6
80.6
84.2
E.
23.8
43.8
72.5
77.5
81.3
EH ER F.
26.8
61.0
78
85.4
90.2
78
6.
3
0
0.0 60
7
0
0
0
0
absolute Elementanzahl
12.9
147
8
6.2
195
0
0
100.0
113
79
8
20.2
84
0
100.0
60
0
0
15.8
15
8
50.4
68.3
74.1
74.8
25.2
139
18.8
71
3
77
5
83.8
85.0
88
8
11.3
80
9.8
31
7
51
2
65.9
73.2
78.0
22.0
41 172
4.7
52.3
66.3
5
84.3
15.7
50
0
72
7
83
1
87.8
90
1
9.9
39.4
59.2
70
4
76.1
77.5
22.5
54
9
67
6
70.4
70.4
70
4
29.6
71
1.6
6.5
21
0
32
3
69.4
30.6
12
9
21
0
43
5
51.6
58
1
41.9
62
16.3
123
I. IH
30.9
62.6
77
2
82.1
88.6
11.4
35
0
59
3
72
4
77.2
83
7
78.7
89.9
91
0
92
94.4
5.6
57
3
73
0
83
1
86.5
87
6
12.4
89
K.
22.0
34.7
54
7
62.7
68.0
32.0
22
0
38
7
48
7
51.3
53
3
46.7
150
1
L.
32.3
43.5
51
6
58
1
79.0
21.0
19.4
32
3
41
9
46.8
56.5
43.5
M.
48.2
83.3
86
0
88
6
89.5
10.5
43
0
82
5
88
6
89.5
89
5
10.5
114
N.
71.8
87.6
92
1
92
9
93.4
6.6
83
8
94
2
94
6
94.6
94
6
5.4
241
62
0.0
45
0
85
0
91.7
8.3
0
0
20
0
73
3
85.0
90
0
10.0
60
6.5
16.1
35
5
87
1
87.1
12.9
6
5
12
9
41
9
87.1
87
1
12.9
31
0.
27.0
41.3
50
8
63
5
84.1
15.9
30
2
50.8
68.3
82.5
85
7
14.3
63
OH
39.6
54.2
75
0
79
2
85.4
14.6
31
3
52
1
58
3
62.5
68
8
31.3
48
0*
0.0
28.6
28
6
42.9
42.9
57.1
0
0
0
0
0
0
0.0
0
0
100.0
7
P.
31.9
66.0
76
6
85
1
89.4
10.6
4
3
25
5
44
7
57.4
72
3
27.7
47
Q.
71
4
39
3
NE NG
0.0
32.1
64.3
67
9
75.0
25.0
32
1
39
3
46.4
50
0
50.0
R. S. SH T. U. UH
23.4
39.1
48
4
50
0
51.6
48.4
9
4
17
2
21
9
21.9
26
6
73.4
64
74.1
89.6
91
1
92
6
92.6
7.4
68
9
84
4
85
2
86.7
86
7
13.3
135
75.4
87.7
94
7
94
7
94.7
5.3
66
7
70
2
71
9
71
9
28.1
57
57.3
69.8
76
7
81
0
83.6
16.4
65
1
72
4
72
8
73.3
73
3
26.7
232
23.8
38.1
52
4
64
3
73.8
26.2
31
0
52
4
76
2
83.3
83
3
16.7
42
50.0
75.0
81
8
81
8
81.8
18.2
50
0
77
3
77
3
77.3
81
8
18.2
44
V.
49.0
65.3
79
6
83
7
93.9
6.1
42
9
57
1
57
1
59.2
61
2
38.8
49
U.
3.8
3.8
3
8
3
8
3.8
96.2
0
0
0
0
0
0
0.0
0
0
100.0
26
XA
65.7
68.6
71
4
75
7
77.1
22.9
58
6
62
9
65
7
65.7
65
7
34.3
XI ¥. Z.
60.0
78.2
85
5
90
9
92.7
7.3
63
6
80
0
83
6
85.5
85
5
14.5
55
22.5
30.0
37
5
52
5
60.0
40.0
20
0
25
0
40.0
47.5
57
5
42.5
40
75.0
88.0
89
8
90
7
91.7
8.3
68
5
82
4
84
3
86.1
87
0
13.0
108
44.4
61.0
71
3
79.1
83.6
16.4
46
7
61.3
68
6
71.8
73
8
26.2
1399
1920
2245
2492
2634
515
1472
1931
2159
2262
2324
825
%
abs.
71.9
28
70
3149
In der Teststichprobe sind 3541 Segmente enthalten. 392 Segmente sind nicht handklassifiziert bzw. konnten nicht automatisch zugeordnet werden.
197
14.8 Regelsatz zur Transkription von Lauten nach Lautkomponenten Transkriptionsregelsatz für die Verifikation auf Lautkomponentenebene 1 2 3 4 5 6 7 e 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
1. 1h ih e. e. eh eh er a. a. ah ah ar 0. oh oh u. uh uh ae qqh qh y. yh yh ij aj oj uj yj an an ai au
:. .
:.
:.
:. 1*1 :. 1*1
/ -» / / / / -» /
:.
1*1
.0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
031. 03IH 05IH 03E. 05E. 03EH 05EH 03ER 03A. 05A. 03 A. 05A. 03AR 830. 03OH 850H 03U. 03UH 05UH 03A. 03Q. 03Q. @5Q. @3Y. @3Y. 05Y. 031. 03A. 030. @3U. 03Y. @2AR NG 03AR 02NG 02A. E. 06A. 0.
/ / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / /
.0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
/ / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / /
36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69
oy f. V. w. s. z. sh zh xi xa j. h. ra r. rr 1. le m. me n. ne ng Pb. t. d. k. 9pf ts c. ch +.
/
/
.0 .0 .0 .0 / -» / .0 .0 .0 .0 / - / .0 / -» / .0 / / .0 / - / .0 / -» / .0 / -» / .0 / / .0 / t / .0 / - / .0 / -* / .0 .0 1*1 / / .0 / / .0 / - / .0 .0 1*1 .0 1*1 .0 1*1 .0 1*1 .0 1*1 .0 1*1 .0 .0 .0 1*1 .0 1*1 .0 .0
/ -» /
020. @3F. 03 V. 02BP 03S. 03Z. 03SH 03Z. 03X1 03XA 031. 02F. 03R. 03R. 03R. 03L. 03L. 03M. 03M. 03N. 03NE 03 NG 02PP 02BP 02PP 82BP @2PP 02BP 02PP 02TP 82TP 02OP 02PP 07|-
E. A.
A.
D. D. T. D. K. K. ®2P. @2T. 02T. 02D. K.
F. S. SH ZH
.0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0 .0
14.9 Stichprobe für die Verifikationsverfahren mit dynamischer Zeitnormierung Kürzel
Sätze
Wörter
bd br em he ja sa ut
3 5 5 1 3 4 5
24 30 26 3 24 16 23
26
146
Summe:
198
14.10
Sprachumfang der ATN-Grammatiken
Beschreibung des Sprachumfangs der ATN-Grammatik nach /Brietzmann 87/. 1) kleine Satzgrammatik (EVAR-Bezeichnung atn_1.4): Grammatik für Frage- und Aussagesätze mit folgenden Konstituenten: - NG: Nominalgruppen (Kongruenzprüfung bzgl. Kasus, Genus, Numerus, keine Prüfung der Flexionsarten der Adjektive); "der/ein große/großer Koffer; wer; Sie; Bonn" Kein Reflexivpronomen: "sich" Adjektivreihung ist möglich: "ein schönes, neues, leeres Abteil" Vor dem Verb ist zu einem Substantiv-Nukleus ein PNG-Attribut möglich: "der Zug nach Hamburg", sonst werden NG und PNG nebengeordnet. Keine Apposition, Koordination, Vergleichs- und andere Partikel wie in "der IC Nummer 521; ich und du; wie er; sogar wir; er auch" - PNG: Präpositionalgruppen (Präposition mit NG) "am Bahnhof; mit Euch; in Hamburg" Vor dem Verb (analog NG): "am Bahnhof in München" Weder Zirkumpositionen ("um ... herum") noch Postpositionen (" ... wegen") oder mehrteilige Präpositionen wie "von ... bis ...; von ... an; bis auf ..." - VG: Verbalgruppe (nur im Aktiv, Modus Indikativ/Konjunktiv, alle Tempora außer Futur 2) "schläft; hat geschlafen; würde schlafen; wollte schlafen"; nicht: "wird gerufen; kommt!; wollte/wird geschlafen haben;" Verben mit Zusatz werden zusammengefügt: "kommt ... an" — > "ankommen" sowie Adverbien: "damals; wann" Keine Nebensätze, keine Negation, keine prädikativen Adjektive (s.u.), keine koordinierten Strukturen. Es werden nur Sätze mit Subjekt (NG im Nominativ) akzeptiert, bezüglich Zahl, Art und Abfolge anderer Satzglieder keine Einschränkungen.
2.) große Satzgrammatik (EVAR-Bezeichnung atn_2.5): Grammatik für Intercity-Auskünfte mit folgendem Sprachumfang: S: Hauptsätze und Satzgefüge mit folgenden Nebensatzarten (NS): Subjunktionalsatz (eingeleiteter untergeordneter Nebensatz):"..., daß er pünktlich ist","..., wenn er kommt" Relativsatz: "..., mit dem ich fahre" indirekter Fragesatz: "..., wo er abfährt"; dabei sind keine verschachtelten Nebensätze vorgesehen:"..., weil der, den ich nehmen wollte, Verspätung hat". Zur Analyse von Satzreihen sind als Satzeinleitung Konjunktionen ("und, oder, aber") berücksichtigt. Weitere Einleitungen sind Grußfloskeln: "(Ja,) Grüß Gott". Konstituenten: - NG: Nominalgruppen: wie in atn_1.4, aber mit Prüfung der Adjektiv-Flexionsart: "der große Tisch ; ein großer Tisch" aber nicht: "'der großer Tisch; *ein große Tisch". Zusätzlich spezielle Intercitybezeichnungen: "der Intercity Sachsenroß", "der IC Nummer 521" - PNG: Präpositionalgruppen: Präposition mit NG oder Adverb: "(bis) auf den IC Nummer 569; von wo; ab da". Weder Zirkumpositionen ("um... herum") noch Postpositionen (" ... wegen") oder mehrteilige Präpositionen wie "von ... bis ...; von ... an" - VG, NSVG: Verbalgruppen des Haupt- und des Nebensatzes entsprechend atn_1.4 - ADJUG: prädikative Adjektivgruppen "(ganz) fahrplanmäßig; wie schnell" - ADVG: Adverbialgruppen "wann; sehr gern; wie immer" - UHRZ: Uhrzeiten "zwischen 23 und 24 Uhr; gegen halb fünf; drei vor vier" - DATUM: Datumsangaben "am Montag, den ersten April; am ersten vierten".
199 Daneben sind folgende Besonderheiten berücksichtigt: Negation "nicht" außerhalb von Konstituenten (z. B. nicht innerhalb der NG: "eine nicht billige Karte") Höflichkeitsfloskel "bitte" Dank- und Abschiedsformeln "danke schön; auf Wiedersehen" Koordination in NG ("ich und du"), PNG ("für Kinder und Erwachsene"), V G ("kommen und gehen") und Nebensatz ("ob es regnet oder ob es schneit") ist nicht vorgesehen. 3.) Konstituentengrammatik (EVAR-Bezeichnung atnk_2.5>: Konstituenten entsprechend atn_2.5 (keine Sätze), ohne NS, NSVG; V G für kontinuierliche Konstituenten (vorher zusammengefaßt). Zusätzlich können Infinitivgruppen (INFG) im Aktiv analysiert werden: "angekommen zu sein; kommen zu können; anzukommen".
200
14.11
Stichprobe für die Konstituenten- und Satzanalyse
D
+
BD2121
"Wo muß ich umsteigen"
2)*
+
BD2122
"Ich will am ersten Oktober nach Bonn fahren"
BD2123
"Zu welcher Zeit möchten Sie abreisen"
4)
+
BD2127
"Gibt es noch einen früheren Zug"
5)*
+
BD2138
"würden Sie mir bitte einen Platz reservieren"
BU2120
"der Zug fährt nach Frankfurt"
3)
6)
CI0014_2
"ich möchte nächsten Mittwoch nach Würzburg fahren"
8)
+
CI221F
"aber, muß ich in Münster umsteigen"
9)
+
CI234F
"welche Verbindung kann ich nehmen"
+
CI234FB
"hat dieser Zug auch einen Speisewagen"
+
H)* 12)* +
CI236A
"und abends muß ich wieder nach Nürnberg kommen"
CL5550
"gibt es eine direkte Verbindung nach Stuttgart"
13)*
CL5553
"an diesem Tag haben Sie um zehn Uhr"
CL5560
"kann man reservieren?"
CL5563
"und auf welchem Gleis kommt er an?"
16)
+
CL5567
"wir wollen nach Göttingen"
17)
+
EM5518
"er kostet zehn Mark"
18)
+
EM5520
"wir möchten am Wochenende nach Mainz fahren"
19)*
+
HE0258
"möchte am Freitag möglichst früh in Bonn sein"
HE0263
"gibt es nach zehn noch einen Zug nach München?"
21)
+
JA0250
"ich möchte am Freitag möglichst früh in Bonn sein"
22)*
+
JA0253
"ich hätte gerne einen möglichst frühen Zug nach Bonn'
23)
+
JA246FA
"welche Verbindung kann ich nehmen?"
24)
+
JA246FB
"hat dieser Zug auch einen Speisewagen?"
7) +
10)
14)
+
15)*
20)*
Die mit * markierten Sätze sind nicht in der Stichprobe für die Satzanalyse enthalten. Die mit
14.12
+
markierten Sätze entsprechen der in /Ehrlich 90/ verwendeten Stichprobe.
Erkennungsraten bei einer lokalen Beschränkung des Suchraums Lokales Beschneiden des Suchraums, bei Betrachtung von maximal x Nachfolgern x x x x x
= 10 = 30 = 60 = 100 = 150
1.0 37.49 32.29 33.33 33.33 33.33
Relativer Rang Prozent erkannte Konstituenten bei Erzeugung von 2.0 3.0 4.0 5.0 7.0 10.0 20.0 Konstituentenhypothesen pro Segment 49.99 44.79 44.79 45.83 46.87
53.12 52.08 52.08 53.12 53.12
54.16 57.29 58.33 59.37 59.37
55.20 58.33 61.45 61.45 61.45
55.20 64.58 68.74 68.74 66.74
55.20 66.66 71.87 71.87 71.87
55.20 69.79 78.12 78.12 78.12
50.0 55.20 70.83 81.24 86.45 86.45
mittlere Zeit pro Satz 4.9 183.02 201.63 201.71 203.32
s s s s s