168 59 51MB
German Pages 329 [328] Year 2001
Maschinelle Verarbeitung altdeutscher Texte V Beiträge zum Fünften Internationalen Symposion Würzburg 4.-6. März 1997 Herausgegeben von Stephan Moser, Peter Stahl, Werner Wegstein und Norbert Richard Wolf
Max Niemeyer Verlag Tübingen 2001
Dieser Band wurde mit TUSTEP erstellt.
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Maschinelle Verarbeitung altdeutscher Texte: Beiträge zum ... internationalen Symposion .... -Tübingen: Niemeyer 5. Wür/burg, 4.-6. März 1997. 2001 ISBN 3-484-10832-0 © Max Niemeyer Verlag GmbH, Tübingen 2001 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Gedruckt auf alterungsbeständigem Papier. Druck: Guide-Druck, Tübingen Einband: Geiger, Ammerbuch
Inhalt
Vorwort
VII
Einführung C. M. Sperberg-McQueen (Chicago): Die Hochzeit der Philologie und des Merkur: Philologische Datenverarbeitung
3
Korpusfragen Christiane Pankow (Göteborg): Aufbau eines maschinenlesbaren Textkorpus deutscher und russischer TV-Nachrichten. Ziele, Methoden, Probleme
25
Lou Burnard (Oxford): Using SGML for Linguistic Analysis: the case of theBNC
53
Heinrich Hettrich (Würzburg): Die Erarbeitung einer Kasussyntax des Rgveda auf der Grundlage elektronisch gespeicherter Daten . . . .
73
Thomas Klein (Bonn): Vom lemmatisierten Index zur Grammatik
83
. . .
Lexikographie Yoshihiro Koga (Kumamoto): Perspektiven der mittelhochdeutschen Lexikographie in Japan
107
Friedhelm Debus (Kiel): Lexikon der Namen in deutschen literarischen Texten des Mittelalters
117
Ingrid Lemberg (Heidelberg): Die Belegbearbeitung in der lexikographischen Datenbank des Deutschen Rechtswörterbuchs
129
Paul Sappler (Tübingen): Probleme literarhistorischer und inhaltlicher Erschließung durch Register
149
VI
Yoshihiro Yokoyama (Keio-Universität, Tokyo/ Yokohama): Eine Konkordanz zu Wirnts 'Wigalois': Zum Einsatz eines computergestützten Lemmatisierungs Verfahrens
159
Ralf Plate / Ute Recker (Trier): EDV für Wörterbuchzwecke und neue lexikographische Arbeitsweisen. Erfahrungen beim Aufbau des elektronischen Text- und Belegarchivs für das mittelhochdeutsche Wörterbuch
169
Stephan Moser (Würzburg): Datenbank-Aufbereitung frühneuhochdeutscher Substantivableitungen
185
Einsatz neuer Medien Ulrich Müller / Andreas Weiss (Salzburg): Neidhart und „Wankelbolt" gestern, heute und morgen: Editionstradition und „Neue Medien" . . 201 Roy A. Boggs (Ft. Myers)/ Kurt Gärtner (Trier)/ Winfried Lenders (Bonn): Der Arme Heinrich in Multimedia Format: Transition to the Next 100 Years
211
Heinz Körten / Michael Prinz (Regensburg): Perspektiven einer rechnergestützten Onomastik. Multimedia in der Namenforschung
231
Andrea Rapp (Trier): Computergestützte Verfahren zur Erfassung, Katalogisierung, Bearbeitung und Edition mittelfränkischer Urkunden des 13. und 14. Jahrhunderts
247
Workshop zur Textdatenverarbeitung Wilhelm Ott (Tübingen): Werkzeuge zur philologischen Datenverarbeitung: Einführung in den TUSTEP-Workshop
265
Derek Lewis (Exeter) / Peter Stahl (Würzburg): Zugriff auf multilinguale Texte: Das Evaluieren einer literarischen Übersetzung unter Anwendung von TUSTEP
271
Wolfram Schneider-Lastin (Zürich): Erfassung, Verwaltung und Verarbeitung strukturierter Daten. Der Einsatz von TUSTEP-Masken in geisteswissenschaftlichen Projekten
295
Wilhelm Ott (Tübingen): Textkritik: Vom Textzeugen zum Apparat
309
. .
Vorwort
Vom 4. bis zum 6. März 1997 veranstaltete das Institut für deutsche Philologie der Universität Würzburg das 5. Internationale Kolloquium zur Maschinellen Verarbeitung altdeutscher Texte. Das vierte derartige Kolloquium hatte nahezu neun Jahre früher in Trier stattgefunden. Dort wurde noch viel über die Technik gesprochen; die Wahl der richtigen Maschine, die Wahl des adäquaten Programms waren Themen, die ausführlich und oft genug auch kontrovers diskutiert wurden. Manchmal entstand damals der Eindruck, dass ein sogenannter herkömmlich arbeitender Philologe auf vergleichbare Weise erklären müsste, warum er welchen Bleistift nimmt und wann er ihn spitzt. Wie dem auch sei, der Stand der Technik machte es sicherlich erforderlich, über so triviale Probleme zu sprechen wie die Formulierung einzelner Befehle oder die Belegung von Funktionstasten. Dazu kam seinerzeit geradezu eine Euphorie des Speicherns von Texten. Sowohl in Trier wie auf einer ähnlichen kurz darauf stattfindenden Tagung in Graz wurde das Zeitalter der elektronischen Bibliotheken ausgerufen, jeder sollte Texte eingeben und speichern und Disketten jedem anderen zur Verfügung stellen, es wurde eine zentrale Sammelstelle eingerichtet, in der die Texte ohne Rücksicht auf Format und Qualität gesammelt werden sollten; als darauf aufmerksam gemacht wurde, dass Dateien permanent gepflegt werden müssten, wurde dieser Hinweis verständnislos ignoriert. Desgleichen wurde kaum daran gedacht, dass der Computer für Philologen und Linguisten eigentlich nur ein Hilfsmittel sein kann, dass der Philologe oder der Linguist immer noch als denkendes Individuum seine Fragen selbst stellen und formulieren sollte, dass der Computer ihm dies nicht abnehmen kann und dass der Computer auch nicht die Fragen, ja eigentlich nicht einmal die Art, die Fragen zu stellen, vorschreiben sollte. Ebensowenig schien eine Reihe von Kollegen beeindruckt von der Forderung, dass Philologen oder Linguisten andere Aufgaben hätten als Texte, die ohnehin schon ediert waren, auf magnetische Flächen zu bannen. Nun, von der seinerzeit projektierten und groß angekündigten Deutschen Elektronischen Bibliothek hört man seit Längerem nichts mehr, das 5. Kolloquium fand dennoch oder deswegen statt.
VIII
Vorwort
Es ist ein Gemeinplatz, dass die letzten Jahre durch eine rasante Entwicklung der Technik gekennzeichnet sind. In Trier wurde z. B. über Work-Stations und deren Preise als Alternative zum zentralen Großrechner eines Rechenzentrums gesprochen, in der Zwischenzeit hat ein normaler PC eine weitaus größere Leistung als eine Work-Station damals. Mangelnde Speicherkapazität ist kein Problem mehr, Prozessoren und Programme legen uns bei der Arbeit (und auch - es sei eingestanden - beim Spiel) ein Tempo vor, dass wir uns beim Ausruhen wohl nicht mehr auf die Langsamkeit der Maschine berufen können. Dazu kommt, dass innerhalb der angesprochenen Zeit sich ein Phänomen herausbildete, von dem wir in Trier noch nicht einmal träumen konnten. Wir alle sind vernetzt, wir sind allesamt Teile eines weltumfassenden Datennetzes und Datentransfers geworden. Das Internet ermöglicht Diskussionen, wie sie selbst bei Kongressen kaum möglich sind, allerdings ermöglicht das Netz auch Diskussionen oder Diskussionsbeiträge, die in der kritischen Öffentlichkeit einer Konferenz kaum denkbar wären. Und schließlich seien auch die neu(er)en Speichermedien erwähnt, die Datenmengen fassen können, die zu Trierer Zeiten kaum noch auf einer Festplatte Platz gefunden hätten. Mit all dem aber hat sich der Computer nicht nur zur komfortablen Speicherund Schreibmaschine entwickelt, sondern zu einem Hilfsmittel, das neue Editionsformen zulässt und dann gleichzeitig auch Methoden der Textbearbeitung erlaubt. Schließlich hat sich das Internet als eine neue Möglichkeit der Publikation und der wissenschaftlichen Kommunikation etabliert, als eine Möglichkeit, deren Chancen und Risiken wir immer noch nicht voll abschätzen können. Dennoch ist es notwendig, spezielle Beschreibungssprachen zu (er)fmden, mit denen es möglich ist, Daten unbeschädigt durch die Netze zu schicken; deshalb war (und ist) SGML ein besonders aktuelles Thema. Über all das war auf der Tagung viel zu hören; mancher Plan von damals ist bereits wieder aufgegeben, nur Weniges tatsächlich realisiert, Einiges auch schon überholt. So sprach Horst P. Pütz, Kiel, damals über die mittelhochdeutsche Begriffsdatenbank. Er selber ist der Meinung, dass das Projekt so viel voran gekommen ist, dass den damaligen Bericht zu publizieren nicht mehr lohnt; in der Zeitschrift für deutsches Altertum wird im letzten Heft des Jahrgangs 2000 oder im ersten Heft 2001 der neueste Stand referiert werden. In den letzten Jahren hat sich auch immer mehr die Überzeugung durchgesetzt, dass zahlreiche philologische und linguistische Fragen nicht ohne ein Textkorpus zu beantworten sind. Sowohl die Grammatikographie als auch die Lexikographie sind ohne maschinenlesbare Korpora kaum noch sinnvoll denkbar. Es lässt sich feststellen, dass alle diese Themen auch heute noch aktuell sind. Deshalb seien die Beiträge jetzt der fachlichen Öffentlichkeit für die weitere Arbeit und für weitere Arbeiten zur Verfügung gestellt. Auch an dieser Stelle sei Dank ausgesprochen: Die Deutsche Forschungsgemeinschaft hat auch das 5. Kolloquium großzügig gefördert; das Bayerische
Vorwort
IX
Staatsministerium für Wissenschaft, Forschung und Kunst hat durch die Übernahme einer Ausfallshaftung auch die letzten finanziellen Sorgen beseitigt; die Universität Würzburg hat das Kolloquium in ihren Räumen beherbergt, deren Präsident Prof. Dr. Dr. h.c. mult Theodor Berchem hat durch einen Empfang das Interesse der Universität an unserer Arbeit bewiesen. Schließlich sei auch allen Referentinnen und Referenten gedankt, die ihre Manuskripte zur Verfügung gestellt und bis zum Erscheinen dieses Buches viel Geduld bewiesen haben.
Würzburg, im Juli 2000
STEPHAN MOSER
PETER STAHL WERNER WEGSTEIN NORBERT RICHARD WOLF
Einführung
C M. Sperberg-McQueen (Chicago)
Die Hochzeit der Philologie und des Merkur: Philologische Datenverarbeitung
Mit der Hochzeit der Philologie und des Merkur meine ich - das soll im Voraus gesagt werden - nicht die ahd. Übersetzung des bekannten spätantiken Werks des Martianus Capella. Wer also zu diesem Vortrag durch den Titel gelockt worden ist, in der Meinung, man würde hier etwa über eine größere Arbeit berichten, in der dieser Text elektronisch erfaßt, sachlich ausgezeichnet, und schließlich im Netz veröffentlicht würde, darf jetzt enttäuscht und desillusioniert den Hörsaal verlassen. Mit dem Bild einer Hochzeit der Philologie mit dem Merkur möchte ich die Anwendung der Informationstechnologie auf philologische Probleme ansprechen. Die Rolle der Philologie im Bild dürfte klar sein. Merkur dagegen muß ich kurz erklären. Er ist zwar als Schutzherr der Informatik in klassischer Zeit nicht eindeutig belegt. Aber ich glaube, er eignet sich durchaus für diese Rolle. Er ist ja der Gott der Botschaften, der Kommunikation, der Geschwindigkeit, und darf daher wohl als Patron der Information, der Netzwerke, und der Informatik gelten. Und daß er auch als Schutzherr der Diebe fungiert, mag die Tatsache erklären, daß wir so viel Geld für Geräte ausgeben, die wir nach zwei oder drei Jahren als Schrott betrachten müssen. Ich möchte heute abend zuerst beschreiben, was mir das Wesentliche an der Zusammenführung der Philologie und der Informatik zu sein scheint, nämlich die Formalisierung des Textbegriffs. Ich stelle einige formale Textmodelle vor, die man im Laufe der Zeit definiert hat. Jedes Modell setzt eigene Akzente und hat eigene Vorteile. Alle Vorteile in einem Modell zusammenzubinden ist noch nicht gelungen. Zum Schluß komme ich auf einige Probleme zu sprechen, die wie mir scheint immer noch nicht gelöst worden sind, und die man als Herausforderung betrachten sollte.
Informatik und Philologie Der Verkehr zwischen Informatik und Philologie beruht auf einem Austausch. Die Informatik bekommt von der Philologie (bzw. könnte von der Philologie bekommen) ein tieferes Verständnis vom Text. Kein Datentyp ist so weitverbreitet, so wichtig, so dem Kulturerbe wesentlich, wie Text. Der Canadier Tim
4
C. M. Sperberg-McQueen
Bray, der mitgearbeitet hat, als man in Waterloo Canada das Oxforder Englische Wörterbuch erfaßt und verarbeitet hat, sagt es sehr einfach: „Knowledge is a text-based application." „Das Wissen ist eine auf Text basierte Computeranwendung." Aber kein Datentyp wird von der Informatik so schlecht, unbeholfen, und stiefmütterlich behandelt, wie der Text. Die allermeiste Software, die am weitesten verbreiteten Word-Processors mitgezählt, scheinen immer noch keine Ahnung davon zu haben, daß Text auch in Sprachen möglich ist, die nicht Englisch heißen, daß man auch mit Zeichen schreibt, die man in Rom nicht gekannt hat. Die Informatik hat noch viel von der Philologie zu lernen. Die Philologie bekommt von der Informatik Maschinen und Programme, die es uns ermöglichen, philologische Daten zu verarbeiten und die philologische Arbeit gründlich und sauber zu machen. Die Vorteile der maschinellen Verarbeitung brauche ich vor diesem Publikum wohl nicht auszubreiten. Ich weise nur darauf hin, daß die Wende von der Liebhaberphilologie des 18. und frühen 19. Jahrhunderts zu der wissenschaftlichen Philologie des 19. Jahrhunderts, die wir mit den Namen der Brüder Grimm und des Karl Lachmanns verbinden, nicht zuletzt darauf beruhte, daß Lachmann und die Grimms die Texte einfach besser kannten, und durch ihre Belegsammlungen praktisch unschlagbar allen Diskussionsgegnern überlegen waren. Dieselbe Überlegenheit wünscht man sich heute von einem besseren Zugang zu den Daten, eine ähnliche Wende zu einer stärker unterbauten Philologie, die die alten Denkmäler einfach besser versteht, weil sie die philologische Kleinarbeit schneller und besser leistet. Selbst Matthias Lexer, der hier in Würzburg wirkte, hat nicht alle damals gängigen Ausgaben nach einer bestimmten Wortform in nur einer Stunde durchsuchen können, wie es heute möglich sein könnte. Dieser Austausch kann nur stattfinden, wenn wir die Eigenschaften unserer Daten eindeutig und formal beschreiben können. Für die Philologie heißt das, ein formales Modell von Text entwerfen, das alle wesentliche Eigenschaften von Text einschließt und das Nebensächliche außer Acht läßt. Denn nur aufgrund eines klaren Datenmodells kann man Programme schreiben, die mit einem Datentyp gut umzugehen wissen. Es bestehen Programme, erklärt uns der Schweizer Informatiker Nikiaus Wirth im Titel eines seiner Bücher, aus Algorithmen und Datenstrukturen. Ein formales Modell des Datentyps Text hat also praktische Bedeutung für die Software-Entwicklung. Es ist auch an und für sich interessant, die Eigenschaften von Texten nicht nur unverbindlich in Worten, sondern nachprüfbar in einer Formelsprache zu beschreiben. Eine der bekanntesten Apologien für die formale Methode stammt von dem Sprachwissenschaftler NOAM CHOMSKY. In seinem Buch ,Syntactic Structures', 1957 erschienen, sagt er:
Die Hochzeit der Philologie und des Merkur: Philologische Datenverarbeitung
5
Precisely constructed models for linguistic structure can play an important role, both negative and positive, in the process of discovery itself. By pushing a precise but inadequate formulation to an unacceptable conclusion, we can often expose the exact source of this inadequacy and consequently, gain a deeper understanding of the linguistic data. More positively, a formalized theory may automatically provide solutions to many problems other than those for which it was explicitly designed. Präzis aufgebaute Modelle der sprachlichen Struktur können eine positive wie auch eine negative Rolle bei dem Entdeckungsprozeß spielen. Indem wir eine präzise, aber unzulängliche Formulierung bis hin zu einer unannehmbaren Folge ausbauen, können wir oft die genaue Quelle der Unzulänglichkeit aufdecken und daher ein tieferes Verständnis der Sprachdaten gewinnen. Auf der positiven Seite kann eine formale Theorie auch zu vielen Problemen Lösungen abliefern, an die bei der Formulierung nicht explizit gedacht war. (CHOMSKY 1957, 5)
Als Student habe ich einmal einen Musikologen namens John Chowning bei einer Fete kennengelernt. Als ich ihn fragte, was er zur Zeit machte, erklärte er, er versuche gerade synthetisch die verschiedenen Orchesterklänge nachzuahmen: Trompeten, Oboen, Sopranstimme usw. Es sei gelungen, die Vokale a, e, i, o, u synthetisch zu erzeugen, die Konsonanten dagegen nicht. Ach, sagte ich heuchlerisch, sehr interessant. Aber wäre es nicht teuer? Warum nicht einfach einen Oboisten spielen lassen, wenn man mal eine Oboe hören wollte? Man kann das aus zweierlei Gründen machen, sagte er mir. Erstens ist es durchaus nicht immer einfach und billig, einen Oboespieler zu bekommen, besonders wenn es nicht um eine Solostimme sondern um ein ganzes Orchester handelt. Wer heute als Student eine Symphonie schreibt, oder auch nur ein Oktett, bekommt das Stück meistens nie zu hören. Mit der Musiksynthese würde das möglich. Aber man kann die Arbeit auch anders rechtfertigen; diese zweite Rechtfertigung ist es, die ich das Chowning-Prinzip nenne.1 Wenn wir anfangen, einen Oboeklang zu erzeugen, wissen wir vielleicht schon, daß der Klangcharakter von der Form der Klangwelle abhängt. Die Wellenform und damit den Klangcharakter nachzuahmen ist einfach. Wir nehmen den Oboeklang auf, wir isolieren die Wellenform, wir verarbeiten diese Welle mit Hilfe der Fourierschen Analyse, und erzeugen dann synthetisch die wesentlichen Bestandteile der Wellenform. Und siehe, da haben wir einen Oboeklang synthetisch erzeugt. Es stellt sich aber oft heraus, daß das Resultat nicht ganz wie eine Oboe, sondern eher - synthetisch anmutet. Vielleicht haben wir uns bei der Analyse der Wellenform geirrt. Die Analyse war zu einfach, wir haben einige Eigenschaften als unwesentlich entfernt, die sich jetzt, nachprüfbar, doch als wesentlich heraus1
N.B. Die Beschreibung der Analyse von Klangformen die hier gegeben wird ist m.W. nicht falsch, aber die inzwischen vergangenen Jahre haben gewiß meine Erinnerung an das Gespräch mit John Chowning retuschiert, und es ist möglich daß ich schon damals ihn falsch verstanden habe.
6
C. M. Sperberg-McQueen
stellen. Der zweite Versuch ist vielleicht besser. Die Wellenform ist jetzt etwas verschnörkelter, aber die Klangfarbe ist die einer Oboe. Oder vielleicht auch immer noch nicht ganz. Es kann vorkommen, daß der synthetisch erzeugte Oboeklang flach und unbewegt ist, weil wir die komplizierten und verworrenen Wellenformen, die ganz am Anfang und Ende der Tonbandaufnahme stehen, als uncharakteristisch abgetan haben. Wenn wir sie auch nachbilden, haben wir eine bessere Nachahmung einer Oboe. Ziel der Arbeit ist nicht nur eine synthetische Oboe, sondern ein besseres Verständnis der Oboe. Hätten wir uns gleich am Anfang gesagt, es hätte keinen Sinn, eine Oboe synthetisch nachzuahmen, so meinten wir noch irrtümlicherweise zu wissen, daß der Oboeklang ganz einfach von der charakteristischen Wellenform in der Mitte des Tons abhängt. Der gescheiterte Versuch, dieses vermeintliche Wissen in die Praxis umzusetzen, hat uns die Komplexität der Sache und die Unzulänglichkeit dessen, was wir am Anfang zu wissen glaubten, erst gezeigt. Daß man komplexe Phänomene mechanisch oder formal zu beschreiben versucht, bedeutet nicht, daß wir sie für mechanisch halten. Es kann sehr nützlich sein, sich zu bemühen, ein Modell zu verbessern, alle zu entdeckende Fehler auszumerzen. Parallelen lassen sich leicht finden. Wenn die Junggrammatiker nicht programmatisch davon ausgegangen wären, daß die Lautgesetze keine Ausnahmen dulden, so wären ihnen die Ausnahmen zum Grimmschen Gesetz kein Dorn im Auge gewesen. Hätte in diesem Fall wohl Karl Vemer das Vernersche Gesetz gefunden?
Formale Modelle Wie definiert man den Begriff Text, so, daß ein Computerprogramm die Definition benutzen kann? Verschiedene Möglichkeiten werden schon von bereits entwickelter Software angedeutet, der eigene Definitionen von Text zugrunde liegen, ohne daß der Begriff ausdrücklich erörtert wird. Jedes Modell können wir mit einer Grammatik verbinden, die alle Texte zuläßt, die mit dem Modell vereinbar sind. Formal gesehen ist schließlich eine Sprache nur eine Menge von Sätzen (die wir uns als Wortfolgen oder Zeichenfolgen/ Strings vorstellen dürfen); eine Grammatik erlaubt es uns, die Mitglieder der Menge von den Nichtmitgliedern zu unterscheiden. Linearer (Eindimensionaler) Text Den Text kann man sich einfach als eine Wortfolge denken. Formal gesehen, heißt das, Text wäre ein eindimensionales Objekt, aus Wörtern (oder Zeichen) bestehend, wie in Beispiel l zu sehen ist:
Die Hochzeit der Philologie und des Merkur: Philologische Datenverarbeitung
7
(1) Text : : = ZEICHEN +
Ich saz uf eime steine und dahte bein mit beine. dar uf satzt ich den ellenbogen, ich hete in mine hant gesmogen daz kinne und ein min wange. do dahte ich mir vil ange, wie man zer weite solte leben, deheinen rat ...
Als Wortfolge hat der Text alle Eigenschaften einer Sequenz. Die Wörter haben (außer am Anfang und Ende) je einen Nachbar nach vorne und einen nach hinten. Die Entfernung zwischen zwei Wörtern läßt sich leicht kalkulieren, indem man die Wörter des Textes einfach durchnumeriert. Dieses Modell sieht man immer noch in manchen Editorprogrammen, etwa dem Unix-Editor emacs (allerdings ohne Wortnummer). Die Entwicklung dieses Modells führte zu erheblichen Verbesserungen der Benutzeroberfläche, denn die frühesten Editorprogramme hatten eine zweite Ebene, die des Rekords, die in der Benutzeroberfläche mit eigenen Kommandos angesprochen werden mußte, ohne daß sie im logischen Bild des Textes überhaupt eine Rolle spielte. Rechteckiger (Vertikaler) Text Nun, als Wortfolge mag man sich den Text denken, aber der Begriff des Wortes läßt sich bei weitem nicht so einfach mit der Schreibform des Wortes identifizieren. Ein Wort hat ja ein Lemma / eine Grundform, eine Wortart, eine Beugungsart, wird im Einzelfall so oder so gebeugt. Das alles kann der kundige Leser ohne weiteres herauslesen - das Lesenkönnen besteht ja zum großen Teil darin, daß man lernt, das alles herauszulesen. Man kann diese versteckten Nebeninformationen auch dem Rechner zugänglich machen, wenn man das lineare Modell auf eine zweite Dimension erweitert. Wenn wir den Text als Wortfolge betrachten, so können wir die morphologische Analyse, oder die Lemmatisierung des Textes, als eine zweite Informationsfolge betrachten, die auch eindimensional neben der ersten herläuft. Nicht nur morphologische Analysen sondern allerlei literarische und sprachliche Phänomene lassen sich so als Parallel ströme darstellen. Um die Verhältnisse klarer auszudrücken, neigt man dazu, den Textstrom nicht mehr von links nach rechts verlaufen zu lassen, sondern von oben nach unten, jedes Wort auf einer eigenen Zeile. So wird die horizontale Richtung für die verschiedenen Ebenen der Textanalyse freigemacht, die in einer zweiten, dritten, vierten Kolumne angebracht werden. Solche Texte nennt man deswegen oft nicht rechteckige Texte, sondern vertikale. Die Vertikalformate erscheinen spätestens in den 70er Jahren, als das Brown Corpus der amerikanischen Sprache mit Wortartangaben angereichert wurde. Die Dateien des getaggten Brownkorpus haben jeweils in einer Zeile links die Wortform selbst und rechts ein Schlüsselwort für die Wortart. Eine hochentwickelte
8
C. M. Sperberg-McQueen
Spielart des vertikalen Texts stellen die annotierten Dateien des Lancaster-OsloBergen Korpus des britischen Englisch.2 Ähnlich zwei-dimensional versteht sich die Textanalyse mit Hilfe der Software IT (Interlinear Text), die vom Summer Institute of Linguistics in Dallas bereitgestellt wird, oder die Dida Software des Mannheimer IDS, die gestern morgen beschrieben wurde. Der vertikale Text hat den Vorteil, gleichzeitig die lineare Natur des Texts konkret zu machen, und dazu auch die implizit nebenhergehenden Strukturen wie Wortart und Beugung als Querachse dazu noch explizit zu machen, und beide Achsen miteinander zu verbinden. Vater Roberto Busa nennt diese Querachse der Analyse den „internen Hypertext", der in jedem Wort von der Natur aus schon enthalten ist. Die Einzelzeilen eines reich annotierten Vertikaltexts nähern sich den Rekords einer Datenbank an. Jedes Wort ist in der Datenbank ein Rekord, und jeder Rekord unterteilt sich in Felder, die die Informationen wiedergeben, die man für wichtig hält. Das heißt, es ist durchaus möglich, die Textanalyse nur mit Hilfe eines ganz normalen Datenbanksystems zu betreiben. Das scheint aber nicht geläufig zu sein, auch dort wo man keine bessere Lösung gefunden hat. Formal setzt das Vertikalmodell einen Text als Wortfolge voraus, wobei die Wörter selbst nicht nur die Wortform der Oberfläche haben, sondern auch andere Merkmale, sowie Wortart. Grammatisch definieren können wir dieses Modell etwa wie es in Beispiel 2.a erscheint. (2.a) Text
= = = =
Wort Wortform Eigenschaft Wortart Lemma
Wort + Wortform Eigenschaft+ ZEICHEN+ Wortart|Lemma | . . . (usw.)
= SUBSTANTIV | VERBUM | . . . ( u s w . ) = ZEICHEN+
Wenn wir den Text des Reichstons vertikal darstellen wollten, so dürfte man an etwas wie Beispiel 2.b denken, wo neben der eigentlichen Wortform des Texts auch Lemma, Wortart, Person, Numerus, Casus, Geschlecht, Tempus, und Modus angegeben werden. (2.b) Ich saz uf eime steine 2
ich sitzen üf ein stein
PRON
V
l Sg N l Sg - -
Prät
Ind
PRÄP
DEF SB
- Sg D N - Sg D N
STIG JOHANSSON, in collaboration with ERIC ATWELL, ROGER GARSIDE, and GEOFFREY LEECH 1986: The Tagged LOB Corpus. Bergen: Norwegian Computing Centre for the Humanities. Das Korpus ist sowohl in vertikaler wie auch in horizontaler Form zu haben.
Die Hochzeit der Philologie und des Merkur: Philologische Datenverarbeitung und dahte bein mit beine
unt decken bein mit bein
K V SB PRÄP SB
- - - l Sg — - Sg A M
SEZ
_ _
Prat
9
Ind
- Sg D M _ _
Ein ähnliches Beispiel hatten wir auch gestern von Herrn Klein. Linearer Text mit Variablen Den rechteckigen Text kann man beliebig erweitern. Für Texteigenschaften, die nicht vom Wort sondern von größeren Einheiten abhängen, scheint dieser Formalismus doch etwas aufwendig. Man kann von jedem Wort in der ersten Strophe des Reichstons sagen, daß es sich in der ersten Strophe befindet. Früh aber hat man schon bemerkt, daß es genügt, den Anfang jeder Strophe und Zeile anzugeben, um zu wissen, in welcher Strophe und Zeile die Wörter zu finden sind. Wenn man für Strophenzahl und Zeilenzahl eine Zählervariable aufstellt, so braucht man im Text die Variablen nur dann zu erwähnen, wenn sie einen neuen Wert zugewiesen bekommen. Eine weit verbreitete Erweiterung des linearen Textes in diesem Sinne sieht man in dem Konkordanzprogramm Cocoa, und in den späteren Programmen, die sich der Cocoa-Auszeichnungen bedienen, z.B. das Oxforder Konkordanzprogramm (OCP) und Tact. Die Verwaltung sachlicher Auszeichnung in TUSTEP scheint auch hier hinzugehören.3 Von dem Modell des vertikalen Textes übernehmen diese Programme den Begriff, daß es neben oder unterhalb der Textoberfläche noch weitere Informationsebene gibt, die parallel laufen. Dem vertikalen Text gegenüber unterscheidet sich der Text mit Variablen dadurch, daß die Variablen nicht unbedingt mit jedem neuen Wort einen neuen Wert bekommen. Man kann die Cocoaauszeichnungen praktisch als Wertzuweisungen ansehen, für eine bestimmte Menge von Globalvariablen, denen man neue Werte zuweisen kann, und die zu jeder Textstelle irgend einen Wert haben.4 Eine leicht vereinfachende Grammatik für die Cocoaauszeichnungen sieht man in Beispiel 3.a.
3
Ich verlasse mich hier auf das TUSTEP-Buch von Winfried Bader, ,Lernbuch TUSTEP: Einführung in das Tübinger System von Textverarbeitungsprogrammen' (Tübingen: Niemeyer 1995). S. v. a. Abschnitt 3.5, „Sachlich orientierte Textauszeichnung." 4 Das heißt, daß die Cocoaauszeichnungen einer Semantik der Auszeichnungssprachen dieselben Schwierigkeiten in den Weg stellen als die Wertzuweisung es der Semantik der Programmiersprachen tut.
10
C. M. Sperberg-McQueen (3.8)
Text Auszeichnung Variablename
: : = (ZEICHEN| Auszeichnung) + : : = '{' Variablename ' ' Wert ')' : : = ZEICHEN
Wert
: := ZEICHEN+
Man sieht, die Grammatik unterscheidet grundsätzlich den Textinhalt von der Auszeichnung, und die Auszeichnungen können in beliebiger Reihenfolge erscheinen. In Beispiel 3.b weisen die ersten Zeilen die Werte 7, Der Reichston, eine Zeichenfolge mit den bibliographischen Angaben zur Vorlage, und die Zahl l den Variablen n, t, v, s, und z zu. (3.b) (n 7)
(t Der Reichston) (v Die Lieder Walthers von der Vogelweide, hsg. Fr. Maurer, 1. Die religiösen und die politischen Lieder, 4. durchges. A u f l . (Tübingen: Niemeyer 1 9 7 4 ) , S. 20) (s D (z l)lch saz uf eime steine (z 2>und dahte bein mit beine. (z 3}dar uf satzt ich den eilenbogen, (z 4} ... (s 2) (z l)lch horte ein wazzer diezen (z 2)und sach die vische f liezen;
(s 3} (z l)lch sah mit miinen ougen (z 2)manne und wibe tougen, [n = Gedichtnummer, t = T i t e l , v = Vorlage, s = Strophenzahl, z = Zeilenzahl]
Da man jederzeit einer Variable einen neuen Wert zuweisen darf, kann man nur dann sicher sein, die Werte aller Variablen zu kennen, wenn man den ganzen Text vom Anfang bis zur betreffenden Stelle gelesen hat. Arbeitsgänge müssen immer am Anfang anfangen und bis zum Ende den Text durcharbeiten. Bei den einfacheren Modellen ist der direkte Zugriff zu den Daten auch mitten in dem Text möglich. (Direkt kann man zugreifen, weil es eben unmöglich ist, irgendwelche Informationen, die zu einer Textstelle gehören, anzugeben, ohne daß sie zur Stelle selbst explizit angegeben werden.) Viele Formatierprogramme, die im Batch-Modus arbeiten, haben als Textmodell eine Abart des Cocoa-Modells. Die unterscheiden sich hauptsächlich da-
Die Hochzeit der Philologie und des Merkur: Philologische Datenverarbeitung
11
durch, daß ihre Variablen direkt auf die Textverarbeitung einwirken, und daß sie oft auch Auszeichnungsarten haben, die imperativ zu deuten, keine Wertzuweisungen mehr sind. Formal gesehen, betrachten solche Programme den Text als eine lange Folge von Zeichen und Kommandos, etwa wie es in Beispielen 4.a und 4.b erscheint.
(4.a) Text : : = ( ZEICHEN | KOMMANDO) +
(4) Linearer Textkuchen mit Kommandostreusel a.
Text : : = (ZEICHEN l KOMMANDO) +
b.
\bold {\center Der Reichston} \vskip \normal {\obeylines Ich saz uf eime steine und dahte bein mit beine. .. .}
Der Hauptvorteil des linearen Texts scheint mir, wie gesagt, darin zu liegen, daß dieses Modell richtig dem Text die Eigenschaften einer Zeichen- oder Wortfolge zuweist. Die getaggten Texte, die mit Cocoa-Auszeichnung möglich werden, können auch andere Eigenschaften des Texts, die nicht explizit in der Oberflächenform zu sehen sind, festhalten. Texte haben aber nicht nur wortbedingte Eigenschaften, sondern bilden auch Textstrukturen, die über die Wörter des Textes hinweg greifen. Die Textstruktur selbst aber bleibt dem Cocoatext, so wie wir ihn gesehen haben, immer noch fremd. Da wir als Lesende und Schreibende die Textstrukturen wie Kapitel, Absatz, Strophe, Verszeile, usw. brauchen, um den Text geistig zu organisieren und seine Komplexität in Grenzen zu halten, wäre ernsthaft zu überlegen, ob und wie man nicht nur die Wörter eines Texts sondern auch dessen Struktur nachbilden könnte. Gleichmäßige Hierarchien Nun, eines der Hauptmerkmale der Struktur sieht man darin, daß Strukturen innerhalb anderer Strukturen vorkommen können. D.h. die Struktur ist rekursiv. Rekursive Strukturen kann man aber sehr gut mit rekursiven Grammatiken beschreiben. Mit dem hierarchischen Modell von Text versucht man die Strukturen des Texts (z.B. Kapitel, Absatz, Satz, oder auch Gedicht, Strophe, Zeile) direkt zu verzeichnen, damit die Verarbeitung des Texts sich nach der Struktur richten kann. Zu diesem Zweck setzt man in diesem Fall den Text als Baumstruktur voraus; in dieser Baumstruktur stellen die Knoten des Baumes die Struktureinheiten des Textes dar; die Wortfolge fungiert als Blätter. Die wohl einfachste Spielart des hierarchischen Modells sieht man wohl beim interaktiven Konkordanzprogramm Word Cruncher, der eine fixe Struktur mit drei Ebenen (z.B. Buch, Kapitel, Vers einer Bibelstelle) vorsieht. Sehr einfach ist
12
C. M. Sperberg-McQueen
auch das Textmodell des alten Systems Arras, zum interaktiven Abfragen von literarischen Texten, von John B. Smith in den späten 70er und frühen 80er Jahren geschrieben. Arras bietet zwei verschiedene Hierarchien für den Text an: einmal eine logische (Kapitel, Absatz / Paragraph, Satz(gefüge)) und einmal eine typographisch/physische (Band, Seite, Druckzeile). Dieser Elemente des Textmodells kann der Benutzer sich beim Suchen und Ausdrucken bedienen. Wenn man z.B. im Nibelungenlied alle Stellen finden wollte, wo die Wörter leit und ere mit höchstens zwei Zeilen Abstand vorkommen, um die betreffenden Strophen dann auszudrucken, so könnte man so verfahren, wie es in Beispiel 5.c zu sehen ist. (Die Strophen werden hier als PARAGRAPH bezeichnet, da wir im Vers keine Prosaeinheiten brauchen und da Arras keinen Begriff von Strophen hat.) (5.c) CONFIGURATION: leit & [-3 to +3 LINES] ere; NAME: GruppeLEl. DISPLAY CONCORDANCE: GruppeLEl; CONTEXT: -0 to +0 PARAGRAPHS.
Formal definiert werden die Hierarchien von Arras etwa wie in Beispiel 5.a dargelegt wird. Da die Namen der Ebene fest liegen, muß man, wenn man andere Strukturen nachzeichnen will, die vorgegebenen Namen auf andere Strukturarten anwenden.
(5-a) Textl Band Seite Zeile Text2 Kapitel Absatz Satz
= = = = = = = =
Band* Seite* Zeile* Wort* Kapitel* Absatz* Satz* Wort*
Als Beispiel dafür betrachte man Nr. 5.b. Sie sehen, die zwei Hierarchien überschneiden einander (obwohl in diesem Text die Sätze immer an Zeilenende enden).
(5.b) Textl: Band: Seite: Zeile: Zeile: Zeile:
Text2:
Kapitel; Absatz: Satz:
Der Reichston Ich saz uf eime steine und dahte bein mit beine.
Die Hochzeit der Philologie und des Merkur: Philologische Datenverarbeitung Zeile: Zeile: Zeile: Zeile: Zeile:
Zeile:
Satz: Satz:
Absatz: Satz:
Zeile: Seite: Zeile:
13
dar uf s a t z t ich den eilenbogen, ich hete in mine hant gesmogen daz kinne und ein min wange. do dahte ich mir vil ange, wie man zer weite solte leben.
Ich horte ein wazzer diezen und bein zer erde biuget, daz sach ich, unde sage iuch daz:
Gemischte Hierarchien Man hat in letzter Zeit viel mit einem Textmodell gearbeitet, das die Eigenschaften des getaggten linearen Textes (so etwa wie wir ihn von Cocoa, oder von der sachlichen Auszeichnung in TUSTEP kennen) mit denen des hierarchischen Texts vereint. Wie bei den gleichmäßigen Hierarchien [Arras oder Word Cruncher] kann man geschachtelte Strukturen auszeichnen, aber in diesem Modell bekommen alle Knoten des Baumes eine Typenbezeichnung, die nicht von dem Programm vorgeschrieben, sondern vom Benutzer definiert wird. Dokumentteile, die auf gleicher Ebene erscheinen, brauchen nicht mehr demselben Typ anzugehören. Daher kann man auch, wie bei dem getaggten Text mit Variablen, die Eigenschaften eines Textteils explizit auszeichnen, gleichgültig, ob sie einem Einzelwort oder einem längeren Abschnitt angehören. Dieses hierarchische Modell unterscheidet sich von dem linearen Text mit Variablen im Wesentlichen dadurch, daß es eine strenge Hierarchie vorschreibt, - d.h., die Struktureinheiten, die man ausgezeichnet, müssen ineinander geschachtelt sein, sie dürfen sich nicht überschneiden. Dadurch wird es zum ersten Mal möglich, die zulässigen Verbindungen und Reihenfolgen von Auszeichnungen / Markierungen / Dokumentteile / Auszeichnungstypen in einer Dokumentgrammatik zu beschreiben und mit formalen (d.h. automatischen) Mitteln zu überprüfen, ob die im Dokument ausgezeichneten Strukturen den Vorschriften der Dokumentgrammatik Genüge leisten. Die praktischen Folgen dieser Überprüfbarkeit sind gewaltig. Die Einführung der Dokumentgrammatik macht es möglich, Dokumente mechanisch nach Gültigkeit zu überprüfen. Ganze Klassen von typographischen und mechanischen Fehlem können dadurch automatisch entdeckt und u. U. beseitigt werden. Die Auszeichnungen wird man im Hinblick auf Übereinstimmung mit der inhaltlichen Füllung prüfen müssen; das macht kein Programm. Die formale Gültigkeit automatisch überprüfbar zu machen, heißt aber, viele Fehler schnell erkennen und beseitigen, die sonst erst viel später und mit großem Aufwand erkannt würden.
14
CM. Sperberg-McQueen
Als Vorläufer dieses Dokumentmodells gelten das Formatiere-Programm Scribe von Brian Reid, die LaTeX Makros von Leslie Lamport, und die GML (Generalized Markup Language) von IBM. Hauptvertreter der Art ist aber heutzutage die SGML, die Standard Generalized Markup Language, eine ISO-Norm die zum Teil auf Basis des IBM-Produktes GML gemacht wurde. SGML ist, wie viele von Ihnen schon wissen, selbst keine Auszeichnungsspräche (markup language), sondern eine Sprache, mittels derer man selbst Auszeichnungssprachen definieren kann. Die bestbekannten Auszeichnungssprachen, die mit SGML definiert worden sind, sind vermutlich die HTML (die als Hauptsprache des WWW bekannt ist) und die TEI (die als Werkzeug für die Forschung aus einer langjährigen Entwicklung hervorgegangen ist). In allen diesen Systemen weist man einem jeden Knoten der Texthierarchie einen Typ zu. Z.B. (wie in Beispiel 6.d zu sehen ist) Gedicht, Titel, Reimpaar, Zeile. Ganz allgemein steht fest, daß diese Struktureinheiten ineinander geschachtelt sein müssen. Das ergibt sich aus der allgemeinen Grammatik in Beispiel 6.a. Jeder Elementtyp / Knotentyp läßt sich darüberhinaus auch nach Art und Reihenfolge der möglichen Unterelemente (Nachfolger) beschreiben. Man kann z.B. festlegen, das ein Dokument immer aus Vorspann, Hauptteil, und Nachspann besteht, die auch in dieser Reihenfolge erscheinen müssen. (Der einzige Unterschied zwischen Vorspann und Nachspann im Buch besteht ja darin, daß der Vorspann vor, der Nachspann nach, dem Hauptteil erscheinen.) Diese Definition hilft dem Endbenutzer, zu lernen, wie man die Auszeichnungen anzuwenden hat. In den frühen Systemen dieser Art waren die Beschreibungen der Elementoder Auszeichnungstypen bloss informelle, unverbindliche Prosadarstellungen. Erst als man eine Formelsprache für die Erstellung von Dokumentgrammatiken entwickelt hatte, wurde es möglich, die Dokumente automatisch nach ihrer Gültigkeit zu überprüfen. Die formale Definition der Dokumentgrammatik darf daher als einer der Hauptvorteile von SGML, seinen Vorgängern gegenüber, gelten. Die Dokumentgrammatik, im Gegensatz zur Grammatik einer Programmiersprache, muß auch dazu dienen können, bereits vorhandene Materialien zu beschreiben. Sie ist infolgedessen denselben Fehlerquellen ausgesetzt, wie die beschreibende Sprachwissenschaft, wie etwa der *overgeneration* (die Grammatik läßt Sätze zu, die in der Sprache eigentlich nicht vorkommen) und der Bundergeneration* (die Grammatik schließt Sätze aus, die eigentlich doch als wohl formierte Sätze der Sprache vorkommen). Die Vorbereitung einer beschreibenden Dokumentgrammatik verlangt gute Kenntnisse der formalen Grammatik sowohl auch der zu beschreibenden Literatur; ich will hier nicht näher darauf eingehen, aber es ist durchaus eine höchstinteressante und lohnende Tätigkeit. Formal kann man die Grundregeln dieses Textmodells etwa so beschreiben, wie es in Beispiel 6.a geschieht.
Die Hochzeit der Philologie und des Merkur: Philologische Datenverarbeitung
15
(6.a) Text Element Anfangstag Endetag Leertag Eigenschaft Wert Inhalt
= = = = = = =
Element Anfangstag Inhalt E n d e t a g | L e e r t a g '(' Typ ( ' ' Eigenschaft ' = ' W e r t ) * ')' ' ( / ' Typ '}' '(' Typ ( ' ' Eigenschaft ' = ' W e r t ) * '/}' NAME "" ZEICHEN* ' " ' | " ' " ZEICHEN* " ' "
= (Element l Z E I C H E N * ) *
In der Grammatik eines einzelnen Texttyps legt man die Strukturarten fest, die auszuzeichnen sind. Man könnte etwa für die mhd. Dichtung vorschreiben, alle Reimpaare, oder bei der Lyrik auch die Unterteile der bekannten Kanzonenform (Aufgesang aus zwei Stollen, dann Abgesang) zu erfassen. (Es geht hier nicht darum, ob dies sinnvoll oder sinnlos im Einzelfall sei, sondern um die technischen Möglichkeiten darzulegen.) Zuerst schreiben wir eine solche Grammatik mit der selben Formelsprache wie bisher:
(6.b) : : = R e i m p a a r + | ( A u f g e s a n g , Abgesang) : : = Z e i l e , Zeile : : = Stollen, Stollen : : = Zeile+ : : = Zeile+
Gedicht Reimpaar Aufgesang Stollen Abgesang
Dann auch in der gewohnten SGML-Form, als eine Dokument-Typ-Definition (DTD): (6.c) {[ELEMENT · Abb. 3: Alle deutschen Texte NN1-4, absolute Vorkommen
Da hier die Veränderungen in der Häufigkeit einer Kategorie so deutlich sind, muß nach einer Erklärung gesucht werden. Sprachsystematische Ursachen scheinen ausgeschlossen zu sein. Der Unterschied ist zwischen den beiden deutschsprachigen Sendungen zu eindeutig, um die quantitativen Ergebnisse auf der syntaktischen Ebene zu diskutieren. Auch ist die Kategorienklasse deutlich semantisch determiniert. Die Annahme von einer außersprachlichen Ursache für die plötzliche Veränderung ist daher nicht abwegig. Der Fall der Mauer am 9. November 1989 steht als historisches Ereignis zwischen den Sendungen der
Aufbau eines maschinenlesbaren Textkorpus deutscher und russischer TV-Nachrichten
43
Aktuellen Kamera von 1988, dem 8. Mai 1989 und ihren Sendungen von 1990. Es ist daher anzunehmen, daß sich kurzfristig die Routinen der Textproduktion völlig geändert haben. Hier betrifft es die Namen der gesellschaftlich relevanten Personen und Ereignisse, die buchstäblich von einem Tag zum anderen aus den Nachrichtensendungen verschwinden, an ihre Stelle treten andere Namen, jedoch nicht mehr in dieser sprachlichen Kompaktheit. Auffällig ist auch, daß die semantische Rolle AGENS, der belebte Träger bzw. Verursacher einer Handlung (NN1, Subjekt im Nominativ in den deutschen Texten8) von der Häufigkeit her den ersten Platz einnimmt, gefolgt von der NN3-Klasse (Eigennamen im Dativ), der NN2-Klasse (Eigennamen im Genitiv); die NN4-Klasse (Eigennamen im Akkusativ) kommt am wenigsten vor. Hier läßt sich allein ohne konkrete Untersuchung der Wortbedeutungen, besonders der Verbbedeutungen, schwer vermuten, ob es sich um die semantischen Rollen EXPERIENCER, OBJEKT oder INSTRUMENT handelt. Solche Untersuchungen sind als Ergänzung unbedingt erforderlich, können aber in diesem Rahmen nicht unmittelbar betrieben werden. Das zweithäufigste Auftreten der Namen im Genitiv in den Texten von 1988, 89 hängt sehr wahrscheinlich mit den komplexen Bezeichnungen von Personen zusammen, die durch Genitive gebildet werden. Wenn man von einer einfachen semantischen Relation ausgeht: [Jemand macht, daß etwas geschieht], dann kann man bei diesen deutlichen Veränderungen von NN-Vorkommen auch von veränderten semantischen Strukturen sprechen, die durch veränderte textexterne Faktoren hervorgerufen wurden. Ohne konkret zu untersuchen, welche Wortbedeutungen hinter diesen Klassen stehen, was später als Teil der Analyse noch getan werden muß, kann zunächst einmal festgestellt werden, daß sich die deutschen Texte in dieser Kategorie deutlich voneinander absetzen, und zwar in zeitlicher Perspektive; die Sendungen der Aktuellen Kamera und der Tagesschau der 90er Jahre unterscheiden sich in dieser Kategorienklasse nicht auffällig voneinander (vgl. auch die Fallstudie in PANKOW 1995). 4.2 Die Kategorienklassen FIG, NEG, A, ADV Die Kategorien FIG (Ziffern, Kardinalzahlen), NEG (nein, kein, nicht, net, ne), A (Adjektive, Ordinalia, Demonstrativ- und Possessivpronomen), ADV (Adverbien) werden gemeinsam ausgewertet, weil ihr Vorkommen im Kern auf Werte und Bewertungen in den Nachrichtentexten hinweisen. Hier gilt wieder, daß die quantitative Auswertung zwar Tendenzen angeben kann, die Textmustermerkmale aber erst in Einzelstudien erarbeitet werden müssen. In der folgenden Über!
Die AGENS-Rolle kann im Russischen nicht so wie im Deutschen mit dem Subjektkasus, dem Nominativ, gleichgesetzt werden, weil im Russischen auch der Dativ als .logisches Subjekt' fungieren kann. Für die syntaktischen Kasus gibt es im Russischen andere Entsprechungen von semantische Kasusrollen als im Deutschen, deswegen ist hier ein quantitativer Vergleich mit den Texten beider Sprachen nicht ohne weiteres möglich.
44
Christiane Pankow
sieht (Abb. 4) sind die absoluten Vorkommen dieser Kategorien zusammengefaßt worden. Die absoluten Werte sind hier deswegen recht aufschlußreich, weil in einigen Sendungen die Kategorien FIG und NEG fast gar nicht vorhanden sind. Daraus lassen sich einige Schlüsse für die Textproduktionsstrategien ziehen.
600
500
400 --
300 --
200 --
100 ·-
0 o Abb. 4: Vorkommen der Kategorien A, ADV, FIG, NEG in allen Texten, absolute Werte
Aus der Übersicht lassen sich deutliche Grenzen zwischen den Textmustern ablesen. Die Aktuelle Kamera 1988, 1989 (A-E) weist hohe Vorkommen der AKlasse auf, dagegen niedrige Vorkommen der ADV-Klasse und so gut wie keine NEG und FIG. Den zweiten Block (F-M) bilden die Aktuelle Kamera 1990 und die Tagesschau 1990 mit mit höheren Werten für NEG und FIG und weit niedrigeren Werten für die A- und ADV-Klasse, weitere Grenzen liegen zwischen Novosti (P,Q) und Vremja (N,O). Auffällig ist auch, daß praktisch keine Negationen und Zahlenwerte in den Sendungen der Aktuellen Kamera von 1988 auftreten. Die erstellten prozentualen Werte zeigen auch, daß Zahlen, Ziffern und Negationswörter in dieser Gruppe nicht über zwei bzw. drei Prozent liegen, wäh-
Aufbau eines maschinenlesbaren Textkorpus deutscher und russischer TV-Nachrichten
45
rend in allen anderen Texten die Werte bei 14% liegen. Hier kann man bereits von einer Textproduktionsstrategie sprechen: Konkrete Zahlenangaben und negative Aussagen wurden bis 1988 in der Aktuellen Kamera deutlich vermieden, während sich die Werte in den Sendungen ab 1989 der Tagesschau ähneln. In den russischen Nachrichtensendungen werden nicht weniger Negationen und Zahlenangaben als in den deutschen Sendungen der 90er Jahre gemacht, d. h. die Textstrategien der Aktuellen Kamera der 80er Jahre unterscheiden sich deutlich von den russischen Sendungen. Ausgehend von der Beobachtung, daß die Texte der Aktuellen Kamera der 80er Jahre sehr hohe Werte bei den Adjektiven aufweisen, wurden deshalb zwei Nebenstudien an vier weiteren Sendungen durchgeführt. In den Texten der Sendungen Aktuelle Kamera und Tagesschau, beide vom 8.5.1989, und der Aktuellen Kamera vom 6.1.1988 und der Tagesschau vom 10.7.1990 wurde der Gebrauch der Adjektive in attributiver Stellung näher untersucht (vgl. BERGSTRÖM 1994 und ERLANDSSON 1994). Man ist hierbei davon ausgegangen, daß Adjektive in ihrem Kernbereich Eigenschaften von Lebewesen, Gegenständen und Geschehnissen kennzeichen und daß in den TV-Nachrichtentexten die gezielte Verwendung von Adjektivbedeutungen auf bestimmte Textproduktionsstrategien hinweisen kann. Ähnlich wie in der Verbstudie sind alle vorkommenden Adjektive semantisch beschrieben und mit den Merkmalen [NEUTRAL], [POSITIV] und [NEGATIV] versehen worden.9 Die Studie ergab, daß die Aktuelle Kamera 1988 und 1989 mehr positiv bewertende Adjektive enthält und umgekehrt in den Texten der Tagesschau 1989 und 1990 mehr negativ bewertende Adjektive auftreten. Die Unterschiede sind in beiden Studien eindeutig; sie betragen in der AK 880106 [POSITIV]: 34,3% und in der TS 900710 [POSITIV]: 12,4%, AK 880106 [NEGATIV]: 8,1% und TS 900710 [NEGATIV]: 19,6% (vgl. weitere Werte in ERLANDSSON 1994, 43). BERGSTRÖM untersuchte auch die Vorkommen der Adjektive in den einzelnen Nachrichtenthemen und kam zu Ergebnissen, die die Gesamtwerte noch etwas präzisieren; vgl. dazu Abb. 5 und 6:
9
BERGSTRÖM bemerkt dazu: „Durch das Adjektiv kann charakterisiert, geurteilt oder registriert werden" (1994, 3). Sie legt für jedes laufend vorkommende Adjektiv in den Nachrichtentexten eine Grundbedeutung fest und versieht es mit den Merkmalen [NEUTRAL], [POSITIV], [NEGATIV] bewertend. Danach beschreibt sie quantitativ und qualitativ (anhand von Einzelanalysen der Adjektive hoch, stark, groß, gemeinsam, voll, Unterschiede im Gebrauch der Aktuellen Kamera und der Tagesschau.
46
Christiane Pankow
Themen
Adj. ges. [NEUTRAL] [POSITIV] abs./% abs. / % abs. / %
[NEGATIV] abs. / %
Tl: Honecker in Paris T2: Nationalfeiertag in Kampuchea T3: Halberstädter Motorenbau, Planjahr 88 T4: Tagebau Zwenkau T5: Stoph im Staatsverlag T6: Kohl zum sowj.-amerik. Raketenabkommen T7: Kunst und Kultur, Meinungsaustausch DDR-UdSSR T8: Raketen vertrag USA-UdSSR T9: Schewardnadse in BRD T10: Entwicklung in Israel TU: 60. Geburtstag des Schriftstellers Görlich T12: Altbischof Schönherr über Kirche im Sozialismus T13: 6300 neue Kindergärten T14: Schwerverwundete Kinder in Nicaragua T15: Bombenangriffe auf die angolanische Volksarmee T16: Steigende Arbeitslosigkeit in der BRD T17: Gerettet durch den Seenotrettungsdienst T18: Neu eröffnete Bäckereien in Schwerin T19: Neue Verwendung für alte Burgen T20: Schwere Stürme in Wales und Südengland T21: Schweres Unglück in Tokioter Diskothek
49 / 9,5 22/44,9 27/55,1 3 / 4,4 2/66,7 1/33,3
0 0
9/ 4,2 l l / 6,4 7 / 9,5
4/44,4 6/54,5 2/28,6
5/55,6 5/45,5 5/71,4
0 0 0
7 / 8,8
6/85,7
1/14,3
0
8 / 8 , 2 4/50 10/10,4 6/60 1 / 4 , 2 l /100 47/10,6 34/72,3
4/50 4/40 0 7/14,9
0 0 0 6/12,8
5/5,2
1/20
4/80
0
8/9,1 10/5,4
2/25 4/40
5/62,5 6/60
1/12,5 0
5/62,5
0
3 / 37,5
3/10,3
5/17,3
8/ 8,0
29/10,8 21/72,4
4/7,8
1/25
0
3/75
4/10
4/100
0
0
8/57,1 0
l / 7,2 0
14/ 6,8 5/35,7 10 / 4,7 10/100
1/2,6
0
0
1/100
3/ 3,7
3/100
0
0
Abb. 5: Verteilung der Adjektive in der Aktuellen Kamera 880106
Die themenspezifische Auswertung der Aktuellen Kamera bestätigt das Gesamtergebnis mit hohen Werten für positiv bewertende Adjektive und zeigt auch, daß Themen über Nachrichten aus dem Inland (Tl, 3, 4, 5, 7, 11, 12, 18) weit mehr
Aufbau eines maschinenlesbaren Textkorpus deutscher und russischer TV-Nachrichten
47
positiv bewertend sind als die Themen über das Ausland (T10, 14, 15, 16). Die Häufigkeit von positiv bewertenden Adjektiven hängt auch von der Ausführlichkeit ab, welchen Raum Nachrichten in der Sendung einnehmen; z. B. sind Tl, 5 und 11 reine Propagandanachrichten mit häufigen positiven Bewertungen. Themen
Adj. ges. [NEUTRAL] [POSITIV] [NEGATIV] abs. / %
Tl: Gipfeltreffen der führenden Industriestaaten T2: Delegierte stimmten für Gorbatschow T3: Botschaftsflüchtlinge in Tirana T4: Streit zw. SPD und CDU in Ostberlin T5: DDR-Betriebe kämpfen mit finanziellen Problemen! T6: Unterstützung von Terroristen in Ostberlin T7: DDR-Außenminister kritisierte Atomwaffenpolitik der NATO T8: Auseinandersetzung in Kosowo T9: Blutige Unruhen in Nicaragua T10: Zahl der Drogentoten in der BRD gestiegen TU: Spätnachrichten
abs. / %
15 / 4,4
7/46,7
10/3,4 19 / 7,4
abs./%
abs. / %
6/40
2/13,3
3/30 16/84,2
1/10 l / 5,3
6/60 2/10,5
12 / 4,3
9l 7,5
2/16,7
1/8,3
8/7,6
3 / 37,5
0
5 / 62,5
I I 5,3
6/85,7
0
1/14,3
6/7,1 4/5,1 9/10,1
6/100 4/100 6 / 66,7
0 0 2 / 22,2
0 0 1/11,1
6 / 8,5 l / 3,6
5/83,3 1/100
0 0
1/16,7 0
Abb. 6: Verteilung der Adjektive in der Tagesschau 900710
In der Tagesschau überwiegen im Unterschied zur Aktuellen Kamera die neutralen Adjektive, was wieder auf die Textmusterspezifik von Nachrichtensendungen hinweisen kann, während negativ bewertende Adjektive häufig in sowohl innenpolitischen als auch außenpolitischen Themen auftauchen. Hier läßt sich keine deutliche Grenze ziehen. Erstaunlich und doch etwas unerwartet ist es, daß auch die dritte Kategoriengruppe anfängliche Tendenzen in der Textmusterbildung und Textmusterspezifik bestätigt. Es scheinen sich wieder drei Gruppen von Textmustern mit deutlicher Abgrenzung voneinander herauszuschälen: die Aktuelle Kamera der 80er Jahre, die Aktuelle Kamera und Tagesschau der 90er Jahre und die sowjetischen Nachrichten. Textmusterspezifische Besonderheiten können deutlich an einzelen Kategorien sichtbar gemacht werden, wie z. B. Spezifika in der Verarbeitung von Namen in
48
Christiane Pankow
den Informationsablauf, erhöhte Expressivität und verstärkte positive Wertungen weisen auf Ritualisierung als Textmerkmal hin. Diese Merkmale treten in der Tagesschau nicht auf, auch nicht in den sowjetischen Sendungen, die jedoch zu wenig ausgewertet wurden, um eine eindeutigere Bestätigung zu erhalten.
5. Zusammenfassung Diese Untersuchung verbindet zwei Zielstellungen miteinander: Es wurde einerseits ein maschinenlesbares Textkorpus von deutschen und russischen TV-Nachrichten geschaffen, andererseits versucht, dieses Textkorpus als Materialgrundlage für eine Reihe von sprachkritischen Analysen zu verwenden. Beide Zielstellungen fordern unterschiedliche Arbeitsmethoden, die spezifische Probleme aufwerfen. Die meisten Probleme entstehen dadurch, daß interdisziplinär gearbeitet wird. A. Der Aufbau des Textkorpus. Als Materialgrundlage liegt ein maschinenlesbares Texkorpus von 16 Sendungen der Aktuellen Kamera (DDR), 9 Sendungen der Tagesschau (BRD), 2 Sendungen der Vremja (Sowjetunion/Rußland) und 4 Sendungen der Novosti (Rußland) mit insgesamt ca. 90.000 Wörtern vor, verteilt auf ca. 2.000 bis 3.000 Wörter pro Sendung. AI. Unter einem Textkorpus verstehen wir jede endliche Menge von natürlichsprachlichen Texten, die für sprachwissenschaftliche, literaturwissenschaftliche und kultursemiotische Untersuchungen zusammengestellt sind. Das vorliegende Textkorpus ist zweisprachig, bestehend aus sowohl geschriebener als auch gesprochener Sprache; es ist interkulturell und historisch. (Die Aktuelle Kamera wird nicht mehr gesendet.) Das Textkorpus liegt in drei Fassungen vor: a) in transkribierter bzw. transliterierter Form, mit Hinweisen auf die Informationsstruktur b) segmentiert in aufeinanderfolgende, numerierte syntaktische Einheiten und c) in einer Aufeinanderfolge lexikalischer Kategorien mit dazugehöriger Statistik. A2. In der ersten Fassung erscheinen die transkribierten und transliterierten Texte als ungegliederte lineare Aufeinanderfolge von Wörtern ohne Interpunktionszeichen, jedoch mit Zusatzkennzeichnungen, die eine Reihe von kommunikativ-pragmatischen Merkmalen festhalten, z. B. verschiedene Sprecher, Themen u. ä. A3. In der zweiten Fassung erscheinen alle Texte als fortlaufend numerierte Textsegmente, die verbzentriert sind. Jedes Textsegment soll genau eine finite Verbform enthalten. Diskontinuierliche Textsegmente sind zugelassen. A4. In der dritten Fassung sind alle Texte mit Hilfe eines TextAnalyser-Programms „durchgeklickt" worden, d. h. jeder Text ist Wort für Wort konsekutiv in lexikalische Kategorien markiert, die am Ende eines jeden Programmdurchgangs statistisch registriert werden. Das Wort als kleinstes Textsegment und damit relativ selbständiger Bedeutungsträger hat sich als praktikabel erwiesen. Die Ka-
Aufbau eines maschinenlesbaren Textkorpus deutscher und russischer TV-Nachrichten
49
tegorisierung geschieht in Anlehnung an die Wortklassen, jedoch wird der semantische Aspekt der Wortklassifizierung besonders betont. A5. In den russischen TV-Nachrichtentexten wurde prinzipiell auch von der Verbzentriertheit der Textsegmente ausgegangen. Es zeigte sich aber in vielen Fällen, daß rein lexikalische Kategorisierungsprinzipien mehr als in den deutschen Texten zu syntaktisch unakzeptablen Textsegmenten führen. Daher sind alle russischen Texte noch mit zusätzlichen Merkmalen versehen worden. Die dabei auftauchenden sprachsystematischen Probleme zeigen deutlich, daß die Anlage von mehrsprachigen Textkorpora mit Schwierigkeiten verbunden ist, wenn die Textpräsentation formal (morphologisch-syntaktisch) einheitlich sein soll. B. Quantitative Analyse der Kategorienklassen. Jede Sprache besitzt neben ihrer spezifischen Form auch ein ihr eigenes System von semantischen und kulturellen Einheiten. Die Kategorienklassen werden nicht nur als semantische Einheiten angesehen, d. h. als Handlungen, Geschehen und Eigenschaften (Kategorienklassen VF, VIF, A), Individuen (Kategorienklassen N, NN, P), Raumund Zeitverhältnisse, kausale und modale Beziehungen (Kategorienklassen ADV, NEG, FIG) usw., sondern auch vom semiotischen Gesichtspunkt aus als kulturelle Einheiten. Verschiedene Systeme semantischer und kultureller Einheiten können sich aber auch innerhalb einer Sprache herausbilden. In den Texten der Aktuellen Kamera und der Tagesschau gibt es eine Reihe sprachlicher Zeichen, die verschiedene kulturelle Einheiten darstellen. Solche Ausdrücke können über längere oder kürzere Zeit in einem semantischen System existieren. Für die sprachkritische Analyse des Textkorpus ist entscheidend, daß wir hinter den Kategorienklassen semantische und kulturelle Einheiten und Strukturen semantischer und kultureller Einheiten annehmen, die für die TV-Nachrichtentexte sowohl ähnlich als auch unterschiedlich sein können. Bl. Die Kategorie NN1-6 [Substantive in allen Kasus als Teil eines Namens] ist eingeführt worden, weil angenommen wird, daß Personennamen, Bezeichnungen von Personen, Objekten und Sachverhalten als Eigennamen ein textkonstitutives Merkmal von TV-Nachrichten sind. Die quantitative Analyse bestätigt diese Annahme. In den Texten der Aktuellen Kamera von 1988, 1989 macht die NN l-Klasse [Substantive als Teile eines Namens im Nominativ] ca. die Hälfte aller Vorkommen von Substantiven aus. In den russischen Nachrichtentexten ist die Anzahl der NNl-Klasse im Verhältnis der Gesamtzahl der Substantive gering, d. h. daß Eigennamen für Individuen, Objekte und Sachverhalte viel seltener auftreten. Das Vorkommen der NN-Klasse in den Texten der Aktuellen Kamera ist 1988-1989 sehr hoch und fällt 1990 stark ab. Die Texte der Aktuellen Kamera von 1990 zeigen dann ähnliche Werte wie die der Tagesschau aus dem gleichen Jahr. Die Annahme einer außersprachlichen Ursache für die plötzliche Veränderung ist daher nicht abwegig. Der Fall der Mauer am 9. November 1989 steht als historisches Ereignis zwischen den Sendungen der Aktuellen Kamera
50
Christiane Pankow
von 1988, 8. Mai 1989 und denen von 1990. Es ist daher anzunehmen, das sich die Routinen der Textproduktion völlig geändert haben. Das betrifft hier die Bezeichnungen für die in der Gesellschaft dominierenden Personen, Objekte und Erscheinungen, die buchstäblich von einem Tag zum anderen aus den TV-Nachrichten verschwinden. An ihre Stelle treten andere Bezeichnungen, aber nicht mehr in dieser sprachlichen Kompaktheit. B2. In den Texten der Aktuellen Kamera (1988) treten praktisch kein Negationen (NEG) und Zahlenwerte (FIG) auf, dagegen werden hohe Werte für das Vorkommen von Adjektiven (A) gemessen. Es zeichnet sich folgende Textproduktionsstrategie ab: Konkrete Zahlenangaben und negative Aussagen wurden bis 1988 in der Aktuellen Kamera deutlich vermieden, während sich die Werte in den Sendungen von 1990 denen der Tagesschau ähneln. In den russischen Nachrichtensendungen werden nicht weniger Negationen und Zahlenangaben als in den deutschen Sendungen der 90er Jahre verwendet. Dabei wird sichtbar, daß sich die Textstrategien der Aktuellen Kamera deutlich von den russischen Sendungen unterscheiden. In Nebenstudien konnte nachgewiesen werden, daß die positiv bewertenden Adjektive in der Aktuellen Kamera (1988) häufiger als in allen anderen Texten vorkommen. B3. Drei Textmustergruppen können deutlich voneinander abgegrenzt werden: die Aktuelle Kamera der 80er Jahre, die Aktuelle Kamera und Tagesschau der 90er Jahre, die sowjetisch-russischen Nachrichten. Textmusterspezifische Besonderheiten können auch für die Aktuelle Kamera nachgewiesen werden: Spezifika in der Bezeichnung von Personen, Objekten und Sachverhalten innerhalb des Informationsablaufs, erhöhte Expressivität und verstärkte positive Wertungen, die auf Ritualisierung als Textmerkmal hinweisen. Diese Merkmale treten in der Tagesschau nicht auf.
Literatur BERGSTRÖM, B. 1994: Adjektivbedeutungen. Semantische Analyse von bewertenden Adjektiven in deutschen Nachrichtentexten. C-Aufsatz. Germanistisches Seminar. Universität Göteborg. Manuskript. 44 S. BUNGARTEN, . 1979: Das Korpus als empirische Grundlage in der Linguistik und Literaturwissenschaft. In: H. BERGENHOLZ/ B. SCHAEDER (Hg.): Empirische Textwissenschaft. Aufbau und Auswertung von Text-Corpora. Königstein, S. 182-195. COWPERTHWAIT, C. 1992: Användarhandledning till TextAnalyser Version 5.1. Umea universitet. Manuskript. Eco, U. 1988: Einführung in die Semiotik. München. ERLANDSSON, V. 1994: Semantische Analyse von bewertenden Adjektiven in Nachrichtentexten der Aktuellen Kamera und Tagesschau. C-Aufsatz. Germanistisches Seminar. Universität Göteborg. Manuskript. 54 S. HEIDOLPH, K. E. / FLÄMIG, W. / MOTSCH, W. 1981: Grundzüge einer deutschen Grammatik. Berlin (Ost).
Aufbau eines maschinenlesbaren Textkorpus deutscher und russischer TV-Nachrichten
51
KOWAL, S. / POSNER, R. 1989: Zeitliche und inhaltliche Aspekte der Textproduktion. Arbeitspapiere zur Linguistik. Technische Universität Berlin. Institut für Linguistik. LENDERS, W. 1989: Segmentierung in der Computerlinguistik. In: I. S. BÄTORI/ W. LENDERS / W. PUTSCHKE (Hg.): Computational Linguistics. An International Handbook on Computer Oriented Language Research and Applications. Berlin / New York, S.159-166. MAIR, CH. 1991: Quantitative or qualitative corpus analysis? Infinitval competent clauses in the Survey of English Usage corpus. In: S. JOHANSSON/ A.-B. STENSTRÖM (Hg.): English Computer Corpora. Selected Papers and Research Guide. Berlin, S. 67-80. PANKOW, CHR. 1996: Tecken, sprak och ritual. 1992-1994. HSFR-Projekt Dnr F 677/91. Slutrapport. Göteborgs universitet. Institutionen for tyska. Manuskriptdruck. 134 S. PANKOW, CHR. 1982: Möglichkeiten konfrontativer Stiluntersuchungen auf der Grundlage deutscher und niederländischer Texte. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 35, S. 427^1-32. PANKOW, CHR. 1995: Der Name des Generalsekretärs. Über Name und Funktion in Nachrichtentexten. In: Sprachgermanistik in Skandinavien II. Osloer Beiträge zur Germanistik 16. Oslo, S. 185-195. PANKOW, CHR. 1992: Sign, Language and Ritual. Contrastive Discourse Analysis of East German and Soviet TV-News. In: Papers from the Nordtext Symposium 10-13 May. Abo, S. 139-147. SCHADER, B. 1976: Maschinenlesbare Textkorpora des Deutschen und des Englischen. In: Deutsche Sprache 4. S. 356-370. SCHMIED, J. 1993: Qualitative and quantitative research approaches to English relative constructions. In: C. SOUTER / E. ATWELL (Hg.): Corpus-based computational linguistics. Amsterdam / Atlanta, S. 85-96. SCHMITZ, U. 1992: Computerlinguistik. Eine Einführung. Opladen. SCHNEIDER, D. M. 1968: American Kinship: A Cultural Account. New York. SCHNEIDER, E. W. 1989: Qualitative and quantitative methodes in area delimitation in dialectology: a comparison based on lexical data from Georgia and Alabama. In: Journal of English Linguistics 21, S. 175-198. WEINRICH, H. 1993: Textgrammatik der deutschen Sprache. Mannheim / Leipzig / Wien / Zürich. WINGÄRD, A. 1994: Verbbedeutungen. Semantische Analyse der Verben in Texten deutscher TV-Nachrichten. C-Aufsatz. Germanistisches Seminar. Universität Göteborg. Manuskript. 34 S.
Lou Burnard
(Oxford)
Using SGML for Linguistic Analysis: the case of the BNC
Abstract The British National Corpus (BNC) is a rather large SGML document, comprising some 4,124 samples taken from a rich variety of contemporary British English texts of every kind, written and printed, famous and obscure, learned and ignorant, spoken and written. Each of its hundred million words and six and a quarter million sentences is tagged explicitly in SGML and carries an automatically-generated linguistic analysis. Each sample carries a TEI-conformant header, containing detailed contextual and descriptive information, as well as more conventional SGML mark-up. The corpus was created over a four year period by a consortium of leading dictionary publishers and academic research centres in the UK, with substantial funding from the British Department of Trade and Industry, the Science and Engineering Research Council, and the British Library. It is currently available under licence within the European Union only, where it is increasingly used in linguistic research and lexicography, in applications ranging from the construction of state of the art language-recognition systems, to the teaching of English as a second language. This paper begins by describing how the corpus was constructed, and gives an overview of some of the SGML encoding issues raised during the process. A description of the special purpose SGML aware retrieval system developed to analyse the corpus is also provided.
1 How to build a corpus The building of large-scale corpora of text for use in linguistic analysis pre-dates the technical feasibility of such resources in digital form by several centuries. The Oxford English Dictionary, for example, may be regarded as the product of an immense corpus of citation slips, collected and collated in handwritten form over a period of decades during the last century. However, the term corpus is most typically used nowadays to refer to a collection of linguistic data gathered for some specific analytic purpose, with a strong presupposition that it will be stored, managed, and analysed in digital form. The grandfather of linguistic
54
Lou Bumard
corpora of this type is the one-million word Brown corpus, created at Brown University in the early sixties using methods still relevant today. Linguists and linguistics thrive on controversy, and the dignifying of corpus-based approaches to the subject into a recognized academic discipline has had its fair share. Nevertheless, certainly in Europe, and increasingly in North America, corpus-based linguistics is widely perceived as central to many aspects of research into the nature and functioning of human language, with applications in fields as diverse as lexicography, natural language processing, machine translation, and language learning. A general introduction to corpus linguistics with particular reference to the British National Corpus (BNC) is provided in the forthcoming BNC Handbook, which cites a number of other recent introductory textbooks. Many of the most well-known language corpora were created within an academic context, where slightly different constraints tend to affect quality control, budgets, and deadlines than those associated with commercial production environments. The BNC project was, by contrast, a joint academic-industrial project, in which both academic and industrial partners learned a little more of their colleagues' perspectives by means of an enforced collaboration. In crude terms, if the academic partners learned to cut their coat according to the cloth available; the industrial partners learned that there were more complex things in life than boilersuits. The British National Corpus (BNC) is a collection of over 4,000 different text samples, of all kinds, both written and spoken, containing in all six and a quarter million sentences, and over 100 million words of current British English. Work on building it began in 1991, and was completed in 1994. The project was funded by the Science and Engineering Council (now EPSRC) and the Department of Trade and Industry under the Joint Framework for Information Technology (JFIT) programme. The project was carried out by a consortium lead by Oxford University Press, of which the other members are major dictionary publishers Addison-Wesley Longman and Larousse Kingfisher Chambers; academic research centres at Oxford University Computing Services, Lancaster University's Centre for Computer Research on the English Language, and the British Library's Research and Innovation Centre. Organizationally, the tasks of designing and building the corpus were split across a number of technical work groups on which each member of the consortium was represented. Task Group A concerned itself with basic issues of corpus design - what principles should inform the selection of texts for inclusion in the corpus - what target proportions should be set for different text types and so forth. Task Group B focussed on one key issue in corpus construction, the establishment of acceptable procedures for rights clearance and poermissions to include material in the corpus. This might have been the subject of a major research project in its own right: in practice, the output from the task group was a standard agreement, in some sense a precedent-setting document for other European corpus-builders.
Using SGML for Linguistic Analysis: the case of the BNC
55
Task Group C concerned itself with technical details of encoding and text processing; these are discussed in more detail below. Task Group D concerned itself with corpus enrichment and analysis. In practice, the distinction between the two turned out to be largely the distinction between the creation of the corpus and of specific software to make use of it. Since the latter task was not possible until the end of the project, by when there were no funds left to do it, it is unsurprising that little was actually accomplished in this group within the time of the original BNC project. SGML played a major part in the BNC project: as an interchange medium between the various data-providers; as a target application-independent format; and as the vehicle for expression of metadata and linguistic interpretations encoded within the corpus. From the start of the project, it was recognized that SGML offered the only sure foundation for long term storage and distribution of the data; only during its progress did the importance of using it also as an exchange medium between the various partners emerge. The importance of SGML as an application independent encoding format is also only now becoming apparent, as a wide range of applications for it begin to be realized. The scale and variety of data to be included meant that a industrial style production line environment had to be defined: this was dubbed the BNC sausage machine by Jeremy Clear, the project manager at the time, and may be summarized as follows: data capture each of the three commercial partners selected and prepared material to a different defined format, reflecting to some extent the diverse nature of materials for which they were primarily responsible; primary check and conversion OUCS checked each text against its data capture format, automatically converted it to project standard format, and made an accession record for it in the project database; linguistic annotation valid SGML texts were passed to Lancaster for automatic addition of word class tagging and linguistic segmentation, using the CLAWS software discussed further below; text cataloguing and final checking lexically annotated texts were run through a final conversion at OUCS; a detailed TEI header was generated from the project database and the text itself added to the corpus. A wide literature now exists on corpus design methodologies, which this paper will not attempt to summarize although the experience of designing and creating the BNC has contributed greatly to it. A corpus which, like the BNC, aims to represent all the varieties of the English language cannot be assembled opportunistically, although a project with a defined budget and timescale inevitably finds design principles sometimes have to be sacrificed to pragmatic considerations. At the outset, target proportions were agreed for certain broadly agreed categories of material, and these were adhered to. In the spoken part of the
56
Lou Burnard
corpus, ten per cent of the whole, a balance was struck between material gathered on a statistical basis (i.e. recruited from a demographically-balanced sample of language producers) and from material gathered from a pre-defined set of speech situations or contexts. A moment's reflection should show that this dual practice was necessary to ensure that the corpus included examples of both common and uncommon types of language. Equally, in the written parts of the corpus, published and unpublished material, of a wide range of topics, registers, levels etc., were all represented. From high-brow novels and text books to pulp fiction and journalism, by way of school essays, office memoranda, email discussion lists, and paper-bags, our aim was to ensure that every form of written language is to be found in the corpus, to a greater or larger extent. As noted above, data capture for the whole project was carried out by the three publishers in the BNC consortium (OUP, Longman and Chambers). Three sources of electronic data were envisaged at the start of the project: existing electronic text, OCR from printed text, and keyed-in text. It soon become apparent that the first source would be less useful than anticipated since either the material was encoded in formats too difficult to unscramble consistently, or the texts available did not match the stipulated design criteria. Scanning and keying text brought lesser problems of their own, of which probably was the worst was training keyboarders and scanners at different places to be consistent under tight time constraints. In the case of spoken data, keyboarding was the only option from the start, and proved to be very expensive and time-consuming, in part because of the very high standards set for data capture. Transcribing spoken language with attention to such features as overlap (where one speaker interrupts another), and enforcing consistency in the representation of non lexical or semilexical phenomena are major technical problems, rarely attempted on the scale of the BNC material, which finally included ten million words of naturally occurring speech, recorded in all sorts of environments. For a variety of reasons, the three data suppliers all used their own internal markup systems for data capture which then had to be centrally converted and corrected to the project encoding standard. Had this standard, the Corpus Document Interchange Format, or CDIF, been available at the start of the project, the need for conversion would have been lessened, but not that for validation. CDIF, like many other TEI-conformant dtds, allows for considerable variation in actual encoding practice, largely because of the very widely different text types that it has to accommodate. To help ease the burden on data suppliers, the tags available were classified according to their perceived usefulness and applicability. Some - such as headings, chapter or other division breaks, and paragraphs were designated "required" parts of any CDIF document; when such features occur in a text, they must be marked up. Others - such as sub-divisions within the text, lists, poems, and notes about editorial correction, were "recommended", and should be marked up if at all possible. Finally, some tags were con-
Using SGML for Linguistic Analysis: the case of the BNC
57
sidered "optional" - dates, proper names and citations which are easily identifiable. The process of format conversion and SGML validation was automated as far as possible (fortunately for us, the sgmls parser became available early on during the project): these constituted the "syntactic" check. Where time permitted, we also carried out a "semantic" check to determine whether material which should have been tagged had in fact been marked up, though it was of course impossible to carry out a full proof reading exercise. Materials which fell below an agreed threshold of errors, either syntactic or semantic, were returned to the data capture agency, for correction or replacement. Management of the many thousand of files and versions of files involved as texts passed through the production line was managed by a relational database system, which also managed routine archiving and backup. This database also held all of the bibliographic and other metadata associated with each text, from which the TEI headers eventually added to each text were generated. The project was funded for a total of four years, of which the first was devoted to agreeing and defining in full operational detail the procedures summarized above. By the end of the 5th quarter (March 1992), 10 percent of the corpus had been received at OUCS and procedures for handling it were in place. A small sample (2 million words) had been processed and sent on to Lancaster for the next stage of processing. The rate at which texts were received and processed at OUCS fluctuated somewhat during the course of the project, but ramped up steadily towards its end. The following table shows the approximate number of words (in millions) received at OUCS, converted to the project standard, and received back from Lancaster in annotated form, for each quarter (parenthesized figures indicate "bounced" texts - material which had to be returned because it did not pass the QA procedures discussed above): Quarter 6 7 8 9 10 11 12 13 14
Received 2 6 5(1) 6(2) 14(3) 12(2) 25 25 3
Validated 4 4 8 14 11 13 16 32 8
Annotated 6 13 5 8 17 22 30
58
Lou Burnard
2 How to mark up a corpus A full description of the BNC mark up scheme is beyond the scope of this paper, and is in any case available in the documentation supplied with the corpus and elsewhere. In this paper I would like to focus on the way in which the anticipated uses of the corpus conditioned the mark up scheme actually applied. It has often been said of general purpose dtds such as the TEI (which was being developed symbiotically with the CDIF scheme used in the BNC) that they allow the user too much flexibility. In practice, we found that the richly descriptive aspects of the TEI scheme were of least interest to our potential users. For purpose of linguistic analysis, the immense variety of objects in a fully marked up text, with all their fascinating problems of rendering and interpretation, are of less importance than a reliable and regular structural breakdown, into segments and words. This was an unpalatable lesson for academics with a fondness for the rugosities of real language, but an important one. The scale of the BNC simply did not permit us to lovingly mark up every detail of the text distinguishing sharply every list, foreign word, editorial intervention, or proper name. Instead we had to be sure that headings, paragraphs, and major text divisions were reliably and consistently captured in an immense variety of materials. For purposes of linguistic analysis, segmentation at the sentence and word level was crucial but, fortunately, automatic. By comparison with other, more literary oriented, TEI texts, the tagging of the BNC is thus rather sparse, despite its 150 million SGML tags. The basic structural mark up of both written and spoken texts may be summarized as follows. Each of the 4,124 documents or text samples making up the corpus is represented by a single element, containing a header, and either a (for written texts) or an (for spoken texts) element. The header element contains detailed and richly structured metadata supplying a variety of contextual information about the document (its title, source, encoding, etc., as defined by the TEI). A spoken text is divided into utterances, possibly interspersed with nonlinguistic elements such as events, possibly grouped into divisions to mark breaks in conversations. A written text is divided into paragraphs, possibly also grouped into hierarchically numbered divisions. Below the level of the paragraph or utterance, all texts are composed of elements, marking the automatic linguistic segmentation carried out at Lancaster, and each of these is divided into (word) or (punctuation) elements, each bearing a POS (part of speech) annotation attribute. Considerable discussion went on at the start of the project as to the best method of encoding this automatically-generated information. There are about sixty different possible POS codes, each representing a linguistic category, for example as a singular noun, adverb of a particular type, etc. The codes are automatically allocated to each word by CLAWS, a sophisticated language-
Using SGML for Linguistic Analysis: the case of the BNC
59
processing system developed at the University of Lancaster, and widely recognized as a mature product in the field of Natural Language Processing. For approximately 4.7 per cent of the words in the corpus, CLAWS was unable to decide between two possible laggings with sufficient likelihood of success. In such cases, a two-value word-class code, known as a portmanteau tag is applied. For example, the portmanteau tag VVD-VVN means that the word may be either a past tense verb (VVD), or a past participle (VVN). We did not make any attempt to represent this ambiguity in the SGML coding, though at a later stage of linguistic analysis, perhaps based on the TEI feature structure mechanism, this might be possible. Without manual intervention, the CLAWS system has an overall error-rate of approximately 1.7%, excluding punctuation marks. Given the size of the corpus, there was no opportunity to undertake post-editing to correct annotation errors before the first release of the corpus. Since then two successor projects have been completed by the Lancaster team which should result in the availability of a much improved new version early in 1997. The first step was to manually check a 2 percent sample from the whole corpus, using a much richer and more delicate set of codes. This corrected sample was then used to improve and extend the CLAWS tagging procedures, essentially by expanding its knowledge of common English phrasal sequences, before re-running the automatic procedure over the whole corpus. Further details of the CLAWS tagging procedure and the linguistic concepts underlying it are available in a number of research publications from the Lancaster team; this paper focusses on the encoding issues its use involved. Firstly, we had to decide how to represent the fact that CLAWS does not always allocate codes to single orthographic words. For example, the word won't is regarded as two tokens by CLAWS: wo (verbal auxiliary) and n't (negation marker); similarly posessive forms such as Queen's are regarded as two tokens. Further to confuse matters, some common prepositional phrases such as in spite of are regarded as a single token, as are foreign phrases such as annus horribilis. (This last phrase appears over 30 times in the BNC, as a consequence of the Queen's speech to Parliament in 1993). Secondly, we had to decide how to represent the code itself. There is some controversy amongst linguists about whether or not POS codes of this kind should be decomposable: that is, whether the encoding should make explicit that (for example) NN1 and NN2 have something in common (their noun-ness) which (say) VVXlacks. The TEI, of course, has a great deal to suggest on the subject, and proposes a very powerful SGML tagset for encoding such feature systems. To keep our options open, and also for ease of conversion from the data format output by CLAWS (which was already in existence, and had been for many years), we began by representing the code simply as an entity reference following the token to which it applied. Thus:
60
Lou Burnard
The&ATO Queen&NPO's&POS annus horribilis&NNl
This option, we felt, would enable us to defer to a later stage exactly what the replacement for each entity reference should be: it might be nothing at all, for those uninterested in POS information, or a string, or a pointer indicating a more complex expansion of the TEI kind. The problem with this representation however, is that it relies on an ad hoc interpretive rule (of the kind which SGML is specifically designed to preclude the need for) to indicate, for example, that the code ΑΤΟ belongs to the word The, rather than to the word Queen, In fact this is not encoding the truth of the situation: we have here a string of word-annotation pairs. A more truthful annotation might be:
< form>The AtO
A further possibility is to use an attribute value, for either the Form or the Code: thus The
or, equivalently, ATO
From the SGML point of view these are equivalent. From the application point of view, the notion of a text composed of strings of POS codes, with embedded forms seems somehow less appealing than the reverse, which is what we eventually chose: our example being tagged as follows: The Queen's annus horribilis
The decision to use an often deprecated form of tag minimization for the POS annotation was forced upon us largely by economic considerations. A fully normalized form, with attribute name and end-tags included on each of the 100 million words would have more than doubled the size of the corpus. Data storage costs continue to plummet, but the difference between 2 Gb and 4Gb remains significant! A second major set of encoding problems arose from the inclusion in the corpus of ten million words of transcribed speech, half of it recorded in predefined situations (lectures, broadcasts, consultations etc), and the other half recorded by a demographically sampled set of volunteers, willing to tape their own every day work and leisure time conversation. Speech is transcribed using normal orthographic conventions, rather than attempting a full phonemic transcript, which would have been beyond the project's limited resources. Even so, the markup has to be very rich in order to capture the
Using SGML for Linguistic Analysis: the case of the BNC
61
process of speaker interaction - who is speaking, and how, and where they are interrupted. Significant non-verbal events such as pauses or changes in voice quality are also marked up using appropriate empty elements, which bear descriptive attributes. Here is an example of the start of one such conversation, as encoded in CDIF:
You gotta Radio Two with that .
Bloody pirate station wouldn' t you ?
The basic unit is the utterance, marked as an element, with an attribute who specifying the speaker, where this is known. This attribute targets an element in the header for the text, which carries important background information about the speaker, for example their gender, age, social background, inter-relationship etc. Where speakers interrupt each other, as they usually do, a system of alignment pointers simplified from that defined by the TEI, is used. This requires that all points of overlap are identified in a element prefixed to each text, component points ( elements) of which are then pointed to from synchronous moments within the transcribed speech, represented as elements. Pausing is marked, using a element, with an indication of its length if this seems abnormal. Gaps in the transcription, caused either by inaudibility or the need to anonymize the material, are marked using the or elements as appropriate. Truncated forms of words, caused by interruption or false-starts, are also marked, using the element. A semi-rigorous form of normalization is applied to the spelling of non-conventional forms such as innit or lorra; the principle adopted was to spell such forms in the way that they typically appear in general dictionaries. Similar methods are used to normalize such features of spoken language as filled pauses, semi-lexicalized items such as urn, err, etc. Some light punctuation was also added, motivated chiefly by the desire to make the transcriptions comprehensible to a reader, by marking (for example) questions, possessives, and sentence boundaries in the conventional way. Paralinguistic features affecting particular stretches of speech, such as shouting or laughing, are marked using the element to delimit changes in voice quality. Non-verbal sounds such as coughing or yawning, and non-speech events such as traffic noise are also marked, using the and
62
Lou Burnara
elements respectively; in both cases, a closed list of values for the desc attribute is used to specify the phenomenon concerned. It should however be emphasized that the aim was to transcribe as clearly and economically as possible rather than to represent all the subtleties of the audio recording. The metadata provided by the header element, mentioned above, is of particular importance in any electronic text, but especially so in a large corpus. Earlier corpora have tended to provide all such documentation (if at all) as a separate collection of reference manuals, rather than as an integral part of the corpus, with obvious concomitant problems of maintainability and consistency. In SGML, particularly the TEI header, we felt that we had a powerful mechanism for integrating data and metadata, which we used to the full: each component text of the BNC carries a full header, structured according to TEI recommendations, and containing a full bibliographic description of it, and of its source, as well as specific details of its encoding, revision status, etc. A corpus header, containing information common to all texts, is also provided: this includes full descriptions of the corpus creation methodology, and the various codes used within individual text headers, such as those for text classification. A particular problem arises with large general purpose corpora like the BNC, the components of which can be cross-classified in many different ways. Earlier corpora have tended to simplify this, for example, by organizing the corpora into groups of texts of a particular type - all newspaper texts together, all novels together, etc. A typical BNC text however can be classified in many different ways (medium, level, region, etc.). The solution we adopted, was to include in the header of each text a single element carrying an IDREFS-valued attribute, which targetted each of the descriptive categories applicable to the text. For example, the header of a text of written author type 2 (multiple authorship), written medium type 4 (miscellaneous unpublished), and written domain type 3 (applied sciences) will contain a element like the following: < c a t r e f t a r g e t = " w r i a t y 2 wrimed4 wridom3">
The values wriaty2 wrimed4 etc. here each references a element in the corpus header, containing a definition for the classification intended. The full set of descriptive categories used is thus controlled and can be guaranteed uniform across the whole corpus, while at the same time permitting us to mix and combine descriptive categories within each text as appropriate. A similar method was used to link very detailed participant descriptions (stored in the header) with utterances attributed to them in the spoken part of the corpus. In retrospect, had we all known as much about SGML at the start of the project as we did by the end of it, we would have made much more impressive progress, and perhaps delivered a better product. Needless effort went into converting from one format to another, which might have been better spent on gathering more reliable contextual information for example.
Using SGML for Linguistic Analysis: the case of the BNC
63
3 How to analyse a corpus Linguistic analysis, particularly of large and diversely organized corpora, is not the same as text retrieval. While some of the application needs of the BNC user community might be met by standard SGML browsers or text database systems, many are not. The typical user of the BNC is interested in its contents as raw material for analysis, not as material to be searched for particular words or references. There is a correspondingly greater emphasis on statistical output, on ways of patterning and reordering result sets, as well as a need to support more complex kinds of enquiry than are usual in text-retrieval products. To meet some of these needs, the BNC is now delivered with a purpose-written SGML Aware Retrieval Application (SARA), developed at Oxford. From the start of the BNC project in 1990, it had always tacitly been assumed that some kind of retrieval software would need to be delivered along with the corpus. The original project proposal talks of "simple processing tools" and an informal specification for an "information search and retrieval processor" was also drawn up by the UCREL team early on. In the event, the need to complete delivery of the corpus on time (or at least, not too late), meant that development of any such software beyond that needed for the immediate needs of the project was increasingly deferred. It was argued that the lack of such software might be only transient, since the corpus was to be delivered in SGML form, tools for which were already becoming widely available, as a result of the widespread adoption of this standard both within the language engineering research community and elsewhere. However, a major stated goal of the project was to make the corpus available and usable as widely as possible, that is, not just at a low cost, but also within as wide a variety of environments as possible. It seemed to us that the potential user community for large scale corpora like the BNC extended considerably as far beyond the Natural Language Processing research community as it did beyond the immediate needs of commercial lexicographers, although it was largely on behalf of these groups that the project had originally been funded and largely therefore these groups which had determined the manner in which it should be delivered. It seemed to us that the software needs of some of the potential users of the BNC would be only partially met by the generic SGML software available in late 1994 (and to a large extent still today). The choice lay amongst highly specialized, but high performance, application development tool kits which given sufficient expertise could be customized to suit the needs of niche markets in NLP or lexicography, but which were somewhat beyond the needs, comprehension, or indeed purse, of the person in the street; generic SGML browse and display engines, designed originally for electronic publication or delivery over the web, often with very attractive and user-friendly interfaces but generally unable to
64
Lou Barnard
handle the full complexity and scale of the BNC; or simple concordancing tools which were equally unable to take advantage of the added value we had so painfully put into the encoding and organization of the corpus. Moreover existing software was either very expensive (being aimed at large scale electronic publishing environments), or free, but requiring considerable technical expertise for anything beyond the most trivial of applications. As discussed further below, the scale and complexity of the BNC (with its 100 million tagged words, six and a quarter million sentences, and 4,124 interlinked texts) seemed likely to stretch the capacity of most simple text-based concordancers available at that time. We were fortunate enough to obtain funding, initially from the British Library R & D Department, and subsequently from the British Academy, to produce a software package which might go some way to fill the gaps identified. Development of the system was carried out by Tony Dodd, with valuable input from members of the original BNC Consortium, and from early users of the software. The system is called SARA, for SGML-Aware Retrieval Application, to make explicit that although aware of the SGML markup present in the corpus, it is not a native SGML database. In this respect, however, it is no better or worse than a number of other current software packages.
4 The SARA system The SARA system was designed for client/server mode operation, typically in a distributed computing environment, where one or more work-stations or personal computers are used to access a central server over a network. This is, of course, the kind of environment which is most widely current in academic (and other) computing milieux today. The success of the World Wide Web, which uses an identical design philosophy, is vivid testimony to the effectiveness of this approach. The system has four chief components: - the indexing program, which generates an index of tokens from an SGML marked-up text; - the server program, which accepts messages in the Corpus Query Language (see below) and returns results from the SGML text; - the SARA protocol, a formally defined set of message types which determines legal interactions between the client and server programs; this protocol makes use of a high-level query language known as CQL (for Corpus Query Language); - one or more client programs, with which a user interacts in any appropriate platform-specific way, and which communicate with the server program using the protocol.
Using SGML for Linguistic Analysis: the case of the BNC
65
4.1 The SARA index Computationally, the best-understood method of accessing a text the size and complexity of the BNC is to use an index file, in which search terms are associated with their location in the main text file, and into which rapid access can be obtained using hashing techniques. Such methods have been employed for decades in mainstream information retrieval systems, with the consequence that the advantages and disadvantages of the various ways of implementing the underlying technology are well known and very stable. The SARA index is a conventional index of this type. Entries in the index are created by the indexing program, using the SGML markup to determine how the input text is to be tokenized. The tokens indexed include the content of every or element, together with the part of speech code allocated to it by the CLAWS program. For example, there will be one entry in the index for lead as a noun, and another for lead tagged as a verb. The index is not case-sensitive, so occurrences of Lead may appear in either entry. The tokenization is entirely dependent on that carried out by CLAWS, which accounts for the presence of a few oddities in the index where CLAWS failed to segment sentences entirely. The SGML tags (other than those for individual tokens) themselves are also indexed, as are their attribute values. For example, there is an entry in the index for every start- and end-tag, and for every start- and end-tag, etc. This makes it possible to search for words appearing within the scope of a particular SGML element type. For some very frequent element-types (notably and
) whose locations are particularly important when delimiting the context of a hit, additional secondary indexes called accelerator files are maintained. The index supplied with the first version of the BNC occupies 33,000 files and 2.5 gigabytes of disk space, i.e. slightly more than the size of the text itself. Building the index is a complex and computationally expensive process, requiring much larger amounts of disk space or several sort/merge intermediate phases. This was one reason for delivering the completed index together with the corpus itself on the first release of the BNC, even though development of the client software was not at that stage complete. More compact indexing might have been possible, at the expense of either a loss in performance or an increase in complexity: in practice, the indexing algorithm used provides equally good retrieval times for any kind of query, independent of the size of the corpus indexed. The index included on the published CDs necessarily assumes that the server accessing it has certain hardware characteristics (in particular, word length and byte addressing order). To cater for machines for which these assumptions are incorrect, a localization program is now included with the software. This can either make a once for all modification to the index or be used by the server to make the necessary modifications "on the fly".
66
Lou Bumard
The indexer program is intended to operate on generic SGML texts, that is, not just on the particular set of tags defined for use in the BNC. However, we have not yet attempted to use it for corpora using other tag sets, and there are almost certainly some features of its behaviour which are currently specific to the BNC. 4.2 The SARA server The SARA server program was written originally in the ANSI C language, using BSD sockets to implement network connexions, with a view to making it as portable as possible. The current version, release no 928, has been implemented on several different flavours of the Unix operating system, including Solaris, Digital Unix, and Linux, which appear to be the most popular variations. The software is delivered with detailed installation and localization instructions, and can be downloaded freely from the BNC's web site (see http://info.ox.ac.uk/bnc/ sara.html), though it is not yet of much interest to anyone other than BNC licensees. The server has several distinct functions, amongst which the following are probably the most important: - it allows registered users to log on or off and to change their passwords; - it implements the key functions required of the Corpus Query Language, in particular: - looking for tokens in the index; - solving a query; - supplying bibliographic information about a text; - displaying some or all of a text at a given location; - thinning or filtering the result set from a query. - it handles all housekeeping, allowing concurrent access by several different users. The server listens on a specified socket (usually 7,000) for login calls from a client. When such a call is received, the server tries to create a process to accept further data packages. If it succeeds, the client is logged on and set up messages are exchanged which define for example, the names and characteristics of SGML elements in the server's database. Following this, the client sends queries in the Corpus Query Language, and receives data packets containing solutions to them. Once a connexion has been established in this way, the server expects to receive regular messages from the client, and will time out if it does not. The client can also request the server to interrupt certain transactions prematurely.
Using SGML for Linguistic Analysis: the case of the BNC
67
4.3 The Corpus Query Language The Corpus Query Language (CQL) is a fairly typical Boolean style retrieval language, with a number of additional features particularly useful for corpus work. It is emphatically not intended for human use. Like many other such languages, its syntax is designed for convenience of machine processing, rather than elegance or perspicuousness. A brief summary of its functionality only is given here. A query is made up of one or more atomic queries. An atomic query may be one of the following: - a single L-word (that is, a token as recognised by the indexer: this may or may not correspond to an orthographic word); - a wildcard character, which will match any single L-word; - a delimited string of L-words, e.g. "mud shark dancing lesson"; - an L-word+POS pair, e.g. CAN=NN1; - a regular expression, e.g. {s[aui]ng}; - an SGML query, that is, a search for a start- or end-tag, possibly including attribute name-value pairs. Four unary operators are allowed in CQL: case The $ operator makes the query which is its operand case-sensitive; header The # operator makes the query which is its operand search within headers as well as in the bodies of texts (it thus assumes that a TEI-conformant dtd is in use); optional The ? operator matches zero or one solutions to the query which is its operand; it makes no sense unless the query is combined with another; not The ! operator matches anything which is not a solution to the query which is its operand; it makes no sense unless the query is combined with another; A CQL expression containing more than one query may use the following binary operators: sequence one or more blanks between two queries matches cases where solutions to the first immediately precede solutions to the second. disjunction The | (vertical bar) operator between two queries matches cases where either query is satisfied. join The * (star) operator between two queries matches cases where both queries are satisfied in the order specified; the operator between two queries matches cases where both queries are satisfied in either order. When queries are joined, the scope of the expression may be defined in one of the following ways:
68
Lou Burnard
SGML element A join query followed by a operator and an SGML querymatches cases where the joined query is satisfied within the scope of the SGML query. number A join query followed by a operator and a number matches cases where the joined query is satisfied within the number of words specified. If no scope is supplied for a join query, the default scope is a single element. 4.4 SARA client programs The standard SARA installation includes a very rudimentary client program called solve, for Unix. This provides a command line interface at which CQL expressions can be typed for evaluation, returning result sets on the standard Unix output channel, for piping to a formatter of the user's choice, or display at a terminal. This client is provided mainly for debugging purposes, and also as a model of how to construct such software. The SARA client program which has been most extensively developed and used runs in the Microsoft Windows environment, and it is this which forms the subject of the remainder of this paper. In designing the Windows client, we attempted to make sure that as much of the basic functionality of the CQL protocol could be retained, while at the same time making the package easy to use for the novice. We also recognized that we could not implement all of the features which corpus specialists would require at the same time as providing a simple enough interface to attract corpus novices. In retrospect, there are several features and functions we would liked to have added (of which some are discussed below); but no doubt, had we done so, there would be several aspects of the user interface we would now be equally dissatisfied with. The SARA client follows standard Microsoft Windows application guidelines, and is written in Microsoft C++, using the standard object classes and libraries. It thus looks very similar to any other Windows application, with the same conventions for window management, buttons, menus, etc. It runs under any version of Windows more recent than 3.0, and there are both 16 and 32 bit versions. A TCP/IP stack (such as Winsock) to implement connexion to the server is essential, and a colour screen highly desirable. The software uses only small amounts of disk or memory, except when downloading or sorting result sets containing very many (more than a few hundred) or very long (more than 1Kb) hits. The Windows client allows the user to: - search the word index and check what tokens it contains; - define, save, re-use, or modify a query (effectively, a CQL expression to be evaluated);
Using SGML for Linguistic Analysis: the case of the BNC
-
69
view, sort, save, or print all or some of the results returned by a query; configure and manipulate the display of results in a variety of ways; view contextual and bibliographic data for any one text; combine simple queries to form a complex one, using a visual interface.
A brief description of each of these functions is given below; more information is available from the built-in help file and from theBNC Handbook 4.4.1 Types of Query The Windows client distinguishes five types of query, and allows for their combination as a complex query. The basic query types are: word query this searches the SARA word index, either by stem (right hand truncation only is performed) or by pattern (see below). All index-entries matching the string entered are returned, and the user can then select all or some of them for dispatch to the server as CQL queries against the corpus; phrase query A phrase query behaves superficially like a word query, in that it searches for occurrences of a particular word or phrase. It differs in that it can be case-sensitive, can search text headers as well as bodies, can include punctuation, and is aware of the tokenization rules used by the CLAWS tagger. A phrase query can also include a "wild card" character to match any word in a phrase. pattern query A pattern query allows for queries using a simple subset of UNIX-style regular expressions, for example to find variant spellings of a word. Some limitations on the kind of pattern which can usefully be searched for are imposed by the nature of the index: for example, left hand truncation of the search term always implies a scan through the entire index, and is therefore not allowed. POS query A part of speech (POS) query carries out a word query, further restricted by a given POS code or code, for example to find occurrences of lead tagged as a noun. It should be stressed that this is only feasible for a specified word, since the POS code is only a secondary key in the SARA word index - it is not possible to search for (say) all nouns with the current system. SGML query An SGML query carries out a search for a given SGML tag in the corpus, optionally qualified by particular combinations of attribute values, for example to find all occurrences of elements in which the desc attribute has the value laughing or laughter. It is particularly useful when restricting searches to texts of a particular type, since text type information is typically carried by SGML attributes in the BNC. One or more of the above types of query may be combined to form a complex query, using the special purpose Query Builder visual interface, in which the
70
Lou Barnard
parts of a complex query are represented by nodes of various types. A Query Builder query always has at least two nodes: one, the scope node, defines the the context within which a complex query is to be evaluated. This may be expressed either as an SGML element, or as a span of some number of words. The other nodes are known as content nodes, and correspond with the simple queries from which the complex query is built. Content nodes may be linked together horizontally, to indicate alternation, or vertically to indicate concatenation. In the latter case, different arc types are drawn, to indicate whether the terms are to be satisfied in either order, in one order only, or directly, i.e. with no intervening terms. Query Builder thus enables one to solve queries such as "find the word fork followed by the word knife as a noun, within the scope of a single element". It can be used to find occurrences of the words anyhow or anyway directly following laughter at the start of a sentence; to constrain searches to texts of particular types, or contexts, and so forth. For completeness, the Windows client also allows the skilled (or adventurous) user to type a CQL expression directly: this is the only form of simple query which is not permitted within the Query Builder interface. 4.4.2 Display and manipulation of queries By whatever method it is posed, any SARA query returns its results in the same way. Results may be displayed in one of line or page modes, i.e. in a conventional KWIC display, or one result at a time. The amount of context returned for each result is specified as a maximum number of characters, within which a whole sentence or paragraph will usually be displayed. Results can be displayed in one of four different formats: plain text-only display which effectively ignores and suppresses all markup; POS individual words are colour-coded according to their part of speech and a user-defined colour scheme; SGML all SGML encoding in the original is displayed uninterpreted; custom the SGML encoding is interpreted according to a simple user-supplied specification. It will often be the case that the number of results found for a query is unmanageably large. To handle this, the SARA client offers the following facilities. A global limit is defined on the number of results to be returned. When this limit is exceeded, the user can choose - to over-ride the limit temporarily for this result set, specifying how many solutions are required, discarding any surplus from the end of the result set; - to discard all but the first solution in each text; - to take a random sample of specified size from the available solutions.
Using SGML for Linguistic Analysis: the case of the BNC
71
When the last of these is repeated for a given large result set, it will return a different random sample each time. Once downloaded to the client, a set of results may be manipulated in a number of ways. It may be sorted according to the keyword which defined the query, by varying extents of the left or right context for this keyword, or by combinations of these keys. Sorting can be carried out either by the orthographic form, in case-insensitive manner, or by the POS code of words. This enables the user to group together all occurrences of a word in which it is followed by a particular POS code, for example. It is also possible to scroll through a result set, manually identifying particular solutions for inclusion or exclusion, or to thin it automatically in the same way as when the limit on the number of solutions is exceeded. A result set may simply be printed out, or saved to a file in SGML format, for later processing by some SGML-aware formatter or further processor. Named bookmarks may be associated with particular solutions (as in other Windows applications) to facilitate their rapid recovery. The queries generating a result set, together with any associated thinning of it, any bookmarks, and any additional documentary comment, can all be saved together as named queries on the client, which can then be reactivated as required. 4.4.3 Additional features of the client The main bibliographic information about each text from which a given concordance line has been extracted can be displayed with a single mouse click. It is also possible to browse directly the whole of the text and its associated header, which is presented as a hierarchic menu, reflecting its SGML structure. The user can either start from the position where a hit was found, expanding or contracting the elements surrounding it, or start from the root of the document tree, and move down to it. A limited range of statistical features are provided. Word frequencies and z-scores are provided for word-form lookups, and there is a useful collocation option which enables one to calculate the absolute and relative frequencies with which a specified term co-occurs within a specified number of words of the current query focus.
5 Limitations of the current system and future plans As noted above, the current client lacks some facilities which are widely used in particular fields of corpus-based research. This is particularly true of statistical information. There is no facility for the automatic generation of collocate lists, or any of the other forms of more sophisticated forms of statistical analysis now widely used. Neither is there any form of linguistic knowledge built into the
72
Lou Barnard
system (other than the POS tagging): there is no lemmatized index, or lemmatizing component, though clearly it would be desirable to add one. For those sufficiently technically minded, or motivated, the construction of such facilities (whether using SGML-aware tools or not) is relatively straightforward; the problem is that no simple interface or hook exists to build them into the current Windows client. Similarly, it is not possible to define, save and re-use subcorpora, except by saving and re-using the queries which define them. The SARA client can address only the whole of the SARA index, which indexes the whole of the BNC. This is a design issue, which has yet to be addressed. If queries become very complex, involving manipulation of many very large result streams, they may exceed the limits of what can be handled by the server. This has not yet arisen in practice however. A more common complaint about the current system is that it cannot be used to search for patterns of POS codes, independently of the particular word forms to which they are attached. This is fundamentally an indexing problem, which may be addressed in the next major release of the system. The performance problems associated with queries containing very high frequency words are derived from the same problem, and may be addressed in the same way. And again, it is a trivial exercise for a competent programmer to write special purpose code which will search for such patterns across the whole of the BNC. Despite these limitations, the system has attracted great enthusiasm when tested and demonstrated, despite performance problems and difficulties of access, perhaps owing largely to the intrinsic interest of the BNC data itself. At the time of writing, the current software system appears stable enough for general release, not only to BNC licensees for their own internal use, but also to suitably qualified users wishing to access a national online service. Plans are already well advanced for the establishment of such a service as part of the British Library's Initiatives for Access programme. (This service was announced during November 1997: see http://info.ox.ac.uk/bnc/online.htm). Plans have also been mooted for the further development of the SARA system, enabling it to be used with other SGML document type definitions, and on other platforms. SARA, who came late into the BNC's world, seems likely to be equally late to leave it. For up to date information on the availability of the SARA system, or the BNC in general, including full bibliographic details please see our web site at http://info. ox.ac. uk/bnc.
Heinrich Hettrich (Würzburg)
Die Erarbeitung einer Kasus syntax des Rgveda auf der Grundlage elektronisch gespeicherter Daten
Das Forschungsvorhaben, über das ich Ihnen berichten möchte, ist eine Vorarbeit eines umfassenderen Projekts zur Rekonstruktion der Syntax der indogermanischen Grundsprache. Inhaltlich gehört es also nicht unmittelbar zum Gegenstand unseres Kolloquiums, und ich danke den Organisatoren für die Gelegenheit, die Teilnehmer trotzdem mit diesem Gegenstand bekanntzumachen. Ein Bezug liegt vielleicht im Methodischen: Es geht um die selektive Speicherung eines begrenzten Corpus mit dem Ziel, möglichst rasch zur Auswertung zu kommen. Und auch erste Ergebnisse dieser Auswertung möchte ich Ihnen vorstellen. Unter dem Titel „Rgveda" (RV) ist eine Sammlung von l .028 indischen Götterhymnen zusammengefaßt mit insgesamt 10.462 Strophen zu meistens je 3 bis 4 Versen. Ihre überlieferte Form dürften diese Hymnen - mit größter Vorsicht gesagt - etwa im 13. vorchristlichen Jahrhundert im Norden des heutigen Pakistan erhalten haben. Sie bilden die älteste Sprachschicht des vedischen Sanskrit oder einfach des Vedischen, einer Sprache, die wegen ihrer frühen Bezeugung und archaischen Struktur eine besondere Bedeutung für diachronisch-rekonstruktive Arbeiten innerhalb der Indogermanistik hat. Verglichen mit den stark analytischen modernen romanischen und germanischen Sprachen ist das Vedische in hohem Maße synthetisch. Syntaktische Relationen, die etwa im Deutschen durch Präpositionalphrasen bezeichnet werden, drückt das Vedische vielfach durch reine Kasus aus; etymologische oder zumindest strukturelle Entsprechungen moderner Präpositionen fungieren nicht ausschließlich, aber doch weitgehend als Adverbien. Diese regieren einen Kasus nicht, sondern sind, wenn überhaupt, diesem attributiv oder appositionell zugeordnet. Eine Phrase wie etwa 6,48,5
adhi OBEN
sänavi RÜCKEN-LokSg
kann man zwar wiedergeben durch „auf dem Rücken"; der vedischen Struktur entspräche aber besser „oben, im Bereich des Rückens" (Näheres bei HETTRICH 1991). Das Inventar der Kasus selbst ist umfangreicher als im Deutschen; neben Nominativ, Genitiv, Dativ und Akkusativ stehen Instrumental (grob gesprochen
74
Heinrich Hettrich
zur Bezeichnung von Mittel, Begleiter, Begleitumstand), Ablativ (räumliche/zeitliche Herkunft bzw. Distanz), Lokativ (räumliche/zeitliche Ruhelage bzw. Ziel) sowie ein separater Vokativ als Anredekasus. Eine syntaktische Gesamtbeschreibung dieser Kasus des RV1 sollte von möglichst vollständigem Material ausgehen. Zu diesem Zweck wird derzeit der gesamte RV-Text in einen Computer eingegeben, und zwar in einer spezifisch aufbereiteten Form, die auf die hier relevanten Fragen hin angelegt ist. Als Beispiel dafür betrachten Sie bitte einen Satz aus RV 2,16,1 indram INDRA-AkSgM
ajuryam ALTERLOS-AkSgM
uksitam ERWACHSEN-AkSgM avase HILFE-DatSgN
s
sanäd ALT-AblSgN
jarayantam ALT MACHEND-AkSgM s
yuvänam JUNG-AkSgM
havämahe RUFEN-lPlIndPrsMed
„Den Indra, den alterlosen, alt machenden, den seit alters erwachsenen, jungen rufen wir zur Hilfe." Dieser Satz erscheint auf folgende Weise als Computer-Eintrag: s
2,16,1 (2) hü —» A[m-ob] - sanät[Ab(a)-dis/attr] - ävase[D(a)-fm] - havämahe Diese selektive Art der Aufbereitung läßt sich an einem einzigen Beispiel nur unvollkommen ablesen; deshalb sei das Verfahren im allgemeinen kurz erläutert. Erfaßt werden von den einzelnen Sätzen insbesondere a) die Wurzel des Prädikatsverbs als Lemmaform, b) die konkrete Form des Prädikatsverbs wegen möglicher Abhängigkeit des Kasusgebrauchs von verbalen Kategorien, insbesondere der Diathese, c) die Kasusformen der nominalen Primärkonstituenten, d) Adverbien und Partikeln, die wegen ihrer Nähe zu einer Wortart „Adposition" für den Kasusgebrauch relevant sein können, wenn auch nicht müssen. Zu den einzelnen Kasusformen werden weiter berücksichtigt a) die konkrete Wortform (überall, außer bei den häufigsten Relationen Subjekt, direktes Objekt, Prädikativum im Nominativ oder Akkusativ), b) die begrifflich-semantische Klasse des Lexems (z.B. menschlich, unbelebt usw.), c) der vorläufige, annäherungsweise Verwendungstyp des Kasus (z.B. Mittel beim Instrumental, Ortsrichtung beim Akkusativ). ' Nach wie vor grundlegend ist DELBRÜCK 1888, 103ff., in entscheidenden Punkten umstritten dagegen HAUDRY 1977.
Die Erarbeitung einer Kasussyntax des Rgveda
75
Weitgehend außer Betracht bleiben die nominalen Sekundärkonstituenten. Die zahlreichen Attribute und Appositionen mit Kasuskongruenz zum Nukleus sind für die anstehenden Fragen irrelevant; attributive Genitive sind derart häufig, daß eine vollständige Erfassung kaum notwendig erscheint; die selteneren Fälle attributiver Verwendung anderer Kasus als des Genitivs sind berücksichtigt; z.B. der Ablativ sanät in unserem Beispielsatz. Die folgende Aufstellung zeigt die ersten beiden Hymnen des R V in dieser Form aufbereitet. Wie Sie sehen, erkennt man die Satzstrukturen auf einen Blick, was die Arbeitsökonomie ganz erheblich fördert. X
1.1.1 1.1.2 1.1.2 1.1.3 1.1.4 1.1.4 1.1.5 1.1.6 1.1.6 1.1.7
(l)Td -» A(m-ob)-T]e (1) id -» N(m-s) - fsibhih[I(m)-ag] - Tdyah (2) vah -> N(m-s) - A(m-ob) - ä - ihä - vaksati (1) äs l —» agninä[I(m)-soz/mit] - A(g-ob) - asnavat - evä dive-dive[L(a)-ru] (1) äs l -> A(g/a-ob/er) - visvätah(adv-abl) - pari - bhüh - äsi (2) gam —» N(g/a-s) - devesu[L(m)-ri] - gacchati x (1) gam —» N(m-s) - devebhih[I(m)-soz] - ä - gamat (1) kr l —> däsuse[D(m)-bet] - N(m-s) - A(a/g-ob) - karisyäsi (2) kein -> N(g-s) - N(pr) (1) i l -> upa - tvä[A(m)-ri] - dive-dive[L(a)-ru] - dosävastar(adv) dhiyä[I(a)-soz/mit] - N(m-s) - ä - imasi (2) bhr. -> A(a-ob) - bhärantah (1) vrdh —> värdhamänam - däme[L(g/o)-ru] (1) bhü -> nah[D(m)-bet] - N(pr) - sünäve[D(m)-bet] - N(pr) - bhava (2) sac —> sacasva - nah[A(m)-ri/ob] - svastäye[D(a)-fm] (1) yä —> ä - yähi (2) kr l -> N(g-s) - äram - krtäh (3) pal -> tesäm[G(g)-part] - pähi (4)sru -^ srudhi - A(a-ob) (1) jr2 -^ ukthebhih[I(a)-mit?] - jarante - tvä m[A(m)- ob/ri] - äcchä - N(m-s) (1) gä -> N(g/k-s) - jigäti - däsuse[D(m)-bet] - N(pr) somapTtaye[D(a)-fm] (1) gam —> upa - präyobhih[I(a)-mit/soz] - ä - gatam (2) vas -+ N(g-s) - A(m-ob) - usänti (1) cit —> cetathah - sutänäm[G(g)-part] (2) yä —» ä - yätam - upa - dravät(adv) (1) yä —> ä - yätam - upa - niskrtäm[A(o)-ri] - maksü(adv) itthä(adv) - dhiyä[I(a)-mit?] (l)hü -^ A(m-ob) - huve (2) sädh -» A(a-ob) - sädhantä X
1.1.7 1.1.8 1.1.9 1,1,9 1,2,1 1,2,1 1,2,1 1.2.1 1.2.2 1.2.3 1.2.4 1.2.4 1.2.5 l ,2,5 1.2.6 1.2.7 l ,2,7
X
76
Heinrich Hettrich
1.2.8 (1) as l -» rtena[I(a)-mit] - A(a-ob) - äsäthe 1.2.9 (1) dhäl -> N(m-s) - nah[D(m)-bet] - A(a-ob) - dadhäte In dieser Form sind zum Zeitpunkt unserer Tagung etwas über 14.500 Sätze oder Teilsätze gespeichert; das entspricht gut der Hälfte des Gesamtcorpus. Die selektive Erfassung selbst habe ich schon weiter vorangetrieben bis zu zwei Dritteln; Erfassung und Speicherung des Gesamtcorpus werden bis November 1997 abgeschlossen sein. Benutzt wird dafür das Textverarbeitungsprogramm TUSTEP, das in kurzer Zeit große Datenmengen bewältigen kann. Bei dem Abruf der gespeicherten Daten für die Einzeluntersuchungen ist es besonders vorteilhaft, daß man mit diesem Programm nach mehreren Parametern gleichzeitig suchen kann. So kann man sich beispielsweise zur Untersuchung der Verteilungsregeln von Akkusativ der Richtung und Lokativ des Ziels alle Belege des Verbums gam „gehen, kommen" mit Akkusativ einerseits und mit Lokativ andererseits jeweils getrennt ausdrucken lassen. Bevor ich aber exemplarisch auf einige derartige Einzelprobleme eingehe, sollen zunächst die allgemeinen Fragen kurz umrissen werden, die eine vedische Kasussyntax zu beantworten hat: 1) In welchem Ausmaß sind Eigenbedeutungen der Kasus zu erkennen, d.h. sprachimmanente einzelsprachenspezifische signifies im SAUSSUREschen Sinne, und - komplementär dazu - wieweit reicht ggf. eine Desemantisierung der Kasus? 2) Wie stehen solche sprachimmanenten Bedeutungen zu außersprachlichen bzw. übereinzelsprachlichen begrifflichen Kategorien, Denotata, etwa im Sinne von FlLLMOREs Kasusrollen? 3) Welche anderen Faktoren wirken bei der Kasuswahl mit, besonders bei partieller oder totaler Desemantisierung? (In Betracht kommen hier v.a. lexikalische Merkmale des betreffenden Nomens wie [± belebt], der gesamten Nominalphrase [± definit], Wechselbeziehungen mit den Kasus anderer Nomina im Satz, Steuerung der Kasuswahl durch das Verballexem oder durch grammatische Kategorien des Verbs wie Diathese, ggf. bis hin zu Festlegung auf einen einzigen Kasus.) Einige allgemeine Antworten auf diese Fragen ergeben sich aus Voruntersuchungen, die ich in den vergangenen Jahren zu einigen Einzelfragen durchgeführt habe (u.a. HETTRICH 1994 und 1995), und einem Probelauf mit den bisher gespeicherten Daten, der über deren praktische Handhabbarkeit Auskunft geben sollte. Dabei stellte sich heraus: 1) Für alle Kasus ist eine Eigenbedeutung nachzuweisen, aber zumindest für einige gibt es auch Umgebungen, in denen sie desemantisiert vorkommen. Verglichen mit neuindogermanischen Sprachen scheint die semantische Autonomie einen größeren, die Desemantisierung einen geringeren Raum einzunehmen.
Die Erarbeitung einer Kasussyntax des Rgveda
77
2) Zur Beschreibung des Verhältnisses des sprachimmanenten Designatums zu außersprachlichen Denotata eignet sich das Konzept der semantischen Prototypen. Die bisherigen Resultate sprechen dafür, daß es für einen Kasus einerseits einen Zentralbereich gibt, in dem sich seine Bedeutung idealtypisch realisiert und in dem nur dieser Kasus verwendet werden kann. Daneben gibt es andererseits Rand- und Übergangsbereiche, die unter mehr als eine Kasusbedeutung fallen können, bei deren Bezeichnung dann mehrere Kasus konkurrieren. 3) Eine genaue Aussage über das Ausmaß, in dem Faktoren die Kasuswahi mitbestimmen, die nicht dem Bereich der Relationen von Sachverhalt zu Sachverhaltsbeteiligtem angehören, läßt sich gegenwärtig noch nicht treffen. Immerhin kann es - wie schon angedeutet - einen Unterschied machen, ob ein Nominalbegriff belebt ist oder nicht, bzw. - bei dem Wechsel etwa von Genitiv und Akkusativ in der Objektposition - ob eine NP definit oder indefinit ist. Diese allgemeinen Resultate sollen nun an einigen konkreten Teilproblemen verdeutlicht werden: 1) Beginnen wir mit dem Dativ. Eine probeweise Durchsicht der bisher gespeicherten Daten liefert zwei große Gruppen: den Dativ der indirekten Betroffenheit bei Personen und den finalen Dativ bei Gegenstandsbegriffen und Abstrakta. Der Dativ der Betroffenheit tritt zu Verben, die bezüglich einer ggf. vorliegenden Transitivität gesättigt sind. Entweder wird diese Sättigung durch einen Akkusativ geleistet, oder das Verb ist bereits von sich aus intransitiv. Diese Bedeutung des Dativs läßt sich besonders im Kontrast mit anderen obliquen Kasus des gleichen Satzes nachweisen; d.h. bei mehr als zweiwertigen Verben. Fehlt jedoch ein solcher Kontrast, so wird in anderen Sprachen eine spezifische Bedeutung des Dativs bezweifelt; häufig zitiert sind Fälle wie jemanden unterstützen mit Akkusativ vs. jemandem helfen mit Dativ oder aus dem Lateinischen adluvare aliquem vs. favere alicui. Hier wird zwischen Akkusativ und Dativ kein Bedeutungsunterschied und demnach auch keine spezifische Eigenbedeutung der beiden Kasus angenommen, man rechnet nur mehr mit einer Differenz zwischen den obliquen Kasus insgesamt und dem Nominativ auf der anderen Seite.2 Als vergleichbare Fälle aus dem Vedischen könnte man anführen [l] RV 5,86,1
2
mit {!}), an zweiter Stelle die nächstwahrscheinliche ({2}) usw. Entsprechend sind die durch Schrägstrich / getrennten Angebote zur flexionsmorphologischen Bestimmung angeordnet. Diese Lemmatisierungs- und Parsingvorschläge werden anschließend von einem Programm verbessert, das die syntaktische Umgebung mit einbezieht. Das so aufbereitete Angebot muß dann am Bildschirm überprüft und gegebenenfalls korrigiert werden. Die Korrektureinträge erfolgen durch Zahlen /Buchstaben, die sich auf das Lemmatisierungsangebot beziehen, z. B. 3,4 = 3.
Vom lemmatisierten Index zur Grammatik
85
Lemma, 4. Bestimmung. Diese Korrekturarbeit ist der mit Abstand aufwendigste Teil des Gesamtverfahrens. Wenn auszuwertende Quellen diesen Flaschenhals passiert haben, geschieht alles Weitere größtenteils automatisch. 3,4
\«W»ije
2000-[053,19].01 {l}!-wis(e) #adj ONP/-/0/NSmfnw/NASf/ASnw/NAP + {2}-wise #f ONS/AS/GDS/NAP {3}-wisen #swv OlSG/3SGK71PG/2SGB/i + {4}-wTz #adj ONSmfnw/NASf/ASnw/NAP
AP
\dine
2000·[053,19].02 !-din #pron poss ONP/NSf/ASf/AP
2
\burjte \in
--»VI. T-K—l 1 ~ 1
ei
_lUB
uo
Ul
A
R
112
Yoshihiro Koga
In der dritten Auflage des „Kleinen Lexer" richtet sich die Klassifikation noch nach der des „Großen Lexer". Da LEXER im Vorwort der dritten Auflage - im Zusammenhang mit der von ihm der ersten Ausgabe vorangestellten grammatischen Einleitung' - die beiden mittelhochdeutschen Grammatiken von KARL WEINHOLD und HERMANN PAUL erwähnt (LEXER 1989, 4), kann es wohl möglich sein, daß sich die neue Klassifikation des „Kleinen Lexer" zunächst einmal, wenigstens teilweise, auf die Angaben der beiden Grammatiker stützte. Wann die Änderung stattfand, kann hier wegen fehlender Unterlagen leider nicht ermittelt werden. Noch schwieriger zu erschließen wäre, was die „ehemals reduplizierenden Verben" angeht, die Unstimmigkeiten zwischen den grammatischen Siglen in der Tabelle des „Kleinen Lexer" und denen, die die betreffenden Wörter bezeichnen: wie z. B. bei scheiden (Sigle: L), laufen (II. 1), släfen (VII.). scheiden redv. 4 tr. eehelden, sondern, trennen (einem houbet seh, scheiteln); entscheiden, beilegen, beenden, schlichten; deuten, auelegen, mit dp. u. abh. satz: bescheid geben; — refl. u. intr. eich trennen, absondern, fortgehn, abschied nehmen, ein ende nehmen, sterben; eich entscheiden, zum austrage kommen.
lonfcn rcdv. 3 Intr. laufen. — tr. durchlaufen. eldfcn rodv. 2 schlafen intr. u. tr. (den tldj); mit einer sl. sie beschlafen; unpcrs. mit acc. schläfern.
Woher und wann diese Verschiebungen stattgefunden haben, kann hier ebenfalls nicht festgestellt werden. Wenn man die in den Wörterbuchartikeln stehenden Siglen mit denen der Klassifikation vergleicht, kommt die in den Artikeln bestehende Klassifikation für die „ehemals reduplizierenden Verben" zum Vorschein (in Klammern stehen die Siglen der Klassifikation des „Kleinen Lexer"): II. Klasse: ehemals reduplizierende Verben l.plur. 2. sing. l.sing. l.sing. ind.präs. ind.präs. ind.prät. ind.prät. 1. halten hielt hielte halte enblande enblanden enblient enbliende hienge habe haben hienc slief 2. slafe släfen släfen loufen liefe 3; loufe lief houwen hiu hiuwe houwe 4. scheiden schiet schiede scheide stözen stiez stieze stöze 5. ruofe riefe ruofen rief 6. Tabelle 3
l.plur. ind.prät. hielten enblienden hiengen sliefen liefen hiuwen schieden stiezen riefen
partiz.
prät. gehalten enblanden gehangen gesläfen geloufen gehouwen gescheiden gestozen geruofen
(III.2) ( .1) (III. 1) (VII) (II. 1) (II. 1)
(D (II.2) (VI)
Perspektiven der mittelhochdeutschen Lexikographie in Japan
113
Diese Klassifikation richtet sich nach den Beschreibungen der mittelhochdeutschen Grammatiken beispielsweise von GERHARD Eis (1951) oder VICTOR MICHELS (1979): die Siglen entsprechen sich. Bei einem neuen mittelhochdeutschen Wörterbuch wünscht man sich, daß dieses Problem gelöst wird. Möglicherweise könnte man künftig ein für alle mittelhochdeutschen Wörterbücher gemeinsames System entwickeln. 5. Wichtige Elemente eines mittelhochdeutsch-j apanischen Wörterbuchs 5.1 Zahl der Stichwörter Die Texte, aus denen die Lemmata genommen werden, sollen aus wichtigen Werken der mittelhochdeutschen Dichter bestehen. Die Zahl der Stichwörter sollte wenigstens zehntausend Wörter umfassen, wie das mittelhochdeutsche Wörterbuch „A First Dictionary for Students of Middle High German" (OETTLI 1986), das etwa 12.000 Wörter umfaßt. Diese Zahl bedeutet mehr als ein Viertel der gesamten Wörter des Taschenwörterbuchs von Lexer. 5.2 Sigeln der starken Verben Das System sollte bei allen mittelhochdeutschen Wörterbüchern möglichst einheitlich sein. Aus diesem Gedanken heraus wird man sich zum Beispiel nach dem verbesserten System im „Kleinen Lexer" richten. Übrigens muß die Sigel auch den zusammengesetzten Verben beigefügt werden. 5.3 Aufnahme wichtiger Fremdwörter Die Aufnahme von Fremdwörtern, die meistens aus dem Altfranzösischen stammen, ist auch ein Problem. In LEXERS „Taschenwörterbuch" finden Fremdwörter wie roi „König", bele „schön" keinen Platz, während amis „der/die Geliebte", merzis „Dank, Gnade" und merzten „danken" doch in diesem Wörterbuch zu finden sind. Die Aufnahme der Fremdwörter, soweit sie in den mittelhochdeutschen Texten belegt sind, wäre wünschenswert, sonst müßte man sich auf die Suche nach einem anderen Wörterbuch machen, das es aber wahrscheinlich noch gar nicht gibt, oder man müßte sich an den hilfreichen Anmerkungen des Herausgebers des jeweiligen mittelhochdeutschen Textes orientieren, die man aber auch nicht immer finden kann. Bei der Diskussion im Kolloquium schien dieser Aspekt jedoch bedeutungslos zu sein, so daß man annehmen kann, daß die Teilnehmer meinen Überlegungen zustimmen.
114
Yoshihiro Koga
5.4 Aufnahme von Personen- und Ortsnamen aus den mittelhochdeutschen Texten Man erwartet von einem mittelhochdeutsch-japanischen Wörterbuch, daß man dort alles findet, was in den mittelhochdeutschen Texten steht. Nicht nur Fremdwörter, sondern auch die Personen- und Ortsnamen sollten dabei aufgenommen sein. Problematisch könnte aber sein, daß damit die Folgerichtigkeit des Wörterbuchs ein bißchen leidet. Diesen Gedanken sollte man bei der Diskussion des Konzepts zugrunde legen. 5.5 Eine neue Phase der Forschung: Ein mittelhochdeutsch-japanisches Wörterbuch in Zusammenarbeit zwischen Deutschland und Japan über das Internet Seit Jahren habe ich vor, eine japanische Ausgabe des „Alphabetischen Index" zum BMZ, der von unseren Würzburger Kollegen herausgegeben worden ist (KOLLER / WEGSTEIN / WOLF 1990), zu veröffentlichen. Dieser umfaßt etwa vierzigtausend Wörter, zu denen jeweils das entsprechende japanische Interpretament angegeben wird. Wenn es zu einer Zusammenarbeit auf der Basis des Internets kommen könnte, so würde dies gut zum Ziel unseres Kolloquiums passen.
Literatur BABA, K./ , ./ KAKURAI, S./ OGURI, S. 1974: „Parzival" Wolframs von Eschenbach. Ins Japanische übers. Tokyo. Eis, GERHARD 1951: Historische Laut- und Formenlehre des Mittelhochdeutschen. Heidelberg. HAMASAKI, N. 1970: Meier Helmbrecht. Ins Japanische übers. Tokyo. HIRAO, K. 1984: Werke Konrads von Würzburg. Ins Japanische übers. Tokyo. HlRAO, K. 1990: Seifried Helbling. Ins Japanische übers. Tokyo. ISHIKAWA, ElSAKU 1992: Nibelungen no Uta Kosei to Naiyo. Tokyo. ISHIKAWA, K. 1976: Tristan und Isolde Gottfrieds von Straßburg. Ins Japanische übers. Tokyo.
JANTZEN, HELMUT/ KOLB, HERBERT 1973: Parzival. Eine Auswahl mit Anmerkungen und Wörterbuch. Berlin. KOGA, Y. 1996: Kudrun. Ins Japanische übers, und literaturhistorisch eingeleitet. Tokyo.
KOLLER, ERWIN / WEGSTEIN, WERNER / WOLF, NORBERT RICHARD 1990: Mittelhochdeutsches Wörterbuch. Alphabetischer Index. Stuttgart. Kozu, H. 1978: Minnesang. Ins Japanische übers. Tokyo. LANGOSCH, KARL 1966: Der Nibelunge Not. In Auswahl hg. Berlin. LEXER, MATTHIAS 1970: Mittelhochdeutsches Handwörterbuch. Nachdruck der Ausgabe 1872. Tokyo. LEXER, MATTHIAS 1986: Mittelhochdeutsches Taschenwörterbuch. 37. Aufl. Stuttgart.
Perspektiven der mittelhochdeutschen Lexikographie in Japan
115
LEXER, MATTHIAS 1989: Mittelhochdeutsches Taschenwörterbuch in der Ausgabe letzter Hand. Stuttgart. LINKE, T. / HIRAO, K. / NAKASHIMA, Y. / SAGARA, M. 1982: Die Epen Hartmanns von Aue. Ins Japanische übers. Tokyo. MAURER, FRIEDRICH 1977: Tristan und Isolde. In Auswahl hg. Berlin. MICHELS, VIKTOR 1979: Mittelhochdeutsche Grammatik. 5. Aufl. hg. von HUGO STOPP. Heidelberg.
MURAO, Y. 1970: Die Sprüche und der Leich Walthers von der Vogelweide. Ins Japanische übers. Tokyo. OETTLI, P. H. 1986: A First Dictionary for Students of Middle High German. Göppingen. SAGARA, MORIO I960: Doitu Chusei Jojishikenkyu. Tokyo. SAGARA, MORIO 1955: Das Nibelungelied. Ins Japanische übers. Tokyo. YUKIYAMA, TOSHIO 1934: Nibelungen no Uta Kiso no Kenkyu. Tokyo.
Friedhelm Debus (Kiel)
Lexikon der Namen in deutschen literarischen Texten des Mittelalters1
I Wenn SIEGFRIED LENZ 1985 in einer Rede über Namen sagte: „Wir müssen davon ausgehen, daß alle Namen in einem literarischen Werk bestimmte Signalhaftigkeit besitzen, einen Bezeichnungswert, und zwar auch dann, wenn es Phantasienamen sind. Nichts ist absichtslos gesetzt." (LENZ 1985, 19), so hat er - das dürfen wir voraussetzen - neuere literarische Texte im Blick. Ähnliche Aussagen gibt es auch von anderen Dichtern, so etwa von INGEBORG BACHMANN (1978) oder von zahlreichen Autoren unserer Tage, bei denen ich eine entsprechende systematische Befragung durchgeführt habe (DEBUS 1998). Nun kann man selbstredend bei mittelalterlichen oder späteren verstorbenen Dichtern so direkt nicht vorgehen. Da bleibt nur der indirekte Weg über die Werke selbst - ein Weg, der sich als gangbar erwiesen hat und zunehmend beschritten wird, freilich noch vorwiegend mit Bezug auf die jüngere Literatur. Eine neue Teildisziplin der Namenforschung hat sich so inzwischen etabliert: die Literarische Onomastik (vgl. Namenforschung 1995, passim). Nun zeigen alle bisherigen Beobachtungen, daß die eingangs zitierte Aussage von LENZ prinzipiell auch auf die literarischen Texte des Mittelalters bezogen werden darf. Namengebung und Namenverwendung bei mittelalterlichen Dichtern sind zu sehen im Kontext des in antik-rhetorischer Tradition stehenden Verständnisses des nomen proprium als von seiner Etymologie her begründete ,Wahrsage' und ,Voraussage', als veriloquium und praesagium nominis (vgl. insbesondere HAUBRICHS 1989, bes. 206f.). Der Name ist für seinen Träger wahrhafte Kennzeichnung und zugleich Bestimmung im Sinne des mythisch bedeutsamen nomen est omen. Nicht von ungefähr hat deshalb ERNST ROBERT CURTIUS (1948, 486ff.) im Blick auf das Mittelalter treffend von der „Etymologie als Denkform" gesprochen. So läßt etwa Gottfried von Straßburg den Namen Tristan von seiner vermeintlichen Etymologie her begründet sein, und zwar hinsichtlich der Vergangenheit, Gegenwart und Zukunft seines Trägers; der Name ist ,passend', Angemessen': 1
Zu vergleichen ist jetzt (Januar 2000) mit weiterführenden Darlegungen DEBUS (im Druck). Der vorliegende Beitrag ist nicht entsprechend aktualisiert worden.
118
Friedhelm Debus
von triste Tristan was sin nam. der name was ime gevallesam und alle wis gebcere; [...] er was reht alse er hiez ein man und hiez reht also er was: Tristan. (V. 2003ff.) Das will sagen: Einer - hier Tristan - ist so, wie er heißt, und er heißt so, weil er so ist. Der Beleg ist kein Einzelfall. Hingewiesen sei nur noch auf den Namen Hartmuot in der ,Kudrun', den der Dichter etymologisierend folgendermaßen sprachlich umspielt: daz muote Hartmuoten harte sere (623,4b). Nomina propria sind Eigen-Namen, individuierend und identifizierend. Sie haben zwar ihre ursprüngliche Wort-Bedeutung, insofern sie in der Regel von nomina appellativa abgeleitet sind. Doch sie haben neben dieser gewöhnlich erst freizulegenden etymologischen Bedeutung, die in heutigen Namenlexika oft allein berücksichtigt ist, eine spezifische, ihnen vom jeweiligen Träger und dem geschichtlichen Kontext her zugewachsene Bedeutsamkeit (vgl. DEBUS 1966, 16; SONDEREGGER 1987). Eben diese im konnotativen Bereich angesiedelte Bedeutsamkeit weist den Namen im lexikalischen System einer Sprache wesentlich ihre besondere Stellung zu. Beim literarischen Namen kommt dann noch als weitere Komponente hinzu, was PAVEL TROST (1986, 23) mit dem Begriff Ausdruckswert gefaßt und als Funktion bezeichnet hat, die man „die poetische oder ästhetische nennen könnte in dem Sinne, daß sie mit Absicht und Wirkung der künstlerischen Gestalt des Werkes verknüpft ist" (TROST 1986, 22f.). Die an jüngerer Literatur orientierte funktional-typologische Forschung hat diese Funktion inzwischen weiter differenziert in mehrere Unterfunktionen (vgl. besonders LAMPING 1983; DEBUS 1998). Solche Kategorisierungen lassen sich auf die literarische Namen weit des Mittelalters fruchtbar anwenden und für das entstehende Lexikon nutzen. Daß es bei den einzelnen Namen bzw. bei den verschiedenen Namenklassen der Personen-, Orts- und anderen Namen unterschiedliche Grade des poetischen Ausdrucks wertes gibt, liegt auf der Hand. Darauf kann hier nicht näher eingegangen werden. II
Mit den bisherigen Überlegungen sind bereits die prinzipiellen Aspekte eines ,Lexikons der Namen in deutschen literarischen Texten des Mittelalters' genannt: die Etymologie, die Bedeutsamkeit und der Ausdruckswert mit anderen Worten: Es geht um den
Lexikon der Namen in deutschen literarischen Texten des Mittelalters
119
- etymologischen - pragmatisch-soziologischen und - poetisch-ästhetischen Gehalt der Namen. Über das Konzept eines solchen Lexikons habe ich erstmals vor nunmehr zehn Jahren, im September 1987, auf einem Symposion in Kiel gehandelt (DEBUS 1989; vgl. ferner PÜTZ 1989). Ich greife das hier auf und vertiefe es. Abschließend werde ich an Hand eines Beispiels praktische Fragen erörtern. Grundlage des Namenlexikons bildet einerseits das Belegkorpus, unsere Datenbank, die sämtliche Namenformen der erfaßten Quellen in ihrem jeweiligen Kontext enthält.2 Andererseits ist die im Entstehen begriffene annotierte Bibliographie, die möglichst alle bisherigen Deutungen und Deutungsversuche verfügbar macht, ein ganz wichtiges und unentbehrliches Hilfsmittel für die Ausarbeitung der einzelnen Namenartikel. Dadurch, daß diese als Datenbank angelegte Bibliographie durch ein entsprechend gespeichertes Register aller behandelten Namen mit den auf die Bibliographie bezogenen Angaben ergänzt ist, wird der schnelle Zugriff ermöglicht. Folgende Gesichtspunkte für Aufbau und Inhalt der Lexikon-Artikel sind zu berücksichtigen: 1. Die potentiellen Benutzer eines ,Lexikons der Namen in deutschen literarischen Texten des Mittelalters' - das sind vor allem Mediävisten, Namenkundler, Sprachhistoriker bzw. Sprachwissenschaftler, Historiker, Lehrer - werden über einen Namen Auskunft suchen, von dem sie vielleicht nicht einmal wissen, ob es sich um einen Personennamen, Ortsnamen oder einen anderen Namen handelt. Das heißt: Das Lexikon muß alle Namen in alphabetischer Ordnung bringen, also nicht nach einzelnen Namenklassen geordnet, wie das z.B. LOUIS-FERNAND FLUTRE mit seinem Werk Jable des noms propres avec toutes leurs variantes figurant dans les romans du Moyen Age ecrits en fran9ais ou en provengal et actuellement publics ou analyses' (FLUTRE 1962) tut. Daß später ein Namenklassen-Register angefügt werden kann, ist damit nicht ausgeschlossen; ein solches Register wäre sinnvoll, wenn man etwa wissen möchte, wieviele und welche Namen existieren für Gestirne, Völkerschaften, Tiere, Gerätschaften (z.B. Schwerter) o.a. 2. Ein besonderes Problem stellt bereits der erste Eintrag dar: Das Lemma. Soweit es sich um ein hapax legomenon handelt, wird man diesen Einzelbeleg als Lemma notieren, es sei denn, es gäbe dazu außerhalb des Belegkorpus eine eingebürgerte ,Normar-Form. Bei mehreren unterschiedlichen Belegen ist entweder die am häufigsten vorkommende Form oder die bereits in der Textausgabe [
Insgesamt sind ca. 130 Texte vollständig mit entsprechenden Markierungen gespeichert.
120
Friedhelm Debus
normalisierte oder eine noch zu bestimmende Form zu nehmen. Grundsätzlich erfordert die Lemmatisierung eine sorgfältige Analyse aller Namenvarianten. Ob hierzu ein automatisiertes Lemmatisierungsprogramm möglich ist, dürfte zweifelhaft sein; denn Namenvarianten haben prinzipiell eine andere Qualität als Wortvarianten. Namenformen sind, insbesondere und gerade in literarischen Texten, oft umgangssprachliche oder individuelle Spielformen, außerhalb regelhafter phonologisch-morphologischer Entwicklungen entstandene Fiktionalisierungen, Zersprechungen, Verballhornungen, expressive oder kosende Entstellungen, kurz: Verformungen aller Art. Das trifft vor allem für die Anthroponymika zu. Nomina propria vermitteln ja prinzipiell keine lexikalische Bedeutung, ihre in diesem Sinne bestehende Bedeutungslosigkeit macht sie geradezu anfällig und frei zugänglich für solche Verformungen. Sprechende Namen stellen allerdings gerade dieses Charakters wegen eine Ausnahmegruppe dar, und es gibt natürlich auch bei literarischen Namen sprachhistorisch und sprachgeographisch aufschlußreiche Varianten. All dies ist analytisch zu klären. Es ist deutlich, daß dabei die einschlägigen Vorarbeiten von großer Wichtigkeit sind. In jedem Fall sind auffällige Namenformen als Lemma mit Verweis auf den zugehörigen Artikel aufzuführen. Zum Lemma in diesem Artikel gehören als direkte Zusatzinformationen Kategorialangaben, wie Klassenzugehörigkeit, Genus, typologische Einordnung oder Gattungsspezifität (z.B. kann ein Name nur in der Helden- oder der Artusdichtung begegnen). 3. Die wichtigsten Belegvarianten werden dem Lemmaeintrag angefügt mit jeweiligem Quellennachweis, einschließlich Angabe der Entstehungszeit der Quelle bzw. auch des Werkes. In diesem letzteren Punkt gibt es im Vergleich zur urkundlichen Überlieferung durchaus signifikante Unterschiede insofern, als beim Beurkundungsvorgang das Datum sehr wichtig war und daher ohne Not angebbar ist; es ist dabei freilich unerläßlich zu vermerken, ob es sich bei einem solchen Beleg um ein Original oder eine Kopie handelt. Bei literarischen Texten hat man in der Regel das Original überhaupt nicht, man muß schon froh sein, wenn man die Handschriften einigermaßen verläßlich datieren kann. Ist es stoffgeschichtlich oder sprachlich hilfreich, werden entsprechende Namenformen aus anderen Literaturbereichen notiert, z.B. zu Etzel: Atli oder zu Höranf. ags. Heorrenda oder an. Hjarrandi. 4. Soweit geographische Zuordnungen der Namen möglich sind, werden sie als für die historische Namen-/Sprachgeographie wichtige Hinweise angegeben. Allerdings gilt für diesen Aspekt ähnliches wie für den unter Punkt 3 erörterten zeitlichen. 5. Die pragmatisch-soziologischen Kennzeichnungen werden angegeben, wenn sich diese aus dem Kontext ergeben. Das betrifft die Funktion und gesellschaftliche Stellung der jeweiligen Namenträger, also Titel, Rolle, besondere
Lexikon der Namen in deutschen literarischen Texten des Mittelalters
121
oder häufige Attribuierungen u.a. Dabei sollen exemplarische Kontexte zitiert werden. Ein Darstellungsproblem ergibt sich allerdings, auf das ich auch früher bereits hingewiesen hatte (DEBUS 1989); nämlich dann, wenn ein Name viele verschiedene Namenträger repräsentiert. ERNEST LANGLOIS widmet in seinem Werk ,Table des noms propres de toute natur compris dans les chansons de geste imprimees' (LANGLOIS 1904) jedem Träger gleichen Namens einen besonderen Artikel, die er durchnumeriert präsentiert. Bei einigen Namen entstehen auf diese Weise umfangreiche Artikelensembles. So verzeichnet er beim beliebten Namen Gautier mit Varianten insgesamt 157 Namenträger = Namenartikel, wozu er 27 Seiten seines Buches benötigt. FLUTRE (1962) führt dagegen die Träger gleichen Namens fortlaufend numeriert in nur einem Artikel auf. Im eigenen Lexikon soll dieser platzsparende Weg gewählt werden. 6. Zur Belegpräsentation und ihrem Umfeld gehören auch Angaben zu bewußt verzögerter Nameneinführung, zu Namenmagie, Namenverlust, Namentabu und ähnlichen Phänomenen, soweit sich solche eindeutig aus den Texten ergeben (vgl. hierzu etwa ROSUMEK 1989). 7. Einen zentralen Bereich betreffen die sprachwissenschaftlich-sprachgeschichtlichen Analysen. Phonologisch-graphematische, morphologisch-lexikalische und dialektologisch-stilistische Befunde bilden die Grundlage für die Bestimmung des Namens als sprachliches Zeichen, nicht zuletzt für die Erschließung der Etymologie. Gerade für diesen Bereich ist die umfassende Auswertung der bisherigen Forschung erforderlich. 8. Angaben zum poetisch-ästhetischen Ausdruckswert eines Namens ergeben sich, wenn überhaupt, aus Befunden der zuletzt genannten drei Punkte und aus weiteren Kontextbeobachtungen. Besondere stilistische oder klangästhetische Formen sind dabei von Bedeutung, auch im Vergleich mit vorhandenen urkundlichen Überlieferungen entsprechender Namen. Daß die klangästhetischen Aspekte besondere Probleme beinhalten, liegt auf der Hand (vgl. dazu DEBUS 1998). 9. Bedeutung, Bedeutsamkeit und Ausdruckswert können dazu geführt haben, daß bestimmte Namen nachfolgend rezipiert wurden. Diese Rezeption systematisch zu erfassen, wäre ein eigenständiges Forschungsprojekt, doch sollen einschlägige Beobachtungen aus der vorhandenen Forschungsliteratur erwähnt werden. Nachbenennung nach literarischen Vorbildern ist indessen dann schwerlich eindeutig nachzuweisen, wenn entsprechende Namen auch außerliterarisch von Bedeutung waren, wie z.B. Siegfried oder Brünhild. Etwas anderes und in jedem Fall buchenswert ist es, wenn etwa 1256/57 eine Hercelauda ßlia domini Waltheri de dingen oder 1299 eine Herczelaude von Ohsinstein urkundlich bezeugt sind (vgl. hierzu SOCIN 1903, 567). Diese Namen können nur literarisch bedingt sein, da der sprechende Frauenname Herzeloyde durch Wolfram von Eschenbach geschaffen wurde.
122
Friedhelm Debus
10. Als Fußnote zu jedem Artikel wird schließlich die wichtigste Sekundärliteratur genannt, wozu die einschlägige Bibliographie (s.o.) die Grundlage bietet. Die hier vorgetragene Konzeption eines ,Lexikons der Namen in deutschen literarischen Texten des Mittelalters' ist bisher nur in Ansätzen verwirklicht. Die bisherige, über viele Jahre hin geleistete Arbeit galt im wesentlichen der Bereitstellung der Grundlagen, d.h. also des Namenkorpus und teilweise der Bibliographie. Diese müssen die verläßliche und möglichst umfassende Basis des Lexikons bilden - getreu der Mahnung des Altmeisters der Namenforschung, ERNST FÖRSTEMANN, der 1863 schrieb: Was aber dringend Noth thut, [...], ist die Herstellung eines festen Fundamentes, auf dem sich die weitere Forschung aufzubauen hat. (-) Dieses einzig sichere Fundament besteht aber in nichts Anderem als in Sammlungen. Das mühsame und scheinbar unwürdige Geschäft des Sammeins ist es, zu welchem ich zunächst und mit aller Eindringlichkeit auffordern möchte; möge man das nicht als niedrigen Kärrnerdienst verachten, sondern lieber darauf blicken, wie selbst die Könige der Wissenschaft uns mit reichhaltigen und wohlgeordneten Sammlungen aus verschiedenen Gebieten ein gutes Beispiel geben (FÖRSTEMANN 1863, 329).
Würde FÖRSTEMANN heute leben, hätte er zweifellos von Datenbanken gesprochen! Entsprechendes betonte später auch ALFRED GÖTZE (1928, 400) in einem programmatischen Beitrag mit der griffig-bildhaften Bemerkung, daß „man immer wieder den Wein hat trinken wollen, bevor die Beeren gekeltert waren." Erste vorläufige Ergebnisse gekelterter Beeren möchte ich im folgenden vorstellen.
III Aus Zeitgründen beschränke ich mich hier auf die Erörterung nur eines Namens, den ich bereits erwähnt habe: den Personennamen Hörant. Er kommt nur in einem einzigen der Werke unserer Datenbank vor, in der späthöfischen ,Kudrun', die bekanntlich allein im ,Ambraser Heldenbuch' aus dem Beginn des 16. Jahrhunderts überliefert ist. In der ,Kudrun' ist Hörant der Lehnsmann König Hetels und beherrscht Tenemarke, das zum Königreich Hetels, dem Hegelinge lant, gehört. Hörant ist zugleich ein begnadeter Sänger, der es mit seiner Sangeskunst versteht, die junge Hilde zu betören und auf diese Weise um sie für seinen Dienstherrn Hetel zu werben; das wird in der sechsten Aventiure, die in der Handschrift mit wie suoze Hörant sanc überschrieben ist, ausführlich berichtet. Der Name Hörant hat, wie die übrigen Namen in diesem Heldenepos, in der Diskussion um die verwickelte Stoffgeschichte desselben eine wichtige Rolle gespielt. Das ist bei der Analyse zu berücksichtigen. Doch zunächst zur Belegsituation in der ,Kudrun', die ich an der Handschrift verifiziert habe.
Lexikon der Namen in deutschen literarischen Texten des Mittelalters
123
Der Name Hör am kommt in der ,Kudrun' insgesamt 69 mal vor. Die Nominativform begegnet 51 mal, bis auf die erste Notation Horrannt (206,2) stets in derselben Schreibung Hörant, also mit Auslautverhärtung, in der Handschrift allerdings ohne Längezeichen auf dem o. Das ist eine auffällige graphische Konstanz, so daß für die Lemmatisierung hier kein Problem auftaucht. Öfters begleiten diese Belege Zusätze, am häufigsten (11 mal) von Tenemarke, davon 6 mal vorangestellt; 3 mal steht, immer voran, die Kurzform von Tene(n), je l mal von Teneriche (nachgestellt) und von Tenelant (vorangestellt). In allen flektierten Formen erscheint die lenisierte J-Form: 11 mal im Akkusativ Höranden (alle ohne Zusatz), 5 mal im Dativ Hörande (2 mal mit Zusatz, wobei der Beleg Horand von Tenemarke (1691,3) in seiner -^-Schreibung zeigt, daß der Schreiber Hans Ried das grammatisch korrekte Endungs-e in seiner Vorlage übersehen haben muß), 2 mal im Genitiv Hörandes (ohne Zusatz).3 Zu ergänzen ist, daß der Name Hörant noch in einigen anderen mittelhochdeutschen Werken vorkommt; so im mittelrheinischen Spielmannsepos ,Salman und Morolf, in dem die sprichwörtliche Sangeskunst Hörants in bedeutsamem Kontext hervorgehoben wird: Wer ich also wise als du Salmon und were als schone als Absolön und sunge als wol als Hörant, [...] (V. 800-802).4 Auch in weiteren Werken (vgl. die Angaben bei WlSNlEWSKl 1963, 14) wird Hörant in dieser seiner besonderen Eigenschaft erwähnt. Aufschlußreich ist die Einbettung der Sängernamen-Variante in einen erweiterten Exempelkatalog, wie er im Pseudo-Frauenlob begegnet: trüg ich die römische kröne wer schön alz Absolone und süng alz wol alz Orant sang in also süßem tone wer ich alz starck alz Samson was, alz Salomone wise, wer mir her Aristotiles kunst alle kunt [...] (V, 209, A 22-26)5 Vor allem ist die betörend-dämonische Sangeskunst im ,Dukus Hörant' das zentrale Motiv der Brautwerbung.6 Der Name Hörant ist also in besonderer Weise bedeutsam geworden, ja es umgibt ihn eine bestimmte „Aura", eine besondere „Strahlkraft" um der poetologischen Begrifflichkeit INGEBORG BACHMANNs zu folgen (vgl. BACHMANN 1978, 238). Bedeutsamkeit und Ausdruckswert als hervorstechende Kennzeichen literarischer Namen werden hier greifbar. 3
Ich verzichte hier aus Platzgründen auf die genaue Auflistung der Belege, die jederzeit als Ausdruck zur Verfügung gestellt werden können. 4 Der Belegnachweis bei WlSNlEWSKl 1963, 14 ist zu berichtigen. 5 Demnächst in der kritischen Ausgabe von JENS HAUSTEIN / KARL STACKMANN. 6 Dukus Hörant 1964. Dazu vgl. z. B. CALIEBE 1973.
124
Friedhelm Debus
Doch wie steht es um die ursprüngliche Bedeutung, die Etymologie des Namens Hörantl Wie ist er zu deuten? Wo kommt er her? Die Forschungslage ist nicht eindeutig, und sie kann hier nicht in extenso dargelegt werden (vgl. dazu besonders, mit weiterführender Literatur, STACKMANN 1965; WiSNlEWSKl 1963; HOFFMANN 1967, 71 ff.; JAHNKE 1994). Zunächst ist das Zeugnis des altenglischen, wohl aus dem 8. Jahrhundert stammenden Gedichts ,Deors Klage' zu nennen, in dem der Dichter darüber klagt, er sei als der vom Fürsten hoch angesehene Sänger durch den liedkundigen Heorrenda vom Hof der Heodeningas vertrieben worden. Im Altnordischen entsprechen diesen Namen Hjarrandi und Hjadningar. Letztere sind die Leute Hedins (bzw. Hetels in der ,Kudrun', das sind hier die Hegelingen; wobei ich die vielerörterte Frage des d-g-Wandels außer acht lasse). Hjarrandi ist nun aber in der skandinavischen Überlieferung des Mittelalters kein Sänger, sondern nach Auskunft Snorri Sturlussons der Vater Hedins. In der älteren Forschung (so vor allem ANDREAS HEUSLER oder BAREND SYMONS) hat man daher den Namen Hörant trotz einiger lautlicher Bedenken direkt mit Heorrenda gleichgesetzt - auch deshalb, weil die Sängerfunktion die gleiche ist. Die neuere Forschung (insbesondere THEODOR FR1NGS und FREDERICK NORMAN) hat den Gedanken FRIEDRICH PANZERS wieder aufgegriffen und bekräftigt, Hetel und Hörant seien ursprünglich ein- und dieselbe Person, Hörant der Beiname Hetels gewesen, später aber seien daraus zwei Personen geworden. Dies ist aus der Perspektive des Kudrunepos durchaus nachvollziehbar; denn es ist ja eigenartig, daß Hörant hier durch seine Sangeskunst die junge Hilde betört und auf sich fixiert, wiewohl er sie für seinen Auftraggeber Hetel gewinnen soll; er weiß sich denn auch nur dadurch zu helfen, daß er behauptet, Hetel könne noch viel besser singen als er. Damit ist freilich die etymologische Frage nicht gelöst, die darin besteht, wie Hörant zu deuten ist und ob bzw. wie dieser Name mit dem altenglischen Heorrenda bzw. dem altnordischen Hjarrandi in Verbindung zu sehen ist. WOLFGANG JUNGANDREAS (1948, 203) führt alle drei Formen auf dieselbe Wurzel zurück: „Aus Horand, altnordisch Hjarrandi, altenglisch Heorrenda, ist ein urgermanisches *Herzando zu folgern, das in der Bedeutung ,Sänger (der Tönende)' mit altnordisch hjarri, altenglisch heorr .Türangel' (= die Kreischende) zu indogermanisch *ker- ,tönen, reden, rühmen' gehört. Herrands Eigenschaft als Sänger ist auch im Altnordischen zu belegen in der ,Hjarranda hljod' genannten Tanzweise und in dem Namen des dichtkundigen Dänenkönigs bei Saxo: Hiarno." GEORGE T. GILLESPIE (1973, 70ff.; 1989, 120f.) stellt Hörant letztlich auch zu derselben Wurzel, indem er vom belegten ahd./mhd. Herirand/ Herrand/ He r rant (vgl. dazu FÖRSTEMANN 1900, 777; KAUFMANN 1968, 176) ausgeht und diese Namen als Partizipialform erklärt von mhd. *herren ,sich schnell bewegen', das zu mhd. hurren gehören soll (zurückgehend auf ahd. hirlich ,plötzlich, lebhaft', altengl. heorr/ altisländ. hjarri ,Scharnier', möglicherweise ,Plektrum' oder ,das, was spielt'); „der Name muß sich unterwegs nach dem Süden an das
Lexikon der Namen in deutschen literarischen Texten des Mittelalters
125
Verb ahd. hören angepaßt haben; in dieser Form [Hörant] ist er erst um 1100 in Tegernsee urkundlich bezeugt [...]." (GlLLESPlE 1989, 121) Die Auffassung, Herirant und Hörant seien verschiedene Formen desselben Namens, hatte im übrigen schon 1836 FRANZ JOSEPH in seinen Untersuchungen zur Geschichte der deutschen Heldensage' vertreten, doch ERNST FÖRSTEMANN wies dies wenig später zurück, ebenso die Verbindung von Herirant mit Hjarrandi / Heorrenda (FÖRSTEMANN 1900, 777). Auch HELLMUT ROSENFELD (1966, 253f.) tut dies, indem er Hjarrandi als ,der mit Kapuze versehene Pelzmantel' deutet und die Ableitung des Namens „Horand von einem hypothetischen *herren ,sich schnell bewegen' durch Franz Rolf Schröder" (ROSENFELD 1966, 231) als abwegig kennzeichnet. ROSENFELD deutet den Namen Herirand, darin FÖRSTEMANN folgend7 und sicherlich zutreffend als Zusammensetzung aus den beiden Komponenten ahd. hari (hen) ,Heer, Krieg' und ahd. rand ,Schild', wofür er die altgermanische Bedeutung ,Schutz im Kriege' annimmt (ROSENFELD 1966, 252f.). Hörant hingegen zählt er zu denjenigen Namen, die der ,Kudrun'-Dichter neu eingeführt habe. Diese Namen habe er aus seiner bairischen Heimat, die im Dreieck Regensburg - München - Passau zu vermuten sei, entlehnt. So sei der Name Ortrün in der Entstehungszeit des Werkes nur in diesem Raum nachgewiesen. Dasselbe gelte ähnlich auch für Hörant, der im 12. Jahrhundert „nur im bairischen Raum" um das Kloster Tegernsee begegne (ROSENFELD 1966, 253; vgl. auch GlLLESPlE 1973, 70f.). ROSENFELD deutet Hörant daher als heimische zweigliedrige Bildung, die ursprünglich Höchrand gelautet habe. Der Dichter habe diesen und weitere Namen bewußt lokalisierend in die ,Kudrun' eingeführt; vielleicht habe er eine Person dieses Namens gekannt, die sogar auch durch ihre Sangeskunst bekannt gewesen sein könnte. Damit sei also der Name der Vorlage, der vermutlich Herirand war, ersetzt worden und durch die ,Kudrun' literarisch bekannt geworden (ROSENFELD 1966, 253). Die (Re-)Konstruktion ROSENFELDS, so ansprechend sie erscheinen mag, ist dennoch abzulehnen. Die sprichwörtliche Sangeskunst Hörants war schon bekannt vor der Entstehung des ,Kudrun'-Epos im 13. Jahrhundert. Der Legendenroman ,Salman und Morolf, dem die zitierte Stelle (s.o.) entnommen ist, entstammt mit hoher Wahrscheinlichkeit dem 12. Jahrhundert, vielleicht der ersten Hälfte desselben und zwar aus dem mittelrheinischen Gebiet außerhalb des bairischen Umfeldes. Wenn darin Hörants Sangeskunst sozusagen wie selbstverständlich neben Salomons Weisheit und Absalons Schönheit als Vorbild genannt wird, so deutet das sicherlich auf eine gewisse Erzähltradition hin. Dies wird gestützt durch das Ergebnis der Forschung, daß ein rheinisches ,Spielmannsepos' des 12. Jahrhunderts als Vorstufe des Hildeteils der ,Kudrun' vorauszusetzen ist, in dem Hörants Gesang eine noch stärkere Betonung gefunden haben dürfte. ROSWITHA WlSMEWSKl betont mit Nachdruck, „daß das spielmännische 7
FÖRSTEMANN 1900, 777, der den Stamm HARJA, zu ahd. hari ,Heer, Volk', zugrundelegt.
126
Friedhelm Debus
Hilde-Epos des 12. Jhs. wie der ,Ducus Horant' die Kaufmannslist [, die in der ,Kudrun' wichtiges Handlungselement ist,] noch nicht kannte, so daß Horants Gesang in seiner fast dämonischen Gewalt um so beherrschender im Mittelpunkt der Werbungshandlung stand" (WiSNlEWSKl 1967, 15). Der ,Kudrun'-Dichter dürfte also den Namen Horant aus der Erzähltradition übernommen haben. Dies alles bedenkend, wäre gegenüber ROSENFELDS Annahme sogar der umgekehrte Weg denkbar, daß nämlich die urkundlichen Belege auf Nachbenennung nach literarischem Vorbild entstanden seien. Es spricht vieles dafür, daß dieser Name trotz der lautlichen Probleme mit Heorrenda in direkte Verbindung gebracht werden muß und eine längere Geschichte hat (STACKMANN 1965, LXVII). Eine skandinavische Zwischenstufe anzusetzen, um die Verbindung zu Hetel - Hilde zu begründen und auch die Beziehung Horant - Hetel zu erklären - dies etwa im nachvollziehbaren Sinne FREDERICK NORMANS (Dukus Horant 1964, 120f.) - ist damit nicht ausgeschlossen. Dazu läßt sich mit KARL STACKMANN (1965, LXXII) feststellen: Die vorhandenen Spuren lassen erkennen, daß ein geradliniger Zusammenhang zwischen der skandinavischen und der deutschen Hildesage nicht vorausgesetzt werden darf. Die tatsächlichen Verhältnisse hat man sich verwickelter zu denken, als daß man sie in dem einfachen Bild eines Stammbaumes darstellen könnte. Weder läßt sich genau angeben, wann die Hildesage in ihrer ältesten Form hervortrat, noch auf welchen Wegen und unter welchen Veränderungen die Sage von Stamm zu Stamm weitergegeben wurde.
IV
Das besprochene Beispiel Horant, das hier nach der weit zurückreichenden Forschungsgeschichte nur eher skizziert werden konnte, vermag einen Einblick in die für das Lexikon notwendige Vorarbeit zu vermitteln. Zu jedem einzelnen Namen ist eine entsprechende Aufarbeitung und kritische Sichtung der Forschungsliteratur unter Einbeziehung der Primärtexte zu leisten. Daß darüber hinaus auch die Einbettung des einzelnen Namens in das Namenensemble des jeweiligen Werkes erforderlich ist, konnte beim Namen Horant nur angedeutet werden; die Stoffgeschichte des jeweiligen Werkes bietet dazu den Rahmen der Betrachtung. Der letzte Arbeitsschritt besteht dann in der nicht einfachen Aufgabe, die wichtigsten Forschungsergebnisse in geraffter Form aufzunehmen in die einzelnen Namenartikel des ,Lexikons der Namen in deutschen literarischen Texten des Mittelalters'.
Lexikon der Namen in deutschen literarischen Texten des Mittelalters
127
Literatur BACHMANN, INGEBORG 1978: Der Umgang mit Namen. In: I. B.: Werke. Hg. von C. KOSCHEL/ I. v. WEIDENBAUM/ C. MÜNSTER. Bd. 4. München, S. 238-254. C ALIEBE, MANFRED 1973: Dukus Horant. Studien zu seiner literarischen Tradition. Berlin (= Philologische Studien und Quellen 70). CURTIUS, ERNST ROBERT 1948: Europäische Literatur und lateinisches Mittelalter. Bern. DEBUS, FRIEDHELM 1966: Aspekte zum Verhältnis Name Wort. Groningen. Wiederabdruck in: Probleme der Namenforschung im deutschsprachigen Raum. Hg. von H. STEGER. Darmstadt 1977 (= Wege der Forschung 383), S. 3-25. DEBUS, FRIEDHELM 1989: Über ein entstehendes Lexikon der literarischen Namen in deutschen Texten des Mittelalters. In: F. DEBUS / H. PÜTZ (Hg.): Namen in deutschen literarischen Texten des Mittelalters. Vorträge Symposion Kiel, 9.-12.9.1987. Neumünster (= Kieler Beiträge zur deutschen Sprachgeschichte 12), S. 271-286. DEBUS, FRIEDHELM 1998: Dichter über Namen und ihr Umgang mit ihnen. In: Onomastica Slavogermanica 23. Hg. von ERNST EICHLER und HANS WALTHER. Leipzig (= Abhandlungen der Sächsischen Akademie der Wissenschaften zu Leipzig. Philologisch-historische Klasse 75, Heft 2), S. 33-59. DEBUS, FRIEDHELM (im Druck): Ein Lexikon der in literarischen Texten des deutschen Mittelalters enthaltenen Namen. In: Person und Name. Ergänzungsband zum Reallexikon der Germanischen Altertumskunde. Dukus Horant 1964: Dukus Horant. Hg. von P. F. GANZ/ F. NORMAN/ W. SCHWARZ. Tübingen (= ATB Ergänzungsreihe, Bd. 2). FLUTRE, LOUIS-FERNAND 1962: Table des noms propres avec toutes leurs variantes figurant dans les romans du Moyen Age ecrits en francais ou en provenfal et actuellement publies ou analyses. Poitiers. FÖRSTEMANN, ERNST 1863: Die deutschen Ortsnamen. Nordhausen. FÖRSTEMANN, ERNST 1900: Altdeutsches Namenbuch I: Personennamen. 2. Aufl. Bonn. GlLLESPIE, GEORGE T. 1973: A Catalogue of Persons named in German Heroic Literature. Oxford. GlLLESPIE, GEORGE T. 1989: Die Namengebung der deutschen Heldendichtung. In: FRIEDHELM DEBUS / HORST PÜTZ (Hg.): Namen in deutschen literarischen Texten des Mittelalters. Vorträge Symposion Kiel, 9.-12.9.1987. Neumünster (= Kieler Beiträge zur deutschen Sprachgeschichte 12), S. 115-145. GÖTZE, ALFRED 1928: Grundsätzliches zur Namenforschung, besonders zu den deutschen Familiennamen. In: Zeitschrift für deutsche Bildung 4, S. 399-417. HAUBRICHS, WOLFGANG 1989: Namendeutung in Hagiographie, Panegyrik - und im .Tristan'. Eine gattungs- und funktionsgeschichtliche Analyse. In: F. DEBUS / H. PÜTZ (Hg.): Namen in literarischen Texten des Mittelalters. Vorträge Symposion Kiel, 9.12.9.1987. Neumünster (= Kieler Beiträge zur deutschen Sprachgeschichte 12), S.205-224. HOFFMANN, WERNER 1967: Kudrun. Ein Beitrag zur Deutung der nachnibelungischen Heldendichtung. Stuttgart. JAHNKE, STEPHAN 1994: Die Namenlandschaft der Kudrun, sprachwissenschaftlich untersucht. Staatsexamensarbeit Kiel.
128
Friedhelm Debus
JUNGANDREAS, WOLFGANG 1948: Die Gudrunsage in den Ober- und Niederlanden. Eine Vorgeschichte des Epos. Göttingen. KAUFMANN, HENNING 1968: Altdeutsche Personennamen. Ergänzungsband. München/ Hildesheim. LAMPING, DIETER 1983: Der Name in der Erzählung. Zur Poetik des Personennamens. Bonn (= Wuppertaler Schriftenreihe Literatur 21). LANGLOIS, ERNEST 1904: Table des noms propres de toute natur compris dans les chansons de geste imprimees. Paris. LENZ, SIEGFRIED 1985: Etwas über Namen. Rede. In: S. L.: Werk und Wirkung. Hg. von R. WOLFF. Bonn (= Sammlung Profile 15). Namenforschung 1995: Namenforschung. Ein internationales Handbuch der Onomastik. Hg. von E. EICHLER u.a. Teilbd.l. Berlin/ New York (= HSK 11.1). PÜTZ, HORST 1989: Rechnergestützte Bearbeitung großer Datenmengen am Beispiel des entstehenden Lexikons. In: F. DEBUS / H. PÜTZ (Hg.): Namen in deutschen literarischen Texten des Mittelalters. Vorträge Symposion Kiel, 9.-12.9.1987. Neumünster (= Kieler Beiträge zur deutschen Sprachgeschichte 12), S. 287-299. ROSENFELD, HELLMUT 1966: Die Namen der Heldendichtung, insbesondere Nibelung, Hagen, Wate, Hetel, Horand, Gudrun. In: Beiträge zur Namenforschung NF I, S. 231-265. ROSUMEK, SILKE 1989: Techniken der Namensnennung in Wolframs von Eschenbach ,Parzival'. In: F. DEBUS / H. PÜTZ (Hg.): Namen in deutschen literarischen Texten des Mittelalters. Vorträge Symposion Kiel, 9.-12.9.1987. Neumünster (= Kieler Beiträge zur deutschen Sprachgeschichte 12), S. 189-203. SOCIN, ADOLF 1903: Mittelhochdeutsches Namenbuch. Nach oberrheinischen Quellen des zwölften und dreizehnten Jahrhunderts. Basel 1903 (Nachdruck Hildesheim 1966). SONDEREGGER, STEFAN 1987: Die Bedeutsamkeit der Namen. In: LiLi 17 , H. 67, S. 11-23. STACKMANN, KARL 1965: Einleitung zur ,Kudrun'. Hg. von KARL BARTSCH. 5. Aufl. von KARL STACKMANN. Wiesbaden (= Deutsche Klassiker des Mittelalters). TROST, PAVEL 1986: Die Grundlage der literarischen Onomastik. In: Namenkundliche Informationen 50, S. 22-23. WlSNIEWSKl, ROSWITHA 1963: Kudrun. Stuttgart (= Sammlung Metzler 32).
Ingrid Lemberg (Heidelberg)
Die Belegbearbeitung in der lexikographischen Datenbank des Deutschen Rechtswörterbuchs
Die Wörterbuchartikel für das »Deutsche Rechtswörterbuch' (DRW) werden auf einer Basis von rund 8.000 Quellen erstellt. Die Quellentexte liegen zum weitaus größten Teil in Buchform vor, zu einem sehr kleinen, aber hoffentlich immer größer werdenden Teil auch in Form von maschinenlesbaren Texten sowie in Form von elektronischen Faksimiles, d.h. in Bilddateien. Die Wörterbuchartikel werden in der lexikographischen Datenbank des DRW erfaßt, redaktionell überarbeitet und verwaltet. Auf diese Art und Weise entsteht mit der voranschreitenden Produktion des Wörterbuchs auch ein elektronisches Belegarchiv, das, ebenso wie das Zettelarchiv, Benutzern und Benutzerinnen zur Verfügung steht. Im Augenblick kann man die Datenbank nur in Heidelberg selbst benutzen, aber die Überlegungen und Vorbereitungen, die Recherchemöglichkeiten auch online anzubieten, sind im Gang (Vgl. dazu LEMBERG / PETZOLD / SPEER 1997). Zur Zeit (Stand: August 1997) ist das DRW mit einer Homepage im Internet präsent, die die Konzeption des Wörterbuchs vorstellt, einen Einblick in seine Geschichte gibt und eine erste Version von Probeartikeln bereithält. Die Adresse lautet: http://www.uni-heidelberg.de/institute/sonst/adw/drw/index.html
1. Konzeption und Rahmenbedingungen Das DRW1 beschreibt den Wortschatz des westgermanisch-deutschen Rechts von den Anfängen seiner schriftlichen Überlieferung im 5./6. Jahrhundert bis in das beginnende 19. Jahrhundert hinein, und zwar des Rechts im weitesten Sinne: nicht nur Fachtermini wie Mord, Notar, Obrigkeit oder Pacht sind Beschreibungsgegenstand des Wörterbuchs, sondern auch alle Wörter, die rechtsbezügliche Fakten, Handlungen oder Gegenstände repräsentieren, also Substantive wie Apfel, Muttersprache oder Ohr, Verben wie machen oder nehmen und Adjektive wie links, nackt oder ohnmächtig. Damit ist das Wörterbuch ein Nachschlagewerk für rechts- und sprachhistorische Verständnisfragen - und es ist darüber hinaus auch eine „Fundgrube kulturgeschichtlichen Wissens"2. ' Zur Konzeption des DRW vgl. DiCKEL/ SPEER 1979; LEMBERG 1997; REICHMANN 1977; SPEER 1989 u. 1991; zur Geschichte des DRW: LEMBERG 1996; LEMBERG / SPEER 1997. 2 So eine Rezension zum DRW in der internationalen Ausgabe der Neuen Züricher Zeitung vom 1./2. März 1997.
130
Ingrid Lemberg
Die sprachlichen Grundlagen sind schriftliche Quellen zum Frankolateinischen, Langobardischen, Altenglischen, Altfriesischen, Mittelniederländischen und vor allem zu allen Varietäten des Hoch- und Niederdeutschen. Die Struktur der Wörterbuchartikel (Vgl. LEMBERG 1997) ist bestimmt durch einen Artikelkopf, der neben der Lemmaangabe und der Angabe der Wortart gegebenenfalls auch Angaben zur Etymologie, sprachgeographische Angaben sowie Sachhinweise enthält, durch die Gliederung des BedeutungsSpektrums und den Bedeutungserläuterungen, die den sprachlichen und sachlichen Informationsanliegen der Benutzer Rechnung tragen, durch ein explizites und implizites Verweissystem, das eine Vernetzung auf der Ebene der Wortbildung, Onomasiologie und enzyklopädischen Angaben herstellt, sowie einer möglichst reichen Belegdarbietung, in der die diachronische, die diatopische, die diastratische und die situative Differenziertheit der Belege abgebildet wird, und in der den rahmenkennzeichnenden Belegen3 ein besonderes Gewicht zufällt. 76.476 Wörterbuchartikel von Aachenfahrt bis opferbar sind bisher in neun kompletten Bänden sowie dem ersten Doppelheft des zehnten Bandes4 gedruckt. 2. Die Computerisierung des Deutschen Rechtswörterbuchs Die Computerisierung des DRW5 erfolgte ab der Mitte der achtziger Jahre bei laufender Artikelproduktion, zunächst mit der Anschaffung von Terminals und der Verbindung zum Universitätsrechenzentrum. Darauf folgte eine Phase der Texterstellung mit dem stand-alone-Betrieb von PC's. Seit 1991 schließlich wird das Wörterbuch in einer lexikographischen Datenbank erstellt. Die Programmbasis unserer lexikographischen Datenbank ist ein kommerzielles Dokumentationsprogramm namens FAUST6, das sich durch nicht standardisierte, extrem flexible Erfassungsmasken, Volltextretrieval- und Indexierungsfunktionen sowie zahlreiche Verknüpfungsmöglichkeiten auszeichnet. Die lexikographische Datenbank des DRW ist in verschiedene Arbeitsbereiche aufgeteilt - in der Softwaresprache werden diese Bereiche Dokumentationen genannt.
3
Dazu ausführlich mit Beispielen SPEER 1991. Als Erscheinungstermin ist der Oktober 1997 vorgesehen. Das Wörterbuch ist auf 16 Bände konzipiert, es soll im Jahr 2032 abgeschlossen werden. 5 Alle Schritte der Computerisierung wurden von dem Leiter der Forschungsstelle, Dr. Heino Speer, selbst erarbeitet und durchgeführt. Die einzelnen Schritte der Computerisierung sind von ihm in einer Dokumentation dargestellt (SPEER 1994). 6 Ein Produkt der Firma Doris-Land-Software-Entwicklung (http://www.land-soflware.de). 4
Die Belegbearbeitung in der lexikographischen Datenbank des DRW
Dokumentation
bearbeiten
Definition
Drucken
I/IÄ.
Makros
Dienste
131
Hilfe
SIHJ
offene Dokumentationen TEXTARCHIV DRWARTIKEL (kwtitel Faksimiles Adressen
8405 Objekte 13788 Objekte 21017 Objekte 2015 Objekte 306 Objekte
!
Manuskript
:
·:..^·:·^:.^·-~.,.· '
I2S432
Abb. 1: Dokumentationsauswahl in der lexikographischen Datenbank des DRW
Abbildung l zeigt das Arbeitsfenster von FAUST mit der Auswahlmöglichkeit derjenigen Datenbankdokumentationen, die, mit Ausnahme der Dokumentation Adressen, für die Wörterbucharbeit relevant sind: 1. in der Dokumentation Manuskript werden die Wörterbuchartikel erfaßt und bearbeitet, 2. in der Dokumentation Textarchiv sind die maschinenlesbaren Quellentexte untergebracht, 3. die Dokumentation drwartikel dient der Zwischenablage der konventionell gedruckten, maschinenlesbar gemachten Wörterbuchstrecken, die für den Datenbankimport überarbeitet werden müssen, 4. in der drwrite/-Dokumentation werden das Quellencorpus und die Sekundärliteratur nach bibliothekarischen und lexikographischen Gesichtspunkten verwaltet, 5. die von uns faksimilierten, d.h. als Bilddateien abgelegten Quellentexte werden in der Dokumentation Faksimiles verwaltet. Zwischen den einzelnen Dokumentationen sind vielfältige Verknüpfungen7 möglich. Die Erfassung der Wörterbuchartikel erfolgt in der Dokumentation Manu7
Vgl. dazu die Abbildungen bei KAMMERER 1995, 103/4.
132
Ingrid Lemberg
skript, innerhalb derer es für die verschiedenen makro- und mikrostrukturellen Einheiten des Wörterbuchs verschiedene Objektarten, darunter die Objektart Beleg gibt. Für die Bearbeitung der Wörterbuchartikel sind die Objektarten Artikel (für die Erfassung des Artikelkopfes und der Erläuterungsteile) und Beleg wesentlich.
Dokumentation Objekt Nr. 130284 l zurück >Gliederungsi Objekt uegl.
Hilfe
flrtikel Beleg Uerweisbeleg Wortbelegung Konpositengerweise Lautverweise - »inner aus Beleg erfassen? Lenma2 - tinner aus ftrtikel erfassen! Lemma3 - finner aus flrtikel erfassen! Samroeluerweis Korrektur - Ümner aus firtikel/Beleg erfassen! Manuskriptübersicht Handbuch
Belegreferenz: Uerweisobjekt noch erfassen:
Abb. 2: Auswahlmenü der Objektarten in der Dokumentation Manuskript
In einer Objektart werden verschiedene Datenfelder so gebündelt, daß sie alle für einen bestimmten Zweck, z.B. die Erfassung eines Belegs, erforderlichen Informationen aufnehmen kann. Für jede Objektart wird eine eigene Erfassungsmaske8 definiert. Die Verwaltung der einzelnen Objekte in der Datenbank erfolgt numerisch, das heißt, jedem Objekt wird eine Objektnummer zugeordnet. Für den Druck der Wörterbuchartikel werden die entsprechenden Daten aus der Datenbank exportiert, das Layout und die typographische Gestaltung werden mit Druckmakros gesteuert, die vom Anwender selbst zu gestalten sind. 8
Diese Erfassungsmasken sind nicht starr festgelegt, sondern können während der laufenden Arbeit jederzeit geändert werden. Man ist also im Unterschied zu einem konventionellen Datenbanksystem nicht gezwungen, die Erfassungsfelder im vorhinein und ein für alle mal festzulegen. Und wir haben auch viele Erfassungsmasken im Lauf der praktischen Arbeit mit dem Programm noch optimiert und die Felder auch reduziert.
133
Die Belegbearbeitung in der lexikographischen Datenbank des DRW
3. Die Belegerfassung Die folgende Abbildung 3 zeigt die Erfassungsmaske für die Belegeingabe (also für die Objektart Beleg in der Dokumentation Manuskript). erfaßt wird Objekt Nr. 130286
sichern
bearbeiten
Referenzen
Inhalt sonst
Zusätze
Hilfe
41 > zu Gliederungsebene: —> | Referenz auf Artikel: Beleg weglassen? Nur Fundstelle? uerwendet bei: Belegtext: Sigle:
Datierung: Sortierdatierung: Fundstelle: Region/Textsorte: Faksimile: Textarchiu: Weitere Angaben: andere Quelle: Kommentarfeld: Syntagma: Belegklassifik.:
Uerwandter Beleg: -Uerwandter Beleg: Beleg gedruckt: Lautuerweis-Obj.:
gleiche Dat.? gleiche Reg.? anderer Band: Korrekturobjekt: erfasst durch: il Erfassung: 20.08.1997 verändert: letzte Änderung: Abweichung Druck:
gleiche Qu.?
Abb. 3: Erfassungsmaske für die Belegeingabe
gleiche S.?
134
Ingrid Lemberg
Kommentierung der Erfassungsmaske —> Dieser Pfeil dient der Kennzeichnung einer sogenannten Referenz, also der Verknüpfung von Informationseinheiten innerhalb der einzelnen Objekte oder Dokumentationen. zu Gliederungsebene·. Hier erfolgt die Zuordnung des Belegs zum entsprechenden Erläuterungsteil des Wörterbuchartikels. Ausführlicher dazu in Kap. 3.1. Referenz auf Artikel: Dieses Feld dient der Zuordnung des Belegs zum entsprechenden Erläuterungsteil beim Export aus der Datenbank (für einen Ausdruck des Artikels). - Die Einträge in diesem Feld werden indexiert, in diesem Index sind alle Belege zu einem Wort, bei polysemen Wörtern: zum entsprechenden Gliederungspunkt eines Wortes recherchierbar. Beleg weglassen ? Wird dieses Feld ausgefüllt, dann wird der Beleg nicht ausgedruckt. Nur Fundstelle? Füllt man dieses Feld aus, erscheint der Beleg im Ausdruck als Fundstellenangabe ohne Wiedergabe des Belegzitats. verwendet bei: Kennzeichnet die Mehrfachverwendung von Belegen (Verweisbelege). Belegtext: Eingabe des Belegzitats; ausführlicher dazu in Kap. 3.2. Sigle: Eintrag der Quellenabkürzung; ausführlicher dazu in Kap. 3.3. - Die Einträge werden indexiert; im Index ,Zitierte Quellen' ist eine Recherche nach allen zitierten Belegen aus einer bestimmten Quelle möglich. Datierung: Eintrag der Datierung des Belegs. Sortierdatierung: Die Wiedergabe der Belege in den Wörterbuchartikeln erfolgt in chronologischer Reihenfolge. Der Eintrag in diesem Feld steuert die chronologische Sortierung der Belege durch das Programm. - Die Einträge werden indexiert; im Index »Sortierdatierung' kann man Belegrecherchen unter chronologischen Aspekten durchführen. Fundstelle: Eintrag der Fundstelle des Belegs Region / Textsorte: Angabe der regionalen Zuordnung eines Belegs z.B. bei Weistumssammlungen9 bzw. Textsortenspezifizierung bei Zitaten aus Wörterbüchern oder kleineren Sammlungen mit unterschiedlichen Texten10. - Der auf diesen Einträgen basierende Index ,Region/ Textsorte' ist für entsprechende Recherchen also nur bedingt und in Kombination mit Recherchen zur Quellensigle verwendbar. Faksimile: —> Referenzierung zur entsprechenden Seite in der Faksimiledokumentation; ausführlicher in Kap. 4.3. 9
Die Zitierweise im Wörterbuchartikel sieht wie folgt aus: Eifel/ GrW. II (= Edition der Grimmschen Weistumssammlung), Preußen / Sehling,EvKO. (Sammlung evangelischer Kirchenordnungen). 10 Vgl. zum Beispiel die Quellensiglen Ahd.Benediktinerregel/ AltTBibl. 50 oder Beda/ BiblAgsProsa.
Die Belegbearbeitung in der lexikographischen Datenbank des DRW
135
Textarchiv: —> Referenzierung zur entsprechenden Seite in der Dokumentation der maschinenlesbaren Texte; vgl. dazu Kap. 4.2. Weitere Angaben: Eintragung von zusätzlichen Angaben unterschiedlicher Art, die in den Ausdruck des Wörterbuchartikels mit übernommen werden. andere Quelle: In seltenen Fällen werden in den Wörterbuchartikeln Belege aus Texten zitiert, die nicht zum Quellenkorpus des DRW zählen. In diesem Fall wird statt der Quellensigle der Titel des Texten in diesem Feld eingetragen. Kommentarfeld: Dieses Feld dient dem Eintrag aller möglichen, für die Wörterbucharbeit relevanten Kommentare zum Beleg, die z.B. bei der redaktionellen Überarbeitung eine Entscheidungshilfe für das Kürzen der Wörterbuchartikel sein können. Dieses Feld wird nicht ausgedruckt. Syntagma: Eintragung der syntaktischen Verbindung des Belegwortes Belegklassifik.: Eintrag der Textsorte, wobei wir nicht über ein eigenes Textsortensystem verfügen, sondern die in den Quellen selbst verwendeten Klassifikationen verwenden. - Die Einträge in diesem Feld werden indexiert. Verwandter Beleg —> Von diesem Feld aus werden Referenzen zu Belegen mit einer inhaltlichen Gemeinsamkeit hergestellt, die sich nicht auf der Ebene der lexikalischen Vernetzung in den Erläuterungsteilen darstellen läßt, also z.B. derselbe Wortlaut einer normativen Aussage in unterschiedlichen Texten in einem Wörterbuchartikel oder derselbe oder ähnliche Wortlaut eines normativen Textes in verschiedenen Wörterbuchartikeln. Damit lassen sich also in der lexikographischen Datenbank z.B. Rechtstraditionen darstellen, die Felder sind recherchierbar. - Verwandter Beleg —> Eintrag der Gegenreferenz, die automatisch gesetzt wird. Beleg gedruckt -» Entfällt künftig. Lautverweis-Obj.: —> Das mehrsprachige Corpus des DRW erfordert sog. Lautverweise, das sind Verweise von einer besonders ausgefallenen Belegwortgraphie auf das entsprechende Lemma (z.B. von ofentüre auf Abenteuer oder von oxan auf Ochse}. Die Lautverweise sind über dieses Referenzfeld mit dem zugehörigen Beleg verbunden. gleiche Dat. ? bis anderer Band: Diese Feldergruppe wird ausgefüllt, wenn mehrere Belege aus einer Quelle zitiert werden. Die Eintragungen in diesen Feldern steuern die Umsetzung der Fundstellenangabe ebd. im Ausdruck des Wörterbuchartikel s. Korrekturobjekt: Dieses Feld ist in Vorbereitung. Korrekturvorschläge sollen über dieses Feld mit dem entsprechenden Beleg verbunden werden. erfasst durch: Die Eintragung des Namenskürzels des Bearbeiters oder der Bearbeiterin erfolgt automatisch beim Anlegen des Belegobjektes. Das Feld ist recherchierbar und dient in Kombination mit dem folgenden Feld statistischen Erhebungen innerhalb der Forschungsstelle. Erfassung: Eintragung des Erfassungsdatums, erfolgt ebenfalls automatisch. verändert: Derjenige Bearbeiter bzw. diejenige Bearbeiterin, die ein Belegobjekt
136
Ingrid Lemberg
anstelle der ursprünglichen Person verändert, soll hier das Namenskürzel eintragen. letzte Änderung: Wird das Objekt zur Korrektur aufgerufen, erfolgt hier automatisch der Eintrag des aktuellen Datums. Abweichung Druck: Dieses Feld wird ausgefüllt, wenn nach der Publikation des Wörterbuchartikels am Beleg nochmals Veränderungen vorgenommen werden. 3.1. Referenz zur Gliederung Die folgende Abbildung 4 zeigt in der linken Bildhälfte wiederum die Erfassungsmaske für Belege, in der rechten Bildhälfte ist die Indexliste Gliederung eingeblendet. Sie enthält die Wörterbuchartikel in alphabetischer Reihenfolge, sowie bei polysemen Wörtern die einzelnen Gliederungspunkte der Wörterbuchartikel.
Dokumentation sichern
bearbeiten
bearbeiten
Definition
ßeferenzen
Drucken
zurück
Makros Dienste
bearbeiten
Hilfe
Hilfe
> zu Gliederungsebene: —> >Pachthäuschen Referenz auf flrtikel: Pachthafer Beleg weglassen? Nur Fundst pachthaftig Pachthalbschäfer verwendet bei: Pachthannel Belegtext: PachthandelPachthandlung Pachthandlungprotokoll Sigle PachthausDatierung pachthechtSortierdatierung Pachtherr Fundstelle pachtherrlichRegion/Textsorte PachtherrschaftFaksimile Pachtheuer Textarchiu Pachthof Weitere Angaben PachthofleutePachthofrecht andere Quelle Pachthopfen PachthütteKommentarfeld Pachthufe
Abb. 4: Belegerfassungsmaske mit eingeblendeter Artikelgliederungsliste
In den ersten beiden Feldern der Belegerfassungsmaske erfolgt die Zuordnung eines Beleges zu einer Bedeutung. Vom ersten Feld mit der Bezeichnung zu
137
Die Belegbearbeitung in der lexikographischen Datenbank des DRW
Gliederungsebene:, einem Referenzfeld, kann man sich die Gliederungsliste der Wörterbuchartikel einblenden, man kann in dieser Liste blättern oder gezielt darin suchen, und mit einer Funktionstaste kann man sich die Bedeutungsangaben ansehen. Mit einer weiteren Funktionstaste kann man das Belegobjekt einer Bedeutung zuordnen - in der Datenbanksprache heißt dies: eine Referenz herstellen. Diese Referenzen werden bei der Bearbeitung der Wörterbuchartikel automatisch berücksichtigt: das heißt, stellt man die Gliederung eines polysemen Wortes um, ändert sich die Belegzuordnung automatisch. Das zweite Feld Referenz auf Artikel dient der Sortierung und Zuordnung der Belege für den Ausdruck der Wörterbuchartikel. 3.2. Das Feld Belegtext Abbildung 5 zeigt den Ausschnitt einer ausgefüllten Belegerfassungsmaske. Dokumentation
bearbeiten
Definition
Drucken
1/1
bearbeiten
Makros
Dienste
Hilfe
Objekt 44717
Referenzen Ansicht Zusätze
Hilfe
.El » z u Gliederungsebene: —> Notar Referenz auf Artikel:.Notar Beleg weglassen? Nur Fundstelle? verwendet bei: Belegtext: so eyner nit vor den richtet-, sonder vor ftnotarienj und zeugen appellirt ... nett Belegtext: so eyner nit uor dem richter, sonder vor ttnotarienj und zeugen appellirt und sein appellation dem richter insinuirt nett, so soll ine obgemelterroassen zu zeyt der insinuirung solcher appellation durch den richter uon eynera biß in sechs monat zeyt angesetzt werden Sigle: Datierung: Sortierdatierung: Fundstelle: l -Manuskript
:
RKGO.(Laufs) 1555 1555,82 II 30 § 3
123492
:Einig
Abb. 5: Belegerfassungsmaske (Ausschnitt)
Das Feld Belegtext ist ein frei beschreibbares Feld, in das das Belegzitat eingegeben wird. Für dieses Feld besteht die Möglichkeit der Verdoppelung, die wir für die redaktionelle Bearbeitung der Belegzitate nutzen, die hauptsächlich in der
138
Ingrid Lemberg
Kürzung des Zitattextes besteht. Die ursprünglich eingegebene Langversion des Belegzitates bleibt in der Datenbank erhalten, im Ausdruck erscheint hingegen nur noch die gekürzte Version. Dieses Feld ist ein sogenanntes Invertierungsfeld, d.h., daß die einzelnen Zeichenketten in diesem Feld beim Abspeichern des Objektes einer alpha-numerisch sortierten Liste hinzugefügt werden und für Indexrecherchen sofort zur Verfügung stehen. Auf diese Art und Weise wird in der lexikographischen Datenbank eine Belegwortliste geführt, die ständig auf aktuellem Eingabestand ist. Diese Invertierungsfunktion ermöglicht auch eine Schnellrecherche nach Belegwörtern, die für die lexikographische Arbeit von großem Nutzen ist: setzt man den Cursor auf ein Wort im Text und macht einen doppelten Mausklick, so erhält man sofort den Zugriff auf sämtliche Belegobjekte, in denen das angeklickte Wort in der identischen Schreibweise enthalten ist. Dies ist die einfachste Technik zur Behebung von Datenerhebungslücken, es ist aber auch eine Möglichkeit, die eigene Verstehenskompetenz rasch zu erweitern: indem man die anderen Texte liest, lernt man auf die rascheste Art und Weise den Gebrauch eines Wortes in den unterschiedlichen Belegtexten besser kennen und erhält natürlich auch ein differenziertes Sachwissen, was bei einem fachsprachlichen Wörterbuch nicht unwesentlich ist. 3.3. Die Quellensigle Abbildung 6 zeigt auf der linken Seite wiederum eine ausgefüllte Belegerfassungsmaske (in der Dokumentation Manuskript), auf der rechten Seite ist das Objekt mit der Titelaufnahme der im Beleg zitierten Quelle mit der Sigle TeutschForm. aus der Dokumentation drwtitel eingeblendet. Das Feld Sigle für den Eintrag des Quellennachweises ist ein Referenzfeld. Die Quellenabkürzungen werden also nicht von Hand eingegeben, sondern aus der Titeldokumentation heraus in dieses Feld einkopiert. Dabei kann die gesuchte Sigle in ein Suchfeld mit der Mindestzahl von Zeichen hineingeschrieben werden, die eine eindeutige Identifikation ermöglicht. Als Ergebnis wird der entsprechende Eintrag gezeigt und kann mit einem Tastendruck in das Belegobjekt übernommen werden. Fortan steht das entsprechende Titelobjekt an dieser Stelle in der Belegerfassungsmaske über die Referenztechnik mit allen enthaltenen Informationen zur Verfügung. Und dies sind neben den bibliographischen Angaben zur Quelle auch Angaben zur Datierung der Quelle, zur Zitierweise, zum Standort, aber auch zu verwandten Texten oder zur zugehörigen Sekundärliteratur.
139
Die Belegbearbeitung in der lexikographischen Datenbank des DRW
•B
Dokumentation
Definition zurück
sichern
Referenzen
bearbeiten
Drucken
Makros
Dienste
Hilfe
Hilfe
Referenzen
Ir bearbeiten
+ 1/1 Objekt 16999 Referenzen Ansicht Hilfe
zu Gliederungsebene: —> Notar •>juellensigle: TeutschForm. Exzerpiert : Referenz auf Artikel: Notar GUItig: Ja Beleg weglassen? Nur Fundstel B. Zitiersigle: > B. U nie s en auf i—> uerwendet bei: B; gesarat 0^: 1571 Belegtext: ein ttnotarius) mag werden, der Zitierweise: 9^/ / ( » * a = r , b=u) mansperson, dann kein fraw soll Infos uorh.? gu*oter wernunfft, nicht uahnsi Signatur: FAKSIMILE Bestellung: Status: > Sigle: TeutschForm. Klassifikation: Datierung: 1571 Autorin: Sortierdatierung: 1571,83 Fundstelle: 167-/ / Titel: Region/Textsorte: Faksimile: —> TeutschFo Teutsch Formular unnd Rhetoric / in a] Zusatz: Textarchiu: —> Kunst und Regel der Notarien unnd Sehr Weitere Angaben: Cantzley Buechlin !*| i Manuskript
i 1 28492
[
[
l
iEinfg
i
Abb. 6: Belegerfassungsmaske mit Referenz zur Titeldokumentation (Ausschnitt)
4. Die Quellengrundlagen Die Grundlage für die Erarbeitung der Wörterbuchartikel ist das Belegarchiv mit seinen mehr als 2,2 Mio. Belegzetteln. Die Exzerption erfolgte hauptsächlich in den Anfangsjahrzehnten des DRW (Vgl. dazu LEMBERG 1996a), also Ende des 19. und Anfang des 20. Jhs. Sie war zum größten Teil von freiwilligen Helferinnen und Helfern durchgeführt worden. Das Ergebnis ist ein extrem inhomogenes Zettelarchiv, wie die folgende Abbildung 7 von zwei beliebig ausgewählten Beispielen zeigt.
140
Ingrid Lemberg
l
V
RechtVerfMariaTher.
Abb. 7: Belegzettel aus dem DRW-Archiv
Wie das Beispiel zeigt, kann die Belegaufnahme in die Datenbank also nicht etwa anhand der Exzerptzettel erfolgen, sondern muß jeweils anhand der Quellentexte vorgenommen werden. Das Zettelarchiv dient dabei als Fundstellenverzeichnis.
Die Belegbearbeitung in der lexikographischen Datenbank des DRW
141
4.1. Bücher In der Regel müssen die Bearbeiterinnen und Bearbeiter des DRW für die Eingabe der Belegzitate die entsprechende Quelle zur Hand nehmen und das Belegzitat von Hand eingeben. Dies ist aufwendig, denn es bedeutet, daß man pro Beleg von seinem Arbeitsplatz aufsteht, an die Regale geht, die über sieben Räume verteilt sind, das Buch mit an seinen Arbeitsplatz nimmt und nach der Benutzung möglichst rasch wieder an den Standort zurückbringt. Der Aufwand erhöht sich natürlich noch um einiges, wenn das Buch bestellt werden muß. Hinzu kommt, daß sich diese Vorgänge bei der redaktionellen Überarbeitung in vielen Fällen noch einmal wiederholen. 4.2. Maschinenlesbare Texte Daher sind wir außerordentlich daran interessiert, so viele maschinenlesbare Texte wie möglich in die Datenbank zu importieren. Ist dieser Import erst einmal erfolgt, können wir in den einzelnen Texten verschiedene Recherchen vornehmen, wir können beliebige Textausschnitte markieren und in das Belegobjekt einkopieren. Die Vorteile dieses Verfahrens liegen auf der Hand. Leider sind wir nicht selbst in der Lage, unser Corpus mit seinen rund 8.000 Quellen maschinenlesbar zu machen. Dankenswerterweise haben uns schon einige Institutionen, Herausgeber und Verlage die maschinenlesbaren Fassungen von Texten zur Verfügung gestellt", und wir nehmen natürlich jedes diesbezügliche Angebot, sei es entgeltlich oder unentgeltlich, dankbar an. Die maschinenlesbaren Texte sind in einer eigenen Dokumentation untergebracht. Neben Volltext-, String- und numerischen Recherchen sind u.a. Abfragen in Indices zu den Wortbelegungsformen, Seiten und Stichwörtern möglich. In Abbildung 8 sieht man auf der linken Seite die Indexierung der Quellen mit den zugehörigen Seitenzahlen, auf der rechten Seite den eingeblendeten Volltext der links im Index mit dem Balken markierten Quellenseite'2. Bei der Belegaufnahme aus einem maschinenlesbaren Quellentext geht man über das entsprechende Referenzfeld in der Erfassungsmaske in die Dokumentation für maschinenlesbare Texte, sucht den erforderlichen Text über den entsprechenden Index, geht über die entsprechende Seite in den Text hinein, wählt den Zitatausschnitt, kopiert ihn in eine Zwischenablage, geht zurück in das Belegobjekt und holt den Text aus der Zwischenablage in das Belegfeld - insgesamt ein sekundenschneller Vorgang. Über die Referenzierung im Belegerfassungsfeld steht der Volltext fortan für weitere Belegbearbeitungsschritte immer zur Verfügung. 1
' Das Verzeichnis der maschinenlesbaren Texte ist in der Homepage des DRW aufgelistet. Die maschinenlesbare Fassung der Deutschordensstatuten im vorliegenden Beispiel wurde uns dankenswerterweise von der Trierer Forschungsstelle zum Neuen Mittelhochdeutschen Wörterbuch unter der Leitung von Kurt Gärtner zur Verfügung gestellt.
12
142
Ingrid Lemberg
Dokumentation
bearbeiten
zurück bearbeiten Liste Hilfe >DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. DOrdStat. iTEXTARCHIV
Definition
bearbeiten
Drucken
Makros
Dienste
Hilfe
+ 1/1 Objekt 5836 Referenzen Ansicht Zusätze
Quelle/Seite: DOrdStat. 022 »Uorige Seite: —> | Datierung: 1264 Schlagwörter:
Hilfe
aus der Liste streichen
v**»»*«********«»*****«* Urkundentexte: Der Prologus. Diz ist, wie sich erhaben hat der orden Duschen huses. 1. In dem nanen der heiligen driualdichl künden wir allen den, die nu sint unde noch konen sulel sich erhaben hat unde won weroe unde wenne unde wie der! des hospitales sente Marien des Duschen huses von Jherj Do iz uon der gehurt unsers herren tusent unde hundert] nunzich iar waren in den ciden, do flkers was besezzen cristenen unde mit der Gotes helfe wider gewinnen wart! banden der ungeloubegen, zu denselben ciden was in dem! ein teil guter lute won Breme unde uon Löbeke, die uon| nildicheit unsers herren sich erbarmeten über den manichualdigen gebrechen, den die siechen hatten in del!
j 8405
[Einig
Abb. 8: Rechercheauswahl und Textseite eines maschinenlesbaren Textes in der Datenbank
4.3. Elektronische Faksimiles Das FAUST-Programm verfügt über ein Bildarchiv. Dieses Bildarchiv haben wir in unsere lexikographische Datenbank integriert und nutzen es, um von bestimmten Quellen elektronische Faksimiles anzulegen, so daß die entsprechenden Buchseiten als Graphikdateien in der Datenbank abgelegt und unter der jeweiligen Quellensigle verwaltet werden. Damit ist bei der Belegerfassung der sofortige Zugriff auf diese Gruppe von Quellentexten möglich. In diesem Fall müssen die Belege allerdings von Hand aus der Faksimile-Datei abgeschrieben werden. Wir haben in der Belegmaske ein Referenzfeld zur Faksimiledokumentation eingerichtet, so daß man nach der Belegerstellung jederzeit auf raschem Weg sich die entsprechende Faksimileseite auf den Bildschirm holen - und bei entsprechendem Bedarf - auch ausdrucken kann. Abbildung 9a zeigt die Belegerfassungsmaske eines Beleges, der als elektronisches Faksimile im Bildarchiv vorliegt. Die Referenzierung zur entsprechenden Grafikdatei erfolgt in dem Feld Faksimile: mit dem entsprechenden Referenzierungspfeil ->.
143
Die Belegbearbeitung in der lexikographischen Datenbank des DRW
Dokumentation
bearbeiten
bearbeiten
Definition
Referenzen
Drucken
1/1 Ansicht
Makros
Dienste
Hilfe
Objekt 45027 Zusätze Hilfe
§zu Gliederungsebene: —> Notar Referenz auf flrtikel: Notar Beleg weglassen? Nur Fundstelle? uerwendet bei: Belegtext: ein ttnotarius) nag werden, der nienandts leibeygen ein nansperson, dann kein fraw soll darzu*o genommen werden, gu»oter uernunfft, nicht wahnsinnig Sigle: Datierung: Sortierdatierung: Fundstelle: Region/Textsorte: Faksimile: TextarchiM: Weitere Angaben:
| Manuskript
128494
TeutschForm. 1571 1571,63 167-/W/ —> TeutschForn. 167-/U/ - 168-Xr/ —>
| Einig
Abb. 9a: Belegobjekt mit Referenz zur Faksimileseite
Über das Referenzfeld kommt man mit der entsprechenden Funktionstaste auf die zugehörige Scan-Seite, deren Vollbild die folgende Abbildung 9b zeigt. Der lexikographische Nutzen dieses Zugriffs auf den Originaltext liegt auf der Hand: Binnenauslassungen des Belegzitats sind irrelevant, und da man in diesen Grafikdateien seitenweise blättern kann, spielt der Belegschnitt für ein umfassenderes begriffliches Verständnis des Benutzers keine Rolle mehr. Damit wird das elektronische Belegarchiv zu einem Arbeitsmittel für jede begriffsgeschichtliche Fragestellung, die auf den Volltext als Untersuchungsgrundlage angewiesen ist (Vgl. dazu LEMBERG/ PETZOLD/ SPEER 1997, Kap. 8.1).
144
Ingrid Lemberg
cfer / Oaf) er irewlic^ mercfm »nnb «&feljrrfben fofl aQee barumb er an^eiiingf n>irt.S£afteflio rotrtgeneni »on einer &EW fei/barifi ma woijeitf n fc^ricbe, 'J erbi alfo genent in @rr>(?(ic^en Dienten,
wa» in fcfenfftni juur rfoffr it. S>
matf
tlnyietAtlnettfltlftcnfel
garnrnidc^/ba^fr a frfttr jfnffru* mrnt (rr »ίίφ »nb Μ^^(^/ηαφ t« Wr rc^iw rrfeibcm/on brr frt^rn veitw fcc. Magd Diether . von Katzenellenbogen. Ermahnung 'WaltV/ 4/ -,Lob 'WaltV/14/12 Dietrich von Bern. Heldentaten 2S/3092 -, Laurin führt §§ durch feurigen Berg zu tausendjährigem Leben 'Wartb/1/2» Dignarc me laudare. Zitat 'Nun/ 5 Dildo -> Dilla dolla Dilettant. Kunst soll nur von Künstlern, nicht von yten ausgeübt werden 'Regb/1/559 Dilla dolla 2 Dei/1 -St 5260 !Sll/ 171 Dina -> Bibelallegorese Dina und Sichern 2A/57- 2 HaG/74· Binge. Df»HiiiflUM.ffi 2Wat/220 Diogenes bettelt 2S/1308· - bezeichnet die Menschen als unvernünftige Tiere 2S/694· - bezeichnet Fürsien als Diebe 2Mei/60· - gibt schlagfertige Antworten 2S/»3 'Weidn/12 - ißt auf dem Markt 7Spr/1.12» - ißl Kraut 2Met/48o - kritisiert Aristipp 2 Hozm/6i· 2 Met/48o - kritisiert die Astronomen 2S/943 2 Spr/167 - kritisiert die Kauflcute 2 Spr/167 - kritisiert die Musikanten 2S/943 2 Spr/167
,
:.,-'
152
Paul Sappler
Es seien nun drei Datenzustände vorgeführt, erstens die Zielform des Registers, zweitens die Ausgangsform, in der die Registereinträge noch im Zusammenhang der Liedbeschreibung stehen, und drittens die Arbeitsfassung, die zwischen den ersten beiden Datenzuständen vermitteln und den skizzierten Widerspruch entschärfen soll. Am Schluß soll eine Überlegung zum Verhältnis des zu druckenden Registers zu einer möglichen elektronischen Publikation folgen. Die Abbildung l zeigt in einem kleinen Ausschnitt die Zielform des Stichwortregisters. Diese Seite aus einer vorläufigen Version reicht von Diebstahl bis Diogenes. Es sind zwei Registerstufen verwirklicht, deren erste durch halbfetten Satz und Spiegelstriche gekennzeichnet ist. Eine Besonderheit ist die Länge vieler Stichworteinträge; sie bestehen manchmal aus einem mehrgliedrigen Ausdruck oder einem ganzen Satz. Damit wird versucht, gleich die wichtigsten Zusammenhänge im Register sichtbar zu machen, in denen ein Leitstichwort (die erste Registerstufe) vorkommt, und größere ungegliederte Referenzenhäufungen zu vermeiden. Wenn das Leitstichwort nicht vorn in einem Ausdruck steht, sondern im Innern, ist es nach gewöhnlicher Weise nach vorn gestellt; an seiner eigentlichen Stelle ist es durch ein Vertretungszeichen (später wird es eine Schlangenlinie sein) ersetzt. Die Referenzen oder Stellenangaben bestehen aus den repertoriumstypischen Liednummern. Ihnen folgt ein Asterisk, wenn die betreffende Erscheinung in dem Lied nicht nur beiläufig, sondern zentral ist. Ferner sind zahlreiche Verweise zu sehen, kenntlich an einem waagrechten Pfeil vor dem Verweisziel, und zwar nur von Einträgen aus, die der oberen Registerstufe entsprechen. Sie mögen den Benutzer manchmal zu verwandten Begriffen und Themen führen, ihre Hauptfunktion ist aber, zusätzliche Registereinträge mit vielen Referenzen zu ersparen; je stärker gegliedert und je länger ein Stichworteintrag ist, um so weniger Referenzen sollten sich durchschnittlich dahinter sammeln und um so eher wird man statt des Verweises gleich die Referenzen aufführen. Es mag besonders auffallen, daß das Register nicht begrifflich durchgegliedert ist; dies ist auch wohl gar nicht möglich und nicht erwünscht. Unter Diener findet sich ein Ansatz zu einer Durchgliederung in der Gegend um Treuer Diener l Untreuer Diener, wozu weiter gehören würden Einfältiger Diener, Kluger Diener, Spielsüchtiger Diener; ähnliches findet sich bei den persönlichen Akkusativobjekten von des Diogenes Kritisierneigung. Fremdartig stehen andererseits Einträge in der Reihe wie der von den Dienern der Liebe, die von ihr zu jedem Dienst gezwungen werden; eigentlich sind sie ja keine Diener, aber Hans Sachs hat sie nun einmal so bezeichnet - was bemerkenswert ist -, und es gibt keinen besseren Platz für sie im Register. Man wird sie auch nicht unter dem Leitstichwort Diener der Liebe von den anderen Dienern absetzen, dazu sind sie nicht genügend terminologisch, und so zeigt sich hier wie öfters der große Spielraum bei der Gestaltung des Registers, wie sehr es auf Fingerspitzengefühl ankommt und daß man nicht pressen darf. Demgegenüber möchte man elementare
153
Probleme literarhistorischer und inhaltlicher Erschließung durch Register
Mängel gerne korrigieren: In Abbildung 2 ist Christianisierung der Friesen und Christianisierung, Friesen selbstverständlich dasselbe und sollte zusammengefaßt werden; glücklicherweise stehen diese beiden Einträge im Register nahe beieinander. Schwerer zu sehen ist, daß der einzige Eintrag unter Christus (Christus hat Macht über böse Geister) so isoliert nicht stehen kann, sondern aufgrund einer namennormierenden Entscheidung der Bearbeiter zu den Tausenden von Einträgen unter Jesus Christus gehört. Was bei den Dienern der Liebe eine erhaltenswerte Eigentümlichkeit war, auch wenn sie sonst vielleicht anders heißen und selten jemand nach diesen Dienern suchen wird, wäre hier eine ärgerliche Willkürlichkeit. Christianisierung Bulgariens 2 Dei/ll4 - der Friesen 2 WolfH/: -/' Friesen/.g! 2Wat/s7S -' Kärntens 2Met/265· - Persien s 2S/409J Christin. Gott bewahrt durch Wunder die Keuschheit einer g J Hoz/42 -, Henker einer g bekehrt 2S/40M -, Henker einer 55 bekehrtiSichr 2 Klip/49 -, Jude für Buhlerei mit g bestraft 2 HaG/375 2 WiWo/i -. Martyrium von fünften in Antiochia 2
SlCh/7!
-. Standhafte 55 von Pferd zertrampelt 'Klip/48
Ifc Abb. 2
-. Standhafligkeit einer 55 2 Met/860j*Nl -, Standhaftigkett einer Allegorese; -> Legende - wird aus der Kirche gewiesen 2 HaG/238 Christophonisbild-> Ätiologie .Christus-' Jesus Christus ^ hat Macht über böse GeisAr 2Wat/294 Christusfigur, Lautenspieler feiert mit ^i Abschied 2S/3018
Cimon und Iphigenia 2S/1930· Cipolla-» Zwiebel, Bruder Zwiebel mit der Feder Gabriels Cippus lehnt Königskrone ab 3
M et/189/149·
£kee!ats Excmpel für Marias Keuschheit 'Folz/65 Cisiojanus 'Mönch/3/1 Claudius tötet seine unzüchtige Frau 2
-
S/334«
wird von seiner unzüchtigen Frau vergiftet 2Met/536· Clytia-> Phoebusj-> Phoebus und ^/ Codrus-> Exempel - opfert Leben für sein Volk 2 A/2U· 2 VogH/32Collocriant in Esel verwandelt 'HeiM U/230-232 Commodus, Ermordung J Met/755 -St 1395· - läßt sich als Herkules verehren 2S/1395 Compassio ~> Maria Complexionen -> Temperament conczelebrand, Ketzer glauben an Fisch IQ 'Wartb/2/502 Confessio Augustana-» Beischrift ^ : Dcber/i· ^at/UT/i 2 WiH/72 101 -. Ermahnung zur Befolgung der §? 2 Hebei/ l -. Magdeburg, Treue zur g 2 KalfH/3 -, Predigt über §9 2 Widu/3Conscientia-) Personifikation
K.Vfce-
154
Paul Sappler 1 2S/1778L· 2 z @3 Zorn, Greferei @4 06.08.1545 5 Dresden M 12, 264r-265r @@6 Hachenberger 8 7 3 8 der purpur kleit anfang 10 Als Herkules - Als hercules der kuene helt: weit @@11 Als Herkules um Tyro wirbt, begleitet ihn auf dem Weg zu ihr sein schneeweißer Hund. Dieser frißt unterwegs am Meeresstrand eine }merschnecke{ und bekommt davon eine purpurne Schnauze. Als Tyro den Hund sieht, verlangt sie ein Kleid in dieser Farbe, bevor sie Herkules erhören will. Herkules sammelt zahlreiche Schnecken und färbt in ihrem Blut die Wolle für das Gewand. Schluß: Die Liebe zwingt ihre Diener zu jedem Dienst. 12 l/Herkules und Tyro SLiebespaar; lÄtiologieO, 4Purpurfärben; Liebe zwingt ihre 2Diener zu jedem Dienst; Minnesklaven, Herkules; Tyro s. Herkules; 913 Polydorus, [De inventione]; 0917 Herkules; Tyro;
Abb. 3
Abbildung 3 zeigt die Ausgangsdaten für eine Reihe von Stichworteinträgen, nämlich allen zum Sachs-Lied 2S/1778, darunter eben die zu den Dienern, die die Liebe zu jedem Dienst zwingt; wie man sieht, haben sie ihren Platz in einer charakteristischen Sachsschen Moralisatio. Die Beschreibung dieser Liedüberlieferung mit Angaben zur Autorbezeugung, zum Ton, zum Datum der Niederschrift usw. ist so strukturiert, daß auf ihrer Grundlage der gedruckte Liedkatalog und alle vorgesehenen Register gesetzt werden können. Hier an dieser Stelle interessiert besonders Rubrik 11, die Inhaltsangabe, und Rubrik 12, die Einträge für das Stichwortregister. Gelegentlich sind die letzteren auf poetische Momente und solche der Aufzeichnung bezogen, wovon hier abgesehen sein soll, meist aber auf den Inhalt. Sie heben Inhaltszüge in einer offenbar überlegten, aber wohl nur schwer in Regeln zu fassenden Auswahl und Zusammenstellung hervor, einer Auswahl, die man sicher nur aus der Sichtweise vom einzelnen Lied her einigermaßen gut treffen wird. Man kann erahnen, was den Bearbeitern wichtig war: Ätiologisches, Kataloge exemplarischer Gestalten, die thematische Zielrichtung der Moralisatio. Andere Dinge wurden beiseitegelassen, sicher schweren Herzens, aber deutlich unter dem Eindruck des Liedtextes selbst: etwa warum Herkules gerade einen weißen Hund zum Begleiter hatte, so handlungsfunktional seine ursprüngliche Farbe auch war, oder Stereotypen wie die Liebe der Menschen zu schönen Kleidern. Wenn die Entscheidung gefallen ist, welche literarischen Bereiche das Stichwortregister hervorheben soll und was es vernachlässigen muß, steht die Aufgabe an, das Gemeinte so zu formulieren, daß im Register Gleichheit und Ahn-
Probleme literarhistorischer und inhaltlicher Erschließung durch Register
155
lichkeit gut abgebildet werden und daß es bezüglich der gewählten Formulierungen möglichst vollständig ist. Angenommen also, man hätte zu einem Lied die beiden Stichworteinträge gebildet: Liebe zwingt ihre Diener zu jedem Dienst und Diener, Liebe zwingt ihre ~ zu jedem Dienst, so müßten bei einem anderen Lied mit ähnlicher Moralisatio auch wieder beide Stichworteinträge erscheinen; keiner dürfte fehlen, das wäre sonst eine ärgerliche Inkonsequenz. Diese Forderung nach eingeschränkter Vollständigkeit stellt an die Bearbeiter beim ersten Formulieren wie beim Ausredigieren hohe Ansprüche. Eine kleine Hilfe für sie (daneben ein Mittel zur Einsparung von Schreibarbeit) steckt in den ZiffernMarkierungen der Einträge von Rubrik 12: - Die Ziffern l bis 3 markieren die Leitwörter entsprechender Registereinträge; wenn in einer Eintragseinheit keine Ziffer l vorkommt, wird sie am Anfang ergänzt. Es ist also der dritte Eintrag der Rubrik 12 (Trenner ist der Strichpunkt) so zu lesen: l Liebe zwingt ihre 2Diener zu jedem Dienst. Daraus entstehen die oben genannten Registereinträge Liebe zwingt ihre Diener zu jedem Dienst und Diener, Liebe zwingt ihre ~ zu jedem Dienst. - Die Ziffern 4 bis 6 erzeugen Verweise; ihr Verweisziel endet bei einer Null. Aus lÄtiologieO, 4Purpurfärben entsteht also neben dem Registereintrag Ätiologie, Purpurfärben ein Verweis Purpurfärben —» Ätiologie. - Die Ziffern 7 bis 9 ergeben ebenfalls Verweise, nur enden die Stichworteinträge und die Verweisziele bei der ersten dieser Ziffern in einem Eintrag. Aus Herkules und Tyro ^Liebespaar entsteht also neben dem Registereintrag Herkules und Tyro der Verweis Liebespaar —> Herkules und Tyro, aus Diebische l Handwerker SDieb (in Abbildung 4) ein zusätzlicher Verweis Dieb —» Handwerker, Diebische. Wo die Kodierung der Verweise zu kompliziert würde, ist auch ihre explizite Angabe möglich, z. B. in Tyro s. Herkules; bei ihnen ist es nur beschwerlicher abzusichern, daß sie keine blinden Verweise sind. - Nicht in Abbildung 3, aber unten in Abbildung 4 kommen End-Marken zu den Ziffern vor, z. B. in Liebe zum l Wort Gottes l { erwirkt 2ewiges Leben2{. Mit ihnen wird erreicht, daß Mehrwortausdrücke und Wortteile zu Leitwörtern werden können und Schachtelung möglich ist.
156
Paul Sappler
3. März 1997 16:45
NDSWA01*SCR 40840 .030 10253 .024 10599 .017 43089 .026 61794 .021 31752 .029 44641 .022
S1933' A145 A3 67 S2569
53140 .022 71311 .018 70760 .026 17299 .023 23002 .022 33768 .024 50773 .020 50133 .023 17448 .020 20672 .021 31715 .023 32564 .023 53282 .029 53833 .023 21896 .019
S4564 Wat752 Wat380 HaG482
VogH42 S548' S3098
lDiebl{e im 2/Beinhaus;
IDiebKe im 2/Beinhaus; IDiebKe im 2/Beinhaus; IDiebKe im 2/Beinhaus; IDiebKe im 2Beinhaus; l/Diebl{e in 2Verkleidung überlisten 2Müller; l/Diebl{e in Verkleidung überlisten 2Müller; IDiebKe schlagen 4Auge4{n nieder; Diebl{e schlagen Augen nieder; Diebesgut an Eigentümer verkauft;
MeyrAl S1158 S3638 S3460 Heinll Met 60 S539 1 S781 S4628 S4917 Met395
20698.014 Met67
51127 .019 S3761 33768 .026 S1158 32746 .019 51707 .018 50428 .027 40099..021 50340 .015 20696 .016 70550 .017
Diebe bestehlen toten 2Bischof;
S814 S3991 S3553 S1718 S3530 Met65 Wat234
70366 .027 Watl53
11376 .018 A901
Diebesgut an Eigentümer verkauft; Diebesgut weiterverkauft;
Diebische IHandwerker 8Dieb; Diebische IHandwerker; IDiebstahl aus 2Armut;
IDiebstahl aus 2Armut; 2Diebstahl aus LArmut;
IDiebstahl bringt 2Unglück;
Diebstahl bringt 2Unglück; Diebstahl durch Diebstahl aufgedeckt; IDiebstahl durch Vortäuschung einer 2Krankheit STäuschung; |l/Diebstahl eines 2Hahn2{s mit dem Tod bestraft; Diebstahl entdeckt; l/Diebstahl mit Hilfe des Eigentümers; Diebstahl mit Hilfe des Eigentümers; Diebstahl mit Hilfe des Eigentümers; Diebstahl nach Ablenkung des Eigentümers; Diebstahl unter den Augen des Eigentümers; Diebstahl unter den Augen des Eigentümers; IDiener ersticht zügellosen 2Kaiser; l/Diener erzwingt durch 2Schlagfertigkeit Belohnung; |JDiener fälschlich der 2Buhlerei mit 2Königin bezichtigt; IDiener kritisiert 2Herr2{n wegen falscher Verteilung von Gaben; 1
03699 .023 HeiMü354 18145 .016 Hozm79 17608 .021 Hozll 17109.019 42425 .017 03055 .014 23078 .020 03671 .025 71373 .014 03350 .035 51189 .020 03350 .034 51225 .019 71210 .012 08565 .014 03566 .011
Abb. 4
Diener opfert Leben für seinen lHerrl{n;
Diener retten 2Herr2{n durch 2List; 2Diener träumt, sein 2Herr erleide l/Höllenquall{en; HaG325 |2Diener wegen l/Bescheidenheit benachteiligt; S2380 Diener wirbt um 2Herrin SBuhlerei; FriSo3/8 l}dienestman{l{ schämt sich seines ehrlosen ]Herrn ,· Dienst am IVaterland wird belohnt; Morg23 HeiMü323 Dienst soll von IHerrKen belohnt werden; Wat 8 14 IDienstboten müssen ihren 2Lohn bekommen; Graf 2 IDienstboten verdingen sich an 2Lichtmeß; IDienstboten verdingen sich an 2Lichtmeß; S3782 Dienstmagd s. Magd; Graf2 Dienstmagd s. Magd; S3794 Dienstordnung für die l/Levitl{en; Wat634' WaltVl4/li|lDiether II. von KatzenellenbogenK, WaltVl4/ Ermahnung; WaltV14/12|lDiether II. von KatzenellenbogenK, Lob;
Probleme literarhistorischer und inhaltlicher Erschließung durch Register
157
Die Erläuterung des Markierungssystems hat sich weit ins technische Detail hinein begeben. Sein Nutzen wird deutlicher beim Blick auf den Datenzustand, in dem die Korrektur des Registers tatsächlich ausgeführt wird. Abbildung 4 zeigt diese Arbeitsfassung, eine Art Registerherstellungs-Stadium, in dem einerseits die Ziffernmarkierungen noch nicht aufgelöst sind, so daß der Rückweg der Korrekturen in die Grunddaten noch offensteht, und in dem andererseits die Einträge fast wie im Register sortiert sind, nur daß gleiche Registereinträge und gleiche Leitwörter noch nicht zusammengefaßt sind. Zwischenstadium ist die Arbeitsfassung nur ihrer Gestalt nach; der Ablauf sieht vor, daß ihr Inhalt in die Grunddaten zurückübertragen wird und von dort aus das Register gemacht wird. Auch die beiden vorher genannten Zustände müssen zur Kontrolle herangezogen werden, der gegebene Ort aber für das Ausredigieren des Registers ist die Arbeitsfassung, und hier stehen auf bequeme Weise Volltextsuche und andere Hilfen bereit. Unter diesen ist eine wichtige arbeitserleichternde Einrichtung, daß man im Editor mittels einer einfach aufzurufenden Funktion von einem Eintrag aus in einem anderen Fenster die sämtlichen Registereinträge des betreffenden Liedes und seine Inhaltsbeschreibung sichtbar machen kann. Im Programmsystem TUSTEP lassen sich auch komplizierte Suchbedingungen und derlei Funktionen elegant und mit geringem Aufwand definieren. Die Arbeitsfassung in Abbildung 4 ist schon kräftig bearbeitet (und nach Ausführung der Korrekturen wieder sortiert) worden, sie ist aber nochmals durchzugehen. Es fällt etwa auf, daß das Leitwort des ersten Eintrags Dieb sein sollte, nicht Diebe, daß also zu l Dieb l {e bestehlen . . . zu korrigieren ist. Des weiteren unterscheiden sich die beiden Einträge l/Dieb l {e in Verkleidung ... darin, daß die eine Stelle auch unter Verkleidung, Diebe . . . ins Register kommt, die andere nicht, was an der Ziffer 2 vor Verkleidung hängt; hier wird man durch Volltextsuche in der Arbeitsfassung feststellen, wie Verkleidung, verkleiden sonst behandelt ist, und beide Fälle gleicherweise entsprechend einrichten. Zu beachten ist ferner, daß der Registereintrag Diener, Liebe zwingt..., von dem oben die Rede war, nicht in der Gegend von Diebstahl, Diener, Dienst erscheint, sondern unter Liebe zu erwarten ist; auch hier wird man sich durch Volltextsuche eine Übersicht über die Behandlung von Diener, dienestman usw. verschaffen und Inkonsequenzen bis zu einem gewissen Grad auszugleichen versuchen. Wenn das Register, ein Band von etwa 600 Seiten, demnächst fertig ist, wird und kann es nicht perfekt sein, aber es wird viel Zeit und Mühe gekostet haben, vom Nachdenken über die Auswahlgesichtspunkte bezüglich der Gegenstände (welches Nutzererwartungen zu prognostizieren bestrebt ist) bis zum redaktionellen und schließlich typographischen Schliff. Der Zug der Zeit geht weg vom gedruckten Register. Hätte uns eine frühzeitige Umorientierung hin zu einem elektronischen Informationsangebot für die Benutzer des Werks viel erspart? Zweifellos wäre der Wegfall von Umfangsbeschränkungen ein großer Vorteil gewesen; man hätte bei der Auswahl des Festhaltenswerten viel großzügiger
158
Paul Sappler
verfahren können, dazuhin alle Verweise durch vollständige Registereinträge mit Referenz ersetzen können, und dies allein schon hätte der in jedem Einzelfall schwierigen Entscheidung enthoben, welche Dinge mit Referenz nachgewiesen werden und welche, gewissermaßen zweitrangig, nur über Verweise auffindbar sein sollen. Vermutlich wäre dieses „Register" reicher, aber auch weniger strukturiert und systematisch geworden, man würde den Benutzer viel mehr ins ungeordnete Material entlassen als beim jetzt angezielten - begriffshierarchisch nicht übermäßig hohen - Organisationsgrad des Registers. Ein Versuch in diese Richtung wäre trotzdem nicht uninteressant. Es wäre dabei darauf zu achten, daß die punktuelle Treffsicherheit (die von einer, auch komplexen, Frage aus zu allen einschlägigen Stellen führt) nicht unter ein bestimmtes Niveau sinkt und daß etwas von der Möglichkeit, bei unscharfer Fragestellung im Register hin und her zu lesen und sich anregen zu lassen, erhalten bleibt.
Yoshihiro Yokoyama (Keio-Universität, Tokyo / Yokohama) Eine Konkordanz zu Wirnts 'Wigalois' Zum Einsatz eines computergestützten Lemmatisierungsverfahrens
I Bei meinem vom Deutschen Akademischen Austauschdienst (DAAD) geförderten zweijährigen Deutschlandaufenthalt von 1994 bis 1996 hatte ich an der Universität Trier die Gelegenheit, mich mit der Herstellung einer lemmatisierten Konkordanz zu Wirnts von Grafenberg 'Wigalois' zu befassen.1 Sie ist mit Hilfe des „Tübinger Systems von Textverarbeitungs-Programmen" (TUSTEP) im Rahmen des seit 1994 in Göttingen und Trier laufenden DFG-Projektes „Mittelhochdeutsches Wörterbuch" und anschließend unter Mithilfe von Ute Recker in der Trierer Arbeitsstelle zu einem selbständigen Werk ausgearbeitet worden;2 diese Konkordanz befindet sich jetzt in Vorbereitung zur Publikation in der Reihe 'Indices zur deutschen Literatur'.3 Als Textgrundlage für die 'Wigalois'-Konkordanz diente der kritische Text der maßgeblichen Ausgabe von KAPTEYN (Wigalois 1926, 1-498), der für dieses Vorhaben maschinenlesbar gemacht worden ist. Dieser maschinenlesbare Text ist sorgfältig revidiert worden, damit alles einschließlich der Unterpungierungen genauso wie im gedruckten Text abgebildet ist.
1
Der vorliegende Beitrag ist die überarbeitete Fassung des Manuskripts, das ich am 6. März 1997 in Würzburg vorgetragen habe; bei meiner Teilnahme an dem Kolloquium hat mich die KeioUniversität finanziell unterstützt. Frau Ute Recker (Trier) danke ich für die Durchsicht der Manuskripte, für sachkundige Hinweise dazu und für die Anfertigung der Abbildungen ganz herzlich. Besonders habe ich Herrn Prof. Dr. Kurt Gärtner (Trier) zu danken, der mir Anlaß zum Referat gegeben und auch die Manuskripte durchgesehen hat. - Die im vorliegenden Beitrag genannten Angaben sind auf dem Stand vom September 1996 und werden nicht auf die noch ausstehende Endfassung der Konkordanz (vgl. Anm. 3) bezogen. Eine ausführlichere Erörterung der hier besprochenen und weiterer Aspekte, die auch die relevante Forschungsliteratur einbezieht, wird die Einleitung zur Konkordanz bieten. 2 Zu dem Projekt „Mittelhochdeutsches Wörterbuch" vgl. den Beitrag von RALF PLATE und UTE RECKER in diesem Tagungsband. 3 YOKOYAMA, YOSHIHIRO / RECKER, UTE (Datenverarbeitung): Lemmatisierte Konkordanz zum 'Wigalois' Wirnts von Grafenberg [Arbeitstitel, erscheint voraussichtlich 2000]. Vgl. auch Yokoyama 1998, Anm. l und 13; der im genannten Aufsatz vorgelegte Befund fußt auf der Version der Konkordanz vom März 1996 (dazu vgl. Yokoyama 1998, Anm. 15).
160
Yoshihiro Yokoyama
II In der ersten Arbeitsphase unterscheidet sich die Herstellung der 'Wigalois'Konkordanz nicht von dem üblichen Verfahren des Projektes „Mittelhochdeutsches Wörterbuch":4 Zuerst wurden im Text alle homographieverdächtigen Wortformen durch „Homographentrenner" markiert, z.B. arm&s für das Substantiv arm '(der) Arm' gegen unmarkiertes arm für das Adjektiv arm 'arm, nicht rieh', dann wurde aus ihm und dem Gerüst eine erste lemmatisierte Konkordanz automatisch hergestellt. Mit der Korrektur der Lemmatisierung anhand des Ausdrucks der ersten Konkordanz wurde die Arbeit an der 'Wigalois'-Konkordanz in den beiden Arbeitsstellen des Wörterbuchprojektes vorläufig abgeschlossen. Für die Veröffentlichung der Konkordanz gab es allerdings noch einiges zu tun, wovon ich im folgenden auf ein paar wesentliche Punkte eingehe, d.h. 1) die Zusammenfassung der verbalen Belege mit und ohne Präfix ge-, 2) die konsequente Behandlung der im Text bald getrennt-, bald zusammengeschriebenen Wortformen, 3) Einschränkungen für einige hochfrequente Lemmata und 4) die Abgrenzung des angeführten Kontextes.
III 1) Die Zusammenfassung der verbalen Belege mit und ohne Präfix geBei der weiteren Ausarbeitung der Konkordanz bin ich davon ausgegangen, daß Verben, deren Infinitiv und/oder finite Formen im Text sowohl mit als auch ohne ge- belegt sind, jeweils durch einen Wortartikel vertreten sein sollten, damit der Benutzer alle betreffenden Belege mit einem Blick übersehen kann, ohne auf ihre eventuell durch das Präfix verursachte Schattierung einzugehen. So habe ich z.B. Wortformenlemmata dcehten, gedäht, gedähte, gedcehte, gedcehten, gedenke, gedenken und gedenket in einem Artikel (ge-)denken zusammengefaßt (siehe Abb. 1); zuvor waren diese Wortformen zwei verschiedenen verbalen Lemmata denken und ge-denken zugeordnet.5 Dank der Flexibilität des Lemmatisierungssystems kann man eine solche Modifikation jederzeit beliebig vornehmen: Für mein Beispiel brauchte ich im Gerüst nur aus dem einen Lemma denken (oder ge-denken) ein neues einheitliches Lemma (ge-)denken zu machen und die Wortformen, die unter dem anderen, jetzt überflüssig gewordenen Lemma ge-denken (oder denken) gebucht waren, entsprechend umzustellen.
4 5
Vgl. PLATE/ RECKER (vgl. Anm. 2), Abschnitte 4.1 und 4.2. Die Wortformen achten, gedäht, gedähte, gedaehte und gedcehten waren zum Lemma denken gestellt worden und gedenke, gedenken und gedenket zu ge-denken.
161
Eine Konkordanz zu Wirnts 'Wigalois' (ge-)denken Verb (32) - daehten (1): 8450 da würde geVaterschaft entrant / so sich die poinder vlaehten / und nach gewinne dachten. - gedäht (11): 2733 als ichs da vor hän gedäht. 3/22 ich bin Gwigälois genant / und hän gedäht mit miner hant / der besten lop erwerben / öd mänlich ersterben; 3550 wand ers im selbe net gedäht. 3698 da wider gedäht er im leit / ze tuone aller tägelich. 4048 er wolde Verliesen sinen lip / durch si, des waer im gedäht; 6423 in dirre not gedäht er / der schcenen magt Lärien. 6621 daz er wolde striten / mit im, des gedäht er. 6802 hilf mir, daz ich die reise / volbringe als ich hän gedäht, 6Ä35 wes got mit mir gedäht hat, 8957 des ich mir selbe niht het gedäht, 9663 wol der wünniclichen zit / der ich mit grözem jämer sit/ vil herzenliche hän gedäht, - gedähte (10): 7/77 er gedähte Ob ich belibe / lenger hie, des gwinne ich schaden.' 2735 des nam si michel wunder/ und gedähte iedoch darunder/ 'waere er niht so manhaft, 3325 er gedähte 'ich vinde da riterschaft: 4576 er gedähte 'herre got, wie / stet ez umb dise riter-
schaft / daz beidiu isen unde schaft / an in so gar ist verbrant? 50/5 er gedähte 'und sol ich dich besten, 5976 alrerst bekande sich der helt / und gedähte ir leides harte wol. 5995 er gedähte 'nu sol ich zehant / gegen der äventiure vam; 6268 er gedähte 'herre got, wie / kum ich über daz wazzer hie?' 6797 er gedähte 'herre got, wie / sol ich nu komen in daz lant? 9281 an ir schoene was wol schin / daz ir der wünsch gedähte: gedachte (3): 4455 si bäten alle geliche / got daz er sin gedachte/ und in wider brachte/ mit sige und mit gesunde. 9670 da von ich nimmer me vergaz / diner reinen güete/ im gedachte min gemüete. //360 daz was ir jungestiu ger/ daz ich iu daz brachte/ und man da bi gedxhte / muoterlicher triuwe / und senlicher riuwe.' gedachten (1): 3597 her Gwigälois die knappen bat / daz si in ze kirchen brachten / und siner sele gedienten / mit almuosen und mit messen, gedenke (1): 8084 gedenke bi diner menscheit/ wie broede süeze ir leben treit,
Abb. 1: Artikel (ge-)denken Verb6
2) Die konsequente Behandlung der im Text bald getrennt-, bald zusammengeschriebenen Wortformen Um der Benutzerfreundlichkeit willen mußte auf die bald getrennt-, bald zusammengeschriebenen Wortformen, die alle unverändert aus dem gedruckten Text in den maschinenlesbaren übernommen worden sind, bei der Lemmatisierung besonders Rücksicht genommen werden. Dafür nenne ich zwei Beispiele: a) Die lexikalisierte Präpositionalphrase ze-tal 'nieder' kommt im Text 24mal vor, und zwar stehen fünf in Getrennt- (ze tal) und 19 Belege in Zusammenschreibung (zetal). Zunächst war das getrenntgeschriebene ze tal je nach dessen einzelner Konstituente zwei verschiedenen Lemmata zuo 'zu' und tal Tal' zugeordnet, das zusammengeschriebene zetal hingegen war einfach zu tal gestellt.7 Das war zwar keine falsche, aber eine von der uneinheitlichen 6
Schrägstrich (/) kennzeichnet die Versgrenze; Anfang und Ende des Belegzitats sind immer Anfang bzw. Ende eines Verses (siehe dazu Punkt 4). 7 Die Belege von ze (Präposition und Adverb) werden nicht unter dem eigenen Lemma ze, sondern in dem Wortartikel zuo mit erfaßt.
162
Yoshihlro Yokoyama
Schreibweise des gedruckten Textes abhängige inkonsequente Lemmatisierung. Diese Inkonsequenz habe ich dadurch beseitigt, daß getrenntgeschriebenes ze tal und zusammengeschriebenes zetal einem eigenen, aber im Gerüst schon vorhandenen Lemma ze-tal zugeordnet wurden (siehe Abb. 2). Dabei konnte auch der erste Fall (Getrenntschreibung) als eine Wortform behandelt werden, indem seine beiden Bestandteile durch eine spezielle Markierung miteinander verbunden worden sind (zejal). ze-tal Adv. (24) - zetal (19): 260 do sach si bi der mür zetal/ einen schcenen riter haben; 345 von den liewen gie si zetal / wider sitzen an ir stat; 652 der riter ez zetal reit/ durch einen wünniclichen wait; 876 da bi hiengen ir zetal / reide locke goltvar. 902 mit also lichter varwe / was ir über al / linde und eben hin zetal. 1041 daz gienc üf und zetal; 1543 riter unde knehte/ die giengen mit im über al / zuo dem steine hin zetal; 1865 wand einez gienc uf und zetal / mit listen in sins neven sal: 2533 ein pfelle der was hin zetal/ drin gefurrieret. 2550 ein swarziu Strieme teilte ez wol / nach dem rücke hin zetal / unz üf den zagel, der was [im] val, 2645 daz gevilde was üf und zetal / vollez pavelüne
geslagen. 4297 da sach er von der mure zetal / eine brunst in dem walde; 4537 da lac üf und zetal / wmwähse harte vil. 5004 Sus reit er einen berc zetal. 5060 der wurm der was sinwel / als ein kerze hin zetal; 5/27 sus warf er in als einen bal / eine rise hin zetal; 6295 zetal in ir buoc ez swanc. 7472 über die mäntel hiengen/ ir zöpfe verre hin zetal, S656 von dem tor gie her zetal / engegen im diu wirtin. ze tal (5): 20/6 von dem töten ilten si dö / bi einem wazzer hin ze tal. 2060 den wait üf und ze tal. 45/7 da wären pfilaere hin ze tal / geworht mit grözer krefte, 5037 von dem houbet hin ze tal / stuont üf im ein scharfer grät, 6588 von dem rubin hin ze tal / [vil] lützel sin ob dem satel schein:
Abb. 2: Artikel ze-tal Adv%
b) Zusammengesetzte Lokaladverbien des Typs dar-an: Im Text wird die Fügung dar-an in Kontaktstellung bald getrennt- (Beispiel: V. 854 dar an lac vil grözer v/iz), bald zusammengeschrieben (V. 11364 daran er geschriben vant, V. 3631 niwan ein burc, diu lit dran), ist aber auch in Distanzstellung belegt (V. 3909 da was daz tier gemalet an). Bei meiner Bearbeitung sollten all diese Erscheinungsformen mit Konsequenz erfaßt werden, während dar an, daran, dran und da [...] an vorher noch unter drei verschiedenen Lemmata ane 'an', dar 'da' und dare 'dahin' je nach der Schreibweise im gedruckten Text verstreut waren.9 Für diesen Zweck habe ich im maschinenlesbaren Text - im Gegensatz zu den Fällen wie ze-tal — erstens durch den „Trenner" ($/) die zusammengeschriebenen Wortformen in ihre beiden Konstituenten aufgelöst und zweitens diese mit zusätzlichen Markierungen &j&l und &j&2 versehen: 8
Eckige Klammern im Belegzitat stammen aus der zugrunde gelegten Textausgabe von KAPTEYN (Wigalois 1926), dazu vgl. dort S. 75*. 9 Soweit das Kompositum in Getrenntschreibung oder in Distanzstellung erscheint, war an&b (= adverbiales an, siehe Punkt 3) zu dem Lemma ane gestellt, da zu dar und dar zu dare; daran und dran hingegen waren einfach unter dare gebucht.
163
Eine Konkordanz zu Wirnts 'Wigalois'
dar&j&l$/ an&j&2 < daran, dr&j&l$/ an&j&2 < dran. Dabei ist &J&1 für den ersten Bestandteil vorgesehen und &j&2 für den zweiten. Die so markierten Wortformen sind dann im Gerüst zu den zwei entsprechenden Lemmata ane und dar (jetzt ein Artikel für dar und dare) gestellt worden wie die einzelnen Bestandteile der getrenntgeschriebenen Belege. Nach der Lemmatisierung sind die Markierungen &j&l und &j&2 im Wortformenlemma jeweils durch einen nach- oder vorstehenden Bindestrich ersetzt (dar-, dr-, -an) und im Belegtext so getilgt worden, daß der Beleg wieder zusammengeschrieben wird. Damit konnte das Kompositum dar-an unabhängig von der jeweiligen Stellung und Schreibweise seiner Belege, aber zugleich auch mit Rücksicht darauf, in den Artikeln ane und dar vernünftig behandelt werden (siehe Abb. 3 und 4). ane Adv.,Präp. (492) - an Präp. (449): 4 5 71 93 100 100 177 188 213 213 214 214 257 262 306 342 346 359 413 435 450 480 498 504 564 584 611 619 674 688 696 713 791 800 830 865 913 947 950 955 981 1001 1046 1051 1071 1138 1215 1246 1251 1333 1345 1358 1365 1371 1402 1429 1472 1485 1490 1516 1537 1558 1594 1615 1643 1651 1672 1724 1744 1775 1792 1794 1871 1960 1976 2022 2034 2038 2079 2090 2122 2157 2203 2207 2246 2250 2294 2304 2307 2318 2371 2391 2422 2453 2478 2495 2503 2585 2629 2630 2632 2680 2714 2803 2812 2857 2880 2891 2895 2998 3003 3018 3046 3050 3061 3064 3108 3109 3109 3113 3143 3167 3183 3235 3275 3303 3323 3339 3393 3467 3468 3483 3498 3537 3546 3557 3594 3619 3707 3734 3801 3803 3815 3817 3817 3830 3847 3896 3907 3923 3923 3968 4089 [...] 11455 11501 11522 11534 11538 11579 11649 11692 11694 11699
- an Adv. (31): 778 ein gröz föreis dar an stiez. 609 daz ist ane wende / wirn müezen riten dar an. 854 dar an lac vil grözer vliz / von golde und von siden. 1042 da wären bilde gegozzen an, 1216 da kam ouch her Gäwein an / geriten zuo des küniges schar. 1462 däne
zwivelt nimmer an, 1906 daz im dar an nie missegie, 3168 dar an ich mich niht sümen wil.' 3520 dar an wären starkiu sper, 3858 ez hat unser herre Krist / sinen vliz dar an geleit. 3909 da was daz tier gemälet an, 4523 da was geheftet an daz tor. [...] 10631 da was von golde gebildet an / ein tier, als daz von Roimunt / ir vriunde tet die sträze kunt / in daz lant zuo Korntin. 10845 da was daz selbe tier an / mit vil IQterm golde / gebildet als si wolde. -an Adv. (12): 362 ich bedarf wol iuwers rates dran.' 892 dem möhte niht wandels dran erspehen / sine stüende gevüecliche/ dem antlütz wol geliche. 1488 so gröziu tugent an im was / daz deheiner slahte man / der ie deheinen valsch gewan / die hant niht mohte geläzen dran. 2542 von berlen vil wize/ knöpfe warn geworht daran. 3637 ir landes ist ir niht beliben / niwan ein burc, diu lit dran, 65/3 er kuste daran unde sprach / 'ö wol mich, swert, daz ich dich hän! [...] 77277 dri graven vuortens mit in hin / gevangen; daran lac gröz gewin. l1364 daran er geschahen vant / Owe, geselle und ouch min kint!
Abb. 3: Artikel ane Adv., Präp. 10
10
Die Beispielartikel ane und dar in den Abb. 3 und 4 sind um der Übersichtlichkeit willen gegenüber den Originalartikeln verkürzt.
164
Yoshihiro Yokoyama
am Adv. (1167) - da (10): 486 583 2265 2325 3269 6037 6817 9384 9531 10162 - da (747): 81 87* 103 158 184 186 248 253 316 318* 336 408 475 484* 489 491 496* 499 516 522 535* 539 554 555 569 582 594 632 642* 667 681 717* 731 783 808 843b 844 846 876 903 1018 1029 1042 1091 1135 1152* 1162 1177 1188 1200 1212 1216 1237* 1432 1450 1457 1469 1474* 1476 1501 1571* 1600* 1614 1628 1630* 1652* 1655 1669* 1676* 1693 1697* 1723 1748 1766 1768 1828 1831 1838* 1843 1879 1882 1883 1891 1898 1930 1938 1941 1947 1949* 1956 2006 2012 2017 2020* 2023 2024 2025 2045 2051 2068 2083* 2111 2126 2127 2131 2147 2165 2175* 2282 2298 2315 2316* 2349 2354 2443 2446 2458 2462 2507 2512 2560* 2584 2597 2618 2625 2648* 2656 2666 2671 2675 2683 2685* 2689 2700 2704 2705 2711* 2733 2755 2759 2764 2777 2787 2829 2837 2851 2871 2876 2893 2896 2946 2964 2970* 2973 2984 2996 3002 3004 3010 3012 3025 3043 3074* 3081 3089 3091 3098 3107 3134 3137* 3142 3144 3152* 3227 3249 3305* 3319 3325 3327 3341* 3370 3379 3389 3391 3397 3417 3422 3450 3484 3497 3502* 3516* 3532* 3559 3561 3563 3583 3607* 3615 3651 3663 3688 3698 3717 3725 3732 3867 3883 3904 3905 3909 3911 3931 3964 3976 3980 4010* [...]
11594* 11607 11608 11611 11613 11615 11661 11671 11691 11702 da- (1): 7970 dan (1): 5774 däne (5): 1462 1966 5219 9585 10564 dar (332): 24 27 32 40 56 98* 178 216 233 287 366 379 381 396 403 609 723 760 777 854 886* 951* 991* 1048* 1054* 1129 1131* 1159 1186 1187 1274 1310 1378* 1396 1448 1460 1464 1472 1482 1506* 1518 1528* 1557 1562 1618 1626 1639 1665 1666 1696 1704 1765* 1863 1875* 1906 1969 1978* 2007* 2049* 2139 2143 2144 2226 2275 2323 2344 24172442 2510 2515 2554* 2557 2563 2566* 2623 2659 2703 2721 2724* 2784* 2832 2899 2902 2937 2941 2981* 3078 3086 3099 3101 3110 3159 3168 3214 3257 3290 3320 3326 3330 3366* 3371 3381 3402 3430 3458 3475 3480 3485 3499 3520 3543* 3584* 3628 3639 3712* 3759 3820 3844 3850 3858 3871 3888 3894 3900 3937 3972 4064 [...] 11113 11168 11216 11224 11235* 11407* 11411 11435 11497 11706 dar- (27): 2542 2735 2800 4894 [...] 10693 10852 10904 10919 10938 10985 11149 11229 11277 11364 däz (2): 550S 700/7 dr- (42): 180 192 240 362 892 931 966 1488 1548 2412 2534 2573 3306 3310 3631 3902 4562 [...] 10351 10354 10361 10373 10395 10402 10423 10614 10733 10914
Abb. 4: Artikel dar Adv.''
3) Einschränkungen für einige hochfrequente Lemmata Vor allem damit die Veröffentlichung einen überschaubaren Umfang hat, habe ich vom Hauptteil der Konkordanz derldiulda^ ein, Personal-, Reflexiv-, Possessivpronomina, die Konjunktion unde und die Negationspartikel ne ausgeschlossen.12 Darüber hinaus habe ich für einige weitere hochfrequente Wörter auf die Anführung des Belegtextes verzichtet, wobei es sich um folgende Lemmata handelt:
" Ein Asterisk (*) hinter der Referenz kennzeichnet den Beleg in Reimstellung. 12 ne ist von vornherein nicht bearbeitet worden und befindet sich als Hauptlemma nicht im Gerüst für die Publikation der 'Wigalois'-Konkordanz.
Eine Konkordanz zu Wirnts 'Wigalois'
165
- Verben: drei am häufigsten belegte Lemmata (ge-)stn (1852 Belege), (ge-)haben (746), werden (420) - Substantive:13 mehr als 200mal belegte Lemmata herre (364), vrouwe (339), riter (338), man 'Mann' (213) - Adjektive (darunter auch Adjektivadverbien):14 mehr als ISOmal belegte Lemmata vil (469), al (327), gro3 (249), gar (184), manic (172), guot (165) - Andere Wortarten:15 mehr als 50mal belegte Lemmata mit Ausnahme von ane (492), äne (149), bt (143), dannen (72), durch (191), her (58), hin (60), «i/e (919), nach (243), üter (58), «/ (275), umbe (90), nn fier. / dartUxi obe&bS(x+) vlouc ein lichter van&s; / däS(+x) was —> fier. / disc äventiure $=an$:nem sich S:an / ein so künsliger man / —» fierer contcnanze./ in duhtc disiu schanze/ vil wol nach sinem
—> uier enden/ zu der erden stoze(n)./ do woken sin&n&l geniezen./ di —» uier unt sehzec man/ uielen uon des biscofes uän./ $*Malprimis uon -> uier unt zwaincec grauen,/ di die aller uorderisten waren;/ inoch —> uier ende$(!) der werlte./ $:uf S=uf$:huber sine hende,/ er sprach: —> uier heren&s./ Die mit ime warenS(=o)./ Vz ir&n&2 lande gevrin./ Die —» uier vn zvencit iar./ Bit&k der turlicher degen./ Gerne swertSdj —* uieriu./ /.eware sage ich i/, iu:/ so wartent si den ainen$(=7),/ -> uieriu heten gctailet:/ 'ich wai?. wole waz si mainent;/ si wellent
*S* vtre @:stf @;!Lexer @h 3 *ko viere&s ko l, 10 der here&a fvnetage alfo hinS(=v) bracht fchol werden mit —> viere&s, das niht anders geworht werde niwan$(=n) des leibes *mn vire mn 6. 7 der denne fragte »warumbe$(!) en began&v wir nihtS(=n) ander -» vire. unde die woche S:an ze S=anS:vahinne den Samstag als die *gt vire tr 14951 min unmüezekeit/daz was undurftenez leil&s^ so was aber min —» vire/ diu harphe und diu lire. V 'undurften leit&s?' sprach S*Marke Kodierungen *...* Lcmmazcile (vgl. Abbildung2) @h Frequcnzangabe zum Lemma *... Wertformen/eile (vgl. Abbildung2) -> Belegstichwort
Abb. 4: Lemmatisierte Konkordanz
Der lemmatisierte Index kann weiterverarbeitet werden zur ausdruckbaren Konkordanz (vgl. Abbildung 4), zur Konkordanz für den Editor (zur Bearbeitung am Bildschirm) oder zur Arbeitsdatei für das Artikelredigieren. In allen Fällen werden die Belege mithilfe ihrer Referenzen, die im lemmatisierten Index unter dem Lemma abgelegt sind, aus den Quellentexten selbst herausgezogen, d. h. mit 7
Im lemmatisierten Index erscheint die Adresse des Belegs in Form einer vierzehnstelligen Zahl (interne Werknummer, Textreferenz, Wortnummer), die für Abbildung 3 in eine anschauliche Referenz umgewandelt wurde.
180
Ralf Plate / Ute Recker
allen Besonderheiten wie Kursivierungen, Sonderzeichen, Superskripten usw. Dabei kann bestimmt werden, ob nur bestimmte Lemmata, Quellen oder Quellengruppen ausgegeben werden sollen und mit welcher Menge Kontext die Ausgabe erfolgen soll. Die Anordnung der Belege kann unterhalb der Lemmaebene z.B. nach Quellen, Wortformen oder Kontext erfolgen. Die Konkordanz macht die Ergebnisse der vorangegangenen Arbeitsgänge (inhaltliche Textmarkierung, Zuordnung von Wortformen zu Lemmata im Gerüst) sichtbar und ermöglicht ihre Verfeinerung. Da die Konkordanz direkt aus dem lemmatisierten Index gewonnen wird, kann auch sie jederzeit neu erzeugt werden, wenn an den Quellentexten oder dem Gerüst Änderungen vorgenommen wurden. Die Rekursivität des Verfahrens ermöglicht eine hohe Flexibilität: So muß ein Quellentext nicht von vornherein vollständig und in allen lexikographischen Einzelheiten vorbereitet werden. Er kann die Lemmatisierungsprozedur bereits nach grober Textvorbereitung durchlaufen und zur Konkordanz verarbeitet werden, die der Bearbeiter durcharbeitet und mit lexikographischen Auszeichnungen wie Homographentrennern, Belegauswahl- und Kommentarmarken versieht. Für diesen Markierungsarbeitsgang ist die Konkordanzfassung für den Editor besonders geeignet, da in der Datei am Bildschirm ausgeführte Markierungen von einem Programm in die zugrunde liegenden Quellentexte automatisch übertragen werden können, ohne daß der Bearbeiter die einzelnen Textstellen aufsuchen muß. Durchläuft der Text die Lemmatisierung bzw. die Konkordanzherstellung erneut, werden die vorgenommenen Änderungen in der neuen Konkordanz sichtbar. Koramenurc, Homognphentrenncr
Maschinenlesbare Texte
Kontexte Texlstellenlefcrenzen
Lerameuiicmngen "Gcriist"
Konkordanz Lemmatisicitcr Index
1
Artikel· sammeldalei
-»
j
Aitikc aibeilsda
Ergebnisse der Artikelirben
Uranellcn von Woitfonnen
Abb. 5: Übersicht über das Verfahren
j
EDV für Wörterbuchzwecke und neue lexikographische Arbeitsweisen
181
Die Lemmatisierungsprozedur gewährleistet also nicht nur die Zuordnung von Textwortformen zu Lemmata, sondern sie bildet den Kern des rekursiven Verfahrens der Beleggewinnung, in dem Belege zu jedem beliebigen Zeitpunkt aus den Quellentexten gezogen werden können. 4.3 Artikelarbeit Aus den Erfahrungen mit der Erarbeitung von Probeartikeln sollen die Funktionen zur Untersützung der Artikelarbeit skizziert8 und ihre Einbindung in das Gesamtverfahren dargestellt werden. Das Hauptaugenmerk soll dabei darauf liegen, zu zeigen, welche über die reine Textverarbeitung hinausgehenden Funktionen bei der computergestützten Ausarbeitung von Wörterbuchartikeln nötig sind, und wie sie innerhalb des rekursiven Verfahrens realisiert werden können. SAPPLER / SCHNEIDER-LASTIN (1991, 21f.) nennen fünf Anforderungen, denen ein Artikelredigierprogramm genügen sollte: 1. Das geforderte Programm muß dem Bearbeiter die Möglichkeit geben, die Belege, d.h. Belegzitate und Belegstellen, des Artikels nach seinen Vorstellungen anzuordnen und sie während der Arbeit schnell und ohne Aufwand umzustellen. 2. Der Bearbeiter muß die Möglichkeit haben, den Umfang eines Belegzitats in jedem einzelnen Fall schnell und ohne Aufwand festzulegen. 3. Das Programm muß die Möglichkeit unterstützen, an jeder Stelle eines Artikels Kommentare von beliebiger Länge anzubringen. 4. Ein so beschaffenes Programm muß andererseits verhindern, daß Belegstellen verändert werden oder verlorengehen können; und es muß 5. so weit wie möglich verhindern, daß Verschreibungen in den Belegzitaten auftreten können.
Ergänzend könnte hinzugefügt werden, daß es möglich sein muß, mehr Belege in der Artikeldatei zu ordnen und zu kommentieren, als im fertigen Wörterbuchartikel ausgegeben werden. Die genannten Anforderungen werden im vorliegenden Fall dadurch erfüllt, daß aus dem lemmatisierten Index zwei Dateien erzeugt werden: Eine Artikelarbeitsdatei, in der die Ausarbeitung des Wörterbuchartikels vorgenommen wird, und eine 'Hintergrunddatei', die ein Kontrollmittel für alle in der Arbeitsdatei vorgenommenen Änderungen darstellt. Beide Dateien werden von einem Programm in Felder strukturiert, wobei Feldkennungen jede Position (Lemma, Belegstelle, Belegreferenz usw.) eindeutig kennzeichnen. Der Bearbeiter kann zusätzliche Felder in die Arbeitsdatei einfügen oder die vorgegebenen Felder vers
Eine ausführliche und anschauliche Darstellung in SAPPLER, PAUL / SCHNEIDER-LASTIN, WOLFRAM 1991: Ein Wörterbuch zu Gottfrieds Tristan'. In: Maschinelle Verarbeitung altdeutscher Texte IV. Beiträge zum Vierten Internationalen Symposion, Trier 28. Februar bis 2. März 1988. Hg. von KURT GÄRTNER, PAUL SAPPLER und MICHAEL TRAUTH, Tübingen, S. 19-28.
182
Ralf Plate / Ute Recker
ändern: Hinzugefügt werden können z.B. Gliederungskommentare, Belegstellenkommentare, interne Bemerkungen und Angaben zum Belegschnitt. Soll das Belegzitat, das dem Umfang des mechanisch erzeugten Belegs in der Regel nicht entspricht, abgegrenzt werden, markiert der Bearbeiter Zitatanfang und -ende mit entsprechenden Feldkennungen, die ein Programm dazu benutzt, das Zitat aus seinem Kontext herauszuschneiden, wobei der ursprüngliche Beleg zu Kontrolle weiter mitgeführt wird. Verändert werden kann z.B. das vorgegebene Feld der Ordnungszahl, das jedem Beleg vorangestellt ist und seine Position im Artikel kennzeichnet. Soll ein Beleg einer anderen Gliederungsposition zugewiesen werden, wird die Ordnungszahl geändert, wodurch der Beleg vom Programm automatisch umgestellt wird. Das angesprochene Programm prüft außerdem die formale Wohlgeformtheit der veränderten Arbeitsdatei, z.B. ob alle nötigen Felder in der richtigen Reihenfolge erscheinen und - durch Abgleich mit der Hintergrunddatei - ob die Belege und Stellenangaben unverändert geblieben sind. Das Programm kann beliebig oft und zu jedem beliebigen Zeitpunkt während der Artikelarbeit gestartet werden, wodurch der Bearbeiter die Möglichkeit hat, „schnell und ohne technischen Aufwand die gewünschte Ordnung des Artikels herzustellen, das Ergebnis immer wieder zu überprüfen, zu verfeinern oder zu verwerfen" (SAPPLER/ SCHNEIDER-LASTIN 1991, 24) oder sogar mehrere Fassungen eines Artikelentwurfs nebeneinander zu verfolgen. Das Ergebnis der Artikelarbeit ist eine lexikographisch ausgearbeitete, inhaltlich strukturierte Artikeldatei, in der jede Position eindeutig gekennzeichnet ist. Sie kann weiterverarbeitet werden zum gesetzten Wörterbuchartikel, zu einer SGML-konformen elektronischen Wörterbuchartikeldatei oder zu einer HTMLkodierten Artikeldatei für die Präsentation im World Wide Web (WWW). Die Artikeldatei stellt im Gegensatz zum lemmatisierten Index und zur Konkordanz eine feste Größe innerhalb des Verfahrens dar, d.h. sie enthält mehr Informationen, als aus den Quellentexten und dem Gerüst ermittelt werden können, nämlich lexikographische Kommentare, Informationen über Zuordnungen von Belegen zu Artikelgliederungspositionen usw. Diese Angaben müssen erhalten bleiben, wenn die Quellentexte das rekursive Verfahren der Belegerhebung, das aufgrund seiner oben dargelegten Vorzüge auch während der Artikelarbeit beibehalten werden soll, erneut durchlaufen. Alle im Artikel enthaltenen lexikographischen Angaben, die über diejenigen Informationen hinausgehen, die aus den Quellentexten und dem Gerüst gewonnen werden können, werden daher in der sogenannten 'Artikelsammeldatei' aufbewahrt. Sie steht in einer engen, über das jeweilige Lemma hergestellten Beziehung zum Gerüst. Wird im rekursiven Verfahren ein lemmatisierter Index erzeugt, gibt es unterhalb der Lemmaebene zwei Möglichkeiten der Einordnung eines Belegs: Entweder zu einer Artikelgliederungsposition, wenn die Belegstelle in der Artikelsammeldatei so zugeordnet ist, oder in den nicht weiter strukturierten lemmatisierten Index, wenn die Belegstelle bislang keiner Artikelposi-
EDV für Wörterbuchzwecke und neue lexikographische Arbeitsweisen
183
tion zugeordnet wurde. Wird daraus eine neue Konkordanz oder Artikeldatei erzeugt, enthält sie zu jedem bereits durchgearbeiteten Lemma einen lexikographisch geordneten Belegblock und einen Block unbearbeiteter, neuer Belege zu diesem Lemma, die zusammen die Grundlage für die weitere Artikelarbeit darstellen. 5. Schluß Im vorliegenden Beitrag wurde der EDV-Einsatz für das mittelhochdeutsche Wörterbuch vorgestellt und es wurden einige zentrale Leistungsmerkmale zusammengetragen, die als Qualitätsmaßstab für die EDV vergleichbarer Unternehmungen gelten können sollten. Die Skizzierung der technischen Durchführung wurde auf den konzeptionellen Grundgedanken bezogen, der in der Einheit von Text- und Belegarchiv in einem rekursiven Verfahren der Beleggewinnung und -bearbeitung besteht. Die Durchführung des vorgestellten Verfahrens wäre ohne die neuen elektronischen Werkzeuge nicht möglich. Es sollte jedoch gezeigt werden, daß die eigentlichen innovativen Qualitäten des vorgestellten Verfahrens nicht im EDVEinsatz an sich liegen, sondern in dem ihm zugrunde liegenden lexikographischen Konzept.
Stephan Moser (Würzburg)
Datenbank-Aufbereitung frühneuhochdeutscher Substantivableitungen
1. Einführung Im Rahmen des Sonderforschungsbereichs 226 „Wissensorganisierende und wissensvermittelnde Literatur im Mittelalter", der von 1984 bis 1992 an den Universitäten Würzburg und Eichstätt arbeitete, existierte ab 1987 auch ein Teilprojekt „Linguistische Probleme der volkssprachlichen Wissensvermittlung", das die Anpassung der Volkssprache an diese ihr neue Funktion anhand der Wortbildung des Substantivs beschreiben wollte. Ich habe das Projekt von seinen Anfängen an bis heute mitgetragen oder doch wenigstens in beratender Funktion nicht nur hinsichtlich EDV-Fragen begleitet. Mit einiger Verspätung sind die Ergebnisse inzwischen publiziert (BRENDEL u. a. 1997) und müssen hier deshalb nicht weiter dargestellt werden. Eingehen möchte ich allerdings auf methodische Überlegungen zur Speicherung der Wortbildungsbelege in elektronischer Form und zur maschinellen Weiterverarbeitung und auf die elektronische Hinterlassenschaft des Projekts in Form einer Datenbank mit 45000 Belegen. Bereits nach der Anfangsphase der Projektarbeit habe ich die - heute muß man sagen ursprüngliche - Datenbankkonzeption vorgestellt (MOSER 1989). Für „eine ausführliche Dokumentation des Datenbestandes und seiner Benutzung" (MOSER 1992, S. 243) scheint mir das Internationale Kolloquium „Maschinelle Verarbeitung altdeutscher Texte" 5 der richtige Ort. Dabei bezieht sich der größere Teil meiner Erläuterungen auf philologische Konzepte und Entscheidungen. Schwerpunkte sind die Gewinnung eines sinnvollen Belegkontextes, die Sortierung des Materials, der Nachweis der Motiviertheit einer Wortbildungskonstruktion und die Darstellung der Wortbildungspotenz eines Stammes. Abschließend gehe ich auf technische Details der Datenbank ein. Datenstruktur und vor allem Benutzeroberfläche sind erfahrungsgemäß von endlicher Lebensdauer. Deshalb halte ich eine knappe Darstellung für ausreichend.
186
Stephan Moser
2. Philologische Beschreibung der Datenbank Die Datenbank enthält sowohl Informationen über ca. 45000 Belege für substantivische Affixbildungen, d. h. Präfixbildungen oder Suffigierungen, als auch Informationen über ca. 2200 Basen dieser Bildungen. Diese Zweiteilung bestimmt auch die Binnengliederung des Abschnitts. 2.1. Was kann man über einen Ableitungsbeleg erfahren? Basis_Sort Affix Zusätze Vokal Text/Stelle Beleg Bedeutung Sem_Klasse Kontext
Kommentar:
bach -lein
Beleg Nr. erfaßt von am
14
KvM 102.32 pächlein kleiner Bach 3.3.2 samnent sich die tropfen ze samen von ainem hol zuo dem ändern, unz daz ain p. dar auz wirt und auz vil pachleinne wirt ain grozer pach
l a t . : Passage fehlt
Abb. 1: Beleg-Datensatz 14 (pächlein KvM 102.32)
Die in Abbildung l gezeigten Felder lassen sich zu drei Bereichen gruppieren. Die Sortiermformation links oben und die Verwaltungsinformation rechts oben seien vorerst zurückgestellt. Die unteren zwei Drittel des gezeigten Formulars enthalten die Kerninformationen zum Beleg. 2.1.1. Beleginformation
Text: Stelle:
Kürzel für den Quelltext Stellenangabe
Beleg: Bedeutung:
Wortlaut der Belegform Synonym o. ä.
Sem. Klasse: Kategorie nach DW Kontext: Kommentar:
Kontext des Belegs, aus dem die Bedeutung hervorgeht Zusatzinformation, z. B. lat. Wort der Vorlage
„Text" und „Stelle" arbeiten mit Textkürzeln und Zitierweisen, die in der Beschreibung des Textkorpus aufgelöst werden (BRENDEL u.a. 1997, S. 11-15,
Datenbank-Aufbereitung frühneuhochdeutscher Substantivableitungen
187
637). Für „Beleg" und „Kontext" gelten wie für alle Stellen, an denen Originaltext aufgenommen wurde, bestimmte Vereinfachungen der Schreibung, die ebenfalls in der Abschlußpublikation beschrieben sind (ebd. S. 20f.). Die „semantische Klasse" ist nach dem Vorbild des Substantivbandes der „Deutschen Wortbildung" (DW 1975) kategorisiert. Der „Kommentar" speichert sonstiges Wissenswertes zum Beleg. Eindeutige Kennungen erleichtern das Herausfiltern bestimmter Informationen. So beginnt ein Kommentar immer dann mit einem Zirkumflex O, wenn die Basis einer Ableitung in ihrem unmittelbaren Kontext vorkommt, wie im folgenden Beispiel aptgötrey .Abgötterei' als Basis für die daraus abgeleitete Personenbezeichnung aptgötreyer: Da merkch, das vngehorsam ainen zu ainem aptgötreyer machet, wann nicht wellen gehorsam sein, ist ain lieb der aptgötrey (UvP 79rb.40).
Derartige Textpassagen sind für moderne Bearbeiter deshalb wichtig, weil sie für die historische Sprachstufe - in diesem Fall das Frühneuhochdeutsche - keine Sprecherkompetenz haben, aus der heraus sie selbst Bedeutungsparaphrasen bilden könnten. Wie vielfältige Informationen aus dieser kleinen Kennung gewonnen werden können, zeigt NORBERT RICHARD WOLFS Kapitel „Begriffsbildung im Kontext" (BRENDEL u. a. 1997, S. 608-627). Die frühneuhochdeutschen wissensliterarischen Texte lassen sich in der Regel auf ältere lateinische Fassungen dieses Wissens zurückführen. Wenn die Bindung so eng ist, daß ein Datenbankbeleg einem bestimmten Wort im lateinischem Text entspricht, so ist dieses Wort im Kommentar verzeichnet. Es steht dabei stets zwischen den Marken „lat.:" und - falls noch weitere Kommentare folgen - „;". Damit ist es möglich, ein mittellateinisch-frühneuhochdeutsches Wörterbuch unseres Materials zu extrahieren und der einschlägigen Forschung zur Verfügung zu stellen - wenn nur die Personalsituation der Mittellatein-Philologie das Anliefern weiteren Materials sinnvoll erscheinen ließe. Der „Kontext" enthält Teile des den Beleg umgebenden Textes, die Hinweise zur konkreten Bedeutung und zur Bildungsweise geben. Die schon früh geforderte automatische Übernahme eines - mechanisch definierten - Kontextausschnitts aus unseren elektronisch vorhandenen Quellen hätte dies nicht geleistet. Stattdessen haben die Erfasserinnen die Umgebung der Belegstellen aufmerksam gelesen und einen unseren Zwecken dienlichen Kontext zusammengestellt. Er kann Elemente enthalten, die relativ weit vom Beleg entfernt stehen, unwichtige Passagen auslassen und zusätzliche Erläuterungen einfügen, wobei alle Eingriffe durch eckige Klammern gekennzeichnet sind. Die Problematik sei an einem Ausschnitt aus dem Rationale des Durandus erläutert:
188
Stephan Moser
Do d«r gocr sün chäm di wf 1t haüwär »e mache«, der cngcl des grozxcn ** räts, do wart er bechlaidet [-»''/'*} mit wcizzer gcwolkchen, do ei di chlar gothait verparig in di rain mcnschait. träger —> trägerin —> blutträgerin). Dieser Weg muß im Sortierstring von links nach rechts nachvollzogen werden. Ganz links steht also der Stamm, die übrigen Bestandteile werden in der Reihenfolge, in der sie hinzukommen, jeweils rechts an den String angefügt. Bei den einzelnen Bestandteilen ist folgendes zu beachten: 1. Stamm Bei Substantiven und Adjektiven das ganze Wort: buche, warm. Bei Verben der Verbstamm: trag. Homonyme werden durch angehängte Ziffern unterschieden: bar l für baren ,tragen' (diese Schreibung wegen des heute noch vorhandenen gebären), bär2
für Bär.
190
Stephan Maser
2. Ableitung eines Verbs Die Ableitung eines Verbs aus einem Adjektiv oder Substantiv wird mit ,,-V" kodiert („V" für Verb); also z. B.: reif-V. 3. Suffix Suffixe werden in normierter Form mit „-" angeschlossen: folg-er. Fugenelemente vor dem Suffix werden vernachlässigt: dien-t für dienst. Rechts antretende Kompositionsglieder kommen nicht vor, da wir Binnensuffigierung nicht aufgenommen haben. 4. Präfix, links an das Wort tretender Bestandteil Präfixe werden in normierter Form mit „+" angeschlossen: gott+ab. Links antretende Kompositionsglieder werden genauso angeschlossen. Sie werden neuhochdeutsch normiert, Fugenelemente bleiben auch hier unberücksichtigt: bet+an-er-in+gott. 5. Wechsel des Stammvokals Änderung des Stammvokals fassen wir als sekundären Bestandteil einer Suffigierung auf. Umlaut, auch „Rückumlaut" wird nicht berücksichtigt. Ablaut des Stammvokals wird direkt im Anschluß an das dafür verantwortliche Suffix vermerkt. Nach ,/' steht der jeweilige Ablaut nach dem gegenwartssprachlichen Stand ohne Umlaut. Beispiele: trag-er-in für tregerin (Umlaut), biet-el/u für büttel, aber auch für potel, da es Bottel nicht mehr gibt (Ablaut und Umlaut), 2 grab-0/u für gruobe (Ablaut), warm-V+er-ung für erwärmung (Umlaut), geh-0/a-lein für gänglein (Ablaut und Umlaut). Das Feld „Vokal", das den tatsächlich realisierten Stammvokal enthält, ist ein heute überflüssiges Relikt der Projektgeschichte. Zum Abschluß und zur Verständniskontrolle noch einige Beispiele: Ein Beleg für enplösserinn hat im Feld Basis Sort den Eintrag bloß-V+ent-er und das Affix -in. Hinter dem Sortierschlüssel brenn-t/u-ig+in-heit verbirgt sich der Beleg inprunstichait. Die Bildung vnbeweglikait ist zweideutig: Als Abstraktum hat sie den Basis Sort-Eintrag wegl+be-lich+un und das Affix -heit, als Negationsbildung den Basis Sort-Eintrag wegl +be-lich-heit und das Affix +un. Ist beides belegbar, so haben wir sie als „doppelt motiviert" auch zweimal aufgenommen. 2
Ableitungen auf -e werden zum Nullsuffix geschlagen; zur Begründung BRENDEL u.a. 1997, S. 69.
Datenbank-Aufbereitung frühneuhochdeutscher Substantivableitungen
191
Ich will nicht verhehlen, daß unser Notationssystem vereinzelt an Grenzen stößt, daß es schwer zu entscheidende Fälle und angreifbare Festlegungen gibt. Das ist kein Wunder, hat es doch die Sprache zum Gegenstand. Die einzelnen Ungereimtheiten aber zu finden, sich an ihnen zu reiben und vielleicht sogar Alternativen vorzuschlagen, möchte ich den neugierigen Benutzern unserer Datenbank nicht vorwegnehmen. Entscheidend ist, daß mit dem Feld Basis Sort ein eindeutiger Verbindungsschlüssel zu den Informationen über die Basen unserer Ableitungen gegeben ist. 2.2. Was will ich über eine Ableitungsbasis wissen? Im Gegensatz zur Belegliste, die über 45000 „tokens" einzeln verbucht, enthält unsere Basensammlung (nur rund 2200) „types", d. h. daß für jede Basis nur ein Datensatz gehalten wird. Aus ihm geht hervor, wie gut die Basis in den einzelnen Texten belegt ist. Daraus können wir auf den Grad der Motiviertheit ihrer Ableitungen schließen. 2.2.1. Basisrang pro Text In Anlehnung an das Erlanger Forschungsprojekt „Nürnberger Frühneuhochdeutsch um 1500" drücken wir diese Plausibilität einer Basis in einem Zahlenwert aus, den wir als „Basisrang" bezeichnen. Zu seiner Berechnung bzw. Interpretation gibt ein Hilfebildschirm unserer Datenbank Auskunft: Hilfe zu den Basisrang-Feldern (BR) in BASEN So ein Feld drückt die Beleglage für eine Basis in einem Text als Zahl aus. Deren Zehnerstelle wird vom Fundort, die Einerstelle vom Basisbeleg bestimmt. r in dieser H i l f e ; Fundort des ve r wendete Ab: Basisbelegs kü r zungen: '·.10: +T + selbe ( r ) 20: +Z+R 30: + Z-R andere ( r ) T Text 4 0 : --Z + R R Raum 50: -Z-R (im Korpus) Z Zeit 60: +W+Z W Wörterbuch i 70: +W-Z (n. im Korpus) i
[„
Zu addierende Einerstellen, wenn nicht die gesuchte Basis selbst belegt ist 1: Konversion ist belegt (das Essen statt essen) . 2: Eine Wortbildung mit der Basis ist belegt (Brechung statt brechen) . 3: Die Basis der gesuchten Basis ist belegt (einig statt einigen) . 4: Eine andere Wortbildung mit der Basis der gesuchten Basis ist belegt (Einigkeit statt einigen) . 5: Basis ist in anderer Bedeutung belegt.
— Substantivische Affixbildung in wissensliterarischen Texten des Frühnhd. — Abb. 4: Hilfebildschirm zum Basisrang
192
Stephan Moser
Der Basis-Datensatz spitz (Abbildung 5) zeigt einige Beispiele, spitz hat in den Texten PK und LA den bestmöglichen Basisrang 10, weil es in diesen Texten selbst belegt ist. In KvM und DR sind mit spitzig bzw. spicze nur Ableitungen von spitz belegt, so daß auf den Fundortwert 10 noch 2 aufaddiert werden muß. In den drei übrigen Korpustexten sind weder spitz noch Ableitungen davon belegt. Für RSA (baltisch, 1390) muß der zeitlich und räumlich benachbarte KvM (bairisch, ca. 1370) herangezogen werden: also 20 plus 2 wegen der Ableitung spitzig. UvP (bairisch, 1416) verhält sich genauso zu DR (bairisch, 1384). Für SL (bairisch, ca. 1490) liegt spicz in PK (schwäbisch, 1472) am nächsten; wir setzen den Basisrang 30 an für zeitliche Nachbarschaft aber unterschiedlichen Sprachraum. Basiswort: spitz
•Basis Sort: spitz ••Stell«5
Text BR
•Wortlaut
KvM
12
PK RSA SL UvP DR LA
10 22 30 22 12 10
spitzig spicz #
4 5 . 2 3 vj . a . ·343.26 u.a. i
spicze spicz spitz
!73.6 382.18 u . a . II 110'1
Lexer DFG DWB
;
# #
·· Kommentar , #spitz '· i
i
; |
Bemerkung:
Abb. 5: Basis-Datensatz spitz (BR = Basisrang, # = definitiv nicht belegt)
Die so zusammengestellten Informationen gelten natürlich innerhalb unserer Fragestellung für alle Affixbildungen mit der Basis spitz? Der Motivationsgrad von ihnen allen kann auf Grund des einen Basis-Datensatzes beurteilt werden. Da liegt es nahe, die Betrachtungsrichtung umzudrehen und zu fragen, welche Affixbildungen mit ein und derselben Basis belegt sind oder - mit ändern Worten welche Wortbildungspotenz eine Basis hat. Von hier ist es dann nur noch ein kleiner Schritt zum Blick auf die Wortbildungsaktivität eines Stammes bzw. dessen Neigung und Fähigkeit, ein „Wortbildungsnest" (BARZ 1988; FLEISCHER / BARZ 1992, 71 f.) auszubilden.
' Auch für andere Untersuchungen könnten sie eine wichtige Grundlage sein.
193
Datenbank-Aufbereitung fr hneuhochdeutscher Substantivableitungen
2.2.2. Wortbildungspotenz Auskunft ber die Wortbildungsaktivit t einer Basis gibt eine zusammenfassende Statistik des Belegbestandes. Ihre Werte k nnen zu den Daten eines Basis-Datensatzes zus tzlich eingeblendet werden. Der Bildschirm wird gegen ber Abbildung 5 un bersichtlicher, aber auch informativer: •Basis Sort: b rl Bemerkung :
Basiswort: baren 'tragen·
BR »Wortlaut KvM 12 gepern PK 10 beren RSA ! SL 12 igebern UvP
•Stelle 162.28 u . a . 93.3 u . a .
·Κοιηηΐθηί3Γ perhaft
;
159.16 u . a .
DR LA
Lexer
j
DFG DWB
-de -t -ung
;
/u
ι
/u
!
17
i
3
9
1 1
5
1
i
1
ϊ
i
Abb. 6: Basis-Datensatz baren (b rl) mit Statistik der Bildungen
•Basis Sort Bemerkung :
Basiswort: geb ren
b rl+ge
•Stelle 162.28 u . a . 93.3 u . a .
BR »Wortlaut KvM 10 gepern PK 10 geberen RSA j SL 10 gebern UvP 10 geperen DR 10 geberen LA 10 geberen Lexer I DFG
:
»Kommentar beren 9 3 . 3 u . a .
159.16 u . a . 62rb.34 u . a . 208.33 249.20 u . a .
j
DWB
i .
-er -t -ung -ung
ΤίΓ ΪΑ
\
/u
+wieder
2
103 23 1
1
:
44
50
|
' 19 , i
4 ' 1
Abb. 7: Basis-Datensatz geb ren mit Statistik der Bildungen
1 9 1
:
i
194
Stephan Moser
Das schon bei der Homographentrennung erwähnte baren4 ,tragen' bildet ein mittelgroßes Nest aus. Vom Verbstamm wird in drei Texten insgesamt 17 mal bürde abgeleitet und jeweils singular hurt und bärung. Aktiver ist die Präfixbildung gebären (Abbildung 7): Die Basis ist in allen Texten, in denen Ableitungen vorkommen, selbst belegt (BR 10). Häufigste Ableitung ist geburt, das konkurrierende gebärung und dessen Erweiterung wiedergebärung finden sich in Texten, die eng von ihrer lateinischen Vorlage abhängen. Daneben gibt es auch zwei Belege für gebärer. Von diesem selbst wird in drei anderen Texten insgesamt 20 mal gebärerin abgeleitet (Abbildung 8), der Basisrang ist dort aber nur 13, weil aus sachlichen Gründen - nicht gebärer, sondern nur dessen Basis gebären belegt ist. Schließlich (nicht eigens abgebildet) dient die in Abbildung 6 erscheinende burt noch als Basis für einmal belegte abburt. •Basis Sort: bärl+ge+er Bemerkung:
BR KvM 13 PK 13 RSA SL UvP DR LA 13
Lexer DFG DWB
f-Affix
i
-in
Basiswort: gebärer
•Wortlaut gepern geberen
•Stelle 162.28 u . a . 93.3 u . a .
•Kommentar # #
geberen geberer
249.20 u.a. I 752
#
j
-i— Zusätze 1
-p- UvP
20
!
2
10
l
!
i
--DR
;
^LA
j
1
8
Abb. 8: Basis-Datensatz gebärer mit Statistik der Bildungen
So bietet die Datenbank einen bequemen Einstieg in die Untersuchung von Wortbildungsnestern, genauer: von deren substantivischen Teilen, da wir ja nur Belege für Substantivwortbildung aufgenommen haben. Wenn man die Semantik der Bildungen miteinbezieht, kann man zu interessanten Ergebnissen etwa zu polysemantischen Stämmen, zur Füllung von onomasiologischen Kategorien oder zu Affixkonkurrenzen gelangen. Alle Phänomene können textbezogen betrachtet werden, wie ich es oben bei der Konkurrenz zwischen geburt und gebärung angedeutet habe. Eine eindrucksvolle Demonstration der Möglichkeiten hat REGINA FRISCH in ihrem Kapitel „Wortbildungsnester" (BRENDEL u. a. 1997, S. 628-636) gegeben. 4
Die Schreibung von Basen und Bildungen folgt hier und im folgenden den oben bei der Sortierung genannten Prinzipien. Es handelt sich nicht um die Schreibung konkreter Belege.
195
Datenbank- ufbe reitung frühneuhochdeutscher Substantivableitungen
3. Technische Beschreibung der Datenbank 3.1. Datenstruktur Die Daten sind in einer relationalen Datenbank (Paradox 4.0) gespeichert. Die Struktur der einzelnen Tabellen und ihre Verbindung gehen aus Abbildung 9 hervor. BELEGE
BASEN
Feldname . — BASIS Soirt Basiswort : Bemerkung KvM PK RSA SL UvP DR LA
Feldtyp
Feldname
11 Q* AJ.O
A20 A120
S S S S S S S
' BASIS Sorc Affix ; Zusätze Beleg Nr Vokal 'Text .Stelle .Beleg Bedeutung 'Sem Klasse V ATI t~ OY t~ rvUilLtiÄL
Kommentar [Erfasser Erf Datum
BA WORT
Feldname
BA STEL
i Feldtyp i
n a a ~1 Gs\*»V ' o S_öOrt öa.8
KvM PK RSA SL UvP DR LA
Lexer DFG DWB
A20 ;
A20 A20
'
A7* A9* N* A2 A3 A9 A20 A30 A12 \9 U\J
A80
A2 D
BA_KOMM
Feldname
Feldtyp
BAsis_Sort
1 Q* Alö
Basis_Sort
KvM
A15
KvM PK RSA SL UvP DR LA
A18* A20
:PK
'RSA SL UvP DR
:
&1 Q* AJ.O
Feldtyp
.
&AI 1 QO 4
A2 0 ; A20 A20 ! A20 A2 0 , 20 ; A20
] Feldname
Feldtyp
!
;LA
i Lexer DFG DWB
AI 5 AI 5
A15 AI 5
A15 AI 5 AI 5 AI 5 AI 5
Lexer DFG DWB
A20 A20 A20 A20 A20 A20 A20 A20 A20
Abb. 9: Strukturen der Paradox-Datenbank des SFB 226/A7 Bei den Feldtypen steht A für Zeichenfolge, die folgende Zahl bezeichnet die maximale Länge, S für Zahl < 32768, N für Zahl und D für Datum. Ein * nach dem Feldtyp signalisiert, daß das Feld zur Sortierung herangezogen wird. Über das in allen Einzeltabellen vorhandene Schlüsselfeld Basis Sort ist BELEGE mit BASEN verbunden. BASEN selbst enthält nur die Basisränge; die Wortlaute, Stellen und Kommentare sind in jeweils eigene Tabellen ausgelagert, die ebenfalls über Basis Sort mit BASEN und BELEGEn verbunden werden können.
196
Stephan Moser
Zusätzlich existiert noch eine Tabelle mit der Statistik der Bildungen, die bei den Abbildungen 6 bis 8 eingeblendet ist. Sie wird automatisch aus BELEGE erzeugt. 3.2. Benutzung Der meistgenutzte Teilbereich der Anwendung heißt „Information" und erlaubt es, BELEGE und BASEN zu sichten, zu durchsuchen und zu bearbeiten. Abbildung 10 zeigt noch einmal den BASEN-Satz spitz, diesmal aber den ganzen Bildschirm. F l : H i l f e F2:Ende F5:FormX F6:BELEGE F7:Tab. F8:Suche Sie sehen BASEN mit Formular l, insgesamt 2206 Sätze. l«Basis Sort: spitz j
Basiswort: spitz
Text
BR
«Wortlaut
«Stelle
KvM PK RSA SL UvP DR LA
12 10 22 30 22 12 10
• spitzig spicz # itt ·# spicze spicz i spitz
45.23 u.a. 343.26 u.a.
Lexer
F9:Edit
•Kommentar j !»spitz
73.6 382.18 u . a . i l l 1104
DFG DWB
:Bemerkung: Jedes · entspricht einem eigenen Bild. Wechseln mit F3/F4. Tab.namen in Zeile 2. Blättern ist nur außen in BASEN möglich. Tabellendarst.(F7) wechselt nach BASEN. Abb. 10: Benutzeroberfläche im Bereich „Information"
Die Programmsteuerung erfolgt über Funktionstasten. Fl zeigt ein Hilfe-Menü, das im Informationsbereich die Themen „Cursorbewegung", „Funktions-Tasten", „Editor-Tasten" und „Basisrang" (vgl. Abbildung 4) anbietet. F2 verläßt den Informationsbereich. Der BASEN-Satz wird in einem Formular5 der Tabelle BASEN angezeigt. Die zweite Zeile informiert darüber, daß es die Nummer l trägt. Dieses Formular l zeigt die Daten aus der Tabelle BASEN und - eingebettet - die dazugehörigen Daten aus den Tabellen BA WORT, B A STEL und BA KOMM. Die Paradox5
Dies die Terminologie von Paradox. TUSTEP verwendet den Ausdruck „Maske" (vgl. den Beitrag von WOLFRAM SCHNEIDER-LASTIN).
Datenbank-Aufbereitung frühneuhochdeutscher Substantivableitungen
197
Terminologie spricht von je einem „Bud" pro Tabelle. F3 würde vom augenblicklich gewählten Bild BASEN zum Bild BA WORT springen („vorwärts"), F4 zum Bild BA KOMM („rückwärts"). Die Zeile 2 würde sich entsprechend ändern. Das Wechseln des Bildes ist z. B. nötig, wenn man Wortlaute, Stellen oder Kommentare bearbeiten („edieren") will. F5 ermöglicht das Wechseln des Formulars. Das Formular 2 zeigt zusätzlich die Statistik der Bildungen an (Abbildung 6 bis 8). F6 wechselt von BASEN zu BELEGE und umgekehrt. Das Programm schlägt vor, den Inhalt von Basis_Sort beizubehalten. F7 schaltet von der Formular- in die Tabellendarstellung und umgekehrt. F8 erlaubt es, Feldwerte bzw. deren Anfänge in Basis Sort zu suchen (sehr schnell) oder Zeichenfolgen in einem beliebigen Feld. F9 schaltet in den Bearbeitungsmodus, der das Ändern der Daten zuläßt. Beim Betrachten von BELEGE kann man noch zusätzlich mit F10 den aktuellen Datensatz in eine Auswahldatei kopieren, die anschließend gedruckt oder exportiert werden kann. Neben dem Informations- gibt es einen Druckbereich mit vielfältigen Möglichkeiten des Drucks und des Datei-Exports nicht nur der Datensätze sondern auch verschiedener Statistiken, die in der Publikation reichlich Verwendung gefunden haben. Der Bereich „Tools" enthält diverse automatisierbare und automatisierte Vorgänge der Datenpflege, u. a. das Aktualisieren der Bildungen-Statistik nach Änderungen am Datenbestand. Der Bereich „Hilfe" informiert in einigen Bildschirmen über die Oberfläche der Anwendung und das Zustandekommen des Datenbestandes. Womit wir wieder am Anfang dieses Beitrags wären.
Literatur BARZ, IRMHILD 1988: Nomination durch Wortbildung. Grundfragen einer funktionalen Wortbildungsbeschreibung am Beispiel des Adjektivs. Leipzig. BRENDEL, BETTINA / FRISCH, REGINA / MOSER, STEPHAN / WOLF, NORBERT RICHARD 1997: Wort- und Begriffsbildung in frühneuhochdeutscher Wissensliteratur. Substantivische Affixbildung. Wiesbaden (= Wissensliteratur im Mittelalter 26). D W 1975: Deutsche Wortbildung. Typen und Tendenzen in der Gegenwartssprache. Eine Bestandsaufnahme des Instituts für deutsche Sprache, Forschungsstelle Innsbruck, Band 2: Das Substantiv. Bearbeitet von HANS WELLMANN. Düsseldorf. FLEISCHER, WOLFGANG/ BARZ, IRMHILD 1992: Wortbildung der deutschen Gegenwartssprache. Unter Mitarbeit von MARIANNE SCHRÖDER. Tübingen. MOSER, STEPHAN 1989: vespervüegerinne, notgedrengnuezz, entzwyschenkommung. Eine Datenbank zur substantivischen Wortbildung in wissensliterarischen Texten des Frühneuhochdeutschen. In: HANS MOSER / NORBERT RICHARD WOLF (Hgg.): Zur Wortbil-
198
Stephan Moser
dung des Frühneuhochdeutschen. Ein Werkstattbericht. Innsbruck (= Innsbrucker Beiträge zur Kulturwissenschaft. Germanistische Reihe 38), S. 87-104. MOSER, STEPHAN 1992: Präfixbildung oder Kompositum? Am Beispiel von mit + Substantiv in wissensliterarischen Texten des Frühneuhochdeutschen. In: Sprachwissenschaft 17, S. 234-243.
Einsatz neuer Medien
Ulrich Müller / Andreas Weiss (Salzburg)
Neidhart und „Wankelbolt" gestern, heute und morgen: Editionstradition und „Neue Medien"
Wir haben uns den Vortrag, der vom Salzburger Neidhart-Projekt ausgeht, aufgeteilt: Nach einem kurzen Rückblick von ULRICH MÜLLER wird ANDREAS WEISS, der dieses Projekt in EDV-Angelegenheiten von Anfang an unterstützt hat, einen Blick in dessen Zukunft versuchen.
1. EDV-Einsatz zur Vorbereitung der Neidhart-Edition in Buchform (Ulrich Müller)1 Sofern jemand - beim Lesen das Tagungsprogramms - im Zweifel gewesen ist, ob es einen „Wankelbolt" in den Neidhart-Texten gibt, so hätte er/sie etwa in der Vers-Konkordanz zur umfangreichsten Neidhart-Handschrift, nämlich dem Berliner Codex mgf 779, also der Neidhart-Hs. c, nachschlagen können (BENNEWITZ-BEHR / JONES / MÜLLER 1984) - und damit wären wir auch schon auf dem Gebiet der EDV-Verwendung: Das Ergebnis des Nachschlagens wäre gewesen: Nein, aber immerhin fünfmal wird in den Texten dort ein Herr namens „Erkenbolt/Erkenpolt" genannt, allerdings nur in den von der Forschung als unecht eingestuften und daher sträflich vernachlässigten, wenn nicht völlig ignorierten Texten (c 3,4,13; 11,9,9; 19,9,15; 42,7,4; 127,6,10: „Herr Erkenbolt"). „Wankelbolt", so hatten unsere vorherigen Projektmitarbeiterinnen, ANNEMARIE EDER und SIRIKIT PODROSCHKO, unseren ersten „richtigen" Projekt-PC genannt, und der Name hat sich als interne Bezeichnung für jene Geräte gehalten (der Standard-Drucker wurde damals übrigens „Friederune" genannt, und man könnte natürlich jetzt sehr tiefsinnig werden über die unbewußten Hinter- und Abgründe jener Namen ...). 1
Der Redecharakter des ersten Beitragsteiles ist - wie leicht erkennbar - weitgehend beibehalten worden. - Die beiden Projektmitarbeiterinnen ELKE HUBER und MARGARETE SPRINGETH, die ursprünglich als Mitautorinnen für den Beitrag angekündigt waren, fehlen nicht infolge irgendeiner Frauenfeindlichkeit unsererseits: Doch beide befanden sich zu Anfang 1997 jeweils in ihrer Examens-Schlußphase, und sie sollten also nicht auch noch mit der Vorbereitung eines Vortragsteils belastet werden (Nachtrag, Dezember 1997: Die genannten Examina [Magisterium bzw. Promotion] sind inzwischen erfolgreich absolviert worden, und zwar mit Arbeiten über den ältesten ,Herzog-Ernst'-Druck [ELKE HUBER; Mag.-Arbeit] sowie die Wiener Piaristenhandschrift des .Nibelungenlieds' [MARGARETE SPRINGETH; Diss.]).
202
Ulrich Müller / Andreas Weiss
Als wir uns in Salzburg, nach der ersten Verlautbarung eines Planes zur Neuedition der Neidhart-Lieder und Neidhart-Melodien im Jahre 1976 (MÜLLER 1977), anfangs sehr langsam an die Arbeit machten (der erste Teil zu den Papierhandschriften, also den sog. „unechten Pseudo-Neidharten" ist inzwischen im Manuskript abgeschlossen), verstand man unter EDV-Benützung den Einsatz von Großrechnern in den jeweiligen Rechenzentren. In Zusammenarbeit mit unserem US-Kollegen GEORGE F. JONES hatten wir bereits in den späten sechziger Jahren damit begonnen, auf den Spuren von ROY WISBEY Computer zur Herstellung von Verskonkordanzen zu verwenden (MÜLLER / SPECHTLER 1977), zuerst zu Oswald von Wolkenstein (1973), dann zum Mönch von Salzburg (1975) und zu Hugo von Montfort (1981), sowie - in unseren Augen besonders wichtig - zu verschiedenen Lyrik-Handschriften (Handschrift A: 1979, B: 1978, c: 1981). Verschiedene der Kollegen aus jener altgermanistischen EDV-Anfangszeit sehe ich hier im Auditorium sitzen, in Ehren und am Bildschirm ergraut - so wie ich auch. Im Rahmen unserer Projekt-Arbeit haben wir dann sozusagen alle Phasen der EDV-Entwicklung der vergangenen zweieinhalb Jahrzehnte mitgemacht.2 Während wir im EDV-Zentrum der University of Maryland (College Park), damals mit Hilfe von Lochkarten, die ersten Konkordanzen herstellen ließen, wollten uns Fachleute des damaligen Rechenzentrums der (Technischen) Universität Stuttgart noch klarmachen, daß ihre „Elektronenhirne" zur Erfüllung solcher philologischen Wünsche weder geeignet noch notwendig seien. Unsere allererste Projektmitarbeiterin in Salzburg, eine Studentin namens INGRID BENNEWITZ, war glücklich, daß wir für sie eine elektrische Kugelkopfschreibmaschine hatten: Die Transkriptionen der Neidhart-Hss. wurden damit geschrieben, und das Schriftbild dieses guten IBM-Stücks ist in den publizierten Transkriptionen von c, O und w verewigt worden (BENNEWITZ/ MÜLLER 1981; BENNEWITZ-BEHR / MÜLLER 1984). Einen Homecomputer namens Commodore 64 verwendeten wir zum Schreiben einiger Aufsatz-Manuskripte, und ins System CP/M, mit einem zeitweise geliehenen Gerät, unserer ersten PC-ähnlichen „machina", speicherten wir dann eine erste Rate unserer Texte. Die eigentliche PC-Zeit begann dann für uns, als wir stolz um unseren Commodore PC 10, einen frühen DOS-Computer mit der damals riesigen Festplattenkapazität von 10 MB, saßen, die früheren Texterfassungen mit einem Umwandlungsprogramm transferierten, neue Texte aus den mit der IBM-Schreibmaschine gefertigten Papieren übertrugen (Scanner gab es ja damals noch nicht) und verschiedene Textprogramme durchprobierten. Entschieden haben wir uns dann für ein für damalige Begriffe wirkliches Wunderwerk aus den USA, nämlich das Akademikerprogramm Nota Bene - und wir verwenden es, nachdem uns ANDREAS WEISS alle 2
Publikationen aus dem Projekt sind bis Anfang der Neunziger Jahre verzeichnet in dem Beitrag von EDER / PODROSCHKO (1994).
Neidhan und „Wankelbolt" gestern, heute und morgen
203
notwendigen Sonderzeichen konstruiert hatte, für alle unsere Zwecke: Texterfassung, einfache Textanalyse, Manuskript-Erstellung und Layout, also dafür, wofür mittlerweilen alle einen Computer verwenden. Natürlich ist das Programm inzwischen sehr in die Jahre gekommen, aber es ist ja bekanntlich nicht ganz einfach, mitten im Rennen die Pferde zu wechseln. In unseren hochgerüsteten neuen „machine" ist jenes Nota Bene (3.0) inzwischen in das DOS-Fenster von Windows installiert und leistet dort nach wie vor die erwünschten Dienste. Von Anfang an kannten wir auch das hochgelobte und erstaunliche TUSTEP nicht umsonst war WILHELM OTT ein Tübinger Studienkollege von mir (wenn auch in einer benachbarten Fakultät), und wir haben damals sogar seine erste TUSTEP-Publikation veröffentlicht („Maschinenerstellte" metrische Analysen zu Horazens ,Ars Poetica'; OTT 1970). Sobald es eine PC-Version von TUSTEP gab, haben wir sie uns besorgt, sind aber nach einigem Experimentieren dann zu einer wohl ganz einzigartigen Lösung gelangt: Wir blieben bei unserem gewohnten Programm, haben aber TUSTEP für dasjenige verwendet, was unser Programm natürlich nicht konnte, nämlich automatisches Kollationieren. MICHAEL TRAUTH aus Trier hat uns alle notwendigen Routinen programmiert, damit wir TUSTEP bei uns einfügen konnten, und so sind wir wohl das einzige Editionsprojekt, wo jenes Tübinger Wunderwerkzeug als „Hilfsprogramm" eingesetzt wurde und wird. Noch eine andere Programmkombination war damals für uns notwendig, nämlich für den EDV-Notensatz: Wir benötigten fast nur „unnormale" Notenzeichen, mußten also diese erst anfertigen, und dafür eignete sich damals (als es Windows noch nicht gab), das DOS-System so gut wie nicht - wir erstellten daher für den ersten Band unserer Edition den Notensatz mit Hilfe eines Atari-Computers und des Programmes „Signum", und unsere damaligen Projektmitarbeiterinnen entwickelten eine raffinierte Druckprozedur, um die verwendeten Programmteile dann im Druckbild völlig zu vereinigen. Unverzichtbar war uns damals EVAMARIA WEINHÄUPL, eine junge Germanistin und Musikwissenschaftlerin, die uns heute sehr fehlt: Ihr Tod vor zwei Jahren, infolge einer tückischen Krankheit, war ein schwerer Schlag für unsere Arbeit. Unser Editions-Projekt war von vornherein auf einen Arbeitsverbünd von Faksimiles, Transkriptionen und Konkordanzen angelegt: Einen wesentlichen Teil davon haben wir zur Entlastung unserer Edition auf bedrucktem Papier publiziert, ein kleinerer Teil der Transkriptionen (die ja jetzt jederzeit nach Bedarf wie eine Konkordanz elektronisch abgefragt werden können) liegt bei uns in Disketten-Form vor. Insgesamt haben wir für unsere editorischen Zwecke die EDVund PC-Technologie primär so eingesetzt, wie es mehr oder minder überall üblich war oder geworden ist: zur Texterfassung, für sehr einfache Analyse-Zwekke, für das Layout der Manuskripterstellung - sowie, mit Hilfe unseres Hilfsprogrammes TUSTEP, für die zumindest teilweise automatisierte Kollationierungs-Arbeit. Es ist nicht notwendig, den vielen detaillierten Beschreibungen von Fallbeispielen hier noch eine weitere hinzuzufügen.
204
Ulrich Müller / Andreas Weiss
Schon recht früh hatten wir aber auch Wunschträume: nämlich einen Teil unserer verschiedenen Komponenten EDV-mäßig vernetzen zu können. Wie das gehen könnte, das wurde mir, im Anschluß an eine Tagung im Grinnell College, Iowa, im Jahr 1985 am „Smithonian Institution's Air and Space Museum" in Washington, D.C., also dem Weltraum-Museum der US-Metropole, durch ROB MARTELLA3 vorgeführt. Optimistisch propagierte ich ein solches Arbeitsprogramm für die mittelhochdeutsche Literatur - hier insbesondere für die Lyrik und zwar in einem Artikel in der „Frankfurter Allgemeinen Zeitung"4, auf den ich immer wieder Zuschriften bekam, sowie in Beiträgen zu unseren altgermanistischen EDV-Kongressen in Trier 1988 (MÜLLER 1991) und Graz 1989 (MÜLLER 1989): allerdings stets mit dem Hinweis, daß dies von anderen geleistet werden müsse - doch passiert ist letztlich nichts. Und hier ist jetzt der Augenblick, um das Wort an meinen Kollegen ANDREAS WEISS weiter zu geben: Er hat die Absicht, mit einem Blick in die Zukunft zu zeigen, was alles mit unserem Editionsmaterial gemacht werden könnte. Daß man in Trier und Bonn ähnliche Überlegungen anstellt, wird niemanden verwundern. 2. Die Neidhart-Edition im elektronischen Medium (Andreas Weiss) Derzeit liegen Texte Neidharts im Neidhart-Projekt-Raum am Salzburger Institut für Germanistik in ganz unterschiedlichen Formaten vor, in gedruckten wissenschaftlichen und populären Ausgaben, in Faksimile-Ausgaben einiger Originalhandschriften auf Papier (farbig und schwarz-weiß) und auf einzelnen Fotografien (Diapositiven und Negativen oder Abzügen auf Fotopapier), in Aufnahmen von gesprochenen oder gesungenen Aufführungen und schließlich als elektronische Dateien in verschiedenen Fassungen, wobei die erste Fassung etwa einer „diplomatischen" Abschrift entspricht, die letzte der Druckfassung.5 Sowohl die buchstabengetreuen Abschriften (typegenaue Repräsentationen) als auch die fotografischen Abbildungen (tokengenaue Repräsentationen) liegen von fast allen für die Edition verarbeiteten Textzeugen vor. Dies hat uns dazu veranlaßt, in 3
Er hatte damals jenes Projekt („System for Digital Storage and Retrieval") zusammen mit HERNAN OTANO eben konzipiert und begonnen, und zwar um die etwa 300 000 Photographien und Zeichnungen des Museums sinnvoll und schnell zugänglich zu machen; zum damaligen Stand s. LELMEY 1985. Was damals ganz neu und kühn klang, ist natürlich inzwischen technisch (wenn auch nicht konzeptionell) völlig überholt. 4 MÜLLER 1986, s. auch MÜLLER 1987 und 1987a. 5 Die Repräsentationen der Texte in den gedruckten Ausgaben weichen bekanntlich mehr oder weniger (z.B. im Falle der Salzburger Neidhart-Edition) stark von den Repräsentationen in den mittelalterlichen Handschriften ab. Die genaue Rekonstruktion der zugrundeliegenden handschriftlichen Repräsentation eines Textes ist auch bei wissenschaftlichen Editionen nicht möglich, z.B. wird auf die buchstaben(typen)genaue Wiedergabe der Wörter in den kritischen Apparaten verzichtet zugunsten einer regelgeleiteten „Normalisierung" der Schreibung. Dies scheint aus literaturwissenschaftlicher Sicht den Philologen/Editoren noch immer vertretbar zu sein. Sprachwissenschaftliche Fragestellungen werden dadurch aber sehr eingeschränkt.
Neidhart und „Wankelbolt" gestern, heute und morgen
205
einem parallelen Projekt zur philologisch konstruierten Edition die verarbeiteten Textzeugen in diesen beiden „philologisch unbehandelten" Ausprägungen den Fachleuten und interessierten Lesern zur Verfügung zu stellen.6 Als Medium ist die elektronische Repräsentation per Computer und Internet vorgesehen. Faszinierend an dieser Repräsentation ist, daß verschiedene Arten von Daten wie Texte, Bilder, Melodien in einem einzigen Medium repräsentierbar sind und so sehr einfach nebeneinander und simultan angezeigt bzw. wiedergegeben werden können. Mindestens ebenso faszinierend ist aber, daß die Daten nur auf einem Datenträger liegen, d.h. physikalisch nur an einem Ort der Welt existieren müssen und dennoch jedem Interessenten, der über einen Computer und einen Internetanschluß verfügt, innerhalb kurzer Zeit an seinem Arbeitsplatz auf dem Bildschirm zur Verfügung stehen können. Die Digitalisierung von analogen Daten, die sich auf vergänglichen Datenträgern befinden und mit der Zeit auch gewissen Deformationen unterliegen, kann einerseits die in analoger Form vorliegende Information auf einem bestimmten Stand fixieren und damit weiteren Verlust vermeiden helfen, sie kann aber andererseits auch dazu dienen, daß die Information einer großen Zahl von Interessenten zur Verfügung gestellt werden kann, ohne daß das Risiko einer Beschädigung eines unersetzlichen Originals besteht. Aus diesem Grund sind mit zunehmender technischer Verbesserung der Digitalisierung verschiedene mehr oder weniger große Projekt-Pläne zur Datenkonversion der intellektuellen Schätze der Menschheit diskutiert worden. Hinzuweisen ist auf „The Memory of the World Programme" der UNESCO (initiiert 1992), dessen Ziel es ist, das dokumentarische Erbe der Welt zu retten, insbesondere durch die Digitalisierung von Originaldokumenten .7 Die derzeitigen Möglichkeiten der Digitalisierung von Bildern und Tönen gewährleisten bereits ein hohes Maß an Übereinstimmung der digitalen Repräsentation mit der analogen Form der Daten. Die erzielbare Genauigkeit wird in den uns hier interessierenden Fällen des Neidhart-Projektes meist nicht ausgeschöpft werden müssen. Als Beispiel aus dem Bereich der mittelalterlichen Handschriftendokumente kann zur Demonstration der aktuellen Digitalisierungsmöglichkeiten das Beowulf-Projekt genannt werden, das durch verschiedene Scantechniken (z.B. UV-Belichtung) und hohe Auflösungen Originale in einer Genauigkeit wiedergibt, wie sie bei Betrachtung des Originals nur für sehr privilegierte Benutzer möglich wäre. Der Leser muß zur Betrachtung der vorgeführten Beispiele auf die entsprechende WWW-Adresse http://www.uky.edu/~kiernan/eBeo6
Ob es bis zum Erscheinen der Salzburger Neidhart-Edition möglich sein wird, die vollständige parallele Ausgabe der Textzeugen in diplomatischen Abschriften und als fotografische Faksimiles fertigzustellen, hängt davon ab, ob dafür zusätzliche Projektmittel aufzutreiben sind, was derzeit noch nicht gesichert ist. 7 Zu diesem Projekt, insbesondere dem Teilprojekt „memoriae mundi series bohemica", ist unter der WWW-Adresse (URL) http://digit.nkp.cz/ nachzulesen und nachzuschauen.
206
Ulrich Müller / Andreas Weiss
wulf/ verwiesen werden.8 Natürlich hat eine solche Digitalisierung in höchster Qualität ihren Preis, der großteils durch den Arbeitsaufwand für die Erfassung bedingt ist. Kaum ins Gewicht fällt dagegen - bei der derzeitigen Entwicklung der Speichermedien - der Bedarf an Speicherplatz, obwohl er im Verhältnis zum Platzbedarf für Text sehr groß ist. Ein einziges Farbbild in einer Farbcodierung von hoher Genauigkeit (24 Bit) und einer Auflösung von 300 mal 300 dpi - was der Auflösung gängiger Tintendrucker entspricht - benötigt bei unkomprimierter Speicherung bereits mehr Speicherplatz als der gesamte Text. Sehr große Bilddateien wären allerdings für die Übertragung via Internet ein Problem - zumindest derzeit -, da bei großer Netzauslastung die Übertragungsrate sehr klein werden kann und damit die erforderliche Übertragungszeit entsprechend zunimmt. Doch lassen sich gute Abbildungen von Handschriftenseiten in Graustufen („schwarz-weiß"), wie im Fall des Neidhart-Archivs vorgesehen, durch den Einsatz von Komprimierungstechnik (z.B. im Format JPEG) auch schon mit relativ geringer Dateigröße erzielen. Da der erforderliche Grad an Genauigkeit der Wiedergabe des Originals verschieden ist, wird man die einzelnen Bilddokumente zweckmäßigerweise in mehreren Formaten anlegen. Die Frage, welche Datenformate gewählt werden sollten, wird durch die Zielsetzung vorgegeben. Da dieses elektronische Neidhart-Archiv jedenfalls über Internet zugänglich sein soll, kommt als Format nur der derzeitige Standard für die Datenrepräsentation im Internet in Betracht, nämlich das im WWW gebräuchliche Format HTML (HyperText Markup Language).9 Es handelt sich dabei um eine Formatierungssprache, die zur gleichförmigen Darstellung von Daten (Texten, Bildern ...) auf unterschiedlichen Plattformen (Betriebssystemen von Computern und Ausstattungen) geeignet ist. HTML liegt derzeit in der vierten standardisierten Version vor, die zu den älteren Standards kompatibel ist.10 Im Bereich der Darstellung von Buchstabenzeichen ist zwar noch nicht der für diplomatische Abdrucke erforderliche Stand erreicht (wie in dem diesbezüglichen Superset SGML), aber bis zur entsprechenden Erweiterung des HTML-Standards wird man sich mit Kompromissen behelfen müssen. Wenig geeignet für unsere Zwecke wäre eine Verwendung von SGML-Codes, die in HTML nicht interpretiert werden können s
Auch dieses Projekt ist Teil eines umfassenderen Datenkonversionsprojekts an der British Library: ,As part of its strategic objectives for the year 2000, the British Library has made a commitment to increase access to its collections by use of imaging and network technology. In the spring of 1993, we began as part of this initiative a big „Electronic Beowulf project, which will in its first manifestation make available in early 1994 a full-color electronic facsimile of Cotton Vitellius A. xv to readers in the British Library and at other selected sites.' 9 Für detaillierte Überlegungen und Argumentation verweise ich auf http://digit.nkp.cz/mwJrame.htm (Introduction). 10 HTML4 ist vom World Wide Web Consortium (W3C) in einer ersten Probefassung im Juli 1997 veröffentlicht worden, aber der Sprachumfang ist noch nicht endgültig fixiert. Ausführliche Informationen darüber sind unter der Adresse http://www.w3.org/ zu finden. Ein Überblick zu den Zeichensätzen und Erweiterungen, durch die ein höherer Grad an Internationalität erreicht werden soll, ist unter der Adresse http://www.w3.org/International/ zu finden.
Neidhart und „Wankelbolt" gestern, heute und morgen
207
und damit zu einem schwer lesbaren Text führen, wie dies im Charette Projekt gemacht wird.11 HTML ermöglicht, wie der Name schon sagt, Hypertextstrukturen auf der Basis und unter Verknüpfung von Informationen, die auf unterschiedlichen Medien repräsentiert sind, es ermöglicht also Multimedialität der Darstellung. Dies ist für ein Archiv mit Text-, Bild- und Tondokumenten eine wesentliche Voraussetzung, um es in einer digitalisierten, virtuellen Form zu erstellen. Zwar sind derzeit die unter HTML gegebenen Strukturierungsmöglichkeiten eines Informationsraumes noch nicht so groß wie bei Hypertextsystemen, die für sich allein stehen (nicht vernetzt im Internet zugänglich), insbesondere nicht im Bereich der Orientierungshilfen. Durch das schnelle Wechseln von einer Bildschirmseite zu einer anderen per Mausklick auf eine Verknüpfungsmarke (Hyperlink) - verliert man in einem Hypertext schnell den Überblick, wo man sich im Gesamttext bzw. Informationsraum befindet, welche Teile man schon gesehen hat, welche man noch anschauen müßte etc. Hier bringt aber die neuere Frametechnologie dadurch Abhilfe, daß verknüpfte Hypertextteile/Informationen in verschiedenen Ausschnitten/Fenstern des Bildschirms gleichzeitig angezeigt werden können und nicht nur hintereinander durch Wechseln der Bildschirmseite. Z.B. ist in unserem Fall das Nebeneinanderstellen der Abbildung des Textes in der Handschrift und der diplomatischen Transkription oder des philologisch edierten Textes oder der Übersetzung des Textes möglich. Kommentare zu einzelnen Textstellen können bei Bedarf in einem weiteren Fenster z.B. am unteren Bildschirmrand angezeigt werden. Durch hypertextuelle Verknüpfung von unterschiedlichen Einheiten aus dem gesamten Informationsraum läßt sich - bei einigem Herstellungsaufwand allerdings - ein flexibles interessegeleitetes Navigieren durch den Informationsraum realisieren. Die freie Zugänglichkeit der Information und die entsprechende Unterstützung von Interaktivität und Kommunikation durch die Möglichkeit, via elektronischer Post (E-Mail) mit den Herstellern des virtuellen Neidhart-Archivs in Kontakt zu treten, sollte ein Schritt in eine Zukunft der weltweiten wissenschaftlichen Zusammenarbeit sein. Wir hoffen auch auf Ergänzungen des virtuellen Archivs durch seine virtuellen Besucher.
11
Im Charette Project (http://www.princeton.edu/~lancelot/) wird z.B. die diplomatische Transkription in SGML codiert und alle Zeichen, die nicht HTML entsprechen, werden daher in einem HTML-Browser (Programm, das HTML codierte Texte darstellen kann, z.B. Navigator von Netscape) im Klartext der SGML-Codierung angezeigt, d.h. die Codierungen werden als solche wiedergegeben. So sind Zeichen, die sich zwischen einem & (Ampersand) und einem ; (Strichpunkt) befinden, keine Buchstaben des darzustellenden Textes, sondern SGML-Codierungen für nicht im ASCII-Code darstellbare Sonderzeichen, z.B. &s; steht für langes s, &q-hbar; steht für q mit darüber gesetztem horizontalen Strich: 1. &LargeP—8; ui&s; que ma dame de chanpaigne; 2. vialt &q-hbar; roman&s; afeire anpraigne. Die durch diese SGML-Notationen erfaßten Sonderzeichen sind mit Abbildungen dargestellt in der Datei, die unter der Adresse hup:// www.princeton.edu/~lancelot/keys.html aufzurufen ist.
208
Ulrich Müller / Andreas Weiss
Meiner Einschätzung nach wird bisher das Internet trotz der durch das WWW inzwischen sehr einfach gewordenen Nutzungsmöglichkeiten von Germanisten leider noch wenig frequentiert. Die Informationsangebote sind daher auch noch nicht so umfangreich wie in anderen wissenschaftlichen Disziplinen, aber die Geringschätzung des Mediums durch die „seriösen" Forscher wäre fatal, weil damit eine große Chance auf schnelle, einfache und umfassende wissenschaftliche Kommunikationsmöglichkeiten verschlafen wird. Um vielleicht bei einigen Lesern dieses Beitrages, die bisher abseits der aktuellen Kommunikationstechnologie ausschließlich im papierenen „Gutenberguniversum" leben, das Interesse an einem Ausflug in das unbegrenzte elektronische Informationsuniversum des WWW zu wecken, gebe ich als letzte Anmerkung12 noch einige mediävistisch interessante Einstiegsadressen an und lade alle Leser ein, die WWW-Adresse des Salzburger Neidhart-Projektes (http://www. sbg.ac. at/ger/neidhart/home. html) aufzurufen und einen ersten Blick in das derzeit noch sehr kleine virtuelle Archiv zu werfen. Literatur BENNEWITZ, INGRID 1980: Transkription des Frankfurter Neidhart-Fragments O. Mit einer Nachbemerkung zum Salzburger Neidhart-Projekt von INGRID BENNEWITZ und Ulrich Müller. In: PETER K. STEIN u.a. (Hg.): Sprache - Text - Geschichte. Beiträge zur Mediävistik und germanistischen Sprachwissenschaft. Göppingen (= Göppinger Arbeiten zur Germanistik 304), S. 155-173.
BENNEWITZ, INGRID/ MÜLLER, ULRICH 1981: Die Berliner Neidhart-Handschrift c (mgf 779). Transkription der Texte und Melodien. Göppingen (= Göppinger Arbeiten zur Germanistik 356). BENNEWITZ-BEHR, INGRID / MÜLLER, ULRICH 1984: Die Wiener Neidhart-Handschrift w. Texte und Melodien. Göppingen (= Göppinger Arbeiten zur Germanistik 417).
12
Aus der steigenden Zahl an interessanten Einstiegsadressen eine gerechte Auswahl zu treffen, ohne das Limit dieses Beitrags zu überschreiten, ist im Januar 2000 nicht mehr so leicht wie im Sommer 1997. Es gibt Universitätsinstitute und Forschungsinstitutionen, die gute Sammlungen von Internetadressen zum Thema als „Linksammlungen" anbieten (http://www.uni-duesseldorf.de/ulb/etexte.html) oder Metasammlungen von Adressen von Linksammlungen (http:// www. xpinfo.uni-koeln.de/mensch/projekt/mahomepaunix.html), aber auch private Initiativen (http://www.mediaevum.de/). Zu allen Mitteilungen von WWW-Adressen ist anzumerken, daß sie zu einem späteren als dem Mitteilungszeitpunkt vielleicht nicht mehr gültig sind, entweder aus dem Netz entfernt oder (ohne Hinweis auf die neue Adresse) „übersiedelt". Ich habe daher von den im Text zitierten Adressen lokale Kopien jener Seiten angefertigt und abgelegt, die für die Zitierung relevant waren. Diese Kopien können über eine Modifikation der folgenden Adresse aufgerufen werden: http://www.sbg.ac.at/neldhart/wankelbolt/xxx.htm (anstelle \onxxx.htm ist jedoch das letzte Wort der zitierten WWW-Adresse einzusetzen, so ist z.B. die Kopie der Adresse http://digit.nkp.cz/mwjrame.htm aufzurufen unter http://www.sbg.ac.at/neidhart/wankelbolt/ mw frame.htm.
Neidhart und „Wankelbolt" gestern, heute und morgen
209
BENNEWITZ-BEHR, INGRID/ JONES, GEORGE F./ MÜLLER, ULRICH u.a. 1984: Verskonkordanz zur Neidhart-Handschrift c (mgf. 779). 3 Bde. Göppingen (= Göppinger Arbeiten zur Germanistik 418 I-III). EDER, ANNEMARIE/ PODROSCHKO, SIRIKIT 1994: Das Salzburger Neidhart-Editionsprojekt. In: Editionsberichte zur mittelalterlichen deutschen Literatur. Beiträge der Bamberger Tagung „Methoden und Probleme der Edition mittelalterlicher deutscher Texte (1991). Hg. von ANTON SCHWOB unter Mitarbeit von ROLF BERGMANN / KURT GÄRTNER/ VOLKER MERTENS/ ULRICH MÜLLER. Göppingen (=Litterae Nr. 117), S. 123-137. LELMEY, BRAD 1985: Preserving the Past on Disk, in: PC Magazine, 25. Juni 1985, S. 199ff. MÜLLER, ULRICH 1977: Überlegungen zu einer neuen Neidhart-Ausgabe. In: ALFRED EBENBAUER u.a. (Hg.): Literatur zur Zeit der Babenberger. Vorträge der Lilienfelder Tagung 1976. Wien (= Wiener Arbeiten zur germanischen Altertumskunde und Philologie 10), S. 136-151. MÜLLER, ULRICH 1986: Bildarchiv im Handgepäck. Die Auswertung mittelalterlicher Handschriften mit Computern. In: Frankfurter Allgemeine Zeitung vom 12.3.1986. MÜLLER, ULRICH 1987: Medieval German Lyric Poetry and Computers: A Project at the University of Salzburg. With the prospect of a possible computer-based integration of facsimile, transcription and concordance. In: Databases in the Humanities and Social Sciences 1985. Ed. by THOMAS F. MOBERG. Osprey (Florida), S. 327-336. MÜLLER, ULRICH 1987a: Mittelalterliche Codices und Computer: Projektskizze einer integrierten Video- und Datenbank. In: Jahrbuch der Universität Salzburg 1983-1985. Salzburg, S. 163-168. MÜLLER, ULRICH 1989: ,PC-Shareware' für germanistische Mediävisten, oder: Zwei Vorschläge für elektronische Bild-, Daten- und Textsammlungen zur mittelhochdeutschen Literatur. In: Historische Edition und Computer. Möglichkeiten und Probleme interdisziplinärer Textverarbeitung und Textbearbeitung. Hg. von ANTON Schwob u.a., Graz, S. 143-149. MÜLLER, ULRICH 1991: Mittelhochdeutsche Texte im Aktenköfferchen, oder: Maschinenlesbare Textsammlungen, Analysemöglichkeiten und Informations-Banken zur mittelhochdeutschen Literatur für (fast) Jedermann'. In: Maschinelle Verarbeitung altdeutscher Texte IV. Beiträge zum Vierten Internationalen Symposion, Trier 28. Februar bis 2. März 1988. Hg. von KURT GÄRTNER u.a. Tübingen, S. 96-103. MÜLLER, ULRICH/ SPECHTLER, FRANZ VIKTOR 1977: Mittelalterliche Handschriften, Computer-Konkordanzen und Textedition. Zu einem Projekt am Institut für deutsche Sprache und Literatur. In: Jahrbuch der Universität Salzburg 1975/77. Salzburg, S. 59-61. OTT, WILHELM 1970: Metrische Analysen zur Ars Poetica des Horaz [mit 16 Lochkarten]. Göppingen (= Göppinger Akademische Beiträge 6).
Roy A. Boggs (Ft. Myers) / Kurt Gärtner (Trier) / Winfried Lenders (Bonn)'
Der Arme Heinrich in Multimedia Format: Transition to the Next 100 Years
Hartmann von Aue: Texts and Utilities
:'·:.: Boggs Gartner Lenders
Image 1
Introduction Almost a century has passed since GuiDO RIEMER (1912) published a basic research tool for Hartmann's von Aue Der Arme Heinrich2. This work provided a Middle High German - New High German dictionary containing an entry for each lemma for word forms occurring in the text, translations and concordances of semantic levels, and, where appropriate, morphological data. It also contained a rhyme index and a name register, as well as a list of word forms not occurring in the critical edition he used but occurring in other critical editions. This research tool has remained in its form and structure an example of how text-specific resources can be made useful for scholars and students. The entry for antwürten provides a general overview of RIEMER's approach: 1
The authors wish to thank their respective universities and the Alexander von Humboldt Foundation for their support of this project. 2 It is instructive that RlEMER's dictionary was written in German, in the United States, and published in both the United States and Germany. He expected the work to receive more than a provincial audience, which at the time, if one assumes that he began work shortly after 1900, was both possible and reasonable.
212
Roy A. Boggs / Kurt Gärtner / Winfried Lenders
antwürten swv. 1) antworten sus antwurte in diu maget 557. sus antwurt ime sin tohter 592. diu maget antwurt im also 1068. 2) übergeben ich wil mich antwürten in gotes gewalt 699.
It was natural that one of Hartmann's works was selected as a basis for these tools. The golden age of medieval German literature was unique in its origins and its quality; and the works of Hartmann von Aue were not only central to its development, these works continue to enjoy audiences today. It is not only the appreciation of Hartmann's stories by poets like Gerhart Hauptmann, Henry Wads worth Longfellow, and Thomas Mann that sets Hartmann apart. New translations of his works continue to appear in the United States.3 Der Arme Heinrich has been recently recorded in Switzerland for radio (MÜLLER, 1988), and a new play by Tankred Dorst (1996) has been produced in Munich recently. Over the last decade alone, thousands of copies of Der Arme Heinrich and the other works - the medieval German texts as well as translations - have been printed.4 This continued reception implies that modern scholarship must provide modem tools for modern scholars and for modern students. The audience assumed by RlEMER is now world-wide, including a growing reception in Asia. And, for the first time since RlEMER's work, new tools provided by advances in technology and multimedia offer possibilities for presentation, of which he could only have dreamed. These tools not only unite a world-wide audience, but provide instant access to many resources previously reserved to a few. They change how we do our work.
Technology and Multimedia: A Perspective The opportunities provided by technology have furnished new concepts for discussion and application. Of particular interest is that of hypertext, a concept which is enjoying wide-spread popularity, especially since the Internet has begun to mature with its browsers and its markup languages. Similar to formal data systems, hypertexts contain links from one data item to another which can be selected and followed by the user at will. Each new entry into the web of links can result in new experiences. When, in the beginning, the term hypertext' began to appear in the literature, it looked to some as if hypertext had created a new form of text, a non-linear 3
THOMAS 1979 (Iwein), 1982 (Erec), 1984 (Der Arme Heinrich); McCONEGHY 1984 (Iwein), KELLER 1987 (Erec); RESLER 1987 (Erec). 4 In Niemeyer's series Altdeutsche Textbibliothek, the Erec is in its sixth edition, the Gregoriux in its 14lh edition, and Der Arme Heinrich in its 16lh edition. The BENECKE/ LACHMANN edition of the Iwein - as revised by LUDWIG WOLFF - is in its 7Ih edition. Still more popular are the bilingual (Middle High German - New High German) editions of Hartmann's works, e.g. Der Arme Heinrich by DE BOOR / HENNE 1994 and GROSSE / RAUTENBERG 1995, the Erec and Iwein by CRAMER 1994resp. 1981.
'Der Arme Heinrich' in Multimedia Format
213
text, which represented the greatest paradigm shift in text preparation and presentation since Gutenberg. However, scholars have been quick to point out that texts have always been organized in a non-linear manner, and as such function much as do hypertexts (KUHLEN 1991, 28ff.). This is true from three view points. First, non-linearity means that, in a linguistic and in a textual-linguistic sense, texts contain both implicit and explicit references internal to the text, including those widely separated within the text itself. KUHLEN describes these forms of non-linearity with the terms Cohesion' and Coherence' (KUHLEN 1991, 30). Second, there are also explicit references, especially in research texts, to material elsewhere within the text. Thus, a text is not read from beginning to end, rather there are references to footnotes, charts, illustrations, graphs, bibliographical entries, etc. These references cause the user to constantly shift from the written text to other locations on the same page, to other pages, or elsewhere in, or at end of the text. Third, there are also references to material outside of the text itself, for example, the situation of a user in a library, who - proceeding from a text searches the on-line catalogue for further references, looks up terms in a dictionary, consults a commentary, etc. The non-linearity of such material is similar to what is meant by the paradigm of the hypertext in a textual environment. Along with the fact that texts are non-linear, they are also not closed systems. There exists a user, someone who interacts with the text. This user not only reacts to the references (links) from within the text, but also supplies additional references (links) not found in the text. The user is part of the system, the same as for any formal data system. Technology has yet to supply a pure information system. In reality, technology supplies data systems. The (summarized) data supplied by a data system, when organized with the data supplied by the user (knowledge, experiences, prejudices, etc.), results in information to the user, which may or may not be useful to that particular user. Change the user, and you change the information. Technology, multimedia and hypertext offer new opportunities to organize and present the data, which in turn offers expanded possibilities for the user to function more efficiently and more effectively. Where RIEMER was limited in the amount of data and the form of the links he could supply the user, technology now offers in a compact, relatively inexpensive package, with internal links to a wealth of material and external links to a world of material, not only vastly increased access to traditional materials and images but also to video and audio materials. There is now the possibility of a significant increase in the quality of the information when these new data systems are combined with (more and more informed) users. These opportunities represent the beginning of a new century of textual studies; and the Hartmann 2000 project proposes to enhance the quality of Hartmann studies by making available the beginnings of a new data system for a wider, and more informed audience.
214
Roy A. Boggs / Kurt Gärtner / Winfried Lenders
The Hartmann 2000 Project: Purpose It is the central purpose of the Hartmann 2000 project to develop multimedia editions of the supporting resources to the critical editions of Hartmann's works, which can be delivered in a highly portable, readily available, and very inexpensive format. The resulting editions and their resources are to be made available on CD-ROM and eventually over the Internet. CD-ROM has been chosen as the primary medium because as larger and larger amounts of data can be stored and transported on CD-ROM, volume and cost have become far less a consideration than for printed formats. There is hardly a computer on the market today which does not contain a CD-ROM reader and a modem port. Computer users are already familiar with textual material on CD-ROM (for example, a geographical atlas with a route planner on CD-ROM), not to mention a wide array of games and other forms of entertainment. At the same time, once the material itself is prepared and ready for distribution, production costs are minimal.5 The Hartmann 2000 Project: Versions Two initial formats have been selected for a draft, multimedia version of Der Arme Heinrich. One is a stand-alone program, written in Visual Basic, with the data stored in a relational database. This is to ensure that the program will function properly on any MS-Windows platform. Currently a standard CD-ROM holds 650 megabytes of data. Der Arme Heinrich material in toto takes up about 250 megabytes, in uncompressed format. Remove the sound files, and the CDROM has ample space for all of Hartmann's works. Even with the sound, there is still room for supporting and enriching materials. The second format is an edition developed for WordCruncher (1996). It also runs on any MS-Windows platform. In WordCruncher, the electronic edition of Der Arme Heinrich provides the full range of possibilities offered by a search and retrieval engine combined with a multimedia front end. All of the texts, including the critical editions as well as transcriptions of the manuscripts, are completely searchable. When a word form is selected and highlighted, all occurrences in the text of the word form along with a predetermined amount of context are displayed. WordCruncher can also retrieve sets of word forms with context, series of word forms with context and common parts of word forms with context. This spectrum of possibilities for text analysis is complemented with additional facilities such as co-occurrence displays and the calculation of z-scores. 5
A CD-ROM can be produced for less than $5.00 at current prices. The two volume, 786 page lemmatized concordance for Hartmann's works (BOGGS 1979) in printed format costs ca. $165.00, and the data fill only a small portion of a CD-ROM.
'Der Arme Heinrich' in Multimedia Format
215
The two draft formats differ in programming considerations in that the Visual Basic version is tailored to meet specific goals, while the WordCruncher version comes with a wide range of functions, some not necessarily central to the project but still available for further expansion and development. Also, as a proprietary product, there is a small cost for each user license.
The Hartmann 2000 Project: Goal The goal of the project is to provide a comprehensive tool, which will support both pedagogy and research. The material should provide an avenue to introduce students easily and effectively to Hartmann studies on world-wide basis, while (re-)introducing basic processes of proceeding from the manuscripts to the critical text. Clear, immediate indications of meaning and grammar reduce the frustrations of searching large, sometimes minimally relevant dictionaries and present a positive, encouraging approach to mastering the language in the texts. The texts can be better appreciated as literary monuments. For scholars, the presentation of manuscript images in color, which can be enlarged and studied, the necessary transcripts, along with resource tools such as dictionaries, concordances, rhyme indices, and name registers in an easily accessible format mean that Hartmann studies can maintain their historically justified position in the center of medieval studies. If only the color images of the manuscripts and the fragments were provided, the CD-ROM version would be justified.
Hartmann 2000 Overview: Entities The first step in the Hartmann 2000 project was the development of the entity chart, presenting the general logic and flow of a multimedia format for Der Arme Heinrich (v. Image 3). As with any large computer oriented project, you must first know your data. A chart for RlEMER is also provided in Image 2 for comparison. An entity is anything someone knows something about. Here, the center piece is the critical text (GÄRTNER 1996), and the entities are those things, along with the text itself which we know something about that support use of the text: a dictionary, a rhyme index, a concordance, etc. They are called here in loto Utilities'. In comparison to RlEMER's dictionary, rhyme and text concordances, in Hartmann 2000 the amount of data that is immediately available and the links between the various data items themselves are greatly expanded. Everything flows from the critical text, either from the verse to images of the actual manuscript pages and their transcriptions; or from individual morphological forms to lemmata, grammatical specifications, translations, additional notes, and then further to general and rhyme dictionaries, and on to general, name, and reverse
216
Roy A. Boggs / Kurt Gartner / Winfried Lenders Dictionar r
Transcriptions (A) Ba, Bb C D E £
Wordfem
Critical Edition
Lemma Grammar Meaning
AH
Notes
Manuscrt its Ba Bb
AH
Fragments"
Concord; mce
Reverse Concordance
Critical Edition
Name Register
Name Register Intro
Rhyme Dictionary
Riemer: - Entities Image 2
Sound
Biblio
Help Rhyme Dictionary
Hartmann 2000: Der Arme Heinrich - Entities Image 3
concordances. In addition to these, as supporting material, are an introduction, complete sound clips for the text, a bibliography and help files. The images below correspond to several windows of Der Arme Heinrich (other windows are described in the following pages.). The user can scroll the text and select verses, or word forms, thereby establishing links to other windows. Choices range from Exit, Dictionary, Concordance, Manuscripts, Transcriptions to Help (across the top of the first image) to, for example, data about a selected word form. Here the word form from the first verse of the text, geleret, in the top-right image.6
6
The user is also given a choice of interacting with the material in the various windows in either German or English. There are plans to add other language options to expand the set of potential users.
217
'Der Arme Heinrich' in Multimedia Format Dictionary
Concordance
Manuscripts Inscriptions
Click on a Line of Text
2 3 -J 5 6
7 ···· ?
10 li
Kin ritter so geleret was daz er an den buochen las swaz er dar an geschriben vant; der Mas Hartman genant, dienstman was er ze Ouwe. er nan iia nanicje schouwe an mislichen buochen; dar an begunde er suochen ob er iht des vunde, da mite er s were stunde möhte senfter Machen,
l
2 3 4 5
Ein Ritter fo gelecet was
Daz er an den bvchen las Was er dar an ge/chriben vant Der was hartiaan genant Vn was ein dinfteman von owe
Image 4: Examples of Windows and Their Contents: Critical Edition Data and Translations Manuscript Transcription
While the data themselves may be stored in a computer or on a CD-ROM in complex interrelated structures (relational tables and indexed files), the user's view is little different from non-linear processes with which they are familiar. The WordCruncher version provides much of the same functionality (Kant / WordCruncher, v. Image 5). Supporting data are linked through buttons displayed on the screen. The buttons provide links that are so arranged that from any position in the text, the corresponding manuscript images, transcriptions, and other data can be immediately retrieved and displayed. The illustration in Image 5 shows the first eleven verses of Der Arme Heinrich, together with the buttons «Ba>, (Bb), etc.) , with which images can be retrieved, for example from the Manesseschen Liederhandschrift.
218
Roy A. Boggs / Kurt Gärtner / Winfried Lenders
* i«* a*™ a* JHartmarin_von_Aue:JDer_arme_Heinrich
-•Weingarten>[ ;Handschrift_A>l 'Handschrift Ba>
0 Von dem armen Heinriche
[Ein ritter so geleret was j daz er an den buochen las | swaz er dar an geschriben vant; | der was Hartman genant, ! dienstman was er ze Ouwe, j er nam im manige schouwe ! an mislichen buochen; ! dar an begunde er suochen ! ob er iht des vunde, 5 da mite er swsere stunde möhte senfter machen,
Image 5
The illustration in Image 6 contains a display of the text along with the corresponding manuscript page. The images can be selectively enlarged or reduced as needed. The illustration in Image 7 contains a selection from verses 641 through 660, as well as the linked fragment from manuscript C in a greatly enlarged format. The option of zooming in and out on manuscript pages offers the user easy access to the manuscript. It is possible that, by zooming in on the text of a manuscript, passages not yet understood might be deciphered.
Opposite page: Images 6 (above) and 7
'Der Arme Heinrich' in Multimedia Format
219
g £*> S«»* a*™ H* Hartmarm von Aue: Der arme Heinrich
'Manesse· -Weingarten; Handschrift A> /On dem armen Heinriche
sEin ritter so geleret was J daz er an den buochen las 3 S swaz er dar an geschriben vant; l der was Hartnian genant. J dienstman was er ze Ouwe. 6 g er nam im manige schouwe an mislichen buochen; 81 dar an begunde er suochen 9 § ob er iht des vunde. 10 i da tnite er swsre stunde H i möhte senfter machen,
641 Ijä gebot «· unde bater 642 f daz man muoter unde vater 643 B mirme und ete biete. 644 B und geheizet daz ze miete Beginn C t#'r (i 6451 daz der sele genist werde 6461 und lanclip üf dei' erde. 6471 du gihst, du wellest din leben 648 B durch unser beider vreude geben; 6491 du wilt iedoch uns beiden 650 * daz leben vaste leiden.
651 daz din vater unde ich 652 ne leben, daz ist durch dich, 652a waz solde uns lip unde guot, 652b waz solde uns werltlicher rnuot, 652c swerme wir din enbeeren? [135X 652d dune soll uns niht beswxren. Ende C lit 'r ^j 653 g ja soltü, liebe tohter min, unser beider vreude sin, unser liebe äne leide, unser liehtiu ougenweide, unsers libes wünne, ein bluome in dlnem küraie, unsers alters ein stap. und läzestu uns über din grap gestän von dinen schulden, du muost von aotes hulden
jfi
220
Roy A. Boggs / Kurt G rtner / Winfried Lenders
A general prerequisite for the linking of manuscript images in the electronic edition is that the digital format of the images be available in the best possible resolution. Even though archives and libraries have generously granted access to the Hartmann manuscripts in their possession, the cost of high resolution digital images has to date proven prohibitive. Nevertheless, one can assume that in the very near future the costs of digital cameras will continue to drop. For purposes of the Hartmann 2000 draft, two black / white images are used, which have been published by M LLER (1971), and SOMMER (1973). Image 8 shows the first screen of a context search on the word form arbeit. Here, only the preceding and following verses are included for each word form found in the text. The actual Re ΕΛ View Options Help number of verses retrieved can be expanded as necessary. The next step is jar umoe nat er sicn genant" to include data for each form as it is daz er siner ίΜ·^ die er dar an hat geleit found in context. Finally, it is also possible through wan swaz mir vur wirt c eteit imbedded links to display linguistic von guote ode von § data for each word form or for each daz truwe ich volbringen verse (note the button with the letter ~ ' '.·. .. . ' ' . ,g' between the verse number and the 13ar zuo er in uoertruoc verse in the first image). In the curdaz er deheine Γ^·^· rent WordCruncher version, only von vremedem gewalte leit grammatical data have been made Γ;' " · ' · ' . ~ available. However, other linguistic daz er νιι wuieciicnen leit features have been developed and den kumber und die 35211! diu im ze ITdenne geschach will be added at a later stage in the UJ~ project. _^^Jl
t_ _..__i
Λ
Image 8
Hartmann 2000: Manuscripts - ,ad fontes' Manuscripts and transcriptions are central to the study of any medieval text, and it is important to make excellent, color images readily available. With digital cameras, digital images can be copied directly onto CD-ROM, with a resolution which is more discerning than the human eye. From a practical standpoint, the images can be modified, manipulated or enlarged by the user for better viewing. The manuscripts become, in effect, widely available where they have for centuries been seen by only a few, which in turn enhances scholarly opportunities. At the same time, the originals can be better protected and preserved, for only in rare instances would viewing of the actual manuscript be necessary.
'Der Arme Heinrich' in Multimedia Format
221
There is, however, something more than practicality involved in having excellent images of the manuscripts and fragments, i.e., the primary sources, available. In an age when ease is sometimes paramount, students and scholars alike often make assumptions, based upon (translations of) critical editions, which are not necessarily supported by the manuscripts. The editor of a critical edition has at some point to make a decision, either it will be this way or that. The decision is not necessarily correct or incorrect, it is simply a learned opinion. Overall, a critical edition can give the user an excellent understanding of a text; but for purposes of research, be it historical, linguistic, or literary, the primary sources remain the most important. This is especially true now that they can be made readily available. There is another aspect which is important, especially at the introductory levels. As already stated, the golden age of medieval German literature is unique. Even though sometimes copied one or two centuries later, the manuscripts, in their color and in their images, make real what can only be guessed from critical editions. They present a balance to chap-book-like editions with the text on one page and a generalized translation on the facing page. Manuscript images permit the user a look into the past; and when coupled with the other entities in the Hartmann 2000 edition, they proffer an appreciation of the material, which isn't otherwise possible. Needless to say, the color versions of the plates from the Manesse manuscripts cannot be adequately described. There is an inherent quality in a manuscript which surpasses any other level of presentation.
Hartmann 2000: Transcriptions - the Transition Transcriptions present an intermediate resource between the manuscript and the user. They make more readily apparent what is written on the manuscript. For the Hartmann 2000 project, the transcriptions have raised the most issues. On the one hand, if the project is to run on any Windows platform in a simple manner, then there are symbols in the transcriptions which are not part of the standard ASCII character set. This means that data cannot be simply treated as textual data. On the other hand, there are solutions, from providing and loading a special character set to making each page into an image corresponding to the respective manuscript page. There is also the fact that some users do not like new software to modify their systems, even with presumably rigorous undelete programs. As a simple example, the character ,{' appears in the special symbols fonts, but not in normal character fonts. 1 Ein ritter Jo geleret was 2 Daz er an den bvchen las 3 Was er dar an gejchriben vant
222
Roy A. Boggs / Kurt Gärtner / Winfried Lenders
It can be inserted into the verse as needed, it can be saved in a *.doc document, but it cannot be saved easily in a text file and recalled. The same is true for the ,ce' digraph, but in different sense. While it is found in most character fonts, it also cannot be saved easily in a normal text file. Which, in both cases, means that the symbols cannot be easily loaded into a database. For the CD-ROM version, the solution is to work directly within Windows from WORD to ACCESS, and then to the Jet Engine database. And while it does not complexly resolve the issue, it is possible to treat text sections as images. For the Internet, however, some special coding, even under HTML markup, remains desirable. Manuscripts present unique considerations, and universal fonts sets can not contain each and every special symbol. At same time, users can not be expected to download and maintain special fonts for each manuscript and the accompanying transcriptions they encounter on the Internet. When the project is transferred to the Internet, there will have to be a happy medium which makes sense and is workable. The material must be in a format which permits it to be easily down-loaded. The question will be, how much and to what extent the transcriptions should be usefully coded. Hartmann 2000: Raw Data - A Dictionary from the The Bottom Up RlEMER's dictionary contains an entry for each lemma and a translation which is intended to give the user a meaning for each entry and some indication of its semantic field in Middle High German.7 In general, this approach is useful. However, in detail, the results can be confusing; for example, the entry for undersmden: undersniden stv. ein Kleidungsstück aus verschiedenen/artigem Tuche zusammensetzen; bunt, mannigfaltig, abstechend machen; untermischen ir gruoz wart spaehe undersniten mit vil seltsaenen siten: ir herzeliebe wart also daz in daz lachen begöz der regen von den ougen 1411.
For the student new to Middle High German this is a lot of material for only one example in the text (which meaning does one pick?);8 and for the scholar it is not enough material (when did the transition from the historical background to the 7
His approach had historical roots going back to JACOB GRIMM and GEORG FRIEDRICH BENECKE. Dictionaries required dedication and an enormous cost on time and labor. Each lemma was written on a sheet of paper and put in loose-leaf binder. Notes and examples were added over a period of time, and at some point the task of preparing the individual dictionary entries was begun. These were published in fascicles over several years, with each new fascicle containing updates and corrections to material in previous fascicles. 8 Or even for one option: abe brechen, given in the small LEXER (MATTHIAS LEXER: Mittelhochdeutsches Taschenwörterbuch. 38. Unveränd. Aufl. Stuttgart: S. Hirzel, 1992) äs ,stn. verleumden', which is difficult for verse 620 wan er uns leit nie gesprach und ouch daz guot nie abe gebrach.
'Der Arme Heinrich' in Multimedia Format
223
lemma's most common usage take place, and what are the most common usages?). There are other resources that better answer these questions. This is an example of working from the top down. Now that data is widely and instantly available, it is time to work from each individual word form for a lemma and then proceed to a larger more inclusive synthesis of the data. It is time to work from the bottom up. The basic data format for the raw data for Der Arme Heinrich looks as follows: l Ein{ein/art/a/ein} ritter{ritaere/stm/knight/Ritter} so{sö/adv/so/so*} geleret{lerea/ swv/educated/gebildet*} was{wesen/stv/was/war} {so [in such a manner]} {geleret [learned]}
where Ein is the word form, {ein/art/a/ein} represents the lemma9, the grammatical form, and possible English and New High German translations. An * indicates the record also contains additional notes for the particular word form, which then follows the last word form of the verse.10 The notes, along with alternate translations, can contain comments, additional data, and anything that would help further define the meaning and use of the lemma - such as historical explanations of names, etc. The raw data in this form are easy to update and maintain. They can be loaded into a datagelehrt [learned] base; they are easy to manipulate; they can be expanded; and they can be easily shared. Thus, the window given in here for geleret{leren/swv/ educated/gebildet*} {gelehrt [learned]} when the user has selected the English version. Image 9
· · · · · · · · · · · · · · · ·
All entries for Der Arme Heinrich dictionary, which is contained on the CDROM and is available through selections similar to help-files, begin with a translation, and notes, and build towards a text specific dictionary. The dictionary for Hartmann's works begin with the text specific dictionaries, here the entry for undersniden in Der Arme Heinrich, undersniden stv. durchsetzen (1411 h, ir gruoz wart spcehe undersnlten mit vil seltsienen siten) [mix]. 9 10
Lemmatization follows the Findebuch (GÄRTNER et al. 1992). MHG enwart = en- -wart, in verse 67 would be found as en-{en/präf/neither/weder) -\vart{werden/stv/was/wurde }
and
224
Roy A. Boggs / Kurt Gärtner / Winfried Lenders
and then build towards the author specific dictionary - which theoretically can be expanded to a genre specific dictionary, etc." Since space is no longer a central concern, the possibilities for manipulating the raw data become almost endless. The basic principle is: if it doesn't exit in the text, don't include it - if it exists, it must be included. There is thus no reason - in the world - not to work from complete and accurate data: from the bottom up!
Hartmann 2000: Concordances and Indices Once the raw data are in the format described above, they can be used to generate the (reverse) concordances, the rhyme dictionaries, and the concordance (v. Image 10). These represent basic research tools and appear in the form of helpfiles, where the user selects the file from a menu and the specified data are made available. {^Reverse Concordance £ite £dit Bookmark Options Help Contents
(stnm) (part. adj) (part. ad j ) (part. adj) (part. adj) (part. adj) (part. adj) (stf) (adj) (part. adj) (f) (stf) (conj) (stf) (stf) if) (f) (f) (swm) (stf) (Stf)
Back
Print j ende s web ende ·&) phyine Dictionary , ' 1 ..." T^T" ""T^ werbende":." Bookmark Optrons {Help "Gierende - stimmende ~~Contorts Print Back bitenende weinende abe misseuende abe : habe 257 |^ Concordance swinde : ungehabe 54 File Edit Bookmark Options Help varnde habe : abe 258 Back Print schrunde ungehabe : abe 5 Contents stunde ac ode bewac : tac 525 A geb*rde doner slac : tac amen (interj) beswaerde enmac : tac 1246 amen erde gelac : suontac vröude lac : phlac 471 1520 h des helfe uns got! amen, werltvroude : tac 162 98 phaf fe äne (präp) mac : tac 795 9 helfe phlac : lac 472 : tac *i«s klage suontac : gelac 21 h iht äne Ion befibe, tac : bewac 526 100 h diu stät äne meisterschaft.
Image 10 11
A draft version of a Dictionary to the Complete Works of Hartmann von Aue, similar in format to that of RIEMER, exists already. It had been compiled by ERICH GIERACH and was made available by Professor LUDWIG ERICH SCHMITT (University of Marburg, Germany) from his personal library until donated in 1996 by his widow, Ursula Schmitt (Marburg), to the Akademie der Wissenschaften und der Literatur zu Maim. It is currently available to scholars in the Arbeitsstelle für das Mittelhochdeutsche Wörterbuch at the University of Trier.
225
'Der Arme Heinrich' in Multimedia Formai
Hartmann 2000: Enrichment and Other Resources Alone with color, high resolution images of manuscripts and the fragments, multimedia on CD-ROM also open new possibilities for enriching the material. Images of medieval culture, cloths - especially those mentioned in the text, maps, etc. The list of possibilities is almost endless. The challenge is to make the text come alive. On the Hartmann 2000 CD-ROM for Der Arme Heinrich, for example, there are sound bites corresponding to each segment of the text. These require a minimal sound capability, which most computers now have. Sound bites do, however, take up space on the CD-ROM if they are not carefully edited and copied. They can be played separately and they do enhance the use of the text. File Edit Bookmark Options Help Contents
Search
Back :
Print
Der Arme Heinrich File £dit Bookmark fjptions
Text
Contents
Back
H.elp Print
A (1693e, fil mur defemius a < G rtner, Kurt. Hartr a afr. Niemeyer Verlag, 19 bardes) \ % Armer Heinrich Ηί[ΐΙΕ3|| • 26 abbet s t chof) Γ ' " " ; I ' Working Bibli bis abe a d v . Z :1 rrruoter d :::::::::: c Boggs, Roy A. Hart i emer da Gesamtwerk. it, t h e r Return Kraus-Thomson, Π abe p rap '·'· 11 •
χ. .-··" ·.' ·
Γ--. '·
t ,: ·
! -' i
lr
Image 11: Bibliography, Dictionary, Sound
Along with items such as sound bites, items such as bibliographies and dictionaries offer yet further resources for study and scholarship. These can be printed and expanded as desired. These present in their own right resources which also often appear as individual publications.
226
Roy A. Boggs / Kurt Gärtner / Winfried Lenders
In Conclusion: Effects and Application Critical texts are at best transient and the utilities described above presents a set of tools for not only working with texts but also for further refining the editions themselves. Because the text and the apparatus of a critical edition are not constants, they are subject to change. New manuscripts and fragments are sometimes discovered; the evaluation of the relation among the manuscripts and fragments change; or, the editorial principles underlying a current critical edition are modified, for example, scholars wish a full instead of a partial apparatus. Critical editions are dynamic. As editors react to their audiences, current critical editions quickly become outdated and new ones take their place. Changes are sometime small and much remains the same, but the progress from the old to the new is continual.
archetype *C
*AB
*DB
archetype *CE
Ba
Bb
*ABD
*BD Ba
Image 12
Bb
'Der Arme Heinrich' in Multimedia Format
227
This instability / stability of critical editions and the use of utilities, such a those described above, to enhance scholarship and support a new critical edition can be seen on the most recent critical edition to Der Arme Heinrich. Some thirty years ago during the restoration of an organ in the cloister church in Benediktbeuren eleven fragment strips were discovered. They have been used to seal several of the organ's pipes. Only four of the strips could be readily identified. They were from Der Arme Heinrich. It was not until recently that KARIN SCHNEIDER and KURT GÄRTNER were able to identify several of the others as also belonging to Der Arme Heinrich. In total there were about 400 verses contained in these strips, now Munich fragment (E), including a new conclusion, which differed from the those in the Strassburg (A) and the Heidelberg (B a )/ Cologny (Bb) manuscripts. These verses caused the relation among the various manuscripts to be seen in a new light. The old version and the new are given Image 12 respectively. While these new verses and their implication for scholarship led to a new critical edition and a new evaluation of the textual history, this was not without frequent reference to the images of the other manuscripts, their transcriptions, concordances, indices, etc. Technology, here with its ability to enhance and increase the resolution of images and to place these much improved images side by side, along with their various utilities, presents possibilities, not only dreamed about by RlEMER, but available until now to only a few. The Hartmann 2000 project suggests that we are about to change how we do our work. And this is only a beginning of what can be done. There is more which can still only be dreamed about, but which is sure to follow. It is, however, not technology but philology alone which improves the quality of our work. Technology is an ancillary helping the scholar to collect the relevant data for one's work in a far less time consuming manner. Bibliography BOGGS, ROY A. 1979: Hartmann von Aue. Lemmatislerte Konkordanz zum Gesamtwerk. 2 vols. Nendeln: KTO Press, now: Tübingen: Niemeyer (= Indices zur deutschen Literatur, 12/13). CORMEAU / GÄRTNER 1985 = Erec von Hartmann von Aue. Hg. v. ALBERT LEITZMANN, fortgef. v. LUDWIG WOLFF, 6. Aufl. bes. v. CHRISTOPH CORMEAU und KURT GÄRTNER. Tübingen: Niemeyer (= Altdeutsche Textbibliothek 39) [1. Aufl. 1939]. CRAMER 1981 = Hartmann von Aue: Iwein. Text der siebenten Ausgabe von G.F. BENECKE, K. LACHMANN und L. WOLFF. Übersetzung und Anmerkungen von THOMAS CRAMER. 3., durchges. und erg. Aufl. Berlin, New York: Walter de Gruyter [1. Aufl. 1966].
228
Roy A. Boggs / Kurt Gärtner / Winfried Lenders
CRAMER 1994 = Hartmann von Aue: Erec. Mittelhochdeutscher Text und Übertragung von THOMAS CRAMER. Frankfurt: Fischer Taschenbuch Verlag (Fischer TB 6017) [Zuerst 1972]. DE BOOR / HENNE 1994 = Hartmann von Aue: Der arme Heinrich. Mittelhochdeutscher Text und Übertragung. Auf der Grundlage der Textedition von HELMUT DE BOOR durchgesehen, neu übertragen, mit Anmerkungen und einem Nachwort versehen v. HELMUT HENNE. Frankfurt: Fischer Taschenbuch Verlag (Fischer TB 6138) [Zuerst hg. und übers, v. HELMUT DE BOOR 1963; zuerst übers, v. HELMUT HENNE 1981] Dorst, Tankred 1996: Die Legende vom Armen Heinrich. Unter Mitarbeit von URSULA EHLER. Frankfurt: Suhrkamp Verlag. FlSHER 1983 = The Narrative Works of Hartmann von Aue. Translated by R.W. FISHER. Göppingen: Kümmerle (= Göppinger Arbeiten zur Germanistik 370). GÄRTNER et al. 1992 = GÄRTNER, KURT; GERHARDT, CHRISTOPH; JAEHRLING, JÜRGEN; PLATE, RALF; ROLL, WALTER; TIMM, ERIKA. Datenverarbeitung: HANRIEDER, GERHARD: Findebuch zum mittelhochdeutschen Wonschatz. Mit einem rückläufigen Index. Stuttgart: S. Hirzel. GÄRTNER 1996 = Hartmann von Aue: Der arme Heinrich. Hg. v. HERMANN PAUL. 16., neu bearb. Aufl. bes. v. KURT GÄRTNER. Tübingen: Niemeyer (= Altdeutsche Textbibliothek 3) [Zuerst Halle 1882; ab 7. Aufl. bes. v. ALBERT LEITZMANN, 1930; ab lO.Aufl. bes. v. LUDWIG WOLFF, Tübingen 1953; 15. Aufl. bes. v. GESA BONATH, 1984]. GlERACH - Der arme Heinrich von Hartmann. Überlieferung und Herstellung. Hg. v. ERICH GlERACH. Heidelberg: C. Winter, 1913; 2., verb. Aufl. 1925 (= Germanische Bibliothek 3. Abt.: Kritische Ausgaben altdeutscher Texte 3). GROSSE/ RAUTENBERG 1995 = Hartmann von Aue: Der arme Heinrich. Mittelhochdeutsch/Neuhochdeutsch. Übers, v. SIEGFRIED GROSSE. Hg. v. URSULA RAUTENBERG. Stuttgart: Philipp Reclam jun. (Universal-Bibliothek 456) [Zuerst hg. von FRIEDRICH NEUMANN 1958], Hauptmann, Gerhart: Der arme Heinrich. Eine deutsche Sage in fünf Akten. In: Gesammelte Werke. Jubiläumsausgabe. Bd. 3. Berlin [o.J.], S. 263-373.
HENNE s. DE BOOR / HENNE 1994. Kant, Immanuel: Gesammelte Schriften. Hg. von der Königlich Preußischen Akademie der Wissenschaften. Bd. Iff. Berlin 1910ff. (= Akademie-Ausgabe). Kant / WordCruncher: Kants gesammelte Schriften, nach den Bänden I-XIII der Akademie-Textausgabe aufbereitet für WordCruncher für Windows. Hg. von IKS e.v., Bonn. [ISBN: 3-9805626-0-3]. KELLER 1987 = Hartmann von Aue: Erec. Translated by THOMAS L. KELLER. New York: Garland (= Garland Library of Medieval Literature, ser. B, vol. 12). KUHLEN, RAINER 1991: Hypertext. Ein nicht-lineares Medium zwischen Buch und Wissensbank. Berlin, Heidelberg: Springer. LENDERS, WINFRIED: Kants gesammelte Werke in elektronischer Form. In: Kants Gesammelte Schriften (Akademieausggabe) - eine kritische Bestandsaufnahme. KantstudienSonderheft. Berlin: de Gruyter. Erscheint voraussichtlich 2000. Longfellow, Henry Wadsworth: The Golden Legend. 1851. In: Poetical Works, Riverside Ed., vol. V, 1890, p. 139-292.
'Der Arme Heinrich' in Multimedia Format
229
McCONEGHY 1984 = Hartmann von Aue: Iwein. Edited and translated by PATRICK M. McCONEGHY. New York: Garland (= Garland Library of Medieval Literature, ser. A, vol. 19). MÜLLER 1971 = Hanmann von Aue: Der arme Heinrich. Abbildungen und Materialien zur gesamten handschriftlichen Überlieferung. Ed. by ULRICH MÜLLER. Göppingen: Kümmerle (= Litterae 3). MÜLLER, ULRICH 1988: „Dann schlug der Mönch ein Kreuz": Ricarda Huch und ihre Version des „Armen Heinrich" des Hartmann von Aue(\9&&). Mit einem Ausblick auf eine Rundfunkproduktion des „Armen Heinrich" von Urs Helmensdorfer (1985). In: FRANCIS G. GENTRY (Hg): Semper idem et novus. Festschrift for Frank Banta. Göppingen (= Göppinger Arbeiten zur Germanistik 481, S. 275-283).
RAUTENBERG s. GROSSE/ RAUTENBERG 1995. RESLER 1987 = Hartmann von Aue: Erec. Translated, with an Introduction and Commentary by MICHAEL RESLER. Philadelphia, PA: University of Pennsylvania Press. RIEMER, GUIDO C.L. 1912: Wörterbuch und Reimverzeichnis zu Dem Armen Heinrich Hartmanns von Aue. Göttingen: Vandenhoeck & Ruprecht; Baltimore: The John Hopkins Press (= Hesperia 3). SOMMER 1973 = Hartmann von Aue: Der arme Heinrich. Fassung der Handschrift Bb Abbildungen aus dem Kaloczaer Kodex. Hg. v. CORNELIUS SOMMER. Göppingen: Kümmerle (= Litterae 30). THOMAS 1982 = Erec by Hartmann von Aue. Translated, with an Introduction by JfOHN] W. THOMAS. Lincoln, NB; London: University of Nebraska Press. THOMAS, J[OHN] W. 1984: The Best Novellas of Medieval Germany. Columbia, SC: Camden House (= Studies in German Literature, Linguistics, and Culture, vol. 17) [p. 22-35 Poor Henry}. WACHINGER 1992 = Gregorius von Hartmann von Aue. Hg. v. HERMANN PAUL, neu bearb. v. BURGHART WACHINGER. 14., durchges. Aufl. Tübingen: Niemeyer (= Altdeutsche Textbibliothek 2) [1. Aufl. 1882]. WACKERNAGEL/ STADLER 1911 = Der Arme Heinrich Herrn Hartmanns von Aue und zwei Prosalegenden verwandten Inhalts. Mit Anmerkungen und Abhandlungen v. WILHELM WACKERNAGEL. 3. Aufl. neu hg. v. ERNST STADLER. Basel: Benno Schwabe & Co. [Zuerst Basel 1855; 2.Aufl. hg. v. W. TOISCHER. Basel 1885]. WÖLFF 1968 = Iwein, eine Erzählung von Hartmann von Aue. Hg. v. G.F. BENECKE und K. LACHMANN. Neu bearb. v. LUWIG WOLFF. 7. Ausg. 2 Bde. Berlin: Walter de Gruyter & Co. WordCruncher for Windows. Pleasant Grove, UT: Johnson & Company and Brigham Young University, 1996.
Heinz Körten / Michael Prinz (Regensburg)
Perspektiven einer rechnergestützten Onomastik. Multimedia in der Namenforschung
Historische Siedlungsnamenbücher auf multimedialer Grundlage (M. Prinz) Als im März vergangenen Jahres GERTRUD DIEPOLDER, die ,grande dame' der bayerischen Landesgeschichtsforschung, bei einem gemeinsamen Arbeitstreffen der Mitarbeiter am ,Historischen Atlas' und am »Historischen Ortsnamenbuch von Bayern' ihren Vortrag mit den Worten resümierte: „Es fehlt uns einfach die 25.000er", wies sie einmal mehr auf ein gravierendes Problem in der siedlungsgeschichtlich orientierten Forschung hin: die beschränkte Verfügbarkeit von Kartenmaterial in den gängigen monographischen oder lexikographischen Druckwerken. War hier konkret die .Topographische Karte' im Maßstab 1:25.000 betroffen, die der Historikerin zur Visualisierung siedlungs- und besitzgeschichtlicher Verhältnisse nötig erschien, so hatte DIEPOLDER bereits 1959 in einem kleinen Beitrag herausgestrichen, daß grundsätzlich jede Karte, „von der Kartenskizze bis zum Katasterblatt, vom Kartogramm bis zur Luftaufnahme", als Hilfsmittel von herausragendem Wert gelten dürfe (DIEPOLDER 1959, 33). Man kann rasch den Eindruck gewinnen, daß sich für das skizzierte Problem eine computative Lösung geradezu aufdrängt. Den PC als Instrument der Bündelung verschiedenartiger medialer Objekte wie Text, Bild oder Ton zu verwenden, scheint in Zeiten einer bisweilen schon überzogenen Multimedia-Euphorie allzu selbstverständlich. Doch eine Sichtung diesbezüglicher Ansätze liefert ein völlig anderes Bild und zeigt, daß der Computereinsatz bei laufenden namenkundlichen Forschungsprojekten in recht unterschiedlichem Umfang für sinnvoll befunden wird.1 Während z.B. für das zwischen 1988 und 1991 erschienene ,Urner Namenbuch' die ausgezogenen Quellen noch traditionell verzettelt wurden (Hue / WEIBEL 1988, VI), werden die meisten großräumigen Namenbücher mittlerweile mit Hilfe von Datenbanken projektiert, so etwa das solothurnische Namenbuch von ROLF KULLY (1996, 90), das ,Orts- und Flurnamenbuch des Kantons Nidwaiden' (WEIBEL 1996, 119), HANS RAMGEs ,Südhessisches Flurnamenbuch' (RAMGE 1996, 161) mit inzwischen über 600.000 Datensätzen oder 1
Der von HEINRICH TIEFENBACH (1996) herausgegebene Tagungsband zum Regensburger Symposium des Jahres 1994 mit dem Titel „Historisch-Philologische Ortsnamenbücher" leistet eine umfassende Zusammenschau aktueller Projekte der Siedlungsnamenlexikographie hierzulande.
232
Heinz Körten / Michael Prinz
die bei Prof. Greule in Regensburg entstehende Belegdatenbank zum ,Neuen Förstemann - Bayern'.2 Die programmtechnischen Lösungen können dabei im Einzelfall sehr unterschiedlich beschaffen sein und individuelle Präferenzen bei der computativen Aufnahme der Daten bzw. bei der Darbietung der Ortsartikel widerspiegeln. Es ist auffallend, daß diese insgesamt noch recht bescheidenen Ansätze zu einer computerunterstützten Onomastik allesamt auf den produktionsseitigen Einsatz des PCs abzielen, publikationsseitige Aspekte dagegen völlig aussparen. Den momentan erreichten Standard hat T. BANZER sehr zutreffend beschrieben: „Der Zettelkasten ist durch eine Datenbank ersetzt und die Schreibmaschine durch eine Textverarbeitung" (BANZER 1996, 135). Um aber auf die eingangs angerissene Kartenproblematik zurückzukommen: Ikonische Elemente können auch in datenbankgenerierten Namenbüchern nach wie vor nur begrenzt zum Einsatz kommen.3 Einen Ausweg aus diesen medienbedingten Restriktionen kann vielleicht die zunehmende Erschließung der in den letzten Jahren entwickelten Multi- bzw. Hypermedia-Technologie4 für namenkundliche Anwendungen aufzeigen. Als Entwurfsfassung wurde im Rahmen einer Magisterarbeit ein derartiges Siedlungsnamenbuch auf multimedialer Grundlage unter dem Arbeitstitel , MEDIA' am Lehrstuhl für deutsche Sprachwissenschaft der Universität Regensburg entwickelt.5 Nach dem Programmstart findet sich der Benutzer vor einer Art Inhaltsübersicht (s. Abb. 1), der eine Darstellung des Regensburger Umlands aus Apians ,Landtafeln' als Illustration hinterlegt ist. Das Multimedia-Namenbuch orientiert sich im Aufbau zunächst noch am traditionellen Medium: Es besteht aus sechs Kapiteln, die an gebotener Stelle sinnvoll miteinander verzahnt wurden, was, neben der Einbindung nontextueller Elemente, den eigentlichen hypermedialen Mehrwert des Buches ausmacht. Das erste Kapitel, der monographische Teil des Namenbuchs, enthält nun verschiedenartige Informationen: vom siedlungsgeschichtlichen Befund über die Quellenlage bis hin zu besitzgeschichtlichen Verflechtungen. Der Informationsschwerpunkt liegt jedenfalls eindeutig im textuellen Bereich. 2
Die optimistische Prognose D. GEUENlCHs (1995), daß allein durch Computerunterstützung ein Abschluß der mittlerweile mehr als drei Jahrzehnte umfassenden Projekthistoria des sogenannten ,Neuen Förstemann' „mit relativ wenig Mühe und Mitteln realisierbar" sei, erscheint allerdings leicht hyperbolisch. 3 Dabei werden aber z.B. die mundartlichen Namenformen für die spätere lautschriftliche Transkription in den meisten Fällen bei der Erhebung auf Tonband aufgenommen; einer nachträglichen Digitalisierung stünde somit nichts im Weg. 4 Die Verwendung dieser Ausdrücke ist im Augenblick wegen ihrer terminologischen Unscharfe nicht unproblematisch. Einen Beitrag zur begrifflichen Klärung leisten etwa RlEHM / WlNGERT 1996. 5 Verwendung fand dabei das Windows-Autorensystem .Multimedia-Toolbook' der Firma Asymetrix.
Perspektiven einer rechnergestützten Onomastik
233
Abb. l Nachdem aus dem Inhaltsverzeichnis ein beliebiges Thema ausgewählt wurde, gelangt der Benutzer zu verschiedenen Textseiten. Im Interesse einer möglichst transparenten Anlage wurde hier jeder inhaltliche Abschnitt exakt einer Seite zugewiesen. Anstatt umzublättern (wie in einem echten Buch), muß der Leser mit Hilfe der Pfeiltasten zeilen- oder seitenweise den Text auf- und abscrollen. Das sequentielle Blättern von einem Thema zum nächsten erfolgt dagegen durch Buttons am unteren Bildschirmrand. Selbstverständlich kann über das Inhaltsverzeichnis auch wieder eine Seite gezielt selektiert werden. Um in den Lexikonteil zu gelangen, der die Ortsartikel des Namenbuchs in Form einer Datenbank bereithält, muß der Benutzer zunächst einen Datensatz als Zielpunkt lokalisieren; er soll das Lexikon gleichsam an irgendeiner Stelle aufschlagen. Die Auswahl des Ortsartikels kann dabei sowohl textuell, über die Eingabe eines Namen, als auch graphisch, mit Hilfe einer Karte des Untersuchungsraums, erfolgen. Beim textuellen Zugang wird der Ort aus einem Kombinationsfeld ausgewählt und über eine Schaltfläche angesprungen. Allerdings ist es gut möglich, daß der Leser zunächst noch keinen bestimmten Namen angeben kann und sich über die Streuung der Orte in einem bestimmten Rayon erst allmählich herantasten möchte. Eine Karte des Untersuchungsraumes, im vorliegenden Fall des Landkreises Regensburg, gibt ihm dazu die Möglichkeit. Per Mausklick wird der gewählte Kartenausschnitt dann vergrößert. Sobald einer der ausgewiesenen Orte vom Benutzer angewählt wird, wechselt das Programm zum entsprechenden Datensatz, hier zu dem für den Namen Wenzenbach (s. Abb. 2).
234
Heinz Körten / Michael Prinz
.emma
Wenzenbach: Gem-
863/82 Menzinpah (Tr Regensburg 45); 863/85 Menzpah (Tr Regensburg 54); 863/85 Menzinpah (Tr Regensburg 59), 880/85 Menzinpah (fr Regensburg 94), 882/85 Menzinpah (Tr Regensburg 96), 889 Menzinpah (Tr Regensburg 136), 8S9/91 Menzinpah (Tr Regensburg 153), 1186 Manzenb(a)hc (Urk Regensbiffg-St.Johann 8), 1190-1200 hlevtzinhach (Tr Reichenbach 71), 1326 Mentzenpach (Matr Lehner, S 172), ca.1350 C 1696 Mertzenback (Matr Fmk, S 19), 1363 Mentzenbach (RUB II, S.243); 1374 Mentzenback, 2x, (G. Stadtbuch, S 155), 1387 Mentzenpach (RB X. S. 208); \W7 Menzenbach (RB XI, S.398); 1425 Menczenbach (RB XIII, S.«). 1429 Mentzenbach (CodRat II, 1045); 1438 C 1809Menzenpach (Matr 1438, S.XXI), 1482 Mentzenback (Matr 1482, Nr.395), 1508 Mentzenbach, 2z, (Visit 1508. 128), 1526 Mentzenbach (Visit 1526, 127), 1526 Wentzenbach (Visit 1526, 118), 16 JhE Mentzenpach (Top Apian, S 2), 1665 Wenzenbach, 2x, (Matr Forster, S. 38. 86), 1782/87 Wenzenbach, 2x, (Matr Heckenstaller, £.67. 83), 1824 Wemeabach (Chr Gemeiner IV, S 82).
Ortsartikel
Forstemani'i stettt Menzenbach (LK Pfaffenhofen) mm PN Manzo. Diese Deutung wird von Ttioinar und Schwarz auch auf den vorliegenden Ort übertragen Belegreihe und mda. Form zeigen PrimänerJaut, im 16. Jh. beginnt der Wechsel von n e b s t ] neben AI < / a l > 5 8 . 6 , 3 + < a l > a n d e r n ] anderen AI < / a l > 5 8 . 6 , 4 + < a l > n o c h ] bisher AI < / a l > 5 8 . 7 , 2 + < a l > s c h o n ] # / + a d d # / - f r ü h e r AI < / a L > 58.13,l+oder als Objektiven schlechthin,] # / + o m # / Al < / a - > 58.13,99+ 58 . 20,3+allgemeingeltenden] allgemein geltenden AI < / a l > 5 8 . 2 0 , 6 + < a l > g e m i s b r a u c h t e n ] mißbrauchten AI < / a l >
In dieser Datei sind die Angaben der Stelle, an denen beim automatischen Vergleich ein Unterschied gefunden wurde, als Stellenangaben genutzt für das Wort, hinter dem („+" nach der Stellenangabe) der Apparateintrag mit den für den Satz notwendigen Markierungen in die Textdatei eingetragen werden soll. Mit dem folgenden Aufruf des Programms #KAUSFUEHRE werden die Apparateinträge dann in den Text eingefügt und mit diesem zusammen auf die Datei schella.app geschrieben: #datei,schella.app,fr=ttkausfuehre,schella,schella.app,,+,*,ko=kapp,pr=-stddrt ibmpc *eof
Das Ergebnis dieses Laufs ist eine Datei, die alle für den Satz von Text und Apparaten notwendigen Bestandteile enthält, wie die folgende Abbildung (Abb. 5) zeigt: Die Markierungen und (für den Anfang und das Ende von Apparateinträgen zu einem einzelnen Wort) bzw. und (für Apparateinträge, die sich auf längere Textpassagen beziehen; steht hinter dem letzten Wort, auf das sich der Apparat bezieht) haben - wie die übrigen, schon in Abb. l gezeigten Markierungen - die Form von SGML-konformen tags, die direkt als Makros für das Satzprogramm benutzt und über Parameter in die gewünschten typographischen Codes aufgelöst werden können. (Der besseren Übersichtlichkeit halber sind die Apparateinträge einschließlich der zugehörigen Markierungen hier grau hinterlegt angezeigt.)
318
Wilhelm Ott
Datei »Ef10.flPP*SCHELi.ß.ftPP 58.2 !Kku>zu zeigt den Idealismus in seiner frischesten Erscheinung, und vielleicht in einem Sinn, den er späterhin verlor. Wenigstens ist das Ich noch überall als absolute nicht als subjektives genommen.
nebst) neben Al_
m
Die Briefe über Dogmatismus und Kriticismtts (No. .), die zuerst im Niethammer'schen neben ]=nebst I:'·_
3
Abb. 6: Elektronische Edition (html), mit einem www-Browser angezeigt
Fenster unterhalb des Textes den zugehörigen Apparateintrag. Von dort kommt man durch Anklicken eines Quellen-Sigels zur entsprechenden Stelle in der damit bezeichneten Textversion, wo dann die gleichen Operationen durchgeführt werden können. Die Prozeduren, die zu dem in Abb. 6 gezeigten Ergebnis führen, können hier nicht mehr im einzelnen erläutert werden. Sie unterscheiden sich von dem hier Gezeigten vor allem darin, daß die Apparateinträge selbst nicht in den Text eingetragen, sondern in einer eigenen Datei gesammelt werden, während in den Text an den entsprechenden Stellen automatisch Links auf die einzelnen Einträge in der Apparate-Datei eingefügt werden; die oben gezeigten Korrekturanweisungen werden also anders aufbereitet, bevor sie mit dem Programm kausfuehre verarbeitet werden. Da außerdem für die Darstellung und für die Benutzung beide Textfassungen gleichrangig behandelt werden sollten, wurde die gleiche Prozedur mit vertauschten Rollen wiederholt: um die rechte Hälfte der Abb. 6 zu erzeugen, mußte dabei die Datei SCHELLE zur Kollationsgrundlage, die Datei SCHELLA zum Textzeugen B werden (vgl. das entsprechende „Handschriftensigel" im Apparatefenster der rechten Bildschirmhälfte).
320
Wilhelm Ott
Arbeitsweise von TUSTEP Das hier vorgeführte Beispiel ist, wie schon gesagt, etwas „idealisiert" und übergeht die „von Hand" durchzuführenden Kontroll- und Arbeitsschritte. Es läßt andererseits einige wichtige Eigenschaften von TUSTEP erkennen, die für kontrolliertes wissenschaftliches Arbeiten wichtig erscheinen. Dazu gehört die Möglichkeit, nicht nur interaktiv Änderungen im Text vornehemen zu können oder eine Formatierung zu steuern, sondern alle Arbeitsschritte über Parameter im Detail zu steuern und automatisch ablaufen zu lassen. Dabei wird jeweils der Ausgangstext aus einer Quelldatei gelesen und nach den in den Parametern definierten Regeln verarbeitet; das Ergebnis wird in eine oder mehrere Zieldateien geschrieben. Die Ausgangsdaten bleiben also unverändert / unversehrt und stehen u. a. für anschließende (automatische) Vergleichsoperationen weiterhin zur Verfügung. Die verwendeten Prozeduren stehen in der Regel ebenfalls in (Programm-)Dateien und stellen somit gleichzeitig eine (im Idealfall durch zutreffende Kommentare erläuterte) präzise Dokumentation der einzelnen nicht-interaktiven Arbeitsschritte dar. Bibliographische Hinweise auf Berichte aus der Praxis der computergestützten Editionsarbeit mit TUSTEP finden Sie im www unter http://www,uni-tuebingen.de/zdv/zrlinfo/ed.html.