342 9 3MB
German Pages 238 [240] Year 2013
Reichtum und Armut der deutschen Sprache
Reichtum und Armut der deutschen Sprache
Erster Bericht zur Lage der deutschen Sprache Herausgegeben von der Deutschen Akademie für Sprache und Dichtung und der Union der deutschen Akademien der Wissenschaften
Gefördert von der Fritz Thyssen Stiftung für Wissenschaftsförderung und aus Mitteln des Beauftragten der Bundesregierung für Kultur und Medien.
ISBN 978-3-11-033462-3 e-ISBN 978-3-11-033473-9 Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2013 Walter de Gruyter GmbH, Berlin/Boston Druck und Bindung: Hubert & Co. GmbH & Co. KG, Göttingen ∞ Gedruckt auf säurefreiem Papier Printed in Germany www.degruyter.com
Inhalt Geleitwort 1 Vorwort – Die deutsche Sprache ist wie sie ist
5
Wolfgang Klein Von Reichtum und Armut des deutschen Wortschatzes Peter Eisenberg Anglizismen im Deutschen
15
57
Ludwig M. Eichinger Die Entwicklung der Flexion: Gebrauchsverschiebungen, systematischer Wandel und die Stabilität der Grammatik Angelika Storrer Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge 171 Anhang Barbara Seelig Zu Datengrundlage und Datenbearbeitung
213
121
Geleitwort Seit öffentlich über die deutsche Sprache nachgedacht wird, gehört die Sorge über ihren vermeintlichen Verfall zu den wiederkehrenden Themen. Immer wieder wurden Phänomene des Sprachwandels als Symptome eines Niedergangs beargwöhnt, fürchteten Kritiker eine „Überfremdung“ des Deutschen durch andere Sprachen – das Lateinische, dann das Italienische und Französische, schließlich das Englische –, galten Veränderungen stilistischer Konventionen gewissermaßen als Anfang vom Ende der deutschen Sprache. Seit öffentlich über die deutsche Sprache nachgedacht wird, gehören Beschwichtigungen vermeintlicher Voreiligkeit und die Korrektur der Verwechs lung von Grammatik und Ästhetik sowie von Sprache und Sprachgebrauch zu den wiederkehrenden Antworten auf die Kritiker. Immer wieder wurden stilisti sche Verhässlichungen und sich ausbreitende Regelverstöße als Symptome eines Sprachwandels interpretiert. Seitdem das Englische zur „lingua franca“ geworden ist, seit im Laufe des 20. Jahrhunderts die Zeitungen und der Rundfunk als Massenmedien, dann das Fernsehen und schließlich die elektronischen Medien veränderte Kommunika tionsformen und -konventionen hervorgebracht haben, seit die Durchdringung der deutschen Sprache mit Ausdrucksformen von Soziolekten, von Jugendspra chen und Fachjargons zugenommen zu haben scheint – seitdem sind die alten Debatten neu aufgeflammt. Verarmt der Wortschatz der deutschen Sprache wirklich? Wie verändert der Einfluss des Englischen das Deutsche? Verkümmern die reichen Ausdrucks möglichkeiten, die uns die über Jahrhunderte gewachsene deutsche Grammatik bietet? Wie verhalten sich Amtsdeutsch und das geschriebene Standarddeutsch zueinander? Diesen vier Fragen geht der Erste Bericht zur Lage der deutschen Sprache nach, den die Deutsche Akademie für Sprache und Dichtung und die Union der deutschen Akademien der Wissenschaften hiermit vorlegen und mit dem sie der Fachwissenschaft wie der Öffentlichkeit neue und nicht selten auch überra schende Ergebnisse präsentieren. Ausgewählt wurden diese vier Themengebiete – Wortschatz, Anglizismen, Flexion und „Streckverbgefüge“ – auch des großen und dauerhaften Interesses wegen, das ihnen in den aktuellen Sprachdiskus sionen entgegengebracht wird. Diesem Interesse soll der Bericht empirisch fun dierte und sachkundig ausgewertete Informationen anbieten. Analysiert wurde die Entwicklung der deutschen Sprache im 20. Jahrhun dert anhand der Schriftsprache. Der Bericht soll damit für die notwendigen und,
2
Geleitwort
wie zu erwarten ist, kontroversen Debatten eine verlässliche Grundlage geben. Denn wer es ernst meint mit der Liebe zur deutschen Sprache, braucht gesicher tes Wissen, um ihren wirklichen Zustand und die Entwicklungen zu verstehen, denen die Sprache zwangsläufig unterworfen ist. Wenn das Bemühen um eine Verbesserung der sprachlichen Bildung in den Schulen und Universitäten, das Streben nach einer privaten und öffentlichen Sprachkultur, die Stärkung einer reichen und sich lebendig entwickelnden deutschen Sprache und ihrer Wider standskraft gegen Verarmung und Verfall sich nicht in Sonntagsreden und Unter gangsszenarien erschöpfen sollen, dann bedürfen sie dieser Sachkenntnis. Mit unserer Sprache, so Wolfgang Klein, stehe uns ein wunderbarer Konzertflügel zur Verfügung. Wir sollten also lernen, darauf zu spielen. Die Zusammenarbeit der Deutschen Akademie für Sprache und Dichtung und der Union der deutschen Akademien der Wissenschaften hat sich als sehr fruchtbar erwiesen. Die in der Union zusammengeschlossenen Wissenschaftsakademien, in denen wissenschaftliche Exzellenz von über 1 900 Mitgliedern vereint ist, das Institut für Deutsche Sprache, das Max-Planck-Institut für Psycholinguistik, Vertreter der universitären Sprachwissenschaft und die Deutsche Akademie für Sprache und Dichtung, zu deren Mitgliedern ja Sprachwissenschaftler ebenso gehören wie Literaturkritikerinnen, Übersetzerinnen und Schriftsteller, haben diese große Aufgabe gemeinsam bewältigt. Mit dem nun vorliegenden Ersten Bericht zur Lage der deutschen Sprache werden nicht nur die ersten Ergebnisse zur Diskussion gestellt, mit ihm sind auch wichtige Grundlagen für die weitere Zusammenarbeit gelegt worden. Dass dieser Bericht überhaupt zustande kommen konnte, verdanken die Beteiligten der großzügigen Förderung durch die Fritz Thyssen Stiftung und durch den Beauftragten der Bundesregierung für Kultur und Medien. Das Max-PlanckInstitut für Psycholinguistik in Nijmegen, das Institut für Deutsche Sprache in Mannheim und die Technische Universität Dortmund haben Mittel für Personal und ihre Infrastruktur zur Verfügung gestellt. Die Berlin-Brandenburgische Aka demie der Wissenschaften schließlich hat für das Projektteam die räumlichen und technischen Voraussetzungen geschaffen und die Arbeit vielfältig unter stützt. Ihnen allen danken wir sehr herzlich. Ganz besonderer Dank gilt den vier Wissenschaftlern, die das Vorhaben mehrere Jahre hindurch geleitet und dabei mit großem und beharrlichem Einsatz nicht nur ihre Teilbereiche bearbeitet, sondern auch die zugrundeliegenden Korpora aufgebaut und die Arbeitsstrukturen entwickelt haben: Ludwig M. Eichinger, Peter Eisenberg, Wolfgang Klein und Angelika Storrer. Barbara Seelig hat von Berlin aus die Zusammenarbeit koordiniert und die Arbeit der wissen
Geleitwort
3
schaftlichen Hilfskräfte geleitet. Wir danken ihnen allen. Und wir wünschen uns, dass dieser Erste Bericht zur Lage der deutschen Sprache die öffentliche Diskus sion über die deutsche Sprache bereichern und befruchten möge.
Heinrich Detering Präsident der Deutschen Akademie für Sprache und Dichtung
Günter Stock Präsident der Union der deutschen Akademien der Wissenschaften
Vorwort – Die deutsche Sprache ist wie sie ist Das öffentliche Interesse an der deutschen Sprache hat in den vergangenen Jahren erheblich zugenommen. In teilweise lebhaften Diskussionen wird über den Einfluss des Englischen, über den Verfall oder die Verarmung des Deutschen, die schwindende internationale Geltung unserer Sprache und den Verlust von Verwendungsdomänen wie der Wissenschaft gestritten. Urteile über Probleme und ihre Ursachen sind schnell bei der Hand, häufig auch die unterschiedlich sten Therapievorschläge. Was bisher zu einem guten Teil fehlt, sind fundierte Diagnosen. Die Deutsche Akademie für Sprache und Dichtung und die Union der deut schen Akademien der Wissenschaften haben vereinbart, sich mit einem Bericht zur Lage der deutschen Sprache an der öffentlichen Diskussion zu beteiligen. Der Bericht soll wissenschaftlich fundierte Information zu Themen liefern, die innerhalb des Diskurses von besonderem Interesse sind. Das vorliegende Buch ist der erste Bericht dieser Art. Er behandelt im Pro jektverbund Reichtum und Armut der deutschen Sprache eine Reihe von Ein zelthemen, die seit langem diskutiert werden. Dabei ist ihr inhaltlicher Kern im Wesentlichen konstant geblieben. Das unterscheidet sie beispielsweise von der jüngeren Orthographiedebatte, die jahrelang unter vielfältigen Gesichts punkten diskutiert, aber fast beliebig aus politischen oder medialen Gründen an- und abgestellt werden konnte. Es unterscheidet sie auch vom Diskurs über die Sprache von Migranten, der aus externen Gründen unvermeidbar ist, unter scheinbar immer neuer Perspektive aber noch nach seinem praxiswirksamen Ansatz sucht. Das Thema „Reichtum und Armut der deutschen Sprache“ hin gegen treibt eine sprachbewusste, meist sehr besorgte Öffentlichkeit zu immer erneuter Stellungnahme. Es ist geradezu erstaunlich, wie wenig viele Gegen stände aus diesem Bereich in den vergangenen etwa 150 Jahren an Aktualität verloren haben. Selbst der Titel unseres Projektverbundes ist alles andere als neu. So erschien – vielleicht nicht ganz zufällig im Jahr der Wende – eine bemer kenswerte Anthologie mit Beiträgen von Schriftstellern und Wissenschaftlern verschiedener Disziplinen unter dem Titel Reichthum und Armut deutscher Sprache. Sie versammelt eine größere Zahl von älteren Texten, „die ihre Aufmerk samkeit sprachreflexiv auf den Zustand und die Veränderungen der deutschen Sprache ihrer Zeit als Medium des nationalen öffentlichen Verkehrs richten und
6
Vorwort
diesen Zustand in der Form eines Aufsatzes oder Buchkapitels zusammenhän gend darstellen und lobend oder tadelnd bewerten“.1 Den Anfang macht Joachim Heinrich Campes Aufsatz „Was ist Hochdeutsch? In wiefern und von wem darf und muß es weiter ausgebildet werden?“ (1795), der eine jahrzehntelange Diskussion in dem Ergebnis zusammenfassen möchte, der Reichtum des Hochdeutschen beruhe auf der Vielfalt seiner regionalen Funda mente. Den Schluss bildet Emil du Bois-Reymonds „Ich träume eine Kaiserliche Akademie der deutschen Sprache“ (1874). Diese Akademie, so du Bois-Reymond, sei vor allem deshalb zu erträumen, weil den Deutschen des Bismarckreichs selbst ein Mindestmaß an Sprachloyalität abgehe. Der vom Herausgeber gewählte Buchtitel verknüpft zwei weitere wichtige Texte: Jean Pauls „Fragment über die deutsche Sprache: Ihr Reichthum“ (1804), das sich gegen Sprachnormierung als Einschränkung poetischer Ausdrucksmög lichkeiten verwahrt, und des Zeichners Karl Wilhelm Kolbe „Armut der deut schen Sprache in manchen Fächern und die Ursachen dieser Armut“ (Fassung von 1818). Kolbe vertritt eine verbreitete sprachkritische Position, allerdings verbunden mit der Feststellung, dass die deutsche Sprache „zur Bezeichnung jedes für den Deutschen unentbehrlichen Begrifs Stof und Mittel in sich enthält“ (Dieckmann [Hrsg.] 1989: 38). Fast alle Texte des Bandes sind bis heute lesenswert geblieben. Wir begegnen vertrauten Themen der gegenwärtigen Debatten, die von den im Buch vorgestell ten Autoren, aufbereitet für eine größere Öffentlichkeit ihrer Zeit, engagiert und mit aller Sprachmächtigkeit vertreten werden. Die Texte bleiben auch lesenswert, weil sie eindringlich zeigen, wie früh und mit welcher Intensität der Sorge um das Deutsche systematisch nachgegangen wurde. Und sie lassen zudem einige Unter schiede zu unserem Projekt erkennen – unabhängig von der Wertschätzung, die wir diesen aufmerksamen Beobachtern der deutschen Sprache entgegenbringen. Eine Sprachakademie gab es im Bismarckreich ebenso wenig, wie es sie in der Bundesrepublik Deutschland gibt. Wo man über nationale Sprachakademien verfügt, arbeiten diese in staatlichem Auftrag an Themen, die von praktischer Bedeutung für die jeweilige Sprachgemeinschaft sind. Dazu gehören Standardi sierung und Normierung, die Erstellung von Wörterbüchern und Grammatiken sowie allgemein eine Politikberatung in Sprachfragen. Sprachakademien verfü gen in der Regel über hohe wissenschaftliche Kompetenz und eine umfangreiche Ausstattung, die auf die Schwerpunkte ihrer Spracharbeit abgestimmt ist. Sie unterscheiden sich damit wesentlich von Forschungsinstituten.
1 Walther Dieckmann (Hrsg.) (1989): Reichthum und Armut deutscher Sprache. Reflexionen über den Zustand der deutschen Sprache im 19. Jahrhundert. Berlin, New York: de Gruyter, V.
Vorwort
7
Als im Jahr 2008 die Aufforderung an deutsche Akademien herangetragen wurde, sich im Sinne von Sprachakademien am öffentlichen Diskurs zu betei ligen, hatte dieser eine außergewöhnliche Breite erreicht. Diese große öffentli che Aufmerksamkeit hatte viele und sehr unterschiedliche Gründe: das Jahr der Geisteswissenschaften, konzipiert als Versuch zur Lösung einer vermeintlichen Sprachkrise; die Beendigung einer über zehnjährigen Debatte über die durchge setzte Neuregelung der Orthographie; der wachsende Einfluss privater Organisa tionen zur Sprachpflege; Forderungen nach Verabschiedung eines Sprachgeset zes und nach explizitem Verfassungsrang des Deutschen; der weltweite, teilweise dramatische Rückgang der Zahl von Deutschlernern; die fortschreitende Domi nanz des Englischen als Lerner-, Gebrauchs- und Fremdwortgebersprache; man gelhafte Deutschkenntnisse bei einer wachsenden Zahl von Schülern und Berufs anfängern, keineswegs nur solchen mit Migrationshintergrund. Vor diesem Hintergrund stellte sich für die Akademien die Frage, ob sie durch eine neue Form der Kooperation zu einem gemeinsamen Akademieprojekt, wie es in anderen Ländern mit einer Sprachakademie selbstverständlich wäre, kommen könnten. Im Rahmen dieses Projekts wären Gegenstände von öffentlichem Inte resse zu bearbeiten, wissenschaftlich fundiert, ergebnisoffen und mit vermittel baren Resultaten. Aus derartigen Überlegungen entstand der Bericht zur Lage der deutschen Sprache. Die Zusammenarbeit der Deutschen Akademie für Sprache und Dichtung mit der Union der deutschen Akademien der Wissenschaften wurde so organisiert, dass über jeweilige Mitgliedschaften sowohl die Hochschulgermanistik als auch das Institut für Deutsche Sprache und das Max-Planck-Institut für Psycholinguis tik beteiligt sind. Eine solche Zusammenarbeit hatte es bis dahin nicht gegeben. Wir hoffen, dass sie für weitere Arbeiten im Rahmen des Berichts zur Lage der deutschen Sprache stabilisiert werden kann, auch wenn die organisatorischen Anforderungen kompliziert sind und es wohl bleiben werden. Anders als die Autoren von Reichthum und Armut deutscher Sprache werden wir das Deutsche nicht mit Lob und Tadel bedenken. Es wäre aber ein Irrtum, wollte man daraus den Vorwurf ableiten, die Sprachwissenschaft beschreibe wieder einmal nur etwas und scheue vor Wertungen zurück. Die Erarbeitung der Sprachkorpora, ihre Auswertung und die Interpretation der Ergebnisse führt zu Resultaten, die – im Idealfall – keiner zusätzlichen Bewertung bedürfen. Unserer Auffassung nach ist der ewige Streit darüber, ob die Sprachwissenschaft – im Gegensatz zur Sprachkritik – werten dürfe, weitgehend obsolet. Jedenfalls trifft das auf die Einzelthemen zu, die im vorliegenden Ersten Bericht zur Lage der deutschen Sprache behandelt werden. Es sind die folgenden: 1. Von Reichtum und Armut des deutschen Wortschatzes (Leitung: Wolfgang Klein).
8
Vorwort
Was man in einer Sprache auszudrücken vermag, wird maßgeblich von ihrem Reichtum an Wörtern bestimmt. Wie vergleichbare Kultursprachen hat das Deutsche im Lauf seiner langen Geschichte einen außerordentlich umfas senden und differenzierten Wortschatz ausgebildet. Anders als ein erheblicher Teil der öffentlichen Sprachkritik, der eine Verarmung des Wortschatzes beklagt, hat die Sprachwissenschaft wiederholt festgestellt, dass die jahrhundertelange Entwicklung sich auch im 20. Jahrhundert fortsetzt. Zwar sind manche Wörter ungebräuchlich geworden; weitaus mehr aber sind in den letzten Jahren und Jahrzehnten hinzugekommen. Allerdings gab es bislang kaum Versuche, die Entwicklung des deutschen Wortschatzes im Verlauf des vergangenen Jahrhunderts genauer zu verfolgen. Das hat seinen Hauptgrund darin, dass solche Untersuchungen große Daten mengen erfordern und daher außerordentlich aufwendig sind. Durch den Aufbau umfassender digitaler Korpora an verschiedenen Forschungsstätten und durch die Möglichkeit, die darin enthaltenen Texte über computerlinguistische Ver fahren mit sprachwissenschaftlich interessanten Informationen zu versehen, beginnt sich dies zu ändern. Der Beitrag ist ein Schritt in diese Richtung – vor allem aber eine Ermutigung, auf diesem Weg weiter zu gehen. 2. Anglizismen im Deutschen (Leitung: Peter Eisenberg). Das Reizthema Ang lizismen wird in einem erheblichen Teil des öffentlichen Diskurses so behandelt, als gehe es bei der Abwehr solcher Wörter um die Rettung der deutschen Sprache überhaupt. Beklagt wird nicht lediglich ein falscher oder schlechter Gebrauch von Anglizismen, sondern auch ihre zerstörerische Wirkung. Das Deutsche habe seine Integrationskraft verloren, es sei den fremden Wörtern hilflos ausgeliefert. Als Gegenposition findet sich häufig allenfalls ein Laissez faire. Die Sprache ver ändere sich eben, sie habe sich immer verändert, es gebe auch nützliche Anglizis men, und ausrichten könne man letztlich sowieso nicht viel. Im Mittelpunkt der Projektarbeit stand zunächst die Frage, wie der Bestand an Anglizismen sich im Verlauf des 20. Jahrhunderts entwickelt hat. Erst wenn man über zuverlässige Daten zu dieser Entwicklung verfügt, kann gefragt werden, welche Folgen das für die deutsche Sprache hat. Wird ihre Grammatik beschä digt? Besteht ein Einfluss auf Aussprache und Schreibweise von Wörtern, die nicht Anglizismen sind? Beeinflussen die Anglizismen den Rest des Wortschat zes, oder werden sie diesem Rest angepasst? Zur Beantwortung solcher Fragen werden umfangreiche Textkorpora aus dem Beginn des 20. Jahrhunderts und aus der Zeit des Übergangs zum 21. Jahrhundert ausgewertet. 3. Die Entwicklung der Flexion (Leitung: Ludwig M. Eichinger). Das Deutsche verfügt im Vergleich zu einer Reihe seiner Nachbarsprachen über ein reiches Inventar an Flexionsformen. Dieser Formenreichtum wird aber teilweise abge baut und teilweise durch den Übergang zu einheitlichen Flexionsmustern verän
Vorwort
9
dert. Diese Vorgänge nimmt man vor allem dann als Verarmung wahr, wenn – wie in einem Teil der traditionellen Sprachkritik – ein reiches Flexionssystem zum eigentlichen Indikator für die Qualität einer Sprache gemacht wird. Im gesamteuropäischen Vergleich bewegt sich das Deutsche mit seinen mor phologischen Möglichkeiten in einem mittleren Rahmen. Beobachtbare Verän derungen am Formensystem selbst werden erst interpretierbar, wenn man weiß, was sie in Bezug auf Variation bewirken, mit welchen anderen grammatischen Mitteln sie interagieren und ob insgesamt die hohen Erwartungen an Verläss lichkeit und Konstanz schriftsprachlicher Kommunikation erfüllt bleiben. Auf der Grundlage von Textkorpora in der erforderlichen Größe hat das Projekt die tatsächlich ablaufenden Wandelprozesse im nominalen und verbalen Bereich untersucht. Veränderungen wurden nicht auf die Formen selbst beschränkt, sondern jeweils im sprachlichen Kontext erhoben. Nur so war es möglich, ihre Bedeutung für die Kodierung von Bedeutung, Textkohärenz und Stil zu erfassen. 4. Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge (Leitung: Angelika Storrer). Für eine Sprache, die wie das Deutsche eine weit aus gebaute Grammatik aufweist, stellt sich in vielen Zusammenhängen die Frage, welche Alternativen für eine situationsangemessene Formulierung zur Verfügung stehen. Dabei gibt es auch Formulierungsmuster, die seit langem generell nicht als falsch, aber als schlechtes Deutsch angesehen werden. Dazu gehören an pro minenter Stelle die Nominalisierungsverbgefüge wie Unterricht erteilen, in Verbindung bringen. In Stil- und Schreibratgebern gelten sie häufig als unschöne und überflüssige „Streckformen“, die anstelle von Verben (unterrichten, verbinden) verwendet werden und in ihrer Häufung zur Erstarrung des Deutschen in einem bürokratischen Nominalstil führen. In der germanistischen Linguistik wurden wiederholt Analysen vorgelegt, die auf spezifische Leistungen dieser Gefüge im Verhältnis zu einfachen Verben hin weisen. Mit dem Projekt im Rahmen des Berichts zur Lage der deutschen Sprache wurde systematisch und auf Grundlage hinreichend umfangreicher Textkorpora untersucht, wie das satz- und textgrammatische Ausdrucksrepertoire des Deut schen durch die Gefüge erweitert wird, in welchen Textsortenbereichen sie kon zentriert auftreten und wie sich ihre Grammatik und Verwendung in der jüngeren Geschichte des Deutschen verändert haben. Es war ursprünglich geplant, sämtliche vier Studien mit einheitlichen Metho den auf einem einheitlichen Korpus durchzuführen. Das hat sich aber als nicht sinnvoll erwiesen, da die einzelnen Themen zu einem gewissen Grad auch spe zifische Informationen und spezifische Bearbeitungen der Daten verlangen. Das konkrete Vorgehen wird jeweils in den einzelnen Beiträgen erläutert – wie denn überhaupt die einzelnen Beiträge bei aller Übereinstimmung im Grundsätzlichen durchaus die Individualität ihrer Verfasser nicht verschleiern.
10
Vorwort
Insgesamt erfasst der Erste Bericht zur Lage der deutschen Sprache die Ver hältnisse auf der Grundlage von Textkorpora, die so zusammengesetzt sind, dass sie als insgesamt repräsentativ für die geschriebene Standardsprache gelten können. Dabei wird einerseits Bezug genommen auf die Gegenwartssprache im engeren Sinn, d. h. das Deutsche um die Wende vom 20. zum 21. Jahrhundert. Andererseits und mit gleichem Gewicht werden die Veränderungen im gesamten 20. Jahrhundert verfolgt, dargestellt und interpretiert. Darstellung und Interpre tation orientieren sich an sprachlichen Fakten. Das ist für unser Anliegen unver zichtbar, aber konsensfähig ist es nicht. Worum es im Kern geht, wird deshalb an einem kleinen Beispiel illustriert, das für viele ähnliche steht. Sprachgewaltig kritisiert Hans Magnus Enzensberger gleich am Anfang seiner Essaysammlung Heraus mit der Sprache den Duden: „Ach, was uns der Duden in seinem besinnungslosen Eifer, sich an den Zeitgeist anzubiedern, alles abgewöhnen möchte, weil er es für altmodisch hält! Das Wort Chaussee zum Beispiel wird ganz richtig erklärt […] – aber dann wird es sofort als ‚veraltend‘ eingestampft.“2 Der Duden möchte allerdings ebenso wenig etwas einstampfen wie uns etwas abgewöhnen, sondern auf der Basis verfügbarer Informationen mitteilen, dass Chaussee mehr und mehr aus dem Gebrauch kommt. Das ist eine Tatsache, nicht mehr und nicht weniger, und berührt in keiner Weise die Schön heit dieses Wortes. Natürlich können wir an seinem Gebrauch festhalten. Aber auch der brillanteste Essay über den Zustand des Deutschen sollte nicht einfach ignorieren, was der Fall ist. Unser Projekt ist schon im Vorfeld wegen seiner Fundierung durch Textkor pora verschiedentlich angegriffen worden. Die Bedeutung großer Datenmengen für die Zukunft der Geisteswissenschaften ist freilich alles andere als geklärt und mag sich von Disziplin zu Disziplin als durchaus unterschiedlich erweisen. Eine Einlassung wie „Die Geisteswissenschaften beginnen, sich für die Möglichkeiten der digitalen Welt zu interessieren – aber noch ist unklar, was man mit all den Rechenkapazitäten anfangen soll“ trifft die Situation der Sprachwissenschaft nicht.3 Eine weitausgebaute Korpuslinguistik hat bewirkt, dass viele alte Fragen neue und zunehmend verlässlichere Antworten finden. Natürlich werden auch neue Fragen aufgeworfen. Das geschieht aber im Allgemeinen nicht, weil man nach Zwecken für vorhandene Mittel sucht. Wir wissen natürlich, dass ein ziemlich hemmungsloser Geltungsanspruch dem Ansehen der Linguistik während der 70er Jahre des vergangenen Jahrhun
2 Andreas Thalmayr [Hans Magnus Enzensberger] (2005): Heraus mit der Sprache. München, Wien: Hanser, 11. 3 Thomas Thiel: Mittel auf der Suche nach ihrem Zweck. FAZ, 13. 2. 2013.
Vorwort
11
derts schweren Schaden zugefügt hat und dass solche Borniertheiten keineswegs generell überwunden sind. Das sollte aber niemanden veranlassen, die Sprach wissenschaft allein wegen der Verwendung großer Datenmengen in alte Töpfe zu werfen oder sie gar generell von den Geisteswissenschaften auszuschließen: „So ist die Linguistik heutzutage durchweg eine empirische Disziplin, selbst dort, wo sie Sprachgeschichte betreibt. Zwar teilt sie mit den Geisteswissenschaften den Gegenstand, die verbalen Zeichen, jedoch nicht mehr die Methodik; ihre Korpora gewinnt sie nicht durch historische Überlieferung, sondern durch Datenerhe bung. Geisteswissenschaftlich sollten daher nur jene disziplinären Ausprägun gen genannt werden, die Hermeneutik bzw. Historiographie zum Fundament ihrer Erkenntnisleistungen machen.“4 Selbstverständlich gewinnen wir viele unserer Korpora wie eh und je durch historische Überlieferung. Teilweise waltet beim Aufbau von Korpora eine historische Sorgfalt, die ohne elektronische Mittel gar nicht möglich wäre. Und warum die Verwendung größerer Textmengen einer Hermeneutik von vornherein verschlossen sein soll, wäre mindestens zu diskutie ren. Vielleicht vermag auch der Bericht zur Lage der deutschen Sprache, wenn er denn einmal den Kinderschuhen entwachsen ist, einen Beitrag hierzu zu leisten. Die Durchführung des Projekts war ohne eigene Infrastruktur und ohne eigene finanzielle Ressourcen der Projektgruppe nur möglich, weil wir von mehreren Seiten großzügig und auf vielfältige Weise unterstützt wurden. Finanzielle För derung kam in erster Linie von der Fritz Thyssen Stiftung, dem Beauftragten der Bundesregierung für Kultur und Medien und vom Max-Planck-Institut für Psycho linguistik. Das Institut für Deutsche Sprache (IDS) und die Technische Universität Dortmund stellten ihre Infrastruktur und Mittel für Personal zur Verfügung. Die Berlin-Brandenburgische Akademie der Wissenschaften (BBAW) machte für die gesamte Zeit der Projektarbeit einen Raum mit fünf Arbeitsplätzen frei, dessen Ausstattung den beteiligten Institutionen oblag. Die Frankfurter Allgemeine Zeitung hat freundlicherweise die Nutzung ausgewählter Ausgaben für unsere Korpora gestattet. Zugänge zu vorhandenen Korpora wurden von der BBAW, namentlich dem Projekt „Digitales Wörterbuch der deutschen Sprache“, vom IDS und von der Technischen Universität Dortmund geöffnet. Die technische und inhaltliche Beherrschung der Korpora wäre ohne die Hilfe von Alexander Geyken (BBAW) nicht möglich gewesen.
4 Peter-André Alt: Geisteswissenschaften sind keine Sozialwissenschaften. FAZ, 30. 8. 2012. Alt ist Literaturwissenschaftler an einem der größten germanistischen Institute überhaupt und Prä sident der FU Berlin.
12
Vorwort
Im Laufe der Projektarbeit war in Berlin insgesamt ein Dutzend studentischer und wissenschaftlicher Hilfskräfte zur Bearbeitung und Auswertung der Korpora tätig. Die teilweise komplizierten personaltechnischen Angelegenheiten lagen in den Händen von Dieter Herrmann, dem Generalsekretär der Akademienunion. Vielfältige Unterstützung kam von der ruhigen Hand des Generalsekretärs der Deutschen Akademie, Bernd Busch. Was Öffentlichkeitsarbeit betrifft, haben wir uns auf Corinna Blattmann und Annette Schaefgen verlassen können. Die redak tionelle Bearbeitung der Beiträge wurde von Nadine Meyer besorgt, die auch unsere erste Leserin war. Ihrer professionellen Aufmerksamkeit verdanken wir viel. Als einziger wissenschaftlicher Mitarbeiterin des Projekts lagen Rekrutie rung, Schulung und Betreuung der Hilfskräfte bei Barbara Seelig. Wer jemals vor liegende Korpora vollständig und konsequent nach harten Kriterien ausgewer tet hat, weiß auch, dass vieles zweifelhaft bleibt, diskutiert und unter Wahrung gegebener Zielsetzungen entschieden werden muss. Barbara Seelig hat die Pro bleme der Datenauswertung im Anhang dargelegt. Die täglichen Anforderungen hat sie mit Umsicht, Engagement, Geduld und unendlich vielen guten Ideen gemeistert. Sie hat es verstanden, nicht nur Hilfskräfte mit fachlich guten Voraussetzungen an den Berliner Universitäten zu finden, sondern diese auch für die Arbeit zu interessieren. Fast alle haben weit über das vereinbarte Maß hinaus gewissenhaft und zuverlässig gearbeitet. Barbara Seelig stand im Zentrum des Projektalltags, sie war sein Herz. Die Projektleiter danken den beteiligten Personen und ihren Institutionen für die Bereitschaft zur Förderung dieses Projektverbundes, der doch in vieler Bezie hung aus dem Rahmen der üblichen Förderformate fällt. Eine Überschrift wie „Die deutsche Sprache ist wie sie ist“ könnte den Eindruck erwecken, als wüssten wir in der Tat bereits, wie das Deutsche wirklich ist. Das ist nicht so. Eine Sprache, und namentlich eine bedeutende Kultursprache, ist etwas unerhört Komplexes. Sie umfasst Hunderttausende, ja Millionen von Wörtern, und jedes dieser Wörter ist in sich ein kompliziertes Gebilde. Wenn man sich nun nicht mit einzelnen Erscheinungen begnügen will, sondern versucht, ein Gesamt bild einer Sprache und ihrer Entwicklung zu gewinnen, dann bleibt kein anderer Weg, als umfassende Datenmengen zur Grundlage zu nehmen; sonst bleibt man im mehr oder minder Anekdotischen stecken. Solche Datenmengen zu erfassen und analysieren ist nur mithilfe automatischer Verfahren möglich, Verfahren, die auf der einen Seite sehr effizient sind, auf der anderen aber, da sie immer an der Form, nicht an der Bedeutung ansetzen, unweigerlich eine gewisse Fehlerquote aufweisen und oft genug je nach Methode zu etwas unterschiedlichen Ergebnis sen führen. Dessen sind wir uns wohl bewusst, und der Leser möge es im Auge
Vorwort
13
behalten. Wir haben diese Überschrift nicht gewählt, weil wir die Frage, wie die deutsche Sprache eigentlich ist, schon glauben beantworten zu können. Das wäre selbst eingeschränkt auf die vier Themen, die hier behandelt werden, vermessen. Vielmehr möchten wir das Interesse an dieser Frage befördern, sie stärker in den Mittelpunkt der öffentlichen Diskussion rücken und eine Ausgangsbasis dafür schaffen, sie Schritt für Schritt zu klären. Dazu müssen viele beitragen.
Ludwig M. Eichinger, Peter Eisenberg, Wolfgang Klein, Angelika Storrer
Wolfgang Klein
Von Reichtum und Armut des deutschen Wortschatzes* „Und Gewinn und Verlust wäget ein sinniges Haupt“ Hölderlin
Lexik, Grammatik, Ausdrucksreichtum Die Tauglichkeit einer Sprache bemisst sich letztlich daran, was an Gedanken und Gefühlen, Verboten und Wünschen man mit ihr auszudrücken vermag. Das hängt zum einen davon ab, über welche Ausdrucksmittel die Sprache verfügt, und zum andern davon, wie die Sprecher mit diesen Mitteln umgehen, wenn sie bestimmte Inhalte auszudrücken versuchen. Wenn in der öffentlichen Diskussion vom „Verfall des Deutschen“ die Rede ist, so ist oft nicht die Sprache selbst gemeint, sondern ein bestimmter Gebrauch, der von ihr gemacht wird. Im Folgenden geht es nur um die Möglichkeiten, die das Deutsche seinen Nutzern bereitstellt. Dieses Potential hat in allen menschlichen Sprachen zwei Quellen: Lexik und Grammatik. Mit Lexik ist der Bestand an elementaren Ausdrücken – an Wörtern – gemeint. Mit Grammatik meint man all jene Regeln, nach denen sich aus einfachen Ausdrücken komplexere bilden lassen. Hier unterscheidet man gewöhnlich zwischen wortinternen (morphologischen) Regeln, mit denen man beispielsweise die verschiedenen Flexionsformen bildet (trankst, trank, getrunken zu dem Verb trinken; Vaters, Väter, Vätern zu dem Nomen Vater; feister, feiste, feisten zu dem Adjektiv feist), und wortübergreifenden (syntaktischen) Regeln, die mehrere Wörter zu einem Satzteil oder einem Satz verbinden. Eine gewisse Zwischenstellung zwischen Lexik und Grammatik nimmt die Wortbildung ein. Sie umfasst all jene Regeln, nach denen man komplexe Wörter aus einfachen bilden kann. Dies sind in erster Linie Ableitungen wie abstellen, bestellen, einstellen, verstellen, zustellen von stellen, fällig von Fall, Schwimmer von schwim* Ich danke den beteiligten Akademien, dem Beauftragten der Bundesregierung für Kultur und Medien, der Fritz Thyssen Stiftung und dem Max-Planck-Institut für Psycholinguistik, die dieses Vorhaben getragen haben, Barbara Seelig und ihren studentischen Mitarbeitern, die das Berichtskorpus redigiert haben, sowie Alex Geyken, Julian Heister, Bernhard Ulreich und KayMichael Würzner, von denen die meisten Berechnungen stammen. Alex Geyken, Wolf-Hagen Krauth und Lothar Lemnitzer danke ich für vielfältige Hilfe und Diskussionen innerhalb und außerhalb dieses Vorhabens.
16
Wolfgang Klein
men oder Komposita wie hellgelb, radfahren, Gehhilfe oder Rotlauf; beides ist oft miteinander verbunden, wie in Vorfälligkeitsentschädigung oder Wissenschaftsfreiheitsgesetz. Die Wortbildungsregeln gehören zur Grammatik, das Ergebnis ist aber wiederum ein Wort und daher ein Teil der Lexik. Solche Wortbildungsregeln finden sich in allen Sprachen, aber im Deutschen wird besonders reicher Gebrauch davon gemacht. Gleichfalls eine Zwischenstellung zwischen Lexik und Grammatik nehmen Ausdrücke ein, die syntaktisch zusammengesetzt sind, aber ihrer Bedeutung nach einem einzelnen Wort entsprechen, wie etwa zur Welt bringen. Der Form nach gehören sie in den syntaktischen Teil der Grammatik, der Bedeutung nach ins Wörterbuch: zur Welt bringen entspricht ja gebären (eine wichtige Klasse solcher Mehrwortwörter wird in dem Beitrag von Storrer in diesem Band behandelt). Die Linguisten sind nicht in allzu vielen Dingen einer Meinung, aber darüber, dass jede menschliche Sprache – im Gegensatz zu manchen anderen Zeichensystemen – über eine Lexik und eine Grammatik verfügt, gibt es kaum Dissens, auch wenn die Grenzen beider nicht immer völlig klar sind. Beide sind zwar unabdinglich; das Ausdrucksvermögen einer Sprache hängt jedoch vor allem von einer reichen Lexik ab. Wenn jemand 100 000 Wörter des Japanischen perfekt beherrscht, aber keine einzige der für das Japanische spezifischen grammatischen Regeln, dann würde ihm zwar viel entgehen, wenn er in Japan weilt; aber er könnte sich im Alltagsleben gut durchschlagen und eine Zeitung, einen Roman, eine Gebrauchsanleitung einigermaßen verstehen. Wenn jemand hingegen alle morphologischen und syntaktischen Regeln des Japanischen in- und auswendig kennt, aber nur ein Dutzend Wörter, dann würde sich der Nutzen in Grenzen halten. Beide Szenarien sind nicht sehr realistisch, aber sie deuten doch das relative Gewicht von Wörtern und Regeln für die Verständigung an. Dem entspricht die Art und Weise, in der sich Lexik und Grammatik im Laufe der Zeit verändern. Zwar kommen durchaus Wörter außer Gebrauch (wer weiß noch, was dalest bedeutet?1). Aber alle Kultursprachen der Welt leben von einer gewaltigen Anreicherung ihres Wortbestandes über die Jahrhunderte, ja, es ist dies vielleicht überhaupt das Definitionsmerkmal einer Kultursprache. Die Grammatik der Kultursprachen wird hingegen im Laufe der Jahre eher einfacher.2 Im
1 Dem entsprechenden Eintrag im Grimmschen Wörterbuch zufolge ist dieses Wort vom 14. bis zum 16. Jahrhundert belegt. Allerdings war sich Wilhelm Grimm, der diesen Eintrag geschrieben hat, auch nicht ganz klar darüber, was es denn wirklich bedeutet hat. Jedenfalls war es wohl entbehrlich, denn niemand scheint es zu vermissen. 2 Davon gibt es einige Ausnahmen, z. B. die vor 500 Jahren einsetzende Aspektunterscheidung im Englischen (he walked – he was walking) oder das synthetische Futur in den romanischen Sprachen (je viendrai aus [ego] venire habeo); das ist jedoch sehr untypisch.
Von Reichtum und Armut des deutschen Wortschatzes
17
Germanischen oder Lateinischen, also den Sprachen, die dem Deutschen und Englischen, dem Französischen, Spanischen und Italienischen zugrunde liegen, wird beispielsweise regelhaft ein Unterschied zwischen Nominativ und Akkusativ markiert: femina – feminam, feminae – feminas haben wir in der Schule lernen müssen. In den modernen Sprachen, die daraus entstanden sind, ist die Unterscheidung zwischen Nominativ und Akkusativ weitestgehend weggefallen. Das Deutsche hat sie immerhin noch für den Nominativ Singular maskulin bewahrt (der Löffel – den Löffel), da allerdings nur selten beim Nomen selbst (der Bär – den Bären); niemand kann sagen, ob die Frau, das Haus, die Männer Nominativ oder Akkusativ sind. Die wenigsten werden diesen „Verfall“ einer grammatischen Markierung als Verlust empfinden, der sie ernsthaft in ihren Ausdruckswünschen beschränkt; sie hat offenbar kaum einen funktionalen Wert für das, was man auf Deutsch, Englisch oder Französisch sagen kann. Die Kritik der reinen Vernunft oder Das Kapital würden nicht viel an Verständlichkeit gewinnen, wenn ihre gelehrten Verfasser bei den Nomina immer fein zwischen Nominativ und Akkusativ unterschieden hätten. Diese Werke leben aber davon, dass es Wörter wie Verstandesbegriff und transzendental, Tauschwert und ausbeuten gibt, und es wäre schwer möglich, sie in eine Sprache zu übersetzen, die zwar eine wundervoll regelreiche Grammatik hat, aber kein Gegenstück zu diesen und zahllosen anderen Wörtern, die wir zur Lexik des Deutschen rechnen. Oder um ein anderes Beispiel zu geben: So liebenswert es ist, wenn das Deutsche nach altem Brauch zwischen der Löffel, die Gabel, das Messer oder zwischen der silberne Löffel, ein silberner Löffel, (mit) silbernem Löffel unterscheidet – niemand kann allen Ernstes behaupten, dass diese Vielgestaltigkeit der ererbten Flexionsformen nennenswert zum Ausdrucksreichtum unserer Sprache beiträgt. Fülle und Differenziertheit des Wortschatzes sind es, in denen sich die geistige und kulturelle Entwicklung einer Gemeinschaft spiegelt und die umgekehrt diese Entwicklung tragen. Jacob Grimm, sichtlich hin- und hergerissen zwischen der Faszination durch eine staunenswert komplexe Formenwelt, wie sie aus den älteren Sprachen vertraut ist, und der schwer abweislichen Erkenntnis, dass ihre Entwicklung, von sporadischen Ausnahmen abgesehen, genau die umgekehrte Richtung nimmt, hat es in seiner Geschichte der deutschen Sprache (1848: 5f.) so formuliert: „Aus der geschichte der sprachen geht zuvorderst bedeutsame bestätigung hervor jenes mythischen gegensatzes: in allen findet absteigen von leiblicher vollkommenheit statt, aufsteigen zu geistiger ausbildung.“ Das heutige Deutsch mag leiblich nicht mehr so vollkommen sein wie das Althochdeutsche, das Westgermanische oder gar das Urgermanische, aber wir können sehr viel mehr damit sagen. Wenn wir verstehen wollen, was das Deutsche leistet oder zumindest leisten könnte, dann müssen wir seinen Wortschatz und dessen Entwicklung betrachten.
18
Wolfgang Klein
Was weiß man eigentlich über den Wortschatzreichtum? Wie umfangreich ist der deutsche Wortschatz heute, und wie sieht die Gewinnund Verlustrechnung für das 20. Jahrhundert aus? Das sind zwei einfache Fragen, und man möchte annehmen, dass die Germanistik als hier zuständige Wissenschaft klare Antworten darauf hat, Antworten, die über den subjektiven Eindruck hinausführen und sich auf wohlgesicherte Fakten stützen. Das ist jedoch nicht so, und das wiederum ist kein Zufall: Es fällt aus einer Reihe von Gründen sehr schwer, solche Antworten zu geben. Wenn es denn überhaupt versucht wird, so orientiert man sich an den umfangreichsten Wörterbüchern, die es derzeit gibt (siehe etwa Haß-Zumkehr 2001: 381ff.). In der Wikipedia heißt es dazu (Stand 9. 8. 2013, hier ohne Anmerkungen zitiert; siehe auch Best 2006: 13ff., auf den sich der Wikipedia-Eintrag offenbar stützt): Der Wortschatz der deutschen Standardsprache umfasst ca. 75 000 Wörter, die Gesamtgröße des deutschen Wortschatzes wird je nach Quelle und Zählweise auf 300 000 bis 500 000 Wörter bzw. Lexeme geschätzt. So gibt Duden Deutsches Universalwörterbuch an, der Wortschatz der Alltagssprache werde auf etwa 500 000, der zentrale Wortschatz auf rund 70 000 Wörter geschätzt. Das Deutsche Wörterbuch von Jacob und Wilhelm Grimm (1852–1960) wird auf ca. 350 000 Stichwörter geschätzt; Wahrig (2008) gibt im abgedruckten Vorwort zur Neuausgabe 2006 an, dieses einbändige Wörterbuch enthalte über 260 000 Stichwörter. Solche Angaben geben Aufschluss darüber, als wie groß der deutsche Wortschatz mindestens geschätzt werden muss. Diese Wörterbücher enthalten jedoch nur geringe Anteile der vielen Fachwortschätze und sind auch insofern unvollständig, da Ableitungen und Komposita nur teilweise aufgenommen werden und die neuesten Neubildungen naturgemäß fehlen. Ein entscheidendes Kriterium für die Aufnahme von Wörtern ist ihre Verwendungshäufigkeit und Gebräuchlichkeit; ausgeschlossen werden solche Wörter, die aus einfachen zusammengesetzt sind und sich bei Kenntnis ihrer Bestandteile von selbst verstehen lassen. Damit ist klar, dass der Wortschatz insgesamt noch wesentlich größer sein muss; die Angabe von 500 000 Wörtern ist kaum übertrieben. Nimmt man Fachwortschatz hinzu, ist mit mehreren Millionen Wörtern zu rechnen. Allein die Fachsprache der Chemie enthält nach Winter (1986) rund 20 Millionen Benennungen. Vor diesem Hintergrund erscheint Lewandowskis Bemerkung: „Der Gesamtwortbestand des Deutschen wird auf 5 bis 10 Millionen Wörter geschätzt“ als noch zu tief gegriffen.
Von Reichtum und Armut des deutschen Wortschatzes
19
Demnach scheint gesichert zu sein, dass der Umfang des deutschen Wortschatzes zwischen 70 000 und mehr als zehn Millionen Wörtern liegt. Dass dieses Fazit etwas diffus ist, kann man aber nicht der Wikipedia anlasten; vielmehr illustriert das Zitat recht gut den Stand unseres Wissens und zugleich die Schwierigkeiten, ihn zu verbessern. Wie viele Stichwörter das genannte Grimmsche Wörterbuch in Wirklichkeit hat, weiß niemand. Die auf der digitalen Version des Deutschen Wörterbuchs beruhende Zählung von Schares (2006) kommt auf 319 295; die korrigierte Fassung, die als Teil des Digitalen Wörterbuchs der deutschen Sprache (www.dwds.de) zugänglich ist, umfasst 336 925; einige Stichwörter sind jedoch nicht als solche markiert, und so wird die Gesamtzahl in der Tat um die 350 000 betragen. Damit ist es das bei weitem umfassendste deutsche Wörterbuch. Es spiegelt jedoch im Wesentlichen nur den deutschen Wortschatz bis etwa 1900 wider, und das auch nur in den später geschaffenen Teilen; die noch von den Brüdern Grimm selbst bearbeiteten Buchstaben A bis F waren bereits 1863 abgeschlossen.3 Über den Umfang des gegenwärtigen deutschen Wortschatzes kann man daraus wenig ableiten, erst recht nicht über die Veränderung seit 1900. Das zehnbändige Große Wörterbuch der deutschen Sprache (Duden, zuletzt 1999), das umfassendste deutsche Wörterbuch aus neuerer Zeit, zählt nach eigenen Angaben etwa 200 000 Stichwörter; etwa 25 000 davon sind jedoch reine Querverweise („Corpus, siehe Korpus“) oder kleinere Varianten, sodass man eher mit etwa 175 000 rechnen muss. Zum Vergleich: Das berühmte Oxford English Dictionary, wie das Grimmsche ein historisches Wörterbuch, aber auf sehr aktuellem Stand, weist derzeit etwa 620 000 Stichwörter auf (siehe www.oed.com, 1. 8. 2013); der Grand Robert (zuletzt gedruckt 2001) beschreibt für das Französische nach eigenen Angaben 100 000 Stichwörter mit insgesamt 350 000 Bedeutungen. In all diesen Fällen gibt es aber einen erheblichen Unterschied zwischen dem, was Sprecher oder Schreiber tatsächlich alles als Wort verwenden, und dem, was in ein gedrucktes Wörterbuch als Stichwort aufgenommen wird: Ein Wörterbuch zeichnet immer nur ein vom jeweiligen Zweck bestimmtes, stets jedoch stark verengtes Bild vom tatsächlichen Wortschatz und damit vom lexikalischen Ausdrucksreichtum einer Sprache. So viel zum Gesamtumfang. Was nun die Frage nach Gewinn und Verlust angeht, so kann jeder eine Reihe von Wörtern nennen, die man um 1900 noch nicht verwendet hat und die heute gang und gäbe sind, zumeist weil man die Sache vor hundert Jahren noch nicht oder nicht unter diesem Namen kannte: fernsehen, rumgurken, aufmischen, Sex, Fernseher, Versorgungsausgleich, Auszeit,
3 Die 1962 begonnene Neubearbeitung der Buchstaben A bis F, die kurz vor dem Abschluss steht, wird etwa 20 000 Stichwörter mit Bedeutungsbeschreibungen umfassen; eine Reihe weiterer wird nur durch Belege illustriert.
20
Wolfgang Klein
abgezockt. Weitaus schwieriger ist es, klare Beispiele für Verluste anzugeben. Zwar muten uns viele Wörter – Droschke, Leibstuhl, füglich, behufs, weiland, abzwecken – ungebräuchlich an. Aber man versteht sie immer noch,4 und ob sie tatsächlich nicht mehr aktiv verwendet werden, ist schwer zu entscheiden. Dass man ein Wort selber nicht gebraucht oder schon eine Weile nicht mehr gehört oder gelesen hat, heißt ja nicht, dass es nicht mehr da ist; ich selber habe auch schon seit langem keinen Maikäfer mehr gesehen. Wie kann man über das intuitive Empfinden des Einzelnen hinaus zu einigermaßen gesicherten Fakten über den derzeitigen Umfang des deutschen Wortschatzes und seine Veränderung im 20. Jahrhundert kommen? Das ist schwer, schwerer, als die Zahl der Bäume im Amazonasbecken und die Veränderung dieser Zahl über die letzten hundert Jahre anzugeben. Die Gründe sind im Prinzip ähnlich. Erstens ist nicht leicht zu sagen, was denn die Einheiten sind, die gezählt werden sollen. Zweitens ist nicht ganz klar, wo die genauen Grenzen liegen, innerhalb derer gezählt werden soll. Drittens ist es in der Praxis sehr aufwendig, die erforderlichen Daten zu beschaffen und hinlänglich zu untersuchen. Wörter zu zählen ist zwar nicht so gefährlich, wie das Amazonasbecken zu bereisen, aber es ist aus anderen Gründen mühselig und oft wenig ertragreich. Beim Wortschatz sind die Einheiten „Wörter“ – aber was ist eigentlich ein Wort? Anders als einen Baum kann man ein Wort nicht sehen: Wörter sind abstrakte Einheiten, Verbindungen von wahrnehmbaren Formen – der Lautgestalt oder Schriftgestalt des jeweiligen Wortes – mit Bedeutungen. Diese Formen, also etwa die Lautfolge [nɔx] oder die Buchstabenfolge noch, sind aber nicht die Wörter selbst. Sie sind nur das, was man davon hören oder lesen kann. Etwas anders gesagt: noch ist kein Wort – es ist die Art, wie das Wort noch nach gängiger Orthographie geschrieben wird. Leider gibt es, anders als man zu glauben geneigt ist, in aller Regel keine 1:1-Beziehung zwischen Form und Bedeutung. Um zu einer vernünftigen Aussage zu kommen, muss man daher etwas genauer betrachten, was eigentlich ein „Wort“ ist oder als solches gelten soll; darauf komme ich gleich zurück. Beim Amazonasbecken sind die Grenzen, innerhalb derer man zählen soll, zwar nicht völlig, aber doch einigermaßen klar, und man kann mit einer Luftaufnahme feststellen, um wie viel kleiner ungefähr die bewaldete Fläche in einer
4 Natürlich versteht nicht jeder, was behufs oder weiland bedeuten; aber das gilt auch für viele neue Wörter. Der Einzelne versteht immer nur einen kleinen Teil des gesamten Wortschatzes, wobei dieses Verstehen nicht nur unterschiedlich weit, sondern auch unterschiedlich tief geht. In vielen Fällen hat man nur eine ungefähre Vorstellung (Spund hat etwas mit Fässern zu tun, sintern irgendwie mit legieren oder verschmelzen), in manchen anderen eine ganz falsche.
Von Reichtum und Armut des deutschen Wortschatzes
21
bestimmten Zeit geworden ist. Beim deutschen Wortschatz ist dies nicht so, selbst dann nicht, wenn man sich auf eine bestimmte Zeit, etwa die Gegenwart, beschränkt: Was ist „der“ deutsche Wortschatz? In dem oben zitierten WikipediaAuszug ist von der „deutschen Standardsprache“ die Rede, deren Umfang mit 75 000 Wörtern beziffert wird, von der deutschen „Alltagssprache“, die von der Dudenredaktion auf etwa 500 000 Wörter geschätzt wird, wobei „der zentrale Teil“ etwa 70 000 Wörter ausmache. Nimmt man den „Fachwortschatz“ hinzu, so kommt man hinwieder auf einige Millionen Wörter. Um hier etwas Sinnvolles sagen zu können, muss man zunächst einmal klar festlegen, was man zum deutschen Wortschatz zählen will.5 Das dritte Problem ist eher praktischer Natur: Wie bekommt man Zugang zu den Einheiten, die man zählen möchte? Wo findet man den Wortschatz einer Sprache? Für Sprachen, die keine Schrifttradition haben, gibt es dafür nur eine Antwort: in den Köpfen derer, die die Sprache beherrschen, denn wo soll er sonst sein? Aber schon bei nur gesprochenen Sprachen und erst recht in bedeutenden Kultursprachen mit langer Schrifttradition geht das, was die Sprache ausmacht, weit über das Wissen hinaus, das ein Einzelner davon hat. Der einzige Zugang zu einem Wortschatz besteht daher darin, den Gebrauch zu untersuchen, den die Einzelnen von ihrem sprachlichen Wissen gemacht haben. Daran haben auch die modernen bildgebenden Verfahren nichts geändert: Sie erlauben einen Blick ins Gehirn, aber dort sehen wir Nervenzellen oder Veränderungen des Sauerstoffgehalts, nicht jedoch Wörter oder Regeln. Grundlage für das Studium der Lexik sind daher große Textkorpora, die den Gebrauch dokumentieren. Anders als das Amazonasbecken sind diese Korpora jedoch nicht vorgegeben. Sie müssen nach verschiedenen Kriterien zusammengestellt und durchsuchbar gemacht werden. Streng genommen können wir daher niemals sagen, welchen Umfang „der Wortschatz einer Sprache“ tatsächlich hat. Wir können lediglich sagen, wie viele Wörter in Korpora einer bestimmten Zusammensetzung verwendet werden und wie sich dies im Laufe der Zeit ändert. Nur in diesem Sinn sind die beiden eingangs dieses Abschnitts gestellten, so einfach wirkenden Fragen überhaupt beantwortbar, und in diesem Sinne müssen auch die im Folgenden gegebenen Angaben verstanden werden. Aber selbst dann ist jede Antwort mit einer Reihe
5 Anders ist es, wenn es von Anfang an ein klar definiertes Korpus von Texten gibt, etwa alles, was ein bestimmter Autor geschrieben hat. Dann kann man den Wortschatz dieses Autors im Prinzip klar angeben. Der Wortschatz Goethes beispielsweise umfasst rund 91 000 Wörter (siehe www.bbaw.de/bbaw/Forschung/Forschungsprojekte/gwb). Dieser für einen einzelnen Autor ganz ungewöhnliche Reichtum erklärt sich aus der großen inhaltlichen Vielfalt seiner Schriften. Der Wortschatz Georg Trakls in all seinen Dichtungen umfasst nur rund 3 800 Wörter (Klein & Zimmermann 1971).
22
Wolfgang Klein
von Problemen und Unsicherheiten behaftet, die man sich vor Augen halten muss, wenn man die Tragweite des im Folgenden Gesagten recht einschätzen will. Dazu müssen wir etwas ausführlicher auf den hier zugrunde gelegten Begriff von Wort und auf die hier zugrunde gelegten Korpora eingehen.
Wörter Aus der Warte des Linguisten ist ein Wort ein komplexes Bündel von zumindest drei Arten von abstrakten Eigenschaften. Bei dem einfachen deutschen Wort Uhr sieht dies etwa so aus: 1. Formeigenschaften: Hier unterscheidet man gewöhnlich zwischen der phonologischen Form, die man lautschriftlich als [u:ɹ] beschreiben kann, und der graphematischen Form, hier also der Buchstabenfolge Uhr. Letztere gibt es natürlich nur, wenn die Sprache überhaupt verschriftet ist. 2. Grammatische, d. h. syntaktische und morphologische Eigenschaften: hier etwa „Nomen, femininum, wird gemäß Flexionsklasse xyz dekliniert“. 3. Semantische Eigenschaften: hier etwa „Gerät zum Messen der Zeit“. Das entspricht nur teilweise der Alltagsvorstellung davon, was ein Wort ist. Diese Vorstellung ist sehr stark von der geschriebenen Sprache bestimmt; demnach ist ein Wort so etwas wie eine Folge von Buchstaben zwischen zwei Leerzeichen oder einem Leerzeichen und einem Satzzeichen. Das ist im Grunde seltsam, denn die geschriebene Sprache ist, so wichtig sie sein mag, gegenüber der gesprochenen in vierfacher Hinsicht sekundär: a) die meisten Sprachen in der Geschichte der Menschheit wurden und werden nur gesprochen, dennoch haben sie natürlich einen Wortschatz; b) fast alle Menschen lernen zu sprechen, nicht alle aber lernen zu schreiben; c) jene, die es tun, lernen es normalerweise erst, nachdem sie eine gesprochene Sprache beherrschen: Wir benutzen Wörter längst, bevor wir sie schreiben; d) auch jene, die schreiben und lesen können, machen oft nur einen sehr eingeschränkten Gebrauch davon, während es nur wenige gibt, die nicht regelmäßig sprechen und Gesprochenes verstehen. Primär sind daher Wortschatz und Wort der gesprochenen Sprache.6 Im Folgenden werden wir uns dennoch am geschriebenen Deutschen orientieren und das gesprochene vernachlässigen. Dies ist eine klare und bedau-
6 Wie stark die Fixierung durch die geschriebene Sprache hier ist, sieht man sehr schön daran, dass fast alle Studenten in sprachwissenschaftlichen Einführungskursen fest davon überzeugt sind, dass es beim Sprechen zwischen „den Wörtern“ kleine Pausen gibt.
Von Reichtum und Armut des deutschen Wortschatzes
23
erliche Beschränkung, die aber aus zwei Gründen unvermeidlich ist. Zum einen bildet sich ein reicher Wortschatz erst mit der Schriftsprache und der von ihr getragenen Kultur aus.7 Zum andern ist es kaum möglich, stichhaltige Aussagen über den Wortschatz der älteren gesprochenen Sprache zu machen: Wir haben wenig verlässliche Zeugnisse, wie man um 1900 gesprochen hat, von den Zeiten davor ganz zu schweigen. Selbst für die Gegenwart gibt es nur wenige brauchbare Datensammlungen zum gesprochenen Deutsch (die dann verschriftlicht sein müssen; die reichste dieser Sammlungen findet sich am Institut für Deutsche Sprache, Mannheim, unter http://dsav-oeff.ids-mannheim.de/DSAv/KORPORAI. HTM). Beide Gründe haben übrigens auch dazu geführt, dass die gesprochene Sprache in den herkömmlichen Wörterbüchern nur in engen Grenzen berücksichtigt wurde (siehe jedoch Ruoff 1990). Ein weiterer Grund dafür ist die oft unbewusste Vorstellung, dass, was nicht in die Schriftsprache Eingang gefunden hat, auch nicht so recht verdient, in einem Wörterbuch beschrieben zu werden.8 Das mag aus einer bestimmten Werthaltung heraus verständlich sein („odi profanum vulgus“), aber ein Wissenschaftler sollte sich mit solchen Wertungen zurückhalten und redlich zu sagen versuchen, wie es eigentlich ist. Wo er das nicht vermag, sollte er diese Begrenzung zugeben. Also: Hier wird die gesprochene Sprache und ihre Entwicklung von 1900 bis in die Gegenwart leider nicht erfasst, genauer gesagt: Sie wird nur insoweit erfasst, als sie mit der geschriebenen Sprache übereinstimmt. Die oben gegebene Definition von Wort als Verbindung dreier Eigenschaftsbündel bezieht sich nun auf das Wort als lexikalische Einheit – also als Element der Lexik einer Sprache. Davon muss man sehr scharf das Vorkommen eines Wortes in einem Text unterscheiden; für ein solches Vorkommen sagt man auch oft „Wort“. Der vorige Satz ist 22 „Wörter“ lang (= Vorkommen von Wörtern), das Wort ein kommt darin dreimal vor, die Wörter man, Vorkommen und Wort zweimal, alle anderen einmal (= Wort als lexikalische Einheit). Damit nicht genug: In einer flektierenden Sprache wie dem Deutschen muss man nun noch einmal zwischen
7 Derzeit gibt es allenfalls für die Hälfte der rund 7 000 Sprachen, die noch auf der Welt gesprochen werden, auch eine Schrift. Das heißt aber nicht, dass es entsprechend viele Schriftkulturen gibt; eine lange Tradition der Schriftnutzung mit all ihren Folgen für die kulturelle und soziale Entwicklung einerseits, für den Ausbau des Wortschatzes anderseits ist bei vergleichsweise wenigen Sprachen ausgebildet (die beste Information über die Sprachen der Welt findet sich unter www.ethnologue.com; dort wird für etwa 3 000 Sprachen eine Schrift verzeichnet, für nur rund 70 aber eine lange Schriftkultur). 8 Eines der wenigen ist Küppers verdienstliches Wörterbuch der deutschen Umgangssprache in sechs Bänden (1955–1970), das zwar in vielem überholt ist, aber leider bis heute keinen besseren Nachfolger gefunden hat.
24
Wolfgang Klein
der lexikalischen Einheit und ihren verschiedenen Flexionsformen unterscheiden: die lexikalische Einheit geh- kann in den Flexionsformen gehe, gehst, geht, ging, gegangen und anderen vorkommen, die lexikalische Einheit Vater in den Flexionsformen Vater, Vaters, Väter. Im Folgenden werden wir daher, wenn es zu Missverständnissen kommen könnte, zwischen drei Wortbegriffen unterscheiden: Lexem: Das ist das Wort als lexikalische Einheit; in einem Wörterbuch ist ein solches Lexem, falls flektierbar, bei Verben gewöhnlich als Infinitiv (sagen) verzeichnet, bei Nomina als Nominativ Singular (Lamm) und bei Adjektiven in der prädikativen Form (schrill).9 Wortform: Damit sind die verschiedenen flektierten Formen gemeint, unter denen ein Lexem auftreten kann – bei nichtflektierbaren Wörtern eben nur eine. Textwort: Das bezieht sich auf die mehr oder minder häufigen Vorkommen einer Wortform (und damit auch des Lexems, das es repräsentiert) in einem fortlaufenden Text. Wenn man von einem Korpus spricht, das eine Milliarde Wörter umfasst, so meint man damit zunächst einmal Textwörter im obigen Sinn, manche davon sind sehr häufig (z. B. die oder und), andere kommen sehr selten, oft sogar nur einmal im Korpus vor. Im Englischen spricht man gewöhnlich von „tokens“ – das sind die Textwörter – und „types“ – das sind die verschiedenen Wortformen. Das Verhältnis zwischen beiden, die sogenannte type token ratio (TTR), ist eine wichtige Kenngröße in der quantitativen Sprachforschung: Je höher die type token ratio eines Textes, desto differenzierter ist seine Lexik, weil bei gleicher Länge mehr verschiedene Wörter vorkommen. Bei dieser Redeweise trennt man allerdings oft nicht zwischen Wortformen und Lexemen. Das kann man sich im Englischen noch einigermaßen leisten, weil es wenig flektiert und man daher ein Lexem oft mit einer einzigen Wortform gleichsetzen kann. Im Deutschen mit seiner reicheren Flexion würde dies zu starken Ver-
9 Leider hat sich in der Sprachwissenschaft hier keine einheitliche Terminologie eingependelt; der Ausdruck „Lexem“ wird manchmal auf lexikalische Einheiten beschränkt, die einen gewissen deskriptiven Gehalt haben, wie etwa Uhr, lachen, mulmig oder gestern (Inhaltswörter) im Gegensatz zu lexikalischen Einheiten, die lediglich eine grammatische Funktion haben, wie die, dass oder es (Funktionswörter). Das tun wir hier nicht. Umgekehrt wird für das, was hier Lexem genannt wird, gelegentlich auch der Ausdruck „Lemma“ verwendet. Normalerweise ist dies jene Flexionsform, unter der das Lexem in einem Wörterbuch angeführt ist – es ist sozusagen der Name eines Lexems; deshalb entsprechen 1 000 Lemmata auch 1 000 Lexemen. In der Psycholinguistik hat Lemma wiederum eine ganz andere Bedeutung. Wir bleiben deshalb hier bei dem Terminus „Lexem“ für „lexikalische Einheit“.
Von Reichtum und Armut des deutschen Wortschatzes
25
zerrungen führen, denn wenn man den Umfang der Lexik bestimmen will, kommt es ja auf die Lexeme an, nicht auf die verschiedenen Flexionsformen, die ein Lexem haben kann. Für eine sinnvolle Untersuchung müssen daher alle Texte „lemmatisiert“ werden; dabei wird jede vorkommende Wortform auf die zugrundeliegende lexikalische Einheit zurückgeführt – also Vater, Vaters, Väter werden allesamt als Ausdruck eines einzigen Lexems angesehen. Bei kleinen Korpora kann man das von Hand machen. Bei großen Korpora muss es automatisch geschehen; niemand kann ein Korpus, das eine Milliarde Textwörter umfasst, von Hand lemmatisieren (eine Milliarde Sekunden entspricht knapp 32 Jahren). Nun kann ein und dieselbe Wortform zu verschiedenen Lexemen passen (die Wortform sein kann der Infinitiv des Hilfsverbs sein sein, aber auch zu dem Possessivpronomen sein gehören, wie in sein Hut; die Wortform heute ist meistens ein Zeitadverb, aber es kann auch das Präteritum des Verbs heuen sein). Dies automatisch aufzulösen gelingt nicht immer, und deshalb hat auch die beste Lemmatisierung eine gewisse Fehlerquote, die man bei allen Aussagen über die Anzahl der Lexeme im Deutschen in Rechnung stellen muss. Das ist schlecht, aber es geht nicht anders, und es wird auch in Zukunft nicht anders gehen, denn die derzeitigen Lemmatisierungsverfahren lassen sich nur noch in Grenzen verbessern. Daher bleibt bloß die Wahl zwischen schweigen oder mit einer gewissen Fehlerquote leben. Weitaus problematischer als diese Fehlerquelle ist ein Umstand, der sich aus der Natur eines Lexems selbst ergibt. Ein Wort verbindet immer eine bestimmte Form – in der Schriftsprache eine Zeichenfolge – mit Bedeutungen. Man wäre geneigt zu denken, dass diese Zuordnung normalerweise eindeutig ist und dass bekanntermaßen mehrdeutige Wörter wie Strauß oder Schloss die Ausnahme sind. Tückischerweise ist das nicht so; der Normalfall ist vielmehr, dass ein Wort mehrere Bedeutungen hat. Um sich davon zu überzeugen, braucht man nur einen Blick in ein etwas umfangreicheres Wörterbuch zu werfen. Das Folgende ist in etwas vereinfachter Form der Eintrag „Absatz“ aus dem Digitalen Wörterbuch der deutschen Sprache (www.dwds.de): Absatz mask., -es, Absätze I 1 Unterbrechung eines fortlaufenden Textes a einen Absatz machen (einen neuen Abschnitt beginnen) b Abschnitt in diesem Absatz behandelt der Verfasser … 2 Unterbrechung einer Fläche; Vorsprung der Absatz des Berges, der Mauer
26
Wolfgang Klein
Unterbrechung der Stufen, Podest der (obere) Absatz der Treppe 3 Unterbrechung einer Tätigkeit in Absätzen reden (stockend reden) II Erhöhung der Schuhsohle unter der Hacke der Absatz des Schuhs bildlich Die Welt hatte eiserne Absätze – A. Zweig Grischa 146 III Verkauf, Vertrieb (fast nie im Plural) Waren, Erzeugnisse haben reißenden, schnellen, großen, guten, sicheren, langsamen, geringen, schlechten Absatz IV Ablagerung, Niederschlag (fast nie im Plural) der Absatz von Kesselstein, Gestein, Land Offenbar sind hier vier ganz verschiedene Bedeutungen mit ein und derselben Form, nämlich Absatz, verbunden. Handelt es sich hier um eine lexikalische Einheit oder um vier? Anders gesagt: Soll man die gemeinsame Form als einziges Kriterium werten, oder soll man die Bedeutungen, mit denen die Form verbunden sein kann, mit in Rechnung stellen? Wenn man den Ausdrucksreichtum der deutschen Sprache erfassen will, dann müsste man eigentlich von vier Lexemen reden, die alle Absatz geschrieben werden. Nimmt man dies ernst, dann würde eine umfassende und dennoch gut abgesicherte Untersuchung schier unmöglich, weil man dann nicht mehr von den beobachtbaren Formen, so wie sie sich im Text darstellen, ausgehen kann, sondern die einzelnen Wortvorkommen auf ihre Bedeutung analysieren müsste. Noch heikler wird es, wenn eine Buchstabenfolge nicht nur mit verschiedenen Bedeutungen verbunden ist, sondern auch unterschiedliche grammatische Eigenschaften hat. Sind der Verdienst und das Verdienst ein oder zwei Wörter? Der Plural von Wort kann – bei klarer Differenzierung in der Bedeutung – Wörter oder Worte lauten: Ist Wort als ein Wort zu rechnen oder als zwei? Die Buchstabenfolge als kann als Konjunktion verwendet werden (als wir in die Stadt reinkamen), als Vergleichswort beim Komparativ (dümmer als die Polizei erlaubt) oder als noch etwas anderes, für das die Grammatiker keinen guten Namen haben (als Liebhaber ist er eine Katastrophe): eines, zwei oder drei Wörter im Sinne von lexikalischen Einheiten? Eigentlich sollte man von dreien reden, denn jede dieser drei Verwendungsweisen bereichert das Ausdrucksvermögen unserer Sprache.
Von Reichtum und Armut des deutschen Wortschatzes
27
Wir könnten, wenn man es etwas näher beschaut, im Deutschen leicht ohne die so auffällige Unterscheidung zwischen trägt und trug, abstellt und abstellte, hat und hatte auskommen, also die Unterscheidung von Präsens und Präteritum. Der damit markierte Zeitbezug ist zwar in vielen Fällen wichtig, aber er könnte ohne weiteres durch Adverbien wie jetzt (d. h. in der Gegenwart) und früher (d. h. in der Vergangenheit) angezeigt werden. Man hätte sogar die Möglichkeit, den Zeitbezug einfach offenzulassen. Das wird uns durch die in diesem Punkt etwas zwänglerische Beschaffenheit der deutschen Grammatik verwehrt: Wir müssen immer sagen, ob etwas in der Gegenwart oder der Vergangenheit ist, ob wir wollen oder nicht. Hingegen wäre man in seinem Mitteilungsdrang deutlich beschränkt, wenn man die drei Bedeutungen, die mit der Buchstabenfolge als einhergehen, nicht zur Verfügung hätte. Man möge nur einmal versuchen, die drei oben mithilfe von als ausgedrückten Inhalte ohne als zu formulieren. Wie steht es schließlich, wenn „ein Wort“ – jetzt im Sinne einer lexikalischen Einheit – aus rein grammatischen Gründen auf verschiedene Stellen im Satz verteilt wird, beispielsweise das Verb absetzen: Sie setzten den Vorsitzenden ab – sie haben den Vorsitzenden abgesetzt – weil sie den Vorsitzenden absetzten. Soll man dann setzten und ab als eigene Wörter rechnen? Betrachtet man nur die Form, so handelt es sich um zwei klar getrennte Einheiten – zwei Wörter also. Aber welche Bedeutung haben dann diese beiden Wörter, und wie ergibt sich die Bedeutung des Verbs absetzen aus der Bedeutung dieser beiden Einzelwörter? Offensichtlich kann ein Lexem aus zwei im Satz vollkommen getrennten Formbestandteilen bestehen. So einleuchtend das im Prinzip ist, so schwierig ist es, wenn man bei der Analyse großer Textkorpora die darin vorkommenden Lexeme bestimmen will: Man muss eine komplizierte syntaktische Analyse des einzelnen Satzes vornehmen, um solche getrennten Teile wieder zusammenzuführen oder zusammen zu führen. Wie bei der Lemmatisierung kann man das, sobald die Korpora eine gewisse Größe erreichen, nur noch automatisch machen, und wie bei der Lemmatisierung ergibt sich daraus eine Anzahl von Fehlern, deren Zahl von der Komplexität des Satzes abhängt. Auch hier hat man nur die Möglichkeit, entweder stille zu sein oder sich mit einer gewissen Fehlerquote zu arrangieren. Dies sind nur drei von vielen Problemen, vor die man gestellt ist, wenn man allgemeine Aussagen über den Reichtum des deutschen Wortschatzes und seine Veränderungen machen will. Im Prinzip kann man die meisten davon durch scharfsinnige theoretische Überlegungen und sorgfältige Analyse des Einzelfalls lösen. Das ist aber in der Praxis unrealistisch: Wenn ein Korpus eine Milliarde Textwörter umfasst, bräuchte man bei Achtstundentag und Siebentagewoche rund 96 Jahre, sofern man es schafft, ein Textwort pro Sekunde zu analysieren. Das dauert zu lang. Bescheidet man sich hingegen mit einem kleinen Korpus von vielleicht 100 000 Textwörtern – das entspricht einem kürzeren Roman –, dann
28
Wolfgang Klein
kann man kein umfassendes Bild von der deutschen Lexik gewinnen. Wir werden uns daher im Folgenden an den geschriebenen Wortformen orientieren, also keine Differenzierungen nach Bedeutungen und verschiedenen grammatischen Funktionen vornehmen: Absatz, als, noch, auf (der Leser möge sich überlegen, welche Bedeutungen mit noch oder auf einhergehen) werden als ein einziges Lexem gerechnet. Phraseologismen wie zur Welt bringen, den Teufel an die Wand malen, im Großen und Ganzen, Schlag ins Kontor gelten hingegen als aus mehreren Lexemen zusammengesetzt, obwohl sie ihrer Bedeutung nach als Einheit gelten können. Als ein Lexem hinwieder betrachten wir Verben wie absetzen, die bald zusammen, bald getrennt geschrieben werden (absetzten, abgesetzt, setzten … ab), weil es dafür automatisierte Verfahren der syntaktischen Analyse gibt, auch wenn diese eine gewisse Fehlerquote aufweisen. Entsprechende automatische Analysen der Bedeutung gibt es hingegen bislang nicht.10 Das sind klare Einschränkungen, mit denen man jedoch beim gegenwärtigen Stand der Wissenschaft leben muss, und es ist fraglich, ob sich das so bald ändern wird. Daraus ergibt sich aber eine wichtige Folgerung für alle später genannten Zahlen. Diese Zahlen geben an, wie viel Wörter nach Ausweis der untersuchten Korpora zur Verfügung stehen. Wenn man aber den Reichtum des deutschen Wortschatzes nicht daran bemisst, welche Wörter zur Verfügung stehen, sondern daran, welche Bedeutungen man mit diesen Wörtern ausdrücken kann – und das ist ja letztlich entscheidend –, so muss man von weitaus höheren Zahlen ausgehen. Um wie viel höher, hängt davon ab, wie viele Bedeutungen man pro Wort ansetzt; das ließe sich aber nur aufgrund einer Einzelanalyse eines jeden Wortes sagen.11
10 Die verschiedenen Bedeutungen von Absatz lassen sich bis zu einem gewissen Grad trennen, wenn man schaut, mit welchen anderen Wörtern sie bevorzugt vorkommen – beispielsweise mit Schuh, Sohle, abbrechen, mit Zeile, einrücken, Paragraph oder mit Ware, Umsatz, einbrechen. Diese Präferenzen kann man automatisch berechnen und beispielsweise in Form von „Wortwolken“ darstellen (Didakowski & Geyken 2013). Im Digitalen Wörterbuch der deutschen Sprache (www.dwds. de) werden für alle Wörter aus dem Kernkorpus (siehe folgenden Abschnitt) solche Wortwolken angegeben; das führt aber immer noch nicht zu einer automatischen Trennung der Bedeutungen. 11 Eine hier nicht weiter behandelte Frage ist, wie viele „Wortstämme“ es im Deutschen gibt. Damit sind gleichsam die Wortkerne gemeint, aus denen sich durch verschiedene Mittel der Wortbildung ganze „Wortfamilien“ herleiten lassen. Das Wort Verabredung hat beispielsweise den Kern red-, der dann durch zwei Präfixe und ein Suffix ausgebaut wird. Eine genaue Definition ist nicht einfach zu geben und hier auch nicht weiter bedeutsam. Es gibt aus neuerer Zeit zwei Versuche, die deutschen Wortstämme zu erfassen, Augst (2009; erstmals 1998) und Splett (2009). Beide gehen etwas unterschiedlich vor, kommen aber jeweils auf 8 000 bis 9 000 solcher Stämme. Sie bilden gleichsam die „Keime“ aller deutschen Wörter.
Von Reichtum und Armut des deutschen Wortschatzes
29
Korpora Fassbar wird der Wortschatz einer Sprache nur in seinem Gebrauch, so wie er in Texten dokumentiert ist. Welche und wie viele solcher Texte braucht man, um ein angemessenes Bild vom deutschen Wortschatz zu bekommen? Darauf gibt es keine eindeutige Antwort, weil es, wie oben im Abschnitt „Was weiß man eigentlich über den Wortschatzreichtum?“ erörtert, „den“ deutschen Wortschatz nicht gibt. Immerhin kann man sinnvolle Überlegungen darüber anstellen, welcher Ausschnitt dessen, was an lexikalischen Einheiten insgesamt gebraucht wird, erfasst werden soll. Hier kommen drei Faktoren ins Spiel. Zum einen schwankt der Wortgebrauch sehr stark mit Thematik, Zeit, Ort und Stilebene, um nur die vier wichtigsten Dimensionen der Variation zu nennen. Zwar gibt es Wörter, die in allen Texten vorkommen, beispielsweise als, die, es, in, so, und, weil und dergleichen mehr, also Funktionswörter, die im Gegensatz zu Inhaltswörtern nur wenig inhaltliche Bedeutung tragen. Die meisten lexikalischen Einheiten gehören zu den Inhaltswörtern, die häufig – aber nicht zwangsläufig – thematisch gebunden sind; nicht in allen Texten ist gleichermaßen von Steilpass, Strafmaß, fiedeln oder mulmig die Rede. Je nachdem, welche Texte man daher zugrunde legt, erhält man sehr unterschiedliche Ausschnitte aus der gesamten Fülle von Lexemen, die einem Sprecher des Deutschen zu Gebote stehen. Man muss also versuchen, ein einigermaßen balanciertes Korpus oder auch, je nach Zweck, mehrere solcher Korpora aufzubauen, die in digitaler Form vorliegen müssen, um handhabbar zu sein.12 Für die folgenden Untersuchungen werden drei solcher Korpora genutzt:13 1. Die Ausgangsbasis ist das Kernkorpus des Digitalen Wörterbuchs der deutschen Sprache, das derzeit an der Berlin-Brandenburgischen Akademie der Wis-
12 Die reichsten Textkorpora des Deutschen überhaupt sind natürlich die großen Bibliotheken und der deutschsprachige Teil des Internets. Beide sind aber für den vorliegenden Zweck nur von begrenztem Nutzen. Die Texte der Bibliotheken müssten, damit man sie in großem Maßstab auswerten kann, nicht nur digitalisiert, sondern auch so aufbereitet werden, dass man sie sinnvoll untersuchen kann. Das ist eine alles andere als triviale Aufgabe; ein Exempel für die dabei auftretenden Probleme findet sich in Anm. 17. Das Internet ist zwar schier unendlich reich, aber die Art der Texte ist einseitig, und die Texte müssten gleichfalls zuerst aufbereitet werden (zwei umfangreiche Sammlungen von Internet-Texten finden sich unter http://wortschatz.uni-leipzig. de sowie unter http://hpsg.fu-berlin.de/cow). Damit soll keineswegs bestritten werden, dass solche gigantischen Textmengen auch von großem wissenschaftlichen Nutzen sein können. Man muss sich nur der genannten Probleme bewusst sein. 13 Keines dieser Korpora enthält in einem Dialekt verfasste Texte. Dies schließt aber nicht aus, dass sich vereinzelt kleinere Dialekteinsprengsel oder, dies häufiger, einzelne dialektspezifische Wörter finden.
30
Wolfgang Klein
senschaften entsteht (www.dwds.de). Es besteht aus einer sorgfältigen, über das ganze 20. Jahrhundert gleichmäßig gestreuten Auswahl repräsentativer Texte, die sich zu etwa gleichen Teilen auf vier Textsorten verteilen: – Belletristik, d. h. Romane und Erzählungen; – Zeitungstexte; – Gebrauchstexte, z. B. Ratgeber, Kochbücher, Rechtstexte; – wissenschaftliche Texte aus verschiedenen Gebieten.14 Für die Zeit ab etwa 1925 enthält es auch etwa 5 % (transkribierte) Texte der gesprochenen Sprache, die aber aus den oben genannten Gründen hier nicht berücksichtigt sind.15 2. Für den Vergleich wurde ein Berichtskorpus zusammengestellt, das in drei den etwas unterschiedlichen Bedürfnissen angepassten Varianten vorliegt (zu den Unterschieden siehe Seelig im Anhang dieses Bandes). Für diesen Beitrag wurde Berichtskorpus A verwendet; es besteht aus drei Zeitscheiben, die jeweils Texte im Umfang von zehn Millionen Textwörtern aus einem Jahrzehnt umfassen (1905– 1914, 1948–1957, 1995–2004). Für die letzte, noch halb ins 21. Jahrhundert hineinreichende Zeitscheibe wurden auch Texte aus den sehr umfangreichen Korpora des Instituts für Deutsche Sprache verwendet (www1.ids-mannheim.de/kl). 3. Für manche Zwecke war es auch wichtig, ein wesentlich umfassenderes Korpus heranzuziehen. Dieses Grüne Korpus besteht aus dem schon genannten Kernkorpus des DWDS, das durch Zeitungstexte neuerer Zeit (Die Zeit, Süddeutsche Zeitung, Berliner Zeitung, (Berliner) Tagesspiegel) auf einen Umfang von insgesamt einer Milliarde Textwörter erweitert wurde. Es ist daher nicht mehr so gut nach Textsorten balanciert, liefert aber ein breiteres Bild von den tatsächlich genutzten Wörtern. Der zweite wichtige Faktor, den man bei der Korpuszusammenstellung berücksichtigen muss, ist das Anwachsen der Lexemzahl mit zunehmender Anzahl von
14 Bei Letzteren handelt es sich durchweg um Texte, die nur ein geringes Maß an ausgesprochen fachspezifischen Termini (Trimethylxanthin) aufweisen. Dies ergibt sich aus dem Vorgehen bei der Auswahl: Es wurden einige hervorragende Wissenschaftler gefragt, was jeweils die prägenden deutschsprachigen Texte ihres Faches für einen bestimmten Zeitraum waren. Ein etwas trauriges Ergebnis für manche Fächer war dabei, am Rande bemerkt, dass es für manche Fächer in den letzten zwei oder drei Jahrzehnten nur noch wenig wirklich wichtige deutschsprachige Texte gibt. 15 Das DWDS-Kernkorpus wird durch eine Reihe sehr umfangreicher Zeitungskorpora (u. a. Die Zeit, Süddeutsche Zeitung, Berliner Zeitung, (Berliner) Tagesspiegel, Bild, Welt) ergänzt, die zum Teil nur intern genutzt werden dürfen, zum Teil in das Grüne Korpus eingegangen sind. Ein vergleichbares Korpus der Frankfurter Allgemeinen Zeitung stand uns leider nicht zur Verfügung.
Von Reichtum und Armut des deutschen Wortschatzes
31
Textwörtern. Wie umfangreich muss ein Textkorpus des Deutschen sein, wenn man alle oder doch annähernd alle Lexeme des Deutschen erwischen will? Darauf gibt es bei einer lebenden Sprache keine wirklich schlüssige Antwort, weil man immer wieder neue lexikalische Einheiten hinzufügen kann. Es ist aber so, dass sich die Chancen, neue, d. h. noch nicht vorgekommene Wörter in einem Korpus zu finden, zunehmend verringern, je umfangreicher das Korpus ist. Man kann sich das Problem vor Augen führen, wenn man anfängt, die Gesammelten Werke von Karl May, Band 1 bis Band 93, in dieser Reihenfolge zu lesen. Am Anfang sind die meisten Wörter neu, nach einigen Seiten ist schon viel vorgekommen, und am Ende des Schut hat man die meisten schon einmal gelesen. Dann gibt es eine thematische Verschiebung mit Szenenwechsel (Winnetou I), es gibt wieder mehr neue Wörter, usw., bis man schließlich ermattet bei Band 93 (Briefwechsel mit Sascha Schneider) angekommen ist. Dort, so würde man annehmen, sind alle Wörter schon einmal vorgekommen. Das ist aber falsch: Zwar flacht sich die Kurve der hinzukommenden Wörter ab, je umfangreicher ein Korpus wird, aber die Zunahme ist immer noch beträchtlich. Das gilt selbst für ein Korpus, das bereits eine Milliarde Wörter umfasst – allerdings nur unter der Voraussetzung, dass man immer weiter Texte unterschiedlicher Autoren und unterschiedlicher Thematik aufnimmt; wenn man tausendmal dasselbe Werk aufnähme, dann hätte man auch ein Korpus mit vielen Textwörtern, aber keine Zunahme an lexikalischen Einheiten. Man kann die tatsächliche Zunahme recht gut nach dem sogenannten Heaps’schen Gesetz berechnen, das je nach Sprache ein wenig unterschiedliche Werte liefert (siehe etwa Tudjman 2005). Dieses Gesetz ist wichtig, wenn man von begrenzten Korpora auf die tatsächlichen Verhältnisse extrapolieren will. Wie oben erwähnt, stützt sich unsere Analyse der Wortschatzzunahme im 20. Jahrhundert auf drei Zeitscheiben mit je zehn Millionen Wörtern. Das ist viel, aber nicht genug. Für einen Teil der folgenden Untersuchungen wurden daher diese drei Zeitscheiben als Stichproben genommen und nach dem Heaps’schen Gesetz hochgerechnet („gehebelt“).16 Die berechneten Werte der 3. Zeitscheibe (1995–2004) wurden anhand des oben genannten, eine Milliarde Textwörter
16 Das Heaps’sche Gesetz, das nach dem Informatiker Harold Stanley Heaps benannt ist (Heaps 1978), aber in ähnlicher Form bereits zuvor von dem Sprachstatistiker Gustav Herdan gefunden wurde (Herdan 1960), lautet: V (n) = K nβ. V ist dabei die Zahl der Wortformen, n die Zahl der Textwörter (d. h., n gibt die Textlänge in Wörtern an). K und β sind zwei freie Parameter, die sich von Sprache zu Sprache unterscheiden und experimentell bestimmt werden müssen. Man beachte, dass sich V auf die Wortformen (z. B. geht, ging, gehst usw.) bezieht, nicht auf die zugrundeliegende lexikalische Einheit (also das Verb gehen); dies muss auf Basis der Lemmatisierung entsprechend korrigiert werden. Allgemein zur quantitativen Lexikologie siehe Köhler (2005) und Köhler et al. (2008).
32
Wolfgang Klein
langen Grünen Korpus überprüft. Vergleichbar umfassende Korpora für die früheren Zeitscheiben gibt es nicht. Aber wenn sich der berechnete Wert für die 3. Zeitscheibe durch diese Überprüfung bestätigt, dann gibt es keinen gewichtigen Grund für die Annahme, dass die Berechnung nicht auch für die 1. und die 2. Zeitscheibe gültig ist. Der dritte Faktor schließlich ist der Umstand, dass ein Korpus, ganz gleich wie es zusammengestellt ist, immer auch zahlreiche Zeichenfolgen enthält, die man nicht so ohne weiteres zu den „deutschen Wörtern“ schlagen würde. Dies sind: a) falsch geschriebene Wörter, die sich bereits im Original finden oder durch Fehler bei der Digitalisierung entstanden sind;17 b) Namen: Leica, Müritz, Spiesen, Uwe; c) Abkürzungen: usw., z. B.; d) Akronyme: BBAW, IDS; e) Ziffern und ähnliches: 319 295, 8. 5. 1998, 4711;18 f) Wörter aus anderen Sprachen: Giaur, Pizza, vulgo. Bei jeder dieser Kategorien lässt sich lange und mit guten Gründen darüber diskutieren, ob man die betreffenden Einheiten zur deutschen Lexik zählt oder nicht. Ist Leica ein Name oder eine Bezeichnung für eine Gruppe von Geräten (Er
17 Ein Beispiel aus Google Books, in dem der Leser unschwer einen Auszug aus Hegels Wissenschaft der Logik erkennt: „bamit fo fefyr erweiterten 2lnafyft8 auf bei @cometrie überljaupf, gekört ljat. T-aô problem ljat bei ifym bei ftorm ber Slufgabc, gerabe Sinien fenfredit auf beliebige Jdrte einer Gur>>e ju jieben, alo woburd) @ubtangente u.f.f. beftimmt tt>irb; man begreift bie Sefriedigung, bie er bafelbft über feine Cmtbecfung, bie einen Qòv genftanb >>on allgemeinen wiffenfdjaftlidjcn Sntcresse ber bamaltget.“ Die hohe Fehlerquote rührt daher, dass der Frakturtext des Originals mithilfe einer OCR-Software automatisch und ohne nachträgliche Korrektur in durchsuchbaren Volltext umgewandelt wurde. Dies funktioniert bei guten Antiqua-Vorlagen oft recht gut, bei älteren Frakturtexten führt es jedoch zu wenig befriedigenden Ergebnissen. Das dritte Wort fefyr – es kommt in Google Books insgesamt 94 100 Mal vor (9. 8. 2013) – entspricht dem in Fraktur geschriebenen Wort sehr. Aus diesem Grund ist Google Books – in vieler Hinsicht eine wundervolle Datenquelle, in der keineswegs alle Texte derart fehlerbehaftet sind – für wissenschaftliche Zwecke wie die vorliegenden nur von begrenztem Nutzen. 18 Ein ganz anderer Problemfall sind Zahlwörter, die sich ja nach Belieben zusammensetzen lassen. Wörter wie drei oder hundert sind sicher Bestandteile des deutschen Wortschatzes und eine wesentliche Bereicherung seiner Ausdrucksmöglichkeiten; in Kulturen ohne schriftsprachliche Tradition ist die Anzahl der Zahlwörter oft sehr beschränkt. Aber auf der anderen Seite wäre es sinnlos, alle bildbaren Zahlen zum deutschen Wortschatz zu rechnen, denn es gibt ihrer unendlich viele. In der Praxis löst sich das Problem dadurch, dass sich sinnvolle quantitative Aussagen über den deutschen Wortschatz immer nur relativ zu einem bestimmten Korpus machen lassen. In diesem Sinne wurden Zahlen, sofern sie nicht als Ziffern geschrieben sind, hier einbezogen.
Von Reichtum und Armut des deutschen Wortschatzes
33
besaß sieben Leicas). Am schwierigsten ist das Problem bei Wörtern aus anderen Sprachen: Ab wann würde man ein aus einer anderen Sprache übernommenes Wort zur deutschen Lexik zählen? Hier gibt es einen gleitenden Übergang, der von bloßen Zitaten auf der einen Seite (er sagte „schto skasaesch?“) zu nach Bedeutung, Form und grammatischen Eigenschaften wohlintegrierten Wörtern, etwa Balkon oder toppen, auf der anderen Seite reicht (siehe hierzu den Beitrag von Eisenberg in diesem Band, in dem das Problem am Beispiel der Anglizismen grundsätzlich diskutiert wird). Bei unseren Analysen wurden Zeichenfolgen, die unter die Kategorien a bis e fallen, ausgeschlossen; da dies mit automatischen Verfahren gemacht wurde, gibt es wiederum eine gewisse Fehlerquote (bei Wörtern wie Kohl ist oft gar nicht zu entscheiden, ob es sich um einen Eigennamen oder die Bezeichnung eines Gemüses handelt). Schwieriger ist es mit der unter lexikalischen Aspekten besonders heiklen Kategorie f; hier wurden bei der Erstellung des Berichtskorpus manuell sehr viele Einzelentscheidungen durch die Bearbeiter getroffen; es sollte jedoch klar sein, dass man in vielen Fällen mit ebenso guten Gründen auch anders hätte entscheiden können. Damit sind die Hauptprobleme einer Korpuserstellung und die hier gewählte Weise, mit ihnen umzugehen, genannt. Es ist ja eine lästige Unart der Wissenschaftler, unentwegt von den Problemen zu reden, statt zu den Ergebnissen zu kommen. Hier ist es aber nötig, weil sonst ein falsches Bild davon entsteht, wie gesichert die Befunde wirklich sind, und es ist zweifellos eine schlimmere Unart, eine Sicherheit vorzutäuschen, die nicht besteht und beim gegenwärtigen Stand unseres Wissens nicht bestehen kann. Es ist kein Zufall, dass man über den derzeitigen wie auch den früheren Umfang des deutschen Wortschatzes so wenig weiß. Man hat da nur die Wahl, diese Unsicherheiten offenzulegen – in der Hoffnung, dass damit ein Anstoß gegeben wird, sie Schritt für Schritt zu beseitigen – oder aber das gegenwärtige Ignoramus zu einem Ignorabimus zu erklären. Mit all diesen Kautelen (deutsches Wort?) kommen wir nun zu einigen Aussagen über die Lexik des Deutschen und ihre Entwicklung im 20. Jahrhundert. Irgendwann muss man aufhören, vom Springen zu reden, und springen.
Gesamtumfang des deutschen Wortschatzes 1905–2004 Ausgangspunkt sind die drei genannten Zeitscheiben im Umfang von je zehn Millionen Textwörtern. Rechnet man diese Zeitscheiben nun nach dem Heaps’schen Gesetz auf einen Gesamttext von einer Milliarde Wörter hoch, so kommt man
34
Wolfgang Klein
auf die folgende Anzahl verschiedener Zeichenfolgen, die man als Wortformen betrachten könnte: Zeitspanne 1905–1914 1948–1957 1995–2004 Wortformen 5 307 001 7 207 296 7 612 131
Aus diesen Rohwerten lässt sich immerhin bereits ablesen, dass es in den letzten hundert Jahren einen erheblichen Aufwuchs gibt, der in der zweiten Hälfte des Jahrhunderts jedoch offenbar geringer ausfällt. Will man die Zahl der Lexeme wissen, so müssen diese Werte bereinigt werden um: a) verschiedene Flexionsformen ein und desselben Wortes, b) all jene Zeichenfolgen, die nach dem im vorigen Abschnitt Gesagten nicht zu den deutschen Lexemen gerechnet sind, also Wörter aus anderen Sprachen, Ziffern, Akronyme, Abkürzungen, Namen und Fehler, die in den Originaltexten stehen (Druckfehler) oder bei der Korpuserstellung entstanden sind. Der genaue Anteil dieser auszuschließenden Formen schwankt in gewissen Grenzen. Man kann ihn nach unseren Erfahrungen im DWDS-Kernkorpus auf 25 % bis 30 % veranschlagen. Um auf der sicheren Seite zu sein, ziehen wir daher von den Rohwerten 30 % ab. Dies ergibt folgendes Bild (von nun an sind die Zahlen auf 1 000 gerundet, weil jede genauere Angabe eine nicht vorhandene Präzision vortäuschen würde): Zeitspanne 1905–1914 1948–1957 1995–2004 Lemmata
3 715 000 5 045 000 5 328 000
Dies führt zu einem ersten wichtigen Ergebnis: In einem Textkorpus der deutschen Gegenwartssprache, das eine Milliarde Textwörter lang ist, kommen etwa 5,3 Millionen lexikalische Einheiten – also Wörter, so wie sie im Wörterbuch stehen – vor. Nicht gerechnet sind dabei Mehrworteinheiten wie ins Gras beißen oder jemandem ein Ohr abkauen, die ihrer Bedeutung nach (sterben bzw. zutexten) streng genommen auch den Status einer lexikalischen Einheit haben (Burger et al. 2007 gibt umfassend über solche Mehrwortwörter Auskunft; die spezifischen Probleme bei ihrer lexikographischen Erfassung werden in Ďurčo 2010 diskutiert). Es sei hier noch einmal daran erinnert, dass die meisten Lexeme mehrere Bedeutungen haben können. Wenn man Absatz seinen vier verschiedenen Bedeutungen entsprechend nicht als eine lexikalische Einheit zählt, sondern als vier, dann enthält man entsprechend mehr lexikalische Einheiten für das Deutsche.19
19 Einen Durchschnitt von vier Bedeutungen pro Lexem anzusetzen mag hoch sein. Es sei daran erinnert, dass, wie oben bemerkt, Le Grand Robert für das Französische nach eigenen Angaben 100 000 Stichwörter mit 350 000 Bedeutungen beschreibt.
Von Reichtum und Armut des deutschen Wortschatzes
35
Die obigen Werte sind berechnet. Der für die 3. Zeitscheibe angegebene Wert lässt sich jedoch in der Tat anhand eines realen Korpus gleicher Länge überprüfen. Wie oben im Abschnitt Korpora bemerkt, besteht dieses Grüne Korpus zum größten Teil aus Zeitungstexten der Gegenwart, enthält aber auch zu etwa 10 % Texte, die über das ganze Jahrhundert verteilt sind. Die Zahl der lexikalischen Einheiten sollte daher ein wenig unter der nach Heaps’ Gesetz berechneten Zahl für ein reines Gegenwartskorpus gleicher Größe liegen. Dies ist in der Tat so – im Grünen Korpus liegt der Wert bei knapp unter 5 Millionen Lexemen gegenüber dem berechneten Wert von 5,3 Millionen. Für die beiden ersten Zeitscheiben gibt es keine vergleichbaren Korpora dieser Größe; bis zum Beweis des Gegenteils gibt es jedoch keinen Grund anzunehmen, dass das Heaps’sche Gesetz für sie nicht gilt. Dies bringt uns zu dem zweiten zentralen Ergebnis: Der deutsche Wortschatz hat im Verlauf des 20. Jahrhunderts um etwa ein Drit tel – und wenn man eine Sicherheitsmarge annimmt, ein Viertel – zugenommen. Dabei ist der Anstieg in der ersten Jahrhunderthälfte deutlicher als in der zweiten. Dieses Anwachsen der deutschen Lexik in den letzten hundert Jahren wird man nicht als eine Verarmung betrachten wollen. Worin im Einzelnen liegt der Zuwachs? Genaue Zahlen dafür gibt es nicht und wird es auch so schnell nicht geben. Dazu müsste man sich die Lexeme im Einzelnen ansehen, eine Aufgabe, die, selbst wenn man die grundsätzlichen Probleme bei „Fremdwörtern“ ausklammert, eigene aufwendige Untersuchungen verlangen würde (fünf Millionen Wörter sind nicht so rasch überprüft). Eine erste Durchsicht zeigt aber sofort, dass eigenständige neue einfache Wörter, beispielsweise rödeln oder mosern, zwar durchaus vorkommen, aber selten sind. Die Zahl der Übernahmen aus anderen Sprachen, sosehr sie ins Auge fallen mögen, wird überschätzt (siehe dazu den Beitrag von Eisenberg in diesem Band). Der weitaus größte Teil des Zuwachses entfällt auf Wortbildungen aus bestehenden Wörtern – also auf Ableitungen und Komposita. Beides findet sich auch in anderen Sprachen, aber selten in dem Ausmaß, in dem man es im Deutschen vor allem bei den Komposita beobachten kann. Das wirft die schwierige Frage auf, ob man denn Ableitungen wie Zocker oder geldmäßig und Komposita wie Nacktbackverbot oder Vorsorgeuntersuchung wirklich als „neue Wörter“ ansehen soll, die den Ausdrucksreichtum der deutschen Lexik ändern. Schließlich beruhen sie ja auf bekannten Bestandteilen und sind zumindest der Form nach gemäß festen Regeln gebildet. Dieser sehr schwierigen Frage soll hier kurz nachgegangen werden, da sie für eine Einschätzung des lexikalischen Ausdrucksreichtums sehr wichtig ist. Dabei beschränke ich mich auf Komposita, die den weitaus größten Teil des Aufwuchses ausmachen; für Ableitungen gilt cum grano salis dasselbe (die Produktivität von Suffixableitungen wurde – teils mit überraschenden Ergebnissen – systematisch erstmals in Schneider-Wiejowski 2011 quantitativ untersucht).
36
Wolfgang Klein
Als wichtigstes Kriterium dafür, ob man ein Kompositum als eigenes Lexem zählen soll, gilt in der Wortbildungslehre (etwa Fleischer & Barz 2012: 42ff.) der Grad der „Kompositionalität“, d. h. das Ausmaß, in dem sich die Bedeutung des zusammengesetzten Worts aus der Bedeutung seiner Teile ergibt. Es gibt in der Tat viele Komposita, deren Bedeutung sich relativ klar aus der ihrer Bestandteile ablesen lässt, wie Bäckerlehrling oder graublau; man nennt solche Komposita oft „vollmotiviert“. Für andere ist das aber durchaus nicht der Fall: Wer nur rubbeln und fest kennt, weiß noch nicht, was rubbelfest bedeutet; immerhin denkt man sich, dass es etwas mit rubbeln zu tun hat – rubbelfest ist „teilmotiviert“. In anderen Fällen sieht man überhaupt keinen Zusammenhang zwischen Teilen und Ganzem, beispielsweise bei dem in den letzten Jahren häufig verwendeten Wort Herdprämie, das daher als „unmotiviert“ gilt. Eine andere in dieser Hinsicht nebulöse Neuerung ist das Adjektiv zeitnah, das anscheinend so viel bedeutet wie rasch – eine Deutung, die sich nicht unmittelbar aus der Bedeutung von Zeit und nah herleiten lässt. Diese dreistufige Scheidung ist verbreitet und durchaus auch sinnvoll; sie wird jedoch der tatsächlichen Komplexität der Kompositabedeutung nicht gerecht. Zum einen ist es nämlich so, dass die Teilwörter ihrerseits oft mehrere Bedeutungen haben, von denen ein Kompositum nur eine herausgreift. Bei Absatzkurve etwa ist dies – wahrscheinlich – die Bedeutung III „Verkauf, Vertrieb“, bei Absatzlänge hingegen eher die Bedeutung II „Erhöhung der Schuhsohle unter der Hacke“. Zum andren führt die Zusammensetzung oft auf eine ganze Gruppe von Bedeutungen, von denen aber nur eine tatsächlich verwendet wird. Beide Probleme hängen oft zusammen. Man kann sie sich an einem so gängigen Wort wie Parklücke vor Augen führen. Die Verbindung von Park und Lücke könnte vieles bedeuten – eine Lücke in einem Park, eine Stelle in der Bebauung, die für einen Park freigelassen ist, der Abstand, den ein geparktes Auto von einem anderen anstandshalber einhalten sollte, und anderes mehr. Tatsächlich verwendet wird Parklücke aber nur für eine freie Stelle, an der man sein Fahrzeug abstellen kann. Ebenso könnte man rein aufgrund der Bauform von Führerschein darunter auch eine Gloriole um einen Führer verstehen (analog zu Heiligenschein), man tut es aber nicht. Man muss daher unterscheiden zwischen der Bedeutung, die ein Kompositum rein aufgrund seiner Zusammensetzung haben könnte, und der Bedeutung, in der es tatsächlich verwendet wird. Letztere kann man nur in Grenzen aus der Bedeutung der Bestandteile ablesen. Darüber täuscht man sich leicht hinweg, denn wir treffen uns bisher unbekannte Komposita gewöhnlich in einem bestimmten Textzusammenhang an, der uns Aufschluss darüber gibt, was denn nun tatsächlich gemeint ist. Anders gesagt, wir verstehen unvertraute Komposita nicht allein aufgrund ihrer sprachlichen Form, sondern auch aufgrund der Information, die uns aus dem jeweiligen Kontext zukommt. Ebenso verstehen wir
Von Reichtum und Armut des deutschen Wortschatzes
37
auch oft einfache Wörter, die uns bislang nicht bekannt waren.20 Anders, als man zu glauben geneigt ist, sind neue Komposita daher in der Tat zumeist eine echte Erweiterung der Lexik einer Sprache. Eine ganz andere Frage ist, ob man jedes Kompositum in ein Wörterbuch aufnehmen soll (Schippan 1992; Schlaefer 2009). Traditionell geschieht dies nicht, und das mit guten Gründen. Zum einen leiden gedruckte Wörterbücher unter Raumbeschränkungen; zum andern ist es angesichts des Zwecks der Wörterbücher oft auch nicht nötig (Engelberg & Lemnitzer 2009). Wörterbücher haben nicht so sehr die Aufgabe, die spezifische Bedeutung eines Wortes erschöpfend zu beschreiben – das gelingt fast nie. Vielmehr sollen sie in erster Linie ihren Benutzern helfen, einen Text, in dem das Wort vorkommt, zu verstehen. Bei einem Kompositum kann der Benutzer allein schon aufgrund seiner Kenntnis der Bestandteile eine gewisse Vorstellung von der Verwendungsweise des ganzen Wortes gewinnen; diese Vorstellung reicht dann aus, um das Wort im Kontext richtig zu verstehen.
Unterschiede in den Textsorten Bislang haben wir den Umfang des Gesamtwortschatzes betrachtet, so wie er sich in Korpora bestimmter Länge niederschlägt. Im Folgenden wird nun nach den vier Textsorten Belletristik, Zeitungen, Gebrauchstexte und wissenschaftliche Texte differenziert.21 Anders als im vorigen Abschnitt betrachten wir dabei keine hochgerechneten Korpora, sondern die tatsächlichen drei Zeitscheiben mit einem Umfang von jeweils zehn Millionen Textwörtern, weil es uns hier weniger auf die Gesamtgröße ankommt als auf die relativen Unterschiede. Eine erste Frage ist hier, wie viele Lexeme sich in allen vier Textsorten über alle Zeiten hinweg finden, was also die Konstanten über das 20. Jahrhundert sind. Es sind dies nur 8 % der Lexeme – mit anderen Worten, die verschiedenen Text sorten haben eine sehr hohe Spezifik im Wortschatz über die Zeit hinweg. Diese
20 Besonders schön sehen kann man dies, wenn man einen Text in einer anderen Sprache liest und auf ein Wort trifft, das man nicht kennt oder das man vielleicht einmal gelernt hat, aber dessen Bedeutung einem entfallen ist. 21 Diese Einteilung folgt den Vorgaben der zugrundeliegenden Korpora. Sie ist offenkundig grob; Zeitungen beispielsweise setzen sich im Grunde aus sehr verschiedenen Textsorten zusammen. Es ist aber im Prinzip aufgrund der Angaben in den Korpora möglich, hier feiner zu differenzieren, indem man die einzelnen Texte mit entsprechenden „Metadaten“, d. h. Schlagwörtern, die den Text näher kennzeichnen, versieht. Der praktische Aufwand ist allerdings doch erheblich.
38
Wolfgang Klein
8 % gemeinsamer Wörter decken jedoch über 90 % aller Wortvorkommen ab. Das liegt daran, dass es sich dabei großenteils um inhaltsarme Wörter (Funktionswörter) wie dass, die, in, nach, so, und, weil handelt. Sie sind daher nicht textspezifisch. Das heißt allerdings nicht unbedingt, dass sie auch in allen Texten gleich oft vorkommen; es mag sehr wohl sein, dass dann in einem narrativen Text viel häufiger ist als in einem wissenschaftlichen, während es sich bei weil umgekehrt verhält: dann ist charakteristisch für temporale Strukturen, weil für argumentative. Dieser Frage werden wir weiter unten exemplarisch nachgehen. Im Deutschen gibt es etwa 200 solcher Funktionswörter, darunter die drei häufigsten deutschen Wörter überhaupt, nämlich der (mit allen Flexionsformen wie die, dem, denen usw.), und sowie ein (dies ebenfalls mit allen Flexionsformen). Unterscheiden sich die Textsorten nun in ihrem Anteil an solchen inhaltsarmen Wörtern? Ja. In der Belletristik machen sie 51 % aller Wortvorkommen aus, in den Gebrauchstexten 48 %, in der wissenschaftlichen Prosa 46 %, in den Zeitungen 45 %. Die Unterschiede sind nicht sehr groß, aber doch deutlich. Die Belletristik hat demnach eine leichte Neigung zu inhaltsarmen Wörtern. Dieselbe Tendenz zeigt sich auch, wenn man betrachtet, welche Wörter – diesmal nun inhaltsreiche und daher thematisch stärker gebundene – in nur einer einzigen Textsorte vorkommen: Belletristik 13 %, Gebrauchstexte 16 %, wissenschaftliche Literatur 22 %, Zeitungen 23 %, also fast doppelt so viel wie in der Belletristik. Das mag daran liegen, dass das thematische Repertoire der Belletristik begrenzter ist als das der Zeitungen oder auch der wissenschaftlichen Literatur, die verschiedenen Disziplinen entstammt und daher auch einen stärker variierenden Wortschatz aufweist.22 Vergleichen wir nun die lexikalische Entwicklung der vier Textsorten über die Zeit. Die folgenden Zahlen geben an, wie viele Lexeme sich in einem Text von zehn Millionen Textwörtern finden. Sie sind bereits um Flexionsformen, Zahlen und Fehler bereinigt und auf 100 gerundet. Ausgeschlossen wurden auch – anders als im Beitrag von Eisenberg in diesem Band – alle Eigennamen. Eigennamen sind zwar Wörter, aber man würde sie nur in Ausnahmefällen als lexikalische Einheiten ansehen, die den Ausdrucksreichtum des Deutschen vergrößern.
22 Bei den Zeitungen – nicht allerdings bei der wissenschaftlichen Literatur – ist auch die Zahl der Autoren größer als bei der Belletristik, d. h., der reichere Wortschatz wird teilweise auch einer gewissen Autorenspezifik geschuldet sein.
Von Reichtum und Armut des deutschen Wortschatzes
39
1905–1914 1948–1957 1995–2004
Belletristik
52 700 57 400 57 000
Zeitungen
66 500 68 500 84 800
Wissenschaftliche Prosa 64 800 70 800 76 200 Gebrauchstexte
54 500 66 800 75 900
Auch hier fällt auf, dass die Belletristik den geringsten Wortschatz aufweist, die Zeitungen – außer seltsamerweise in der zweiten Zeitscheibe – den reichsten. Ebenso entwickelt sich der Wortschatz in Romanen und Erzählungen über das ganze 20. Jahrhundert am schwächsten; in der zweiten Jahrhunderthälfte gibt es sogar einen leichten Abfall. Den im Ergebnis stärksten Ausbau der Lexik finden wir wiederum bei Zeitungen. Das hat seinen Grund weniger darin, dass die Schriftsteller sprachlichen Neuerungen abhold sind, sondern darin, dass in Zeitungen immer neue Themen auftauchen, und die erfordern neue Wörter. Erstaunlich und zumindest mir rätselhaft ist allerdings, dass es bei der Belletristik seit den 1950er Jahren offenbar keine Zunahme gegeben hat. Wohlgemerkt: Es geht hier um die Zunahme der Zahl nach. Es ist keineswegs gesagt, dass es sich um dieselben rund 57 000 Wörter handelt; der Wortschatz, so wie er sich bei den hier dokumentierten Autoren zeigt, kann sich also sehr wohl geändert haben.
Die häufigsten deutschen Wörter Manche Wörter kommen nur in bestimmten Texten vor, weil sie für eine bestimmte Thematik wichtig sind, andere in allen, weil sie thematisch nicht gebunden sind. Dies sind vor allem Funktionswörter; deshalb sind die häufigsten deutschen Wörter allesamt Funktionswörter. Als Kandidaten für den ersten Platz gelten die und und. Der Vergleich zwischen beiden ist allerdings aus zwei Gründen etwas problematisch. Erstens ist die Teil eines kleinen Paradigmas, zu dem auch der, das, des, dem und den zählen, ohne dass man sie in der Tradition als gewöhnliche Flexionsformen eines einzigen Lexems betrachten würde. Zweitens kann die (ebenso wie der, das, dem, den) in verschiedenen Funktionen auftreten: als Artikel (die Maus), als Relativpronomen (eine Maus, die) und als eine Art Personalpronomen (der Kater wollte eine Maus fangen, aber die war …). Im Folgenden ist angegeben, wie oft die drei reinen Wortformen der, die, das (in gleich welcher Funktion), die Konjunktion und und die gleichfalls sehr häufige Präposition in vorkommen, und zwar im Kernkorpus (100 Millionen Textwörter) und in drei Zeitungskorpora: der Zeit (etwa 460 000 Millionen), in der Süddeutschen Zeitung (ebenfalls etwa 460 000 Millionen) und in zwei Berliner Zeitungen (Tagesspiegel und Berliner Zeitung, zusammengenommen etwa 420 Millionen). Ferner sind
40
Wolfgang Klein
die Häufigkeiten für ein in allen Flexionsformen zusammen angegeben; dann schiebt es sich nämlich den Vorkommen nach zwischen die genannten Wörter (alle Zahlen sind auf 1 000 gerundet):
Kernkorpus
Zeit
Süddeutsche
Berliner Zeitungen
der 1 909 000
7 796 000
8 365 000
7 418 000
die 1 899 000
8 719 000
8 000 000
7 301 000
das 779 000 3 688 000
2 868 000
2 640 000
und 1 834 000
6 417 000
5 546 000
in 1 226 000 5 076 000
5 220 000
4 593 000
ein- 1 490 000
6 289 000
5 667 000
6 449 000 6 306 000
Demnach trägt im Kernkorpus, in der Süddeutschen Zeitung und in den Berliner Zeitungen der die Krone; in der Zeit hingegen liegt die an der Spitze, und zwar mit klarem Abstand. Die Unterschiede sind deutlich, und bei der großen Zahl ist nicht plausibel, dass sie reiner Zufall sind. Ein Blick auf die Belege von der zeigt, dass sehr viele davon gar nicht dem Maskulinum (der Löffel) geschuldet sind, sondern dem Genitiv im Plural oder Singular (Chor der Gefangenen, Königin der Nacht). Aber soll man annehmen, dass die Autoren der Zeit weniger Genitivattribute verwenden? Es ist dies nicht die einzige merkwürdige Schwankung: Im Vergleich zu den anderen Korpora kommt in der Zeit das Wort das sehr oft vor. Was mag das für Gründe haben? Umgekehrt schließt im Kernkorpus, und nur dort, die Konjunktion und dicht zu den beiden Führenden auf; offenbar gibt es in reinen Zeitungskorpora weniger und – vielleicht weil die Sätze im Schnitt insgesamt kürzer sind. Es ist schon bemerkenswert, dass selbst derart riesige Korpora kein einheitliches Bild ergeben, und dies wohlgemerkt bei Wörtern, die thematisch nicht gebunden sind. Sicher sagen kann man nur, dass entweder der oder die an der Spitze liegen und dass und an dritter Stelle folgt. Nun sind Funktionswörter, so wichtig sie sein mögen, nicht die Hauptträger der Information in einem Text. Wie steht es mit gehaltreicheren Wörtern, insbesondere den drei flektierenden Wortklassen Nomen, Verb und Adjektiv, aber auch mit den Adverbien? Im Folgenden sind jeweils die 20 häufigsten Wörter in den drei Zeitscheiben zusammengestellt. Flexionsformen sind zusammengerechnet. Wir beginnen mit den Nomina, die unter allen Wörtern die stärkste thematische Bindung aufweisen. Die häufigsten deutschen Nomina sind mit einigen wenigen Ausnahmen allerdings in dieser Hinsicht relativ neutral – sie könnten in den meisten Textsorten auftauchen.
Von Reichtum und Armut des deutschen Wortschatzes
1905–1914 Jahr 15 376 Herr 15 196 Zeit 14 520 Frau 13 199 Mensch 11 549 Tag 10 685 Wort 10 418 Leben 9 662 Mann 8 734 Kind 8 431 Gott 7 616 Auge 7 120 Haus 6 745 Welt 6 450 Mutter 6 008 Frage 5 878 Teil 5 414 Hand 5 394 Art 5 340 Ding 5 107
1948–1957 Mensch 12 395 Jahr 11 906 Zeit 11 321 Frau 9 238 Herr 8 302 Tag 7 540 Leben 7 495 Welt 7 465 Frage 7 004 Staat 7 001 Mann 6 643 Regierung 6 566 Kind 5 918 Wort 5 617 Art 5 387 Hand 5 053 Auge 4 996 Teil 4 955 Partei 4 884 Arbeit 4 845
41
1995–2004 Jahr 22 221 Zeit 9 650 Frau 8 709 Mensch 7 654 Tag 7 398 Prozent 6 031 Kind 5 946 Leben 5 638 Vater 5 456 Haus 5 379 Mann 5 170 Ende 5 105 Welt 4 852 Frage 4 532 Mutter 4 309 Million 4 266 Teil 4 247 Auge 4 065 Herr 4 064 Seite 4 063
Man sieht sofort, dass es sich im Großen und Ganzen um dieselben Wörter handelt. Bei näherem Hinschauen zeigen sich doch einige eigentümliche Verschiebungen: Gott, zu Beginn des 20. Jahrhunderts an elfter Stelle, taucht am Ende dieses Jahrhunderts nicht einmal unter den hundert häufigsten Wörtern auf; es ist nach wie vor viel von der Welt die Rede, nicht aber von Gott. Auch der Kaiser, in der 1. Zeitscheibe an 57. Stelle, ist aus den hundert häufigsten Wörtern herausgefallen. Stattdessen haben sich Prozent und Million ins Vorfeld geschoben; keines davon findet sich in den beiden ersten Zeitscheiben unter den hundert häufigsten Nomina. Die gleichbleibend hohe Verwendung von Frau und Herr erklärt sich, wie ein Blick in die Belege zeigt, vor allem aus ihrem Gebrauch in Frau Müller oder Herr Lehmann. Auffällig ist freilich, dass Herr in der 1. Zeitscheibe über 15 000-mal vorkommt, während es sich in der 3. Zeitscheibe zwar nach wie vor häufig findet, aber doch auf rund 4 000 Belege gefallen ist. Überhaupt zeigt ein Blick auf die Zahlen, dass die Verschiebungen komplexer sind, als es zunächst den Anschein hat. So findet sich Zeit in allen Zeitscheiben unter den ersten drei Wörtern, es ist aber von 14 520 auf 11 321 und schließlich auf 9 650 gefallen; merkwürdiger ist dies noch bei Frau, das vom vierten auf den dritten Rangplatz gestiegen, aber dennoch deutlich seltener geworden ist: statt rund 13 200-mal kommt es nur noch rund 8 700-mal vor. Es gibt eine Reihe weiterer Verschiebungen, die zeigen, dass es offenbar jenseits „neuer“ und „verlorener“ Wörter eine erhebliche Entwicklung im nominalen Wortschatz über das 20. Jahrhundert gegeben hat.
42
Wolfgang Klein
Werfen wir nun einen Blick auf die 20 häufigsten Verben: 1905–1914 sagen 28 875 kommen 24 394 machen 20 112 sehen 18 986 geben 18 146 gehen 16 872 stehen 13 078 finden 11 781 nehmen 10 659 bleiben 9 918 liegen 9 308 bringen 8 587 halten 8 556 tun 8 551 lassen 8 471 sprechen 7 936 treten 6 313 glauben 6 008 stellen 5 994 denken 5 860
1948–1957 sagen 23 268 geben 19 189 sehen 18 545 kommen 17 885 machen 15 553 gehen 14 182 stehen 12 827 bleiben 9 632 nehmen 9 236 liegen 9 037 finden 8 089 tun 7 484 lassen 7 294 bringen 6 537 sprechen 6 332 stellen 6 329 halten 6 325 zeigen 5 471 denken 5 216 setzen 4 875
1995–2004 sagen 23 061 geben 16 991 kommen 16 399 sehen 15 866 gehen 14 738 machen 14 601 stehen 11 103 finden 8 368 bleiben 8 143 liegen 7 632 nehmen 7 240 stellen 5 947 gelten 5 458 lassen 5 425 tun 5 398 zeigen 5 359 bringen 5 239 halten 5 015 setzen 4 785 fragen 4 771
All dies sind Allerweltsverben, und anders als bei den Nomina gibt es recht wenig Verschiebungen. Das Wort denken, in der 1. Zeitscheibe an 20. und in der 2. Zeitscheibe an 19. Stelle, ist in der 3. Zeitscheibe zwar aus der Tabelle herausgefallen, steht aber auf Platz 22 und ist damit nach wie vor sehr häufig. Es fällt allerdings auf, dass die absoluten Zahlen im Schnitt deutlich zurückgegangen sind: das häufigste Verb sagen von 28 875 auf 23 061, das jeweils zweithäufigste von 24 394 auf 16 991, das jeweilige Verb auf Rangplatz 20 von 5 860 auf 4 771. Das kann zwei Gründe haben: Der Anteil der Verben insgesamt ist zurückgegangen – vielleicht zugunsten der Nomina; dies würde die Idee einer zunehmenden Nominalisierung, wie sie von manchen Sprachkritikern beklagt wird („Substantivitis“), stützen. Oder aber der Anteil der Verben bleibt gleich, es werden jedoch mehr verschiedene Verben benutzt. Dies spräche für eine größere Differenzierung im Bereich der Verben und damit für eine Entwicklung, die man eher als positiv werten würde. Der Umstand, dass sich der deutsche Wortschatz insgesamt über das 20. Jahrhundert deutlich ausgeweitet hat, spräche für letztere Deutung; allerdings mag die Erweiterung vorwiegend neuen Nomina zu verdanken sein. Die Daten, so wie sie hier vorliegen, sind mit allen Deutungen zu vereinbaren, und so müssen wir die Frage hier offenlassen.
Von Reichtum und Armut des deutschen Wortschatzes
43
Die dritte Kategorie sind die Adjektive. Hier ergibt sich folgendes Bild: 1905–1914 gut 15 390 neu 13 575 ander 12 822 ganz 11 446 klein 11 195 alt 10 341 erst 10 291 deutsch 9 499 weit 8 864 letzte 6 217 allgemein 6 166 jung 5 773 eigen 5 482 lang 5 402 verschieden 5 251 schwer 4 987 wirklich 4 663 hoch 4 634 einzeln 4 587 kurz 4 386
1948–1957 ander 15 958 gut 14 960 neu 12 856 deutsch 10 784 klein 9 945 erst 9 416 alt 7 766 weit 7 730 ganz 7 093 eigen 6 771 letzte 5 822 politisch 5 491 wirklich 5 004 gleich 4 902 hoch 4 607 jung 4 599 lang 4 500 frei 4 239 allgemein 4 228 verschieden 3 903
1995–2004 ander 15 020 neu 14 319 gut 13 090 ganz 11 465 erst 11 386 deutsch 10 653 weit 8 009 klein 7 312 alt 7 070 eigen 5 731 letzte 5 227 lang 4 360 politisch 3 988 zweit 3 926 hoch 3 911 kurz 3 815 einfach 3 805 schnell 3 589 wichtig 3 506 jung 3 316
Auch hier ist der Bestand weitgehend derselbe; das Adjektiv politisch taucht in der 1. Zeitscheibe zwar nicht unter den 20 häufigsten auf, steht dort aber immerhin auf Rang 40. Die drei häufigsten Adjektive sind ander, gut, neu. Gold, Silber und Bronze wechseln, aber die Häufigkeiten bleiben fast gleich. Bemerkenswert ist jedoch, dass auch hier die absoluten Werte im Schnitt deutlich zurückgehen, wenn auch weniger als bei den Verben. Wie bei diesen kann das daran liegen, dass der Anteil der Adjektive insgesamt in den verschiedenen Texten zurückgeht, oder aber daran, dass bei den Adjektiven stärker differenziert wird. Kommen wir zum Schluss auf die Adverbien, deren Zuordnung zu Funktionswörtern oder Inhaltswörtern etwas schwankend ist. In der folgenden Liste sind nur „genuine“ Adverbien verzeichnet (wobei man sich bei manchen Wörtern, etwa nur, darum streiten kann, ob man sie als Adverb oder als Partikel betrachten soll; die Grammatiker vertreten hier etwas unterschiedliche Auffassungen); adverbial verwendete Adjektive sind bei den Adjektiven berücksichtigt.
44
Wolfgang Klein
1905–1914 so 60 846 auch 60 792 nur 41 278 noch 38 790 aber 34 193 dann 21 219 doch 19 378 schon 18 743 wieder 16 920 da 16 741 sehr 16 330 nun 15 644 immer 14 847 hier 14 478 ganz 14 386 selbst 13 360 mehr 13 068 jetzt 11 641 ja 9 686 einmal 9 397
1948–1957 auch 58 493 so 47 143 nur 37 624 noch 36 051 aber 26 460 dann 21 649 schon 16 619 wieder 15 889 immer 15 393 mehr 14 302 hier 14 120 sehr 13 014 doch 12 810 selbst 12 091 nun 11 842 ganz 10 471 also 10 254 da 9 930 jetzt 9 889 einmal 9 583
1995–2004 auch 50 159 so 35 945 noch 30 383 nur 29 637 dann 18 752 aber 17 384 schon 15 570 wieder 14 231 immer 13 973 mehr 10 728 jetzt 9 512 da 9 124 hier 9 020 doch 8 962 selbst 8 315 nun 7 844 einmal 6 854 sehr 6 710 erst 6 654 also 6 547
Der Bestand ist im Großen und Ganzen derselbe, und auch die Reihenfolge bleibt weitgehend gleich. Auffällig sind wiederum einige quantitative Entwicklungen, die zu Fragen Anlass geben. Das Wort aber liegt in der 1. Zeitscheibe auf dem fünften Platz und in der 3. Zeitscheibe auf dem sechsten – kein großer Unterschied also; aber in der 1. Zeitscheibe kommt es 34 193-mal vor, in der 3. Zeitscheibe nur 17 384-mal, also kaum mehr als halb so oft. Offenbar war man vor dem Ersten Weltkrieg eher geneigt, Gegensätze herauszustellen, denn das ist ja die hauptsächliche Funktion von aber. Und wie bei Verben und Adjektiven liegt auch bei den Adverbien der Durchschnitt deutlich niedriger. Es gibt noch viel Stoff für Dissertationen, bei denen die Gefahr eines Plagiats sehr gering ist.
Verluste Insgesamt ist der deutsche Wortschatz im Verlaufe des 20. Jahrhunderts deutlich gewachsen. Dies schließt natürlich nicht aus, dass in diesen Jahren auch Wörter außer Gebrauch geraten sind oder dass ihnen dieses Schicksal bevorsteht, wenn sich niemand ihrer erbarmt und sie wieder benutzt.23 Das heißt freilich nicht,
23 Mrozek (2008) ist eine unterhaltsame Sammlung solcher Wörter; viele davon sind allerdings durchaus noch in neueren Texten zu finden. Systematische Untersuchungen auf breiter Datengrundlage gibt es meines Wissens bislang nicht.
Von Reichtum und Armut des deutschen Wortschatzes
45
dass sie aus dem Wortschatz verschwunden sind, denn sie werden ja oft noch verstanden, und sie können benutzt werden, um dem Gesagten ein altertümliches Gepräge zu geben. In den gängigen Wörterbüchern heißt es oft, dass ein bestimmtes Wort „altertümlich, veraltet, veraltend“ ist. Solche Angaben beruhen zumeist auf subjektiven Einschätzungen der Artikelverfasser (durchaus nichts Schlechtes), nicht auf Untersuchungen der tatsächlichen Verwendung. Im Folgenden wird das exemplarisch für einige typische Kandidaten nachgeholt. Dazu benutzen wir nicht nur die drei Zeitscheiben, sondern Wortverlaufskurven über das gesamte Kernkorpus hinweg (siehe www.dwds.de), eingeteilt in Intervalle von zehn Jahren: 1900–1909, 1910–1919, …, 1990–1999. Das erste Beispiel ist das Wort Droschke. Es kommt im Kernkorpus insgesamt 284-mal vor, und die Entwicklung zeigt genau das, was man erwarten würde – das Wort wird zunehmend seltener, so wie die Sache auf den Straßen. Abb. 1 Wortverlauf für Droschke im DWDS-Kernkorpus Belletristik
150
Zeitung
Wortverlauf für "Droschke" im DWDS-Kernkorpus Gebrauchsliteratur Wissenschaft
100
50
0
1900er
1910er
1920er
1930er
1940er
1950er
1960er
1970er
1980er
1990er
Ein Blick in umfängliche Zeitungskorpora zeigt allerdings, dass es auch heute noch verwendet wird, in der Zeit seit ihren Anfängen etwa 100-mal (gegenüber 4 700 Vorkommen von Taxi im selben Korpus). Schaut man sich nun die Belege selbst an, so sieht man rasch, dass es durchweg in historisierenden Kontexten oder in spezifischer Gestaltungsabsicht benutzt wird. Ein typisches Beispiel ist die folgende Stelle vom 16. 7. 2008: Schulz benutzt einzelne Erinnerungsbilder. Besonders wichtig war ihm das einer Droschke „mit aufgesetzten Kasten und brennenden Laternen“, die in einen Wald hinausfährt. „Mir scheint“, schreibt er 1935, „daß der ganze Rest des Lebens damit vergeht, diese Einblicke zu interpretieren …“. Dasselbe beobachtet man für ein Wort wie alldieweil. Wo es überhaupt vorkommt – im Kernkorpus viermal, in der Zeit 25-mal –, geschieht dies durchweg in ironisierender oder historisierender Absicht. Hier ein Beispiel vom 25. 3. 1996:
46
Wolfgang Klein
Biolek läßt mit pc-gebügelter „Ich verstehe alles“-Huld ein paar Nönnchen aufmarschieren, alldieweil ein geplagter Peter Rühmkorf bei 3 nach 9 erfahren darf, daß Hella von Sinnen einen Hammerzeh hat oder die unvermeidliche Hera Lind dem literarischen Rezept „Ich schreibe nicht mit dem Kopf, sondern aus dem Bauch“ folgt. Ähnliches gilt für Wörter wie sintemalen, zuvörderst oder weiland. Letzteres ist allerdings auffällig häufig. Im Kernkorpus findet es sich 109-mal, mit einer eigentümlichen Verlaufskurve. Abb. 2 Wortverlauf für weiland im DWDS-Kernkorpus Belletristik
30
Zeitung
Wortverlauf für "weiland" im DWDS-Kernkorpus Gebrauchsliteratur Wissenschaft
20
10
0
1900er
1910er
1920er
1930er
1940er
1950er
1960er
1970er
1980er
1990er
Da die Zahl der Belege insgesamt klein ist, kann sich schon ein einzelnes längeres Werk deutlich auswirken. Das ist hier für die 1940er Jahre der Fall: Die meisten Belege von weiland in diesem Jahrzehnt stammen aus Wolf von Niebelschütz’ Roman Der blaue Kammerherr, der 1949 erschienen ist. Bemerkenswerterweise ist weiland wieder im Kommen. In der Zeit findet es sich beispielsweise nicht weniger als 1 800-mal, das ist etwa viermal auf eine Million Wörter. Hier ein typischer Beleg vom 12. 7. 2009: Mr. Steele redet sich derart um Kopf und Kragen, dass er einem schon fast wieder Leid tut. Er beschäftigt die Comedyshows wie weiland Sarah Palin. Auch in anderen überregionalen Zeitungen zeigt sich diese Tendenz, wenn auch vielleicht weniger ausgeprägt: in der Süddeutschen Zeitung und der Welt jeweils etwa 1,8-mal auf eine Million, in Bild immerhin einmal auf zehn Millionen. Ein letztes Beispiel ist die Präposition behufs, die für das ganze 20. Jahrhundert im Kernkorpus immerhin 220-mal belegt ist – allerdings mit einem klaren Abfall in den ersten vier Jahrzehnten.
Von Reichtum und Armut des deutschen Wortschatzes
47
Abb. 3 Wortverlauf für behufs im DWDS-Kernkorpus Belletristik
150
Zeitung
Wortverlauf für "behufs" im DWDS-Kernkorpus Gebrauchsliteratur Wissenschaft
100
50
0
1900er
1910er
1920er
1930er
1940er
1950er
1960er
1970er
1980er
1990er
Vereinzelte Belege finden sich noch in den 1950er Jahren; sie sind jedoch zu selten, um im Diagramm sichtbar zu sein. So ist behufs sicher ein gutes Beispiel für ein Wort, das aktiv kaum noch gebraucht wird, während es zu Beginn des 20. Jahrhunderts in wissenschaftlicher Literatur und Gebrauchstexten durchaus noch rege benutzt wurde. Es scheint aber nicht vermisst zu werden. Es ist nämlich so: Wörter, die man braucht, verschwinden nicht.24 Wir haben hier nur einige wenige Beispiele für „Verluste“ im deutschen Wortschatz betrachtet. Sie machen aber deutlich, dass die Vorstellung verloren gehender Wörter oft trügerisch ist. Selbst Wörter wie sintemalen, weiland und auch behufs bleiben uns lange erhalten. Sie eröffnen besondere Gestaltungsmöglichkeiten, die es nicht gäbe, wenn die Wörter weiterhin fleißig gebraucht würden: Der Verlust ist auch ein Gewinn.
Gewinne Sie sind, wie die statistischen Fakten zeigen, reich, und auch wenn die absoluten Zahlen sich bei weiteren Untersuchungen nicht genau so erhärten lassen sollten – grundsätzlich kann kein Zweifel bestehen, dass der deutsche Wortschatz sehr viel umfangreicher geworden ist. Nur sehr wenige Sprachen weisen einen solchen Reichtum in ihrer Lexik auf. Im Folgenden soll nun exemplarisch
24 An dieser Stelle gerät man ins Grübeln, warum ein Wort wie behufs mehr oder minder außer Gebrauch geraten ist. Braucht man es anders als früher nicht mehr? Es ist ja nicht so wie bei dem Wort Droschke, dessen Bedeutung aus unseren Straßen verschwunden ist. Ist behufs durch ein anderes Wort verdrängt worden, und weshalb das?
48
Wolfgang Klein
die Entwicklung einiger Wörter über das ganze letzte Jahrhundert betrachtet werden.25 Dabei schenken wir uns Wörter für Dinge, die es erst seit kurzem gibt und für die man erst seither ein Wort braucht, beispielsweise Handy, das erstmals in den 1980er Jahren verwendet wird und seit den 1990er Jahren in allen Korpora reich belegt ist. Ein interessanterer Fall ist Sex. Abb. 4 Wortverlauf für Sex im DWDS-Kernkorpus Belletristik
200
Zeitung
Wortverlauf für "Sex" im DWDS-Kernkorpus Gebrauchsliteratur Wissenschaft
150 100 50 0
1900er
1910er
1920er
1930er
1940er
1950er
1960er
1970er
1980er
1990er
Hier ist seit den 1970er Jahren in Belletristik und Zeitungen ein neuer Ausdrucksbedarf entstanden, den man mit einem aus dem Englischen übernommenen Wort befriedigt. Es zeigt in charakteristischer Weise die ambivalente Natur solcher Übernahmen: Es ist eigentlich ja ein lateinisches Wort, und Wörter wie Sexualität tauchen schon lange vorher im Deutschen auf. Interessanterweise findet sich auch sex appeal schon wesentlich früher, wie es in dem Chanson von Friedrich Hollaender und Marcellus Schiffer aus den 1920er Jahren heißt: „Fast bin ich schon vom Sex Appeal das Geigentiel“. In seinen grammatischen und lautlichen Eigenschaften zeigt Sex keine Besonderheiten des Englischen, und für jemanden, der die Herkunft nicht kennt, ist es ein einfaches deutsches Wort wie jedes andere. Nicht anders ist es letztlich mit dem Wort cool, außer dass wir hier durch die Schreibweise an den Ursprung erinnert werden; für ein vierjähriges Kind ist, was wir cool schreiben, genauso ein deutsches Wort wie toll, und wenn ein vier-
25 Es gibt zwei umfassendere Dokumentationen des Zugewinns: Herberg et al. (2004) beschreiben in einer am Institut für Deutsche Sprache entstandenen Untersuchung rund 700 Neologismen der 1990er Jahre. Lothar Lemnitzer hat in seiner seit 2000 betriebenen „Wortwarte“ (www. wortwarte.de) bislang gut 25 000 Neologismen dokumentiert, die aus einer weitaus größeren Zahl von in verschiedenen Zeitungen belegten Wörtern ausgewählt sind; siehe auch Lemnitzer (2008).
Von Reichtum und Armut des deutschen Wortschatzes
49
jähriges Kind schreiben könnte, würde es wahrscheinlich auch kuhl schreiben; man fragt sich, für wie viele Erwachsene, die kein Englisch gelernt haben, dies auch gilt. Eine andere Art von nicht zusammengesetzten neuen Wörter sind Verkürzungen, wie etwa Nazi, dessen Gebrauch, so wie er sich in den Texten niederschlägt, ein etwas eigentümlicher ist. Abb. 5 Wortverlauf für Nazi im DWDS-Kernkorpus Belletristik
750
Zeitung
Wortverlauf für "Nazi" im DWDS-Kernkorpus Gebrauchsliteratur Wissenschaft
500
250
0
1900er
1910er
1920er
1930er
1940er
1950er
1960er
1970er
1980er
1990er
Es gibt bereits Belege aus den 1920er Jahren, die im Diagramm, da zu selten, nicht aufscheinen; in den 1930er und 1940er Jahren nimmt das Wort einen gewaltigen Aufschwung, wobei für letztere Dekade ein großer Teil den Jahren nach Kriegsende entstammt; in der Nazizeit war zumindest in den Zeitungen weitaus weniger von Nazis die Rede als danach. Dann sinkt Nazi stark im Vorkommen, um in den 1980er Jahren wieder eine Belebung zu erfahren. Über die Ursachen dieser eigentümlichen Entwicklung kann man nur spekulieren, insbesondere auch darüber, weshalb sie bei den verschiedenen Textarten so unterschiedlich ist. Hier müsste man sich die Texte im Einzelnen ansehen. Sex ebenso wie Nazi sind kurze neue Wörter; die Mehrheit des Zuwachses entfällt aber, wie oben bemerkt, auf Ableitungen und Komposita. Unter allen deutschen Neubildungen, die das 20. Jahrhundert gezeitigt hat, zeigt wohl keines die Kluft zwischen dem, was ein Kompositum aufgrund seiner Bestandteile bedeutet, und dem, was man damit tatsächlich meint, so krass wie jenes, das aus den einfachen deutschen Wörtern Ende und Lösung besteht.
50
Wolfgang Klein
Abb. 6 Wortverlauf für Endlösung im DWDS-Kernkorpus Belletristik
60
Wortverlauf für "Endlösung" im DWDS-Kernkorpus Zeitung Gebrauchsliteratur Wissenschaft
40
20
0
1900er
1910er
1920er
1930er
1940er
1950er
1960er
1970er
1980er
1990er
Die seltenen frühen Belege (der älteste stammt noch aus den 1920er Jahren) haben nicht die Bedeutung, unter der wir alle dieses Wort heute verstehen. In dieser tritt es erst nach dem Krieg auf; die große Häufigkeit in den 1940er Jahren rührt großenteils aus den „Nürnberger Protokollen“, und in den 1 321 Belegen aus der Zeit seit 1946 hat es nur noch diese Bedeutung. Bemerkenswert ist übrigens, dass in der Süddeutschen Zeitung und in den beiden Berliner Zeitungen (Tagesspiegel und Berliner Zeitung), für die wir nur Daten seit den 1990er Jahren haben, das Wort viel seltener geworden ist.
Rätsel Es gibt, wie schon bemerkt, Wörter, die thematisch gebunden sind, und solche, die wenig eigenen Inhalt haben und sich daher in allen Texten finden – Funktionswörter wie der, die, das, so, wenn, auf, dass und dergleichen mehr. Dies schließt nicht aus, dass es dennoch Schwankungen in der Häufigkeit gibt. Für narrative Texte, auch dies wurde schon bemerkt, ist vielleicht dann eher typisch als für wissenschaftliche Prosa, für weil mag das Umkehrte gelten, weil es bei ersteren eher um temporale, bei letzteren eher um kausale Zusammenhänge geht. Wie ist es nun tatsächlich? Der Leser möge einen Augenblick innehalten und nachdenken, bevor er sich das Diagramm anschaut. Es ist nämlich nicht so: sowohl dann als auch weil sind in der Belletristik weitaus häufiger. Ist dies schon eigentümlich, so ist noch weitaus rätselhafter, wieso beide über das 20. Jahrhundert so unterschiedlich gern gebraucht werden. Die 1940er Jahre waren in der Belletristik eine dann-arme Zeit, umgekehrt zeigen die Journalisten in den 1920er Jahren und noch einmal in den 1980er Jahren eine gewisse Liebe für das Kausale. Bei kleinen Belegzahlen können schon einzelne
Von Reichtum und Armut des deutschen Wortschatzes
51
Texte einen erheblichen Unterschied ausmachen; das ist hier aber nicht der Fall: Es geht jeweils um Schwankungen von mehreren Tausend Vorkommen. Abb. 7 Wortverlauf für dann im DWDS-Kernkorpus Belletristik
20000
Zeitung
Wortverlauf für "dann" im DWDS-Kernkorpus Gebrauchsliteratur Wissenschaft
10000
0
1900er
1910er
1920er
1930er
1940er
1950er
1960er
1970er
1980er
1990er
1980er
1990er
Abb. 8 Wortverlauf für weil im DWDS-Kernkorpus Belletristik
3000
Zeitung
Wortverlauf für "weil" im DWDS-Kernkorpus Gebrauchsliteratur Wissenschaft
2000
1000
0
1900er
1910er
1920er
1930er
1940er
1950er
1960er
1970er
Dies ist einer von vielen merkwürdigen Befunden, auf die man stößt, wenn man das Schicksal einzelner Wörter über die Zeit verfolgt. Ein weiteres Rätsel wirft beispielsweise das sehr häufige Funktionswort so auf; es ist kein Grund zu erkennen, weshalb es in den einzelnen Textsorten unterschiedlich häufig vorkommen sollte. In literarischen Texten ist es aber weitaus häufiger als in allen anderen Textsorten. Noch merkwürdiger ist, dass es von 1900 bis 1930 pro Jahrzehnt im Schnitt 40 000-mal vorkommt, von 1960 bis 1990 im Schnitt hingegen 20 000mal. In den 1990er Jahren steigt die Zahl dann wieder. All dies gilt für ähnlich zusammengesetzte Textkorpora, die jeweils etwa zehn Millionen Wörter lang sind. Diese Zahlen sind viel zu hoch, als dass man von einer zufallsbedingten Schwankung sprechen könnte. Ich schließe diese kleine Rätselsammlung mit einem letzten kuriosen Faktum. Diesmal geht es nicht um ein Funktionswort, sondern ein Inhaltswort, das jeder
52
Wolfgang Klein
kennt und von dem man nicht annimmt, dass es thematisch stark gebunden ist. Als vor fast 60 Jahren einige französische Sprachforscher erstmals versucht haben, den „Grundwortschatz“ einer Sprache nicht allein aufgrund des Bauchgefühls zu bestimmen, sondern auszuzählen, wie oft die Wörter tatsächlich verwendet werden, da hat sich zu ihrem Erstaunen ergeben, dass man im Französischen das Wort la gare offenbar nicht benutzt; es kam nämlich in den durchaus planvoll zusammengestellten Korpora kaum vor (Gougenheim et al. 1956). Wie ist das mit dem deutschen Wort Bahnhof? Abb. 9 Wortverlauf für Bahnhof im DWDS-Kernkorpus Belletristik
750
Zeitung
Wortverlauf für "Bahnhof" im DWDS-Kernkorpus Gebrauchsliteratur Wissenschaft
500
250
0
1900er
1910er
1920er
1930er
1940er
1950er
1960er
1970er
1980er
1990er
Es kommt vor, im Schnitt 370-mal pro Jahrzehnt. Relativ selten ist es nur in der wissenschaftlichen Prosa. Merkwürdig ist nun jedoch, dass es sich in der ersten Jahrhunderthälfte in den Zeitungen sehr oft findet, in der zweiten hingegen sehr wenig: Der Abfall beginnt in den 1930er Jahren. In der Belletristik ist es hingegen sowohl am Ende wie am Beginn sehr häufig – nur von 1930 bis 1950 nicht. Besonders in den 1940er Jahren ist es eher selten. Man beachte, dass es sich dabei um den Durchschnitt handelt – es kann also sein, dass es nach Kriegsende (Der Zug war pünktlich erschien 1949) schon wieder auf dem Anstieg war.
Schluss Wie in den einleitenden Abschnitten erläutert wurde, wissen wir bislang sehr wenig Gesichertes über den tatsächlichen Reichtum des deutschen Wortschatzes. Das ist kein Zufall, und so sind denn die hier berichteten Ergebnisse mit mancherlei Unsicherheiten behaftet, die sich wohl so bald nicht werden beseitigen lassen. Die wichtigsten Hemmnisse, die sich wohlfundierten Aussagen in den Weg stellen, sind in den ersten Abschnitten genannt worden. Das, was in den weiteren
Von Reichtum und Armut des deutschen Wortschatzes
53
Abschnitten dann doch gesagt wird, ist nicht zuletzt auch als eine Aufforderung zum Tanz anzusehen: Mögen andere kommen und das hier Gesagte verfeinern oder auch widerlegen, wie es der erwünschte Gang der Wissenschaften ist. Immerhin, zwei Befunde zeichnen sich sehr klar ab, und sie werden sich auch bei weiteren Untersuchungen nicht ändern: 1. Die heutige deutsche Sprache verfügt über einen überaus reichen Wortschatz, der weit jenseits dessen liegt, was je in einem Wörterbuch beschrieben worden ist. 2. Der Wortschatz, so wie er in seinem Gebrauch in großen Textkorpora fasslich wird, ist im Verlauf der letzten hundert Jahre um mindestens eine Million Wörter angewachsen. Da der Ausdrucksreichtum einer Sprache letztlich auf ihrem Wortschatz fußt, muss man schließen, dass sich das Deutsche in dieser Zeit zu einem immer mächtigeren Instrument entwickelt hat. Wenn es uns bisweilen so scheint, als würde unsere Sprache verarmen, dann liegt das nicht an der deutschen Sprache, sondern an denen, die von ihr Gebrauch machen. Es reicht nicht, einen Bösendorfer in der Stube stehen zu haben; man muss ihn auch spielen können.
Literatur Augst, Gerhard (2009): Wortfamilienwörterbuch der deutschen Sprache. 2. Aufl. Tübingen: Niemeyer. Best, Karl-Heinz (2006): Quantitative Linguistik. Eine Annäherung. 3. Aufl. Göttingen: Peust & Gutschmidt. Burger, Harald et al. (Hrsg.) (2007): Phraseologie. Ein internationales Handbuch der zeitgenössischen Forschung. Berlin, New York: de Gruyter. Didakowski, Jörg & Alexander Geyken (2013): From DWDS Corpora to a German Word Profile – Methodological Problems and Solutions. In: Network Strategies, Access Structures and Automatic Extraction of Lexicographical Information. 2nd Work Report of the Academic Network „Internet Lexicography“. Mannheim: Institut für Deutsche Sprache (OPAL X/2012), 43–52. Ďurčo, Peter (Hrsg.) (2010): Feste Wortverbindungen und Lexikographie. Kolloquium zur Lexikographie und Wörterbuchforschung. Berlin, New York: de Gruyter. Engelberg, Stefan & Lothar Lemnitzer (2009): Lexikographie und Wörterbuchbenutzung. 4. Aufl. Tübingen: Stauffenberg. Fleischer, Wolfgang & Irmhild Barz (2012): Wortbildung der deutschen Gegenwartssprache. 4. Aufl. Berlin, New York: de Gruyter. Gougenheim, Georges et al. (1956): L’élaboration du français élémentaire. Étude sur l’établissement d’un vocabulaire et d’une grammaire de base. Paris: Didier. Le Grand Robert de la langue française (2001). Paris: Le Grand Robert.
54
Wolfgang Klein
Jacob Grimm (1848): Geschichte der deutschen Sprache. Bd. 1. Leipzig: Weidmannsche Buchhandlung. Das große Wörterbuch der deutschen Sprache (1999). 3. Aufl. Mannheim: Duden. Haß-Zumkehr, Ulrike (2001): Deutsche Wörterbücher – Brennpunkt von Sprach- und Kulturgeschichte. Berlin, New York: de Gruyter. Heaps, Harold Stanley (1978): Information Retrieval. Computational and Theoretical Aspects. New York: Academic Press. Herberg, Dieter et al. (2004): Neuer Wortschatz. Neologismen der 90er Jahre im Deutschen. Berlin, New York: de Gruyter. Herdan, Gustav (1960): Type-token mathematics. Den Haag: Mouton. Klein, Wolfgang & Harald Zimmermann (1971): Lemmatisierter Index zu Georg Trakls Werken. Tübingen: Niemeyer. Köhler, Reinhard (2005): Statistische Methoden in der Lexikologie. In: D. Alan Cruse et al. (Hrsg.): Lexikologie. Ein internationales Handbuch zur Natur und Struktur von Wörtern und Wortschätzen. 2. Halbbd. Berlin: de Gruyter, 953–963. Köhler, Reinhard et al. (Hrsg.) (2008): Quantitative Linguistik. Berlin, New York: de Gruyter. Küpper, Heinz (1955–1970): Wörterbuch der deutschen Umgangssprache. 6 Bde. Hamburg: Claassen. Lemnitzer, Lothar (2008): Hirndiebstahl im Sparadies: Was so (noch) nicht im Duden steht. Mannheim: Bibliographisches Institut. Mrozek, Bodo (2008): Das große Lexikon der bedrohten Wörter. 2 Bde. Hamburg: Rowohlt. Ruoff, Arno (1990): Häufigkeitswörterbuch gesprochener Sprache. Gesondert nach Wortarten alphabetisch, rückläufig-alphabetisch und nach Häufigkeit geordnet. 2. Aufl. Tübingen: Niemeyer. Schares, Thomas (2006): Untersuchungen zu Anzahl, Umfang und Struktur der Artikel der Erstbearbeitung des Deutschen Wörterbuchs von Jacob Grimm und Wilhelm Grimm. Phil. Diss. Universität Trier. Schippan, Thea (1992): Lexikologie der deutschen Gegenwartssprache. 2. Aufl. Tübingen: Niemeyer. Schlaefer, Michael (2009): Lexikologie und Lexikographie. Eine Einführung am Beispiel deutscher Wörterbücher. 2. Aufl. Berlin: Schmidt. Schneider-Wiejowski, Karina (2011): Produktivität in der deutschen Derivationsmorphologie. Phil. Diss. Universität Bielefeld. Splett, Jochen (2009): Deutsches Wortfamilienwörterbuch. Analyse der Wortfamilienstrukturen der deutschen Gegenwartssprache, zugleich Grundlegung einer zukünftigen Strukturgeschichte des deutschen Wortschatzes. Berlin, New York: de Gruyter. Tudjman, Miroslav (2005): Gesetz zur Bestimmung des Wortschatzumfangs von Texten. Das Heaps’sche Gesetz und die Bestimmung der Wortschatzgröße in kroatischen Texten [kroatisch mit deutscher Zusammenfassung]. Društvena istraživanja 14 (1–2), 227–250.
Von Reichtum und Armut des deutschen Wortschatzes
55
Websites Im Folgenden geben wir jeweils die Startseite an, unter der weitere, spezifischere Links zu finden sind; im Text ist jeweils angegeben, wann eine Website abgerufen wurde. Corpora from the Web an der FU Berlin: http://hpsg.fu-berlin.de/cow/ Deutscher Wortschatz an der Universität Leipzig http://wortschatz.uni-leipzig.de/ Digitales Wörterbuch der deutschen Sprache an der Berlin-Brandenburgischen Akademie der Wissenschaften http://www.dwds.de/ Goethe-Wörterbuch http://www.bbaw.de/bbaw/Forschung/Forschungsprojekte/gwb/ Institut für Deutsche Sprache, Mannheim http://www1.ids-mannheim.de/start/ Oxford English Dictionary http://www.oed.com/ Wortwarte (deutsche Neologismen) http://www.wortwarte.de/
Peter Eisenberg
Anglizismen im Deutschen 1 Reichtum an Anglizismen – Armut der Sprache? Keine Gruppe von Fremdwörtern des Gegenwartsdeutschen wächst so schnell wie die Anglizismen und keine ist so weit über die Varietäten des Deutschen verbreitet wie sie. Während Latinismen und Gräzismen noch immer überwiegend den Wortschätzen in Bildung und Wissenschaft angehören und Gallizismen sich vor allem im Vokabular von Lifestyle und Kulinarik vermehren, finden sich Anglizismen buchstäblich überall, von der Jugendsprache bis zur Informatik, vom Bankeridiom bis zur Werbung. Anglizismen werden ebenso intensiv und extensiv verwendet wie bekämpft und sind seit langem Gegenstand sprachwissenschaftlicher Bemühung. Das Deutsche ist reich an Anglizismen, daran gibt es keinen Zweifel. Besteht denn überhaupt eine Möglichkeit, dies anders als eine Verarmung der Sprache zu verstehen? Als das Anglizismenprojekt im Rahmen des Ersten Berichts zur Lage der deutschen Sprache im Jahr 2008 konzipiert wurde, wusste man nicht, zu welchen Ergebnissen es führen würde. Keinesfalls sollte ein Versuch gestartet werden, Bedeutung und Wirkung der Anglizismen im Deutschen herunterzuspielen. Wir waren allerdings davon überzeugt, dass die Entschiedenheit zahlreicher Wertungen dem Wissen über diese Wörter weit voraus war. So ging und geht es darum, mit dem verfügbaren wissenschaftlichen Instrumentarium einige Klarheit zu gewinnen, was Umfang und Wirkung der Anglizismen im Gesamtwortschatz betrifft. Aber nicht im Sinne einer abgeklärten Gewissheit, sondern in fortwährender Auseinandersetzung mit dem, was sprachlich geschieht und bekannt ist. Selbstverständlich bleibt es ein Ziel, die Stimme im öffentlichen Diskurs hörbar zu erheben. Was damit gemeint und nicht gemeint ist, muss wenigstens in Kürze dargelegt werden.
1.1 Sprachkritik und Interesse der Öffentlichkeit Man spricht von einer wissenschaftlichen Öffentlichkeit, in der wir Sprachwissenschaftler – wie in vielen Disziplinen üblich – unsere Arbeiten öffentlich machen. Daran sind wir gewöhnt, da fühlen wir uns sicher. Aber wie wenige Disziplinen hat die Sprachwissenschaft zu gewärtigen, dass der Gegenstand des Fachdiskurses nicht ihr allein gehört, womit auch die Frage gestellt ist, ob ‚Sprache‘ im Fachdiskurs etwas prinzipiell anderes meint als im Diskurs einer
58
Peter Eisenberg
größeren Öffentlichkeit. Ja natürlich, es ist zu differenzieren, nur darf das nicht zu bequemer Abschottung eigener Gewissheiten führen. Der öffentliche Sprachdiskurs wird weitaus überwiegend von Nicht-Sprachwissenschaftlern getragen. Auch ein Begriff von ‚Sprachkritik im engeren Sinn‘, der nicht jede Bewertung sprachlicher Gegebenheiten meint, sondern auf öffentlichkeitswirksame Formen beschränkt wird, impliziert: „Als Sprachkritiker kann sich im Prinzip jeder betätigen, dem es gelingt, seine sprachkritischen Äußerungen der Öffentlichkeit zugänglich zu machen. Faktisch sind es hinsichtlich der Berufsfelder meistens Journalisten, Wissenschaftler oder Literaten. Als Oberbegriff ist daher häufig von ‚publizistischer Sprachkritik‘ die Rede“ (Dieckmann 2012: 6). Was Sprachwissenschaftler in diesem Zusammenhang zu sagen haben, bedarf besonderer Erläuterung und wird als ‚wissenschaftliche‘ innerhalb einer ‚publizistischen‘ Sprachkritik gefasst. Sprachwissenschaftler melden sich auf recht unterschiedliche Weise zu Wort. Man tut gut daran, das bewusst zu machen, bevor man sich ins Getümmel stürzt. Sogar bei Themen von allgemeinem Interesse geht es Sprachwissenschaftlern häufig weniger um einen Sprach- als um einen Sprachwissenschaftsdiskurs. So sucht unsere Disziplin auch bei Sprachbewertung oder Sprachnormierung weniger eine direkte Beteiligung an öffentlichen Auseinandersetzungen mit fachlichen Mitteln als Diskussionen innerhalb der eigenen Community. Oder aber sie strebt nach Belehrungen der Öffentlichkeit darüber, was dieser wichtig zu sein habe. Gegenbeispiele gibt es, aber sie bleiben in der Minderheit. Im Frühjahr 2012 fand in Aachen eine von professioneller Seite gut besetzte Konferenz zur wissenschaftlichen Sprachkritik statt. Sie verabschiedete eine Erklärung mit dem Titel „Alternativen zum Elfenbeinturm. Die Linguistik will stärker in die Öffentlichkeit hineinwirken“. Der Kernsatz: „Es geht darum, wissenschaftlich fundierte Informationen über Sprache zu vermitteln, wobei das, was die Öffentlichkeit an Sprache hauptsächlich interessiert, bestimmend sein darf, aber nicht bestimmend sein muss“ (Bär & Niehr 2013: 2). Selbstverständlich bearbeitet die Sprachwissenschaft Gegenstände, die ausschließlich immanent von Bedeutung sind. Unter den Gründen findet sich einer, der uns besonders zu schaffen macht. Jeder Gegenstand von allgemeinem Inter esse führt schnell zu sehr speziellen Fragen, die kaum jemandem zu vermitteln sind, aus sachlichen Gründen aber trotzdem bearbeitet werden müssen. Die Beispiele dafür reichen vom Sprachverfall über den Status sprachlicher Zweifelsfälle oder orthographischer Normen bis zu lexikalischen Analysen unterschiedlicher Art. Sprachwissenschaftler bearbeiten ihre Gegenstände auf dem Stand des Wissens und sind zu praktischen Folgerungen allenfalls dann bereit, wenn sie diesen Stand erreicht haben. So genau will es jedoch kaum jemand wissen. Wir machen immer erneut die Erfahrung, dass Sprachbegriff und Sprachbewertung
Anglizismen im Deutschen
59
innerhalb einer Laienlinguistik „eine Form der Auseinandersetzung mit Sprache in eigenem Recht“ sind (Dieckmann 1991: 371). Etablierte Ansichten durch wissenschaftlich fundierte zu ersetzen ist nicht nur schwierig, sondern möglicherweise der falsche Weg. Die Aachener Erklärung geht noch ein Stück weiter und stellt fest, es gebe Gegenstände unserer Disziplin, „an denen ein öffentliches Interesse geweckt werden sollte“ (Bär & Niehr 2013: 2). Welche Gründe gibt es dafür? Und wenn es sie gibt: Wo finden sich überzeugende Beispiele, die zeigen, wie dieser Weg zu beschreiten wäre? Viel leichter lassen sich Gegenbeispiele nennen, etwa der misslungene Versuch der Deutschen Gesellschaft für Sprachwissenschaft (DGfS), ihre ‚spannenden Gegenstände‘ mithilfe journalistischer Formulierungskunst der Öffentlichkeit nahezubringen (Achilles & Pighin [Hrsg.] 2008). Während der Planung des Berichts zur Lage der deutschen Sprache wurden Fragen dieser Art ausführlich erörtert. Ein wichtiger Teil ihrer vorläufigen Beantwortung ergibt sich aus der institutionellen Anbindung eines Akademieprojektes. Sprachakademien sind im Allgemeinen mit praktischer Spracharbeit befasst, mit Arbeit, die der jeweiligen Sprachgemeinschaft unmittelbar zugutekommt. Standardisierung und Normierung, Politikberatung, Wörterbuch- und Grammatikarbeit sind Beispiele, die zeigen, dass wissenschaftliche Fundierung erforderlich, aber nicht ein Zweck an sich ist. Für unseren Bericht ergibt sich daraus eine spezifische Fokussierung des jeweiligen Gegenstandes, die auch Entlastung bedeutet. So geht es nicht um Anglizismen allgemein, sondern um Anglizismen im öffentlichen Diskurs. Das ist noch immer weitläufig, und die oben beschriebene Schwierigkeit, wissenschaftliche Fundierung und öffentliche Wahrnehmung zu vermitteln, bleibt bestehen. Aber öffentliche Aufmerksamkeit kann erst einmal vorausgesetzt und muss nicht herbeigezaubert werden. Unsere Themen sind solche der Sprachkritik in diesem Sinn. Für die Anglizismen folgt daraus unmittelbar eine Bearbeitung von innerhalb der Sprachkritik vertretenen Auffassungen, dass – das Deutsche unter zunehmendem Einfluss des Englischen stehe, was sich auch an der Zahl von Anglizismen erkennen lasse, – Anglizismen in besonderer Weise zur Unverständlichkeit vieler Texte beitragen, – Anglizismen einen zerstörerischen Einfluss auf das Deutsche haben, insofern sie grammatisch nicht integrierbar seien, – Anglizismen vorwiegend, jedenfalls aber zu häufig aus anderen als rein sprachlichen Gründen verwendet werden. Man wird den Anschluss an solche Fragen nur gewinnen, wenn begriffliche Klärungen so vorgenommen werden, dass sie dem jeweiligen Frageimpetus gerecht
60
Peter Eisenberg
werden, sprachwissenschaftlichen Anforderungen auf dem Stand der Technik aber trotzdem genügen. Aus dem so spezifizierten Blick nach zwei Seiten ergibt sich überraschend viel Orientierung. Das soll im nächsten Schritt am Anglizismendiskurs selbst gezeigt werden.
1.2 Anglizismen im öffentlichen Diskurs Das eigentliche Interesse besteht an Projektergebnissen, die das Gegenwartsdeutsche in einem ganz unmittelbaren Verständnis betreffen. Das ist die Sprache, wie wir sie selbst verwenden und im uns umgebenden Sprachgebrauch wahrnehmen. Grundlage dafür sind Texte aus den Jahren von 1995 bis 2004 (3. Zeitscheibe), die mit solchen aus den Jahren 1905 bis 1914 (1. Zeitscheibe) verglichen werden. An der Wende vom 20. zum 21. Jahrhundert liegt die 3. Zeitscheibe mitten in einer Periode erhöhter Intensivierung des Sprachdiskurses. Diskutiert werden Forderungen nach einem Sprachgesetz, nach einem expliziten Verfassungsrang der deutschen Sprache, nach einer Stärkung des Deutschen innerhalb der europäischen Institutionen und nach einer Verpflichtung zum Erwerb des Deutschen durch Immigranten. Der muttersprachliche Unterricht müsse verbessert, die Verwendung des Englischen beschränkt und der Einfluss des Englischen auf das Deutsche durch Anglizismen eingedämmt werden. Auch die endgültige Durchsetzung der Neuregelung unserer Orthographie fällt in diese Zeit. Es gibt gute Gründe für die Annahme, dass all dies ohne die Debatten über die Rolle Deutschlands nach der Wende so nicht geschehen wäre. In seiner spezifischen Ausprägung ist der Sprachdiskurs als Reflex eines allgemeineren Identitätsdiskurses anzusehen. Er ist, wie Sprachwissenschaftler sagen, im Wesentlichen extern motiviert und insbesondere viel weniger darauf zurückzuführen, dass bedeutende Veränderungen innerhalb der Sprache Platz gegriffen hätten. Der damit postulierte Zusammenhang zwischen politischer Veränderung und Sprachdiskurs ist weder typisch für das Deutsche, noch ist er für das Deutsche neu. So lässt sich bei allen Unterschieden in der Art externer Motivation eine vergleichbare Konstellation etwa für die Zeit nach 1813, nach 1871, nach 1933 und – mit einiger Verzögerung – auch für die Zeit nach 1945 feststellen (umfassend und ausführlich Polenz 1999). Konkreter Anlass für das neuerliche Erwachen eines Interesses an den Anglizismen war die Form von Sprachgebrauchskritik, wie sie vehement vom Verein zur Wahrung der deutschen Sprache (VWDS, heute VDS) seit seiner Gründung im Jahr 1997 vorgetragen wurde. Sie macht sich zunächst an der Verwendung von Anglizismen durch Institutionen mit erheblicher Sprachmacht wie der Deutschen Telekom oder der Deutschen Bahn fest (City Call, Service Point), wird aber
Anglizismen im Deutschen
61
bald erweitert auf den Sprachgebrauch in den Medien, der Werbung, Wirtschaft, Wissenschaft sowie in Institutionen des Bildungswesens. Für die Werbesprache wird beispielsweise konstatiert: „Um […] den Anschein von Internationalität zu erwecken und sich so auf eine Stufe mit […] international erfolgreichen Unternehmen stellen zu können, übernehmen die […] nur national agierenden Unternehmen diese Vorgehensweise, englischsprachige Slogans in ihren Anzeigen einzusetzen“ (Kupper 2007: 385; Kupper 2011: 155). Die Sprachgebrauchskritik nimmt auch den einzelnen Sprecher ins Visier, fordert von ihm erhöhte sprachliche Aufmerksamkeit und allgemein Verantwortlichkeit für seinen Sprachgebrauch. Drastisch leuchtet beispielsweise der ehemalige Staatsminister im Auswärtigen Amt Helmut Schäfer (FDP) den Sprechern heim: „Sie müssen sich doch nur ansehen, wer dieses Geschwafel in unserem Land eigentlich verzapft. […] Das sind Leute, die glauben, ihre Halbbildung könnten sie dadurch steigern, daß sie sich […] plötzlich nicht mehr in Deutsch ausdrücken.“ (http://www.vds-ev.de/bekanntemitglieder [2. 8. 2013]; dort weitere Zitate dieser Art.) Scheinbar unausweichlich kommt es dann zu einer Vermischung von Sprachgebrauchskritik und Sprachkritik im engeren Sinn. Nicht nur Sprachverwendung, sondern die Sprache selbst wird fokussiert. In seinem weit verbreiteten Buch Deutsch und anders. Die Sprache im Modernisierungsfieber schreibt Dieter E. Zimmer (1997: 74) zum Einfluss von Anglizismen: „Eine starke Beschädigung dieser Folie vermindert die Sprachkompetenz des Einzelnen, und in ihrer Gesamtheit verwüstet sie die deutsche Sprache […].“ An anderer Stelle heißt es, ebenfalls mit Blick auf die gegebene Sprachsituation: „Das Deutsche hat seine Assimilationskraft weitgehend eingebüßt. Es ist kaum noch imstande, fremdsprachliche Wörter und Wendungen entweder zupackend und überzeugend zu übertragen oder sie wenigstens den inländischen Sprachgesetzen ein Stück weit anzupassen“ (Zimmer 1997: 70). Im Nachrichtenmagazin Der Spiegel liest man: „Die Welle der Anglo-Amerikanisierung schlägt über uns zusammen und droht das deutsche Sprachschiff auf den Grund zu schicken“ (2004, Heft 44: 240). Oder auch: „Schreckliches Symptom der kranken Sprache aber ist jenes modische Pseudo-Englisch“ (2006, Heft 40: 185). Das geht bis zum ultimativen „Die Sprache ist in Not“ (2006, Heft 40: 198) oder „Es geht bergab mit der Sprache, machen wir uns nichts vor“ (aus Schneider 2005, zitiert nach Der Spiegel 2006, Heft 40: 183). Was Negativurteile bis an den Rand von verbalen Herabwürdigungen der Sprache betrifft, gibt es kaum ein Halten. Die Sprache erodiere, verflache, verfalle, verarme, verkomme, werde pidginisiert, ausgehöhlt und ihres Ausdrucksvermögens beraubt. Dies ist der Ansatzpunkt des Anglizismenprojekts. Sprachwissenschaftlich lässt sich durchaus auch einiges zur Sprachgebrauchskritik beitragen, etwa wo es um Verständlichkeit, um Konnotationen, Euphemismen, stilistische Effekte
62
Peter Eisenberg
geht. Die eigentliche Domäne der Sprachwissenschaft bleibt die Sprachkritik im engeren Sinn. Ohne Sprachwissenschaft kann sie nicht betrieben werden. Schreibt Sprachkritik der Sprache einen bedauernswerten Zustand zu, insinuiert sie beim Sprecher eine deprimierende Hilflosigkeit. Was kann er anderes tun, als in die Klagen einzustimmen? Letztlich geht es um nicht weniger als das Selbstbild einer Sprachgemeinschaft.
1.3 Wörter in Texten: Berichtskorpus und Zeitscheibenkorpus In allen Teilen des Gesamtprojekts Reichtum und Armut der deutschen Sprache sollen Aussagen über das Gegenwartsdeutsche auf dem Hintergrund seiner jüngeren Geschichte gemacht werden. Mit „jüngerer Geschichte“ ist in erster Linie die Entwicklung des Deutschen im 20. Jahrhundert gemeint. Zu diesem Zweck wurde ein Textkorpus unter der Bezeichnung Berichtskorpus aufgebaut, das aus drei Teilen mit je mindestens 10 Millionen elementaren Texteinheiten (sog. Tokens, das sind weitaus überwiegend die im laufenden Text auftretenden Wortformen) besteht. Jeder Teil umfasst Texte aus einer Zeitscheibe von einem Jahrzehnt: 1. Zeitscheibe 1905‒1914, 2. Zeitscheibe 1948‒1957, 3. Zeitscheibe 1995‒2004. Alle Teilprojekte verwenden dieses Korpus, das nach Bedarf erweitert oder – wie im Anglizismenprojekt – beschränkt werden kann, hier zunächst auf die 1. und 3. Zeitscheibe. Erfasst wird einerseits die Zeit zu Beginn des 20. Jahrhunderts, in der das Englische seinen Einfluss auf Kosten des Französischen ausbaut, und andererseits die Zeit am Übergang zum 21. Jahrhundert mit dem Englischen als dominanter Gebersprache für das Deutsche wie für viele andere Sprachen. Die im Korpus zusammengefassten Texte sind den Textsortenbereichen Gebrauchs-, Presse-, wissenschaftliche und literarische Texte zugeordnet. Die Mischung berechtigt dazu, von einer für das geschriebene Standarddeutsche repräsentativen Textmenge zu sprechen. Die elementaren Texteinheiten des Berichtskorpus einer Zeitscheibe ordnen sich im so genannten Zeitscheibenkorpus zu jeweils etwas weniger als 400 000 Lemmata. Für das Anglizismenprojekt wird die Version Berichtskorpus B und entsprechend Zeitscheibenkorpus B verwendet, die auf die speziellen Anforderungen des Vorhabens abgestimmt sind. Das verwendete Korpus umfasst für die 1. Zeitscheibe 13,7 Millionen elementare Texteinheiten mit 378 329 Lemmata, für die 3. Zeitscheibe sind es 10,3 Millionen elementare Texteinheiten mit 381 191 Lemmata. Wiedergegeben sind errechnete Werte. Sie sind in der Größenordnung, aber natürlich nicht Lemma für Lemma reproduzierbar. Bei diesen Werten ist alles mitgezählt, was überhaupt vorkommt, Sprachliches ebenso wie im engeren Sinn Nichtsprachliches.
Anglizismen im Deutschen
63
Von den Gesamtzahlen an Lemmata sind in der 1. Zeitscheibe 371 574 und in der 3. Zeitscheibe 373 537 sprachlicher Natur, d. h., sie sind ‚Wörter‘ im üblichen Verständnis, unter denen sich auch die Eigennamen befinden. Zu den nichtsprachlichen gehören beispielsweise Zahlen, Formeln und alle Arten von Sonderzeichen. Sie bleiben weitgehend unberücksichtigt, werden aber benötigt, wo es um die Anglizismendichte in den Texten des Berichtskorpus B geht (3.1; 3.2). Jedes der beiden Textkorpora umfasst Wörter in der Größenordnung eines veritablen Wörterbuchs (das von Jacob und Wilhelm Grimm begonnene Deutsche Wörterbuch hat ca. 350 000 Stichwörter). Ist das Korpus der Lemma- und Tokenlisten (Zeitscheibenkorpus B) ermittelt, dann besteht ein entscheidender Schritt der Projektarbeit darin, in ihnen die Anglizismen aufzufinden. Das setzt insbesondere einen den Projektzielen angemessenen, praktisch handhabbaren Begriff von Anglizismus voraus (siehe 2.2). Erst wenn mit Häufigkeitsangaben versehene Listen von Anglizismen vorliegen, kann mit der eigentlichen Analysearbeit begonnen werden. Die bis zu diesem Punkt durchzuführenden Arbeitsschritte sind aufwendig, in verschiedener Hinsicht komplex und mit einer hohen Zahl von Einzelentscheidungen verbunden. Das beginnt damit, dass eine Lemmatisierung nur gelingt, wenn ein Begriff vorliegt, der auf sämtliche relevanten elementaren Texteinheiten anwendbar ist und trotzdem zu einer nach Art und Umfang plausiblen Menge von Wörtern führt (zur Begrifflichkeit siehe den Beitrag von Klein in diesem Band). Man denke nur an die Getrennt- und Zusammenschreibung, an Abkürzungen und Kurzwörter, an die Klassifizierung von Partizipien als Adjektive oder Formen von Verben usw. Wir kommen darauf zurück. Was man in einem Wörterbuch an Einträgen vorfindet, setzt solche Prozesse der Textsegmentierung und Klassifizierung immer schon voraus, in der Regel unter Verwendung regularisierender Prinzipien, die eben nicht alles und schon gar nicht alles in der textuell gegebenen Form in gleicher Weise zur Geltung bringen. Aber auch wenn ein ausgewiesener Begriff von Anglizismus vorliegt, führt das keineswegs zu mehr oder weniger mechanisch anwendbaren Kriterien für eine Klassifizierung. Es liegt in der Natur der Sache, dass manche Probleme überhaupt erst bei klar explizierter Begrifflichkeit in Erscheinung treten, Probleme, die oft genug einfach unter den Tisch gekehrt werden. Um für den Bericht zur Lage der deutschen Sprache möglichst wenig im Dunkeln zu lassen, gibt der Text von Seelig im Anhang dieses Bandes Auskunft darüber, welche Entscheidungen der Lemmatisierung zugrunde liegen. Entsprechend zeigt er, was in die Liste der Anglizismen aufgenommen wird und welche Gründe jeweils ausschlaggebend gewesen sind. Seeligs Ausführungen münden an verschiedenen Punkten in Feststellungen über die Begrenztheit von Ergebnissen der Projektarbeit. Das ist so gewollt. Es besteht die Hoffnung, dass unsere Ergebnisse zur weiteren Bearbei-
64
Peter Eisenberg
tung von Details, aber auch von offenen Fragen größerer Reichweite herangezogen werden. Dass sich dabei eine grundsätzlich andere Sicht auf die Stellung der Anglizismen innerhalb des deutschen Gesamtwortschatzes ergibt, glauben (und hoffen) wir allerdings nicht. Eine Anmerkung zum Vorgehen bei der Auswertung des Korpus ist am Platze, weil es weitreichende praktische wie methodische Implikationen hat. Im Projektantrag an die Fritz Thyssen Stiftung war angenommen worden, dass man mit einer Reihe von Suchläufen zu mindestens halbautomatischen Korpusrecherchen würde gelangen können. Denn alle Kriterien zur Auszeichnung von Anglizismen sind formaler Art (siehe 2.2). Es hat sich jedoch schnell gezeigt, dass zum Auffinden aller Anglizismen und zum gleichzeitigen Ausschließen wenigstens eines erheblichen Teils von fremden Nichtanglizismen (also von fremden Wörtern anderer Art) ein Aufwand getrieben werden müsste, der weit über die gegebenen Möglichkeiten hinausgeht. Nach einer entsprechenden Schulung der für das Projekt arbeitenden wissenschaftlichen Hilfskräfte und einer Vielzahl von Klärungen problematischer Fälle wurden die Anglizismen per Hand ausgezeichnet. Dieses Vorgehen hat sich letztlich als ebenso effektiv wie zuverlässig erwiesen, schon weil es dem verwendeten Begriff von Anglizismus angepasst werden kann.
2 Schlüsselbegriffe: ‚Deutsch‘ und ‚Anglizismus‘ 2.1 Deutsch 2.1.1 Geschriebenes Standarddeutsch Mit dem in Abschnitt 1.3 charakterisierten Berichtskorpus B ist der Anspruch verbunden, Aussagen über Zahl und Status von Anglizismen im geschriebenen Standarddeutschen zu ermöglichen. Damit sind auch gewisse Beschränkungen im Vergleich zu vorliegenden Untersuchungen verbunden, ebenso wie Beschränkungen im Vergleich zu Forderungen, die seit langem immer wieder an die Anglizismenforschung herangetragen werden. Zu letzteren gehören beispielsweise solche nach Berücksichtigung der gesprochenen Sprache sowie von Szene- oder bestimmten Fachsprachen. Bevor in einer kurzen Übersicht dargelegt wird, welcher Art vorliegende Untersuchungen sind, soll deshalb ausdrücklich begründet werden, warum der Erste Bericht zur Lage der deutschen Sprache dieses Textkorpus verwendet.
Anglizismen im Deutschen
65
Mit seiner Größe und seiner Mischung aus Gebrauchs-, Presse-, wissenschaftlichen und literarischen Texten wird Repräsentativität für das geschriebene Standarddeutsche angestrebt. Der geschriebene Standard kommt als Ganzer in den Blick. Es werden nicht etwa Bereiche aufgesucht, in denen mit besonders vielen Anglizismen zu rechnen ist. Den geschriebenen Standard verstehen wir als Varietät des Deutschen unter anderen, weisen ihm jedoch als Leitvarietät in einem zu explizierenden Sinn besondere Bedeutung zu, zum Beispiel so: […] erst seit den letzten zwei, höchstens drei Jahrhunderten gibt es im Varie tätengefüge des Deutschen die Situation, dass die unterschiedlichen regionalen Sprachformen […] durch eine überregionale Sprachform ausbalanciert werden. […] Auch die Bindung an eine bestimmte soziale Gruppe ist […] nur noch mittelbar gegeben. […] Das […] besitzt für die gegenwärtige Sprachwissenschaft insofern […] Relevanz, als jede Untersuchung zur deutschen Gegenwartssprache – implizit oder explizit – mit dieser sprachhistorischen Vorgabe kalkulieren muss. Wer Aussagen „zum Deutschen“ trifft, nimmt nämlich in der einen oder anderen Form zur Existenz der Standardsprache Stellung. (W. P. Klein 2013: 16f.) Die Beschreibung beliebiger Varietäten hat den Standard als Bezugsgröße. Das gilt im gegebenen Fall einer Beschränkung auf den geschriebenen Standard auch für die gesprochene Sprache. Trotz aller Postulate betreffend den ‚autonomen‘ oder gar ‚primären‘ Status der gesprochenen Sprache besteht ihre Beschreibung praktisch überwiegend in Abgrenzungen zum Geschriebenen (z. B. Fiehler 2009). Anders gesagt: Die historische Herausbildung eines geschriebenen Standards hat einen umfassenden Einfluss sowohl auf die Entwicklung als auch auf die Wahrnehmung der Sprache in einer literalen Gesellschaft. Der mit jeder Standardisierung notwendig verbundene Begriff einer sprachlichen Vereinheitlichung mit dem Ergebnis einer sprachlichen Norm ist in seinen neueren Ausprägungen gebrauchsorientiert. Der normale Sprachgebrauch fungiert als höchste normative Instanz. Auch Kodifizierungen wie das amtliche Regelwerk der Orthographie (Regelwerk 2006) oder das Wörterbuch der sprachlichen Zweifelsfälle für Grammatik, Stilistik und Lexik allgemein (Duden 2011) haben sich am Usus zu orientieren. So jedenfalls ist es weitgehend Konsens in der neueren Sprachwissenschaft, und so wird die Arbeit im Anglizismenprojekt fundiert. Diese wenigen Hinweise müssen zur Markierung der eigenen Position auf dem Hintergrund einer komplizierten Debatte genügen. Und es wird noch einmal betont: Die folgende Übersicht zu vorliegenden Untersuchungen verfolgt nicht
66
Peter Eisenberg
das Ziel, deren Wert in irgendeiner Weise in Frage zu stellen, sondern sie soll zeigen, wo wichtige Unterschiede zu unserer liegen. Seit langem gibt es Untersuchungen zu speziellen Textsortenbereichen wie der Sprache bestimmter Medien (zu Presse, Rundfunk und Fernsehen z. B. Zindler 1959; Fink 1970; Viereck [Hrsg.] 1980; Störiko 1995; Allenbacher 1999; zu neuen Medien z. B. Schlobinski 2001; Siever et al. [Hrsg.] 2005; Moraldo 2008). Viele weitere neuere beziehen sich auf spezielle Textsortenbereiche in Printmedien (Zürn 2001; Kupper 2007; Burmasova 2010) oder stellen einen Vergleich zwischen Sprachen oder Regionen in den Mittelpunkt (Gester 2001; Adler 2004; Götzeler 2008). In größeren Korpora gedruckter Pressetexte ergibt sich in den meisten Fällen eine Tokendichte von etwa 1,2 % Anglizismen (z. B. nach Burmasova 2010 für Die Welt im Jahr 2004 und nach Onysko 2007 für den Spiegel im Jahr 2000). Um auch eine absolute Zahl zu nennen: Von den 17 000 als Anglizismen klassifizierten Lemmata im Jahrgang 2000 des Spiegel kommen 12 000 einmal vor, 3 000 bis viermal und etwa 800 mehr als zehnmal. Zahlreich sind die Untersuchungen von Wörterbüchern, wobei einige wiederum auf spezielle Korpora zurückgreifen. So wertet das Anglizismenwörterbuch (Carstensen & Busse 1993‒1996) mit seinen etwa 3 500 Einträgen ein Korpus von Pressetexten aus. Eine breitere Grundlage haben Neologismenwörterbücher wie Herberg et al. (2004) oder Quasthoff (Hrsg.) (2007). Mit einer dreistelligen Zahl von Wortartikeln bei Herberg et al. (2004) und etwa 3 000 bei Quasthoff (Hrsg.) (2007) lässt sich eine wie immer geartete Repräsentativität natürlich nicht erreichen. Der Anteil an Anglizismen ist in beiden Wörterbüchern hoch, bei Herberg et al. (2004) beträgt er etwa 60 %. Von erheblichem Interesse sind Langzeitstudien wie Busse (1993) und Lang ner (1995), die die Entwicklung des Anglizismenbestandes im verbreitetsten deutschen Wörterbuch, dem Rechtschreibduden, über etwa hundert Jahre hinweg verfolgen. Der Anglizismenanteil steigt von 1,36 % im Jahr 1880 auf 3,46 % im Jahr 1986. Aber natürlich stellt sich die Frage, was der Bestand des Rechtschreib duden über den Wortschatz des Deutschen insgesamt aussagt: Wie ein Wort in den Duden gelangt, ist nicht wirklich transparent. Erfahrene und sehr erfahrene Lexikographen sind ebenfalls auf Schätzungen angewiesen, wenn sie von ihren Wörterbüchern auf ‚das Deutsche‘ schließen (Duden 1997/2007: 10): „Man schätzt, dass auf das gesamte deutsche Vokabular von etwa 400 000 Wörtern rund 100 000 fremde Wörter kommen. Der mit 2 800 Wörtern aufgestellte deutsche Grundwortschatz enthält etwa 6 % fremde Wörter.“ Kettemann (2004: 61) nimmt die Zahl von 100 000 fremden Wörtern auf und setzt fort: „Davon sind etwa die Hälfte im Duden Fremdwörterbuch verzeichnet. Nach meiner Schätzung sind davon ca. 10 % Anglizismen, also etwa 5 000 Wörter.“
Anglizismen im Deutschen
67
Aus Sicht unserer Projektziele ist die Unsicherheit solcher Schätzungen nicht unbedingt das Hauptproblem. Mindestens so wichtig ist, dass man nicht genau weiß, was die Zahlen besagen. Ob das Deutsche 400 000 oder 4 Millionen Wörter hat, ist eine Frage der ausgewerteten Korpora. Unser Teilprojekt zum deutschen Wortschatz (Klein in diesem Band) geht von etwa der zuletzt genannten Zahl aus und hat dafür gute Gründe. Sogar wenn Einigkeit über den Anglizismenbegriff besteht, sagt eine Zahl nicht viel aus. Aussagekräftig wird sie, wenn sie entweder einen Punkt in einer Entwicklung markiert oder wenn sie aufgeschlüsselt und strukturell auf ihr Umfeld im Gesamtwortschatz bezogen wird. Zum Verständnis längerfristiger Entwicklungen werden Zahlen über den Anglizismenbestand von Wörterbüchern in Arbeiten wie Best (2003) oder Körner (2004) ausgewertet. Es zeigt sich, dass der Umfang von Entlehnungen ins Deutsche aus den Hauptgebersprachen Latein und Französisch einen ähnlichen Verlauf in der Zeit hat. Nach langsamer Zunahme in einer Etablierungsphase folgt ein steiler, ungefähr linearer Anstieg, gefolgt vom Übergang zu einem Sättigungswert. Für das Lateinische liegt der Hochpunkt im 15./16. Jahrhundert, für das Französische im 17./18. Jahrhundert. Da das Muster auch von langfristigen Entlehnungsvorgängen zwischen anderen Sprachenpaaren bestätigt wird, schließen die Autoren auf einen Prozess ähnlicher Art für Entlehnungen aus dem Englischen. Hier befänden wir uns gegenwärtig in der Phase intensiver Übernahme, möglicherweise schon am Übergang zur Sättigung. Für ein Argumentieren im öffentlichen Sprachdiskurs ist es immer ein Gewinn, wenn man zeigen kann, dass das Gegenwartsdeutsche in dieser oder jener Hinsicht keinen Sonderfall darstellt, sondern sich ähnlich verhält wie das Deutsche seit Jahrhunderten oder wie andere Sprachen auch. Es gibt klare Anzeichen dafür, dass auch Letzteres der Fall ist: Aller Wahrscheinlichkeit nach stellen die deutschen Anglizismen im Vergleich zu denen anderer europäischer Sprachen keinen Sonderfall dar. Allerdings verfügen wir nicht über belastbare Zahlen, die eine derartige These methodisch abgesichert stützen. Wie aufwendig solche Studien wären, zeigt die Zusammenfassung vorliegender Versuche bei Busse (2011: 109ff.). Der kurze Gang durch die Literatur kann belegen, wie unsicher das Wissen über Anzahl und Bedeutung der Anglizismen im Gegenwartsdeutschen ist. Wir gehen deshalb den Weg einer bewussten Beschränkung. Angestrebt wird eine gewisse Repräsentativität, was die Verhältnisse innerhalb der Leitvarietät geschriebenes Standarddeutsch betrifft. Das Deutsche hat Varietäten mit weniger und solche mit mehr Anglizismen als die Leitvarietät. Beide Typen sind von Inter esse, aber zentral bleibt der Versuch, etwas über das geschriebene Standarddeutsche auszusagen. Er darf schon dann als sinnvoll angesehen werden, wenn er
68
Peter Eisenberg
zu ähnlichen, umfangreicheren anregt, denen man sich hoffentlich in Zukunft zuwenden wird.
2.1.2 Sprache und Sprachgebrauch Von elementarer Bedeutung ist für unser Projekt die Unterscheidung von Sprache und Sprachgebrauch. Einer Sprachgebrauchskritik, wie sie in Abschnitt 1.2 angesprochen wurde, kann man sehr wohl weitgehend folgen, ohne sich einer Kritik an der Sprache selbst anzuschließen, zu der Sprachgebrauchskritiken in vielen Fällen fortschreiten. Wo ‚Spielarten der Sprachkritik‘ im Einzelnen beschrieben werden, ergeben sich als deren wichtigste eine Sprachverwendungskritik (sie zielt auf den einzelnen Sprecher), eine Sprachverkehrskritik (sie zielt meist auf die Abwehr ungewohnter Erscheinungen des Sprachwandels) sowie eine Sprachbrauchskritik (sie schärft „das Gefühl für die Spielräume des Anderssagens im Rahmen des im Sprachsystem angelegten Potentials“; Dieckmann 2012: 9ff.). Alle drei fassen wir als Sprachgebrauchskritik zusammen und stellen sie mit Dieckmann im Anschluss an Polenz (1982) der eher fragwürdigen weil prinzipiell schwer begründbaren Sprachsystemkritik sowie einer Sprachnormenkritik gegenüber, die von vornherein metasprachlicher Natur ist. Der Hinweis auf die zentrale Stellung einer Sprachgebrauchskritik wird umso wichtiger, als diese auch von sprachwissenschaftlicher Seite gelegentlich mit lockerer Hand marginalisiert, ja zur linguistischen Fachhuberei erklärt wird. So schreibt Helmut Glück (FAZ, 27. 8. 2008: 30) in einer Besprechung von Dodd (2007): „Wörter können zwar nicht schuldig, wohl aber gebrandmarkt werden. Das ist ein feiner Unterschied, den ein Sprachforscher beachten muss, wenn er Wörter und ihren Gebrauch untersucht. Ein Essayist oder ein Dichter darf ihn getrost ignorieren. Denn Sprachwissenschaft und Sprachkritik sind zweierlei Dinge, und Letztere braucht ihre Begründung nicht aus der Ersteren zu beziehen.“ Ganz ähnlich Jürgen Trabant (SZ, 22. 8. 2008: 11): „Der feine linguistische Unterschied zwischen Sprache und Sprachgebrauch nützt nichts zur Abwehr des verdrängten Schmerzes: Natürlich ist die deutsche Sprache als solche neutral, weder schuldig noch unschuldig, weder groß noch klein. Es sind die Sprecher, die einen großen, schönen, schuldigen, hässlichen, nazistischen Gebrauch von der Sprache machen. Aber die Qualitäten der Texte und Äußerungen der Sprecher werden auf die Einschätzung der Sprache übertragen.“ Eben, so ist es, möchte man hinzufügen, genau deshalb sollte man den Unterschied machen und der Übertragung entgegenwirken. Auch das Zitat von Glück verdiente einen Kommentar, schon weil eine derartige Abgrenzung der Sprachkritik von der Sprachwissenschaft aus vielerlei Gründen unhaltbar ist.
Anglizismen im Deutschen
69
Wie wichtig die Unterscheidung von Sprache und Sprachgebrauch für das Selbstbewusstsein einer Sprachgemeinschaft sein kann, lässt sich in der Geschichte jeder Einzelsprache vielfach belegen, für das Deutsche wohl am krassesten an der ‚Sprache des Dritten Reiches‘ oder ‚Sprache des Faschismus‘. Im Laufe ihrer Aufarbeitung hat sie sich begrifflich gewandelt zum ‚Sprachgebrauch im Nationalsozialismus‘ oder zum ‚Sprachgebrauch von Nationalsozialisten‘. Ganz kurz gesagt ging es um die Frage, ob das Deutsche missbraucht oder ob es als Sprache dem Faschismus anheimgefallen und seiner Identität beraubt worden war. Nach dem vielbeachteten Aufsatz von Gerhard Voigt mit dem Titel „Bericht vom Ende der ‚Sprache des Nationalsozialismus‘“ (Voigt 1974) wurde dem Deutschen seine Dignität zurückgegeben, das Verhältnis zum Sprachgebrauch im Faschismus zumindest ausführlich reflektiert (z. B. Sauer 1978; Maas 1984; Ehlich 1998), was den Wortschatz betrifft bis zum Gebrauch belasteter Wörter in der zweiten und dritten Generation (Wengeler [Hrsg.] 2005; Dieckmann 2007; Dieckmann 2012: 148ff.). Allerdings wird kein Sprachwissenschaftler behaupten, eine Sprache sei unabhängig vom Gebrauch, der von ihr gemacht wird. Schon die Ausführungen zum Standard in Abschnitt 2.1.1 illustrieren das Verhältnis in einem Punkt von erheblicher praktischer Bedeutung. Theoretisch ist das Verhältnis der Begriffe kompliziert. Allein die einfache Frage, wann ein Wort (dazu Klein in diesem Band) oder eine grammatische Kategorie (wie der verbabhängige Genitiv oder irgendwann vielleicht einmal der synthetische Konjunktiv) aus der Sprache verschwunden ist, bleibt schwierig, schon weil das Verstehen den aktiven Gebrauch lange überdauert. Derartige Schwierigkeiten ändern nicht das Geringste an Bedeutung und Fruchtbarkeit einer begrifflichen Unterscheidung. Im Falle der Anglizismen birgt der Schritt von einer Kritik des Sprachgebrauchs zu Bewertung und Kritik der Sprache selbst ein hohes Potential an Bedrohung. Je nachdem, wie weit sie geht und worauf sie sich im Einzelnen bezieht, kann sie, wie oben schon betont, die Sprecher in eine Situation bringen, in der sie sich ihrer Sprache gegenüber machtund chancenlos fühlen, sie scheinbar verloren geben müssen. Das ist nicht als Aufforderung zur Unterdrückung von Wissen über die Sprache, wohl aber als Appell an das Verantwortungsbewusstsein der Sprachkritik zu verstehen.
2.2 Was ist ein Anglizismus? Als Ausgangspunkt dient der Begriff, wie er der Arbeit am Anglizismenwörterbuch (Carstensen & Busse 1993‒1996) zugrunde gelegen hat. Dieses Wörterbuch gilt bis heute als zuverlässiger Ratgeber, wo es um den Einfluss des Englischen auf das
70
Peter Eisenberg
Deutsche zwischen 1945 und etwa 1990, also um die Zeit zwischen dem Zweiten Weltkrieg und der Wende geht. Danach ist ein Anglizismus „jede Erscheinung der deutschen Sprache […], die auf Transferenz der englischen Sprache zurückgeht“ (Busse 2001: 134). Dieser Begriff ist weit, insofern er auf allen Ebenen der Sprachbeschreibung greift. Transferiert kann beispielsweise eine Lautfolge wie das [dʒ] in Dschungel sein, ebenso die Schreibweise für ein langes [iː] wie in Deal oder die Schreibung des Diphthongs [aɪ] als wie in light. Durch solche Eigenschaften werden die entsprechenden Wörter zu Anglizismen. Dasselbe gilt für Affixe wie das ity in Publicity oder das ing in Meeting. Und nicht nur ein Wort wie Partyservice ist eindeutig ein Anglizismus, sondern auch eins wie Partyschreck, das nur einen Bestandteil enthält, der es zum Anglizismus macht. Die bisher genannten Eigenschaften machen ein Wort aufgrund von phonologischen, graphematischen oder morphologischen Merkmalen zum Anglizismus, aber Busses Begriff reicht weiter. Er kann auch auf syntaktische und phraseologische Eigenschaften von größeren Einheiten wie Phrasen und Sätzen angewendet werden, soweit man sicher ist, dass sie transferiert wurden. Unterstellt wird das beispielsweise häufig für die Wendung Das macht keinen Sinn in Analogie zu It doesn’t make sense. Die Frage, ob hier tatsächlich Transferenz vorliegt, ist schwer zu beantworten. Faktisch ist sie bisher nicht beantwortet. Ähnlichkeit mit dem Englischen reicht nicht aus, schon weil Englisch und Deutsch als Schwestersprachen viele Gemeinsamkeiten haben. Die Frage kann an dieser Stelle offen bleiben, denn im Folgenden geht es ausschließlich um Wörter. Die Reichweite von Busses Begriff ist damit noch bei weitem nicht erschöpft. So wird dem traditionellen Fremdwort realisieren schon seit einer Reihe von Jahren die Bedeutung des englischen to realize (‚sich klarmachen, erkennen‘) zugeschrieben, die es früher nicht hatte. Es würde damit zum Anglizismus, bliebe aber aufgrund seiner Form und der älteren Bedeutung ‚verwirklichen‘ auch ein Latinismus. Diese und ähnliche Konsequenzen wollen wir vermeiden, schon weil ein ‚verborgener Einfluss‘ des Englischen prinzipiell schwer nachzuweisen ist und der Normalsprecher des Deutschen solche Wörter nicht als Anglizismen erkennt. Er kann gelernt haben oder einfach glauben, hier liege Transferenz vor. Aber das genügt für eine Klassifizierung von Wörtern nicht. Ähnlich verfahren wir generell mit Wörtern, die aus dem Englischen entlehnt wurden, die aber an nichts als entlehnt erkennbar sind. So verhält sich das Wort Stress, was Aussprache, Schreibweise und Flexion betrifft, nicht anders als Riss, Hass oder Stuss, das Adjektiv proper nicht anders als heiter. Wir betrachten sie nicht als Anglizismen. Etwas komplizierter sind die Verhältnisse bei vielen Verben. Zwar verhalten sich starten und streiken nicht anders als warten und pieken, aber sie haben einen direkten Bezug zu den fremden Substantiven Start
Anglizismen im Deutschen
71
und Streik, die beide bis heute der s‑Flexion folgen. Fremdheit kann durchaus auch indirekt begründet sein. Komposita des Typs Doppeldecker (engl. doubledecker), Arbeitsessen (engl. working dinner) oder Fußball (engl. football) gelten ebenfalls häufig als Anglizismen. Die Wörter des Deutschen könnten denen des Englischen durchaus nachgebildet sein, sie wären dann Lehnübersetzungen. Sie könnten aber genauso gut im Deutschen ohne englisches Vorbild entstanden sein. Manchmal weiß man über die Herkunft Bescheid, manchmal nicht. Häufig hat man sich mit Behauptungen über die Herkunft schon geirrt und musste ein Wort aus der scheinbar gesicherten Liste von Anglizismen streichen oder in die Liste aufnehmen (Eisenberg 2011: 127f.). Die genannten und viele weitere Gruppen von Fakten zeigen, dass man mit ‚Transferenz‘ nicht zu einem handhabbaren Anglizismenbegriff im Sinne der Ziele unseres Projekts gelangt. Das Hauptinteresse richtet sich ja auf die Lage ‚des Deutschen‘. Wir möchten etwas über die Sprache und damit über das Sprachwissen der ‚normalen‘ Sprecher des Deutschen zu einer bestimmten Zeit herausfinden. Über verborgene Einflüsse aus anderen Sprachen wissen sie nichts und müssen sie auch nichts wissen, selbst wenn sie das Deutsche höchst elaboriert verwenden. Eine Folge des so explizierten Anglizismenbegriffs ist, dass die verbreitete Rede von Pseudoanglizismen oder Scheinentlehnungen vermieden wird. Immer wieder findet sich die Feststellung, Wörter wie Showmaster, Handy oder Twinset seien nicht im Englischen, sondern im Deutschen gebildet worden und deshalb keine echten, sondern eben Pseudoanglizismen. Für uns sind sie Anglizismen, weil sie Eigenschaften haben, die auf das Englische zurückgehen und die es im Kernwortschatz des Deutschen nicht gibt. Wiederum spielt die Herkunft keine Rolle. Und nebenbei sei bemerkt, dass es das Wort handie als Bestandteil der Form handie-talkie im amerikanischen Englisch schon seit den 1940er Jahren gegeben hat und seine Kurzform handy im Funkwesen auch schon vor 1990 in Gebrauch war. Anglizismen sind nicht Wörter des Englischen, sondern sie sind Wörter des Deutschen. In aller Regel haben sie Eigenschaften, die sie von englischen Wörtern unterscheiden, selbst wenn sie entlehnt sind. So haben alle Substantive im Deutschen ein Genus und werden großgeschrieben. Beides ist im Englischen nicht der Fall. Und das Partizip von engl. to start lautet started, von dt. starten dagegen lautet es gestartet. Keine einzige Form des deutschen Verbs stimmt vollständig mit der entsprechenden Form des Englischen überein, sofern es entsprechende Formen im Englischen überhaupt gibt. Dasselbe gilt für die Bedeutung von Anglizismen. Das in den 1840er Jahren entlehnte und später graphematisch ins Deutsche integrierte Wort Streik hat
72
Peter Eisenberg
eine engere Bedeutung als das englische strike, das beispielsweise auch ‚Angriff‘ bedeuten kann. Für die junge Entlehnung Body Bag wird die Bedeutung ‚Rucksack‘ lanciert, während engl. body bag ‚Leichensack‘ bedeuten kann. Deutsch Smoking ist als dinner jacket ins Englische zu übersetzen, engl. smoking ins Deutsche aber als Hausjacke. Ein so einfaches Wort wie engl. song entspricht dem deutschen Lied, aber unser Song ist allenfalls ein Lied besonderer Art. Der Wortschatz einer Sprache ist semantisch hoch vernetzt mit der Konsequenz, dass jedes neu gebildete oder entlehnte Wort seinen Platz in diesem Netz finden muss. Ein vorhandenes Wort verdrängen wird es in der Regel nicht, sondern es wird einen freien Platz suchen oder eine vorhandene Bedeutung differenzieren (zum Grundsätzlichen dieses Problemkreises Altleitner 2007). Das alles läuft auf den Schluss hinaus, dass ein Anglizismus in den allermeisten Fällen formal und in sehr vielen Fällen semantisch andere Eigenschaften als das entsprechende Wort im Englischen hat. Anders gesagt: Bei Anglizismen haben wir es in der Regel mit dem zu tun, was man Pseudoanglizismen genannt hat. Auch dies ist ein Grund, den Begriff Pseudoanglizismus aufzugeben. Wir sprechen ja auch nicht von Pseudolatinismen oder ‑gräzismen und nur noch selten überhaupt von Pseudofremdwörtern. Neuere Analysen des Fremdwortschatzes machen unmissverständlich klar, dass zum einen die überwiegende Zahl der Fremdwörter nicht entlehnt, sondern der Fremdwortbildung geschuldet ist und zum anderen in zahlreichen Fällen auch mit hohem Aufwand nicht zu klären ist, ob und woher ein Wort entlehnt ist oder ob es irgendwo außerhalb der vermeintlichen Gebersprache gebildet wurde (z. B. Munske 1988; Munske 2001; Müller [Hrsg.] 2005; Müller [Hrsg.] 2009). Im Sinne der Projektziele ist ein Anglizismus ein Wort, das erkennbar Eigenschaften des Englischen hat, die in der Kerngrammatik des Deutschen nicht erfasst werden können. Solche Eigenschaften werden fremde Eigenschaften genannt. Sie sehen für Anglizismen anders aus als für Gallizismen, Latinismen, Gräzismen usw. Fremde Eigenschaften sind spezifisch für die einzelnen Gebersprachen, zu denen das Deutsche einen lange wirksamen Sprachkontakt hatte oder noch hat. Der Begriff Transferenz muss bei diesem Ansatz nicht aufgegeben, wohl aber auf ‚Übernahme fremder Eigenschaften‘ beschränkt werden. Anglizismen haben Eigenschaften, die als aus dem Englischen transferiert anzusehen sind. Ob ein Wort mit solchen Eigenschaften als Ganzes entlehnt oder ob es im Deutschen gebildet bzw. verändert wurde, bleibt ohne Belang. Damit in Zusammenhang steht ein differenzierter Begriff von Integration. Ein Wort gilt im hier vertretenen Ansatz als integriert, wenn es keinerlei fremde Eigenschaften hat, wenn es also grammatisch vollständig innerhalb der Kerngrammatik beschrieben werden kann. Fremde Wörter sind dann nicht einfach
Anglizismen im Deutschen
73
nichtintegriert, sondern sie sind nichtintegriert in bestimmter Hinsicht. So ist der Verbstamm von surfen ['sœːfǝn] phonologisch fremd, weil er das stimmlose [s] im Anlaut vor Vokal und den langen, betonten Vokal [œː] enthält. Beides kommt im Kernwortschatz nicht vor. In Hinsicht auf die Flexion ist surfen dagegen integriert. Das Wort Bluff ist flexionsmorphologisch fremd, schon weil es seinen Genitiv nur nichtsilbisch bildet (des Bluffs, aber nicht wie bei Kernwörtern auch *des Bluffes). Und ein Wort wie Pressing ist derivationsmorphologisch fremd, weil es das fremde Suffix ing enthält. Wörter sind nicht einfach fremd, sondern sie sind fremd in bestimmter Hinsicht. Der Gedanke, den Fremdwortbegriff nicht auf die Herkunft, sondern auf fremde Eigenschaften von Wörtern zu gründen, stellt eine Abkehr vom traditionellen etymologischen und eine Hinwendung zu einem synchron-systematischen Begriff dar. Meist beruft man sich in der neueren Sprachwissenschaft dabei auf eine Formulierung von Wolfgang Ullrich Wurzel, die sich im Phonologieteil der Grundzüge einer deutschen Grammatik findet: Wörter solcherart sind für den normalen Sprecher ohne sprachhistorische Kenntnisse nicht von wirklichen [d. h. entlehnten] Fremdwörtern zu unterscheiden. […] Wir wollen deshalb eine andere, streng synchron motivierte Klassifizierung an ihre Stelle setzen, die Trennung in native und nichtnative Wörter. Native Wörter sind (völlig unabhängig von ihrer Herkunft) solche Wörter, die den generellen grammatischen Regularitäten des Deutschen entsprechen; nichtnative Wörter sind (wiederum ungeachtet ihrer Herkunft) solche Wörter, die diesen Regularitäten nicht entsprechen. (Wurzel 1981: 909) Ansätze zu einem Fremdwortbegriff dieser Art gibt es seit langem, aber von Wurzels Formulierung aus hat er sich in der neueren Sprachwissenschaft verbreitet. Er richtet sich nicht gegen den traditionellen historisch-etymologischen Begriff, sondern überträgt lediglich eine in der neueren Sprachwissenschaft weitgehend unkontroverse Auffassung auf die Fremdwortforschung. Weitgehend unkontrovers ist, dass historische und synchron-systematische Fragestellungen in Abhängigkeit vom Erkenntnisinteresse zu unterscheiden sind, nicht aber gegeneinander ausgespielt werden dürfen. Gerade bei den Fremdwörtern ist diese Selbstverständlichkeit aber noch immer nicht Allgemeingut, nicht in der philologisch orientierten Sprachwissenschaft und schon gar nicht im öffentlichen Sprachdiskurs. Dem Denken in Kategorien der Herkunft wohnt etwas scheinbar Natürliches inne, wo es um Sprachkontakt geht. Mit den Zielen unseres Projektes ist es aus offensichtlichen Gründen nicht verträglich. So ist vielleicht nicht allzu überraschend, dass auch in der neueren und neuesten Literatur zum Thema zwar immer
74
Peter Eisenberg
wieder von einem synchron-systematischen Anglizismenbegriff gesprochen, letztlich aber doch auf Wörterbücher und damit auf die Herkunft zurückgegriffen wird. Das führt zu von unseren recht verschiedenen Ergebnissen. Statt von den „generellen grammatischen Regularitäten des Deutschen“ bei Wurzel sprechen wir von den Regularitäten des deutschen Kernwortschatzes. Der Kernwortschatz umfasst alle Wörter, die vollständig in der Kerngrammatik beschrieben und in diesem Sinn als nichtfremd oder nativ anzusehen sind. Die Eingrenzung eines Kernwortschatzes ist notwendige Bedingung für eine systematische Erfassung des Fremdwortschatzes. Ein Versuch, fremde Eigenschaften von Wörtern des Deutschen insgesamt zu erfassen und sie auf die nichtfremden Eigenschaften des Kernwortschatzes zu beziehen, findet sich in Eisenberg (2012). Sie wurden im vorliegenden Abschnitt nur an einzelnen Beispielen erläutert. Wo erforderlich, gehen wir ihnen im Folgenden genauer nach. Es mag der Eindruck eines kleinlichen Beharrens auf einem etwas mechanischen Begriff von Anglizismus bestehen. Deshalb noch einmal ein Hinweis auf das Vorgehen einer der umfangreichsten neueren Untersuchungen zum Anglizismenbestand überhaupt, Anglicisms in German (Onysko 2007). Bei ihr wird nicht recht klar, ob vorliegende Beschränkungen gar nicht erkannt, sondern nur in ihrer Bedeutung unterschätzt werden. Die Ergebnisse dieser in vieler Hinsicht instruktiven Untersuchung von Anglizismen im Jahrgang 2000 des Spiegel erfassen auf das Genaueste Charakteristika der Sprache des Spiegel, bei den Anglizismen etwa Umfang und Typen von Augenblicksbildungen. Und zum verwendeten Anglizismenbegriff heißt es: „At the beginning […], the reader should be aware of the fact that the terms anglicisms, borrowings, loanwords, and loans are applied without terminological rigor to refer to the result of the borrowing process […] as well as to the use of English lexical material in German“ (Onysko 2007: 11). Die Untersuchung berücksichtigt durchaus nicht nur Entlehnungen, sondern auch bestimmte Gruppen von Fremdwortbildungen. Auch wurde versucht, automatische oder teilautomatische Verfahren zur Ermittlung von Anglizismen zu entwickeln. Gerade dabei zeigt sich, dass auf Angaben von Wörterbüchern und damit auf die Herkunft von Wörtern zurückgegriffen werden muss, wo man sonst nicht weiterkommt: „Gängige und im Deutschen etablierte Anglizismen (wie z. B. Film, Computer, Interview, Test und Start) sind bereits im deutschen Lexikon enthalten und werden deshalb nicht als englische Einheiten/Anglizismen erkannt. In der manuellen Analyse werden diese aus etymologischen und wortformbedingten Gründen als Anglizismen klassifiziert“ (Alex & Onysko 2010: 236). Von einem synchron-systematischen Anglizismenbegriff kann kaum die Rede sein. Und weiter: „Nach der gegenwärtigen Konzeption […] bleiben zusammengeschriebene hybride Komposita, verbale Anglizismen, Derivationen und im Deut-
Anglizismen im Deutschen
75
schen regelmäßig flektierte englische Einheiten unerkannt, wie z. B. Aktienclub, abscannen und aufgestylt“ (Alex & Onysko 2010: 236). Was Daten, Recherchemöglichkeiten und Begrifflichkeit betrifft, ist man doch ein erhebliches Stück von den Zielen unseres Projekts entfernt.
3 Anglizismen im Berichts- und Zeitscheibenkorpus Als Bezugsgrößen für quantitative Aussagen beziehen wir uns auf die Textkorpora im Berichtskorpus B. Dabei ist zu unterscheiden zwischen den vollständigen Korpora bestehend aus einer Folge von elementaren Texteinheiten (Tokens) mit allen Wortformen, Zahlen, Sonderzeichen usw. einerseits und bereinigten Korpora. Wo es um rein Sprachliches im engeren Sinne geht, verwenden wir dieselben Korpora wie eben, jedoch beschränkt auf Wortformen. Alles Nichtsprachliche ist getilgt. Schließlich geht es bei den Anglizismen auch darum, Aussagen über einzelne Wortarten zu machen. Dazu benötigen wir als Bezugsgröße das Korpus mit allen Wortformen, die den relevanten Wortarten angehören. Das sind Substantive, Adjektive, Verben und Adverbien. Zunächst eine Übersicht der elementaren Texteinheiten (Tokens): (1)
Berichtskorpus B, Anzahl der Tokens in der 1. und 3. Zeitscheibe Gesamtkorpus
alle Wortformen
relevante Klassen
1. ZS
13 721 842
11 462 711
6 057 422
3. ZS
10 306 853
8 475 325
4 476 070
Neben den elementaren Texteinheiten benötigt man die Listen von Lemmata, das ist sprachlich die Zusammenfassung von Texteinheiten zu Wörtern. In einer flektierenden Sprache wie dem Deutschen ist bei sprachlichen Einheiten damit die Zusammenfassung von Flexionsformen zu Wörtern gemeint, bei den nichtsprachlichen entsprechende Analoga. Es ergeben sich die Lemmalisten des Zeitscheibenkorpus B mit folgender Größe: (2)
Zeitscheibenkorpus B, Anzahl der Lemmata in der 1. und 3. Zeitscheibe Gesamtkorpus
alle sprachlichen
relevante Klassen
1. ZS
378 329
371 574
262 231
3. ZS
381 191
373 537
254 411
76
Peter Eisenberg
Die Zahl der Lemmata stimmt in beiden Zeitscheiben im Wesentlichen überein, die Zahl der Tokens nur in der Größenordnung. Soweit der Unterschied verallgemeinerbar und interpretierbar ist, deutet er auf eine Abnahme der Flexionsformen im einzelnen Lemma hin. Die Zahlenverhältnisse werden in den Abschnitten 3, 4 und 5 so zugänglich wie möglich und ohne höheren statistischen Aufwand dargelegt, aber die Lektüre bleibt in einigen Teilen trocken. Das lässt sich kaum vermeiden und ändert sich hoffentlich deutlich in Abschnitt 6.
3.1 1. Zeitscheibe Die Gesamtzahl von 371 574 sprachlichen Lemmata weist 1 299 Anglizismen auf, die entweder Substantiv, Verb, Adjektiv oder Adverb sind. Ihr Anteil am Gesamtwortschatz der 1. Zeitscheibe beträgt 0,35 %. Bei den Tokens ergibt sich folgendes Bild: Von den etwa 13,7 Millionen elementaren Einheiten des laufenden Textes sind 5 506 Anglizismen, das ist etwa jede 2 500. Form. Bei einem durchschnittlichen Seitenumfang von 500 Wortformen umfasst das Korpus etwa 27 000 Seiten und enthält auf ungefähr jeder fünften Seite einen Anglizismus. Instruktiv und wohl auch aussagekräftig, was eine mögliche Wirksamkeit der Anglizismen im Gesamtwortschatz betrifft, ist neben dem Bezug auf die Gesamtzahl der Lemmata und Tokens im Text auch ein Bezug auf die relevanten Klassen von Wörtern. Die Aufschlüsselung nach Wortarten wird in Abschnitt 4.1 vorgenommen. Die relevanten Wortarten Substantiv, Adjektiv, Verb und Adverb umfassen in der 1. Zeitscheibe mit 262 231 Lemmata 69,3 % der Gesamtzahl. Der Anteil der 1 299 Anglizismen an den relevanten Wortklassen beträgt 0,5 %. Er ist damit um etwa die Hälfte höher als die 0,35 % bei Bezug auf die Gesamtzahl der Lemmata. Von erheblicher Bedeutung für den Status der Anglizismen im Gesamtwortschatz ist ihre Vorkommenshäufigkeit. Häufig vorkommende Wörter neigen trivialerweise eher zu Lexikalisierung in der Nehmersprache, aber unter den selten oder nur einmal vorkommenden findet man möglicherweise eher die produktiven Typen der Fremdwortbildung. In (3) ist die Vorkommenshäufigkeit aller 1 299 Lemmata aufgelistet. Spalte 2 enthält die jeweilige Zahl von Lemmata (insgesamt 1 299), Spalte 3 die Gesamtzahl ihrer Vorkommen (insgesamt 5 506). Dabei ist die angegebene absolute Häufigkeit zu verstehen als der Wert zwischen den Werten darüber und darunter, d. h. < 10 bedeutet: von 2 bis 9, < 20 bedeutet: von 11 bis 19 usw.
Anglizismen im Deutschen
(3)
77
Häufigkeiten 1. Zeitscheibe
Häufigkeit
Lemmata
Tokens
1
833
833
0,05), * = signifikant (p < 0,05), ** = sehr signifikant (p < 0,01), *** = hochsignifikant (p < 0,001) 2) Post-hoc-Tests (χ²) für die Paarungen DWDS-KK: Gebrauchstexte/DWDS-KK: Zeitung, DWDS-KK: Wissenschaft/DWDS-KK: Zeitung, DWDS-KK: Zeitung/JK und WiKo-A/WiKo-D; Ergebnisse korrigiert nach Bonferroni/Holm (Holm 1979). Abkürzungen siehe 1)
anderen Textsortenbereichen des DWDS-KK (Wissenschaft, Gebrauchstexte und Zeitung). Sie sind aber auch in literarischen Werken belegt, und solche Belege sind für qualitative Analysen natürlich besonders interessant. Weitere interessante und signifikante Auffälligkeiten sind wiederum verbspezifisch: Streckverbgefüge mit finden und kommen werden auf den Artikelseiten der Wikipedia anteilig häufiger verwendet als auf den Diskussionsseiten, Gefüge mit bringen seltener. Der auffallend geringe Anteil von Streckverb-Verwendungen
um die Möglichkeit der α-Fehler-Kumulierung zu begrenzen. Überzufällig unterschiedliche Häufigkeiten mindestens auf einem Signifikanzniveau von p < 0,05 fanden sich für die Paarungen DWDS-KK: Zeitung/JK sowie WiKo-A und WiKo-D (für alle Verben). Bei bringen konnte zudem ein signifikanter Unterschied für die Paarung DWDS-KK: Zeitung/DWDS-KK: Gebrauchstexte gezeigt werden, bei kommen für DWDS-KK: Zeitung/DWDS-KK: Wissenschaft.
196
Angelika Storrer
von finden im Korpus WiKo-D geht darauf zurück, dass das Verb finden auf den Diskussionsseiten sehr häufig in den Formulierungsmustern ich finde, dass x oder ich finde etwas gut/schlecht verwendet wird. Die Anteile der Streckverb-Verwendungen in den Bereichen Wissenschaft, Gebrauchstexte und Zeitung liegen beim Verb finden ähnlich hoch, bringen wird in Zeitungs- und Wissenschaftstexten anteilig sogar überzufällig häufiger verwendet als in Gebrauchstexten. Die Streckverb-Verwendungen von kommen sind in Wissenschaftstexten anteilig frequenter als in Gebrauchs- oder Zeitungstexten. Der insgesamt vergleichsweise hohe Anteil von Streckverb-Verwendungen in der journalistischen Prosa ist bemerkenswert – man hätte einen höheren Anteil im Bereich Gebrauchstexte erwartet, denn zu diesem Bereich zählen auch Gesetzestexte und Verordnungen, also Dokumente, die man intuitiv mit „Kanzleistil“ und „Papierdeutsch“ in Verbindung bringen würde. Ebenfalls interessant ist, dass die Anteile der Streckverb-Verwendungen von finden und kommen in Wikipedia-Artikeln bzw. von bringen in Wikipedia-Diskussionen ähnlich hoch liegen wie im DWDS-KK (Tab. 6.1): Offensichtlich werden die „papierdeutschen“ Streckverben in digitalen Medien weiterhin verwendet, selbst beim dialogischen, informellen Schreibstil in Wikipedia-Diskussionen.
Abbitte leisten
34
32
Absage erteilen
57
57
3
5,26 %
Anwendung finden 1 194 1 048
4 101
Entscheidung treffen in Abgang kommen
1 536 1 289
18 56,25 %
7 21,88 %
Anteil prozentual
Zeitung: Anteil absolut
0,00 %
7 21,88 %
12 21,05 %
7 12,28 %
35 61,40 %
0,38 %
475 45,32 %
225 21,47 %
344 32,82 %
7,84 %
271 21,02 %
203 15,75 %
714 55,39 %
8
5
3 60,00 %
1 20,00 %
in Verbindung bringen
578
476
63 13,24 %
in Zweifel ziehen
274
265
37 13,96 %
Kritik üben
591
543
44
zur Anwendung bringen
202
zur Anwendung kommen
271
0
Anteil prozentual
Wissenschaft: Anteil absolut
Anteil prozentual
Gebrauchstexte: Anteil absolut
Anteil prozentual
Belletristik: Anteil absolut
Trefferzahl bereinigt
SVG
Trefferzahl gesamt
Tab. 7 Streckverbgefüge (SVG) in Textsortenbereichen
0,00 %
1 20,00 %
93 19,54 %
187 39,29 %
133 27,94 %
45 16,98 %
66 24,91 %
117 44,15 %
8,10 %
101 18,60 %
130 23,94 %
268 49,36 %
172
18 10,47 %
23 13,37 %
246
34 13,82 %
15
6,10 %
0
3
1,74 %
128 74,42 %
23
9,35 %
174 70,73 %
Variation im deutschen Wortschatz am Beispiel der Streckverbgefüge
197
Abb. 5 Streckverbgefüge (SVG) in Textsortenbereichen ďďŝƚƚĞůĞŝƐƚĞŶ ďƐĂŐĞĞƌƚĞŝůĞŶ ŶǁĞŶĚƵŶŐĨŝŶĚĞŶ ŶƚƐĐŚĞŝĚƵŶŐƚƌĞĨĨĞŶ ŝŶďŐĂŶŐŬŽŵŵĞŶ ŝŶsĞƌďŝŶĚƵŶŐďƌŝŶŐĞŶ ŝŶǁĞŝĨĞůnjŝĞŚĞŶ