184 74 64MB
German Pages 276 Year 1980
Linguistische Arbeiten
88
Herausgegeben von Herbert E. Brekle, Hans Jürgen Heringer, Christian Rohrer, Heinz Vater und Otmar Werner
Perspektive: textintern Akten des 14. Linguistischen Kolloquiums Bochum 1979 Band l Herausgegeben von Edda Weigand und Gerhard Tschauder
Max Niemeyer Verlag Tübingen 1980
CIP-Kurztitelaufnahme der Deutschen Bibliothek Linguistisches Kolloquium : Akten des 14. [Vierzehnten] Linguistischen Kolloquiums: Bochum 1979 / hrsg. von Edda Weigand u. Gerhard Tschauder. - Tübingen : Niemeyer. (Linguistische Arbeiten;...) NE: Weigand, Edda [Hrsg.] Bd. 1. -»· Perspektive textintern Perspektive textintern / hrsg. von Edda Weigand u. Gerhard Tschauder. Tübingen : Niemeyer 1980. (Akten des 14. Linguistischen Kolloquiums; Bd. 1) (Linguistische Arbeiten ; 88) ISBN 3-484-10380-9 NE: Weigand, Edda [Hrsg.] ISBN 3-484-10380-9
ISSN 0344-6727
Max Niemeyer Verlag Tübingen 1980 Alle Rechte vorbehalten. Ohne ausdrückliche Genehmigung des Verlages ist es auch nicht gestattet, dieses Buch oder Teile daraus auf photomechanischem Wege zu vervielfältigen. Printed in Germany. Druck: fotokop Wilhelm weihert KG, Darmstadt.
INHALTSVERZEICHNIS
VORWORT
IX
1. PHONOLOGIE UND MORPHOLOGIE
Claire-Antonella intonation
FOREL: Fonctions du langage et '
3
Camiel : Accent and diphthongization Friedrich WENZEL: Wortbildungsanalyse in der Arbeitskette Mensch - Maschine - Mensch
11 19
2. LEXIK Jacques FRANCOIS: Kontrastive Analyse des Verblexikons und zweisprachige Lexikographie am Beispiel der deutschen Entsprechungen von f r z . guerir Neal R. NORRICK: Semantic relations and motivation in idioms Francoise POURADIER DUTEIL: Die biprädikativen Verbalstrukturen. Einige Bemerkungen Ulrich PÜSCHEL: Zur Relation zwischen Lemma und Interpretament Heinz W. VIETHEN: Current prescriptivism: Philip Howard's "weasel words" Sigurd WICHTER: Individuelle Bedeutungen von Haus
35 51 61 73 83
. . .
93
Gisela BRÜNNER: Modalverben und Negationen Günther DEIMER: Über Konditionalsatztypen im Englischen Götz HINDELANG: Was heißt das heißt? . Werner HOLLY: Substantivvalenz und satzsemantische Struktur
103 115 123
3. SYNTAX UND SEMANTIK
Manfred KOHRT: "Parole in libertä" und "liberation du langage". Zur Rolle der Sprache in Futurismus und Surrealismus Markku MOILANEN: Zum System der Präpositionen für die horizontalen Relationen im heutigen Deutsch
133
145 161
VI
Günter ROHDENBURG: Some restricted types of adjectivenoun constructions in English Marc VAN DE VELDE: Quantoren hin - Quantoren her . . . . Edda WEIGAND: Wortarten als grammatische Kategorien 4.
. .
169 185 197
TEXTGRAMMATIK
Josef BAYER: Diskursthemen
213
Käthi DORFMÜLLER-KARPUSA: Aspekte der Relationen in Texten
temporalen 225
Jürgen ESSER: Satzglieder und Gliedsätze in der Textprogression des Englischen
239
Elisabeth RUDOLPH: Bemerkungen zur Partikel denn
249
konnektiven
VERZEICHNIS DER AUTOREN UND HERAUSGEBER . . . .
263
INHALTSVERZEICHNIS ZU BAND 2
VORWORT
1.
IX
TEXTPRAGMATIK
Hans-Ulrich BIELEFELD: Erzählung und Identitätsdarstellung Bernd Ulrich BIERE: Gesprächsanalyse und Hermeneutik . . Thomas BLIESENER: Wie kann man als Patient in der Visite zu Wort kommen? Wolfram BUBLITZ: Hörersignale und Gesprächssteuerung im Englischen Gabriel FALKENBERG: "Sie Lügner!" Beobachtungen zum Vorwurf der Lüge Reinhard FIEHLER: Kommunikation und ihre Rolle in verschiedenen Typen von Tätigkeitszusammenhängen Hartwig FRANKENBERG: Sprichwort und Slogan - Zur Funktion des Sprichwortes in der Konsumwerbung Christopher HABEL/Claus-Rainer ROLLINGER: Konversationsmaximen für die Frage-Beantwortung Günther ÖHLSCHLÄGER: Was ist eine Antwort? Theodossia PAVLIDOU: Zur Rolle einiger Modalpartikeln bei der Problematisierung von Handlungen
3 15 27 37 51 63 73 85 97 1O7
Angelika REDDER: 'Ich wollte sagen'
117
Eckard ROLF: Bemerkungen zum Wahrheitsaspekt explizit performativer Äußerungen
127
Sven Frederik SAGER: Sprechakt oder Kontakt? Drei Thesen gegen den Allgemeingültigkeitsanspruch der Sprechakttheorie 137 Gerhard TSCHAUDER: Vorbereitende Bemerkungen zu einer linguistischen Stiltheorie
149
Paul-Ludwig VÖLZING: Zur Wahrheit des Reisekatalogs oder: siehste, ich hab's ja gleich gesagt! 161 Reinhard WONNEBERGER: Kommunikation mit Komputern Werner ZILLIG: Textakte
. . . 175 189
VIII 2.
PSYCHOLINGUISTIK UND SOZIQLINGUISTIK
Pol CUVELIER: Some Aspects of the Acquisition of Verbal Elements 203 Kurt NIKOLAUS: Zum Problem der phylogenetischen Sprachentstehung 213 Luzian OKON: "Langue ecrite" und "langue orale" in zwei französischen zeitgenössischen Romanen 223 Guido THYS: Producing and Interpreting Verbal Utterances, A Dynamic Model 231 Richard WIESE: Textverarbeitung und Fremdsprachenerwerb 241 3. SPRACHDIIDAKTIK
Klaus-Dieter GOTTSCHALK: E . E . Cummings: Orientale II, Eine Gedichtanalyse zur Einführung in die Linguistik Meinert A.MEYER: Möglichkeiten und Grenzen einer beruflichen Orientierung des Fremdsprachenunterrichts in der Sekundarstufe II John ODMARK: Markedness and Second Language Acquisition VERZEICHNIS DER AUTOREN UND HERAUSGEBER . . .
255
267 279 287
VORWORT
Auch auf dem 14. Linguistischen Kolloquium, das vom 19. bis
21.
September 1979 am Germanistischen Institut der Ruhr-Universität Bochum stattfand, wurden wieder so viele Referate gehalten, daß eine Publikation in zwei Bänden angezeigt war. Die beiden Bände enthalten nahezu alle Vorträge; nur vereinzelt wurde ein Beitrag vom Autor nicht zur Publikation freigegeben.
Traditionsgemäß war
das Kolloquium für Vorträge zu allen Themenbereichen der Linguistik o f f e n und f r e i von jeder wertenden Auswahl durch die Veranstalter. Bei aller thematischen Breite ließen sich die Vorträge doch relativ leicht unter dem Gesichtspunkt textinterner bzw. textexterner Perspektive etwa je zur Hälfte auf zwei Bände verteilen. Dabei zeichneten sich wieder als deutliche Schwerpunkte die Bereiche Semantik und Pragmatik ab, die jeweils den Kern eines Bandes bilden. Die weitere thematische Aufgliederung orientiert sich in Band 1 an den Teilbereichen satzgrammatischer Forschung, die durch den Bereich Textgrammatik ergänzt werden. Band 2 enthält neben den Beiträgen zur Textpragmatik die Bereiche Psychound Soziolinguistik sowie Sprachdidaktik. Mit ihrer thematischen Vielfalt spiegeln die beiden Bände die zahlreichen, uneinheitlichen Richtungen, die gegenwärtig das Bild linguistischer Forschung im ganzen prägen; die Konzentration auf semantische und pragmatische Fragestellungen dokumentiert, daß sich inzwischen neben der Semantik die Pragmatik als ein weiterer Hauptbereich linguistischer Forschung etabliert hat Trotz der Aufteilung auf zwei Bände ist
jedoch nicht zu über-
sehen, daß die Zahl der gehaltenen und publizierten Referate gegenüber dem Vorjahr zurückging. Wurden von den Genter Herausgebern über 70 Referate publiziert, so sind in den beiden Bänden dieses Kolloquiums knapp 50 Referate zusammengefaßt. Den Grund
dafür mag man in einer allgemeinen Kongreßmüdigkeit sehen; doch sollte die Möglichkeit des Austauschs von Forschungsergebnissen, die das Linguistische Kolloquium als ein europäisches Forum vor allem für Angehörige des akademischen Mittelbaus bietet, Argument genug sein für die Notwendigkeit, dieses Forum auch in den kommenden Jahren zu erhalten. Die Publikation der Akten erfolgte in dem Verfahren, das sich - trotz mancher Probleme im einzelnen - seit dem Tübinger Kolloquium 1975 bewährt hat:
Die Autoren reichen ihre Beiträge druck-
fertig den Herausgebern ein,
wobei die von den Tübinger
gebern erstellten Schreibanweisungen größtmögliche
Heraus-
formale
Ein-
heitlichkeit gewährleisten sollen. Als Herausgeber waren auch wir bestrebt, noch verbliebene individuelle Abweichungen in Zusammenarbeit mit den Autoren zu korrigieren, glaubten jedoch, im Einzelfall gewisse formale Bedenken gegenüber einem raschen Erscheinen der Bände hintansetzen zu können. Unser Dank gilt allen, die die Organisation des Kolloquiums oder die Veröffentlichung der Akten durch Rat oder Tat gefördert haben. Insbesondere danken wir dem Minister für Wissenschaft und Forschung des Landes Nordrhein-Westfalen für finanzielle Förderung und dem Germanistischen
Institut der Ruhr-Universität Bochum,
ohne dessen großzügige Unterstützung das Kolloquium in dieser Form nicht möglich gewesen wäre. Last not least sei unseren
bei-
den verdienten studentischen Hilfskräften, Frau Susanne Kirsch und Herrn Joachim Wiens, herzlich gedankt.
Bochum, im Dezember 1979
Edda Weigand Gerhard Tschauder
1. PHONOLOGIE UND MORPHOLOGIE
FUNCTIONS DU LANGAGE ET INTONATION Claire-Antonella
1.
Forel
Conune la majorite des f a i t s dont s Occupe la linguistique,
1'intonation ne semble pas poser de probleme au sujet parlant. Le linguiste, qui en est aussi un, peut bien entendu se fonder sur la connaissance pratique q u ' i l en a et la mettre a contribution pour eclaircir d ' a u t r e s domaines de la langue. Ainsi Benveniste par exemple distingue differents types d'enonciation en s'appuyant, entre autres, sur les differences d'intonation. Celles-ci sont certes facilement reconnaissables au niveau pratique mais on se trouverait bien embarasse si 1'on voulait les caracteriser quelque peu rigoureusement. La principale d i f f i c u l t e - ou, du moins, une des princi2 pales difficultes - se presente lorsque 1'on veut preciser le Statut des differences d 1 intonation ä l'Interieur du phenomene global de la communication verbale, c'est-a-dire lorsque I 1 o n se demande dans quelle mesure ces differences relevent du domaine de la langue. Get article voudrait contribuer a la comprehension de ce probleme a travers la discussion des fonctions que Troubetzkoy, s'inspirant de Bühler, attribue au langage et que 1 On trouve dans la seconde partie de 1'introduction de ses Principes de Phonologic. BUHLER (1934 : 28) reconnait dans le
"phenomene sonore"
(SchallPhänomen) present dans l ' a c t e de parole trois fonctions : "expressive"
(Ausdruck),
"appellative" (Appell) et "representa-
tive" (Darstellung), q u ' i l refere respectivement a 1'emetteur (Sender), au recepteur (Empfänger) et ä l ' "etat de choses" (Gegenstände und Sachverhalte).
Selon Bühler, le phenomene so-
nore grace a sä fonction expressive nous revele l 1 "interiorite" (Innerlichkeit)
de l'emetteur et sä fonction appellative vise,
comme n'Importe quel"echange de signes" (Verkehrszeichen), ä modifier le "comportement exterieur ou interieur" du recepteur.
Troubetzkoy reprend de Bühler ce schema a trois fonctions - q u ' i l affirme etre "egalement valable pour le cöte phonique du langage" quand bien meme Bühler ne 1'avait concu que pour le "konkrete Schallphänomen". II y a cependant, chez Troubetzkoy, un glissement sensible quant a la definition de la fonction expressive : celle-ci, en e f f e t ,
ne revele plus I 1 "interiorire"
du sujet parlant, mais le caracterise comme "appartenant ä des types humains ou a des groupes determines, et qui sont essentiels pour la permanence de la communaute linguistique en question (TROUBETZKOY 1970: 2 2 ) . 4 Troubetzkoy - comme nous d ' a i l leurs - est si convaincu que la phonologie et done la linguistique doive sOccuper de la fonction representative q u ' i l ne s ' a t tarde ni a le prouver ni meme a donner de cette fonction une definition precise. En revanche, il se demande si la phonologie doit etudier les deux autres fonctions,
soit les fonctions ex-
pressive et appellative. Dans un premier temps, Troubetzkoy rejoint la position de v. Laziczius selon lequel la phonologie aurait ä sOccuper de toutes les fonctions du langage humain et devrait done se diviser en trois grandes parties. Ce qui rallie Troubetzkoy a cette position semble etre surtout le f a i t , signale par v. Laziczius, que parmi les
"impressions phoniques" a fonction expressive ou
appellative "il y en a qui pour etre exactement comprises doivent etre rapportees ä des normes determinees, etablies dans la langue en question"
(TROUBETZKOY 1970: 17). Ce dernier critere,
cependant, qui n ' e s t autre que celui de la conventionality, permettra ä Troubetzkoy de detacher plus loin la phonologie representative des deux autres en montrant que "le probleme de la distinction entre ce qui est naturel et ce qui est conventionnel n'existe a proprement parier que dans la phonologie expressive et appellative, tandis qu'elle ne joue aucun role dans la phonologie representative" (TROUBETZKOY 1970 : 2 8 ) . En e f f e t , nature uniformement conventionnelle
de la
des faits representatifs fa-
ce ä l'heterogeneite des faits expressifs et appellatifs, Troubetzkoy deduit la nature foncierement differente des fonctions que ces faits servent respectivement ä remplir : "tandis que la 'phonologie representative' etudie l'ensemble des procedes phoniques a valeur representative ( . . . ) les deux autres branches
( . . . . ) de la phonologie ne traiteraient q u ' u n e petite partie des precedes phoniques d 1 expression et d'appel" (TROUBETZKOY 1970: 29) . 2.
II faut bien convenir que, meme quand on a a f f a i r e ä un
fait expressif
conventionnel, il y a entre lui et un fait repre-
sentatif - qui, personne ne le contestera, est pratiquement toujours conventionnel - une difference fondamentale. Cette d i f f e rence, d ' a u t r e part, ne saurait etre mise, comme le fait Bühler et ä sä suite Troubetzkoy, sur le compte de ce ä quoi les faits mentionnes renvoyent respectivement : emetteur et recepteur sont pour la fonction representative, des "choses" pouvant figurer au meme titre que n'Importe quelles autres dans l 1 "etat de choses" qui d'apres eux caracterisent cette fonction. Ce n ' e s t done pas sur le contenu vehicule par les faits representatifs et les faits expressifs, pas plus que sur leur conventionalite, que l ' o n peut s'appuyer pour les discriminer. Ainsi lorsque quelqu' un prononce avec 1'accent caracteristique du canton de Vaud la phrase Je suis vaudois, le recepteur peut acceder au meme contenu : l'origine vaudoise du locuteur, grace ä deux faits egalement conventionnels dont 1'un reste cependant expressif - 1'accent - et 1'autre representatif - la suite de phonemes. C ' e s t ailleurs q u ' i l faut chercher la difference,
et eile
se trouve, nous semble-t-il, dans le caractere intentionnel
des
faits representatifs et le caractere au contraire spontanne des faits expressifs. II s'agit en e f f e t ,
dans les deux cas, d 1
indices, mais seuls les faits representatifs sont expressement produits pour q u ' i l s servent d 1 i n d i c e s .
Cette difference n ' e s t
pas sans rapport avec le caractere toujours conventionnel des faits representatifs : puisqu 1 intentionnels, ceux-ci ne sauraient etre que conventionnels.
Les faits expressifs, qui ren-
voient toujours a des categories d'individus socialement pertinentes, peuvent certes le faire grace ä des conventions en vigueur dans la communaute linguistique; mais aussi grace a un rapport naturel - par exemple biologique - entre les faits en question et les categories auxquelles ils renvoient. On en trouve d'excellents exemples chez TROUBETZKOY (1970 : 2 0 ) : ainsi, en darkhat, 1'articulation particuliere des voyelles et la hauteur musicale
relative de la voix du locuteur renvoient toutes deux
au sexe de celui-ci, et, dans les deux cas, il s ' a g i t d 1 indices spontannes. Mais, alors que l'articulation des voyelles ne foncne conune indice que grace a des conventions, la hauteur musicale se comporte comme un indice naturel. Remarquons d ' a u t r e part que l'indice intentionnel, de par sä nature meme exige la collaboration dans la pratique dont il est le moyen de deux executants, ce qui confere ä cette pratique un caractere social particulierement marque. L'indice spontanne, au contraire, constitue le moyen d ' u n e pratique dans laquelle 1'emetteur intervient comme simple participant, le seul exeQ cutant etant le recepteur. 3. II doit etre clair que tout comportement humain, sans exception, constitue virtuellement un indice et peut done devenir le moyen d ' u n e pratique du type de celles examinees dans le paragraphe precedent. Parmi ces pratiques, caracterisees par le fait que leur moyen est dans tous les cas un indice, nous avons distingue celles ou celui-ci est intentionnel, c'est-a-dire produit pour q u ' i l serve d ' i n d i c e , et celles ou, au contraire, le fait servant d 1 indice n ' a pas ete produit a cette f i n . Or, il nous semble assez evident que les faits appellatifs, a 1'encontre de ce que nous avons vu pour les faits expressifs, sont produits intentionnellement par 1'emetteur, ce qui implique - puisque c'est seulement a une teile fin que 1 On produit intentionnellement un fait - que les faits appellatifs sont produits pour q u ' i l s servent de moyens d ' u n e pratique. Toutefois, les hesitations des auteurs sur lesquels nous nous fondons, lorsqu'il s ' agit de definir la fonction appellative, permettent de prevoir les difficultes que 1'on rencontrera si 1 On veut preciser quelle est la pratique que nous postulons. S'en tenant a ce que dit Bühler, cette pratique consisterait, on 1'a vu, a modifier le comportement interieur ou exterieur du recepteur. Quant a Troubetzkoy, sa definition de la fonction appellative nous amenerait ä conclure que la pratique en question est celle qui vise "a provoquer, ä declencher certains sentiments chez 1'auditeur" (TROUBETZKOY 1970 : 2 4 ) . La question se pose cependant, comme cela a ete le cas pour la fonction expressive, de determiner en quoi la modification de
comporternent du recepteur ou le declenchement d ' u n sentiment chez l'auditeur au moyen d ' u n f a i t appellatif se distingue d 1 une teile modification ou d ' u n tel declenchement obtenus - ce qui est possible, voire frequent - au moyen d ' u n f a i t represent a t i f . Les phrases injonctives, par exemple, visent toujours a modifier le comportement du recepteur, et cela, sans doute, par la voie representative. Nous n'aspirons pas ici drions simplement suggerer
a trancher la question, mais vou-
la possibilite de caracteriser une
pratique que nous appellerions "stimulation" et qui serait celle que 1'on exerce au moyen des f a i t s appellatifs. La stimulation se situerait entre, d ' u n e part, 1 ' i n j u n c t i o n qui vise a modifier le comportement du recepteur, ou I 1 assertion quand on 1'utilise pour chercher ä provoquer chez lui un sentiment, et, d ' a u t r e part, 1'action physique exercee sur q u e l q u ' u n pour obtenir une modification
semblable comme, par exemple, celle de le
pousser. Ce qui rapprocherait la stimulation des faits represent a t i f s provoquant un sentiment ou modifiant un comportement, c ' e s t que le resultat vise est obtenu ä travers une mediation. En e f f e t ,
le moyen employe n ' e s t pas ici
physiquement capable
de provoquer directement ce resultat alors que c ' e s t bien le cas pour I 1 action physique exercee sur q u e l q u ' u n . C ' e s t d ' a u t r e part la nature de cette mediation qui distinguerait les f a i t s representatifs des f a i t s appellatifs. Ce qui nous semble le plus proche des exemples que nous donne Troubetzkoy et de ce que nousmeme imaginons etre cette pratique de la stimulation nous serait fourni par 1'exemple du rire, reel ou simule, de q u e l q u ' u n qui entralne le rire de q u e l q u ' u n d ' a u t r e . II y a ici mediation, le rire n'etant pas une action physique du genre de celle de pousser,
mais cependant cette mediation n ' e s t pas un sens, c'est-a-
dire une representation comme c ' e s t le cas quand on a a f f a i r e ä des faits representatifs. Nous nous etions pose le probleme de 1'intonation et c ' e s t avec ce probleme que nous voudrions terminer. L ' i n t o n a t i o n semg ble etre le domaine par excellence de 1'appellatif : il y a certes des faits appellatifs non-intonatifs comme 1'accent d ' i n sistence en francais ou 1'allongement de certaines consonnes en
allemand.
Mais, de l ' a v i s meme de Troubetzkoy, ces faits ne se
produisent q u ' e n association avec des faits appellatifs relevant du domaine de l'intonation, et c'est en tout cas grace aux nuances de celle-ci que l ' o n reussit ä provoquer - nous dirions stimuler - le "ravissement" ou l ' "indignation", l ' "enthousiasme", le "regret" ou la
"pitie" de quelqu'un (TROUBETZKOY 1970 : 2 5 ) .
Notes 1 Lorsqu'il compte les "particules, pronoms, sequence, intonation, etc." comme des "formes lexicales et syntaxiques de l'interrogation". De meme lorsqu'il a f f i r m e que "dans son tour syntaxique corrane dans son intonation, 1'assertion vise ä communiquer une c e r t i t u d e , . . " (BENVENISTE 1966 : 8 4 ) . C'est nous qui soulignons. 2 Nous pensons aux problemes que 1'on rencontre lorsque 1'on attribue une fonction delimitative ä 1'intonation ä l'egard des phrases, des "utterances" ou des "signaux". C ' e s t sans doute a cela que pense Harris lorsqu'il a f f i r m e :"linguistic equivalence requires identity not only in the successive morphemes but also in the intonations and junctionnal features. Hence, while the utterance 'Sorry, c a n ' t do i t . 1 may be linguistically equivalent to the utterances ' S o r r y . 1 and ' C a n ' t do i t . ' the utterance ' C a n ' t do it' is not .linguistically equivalent to ' C a n ' t . 1 and 'Do i t . ' since the intonations on the latter two do not together equal the intonation on the f i r s t " (HARRIS 1961 : 1 4 ) . 3 Bühler est lui-meme parti d ' u n e remarque de Platon ainsi qu' il l'explique :"Es war ein guter Griff Platons, wenn er im Kratylos angibt, die Sprache sei ein orqanum, um ein dem ändern etwas mitzuteilen über die Dinge" (BUHLER 1934 : 24) 4 II est interessant de noter ä quel point les remarques de Troubetzkoy semblent annoncer la sociolinguistique teile que Labov la concoit lorsqu'il dit :"Some linguistic features (which we call indicators)show a regular distribution over socio-economic, ethnic, or age-groups, but are used by each individual in more or less the same context" (LABOV 1974 : 188) . 5 Nous nous referons implicitement a la definition d ' i n d i c e de Prieto qui distingue les indices spontanes, c'est-a-dire les "faits qui fournissent des indications sans avoir ete produits a cette f i n , soit q u ' i l s'agisse de faits naturels, soit q u ' i l s'agisse de faits produits par 1'homme de fagon involontaire ou avec une intention autre que celle d'indiquer quoi que ce soit" des indices intentionnels qui sont les "faits fournissant des indications qui ont ete produits expressement afin de les fournir et qui n'atteignent ce but q u ' ä condition quOn les reconnaisse comme ayant ete produits pour 1'atteindre" (PRIETO 1975 : 16). 6 On pourrait penser que les onomatopees sont intentionnelles
et cependant pas conventionnelles. Pour la discussion de ce Probleme somme toute assez marginal, nous renvoyons a SAUSSURE ( 1975 : 102). 7 Nous considerons que la communication constitue une pratique, de meme que la recherche et 1'interpretation d 1 indices non intentionnels. 8 De ce point de vue, 1'accent particulier de 1'emetteur qui permet de reconnaitre son origine vaudoise et le ciel gris qui permet de deduire que le lendemain la mer sera mauvaise sont des indices qui fonctionnent de la meme maniere. Meme s ' i l s'agit dans un cas d ' u n f a i t produit par un etre humain et resultant d ' u n processus culturel et dans 1'autre, d ' u n fait naturel, il n ' y a q u ' u n executant, 1'interprete, qui opere de la meme maniere dans les deux cas. 9 II reste neanmoins ä examiner les rapports entre la fonction appellative et la fonction delimitative. C f . supra note 2. 10 Cf. 1'exemple cite par Troubetzkoy de l 1 "allongement de la consonne et de la voyelle dans le mot allemand schschöön :" (TROUBETZKOY 1970 : 24), Bibliographie BENVENISTE, Emile (1966) :"L'appareil formel de 1 ' enunciation". Repris dans : Problemes de linguistique generale II. Paris : Gallimard. BUHLER, Karl (1934)
: Sprachtheorie. Jena : Fischer.
HARRIS, Zellig S. (1961) : Structural linguistics. Chicago : Chicago University Press. LABOV, William (1974) : "The study of language in its social context". Reimprime dans : PRIDE, J.B. / HOLMES, J. (eds) : Sociolinguistics. Harmondsworth: Penguin. PRIETO, Luis J.
(1975)
: Pertinence et pratique. Paris : Minuit.
SAUSSURE, Ferdinand de (1975) : Cours de linguistique generale. Edition critique preparee par Tullio de Mauro. Paris : Payot. TROUBETZKOY, Nicolas S. (1970) : Principes de Phonologie. Traduit de 1'allemand par J. Cantineau. Paris : Klincksieck.
ACCENT AND DIPHTHONGIZATION Camiel Hamans
To Dutch Linguists ei and ui are old friends. The origins and distribution of the two diphthongs have become subject of one of the best known and widest-ranging controversies of historical linguistics in the Netherlands. In the present context I have little to add to the conflict between the expansionists and the autochthonists. That, therefore, is not the subject of this article. However, I can, I believe, say something constructive about the development of old West Germanic ί to [ei], i.e. the diphthongization of i. Before I take a closer look at some examples of this diphthongization, here is a brief summary of the phonological developments which have resulted in [ei], which is spelt ij. For proto-Indo-European it is assumed that the basis was an ί which in the subsequent periods, up to and including Old Dutch, underwent no change. It has since remained unchanged when followed by an r, as in the following examples: Her, which means lyre or in German Leier dier 'animal or German Tier' schier- (grey, drab as in Schiermonnikoog 'island of the grey monks') wierook.'incense'; alongside wijden 'consecrate'. In all other cases this ί developed through various intermediate stages into the present diphthong [ei], the lange ij 'long ij' of modern Dutch. Alongside the primitive Indo-European ί it is also assumed that there was a primitive Indo-European [ei], two tautosyllabic vowels. Due to umlautung by the i these later, in common Germanic, sometimes coincide with i and then develop in the same way as just described into [i] or [ei], The diphthongization of ί did not take place in all Dutch dialects: in fact, only Brabant, Holland (excluding a few islands) and part of Utrecht are fully diphthongized. The dialects of the other regions have as a general rule retained the monophthong. Neither did diphthongization always take place at the same time. VAN LOEY, in Sch nfeld, the best known handbook on Dutch historical phonology (1964 7 : 92), postulates that in Brabant the process of diphthongization began in the fourteenth century, whereas in Holland he believes it was not complete until the seventeenth. In more intellectual circles, indeed, the process seems not to have been completed until the beginning of the eighteenth century. Now that the known facts of the ί-diphthongization have been enumerated, we may now turn to an example, viz. pijler 'pile German Pfeiler'. The etymological dictionaries, rightly in my view, see a connection with pilaar 'pillar German Pilar'. DE VRIES (1971: 519) says of pijler that it is a late and rare form parallel to the more common pilare, derived from the vulgar Latin *pilare, itself a derivation from pil . With Latin stress we also find Middle German pilar. At the same time, under the influence of Germanic stress, the form with stress brought forward appears. FRANCK VAN WIJK (1949) says essentially the same. In other words: pijler is a doublet of pilaar. Here the stress has played a part in the change from [i] to [ei].
12
The question now arises (in my mind at least): does stress play a part in the diphthongization of [i]? If we look at some examples containing ij, it would seem that an affirmative answer to this question cannot be excluded. Consider: (1) ontbijt breakfast Frühstück konfrjt comfit Konfitüre tapijt carpet Teppich respijt respite Respit azijn vinegar Essig radijs radish Radieschen karabijn carbine Karabiner mandarijn mandarin Mandarin mandarijn mandarine Mandarine venyn venom Gift gordijn curtain Gardine woestijn desert Wüste ravijn ravine Schlucht ambroztfn ambrosia Ambrosia baldakijn baldachin Baldachin kandij candy Kandis kopij copy Kopie selderij celery Sellerie In all these words the Dutch long ij is stressed. Whether this has any ph etic significance, and if so, what, I shall leave aside entirely: that is a matter for further research. Incidentally it is not really all that surprising that this ij should be stressed: generally speaking all diphthongs in monomorphemic words are stressed: (2) arduin [oey] karbouw [Du] gelei [ei] kajuit cacao laweit schavuit applaus karwei beschult miauw contrei kornuit kabeljauw labbei kombuis heraut klappei tapuit but: aluin ärbeid fornuis mäjesteit fortuin pleidooi plavuis seizoen This phenomenon - that diphthongs in monomorphemic words have a tendency to be stressed, i.e. that they tend to form a strong cluster - has not yet been investigated systematically: indeed it has scarcely been observed at all. What sort of light do these synchronic studies shed on the diachronic question of the diphthongization of i? In strictly methodological terms not very much. Such observations must be seen as nothing more than a clarification of ideas, an indication that further investigation in the direction
13 of the relation mentioned may be to some purpose. The examples which have been found so far are of themselves in no way conclusive in any historical argumentation. The examples with ij - and with the other diphthongs - have for the most part been chosen because the stress is not on the first syllable. There are, however, numerous examples to be found of stress on the first syllable: lijster, pleister, kuiken, louter and lauwer. More examples containing 'long ij' are: (3) ijver mijter vijver cijfer spijker vijand nijgen drijven wrijven lijken blijken schijnen ijdel nijver etc. In diachronic terms few conclusions may be drawn from these examples: historically, after all, Dutch has always been a language with initial stress. However, during the course of history the intrusion of loanwords has made severe inroads into the stress-initial character of Dutch, (cf. BOOIJ: 1977: 61) If we now wish to demonstrate that diphthongization has been influenced by the occurence of a primary stress, we shall have difficulty in making our argument sound convincing if we base it on monosyllabic words (such as wijd, schijn, lijk etc.) or words which are still stress-initial today. There is no means of telling whether such words might not have shown diphthongization if the stress has lain elsewhere. At the same time, such a demonstration will not always be successful even with words containing a stressed diphthong in a subsequent syllable. But here the chances are better, because the words concerned are often borrowings from French, so that sometimes we find parallel diphthongized and non-diphthongized forms. In this light let us examine the word selderij 'celery', with the stress on the final syllable. This word is a late borrowing (after the 16th century) from French. The corresponding word in that language is celori, which is naturally stressed finally. My hypothesis that [i] in celeri has been diphthongized to [ei] as in selderij is supported by the Dutch doublet seidene, with the stress on the first syllable. In Germanic fashion this word has shifted the stress forwards, so that no diphthongization has taken place as it has in selderij, with the Romance stress on the
[ei]My initial example pilaar/pijler can also be explained in the same way: starting from a vulgar Latin word *pilare, pilaar can be explained by simple apocope, pijler by an equally uncomplicated process of stress shift (or normalization) an,d subsequent diphthongization according to the sound law and vowel reduction in the second syllable. A word like rabbijn 'rabbi, Rabbiner', too, can probably be used as evidence for diphthongization under the influence of primary stress. Alongside rabbyn we find the word rabbi. However, the latter word is wrongly pronounced: the correct pronunciation being rabbf. If the stress pattern had not been dutchified the word would have had to go through a process of change into rabbjj. In the inflected forms this is what happened: hence rabbijn, with the stress where it belongs, at the end. In the same way we may explain why the French endive(s) 'endiv, Endivie' has in Holland lost not only its taste but also its good name. Likewise it is now clear why Paris became Parijs: the City of Light was known to the Dutch early enough to be able to join the diphthongization. Illuminating examples do not only occur in loanwords, however: we may consider, for example,
14
woestijn/woestenij 'desert, Wüste'. In Old Saxon the word which corresponds to these forms is wöstinnia (VERWIJS a.o. IX: 2752). Depending on the position of the stress, this has developed into woestijn and woestenij respectively. So far we have seen nothing more than that stressed diphthongized. I have not yet shown that unstressed did not diphthongize. However, this too is easy to demonstrate with examples. Let us first examine again some early borrowings. We already find in the 16th century the words viool, vitriool and riool. All three were borrowed from French or Italian and were therefore originally, as now, stressed on the final syllable. The was unstressed and did not diphthongize. Q.E.D. There are also home-grown examples of an unstressed being preserved. SCHÖNFELD (1964 7 : 92) cites biezonder, schare-sliep (as opposed to slijpen) and the enclitic third person pronoun ;ie, as in loop tie. SCHÖNFELD does, however, regard this last as problematical, since it might also be explained as originating in the demonstrative die. An example of an enclitic pronoun more suited to our needs is to be found in the otherwise diphthongizing dialect of Rotterdam, where there are forms such as hoorie, kommie etc. for hoor je, kom je, 'do you hear, do you come'. These forms, which do not occur exclusively in subject positions - e.g. ik hebbic wel gezien and drinkie koppie uit, I saw you, drink your cup empty' cannot possibly be explained with the help of a demonstrative. From the parallel occurrence of the names Sijmen and Simon, finally, we can again conclude that my thesis is correct. Sijmen, naturally, is the correct but mundane form. Simon has been introduced repeatedly, largely influenced by the Bible. As my readers will have realized by now, I believe with some certainty that it may be concluded from the above examples of diphthongization and non-diphthongization that the cause of the diphthongization of must be sought in the stress in the word containing it. That accent does not only apply to diphthongization of can be seen in the example meier/majoor both derived from the Latin maior. In meier (with so called 'short ei') 'sheriff, Meier', stress is on the first syllable, in which the diphthongization took place. In majoor 'major, Major', which comes in Dutch in the 16th century by way of a Spanish word from the Latin form, stress remained on the last syllable and so there is no diphtongization. In a booklet written in 1931 which has remained almost totally unknown, ALFRED SCHMITT takes a completely different route to reach a similar conclusion, thought the scope of his remarks is far wider: [Die Ursache der Diphthongierung] liegt, wie ich mit Franck annehme, in dem "germanischen Wurzelakzent" oder wie ich lieber sagen möchte, in dem stark zentralisierenden Charakter jenes Wurzelakzentes. Dieser stark zentralisierende Akzent hat auf den verschiedenen Gebieten des Neuhochdeutschen selbständig - gewisse Übertragungen und Ausgleichungen natürlich zugegeben - zur Diphthongierung gedrängt, ebenso wie er auf holländischem, englischem und siebenburgischem Sprachgebiet selbständig eine Diphthongierung herbeiführte (p. 106). Now I should like to discuss a few examples of diphthongization of [i] in a few other languages, such as German and English. We saw that Dutch is extremely kind to loanwords. If they came into the language before the diphthongization was complete (16th- 17th century) they kept their original stress pattern and the stressed [i] in these words became diphthongized.
15 In English loanwords get usually the Germanic stress pattern, e.g.: (4) French English Dutch Pans Paris Parijs copie copy kopij radis radish radijs repit (OF-MF respft)respit respyt Latin latin latrjn courtihe curtain gordflh confft comfit konfijt profit profit profijt In these English words the original stressed i is no longer stressed, because of the forward stressshift; therefore there is no diphthongization. The stress was already shifted in Middle English, according to BLISS (1969), and therefore, according to my hypothesis, there could not be diphthongization afterwards. The English diphthongization starts round about 1400. However, there are words in English without stress shift, such as vulgar Latin crimen with stress on the first syllable, and which therefore becomes crime. In the same way words can be explained such as: (5) cry fine fry guile guise gyves ire Iris prime slice spine strive vile viper nice price sire spice Words beginning with a "recognisable prefix", to use BLISS's term, get stress on the second syllable, see for example contain and detain. So we can explain the diphthongs in the following English words: (6) English French advice avis arrive arriver compile compiler device devise divine divine incline enclin (vulgar Latin inclina) delight del ice deny denier entire entier These words are already borrowed and fully accepted in Middle English, so they could become diphthongized, whereas some of these words are borrowed in Dutch a few centuries later. Therefore the corresponding Dutch words did never diphthongize: (7) advies arriveren compileren devies divien divinatie
16 Now we can also explain words like (8) English French Dutch pilot pilote piloot pirate pirate piraat mitre mitre mijter These words are borrowed as early as Middle English by the great French influence, whereas in Dutch only the last word had been accepted in Middle Dutch. In German, where the diphthongization started as early the 13th century and was complete a few centuries before the Dutch one, it is difficult to find evidence for my hypothesis. A lot of the corresponding words came into the language after the diphthongization started: (9) Avis arrivieren Divination Kopie Pilot Pirat Mitra Respit Mandarin Mandarine Gardine Velin Radieschen, which word according to KLUGE was borrowed from Dutch as late as 1682. In Dutch the pronunciation was still with [i], he says. Many other German words have a shifted stress pattern, and so they are not diphthongized, for instance: (10) Dutch German kandij Kandis tapijt Teppich azijn Essig selderij Sellerie radijs Rettich baldakijn Baldachin These words cannot give any evidence for my hypothesis that stressed [i] became diphthongized. However, they show that the non-stressed one does not become a diphthong. Nevertheless there are a few examples which offer evidence: (11) Vulgar Latin German Dutch spicarium Speicher spijker 'loft' *pilare Pfeiler pijler The very early loanword Pfeiler, borrowed before the Hochdeutsche Lautverschiebung and corresponding to the English pile and the Dutch pijler, has as a doublet Pilar, which is, according to its stress pattern, not diphthongized. The same applies to Pilaster, which corresponds to the English pilaster and the Dutch pilaster. Also the word Veilchen from Latin viola shows that stressed ί becomes a diphthong. There are even in German loanwords, with a diphthong and a non-German stress pattern: partita becomes Partei and litanfa Litanei.
17
Bibliography BLISS, A.J. (1969): 'Vowel-Quantity in Middle English: Borrowings from Anglo-Norman' LASS, Roger (1969): Approaches to English historical linguistics. New York etc.: Holt, Rinehart and Winston: 164-207. BOOIJ, G.E. (1977): Dutch Morphology. Lisse: Peter de Ridder. KLUGE, Friedrich & M1TZKA, Walther (1975 2 '): Etymologisches Wörterbuch der Deutschen Sprache. Berlin, New York: Walter de Gruyter. LOEY, A. van (1964 7 ): Schönfelds historische grammatika van het Nederlands. Zutphen: W.J. Thieme. ONION, C.T., with the assistance of G.W.S. FRIEDRICHS & R.W. BURCHFIELD (1966): The Oxford dictionary of English etymology. Oxford: Oxford U.P.. PARTRIDGE, Eric (1958): Origins. A short etymological dictionary of modern English. London: Macmillan. SCHMITT, Alfred (1931): Akzent und Diphthongierung. Heidelberg: Carl Winters. VERWIJS, E., VERDAM, J., STOETT, F.A. a.o. (1885-1941): Middelnederlandsch Woordenboek. 's-Gravenhage: Martinus Nijhoff. 11 vols. VRIES, Jan de (1971): Nederlands etymologisch woordenboek. Leiden: E.J. Brill. WIJK, N. van (1949 2 ): Franck's etymologisch woordenboek. 's-Gravenhage: Martinus Nijhoff. met HAERINGEN, C.B. van (1936): Supplement. 's-Gravenhage: Martinus Nijhoff.
WORTBILDUNGSANALYSE IN DER ARBEITSKETTE MENSCH - M A S C H I N E - MENSCH Friedrich Wenzel
1.
Zur Motivation des Themas
Die wesentliche, sagen wir, historische Leistung der Sprachwissenschaft besteht, etwas vereinfacht ausgedrückt, in folgendem: Sie hat die unendliche Zahl sprachlicher Einheiten (Sätze) ihrer Individualität entkleidet und sie reduziert auf ein Wörterbuch und ein Verzeichnis von Fügungsregeln. Wörterbuch und Grammatik sind die beiden landläufigen Instrumente, mit denen man einen unbekannten sprachlichen Text auf seinen Inhalt bringt. Jeder, der mit einem Wörterbuch gearbeitet hat, kennt allerdings auch seinen wesentlichen Mangel: Es ist unvollständig. Dieser Mangel beruht nicht nur darauf, daß der jeweilige Verfasser seinem Wörterbuch nur eine beschränkte Zahl von Texten zugrunde gelegt hat. Die Unvollständigkeit des Wörterbuchs ist prinzipieller Natur: In das syntaktische System einer Sprache, innerhalb dessen aus Wörtern Sätze gebildet werden, ist ein zweites System eingelagert, innerhalb dessen aus noch kleineren sprachlichen Einheiten, Morphemen, Wörter gebildet werden. Diese Aussage in die analytische Richtung gewendet, lautet so: Was für den Satz gilt, gilt auch noch einmal für das Wort; der Wortschatz einer Sprache läßt sich reduzieren auf ein "Wörterbuch", das ist in diesem Fall eine Liste von Morphemen, und ein Verzeichnis von Fügungsregeln. Zur Verdeutlichung der Zahlenverhältnisse sind in der folgenden Tabelle für die einzelnen sprachlichen Einheiten Größenordnungen in Form von Zehnerpotenzen angegeben:
Einheiten
Sätze
Anzahl
>10 9
Wortformen *10 6
Lexeme «105
Morpheme *10 3
Diese Erkenntnisse sind,jedenfalls in ihren Grundlagen,vielleicht so alt wie das älteste Wörterbuch; dennoch hat man aus dem System der Wortbildung bisher keinen Nutzen gezogen, der dem vergleichbar wäre, den man aus dem System der Syntax gezogen hat. Es gibt eini-
20
ge vielversprechende Ansätze im Bereich der maschinellen Sprachübersetzung; von kompletten, in der Praxis einsetzbaren Lösungen ist man jedoch noch ein gutes Stück entfernt. Das hat Gründe, die z. T. auf der Hand liegen: Zum einen ist die Wortbildung eine noch junge Disziplin der Sprachwissenschaft. Zum anderen erschließt sich ihr Objekt nicht so leicht wie das der Syntax. Das wiederum hat u. a. einen ganz banalen Grund: Die Elemente des Wortes sind im Gegensatz zu denen des Satzes nicht evident. Es gibt keine den Zeichen für Wortgrenzen entsprechende Zeichen für Morphemgrenzen. Die verfügbaren Quellen, aus denen man das Material für die Analyse der Wortbildung zu schöpfen, so muß man schon sagen, genötigt ist, sind Wörterbücher in üblicher alphabetischer Sortierung und vielleicht rückläufige Wörterbücher. Gut, um die Distribution front- bzw. endständiger Morpheme zu untersuchen, aber auch nicht mehr. Für die Bearbeitung eines Wortschatzes von innen nach außen, also beginnend mit der kleinsten Ableitungsbasis, entsprechend der Genese der Wörter, oder für die Bearbeitung etwa der Fragestellung, welche Derivate von Stämmen bestimmter Klasse bzw. von Stämmen, die durch ein bestimmtes Formans gekennzeichnet sind, gebildet werden können, fehlt ein geeignet strukturiertes Quellenmaterial. An dieser Stelle drängt sich die Idee a u f , den Computer zu Hilfe zu nehmen, ihm die Kärrnerarbeit des morphologischen Segmentierens und Sortierens zu übertragen. Ich möchte im folgenden ein Verfahren der maschinellen morphologischen Segmentierung von Wörtern (d.h. ihrer Zerlegung in Morpheme) vorstellen und im weiteren anhand einiger Sortierformen Möglichkeiten aufweisen, wie der mit der Wortbildungsanalyse bef a ß t e Linguist sich das segmentierte Wortmaterial für verschiedene Fragestellungen aufbereiten kann. 2. 2.0.
Maschinelle morphologische Segmentierung Vorbemerkung
Verschiedene denkbare Verfahrensansätze hier zu diskutieren, würde den gegebenen Rahmen sprengen. Dargestellt werden sollen die Grundzüge eines konkreten Verfahrens, mit dem die morphologische Segmentierung eines größeren Wortschatzes erfolgreich durchgeführt
21
wurde. Das Verfahren wurde an der FU Berlin im Rahmen des Forschungsprojektes "Russische chemische Fachsprache" - also für das Russische entwickelt.
Aus der nachfolgenden Darlegung der lingu-
istischen Voraussetzungen läßt sich jedoch entnehmen, daß das Verfahrensprinzip auch auf andere indoeuropäische Sprachen anwendbar
ist. 2.1.
Minimale linguistische Voraussetzungen
Bevor der Computer für den Linguisten tätig werden kann, muß zuerst der Linguist für den Computer tätig werden. Er muß die Arbeitskette Mensch - Maschine - Mensch, wie es im Titel genannt wurde, eröffnen und das System vorgeben, nach dem der Computer verfahren
soll. (Der Computer zeigt ihm daraufhin,
ob, bzw. in
welchem Maße die linguistische Vorgabe auf die behandelten Objekte zutrifft.) Wir machen für die Aufstellung eines
Segmentierungsalgorithmus
zunächst zwei Voraussetzungen: ( 1 . ) Gegeben ist die allgemeine morphologische Struktur (russischer) Wörter, ausgedrückt in der Formel ( 1 ) in Anlage 1. Wir gewinnen diese Formel durch eine distributioneile Analyse "von
Hand" folgender Art: Morpheme lassen sich aufgrund ihrer
Stellung im Wort in distributive Klassen einteilen. So kommen
Ele-
mente der Klasse P ("Präfixe") nur unmittelbar vor Elementen der Klasse K ("Kernmorpheme") und vor Elementen derselben Klasse (P) vor,
usw. Die Analyse führt
(im Russischen)
zu den in Anlage 1
aufgeführten 6 Klassen mit der in der Strukturformel angegebenen Verteilung. ( 2 . ) Gegeben sind Listen, die jeweils die Elemente einer Morphemklasse umfassen; also eine Präfixliste, eine Liste der Kernmorpheme (Kernliste) usw. 2.2.
Formaler Ansatz einer Segmentierungsstrategie
Die Strukturformel erlaubt folgende Gliederungen der formalen Morphemkette
(russischer) Wörter (siehe die Formeln in Anlage 1 ) :
Gliederung in Außen- und Innenketten Eine linke Außenkette ( L K ) besteht aus einer formalen Präfixkette ( n ( p ) S i O ) . Eine rechte Außenkette (RK) besteht aus einer formalen
22
Suffixkette ( n ( d s ) ^ O ; n ( i s ) S i O ) . Eine Innenkette ( I K ) besteht entweder aus einem Kernmorphem (Formel 2 . 2 ) oder aus einer komplexen Kette (Formel 2 . 1 ) . Gliederung in periodische Ketten (Q) Im Falle einkerniger Wörter repräsentiert Q die gesamte Kette des Wortes. Im Falle mehrkerniger Wörter repräsentiert Q formal äquivalente Teilketten des Wortes, die durch einen Konnektor (c) bzw. eine Fuge voneinander getrennt sind (Formel 3 . 1 ) . Auf der Grundlage dieser formalen Gegebenheiten läßt sich zunächst folgender Rahmen einer Segmentierungsstrategie 1 . ) ist
abstecken:
eine Entscheidung darüber zu t r e f f e n , ob ein Wort aus
einer einzigen formalen Kette Q oder aus mehreren formalen Teilketten Q besteht. 2 . ) ist
letzteres der Fall, so muß das Wort in die Teilketten
Q segmentiert werden. 3 . ) sind die formalen Teilketten Q in die sie
konstituierenden
Morphemketten zu segmentieren. Über die Frage, ob ein Wort aus einer einzigen formalen Kette Q oder aus mehreren formalen Teilketten Q besteht, entscheidet der Inhalt der formalen Kette IK. Zur Gewinnung der Innenkette bietet die Struktur LK—»IK«-RK an, folgendermaßen zu verfahren: Die Außenketten LK und RK werden von links und von rechts elementweise fortschreitend abgebaut, indem der jeweils links bzw. rechts verbleibende Rest der Zeichenkette mit den Elementen der Präfixliste bzw. der Suffixlisten
verglichen wird. Sind alle Präfixe und Suffbe
abgebaut (der weitere Vergleich der Restkette mit den Listen fällt negativ a u s ) , so ist
die Restkette = IK.
Die so gewonnene Innenkette wird nun mit den Elementen der Kernliste verglichen. Fällt der Vergleich negativ aus - Vollständigkeit der Kernliste vorausgesetzt -,
so hat IK eine komplexe
Struktur, es handelt sich also um ein mehrkerniges Wort mit mehreren Teilketten Q. Fällt der Vergleich positiv aus, so besteht das Wort aus einer einzigen Kette Q und die Segmentierung ist
bereits
komplett. Das Verfahren zur Entscheidung über die Struktur der Innenkette besteht also in der Prüfung auf die Äquivalenz der Strukturen LK-· IK«—RK und Q. Anders ausgedrückt: Es wird grundsätzlich zunächst
23
versucht, ein Wort als einkerniges Wort zu segmentieren. Der eben skizzierte Segmentierungsansatz liefert somit im Prinzip bereits das Verfahren zur Segmentierung der formalen Kette Q. Wegen der Probleme, die sich mit der Segmentierung der Außenketten verbinden, müssen wir diesen Gegenstand noch gesondert behandeln. 2.3.
Segmentierung mehrkerniger Wörter in Teilketten Q
Für den Fall, daß der vorausgegangene Vergleich der Innenkette mit den Elementen der Kernliste negativ ausgefallen ist, besteht nun die Aufgabe darin, die resultierende Struktur (Formel 3 . 1 ) in die Teilketten Q zu segmentieren. Im folgenden wird das Verfahren beschrieben, wie es in der Praxis mit Erfolg auf Wörter angewandt wurde, bei denen die Teilketten Q über einen Konnektor (c) verknüpft sind. Da mehrkernige Wörter ohne Konnektor im Russischen nur etwa 0,3 % des Wortschatzes ausmachen, wurden diese Wörter für den praktischen Einsatz des Segmentierungsverfahrens, von Hand segmentiert, in eine Ausnahmeliste aufgenommen. Im Interesse der Anwendbarkeit des Segmentierungsverfahrens auf andere Sprachen werde ich anschließend noch auf Möglichkeiten zur Segmentierung konnektorloser mehrkerniger Wörter eingehen. 2.3.1.
Mehrkernige Wörter mit Konnektor
Die Aufgabe, die Gesamtkette in die Teilketten Q zu segmentieren, besteht zunächst in der Identifizierung der Konnektoren. Als Konnektoren können (im Russischen) zwar nur die Zeichen "o", "e", "i" und "-" auftreten; jedoch kommen diese Zeichen mit Ausnahme von "-" auch und zwar sehr häufig im Zeichenbestand anderer Morphe vor. Identifizierbar sind also zunächst nur potentielle Konnektorpositionen. Die dadurch entstehenden Möglichkeiten der Zerlegung eines Wortes in Teilketten zeigt das Beispiel in Abb. 1 (Anlage 2 ) . Die Entscheidung darüber, ob eine jeweilige Segmentierung in Teilketten zutreffend ist, fällt erst bei der Analyse der Teilketten selbst. Erst wenn alle Teilketten einer jeweiligen Segmentierung als formale Ketten Q segmentierbar sind, wird auch diese Segmentierung in Teilketten akzeptiert. Der Algorithmus zur Segmentierung der formalen Ketten Q wird in Abschnitt 2 . 4 . behandelt, wir wollen ihn für das Folgende kurz Q-Test nennen.
24
Zunächst werden alle potentiellen Konnektorpositionen festgestellt, dann werden, von rechts nach links fortschreitend, Schnittstellen auf die nächstmögliche Konnektorposition vorgerückt. Bei jedem Ansetzen einer Schnittstelle wird die rechts verbleibende Teilkette dem Q-Test unterzogen. Fällt der Q-Test negativ aus, so wird die Schnittstelle auf die nächstmögliche Konnektorposition vorgerückt. Fällt der Q-Test positiv aus (die Teilkette ist in eine Morphemkette der Struktur Q segmentierbar), so wird die Schnittstelle festgehalten und eine weitere Schnittstelle auf die nächstmögliche Konnektorposition gesetzt, usw. Eine zutreffende Segmentierung der Gesamtkette ist dann erreicht, wenn in einem vollständigen Teilungsdurchlauf durch die Kette alle aufeinander folgenden Teilketten als formale Kette Q segmentierbar sind. Da prinzipiell mit heteromorpher Segmentierbarkeit einer Zeichenkette gerechnet werden muß ( d . h . , daß mehrere formal akzeptable Segmentierungen möglich sind, wird das Austesten durch eine erneute Teilung der Gesamtkette auch dann fortgesetzt, wenn bereits eine auf die Struktur der Gesamtkette zutreffende Segmentierung gefunden wurde (vgl. Abb. 1, Anlage 2 ) . 2.3.2.
Mehrkernige Wörter ohne Konnektor
Mehrkernige Wörter ohne Konnektor durchlaufen (falls sie nicht über eine Ausnahmeliste bearbeitet werden) den zuvor beschriebenen Algorithmus ohne Segmentierungsergebnis. Zur Weiterverarbeitung dieser Wörter ist folgendes vorzuschlagen: Sie durchlaufen den Algorithmus zur Zerlegung in Teilketten ein zweites Mal. Dabei entfällt jedoch die Identifizierung potentieller Konnektorpositionen. Die Schnittstellen werden jetzt "mechanisch" gesetzt, wobei als minimale Länge einer Teilkette eine bestimmte Anzahl Zeichen (vorzuschlagen wäre 3) festgelegt ist. Die Logik des Setzens und Versetzens von Schnittstellen und des überprüfens der potentiellen Teilketten auf die Struktur Q ("Q-Test") bleibt die gleiche, wie es durch folgendes Beispiel angedeutet wird: 2. Schnittstelle in 1. Position* 1. Schnittstelle (wird nach positivem Ausgang des Q-Tests festgehalten)
T R Ä N E N IG A S
*wird zeichenweise nach.links vorgesetzt, bis die sich zwischen beiden Schnittstellen ergebende Teilkette zu einem positivem Q-Test führt
25
2.4.
Segmentierung formaler Ketten Q
Die formale Kette Q hat, wie bereits erwähnt, die in Formel 3 . 2 (Anlage 1) aufgeführte S t r u k t u r , Diese Struktur ist äquivalent der Struktur LK—»IK*—RK unter der Voraussetzung, daß die
Innen-
kette ( I K ) nur aus einem Element k besteht. Der anfangs skizzierte Ansatz zur Segmentierung der allgemeinen Struktur LK—»IK«— RK lieferte deshalb für den Fall, daß die Innenkette durch den Vergleich mit den Elementen der Kernliste als ein Wortkern identifiziert werden konnte, im Prinzip bereits die vollständige Segmentierung. Dieser Segmentierungsansatz
soll nun unter der Berück-
sichtigung der mit der Außenkettensegmentierung verbundenen Probleme weiter ausgeführt werden. Der Segmentierungsansatz Rechenprogramm umgesetzt,
würde, in der angeführten Form in ein zu erheblichen Fehlergebnissen führen,
denn er berücksichtigt noch nicht die formale Heteromorphie von Zeichenketten. Die sich dadurch für die Segmentierungsstrategie ergebende Problematik wird an Hand des Beispiels predosuditel'nyj in Abb. 2 (Anlage 2) verdeutlicht. Der Algorithmus zur Segmentierung formaler Ketten Q muß folgende Gegebenheiten berücksichtigen: ( 1 . ) Die Außenkettensegmentierung kann bei einem Wort zu unterschiedlichen Folgen von Morphen f ü h r e n ; diese können zunächst nur als potentielle Außenketten a u f g e f a ß t werden. (2.)
Zwischen potentiellen Außenketten können unterschiedlich
lange Restketten ( I K ) verbleiben; auch diese können zunächst nur als potentielle Ketten aufgefaßt werden, und zwar als kleinste potentielle Innenketten, d. h. (3.)
Elemente potentieller Außenketten können zum Zeichenbe-
stand des Wortkernes gehören. Um bei dieser Sachlage zu einer zutreffenden Segmentierung zu kommen, wird im wesentlichen die Kombination der zwei nachfolgend beschriebenen Mittel eingesetzt: Die Segmentierung in potentielle Ketten und der Zugriff auf Morphemkombinationslisten. 2.4.1.
Segmentierung in potentielle Ketten
Der Algorithmus wird wie bei der Segmentierung in Teilketten, so auch zur Segmentierung formaler Ketten Q wiederum darauf einge-
26
richtet, eine Zeichenfolge zunächst in eine beliebige Zahl potentieller Ketten zu segmentieren. Das ursprünglich skizzierte Grundschema der Segmentierung LK-»IK*-RK bleibt, doch folgen die Segmentierungsschritte dem Prinzip des Graphen in Abb. 2 (Anlage 2 ) . D. h . , für jede Stufe der formalen Außenketten - in der präfixalen Kette also beginnend mit der frontständigen Zeichenfolge werden alle potentiellen Elemente identifiziert. Die in der ersten Stufe ermittelten potentiellen Elemente eröffnen folglich eine entsprechende Zahl potentieller Außenketten. In jeder folgenden Stufe muß bei jeder Kette wiederum mit dem Auftreten mehrerer potentieller Elemente gerechnet werden, mit denen sich die Ketten entsprechend verzweigen. Eine jeweilige potentielle Außenkette bricht ab, wenn der weitere Vergleich der Restkette mit den Elementen der betreffenden Liste negativ ausfällt. Die Feststellung, ob eine potentielle Gesamtkette auf die Struktur Q z u t r i f f t , wird nach dem bereits erwähnten Prinzip vorgenommen, indem die jeweils zwischen zwei potentiellen Außenketten verbleibende Innenkette mit den Elementen der Kernliste verglichen wird. In einer ersten Serie von Vergleichsprozeduren werden die durch Permutation der vollständigen potentiellen Außenketten zu gewinnenden kleinsten Innenketten dem Vergleich unterworfen. Da ein, mehrere oder auch alle Elemente einer potentiellen Außenkette zum Zeichenbestand des Wortkernes gehören können, müssen anschließend die Außenketten von innen her elementweise wieder abgebaut werden und die entsprechend in ihrem Zeichenbestand nach links und/oder rechts erweiterte Innenkette muß jeweils erneut die Vergleichsprozedur durchlaufen. 2.4.2.
Einsatz von Morphemkombinationslisten
Das Mittel, mit dem sich eine starke Einschränkung heteromorpher Segmentierungsergebnisse und zugleich eine beachtliche Rationalisierung des Verfahrens (in bezug auf Rechenzeit) erreichen läßt, besteht in dem Einsatz von Morphemkombinationslisten. Der Algorithmus ist im Prinzip der gleiche, jedoch greift er bei der Außenkettensegmentierung zur Identifizierung von Folgeelementen nicht mehr auf die Listen, die alle Elemente einer Morphemklasse umfassen, zu, sondern auf Kombinationslisten, die nur noch die realiter mit ei-
27
nem vorausgehenden Element kombinierbaren Folgeelemente enthalten. Durch den Einsatz von Kombinationslisten vereinfacht sich in unserem Beispiel predosuditel'nyj das Segmentierungsschema zu dem in Abb. 3 (Anlage 2) dargestellten Bild. In diesem Beispiel liefern die kleinsten potentiellen Innenketten noch keinen positiven Vergleich mit den Elementen der Kernliste. Von den bei dem Abbau der Außenketten entstehenden erweiterten Innenketten liefert als einzige die Innenkette -sud- (= potentielles Präfix -s- + potentielle Innenkette -ud-) einen positiven Vergleich. Diese ist damit als Wortkern identifiziert. Einzige auf die Innenkette -sud- zutreffende linke Außenkette ist die Kette pred-o-. Ebenso verbindet sich mit -sud- auch nur eine rechte Außenkette, nämlich -i-tel'n-yj; es resultiert folglich als einzige Segmentierung der Gesamtkette: pred-o-sud-i-tel'n-yj. Die Erarbeitung der Kombinationslisten ( f ü r Präfixe anhand von Wörterbüchern in üblicher alphabetischer Sortierung und für Suffixe am besten anhand von rückläufigen Wörterbüchern) stellt eine weitere Vorleistung des Linguisten für die Maschine dar. Für das Russische ist das unumgänglich. Bei Anwendung des Segmentierung sverfahrens auf andere Sprachen wäre zu prüfen/ ob in diesen Sprachen das Heteromorphieproblem ähnlich gravierend ist. Es wäre abzuschätzen, welcher Aufwand größer ist, derjenige, die Kombinationslisten zu erstellen, oder derjenige, aus den heteromorphen Segmentierungsergebnissen nachträglich jeweils die zutreffende Segmentierung auszuwählen (was computerunterstützt mit Hilfe eines Bildschirmgerätes geschehen k a n n ) . 2.5.
Algorithmische Umwandlung von Kernallomorphen
Da bei der algorithmischen Umwandlung von Kernallomorphen in stärkerem Maße einzelsprachliche Gegebenheiten zu berücksichtigen sind, soll dieses Thema hier nur gestreift werden. In dem zur Diskussion stehenden Segmentierungsverfahren übernimmt eine Gruppe von Algorithmen ("phonologische Routinen") die Umwandlung präfixal und suffixal bedingter Kernallomorphe. Die Kernliste enthält jeweils nur dasjenige Allomorph, das im Sinne der historischen Phonologie als das primäre anzusehen ist. Unterscheidet sich der aktuelle Kern einer zu segmentierenden Kette von
28 der Form, in der er in der Kernliste vertreten ist,
so wird er
vor dem Vergleich mit den Elementen der Kernliste mittels der phonologischen Routinen in den Listenkern umgewandelt: Wort (segmentiert) pod-voSc'-i-t' o-topl-eni-e pere-dvi-nu-t-yj ob-ras*c-eni-e
aktueller Kern
Listenkern
vosc topi dvi rase
vosk top dvig vrat
Der Listenkern wird zusammen mit dem segmentierten Wort ausgegeben. Er spielt als Leitkern bei der Sortierung der Segmentierungsergebnisse in Wortnester (Gruppen von Wörtern mit gleichem Kernmorphem) eine wichtige Rolle, da er die Zuordnung von Wörtern mit unterschiedlichen Kernallomorphen ermöglicht. 3.
Maschinelle Aufbereitung der Segmentierungsergebnisse
Zum Abschluß sollen in Ausschnitten einige Sortierformen vorgelegt werden (Anlagen 3 und 4) 2 , die als Muster dafür dienen können, wie sich der Linguist das segmentierte Wortmaterial für eine weitergehende intellektuelle Bearbeitung aufbereiten kann. Basis für die Sortierung war eine Magnetplattendatei, in der außer dem russischen Wort in der Ausgangsform und den deutschsprachigen Äquivalenten der Leitkern und die Segmentierung, numerisch verschlüsselt, im festen Byte-Format gespeichert sind. Jedem Morphem ist ein numerischer Kode für die Morphemklasse, der es angehört, zugeschrieben. Ein für die Nutzung der Datei geschriebenes Retrieval- und Sortierprogramm ermöglicht wahlweise die Auswahl und sortierte Ausgabe von Wörtern, die entweder ein bestimmtes Morphem oder aber Elemente einer bestimmten Morphemklasse enthalten. Geben wir etwa als Morphemklasse KL (Kernmorpheme; vorgeordnet sind Leitkerne)an, so erhalten wir im Qutput den gesamten Wortschatz in Form eines Derivationswörterbuches, geordnet in Wortnester. Anlage 3 zeigt ein einzelnes Wortnest, das nach Angabe eines konkreten Morphems (Leitkern VRAT) ausgegeben wurde. Für die Sortierung kann festgelegt werden, ob sie - vom betrachteten Morphem ausgehend - zunächst linksläufig oder zunächst rechtsläufig erfolgen soll. (Wörter mit gleicher linksläufiger Kette werden untereinander noch einmal nach der rechtsläufigen
29
Kette sortiert und umgekehrt.) Die Sortierung schreitet segmentweise nach links bzw. nach rechts voran, wobei erstes Sortiermerkmal die Morphemklasse (die Rangfolge wird vom Benutzer festgelegt) und zweites Sortiermerkmal das Alphabet
ist.
über die Leistung dieses Sortierprinzips gibt das Beispiel in Anlage 4 Aufschluß. Ausgewählt wurden die Wörter mit dem Derivations- bzw. stammbildenden S u f f i x -A- (Klasse D S ) ; Sortierrichtung: Linksläufig; Rangfolge der Morphemklassen:
(= es geht kein
Morphem voraus), P, K, DS, IS, C. Die sortierte Kolonne beginnt mit den Wörtern, bei denen dem -A- ein Element der Klasse K (Kernmorpheme) vorausgeht (Wörter, in denen 0 oder ein Element der Klasse P vorausgehen, gibt es n i c h t ) . Diese Wörter sind untereinander sortiert nach der alphabetischen Abfolge der Kerne. Es folgen die Wörter, bei denen dem -A- ein weiteres Element der Klasse DS vorausgeht - wiederum in der alphabetischen Abfolge, usw. Diese Sortierform ermöglicht die Bearbeitung etwa der Fragestellung: Von welchen Stämmen können Wörter mit dem Formans -Agebildet werden? Eine entsprechende rechtsläufige Sortierung gibt Antwort auf die Fragestellung: Welche Derivate können von Stämmen gebildet werden, die auf das Formans -A- enden? Das Auswahl- und Sortierverfahren liefert das vollständige Wortmaterial, unabhängig davon, an welcher Stelle der Morphemkette des Wortes das betrachtete Element steht. Das Verfahren arbeitet dabei morphemklassenspezifisch, d . h . , wird nach Wörtern mit dem Derivations- bzw. stammbildenden Suffix -A- gesucht, so werden Wörter, in denen -A- Präfix oder Flexionssuffix ist,
übergangen.
Anmerkungen 1
Eine erste Version des Segmentierungsverfahrens ist publiziert in: WENZEL, Friedrich: SPLIT - Ein Verfahren zur maschinellen morphologischen Segmentierung russischer Wörter. München: Sagner, 1973 (Slavistische Beiträge, Bd 72)
2
In den Anlagen 3 und 4 weichen folgende Zeichen von der Bibliothekstransliteration ab: W = z, X = ch, H = £ , 7 = s, 8 = sc, 6 = * ("hartes Z e i c h e n " ) , 5 = ' ("weiches Z e i c h e n " ) , 3 = e, 9 = ju, Q = ja Beim Vortrag wurde eine größere Zahl von Diagrammen und Outputlisten projiziert. Wegen der beschränkten -Seitenzahl der Druckvorlage kann das meiste davon hier nicht wiedergegeben werden. Der Autor bittet den Leser für den dadurch entstandenen Verlust an Anschaulichkeit um Verzeihung.
30 Anlage 1 (1) Allgemeine morphologische Wortstruktur [n(k)-l]· (pd —
k —
dsd —
isd —
c) — pd — k —
dsd —
isd
p
= Element der Klasse P
(Präfixe)
k
- Element der Klasse K
(Kernmorpheme/Wortkerne)
ds
= Element der Klasse DS (Derivations- bzw. stammbildende Suffixe)
is
= Element der Klasse IS (Flexionssuffixe)
c
= Element der Klasse C
n(p) n(ds)? O n(is)ä O f ü r jedes formale Glied pd, dsd, isd
(Konnefctoren/Fuge)
nachgestelltes d = Kette von Elementen der vorstehend angegebenen Klasse isd = Tupel aus Flexionssuffix und Postfix (Reflexiv- bzw. Passivsuffix im Russischen) n
- Anzahl der Elemente der in Klammern angegebenen Klasse
Beispiele: UN ZER
UNZERTRENNBARKEIT
l p
TRENN
l p
l k
l
ds
l
ds
dsd
Pd VERBRENNUNGSWAERME
BAR KEIT
VER
BRENN
l p
l k
UNG
S
l l ds c
WAERM
E
l k
is
l
(2) Gliederung in Außen- und Innenketten ( 2 . 1 ) mehrkernige Wörter k
.
dsd.
_
_
lsd
.
_
IK
( 2 . 2 ) einkernige Wörter dsd —
isd
( 2 . 3 ) allgemeine Form LK
—
IK —
RK
(3) Gliederung in periodische Ketten ( 3 . 1 ) mehrkernige Wörter P d j - 't.3 — dsd.3 — isd. 3
3-1
( 3 . 2 ) einkernige Wörter pd —
k —
dsd —
isd
3-2
Pd,- k i
~
dsd1 — isd1
31
Anlage 2 6.
5.
k.
3.
i
i
1
1
1
0
r o d
O
u g 1 e v o d
2. 1 P
potentiel le Konnektoren
1. 1 d
0
1
, , ,
3
|
t«
|
5
6
l
,
2
1
1J» \lj .
l
|