183 31 21MB
German Pages 336 Year 1968
Académie Tchécoslovaque des Sciences LES M A C H I N E S D A N S LA
LINGUISTIQUE
JANUA LINGUARUM STUDIA
MEMORIAE
N I C O L A I VAN W I J K
DEDICATA
edenda curat
C O R N E L I S H. V A N S C H O O N E V E L D INDIANA
UNIVERSITY
SERIES
MAIOR
XXX
1968 MOUTON THE HAGUE •
PARIS
LES MACHINES DANS LA L I N G U I S T I Q U E C o l l o q u e i n t e r n a t i o n a l sur la m é c a n i s a t i o n et l ' a u t o m a t i o n des recherches l i n g u i s t i q u e s Rédacteur scientifique JITKA
STINDLOVA
Rapporteur ZDENA
SKOUMALOVÂ
1968 ACADEMIA Éditions d e l ' A c a d é m i e T c h é c o s l o v a q u e des Sciences PRAGUE
Rédaction du recueil: Erich Mater, Jitka Stindlovâ (6) ACADEMIA, Éditions de l'Académie Tchécoslovaque des Sciences, Prague, Tchécoslovaquie
Tous droits réservés Aucune partie de ce livre ne peut être reproduite sans une permission écrite d'éditeur
Imprimé en
Tchécoslovaquie
SOMMAIRE
Erich Mater — Jitka S t i n d l o v â , Vorwort Erich Mater — Jitka S t i n d l o v â , Préface COLLOQUE SUR LA MÉCANISATION ET L'AUTOMATION DES RECHERCHES LINGUISTIQUES CONSACRÉ SPÉCIALEMENT À LA LEXICOGRAPHIE ET À LA LEXICOLOGIE — PRAGUE Programme Participants Rohuslav H a v r â n e k , Inauguration FrantiSek Danes, Inauguration L E S RAPPORTS D'INTRODUCTION Roberto Bu s a S. J., Antonio Zampolli, Centre pour 1'Automation de l'Analyse Linguistique (C.A.A.L.), Gallarate Arthur B o d s o n , Laboratoire d'Analyse statistique des Langues anciennes de l'Université de Liège (L.A.S.L.A.) Roy Wisbey, M. F. B o t t , Literary and Linguistic Computing Centre, Cambridge Felicien de T o l l e n a e r e , Le Dictionnaire National Néerlandais, Leiden . . . . Bernard Q u e m a da, Centre d'Étude du Vocabulaire Français, Laboratoire d'Analyse Lexicologique de Faculté des Lettres et Sciences Humaines de Besançon L. M. C. J . S i c k i n g , Centre de la Recherche sur le Traitement Automatique de l'Information, Amsterdam Mario Alinei, The Mechanolinguistic Center of the Italian Institute at the University of Utrecht (CMLIU) Valentina I. P e r e b e j n o s , An Information Survey of Work Performed by the Group of Structural and Mathematical Linguistics at A. A. Potebnya's Linguistic Institute of the Academy of Sciences of the Ukrainian Soviet Socialist Republic, Kiev Sture Allén, Report on Work in Computational Linguistics at the University of Göteborg Erich Mater, Komitee für maschinelle Informationsverarbeitung, Deutsche Akademie der Wissenschaften zu Berlin (DDR) Jitka S t i n d l o v â , Institut de la Langue Tchèque, Académie Tchécoslovaque des Sciences, Prague
7 9
11 13 15 19 21 23 25 35 39 49 51 67 73
75 77 S3 90
5
ANALYSE DU TEXTE
93
Mario Alinei, Lexical, Grammatical and Statistical Indexing of Italian Texts with the Help of Punched Card Machines at the University of Utrecht . . 95 E v a H a j i c o v â , Jarmila P a n e v o v â , Some Expérience with the Use of Punched Card Machines for Linguistic Analysis 109 Arthur B o d s o n , Le programme d'analyse automatique du latin, Traitements statistiques et questions de la fréquence 117 TRAITEMENT STATISTIQUE ET QUESTIONS DE LA FRÉQUENCE
131
Marie T è s i t e l o v â , Über die morphologische Homonymie (Homographie) vom Standpunkt der Textanalyse 133 Roberto B u s a S. J., Traitement des mots d'une fréquence extrême 137 Bernard Quemada, L'inventaire statistique de l'allemand parlé 143 PHONOLOGIE, GRAPHÉMATIQUE, CRITIQUE TEXTUELLE . . . .
157
Antonio Zampolli, Recherche statistique sur la composition phonologique de la langue italienne exécutée avec un système IBM 159 Erich Mater, Problems of Mechanized Text Critique 177 Louis D e l a t t e , A propos d'une concordance 189 LES
PROJETS
LEXICOGRAPHIQUES
Aldo Duro, L'emploi des moyens électroniques pour la constitution du fichier lexicographique général par l'Accademia della Crusca Mario Alinei, Lessicografia Italiana con l'ausilio di macchine a schede perforate all'Università di Utrecht. Prime esperienze e prospettive Elke T e l l e n b a c h , Margot Blumrich, Die Anwendung von Lochkarten in Wörterbuch der deutschen Gegenwartssprache Jitka S t i n d l o v â , Le Dictionnaire de la langue tchèque littéraire et l'inscription de ses entrées et leurs caractéristiques sur les cartes et la bande perforées pour les machines à traiter les informations Jitka S t i n d l o v â , Caractéristiques syntaxiques des verbes Roberto B u s a S. J., Un lexique latin électronique Erich Mater, A Methodical Problem of Mechanising Lexicography QUESTIONS TECHNIQUES Roberto B u s a S. J., Erreurs humaines dans la préparation de l'input pour ordinateurs • Aldo Duro, La technique de dépouillement xérographique employée par l'Académie de la Crusca Karel Yrâna, Coopérateur à transfluxors YAKUS TK 1 Bernard Quemada, Essai de mécanisation de la bibliographie linguistique française Bibliographie
6
199 201 221 227 235 243 251 271 274 279 285 29 301 313
VORWORT
Die Tschechoslowakische Akademie der Wissenschaften zu Prag und die Deutsche Akademie der Wissenschaften zu Berlin veranstalteten gemeinsam vom 7. bis 11. 6. 1966 in Prag die Internationale Konsultation von Spezialisten der maschinellen Lexikographie und Lexikologie. Zu diesem Kolloquium wurden nur solche Kollegen eingeladen, die bereits über eigene Rechenanlagen für lexikographische Zwecke verfügen oder deren Vorarbeiten für lexikographische Probleme mit Hilfe von Maschinen bereits abgeschlossen sind. Damit sollte erreicht werden, daß nur Spezialfragen des engeren Fachgebietes im kleinen Kreis erörtert werden können und somit eine konzentrierte, fruchtbare Diskussion ermöglicht wird. Jeder Teilnehmer war vor der Tagung gebeten worden, einen kurzen Uberblick über das Gesamtgebiet seiner Arbeiten zu geben. Außerdem wurde um Referate zu den Spezialthemen 1. Textanalyse, 2. Sprachstatistik und Frequenz, 3. Phonologie, Graphematik und methodische Probleme, 4. Lexikographische und lexikologische Vorhaben, 5. Technische, bibliographische und terminologische Fragen gebeten. Probleme des verwandten Gebietes „automatische Sprachübersetzung" wurden von der Tagung ausgeschlossen — soweit sie nicht eines der Spezialthemen eng berühren — weil diese Disziplin über den gesteckten Themenkreis hinausführen würde. Mit Rücksicht auf das große Interesse, das diese Tagung in der wissenschaflichen Öffentlichkeit fand, legen wir die Referate sowie die meisten Materialien gedruckt vor. Die sachgerechte Anordnung der einzelnen Vorträge bereitete uns viel Kopfzerbrechen, da sich oft mehrere Probleme überschneiden. Wir entschlossen uns schließlich, die Referate in derjenigen Reihenfolge anzuordnen, in der sie auf der Tagung vorgetragen wurden. In Einzelfällen waren geringfügige Umstellungen erforderlich. Auch werden solche Vorträge, die auf der Tagung wegen Zeitmangel gekürzt werden mußten, hier in ihrem vollen Text wiedergegeben. Allerdings ist es nicht möglich, die überaus fruchtbaren Diskussionsbeiträge mit abzudrucken, weil dann dieser Band den vielfachen Umfang des bisherigen annehmen würde. Diesem Prinzip 7
fielen auch Diskussionsbeiträge zum Opfer, die den Charakter eines selbständigen Referates haben. Auch der Überblick über das Gesamtgebiet seiner Arbeiten, den Professor A. Duro am ersten Tage ohne Manuskript vortrug, ist hier nicht enthalten, da er eine Kurzfassung seiner Referate der folgenden Tage darstellt. Frau Perebeinos, die Herren Alinei, Dellatte, Horecky und Kohout konnten an dem Kolloquium leider nicht teilnehmen. Ihre Vorträge lagen uns jedoch vor und sind selbstverständlich mit gedruckt worden. Von dem „Centre de Recherche pour un Trésor de la Langue française" in Nancy, das wir ebenfalls eingeladen hatten, erhielten wir keine Antwort, so daß es auf dieser Tagung nicht vertreten war Auch waren uns zu diesem Zeitpunkt die sehr interessanten Untersuchungen von Andrjuschtschenko, Moskau (Laboratoria strukturnoi tipologii i linguostatistiki), noch nicht bekannt, so daß er leider keine Einladung erhielt. Unser Dank gilt den leitenden Herren der Tschechoslowakischen und der Deutschen Akademie der Wissenschaften, den Herren Professoren Havrânek, Danes, Rienäcker und Hartke, die uns die Durchführung dieser Tagung ermöglichten, ferner den Referenten, die uns ihre Manuskripte zum Abdruck überließen, sowie allen Teilnehmern, die durch ihre auf hohem Niveau vorgetragenen Diskussionsbeiträge zum Gelingen dieser Tagung beitrugen. Für die Tschechoslowakische AJcademie der Wissenschaften zu Prag J Stindlovâ
8
Für die Deutsche Akademie der Wissenschaften zu Berlin E. Mater
PRÉFACE
L'Académie Tchécoslovaque des Sciences à Prague et l'Académie Allemande des Sciences à Berlin ont organisé, en commun, un Colloque international de spécialistes, attachés à la lexicographie et à la lexicologie mécanographiées, qui a eu lieu à Prague du 7 au 11 juin 1966. L'invitation au Colloque n'avait été adressée qu'aux collègues qui disposaient déjà de leurs propres laboratoires lexicographiques, ou avaient déjà achevés les préparatifs respectifs. Les organisateurs s'étaient proposé, en effet, de borner les discussions aux points intéressant spécialement la mécanographie linguistique, pour en assurer le succès et arriver à des conclusions concrètes. A la veille du Colloque, chacun des participants avait été prié de donner, le premier jour, une idée générale de travaux entrepris dans son laboratoire, et de présenter, autant que possible, des rapports relatifs aux thèmes suivants: 1. analyse du texte; 2. statistiques et fréquence; 3. phonologie, graphématique et méthodes; 4. programmes lexicographiques et lexicologiques; 5. technique, bibliographie et terminologie. Les problèmes intéressant la traduction automatique avaient été délibérément laissés de côté, à moins de ne pouvoir être séparés des thèmes prévus, pour ne pas élargir démesurément le programme du Colloque. L'intérêt qui a été témoigné par le public scientifique aux rapports présentés au Colloque nous a conduit à en faire paraître les documents sous forme imprimée. L'organisation de la présente brochure a donné beaucoup à penser, du fait que les rapports concernaient le plus souvent plusieurs problèmes. Les rédacteurs se sont finalement décidés à adopter l'ordre dans lequel les rapports avaient été présentés au Colloque; les modifications qui leur ont paru inévitables, sont minimes. En outre, on a fait reproduire dans la brochure les textes complets de rapports qui n'avaient pas pu être lus au Colloque, faute de temps. De l'autre côté, on ne saurait faire imprimer les contribu9
tions présentées par les participants au cours de débats, si fécondes qu'elles soient, sans élargir outre mesure le volume des textes. Malheureusement, ce principe a dû être appliqué également aux contributions qui avaient, somme toute, le caractère d'un rapport. La brochure ne contient non plus la lecture d'introduction de M. le Professeur A. Duro, comme elle résume au fond les rapports que l'auteur a présentés les jours suivants. Nous regrettons que Mme Perebeinos et MM. Alinei, Dellatte, Horecky et Kohout n'avaient pas pu participer à nos discussions. Il va sans dire toutefois que les rapports qu'ils avaient aimablement mis à notre disposition, ont été imprimés dans la brochure. Aucune réponse à notre invitation n'est venue de la part du Centre de Recherche pour un Trésor de la Langue française à Nancy; c'est pourquoi le Centre ne figure sous aucune forme dans notre brochure. A ce moment, nous n'avons encore eu aucune renseignement sur les intéressantes études de M. Andriouchtchenko de Moscou (Laboratoria strukturnoi tipologii i linguostatistiki), de sorte qu'il n'a pas été invité à nos discussions. Nous remercions sincèrement Messieurs les Professeurs Havrânek, Danes, Hartke et Rienâcker de l'Académie Tchécoslovaque et de l'Académie Allemande, de la bienveillante attention qu'ils ont donnée au Colloque, aussi bien que tout ceux qui ont mis leurs rapports à notre disposition aux fins de la présente recueil, et finalement tous les collègues qui avaient contribué aux discussions et au succès du Colloque. Académie Tchécoslovaque des Sciences: Jitka Stindlovâ
10
Académie Allemande des Sciences: Erich Mater
COLLOQUE SUR LA MÉCANISATION ET L'AUTOMATION DES RECHERCHES LINGUISTIQUES CONSACRÉ SPÉCIALEMENT À LA LEXICOGRAPHIE ET À LA LEXICOLOGIE PRAGUE
PROGRAMME
Mardi 7 Juin Inauguration — Bohuslav Havrânek Président Frantisele Danes Roberto Busa S. J., Centro per l'Automazione dell'Analisi Linguistica, Gallarate Arthur Bodson, Laboratoire d'Analyse statistique des Langues anciennes, Liège Roy Wïsbey, Literary and Linguistic Computing Centre, Cambridge Président Josef Vachek Bernard Quemada, Centre d'Étude du Vocabulaire Français, Besançon Felicien de Tollenaere, Woordenboek der Nederlandsche Taal, Leiden L. M. C. J. Sicking, Centre de la Recherche sur le Traitement Automatique de l'Information, Amsterdam Aldo Duro, Vocabolario della Lingua Italiana, Accademia della Crusca, Firenze Mario Alinei, Istituto Italiano dell' Università di Utrecht, Centro lessicografico, Utrecht Sture Allén, Forskningsgruppen för modem svenska, Göteborg Erich Mater, Komitee für maschinelle Informationsverarbeitung, Berlin Jitka Stindlovâ, Üstav pro jazyk ceskfi, CSAY, Praha Mercredi 8 Juin Président Bernard Quemada Analyse du texte Traitements statistiques et questions de la fréquence Président Felicien de Tollenaere Phonologie, graphématique et expériences dans la sphère des méthodes Jeudi 9 Juin Président Roberto Busa S. J. Projets lexicographiques et lexicologiques 13
Président Aldo Duro Questions de la méthodologie Vendredi
10
Juin
Président Roy Wisbey Questions techniques, littérature et documents respectifs, questions de la terminologie
PARTICIPANTS
A l l é n Sture, dr. Forskningsgruppen för modera svenska, Göteborgs universitet, Lundgrensgatan 7, Goteborg S, Sverige B o d s o n Arthur Laboratoire d'Analyse statistique des Langues anciennes (L.A.S.L.A.) de l'Université de Liège, 2, rue Charles Magnette, Liège, Belgique B o s â k Jân Ûstav slovenského jazyka SAV, Klemensova 27, Bratislava, CSSR Padre B u s a Roberto, S. J. Directeur de Centro per l'Automazione dell'Analisi Linguistica, Via G. Ferraris 2, Gallarate (Varese), Italia Directeur de l'Index Thomisticus, Via Fabio Filzi 28, Pisa, Italia D a n e s Frantisek, doc., CSc. Directeur de Ûstav pro jazyk cesky CSAV, Letenskâ 4, Praha 1, CSSR D e R i d d e r Peter C/O Mouton & Co., P. 0 . Box 1132, The Hague, Nederland D u r o Aldo, prof. dr. Directeur de rédaction du Vocabolario della lingua Italiana, Accademia della Crusca, Piazza dei Giudici 1, Firenze, Italia G e d e o n Rudolf Üstav slovenského jazyka SAV, Klemensova 27, Bratislava, CSSR G r i g o r j e v Viktor Petrovic Institut russkogo jazyka, Volchonka 18/2, Moskva G-19, SSSR H a j i c o v â Eva katedra lingvistiky, filosofickâ fakulta Karlovy university, nâm. Krasnoarmejcû 2, Praha 1, CSSR 15
H a v r â n e k Bohuslav, akad. Ûstav pro jazyk cesky CSAV, Letenskâ 4, Praha 1, CSSR K e l e m e n Jôzsef Magyar Tudomânyos Akademia, Nyelvtudomânyi Intézete, Szalay ut. 10—14, Budapest V, Hungaria M a t e r Barbara Arbeitsstelle für Automatische Übersetzung DAW, Mohrenstr 39, 108 Berlin, DDR M a t e r Erich, Dr Leiter des Komitee für maschinelle Informationsverarbeitung DAW, Leipziger Str 3/4, 108 Berlin W 1, DDR P a l a Karel katedra ceského jazyka filosofiçké fakulty University J E. Purkynë, Arna Novâka 1, Brno, CSSR P a n e v o v â Jarmila lingvistickâ skupina Centra numerické matematiky MFF KU, Malostranské nâm. 25, Praha 1, CSSR Q u e m a d a Bernard, prof. dr Centre d'Étude du Vocabulaire Français, Université de Besançon, 47 rue Mégevand, 25-Besançon, France S i c k i n g L. M. C. J Centre de la Recherche sur le Traitement Automatique de l'Information, 6, Stadhouderskade, Amsterdam, Nederland S t i n d l o v â Jitka, CSc. Ûstav pro jazyk cesky CSAV, Valdstejnskâ 14, Praha 1, CSSR T e l l e n b a c h Elke Institut für die deutsche Sprache und' Literatur, Otto Nuschke Straße 22—23, Berlin W 8, DDR T ë s i t e l o v â Marie, CSc. Ûstav pro jazyk cesky CSAV, Letenskâ 4, Praha 1, CSSR T o l l e n a e r e Felicien de, prof. dr Rédacteur Woordenboek der Nederlandsche Taal, Rapenburg 68, Leiden, Nederland V a c h e k Josef, prof. DrSc. Üstav pro jazyk cesky CSAV, Letenskâ 4, Praha 1, CSSR W i s b e y Roy, prof. Downing College, Cambridge 16
Literary and Linguistic Computing Centre, 2, Sidgwick Avenue, Cambridge, England Z a m p o l l i Antonio Centro nazionale universitario di calcolo elettronico, Via S. Maria 36, Pisa, Italia Z â v a d a Jaroslav Üstav pro jazyk ôesky CSAV, Valdstejnskâ 14, Praha 1, CSSR Les autres hôtes des Instituts de l'Académie Tchécoslovaque des Sciences.
INAUGURATION
BOHUSLAV HAVRÂNEK
Mesdames et Messieurs, J'ai l'honneur de vous saluer tous au nom de l'Académie Tchécoslovaque des Sciences à Prague et de l'Académie Allemande des Sciences à Berlin, organisations qui ont convoqué le Colloque que j'ai le plaisir d'inaugurer. À nos chers confrères étrangers, j'adresse en même temps mes souhaits personnels les plus cordiaux d'un séjour agréable dans notre capitale et dans notre pays. Je ne doute pas que le Colloque qui commence pourra se vanter de résultats féconds en général, et qu'il contribuera essentiellement aux travaux que nous nous proposons d'entreprendre dans l'Institut de la Langue Tchèque. Pour ma part, j'apprécie hautement l'immense intérêt de la mécanisation et de l'automation appliquées à la linguistique, aussi bien que d'importants progrès que les nouvelles méthodes mécanographiques ont déjà pu enregistrer dans l'étude des langues et dans l'établissement de la documentation. J'ai connu personnellement combien de travail, de temps et de moyens économiques il fallait jadis affecter à la mise au point d'une vaste documentation linguistique qui sera toujours la base cardinale et l'aide sûr de toute recherche théorique. Il suffit de rappeler, dans cet ordre d'idées, que les fichiers lexicographiques de notre Institut, qui se chiffrent à l'heure actuelle à plus de onze millions de titres, remontent jusqu'à l'année 1911 et que, pour ainsi dire, je reste moi-même le témoin vivant des jours qui ont vu la naissance de cettes cartes, écrites à la main au début, puis sur la machine à écrire et finalement à l'aide de multiplicateurs. Malgré les bons services que nous a rendu un tel fichier, fichier classé dans l'ordre alphabétique, il ne pouvait pas se passer de certains inconvénients sérieux, son applicabilité à un seul but et son volume restreint. Les nouvelles méthodes de mécanisation et d'automation sont d'une importance quasi révolutionnaire pour les travaux préparatoires. Elles permettent d'obtenir une documentation dont l'emploi est multiple, d'une part, et qui peut être incomparablement plus riche, de l'autre. Le résultat en est non seulement une simplification poussée des procédés opératoires, 19
mais aussi, et c'est essentiel, une mise à profit infiniment plus productive de la documentation disponible, aux fins de la description de la langue dans le domaine grammatical et lexicographique, ainsi que toute sorte de travaux qui se rattachent à la linguistique quantitative, sans parler de l'approfondissement de la base théorique que ces nouvelles méthodes permettent d'achever. On ne saurait assez souligner les vastes perspectives qui s'offrent à l'application des procédés mécanographiques aux études linguistiques, mais il n'en est pas moins vrai que pour ce moment leur emploi n'en est qu'à ses débuts. C'est pourquoi l'échange de notions et d'expériences, se réalisant de préférence sous forme de contacts personnels et de discussions, est dans ce stade d'une importance inapréciable. À mon avis, c'est là l'idée essentielle de notre Colloque, au point de vue théorique aussi bien que pratique. Pour conclure, je prends la liberté de vous présenter Madame Stindlovâ, une propagandiste fervente de l'application des méthodes mécanographiques à la lingustique chez nous qui vient de fonder, au sein de notre Institut, un laboratoire respectif. Je ne saurais me refuser le plaisir de m'adresser à ce propos également à Monsieur Busa, directeur du „Centro per l'Automazione dell'Analisi Linguistica" à Gallarate en Italie, organisateur et pionnier de la mécanisation et de l'automation appliquées à l'étude de la langue, et parallèlement aussi à Monsieur Quemada, directeur du Centre d'Étude du Vocabulaire Français à Besançon en France. Nous les considérons comme les véritables patrons du laboratoire pragois, et n'avons pas de mots assez chaleureux pour remercier de l'assistance qu'ils ont prêtée, et prêtent toujours, à nos premiers pas dans une sphère qui leur est déjà familière. Meine Damen und Herren, erlauben Sie mir zum Schluß noch unsere lieben Gäste, die Vertreter der DAW herzlich zu begrüßen. Es sind Frau Teilenbach aus dem Institut der deutschen Sprache und Literatur und Herr Erich Mater, Leiter des Komitee für maschinelle Informationsverarbeitung. Sie sind nicht nur unsere Gäste, sondern auch unsere Gastgeber, da die DAW an diesem Kolloquium mit unserer TschAW zusammen gearbeitet und es organisiert hat. Ich danke Ihnen und der DAW für ihre Hilfe und gute und grundsätzliche Zusammenarbeit. Noch einmal möchte ich alle Teilnehmer herzlich willkommen heißen und wünsche Ihnen und Ihrer Arbeit die besten Erfolge. Mesdames et Messieurs, soyez donc bienvenus tous — et beaucoup de réussite! 20
INAUGURATION
FRANTlSEK DANES
Ladies and gentlemen, I am very pleased indeed that I may welcome you to this colloquium on behalf of the Institute of the Czech Language of the Czechoslovak Academy of Sciences. We were gratified by the unexpectedly great interest raised by our intention to bring together those who are intensely working, all over Europe, in the field of mechanolinguistic problems.The fact that so many of you have come to this colloquium only endorses our belief that the said problems are not only topical, but that it is exactly international cooperation and discussion which are eminently capable of solving them and of ensuring lasting progress in this new and important domain of our science. As you have probably learned from our colleague Dr. Stindlova (whom I certainly need not introduce to you, as she is the "spiritus agens" of the whole business), this Institute is just going to launch its mechanolinguistic laboratory; and we find it most encouraging to be able to open its activities in profiting from the experience obtained from this international gathering.
21
LES RAPPORTS D'INTRODUCTION
CENTRE POUR L'AUTOMATION DE L'ANALYSE LINGUISTIQUE (C.A.A.L.), GALLARATE
ROBERTO BUSA S. J., ANTONIO ZAMPOLLI
1. Le domaine de nos recherches. 1.1. Le domaine de nos recherches comprend 9 langages en 4 alphabets aussi bien »input« que »output«: les langues latine, italienne, allemande et anglaise en alphabet latin; les langues hébraïque, araméenne et nabathéenne en alphabet hébraïque, la langue grecque en alphabet grec et récemment la langue russe en alphabet cyrillique. 1.2.1. En latin notre programme comprend: — les œuvres complètes de Saint Thomas d'Aquin, qui est notre travail principal: 1.700.000 lignes — un opuscule de Saint Bernard de Clairvaux: 2.000 lignes — la Bible, édition de la Vulgate: 100.000 lignes — libri quattuor »Sententiarum« de Pierre Lombard: 30.000 lignes — quelques œuvres de Boèce: 7.000 lignes — »Liber de Causis«: 1.000 lignes — le »Lexicon Totius Latinitatis« de Forcellini: 90.000 lemmes — le »Thesaurus Linguae Latinae«: 150.000 lemmes — les œuvres complètes de Sénèque pour l'Université de Padova: 50.000 lignes 1.2.2. En italien: — »Testi Antichi Italiani« édition Ugolini: 40.000 mots — les recherches lexicales et phonétiques du Dr. Antonio Zampolli sur un drame contemporain: 20.000 mots et 100.000 phonèmes. 1.2.3. En allemand: — I. Kant: Prolegomena zu einer künftigen Metaphysik: 45.000 mots. — J. W. Goethe: Farbenlehre Bd. 3, pour l'Université de Tübingen: 50.000 mots 1.2.4. En grec: — les œuvres complètes d'Aristote: 130.000 lignes. 1.2.5. En anglais: — Nuclear Physic Abstracts, etc., pour l'Euratom: 30.000 lignes. 1.2.6. En hébreu (en araméenne et en nabathéenne): — Dead Sea Scrolls: 50.000 mots — Zorell: Lexicon Hebraicum: 9.000 lemmes 25
1.2.7. En russe: — des articles scientifiques pour l'Euratom: à peine commencé. 1.3. S. Bernard, Testi Antichi Italiani, Kant, Goethe: sont déjà prêts entièrement. Les textes de Qumran: presque entièrement. La Yulgate et Forcellini: sont déjà perforés. Pierre Lomb.: Sénèque, T. L. L., Aristote: sont seulement commencés. Boèce et L. de Causis: ne sont pas encore commencés. 1.4. Vous serez étonnés d'apprendre que rien encore n'a été publié: ceci est dû principalement au fait que nous sommes terriblement occupés à terminer l'Index Thomisticus. Notre travail concernant l'Index Thomisticus touche maintenant presque à sa fin, comme nous le verrons plus loin. 2. 2.1.
2.2.
2.3.
2.4. 26
Les c a r a c t é r i s t i q u e s de nos r e c h e r c h e s Notre spécialisation couvre deux phases seulement de l'automation des recherches lingustiques: a) la transcription de textes naturels, à partir du livre imprimé, sur bande magnétique en vue d'élaborations électroniques: et ceci pour des textes traitant n'importe quel sujet, en toute langue ou alphabet b) le premier recensement ou inventaire intégral des facteurs linguistiques, de quelque manière qu'ils soient représentés dans les textes naturels: c'est-à-dire la compilation d'indices et de concordances de mots, de morphèmes, de graphèmes, de syntagmes, de fréquences, etc Il faut remarquer que ces deux fonctions sont primordiales et nécessaires pour n'importe quelle recherche automatisée de linguistique pure ou appliquée: c'est-à-dire aussi bien pour les recherches lexicales ou psychologiques, que pour l'information retrieval ou la traduction automatique. Nous avons l'intention de définir, par l'expérience faite, la méthodologie, les implications, les temps et les coûts nécessaires pour élaborer électroniquement en tant qu'une unité, des textes de plusieurs millions de mots. De ces textes nous recensons tout ce qui s'y trouve, sans aucune exclusion: nous retenons en effet qu'une méthode rigoureuse ne permet de porter des jugements de plus ou moins grande importance sur les faits linguistiques qu'après avoir obtenu la documentation quantitative intégrale de tout ce qui, en réalité, se trouve dans un texte. Enfin notre intention n'est pas de présenter comme résultat de notre travail un fichier où chaque mot serait porté sur une fiche, avec un
2.5.
2.6.
large contexte — (nous avons en effet abandonné ce projet initial, après l'avoir expérimenté sur, environ, 800.000 mots et autant de fiches) —, mais notre intention est de publier en volumes un système d'indices et de concordances, qui sera a) un document objectif et complet du panorama linguistique d'un texte ou d'un auteur, b) un instrument facile à manier pour des recherches ultérieures sur ce texte ou cet auteur De ces quatre caractéristiques fondamentales, en dérivant cinq autres a) la nécessité d'une rédaction précédant la perforation, b) la nécessité de faire la perforation avec le plus grand soin, c) la „lemmatisation" grâce à un „dictionnaire de machine", d) le traitement des mots, dont la fréquence et très élevée, e) la sélection automatique des contextes dans les concordances. Il s'ensuit enfin qu'il nous est absolument nécessaire d'utiliser des ordinateurs électroniques proprement dits et de conserver les machines à cartes perforées seulement comme auxiliaires et pour un usage marginal.
3.
L e s p h a s e s de n o s é l a b o r a t i o n s Pour illustrer plus clairement ces données, j e résumerai d'abord les différentes phases de la préparation de l'Index Thomisticus; puis nous verrons comment nous en avons organisé la présentation finale. 3.1 Mais j e dois tout d'abord exposer dans quel sens nous utilisons les termes de forme, mot et lemme — la forme est, pour nous, un type spécifique de séquence de symboles graphiques, délimitée par des espaces ou par la ponctuation, — les mots sont les occurrences individuelles de chaque forme dans le texte; — le lemme est ce qui, dans les lexiques, représente toutes les formes réunies dans un même paradigme, parce qu'elles sont les différentes flexions d'une même unité graphico-sémantique, — il va de soi que pour les indéclinables, lemme et forme coïncident, — »Lemmatiser« signifie donc, pour nous, attribuer à une forme les codes, en vertu desquels l'ordinateur pourra la réunir, ou pourra en exprimer l'appartenance soit à son lemme, s'il s'agit d'une forme univoque, soit à ses lemmes, s'il s'agit d'une forme homographe. 3.2. Les phases de l'élaboration de l'Index Thomisticus peuvent se résumer de la façon suivante: (H. signifie travail seulement de l'homme; M. seulement de la machine, H.M. travail alterné de l'homme et de la machine) H. 1 pré-édition, 27
H.M. M. M. M. M. M. M.
3.3. 3.4.
3.5.
3.6.
3.7.
28
2. 3. 4. 5. 6. 7. 8.
perforation, transcription sur bande magnétique, »lemmatisation«; tabulation de 40 % des mots, recherche du contexte pour les 60 % restants, triage alphabétique des mots avec contexte, lemmatisation de ces mots grâce au dictionnaire de machine, — liste et concordances des formes que ne comporte pas le dictionnaire de machine, — concordances des homographes à sélectionner, H. 9. lemmatisation de ces formes et sélection de ces homographes, H.M. 10. perforation de ces formes et de ces homographes, révision et transcription sur bande magnétique, M. 11. lemmatisation des mots respectifs, M. 12. réorganisation de tous les mots dans l'ordre du texte, M. 13. distribution de ces mots dans les différentes parties de la section: »concordances«, œuvre par œuvre, M. 14. fusion de ces mots dans une section générale unique: »concordances des œuvres complètes«. Dans le précédente liste des phases de l'élaboration, nous supposons déjà préparés le premier dictionnaire de machine et les programmes de l'ordinateur. Pour la première moitié des œuvres authentiques, les phases de 8 à 11 furent effectuées, œuvre par œuvre, par cycles d'environ 300.000 mots de texte toutes les deux semaines. Mais pour la seconde moitié, notre intention est de: — rechercher le contexte non plus de 60 % des mots, mais seulement des homographes à sélectionner, et des »formes nouvelles«; — effectuer les phases 8—11 non plus œuvre par œuvre, mais en un seul cycle sur tout l'ensemble du reste des œuvres authentiques, puis sur tous l'ensemble des œuvres apocryphes. Au cours des phases 4, 7 et 11, l'ordinateur accumule sur des bandes à part toutes les formes avec leurs codes de lemmatisation et leurs totaux de fréquence, compose ensuite et imprime à partir de ces bandes les différentes parties de la section-indices. Il ne faut pas plus oublier le caractère inévitable et capital de la correction des erreurs qui apparaissent au fur et à mesure: erreurs de mots, erreurs de lemmatisation et par conséquent erreurs dans les. totaux de fréquence. Le Corpus Thomisticum est divisé en deux groupes: a) les œuvres authentiques: environ 8.500.000 mots b) les œuvres (peut-être) apocryphes: environ 1.500.000 mots.
4. 4.1. 4.2.
5. 5.1. 5.2.
La pré-édition Elle consiste pour nous, à lire le texte mot par mot et à y ajouter à la main les signes ou les symboles qui devront être perforés avec les lettres et la ponctuation. Elle comprend: a) corriger les erreurs d'impression du texte b) préciser la référence chaque fois qu'elle change c) caractériser certains symboles et certaines situations graphiques: par exemple, marquer le point qui n'est pas un point final, mais un point d'abréviation d'un mot, ou bien qui représente l'un et l'autre; marquer le tiret qui n'est pas un signe de ponctuation, mais un trait-d'union etc d) spécifier certains types de phrases ou certains types de mots que l'on veut mettre en évidence. Nous appelons »spécificatifs« ces signes spéciaux et, j usqu'à maintenant, nous en avons trois systèmes : — dans l'Index Thomisticus, pour distinguer les phrases principalement selon »l'autenzia«, c'est-à-dire selon l'attribution de paternité: citations littérales, citations selon le sens, références à des titres d'œuvres, etc... — dans les textes de Qumran, principalement selon l'état paléographique: lecture incertaine ou alternative, particularité due au scribe, mot effacé etc... — pour les concordances de Sénèque, également pour le rapport entre les mots du texte et leurs variantes dans l'apparat, afin que variantes et mots du texte figurent ensuite, et naturellement en corrélation, dans les concordances finales e) distinguer les »formules« des »mots«: c'est-à-dire les symboles et les expressions, par exemple arithmétiques ou géométriques, qui ne sont pas des »mots«: ainsi MI et DU qui étaient les nombres romains 1001 et 502, et non le vocatif de meus ni le nominatif pluriel de deus, ou bien AB qui signifiait le segment AB et non la préposition ab. La perforation Bien que nous continuions à perforer sur cartes, nous aussi, sommes convaincus qu'il est préférable pour ce genre de travaux de perforer sur bandes de papier perforé. Mais notre préoccupation essentielle est de perforer avec le plus grand soin: comment réduire les erreurs à une quantité minime et négligeable, puisque sur une grande quantité l'absence totale et complète d'erreurs est une limite aussi irréalisable que souhaitable? Je ferai sur ce sujet un exposé à part. 29
5.3.
6. 6.1. 6.2.
6.3.
6.4.
7. 7.1. 30
J e me bornerai à dire que, une fois le texte perforé, nous le vérifions d'abord à la machine, puis nous l'imprimons (avec l'ordinateur) deux fois de suite, et le confrontons chaque fois avec le document original, en le lisant mot par mot. La transcription de toutes les oeuvres de Saint Thomas sur des cartes perforées à reporter ensuite sur bande magnétique, a nécessité leur lecture au moins six fois mot par mot: deux fois pour la pré-édition, une fois pour la perforation, une fois pour la vérification, deux fois pour le contrôle par la lecture. Lire six fois 1.700.000 lignes de texte — puisque tel en est le nombre dans l'œuvre de Saint Thomas —• équivaut donc à lire une fois 10 millions de lignes. La lemmatisation La lemmatisation, comme je disais, consiste à reconnaître et à codifier ce qui, en elle, est l'unité graphique et en même temps significative. La lemmatisation peut être au niveau du mot ou au niveau de la forme. Pour rester dans les limites de la terminologie AristotelicienneThomiste, je dirai que la lemmatisation au niveau-forme considère les mots comme »termes« de la résolution d'une proposition dans ses éléments. Par contre la lemmatisation au niveau du mot considère des mêmes termes la »suppositio« c'est-à-dire la fonction représentative signifiante de ce terme précisément dans cette proposition. La lemmatisation au niveau du mot ne requiert pas un »dictionnaire de machine« contrairement à la lemmatisation au niveau de la forme. Il est évident que la lemmatisation au niveau du mot demande beaucoup plus de temps que la lemmatisation au niveau de la forme. C'est pourquoi l'analyse linguistique de textes de grande étendue doit être faite automatiquement grâce au dictionnaire de machine. Ou peut peut-être en conclure que la lemmatisation au niveau du mot peutêtre prise en considération seulement comme une des méthodes pour parvenir à constituer un dictionnaire de machine suffisant. J e me permets de proposer qu'un des points de discussion de ce colloque soit la comparaison entre ces deux lemmatisations. Pour ce qui nous concerne, je renvoie à mon exposé sur notre dictionnaire latin de machine, qui contient, en ce moment, 80.000 formes de mots latins, et sur les problèmes, dont il nous impose la solution. J e propose aussi que soit inclus dans les points à discuter la comparaison entre concordances non lemmatisées et concordances lemmatisées. L e c h o i x a u t o m a t i q u e du c o n t e x t e Dès le début, une des principales objections contre la compilation
automatique des concordances fut la suivante: l'ordinateur ne peut pas choisir intelligemment les mots du contexte, car ce travail requiert l'habilité spécifique de l'homme qui compile; et, par conséquent, les contextes découpés automatiquement sur la base de schémas fixes ne sont vraisemblablement pas suffisants. 7.2. Je tiens à remarquer que, dans une concordance, on peut faire l'étude d'une forme ou d'un lemme sur des plans différents: par exemple le but peut-être simplement de reconnaître morphologiquement ou de définir lexicalement une forme ou un lemme; il peut être aussi la recherche doctrinale des concepts dont ce mot est le soutien. 7.3. En tout cas, je soutiens que, pour un mot qui n'est pas un apax, des contextes d'environ 100 positions, c'est-à-dire de dix-douze mots, sont pratiquement et dans leur ensemble toujours suffisants pour une définition lexicale de ce mot, si l'ordinateur a été programmé pour reconnaître les limites des phrases en fonction de la hiérarchie des signes de ponctuation ou des autres situations graphiques. 7.4. Nos programmes, en effet, organisent la délimitation du contexte pour chaque mot de la façon suivante: — l'ordinateur cherche jusqu'à 50 positions — plus ou moins, selon les désirs •— avant le mot et 50 positions après; — dans le cas où la cinquantième position coupe un mot, il cherche à quelle extrémité on peut inclure un mot entier, si l'on ajoute les positions gagnées à l'extrémité opposée en renonçant au mot que la cinquantième position couperait en deux; — en outre, si, avant la cinquantième position, il rencontre un point iinal ou un autre signe équivalent, il ne vas pas au-delà dans ce sens, mais ajoute à l'extrémité opposé les positions qui n'ont pas été utilisées à la première extrémité; — mais si le mot se trouve à l'intérieur d'une citation littérale, l'ordinateur franchit le point final, sans cependant, aller au-delà de la citation, lorsque celle-ci est suffisamment longue pour fournir un contexte entier; — par contre, dans le cas où le mot se trouve entre deux points rapprochés, l'ordinateur franchit le point final ou de droite ou de gauche, si la présence ou l'absence de signes spécificatifs, qu'a le mot, continue seulement à droite ou seulement à gauche; par contre il franchit le point toujours à droit, si la situation est la même des deux côtés, etc Nous avons avec nous des exemples de concordances obtenus avec ce programme, afin que la personne intéressée puisse les examiner. 7.5. Enfin la cohérence et la constance de son caractère systématique plaident en faveur de cette délimitation automatique des contextes: on offre 31
ainsi une documentation parfaitement objective et entièrement à l'abri des fluctuations et de la subjectivité inévitable du choix de l'homme: quand, par exemple, on employait vingt étudiants pour choisir les contextes pour la concordance du même auteur, comment pouvait-on garantir que leurs critères n'aient pas été différents et n'aient pas subi de variations? 8. 8.1.
L a s t r u c t u r e de n o s i n d i c e s e t c o n c o r d a n c e s f i n a l s Les résultats de nos travaux, pour chacune des deux parties (œuvres authentiques et apocryphes), seront publiés, répartis en deux grosses sections: la section-indices et la section-concordances. La section-indices contient la documentation relative aux formes et aux lemmes: elle est donc récapitulative. La section-concordances contient la documentation relative a tous les mots: elle est donc analytique. 8.2. Avant tout on présentera les indices de chaque œuvre particulière (le Corpus Thomisticum en contient 126). Ce sont: 8.2.1. Le laterculum formarum (Fig. 53,54; p. 264—5) qui donnera, par ordre alphabétique: •— toutes les formes rencontrées dans l'œuvre, lemmatisées et codifiées morphologiquement; -— toutes leurs homographes possibles selon Forcellini; — les fréquences absolues de chacune, soit totale, soit détaillée par signes spécificatifs; -— les fréquences proportionnelles; 8.2.2. Le conspeclus lemmatum (Fig. 58; p. 269) qui donnera également et de la même façon, en les divisant en 3 groupes, pour tous les lemmes rappelés par les mots de l'œuvre: — les lemmes dont on aura rencontré au moins une présence effective; — les lemmes représentés seulement par des formes homographes dont la valeur est absente de tout contexte examiné; — les lemmes représentés seulement par des formes homographes sans occurrences, mais dont on n'aura pas même examiné la présence éventuelle, parce que très peu probable; 8.2.3. Le lemmatum formae qui présente, pour chaque lemme, la liste des formes qui le rappelle dans l'œuvre; chacune de ces formes est suivie seulement de la fréquence absolue. 8.3. Pour l'ensemble de toutes les œuvres les indices seront divisés en différents groupes: 8.3.1. Tout d'abord des listes analogues à celle du 8.2 qui représenteront un panorama complet de la terminologie thomiste. 8.3.2. Puis la liste des formes et des lemmes selon les fréquences; des formes par désinences (c'est-à-dire un »index a contrario«) et par codes mor32
phologiques; et la liste de l'homographie des formes et des désinences. 8.3.3. Enfin deux tabulae vocum, une pour les formes, une pour les lemmes; à coté de la colonne réservée aux formes et aux lemmes, on y trouvera autant de colonnes que d'œuvres comprises dans cette partie du »Corpus Thomisticum«; et dans chaque colonne on trouvera le chiffre total des présences de cette forme ou de ce lemme pour chaque œuvre, ainsi que son pourcentage par rapport au total des mots de l'œuvre. Ceci permettera de voir, d'un seul coup d'œil, la répartition des présences de chaque mot dans la succession des différentes œuvres. 8.4. La sectioconcordances contiendra pour chaque forme de mots au moins l'indication de tous les endroits où elle se trouve de la première œuvre à la dernière. Nous aurons donc une concordance unique pour les œuvres complètes, et non a u t a n t de cycles et de séries de concordances qu'il y a d'œuvres: nous ne donnerons pas même pour les œuvres plus importantes une concordance à part. Ainsi la forme connaturaliter, par exemple, sera suivie de tous les passages qui la contiennent, d'abord dans les trois Sommes (in Sent., c. Gentiles, Thfeologiae), puis dans les Quaest. Disput., puis dans les Commentaires (aristotéliens, autres et bibliques), enfin dans les Opuscules. 8.4.1. La section concordance sera divisée en cinq groupes de telle sorte que les mots énumérés dans l'un ne se retrouvent dans aucun des autres. 8.4.2. Les mots se trouvant dans des phrases qui sont des références (par ex. ut dicit Philosophus in 5 Metaph.) seront d'abord réunis dans un index locorum, qui renverra à la seconde partie de ce premier groupe; cette seconde partie renferme, dans un ordre naturellement discontinu, toutes les lignes où se trouvent des références de ce type. Cette documentation servira a celui qui voudrait étudier quels auteurs et quelles œuvres cita Saint Thomas, et avec quelle phraséologie. 8.4.3. Viendront ensuite, par ordre alphabétique et accompagnées de l'index locorum, toutes les phrases où l'A. se cite lui-même (par exemple: u t supra habitum est, u t infra dicetur). 8.4.4. Puis tous les débuts de période que l'A. cite en référence aux diverses parties du texte commenté, comme »incipits«. 8.4.5. Ces trois premières subdivisions de la section concordances ne dépasseront pas, dans la mesure où nous pouvons prévoir, 6 ou 7 pour cent de l'ensemble des mots. 8.4.6. Le groupe suivant par contre contiendra environ 60 °/00 des mots restants. Comme je le montrerai dans un exposé à part, un petit nombre de formes — 600, c'est-à-dire bien moins d'un pour cent — ont des
fréquences si élévées qu'elles totalisent 60 % des mots de l'œuvre. Le souci d'offrir une documentation à la fois intégrale et maniable, nous a menés à réunir ces mots en petits groupes, que nous appelons syntagmes, qui sont présentés par ordre alphabétique et qui sont suivis de l'index locorum, dont j'aurai l'occasion de parler plus en détail. 8.4.7. Le reste des formes, plus de 99 %, qui cependant représentent seulement un peu moins de 40% du texte, sera présenté selon la manière traditionelle des concordances. Tous les contextes (d'environ 100 caractères, c'est-à-dire de 13 à 15 mots, découpés automatiquement par l'ordinateur, comme nous avons dit plus haut) qui contiennent la même forme seront réunis dans l'ordre du texte. Les formes seront ordonnées à l'intérieur de leur lemme, selon la séquence des codes morphologiques. Nous aurons donc une concordance sur forme et non pas directement sur lemme. Nous mettrons en évidence, après la référence de chaque contexte, le code spécifique que le mot en question possédait; de cette manière, si cette phrase fait partie d'une citation littérale ou d'une citation de sens, l'usager en sera informé.
34
LABORATOIRE D'ANALYSE STATISTIQUE DES LANGUES ANCIENNES DE L'UNIVERSITÉ DE LIÈGE (L.A.S.L.A.)
ARTHUR BODSON
J e ne voudrais pas commencer ce rapport sans vous avoir exprimé les regrets de M. le Professeur DELATTE, Directeur du Laboratoire d'Analyse statistique des Langues anciennes de l'Université de Liège (L.A.S.L.A.) que des raisons de santé empêchent de participer à ce colloque. Il a bien voulu me déléguer auprès de vous pour représenter tous les membres de notre équipe. Je tiens à dire que c'est en son nom et au nom de mes collègues que j'ai l'honneur de vous parler. Par ailleurs, le L.A.S.L.A. a pris l'initiative de créer il y a moins d'un an une Organisation Internationale pour l'Étude des Langues anciennes par Ordinateur qui groupe dès à présent plus de 80 chercheurs du monde entier. J'exposerai plus loin les raisons d'être de cette Organisation. J'en signale dès maintenant l'existence parce que j'aurai l'occasion d'y faire allusion au cours de cet exposé. J'en viens à présent aux différents points que les organisateurs de ce colloque nous ont demandé de traiter dans ce rapport introductif et d'abord aux études entreprises dans notre Laboratoire. Le L.A.S.L.A. a été créé il y a cinq ans environ. L'essentiel de notre travail a consisté jusqu'ici à mettre au point les méthodes et les programmes nécessaires à l'analyse et au traitement statistique des textes latins et grecs. Cette mise au point n'a cependant pas été réalisée »in abstracto.«. Dès le début, nous avons choisi pour tâche fondamentale de traiter un auteur latin important, Sénèque le Philosophe. Pourquoi ce choix? D'abord, parce qu'il n'existe encore aucun index de Sénèque. D'autre part, son œuvre pose nombre de problèmes que les méthodes traditionnelles se sont révélées incapables de résoudre et sur lesquels les méthodes statistiques pourraient apporter quelques lumières: problème de la chronologie relative des œuvres, problème d'authenticité pour des textes comme les Tragédies et VApocoloquintose. Nous avons publié jusqu'ici les Indices des trois Consolations ainsi que des relevés et des études statistiques concernant ces trois œuvres. D'autres œuvres de Sénèque sont soit achevées, soit sur le point de l'être, telles les Lettres à Lucilius qui comportent environ 150.000 occurrences. 35
Outre Sénèque, des chercheurs du Laboratoire ont abordé d'autres écrivains. C'est ainsi que Mlle S. GOVAERTS est sur le point de publier dans notre collection un Index du Corpus Tibullianum, que M. P. TOMBEUR y a publié un Index des œuvres de Raoul de Saint-Trond, auteur médiéval, que M. MOITROUX se prépare à publier un Index de Lucrèce. Par ailleurs, la création de l'Organisation Internationale nous a permis d'aider nombre de chercheurs et d'être au courant de leurs travaux. J e n'entrerai pas ici dans le détail de tout ce qui est en train de se faire; la liste en serait trop longue. Nous la tenons cependant à la disposition de ceux que la chose intéresse. J e devrais à présent vous parler de nos points d'intérêt spécifique. J'en ai dit un mot à propos de Sénèque. En ce qui concerne les autres travaux, la diversité des problèmes que posent les différents auteurs est telle qu'il ne m'est guère possible d'entrer dans le détail. J e cite au hasard: problème d'authenticité dans le Corpus Tibullianum, problème du style formulaire chez Lucrèce, problèmes d'ordre pédagogique dans l'étude des auteurs figurant au programme de l'enseignement secondaire etc. etc. Après avoir parlé brièvement de nos études, j'en viens, comme le prévoit le programme, à l'équipement technique dont nous disposons. Toutes nos machines sont de marque IBM. Nous en disposons exclusivement. J e les cite rapidement, en commençant par les machines classiques: — une perforatrice 26 — une calculatrice 602 A pour la référenciation automatique des fichiers et les calculs statistiques — une trieuse statistique 108 — un système d'impression automatique 870 — un second système 870 spécialement conçu à notre intention pour le traitement du grec ancien —• une tabulatrice 447 —- et enfin, un ordinateur 1620 à cartes perforées, doté de mémoires à disques. Le but que nous avons sans cesse poursuivi dans l'acquisition de ce matériel est d'accroître notre autonomie et par suite d'accélérer nos recherches. Outre ces outils-machines, nous disposons d'un certain nombre de programmes d'ordinateur. Tous ces programmes sont écrits en langage SPS (Symbolic Program System) pour un ordinateur IBM 1620 équipé de deux armoires à disques magnétiques. Le plus important de ceux-ci est un programme d'analyse automatique du latin, sur lequel je reviendrai. Mais d'autres programmes ont été mis au point: je songe notamment à celui qui permet l'établissement automatique de Concordances. Par ailleurs, nous envisageons la constitution d'un programme d'analyse automatique morphologique et syntaxique du grec ancien et du français. Dans le domaine de la programmation comme dans celui des machines, 36
nous avons atteint à une autonomie quasi totale, en nous initiant nousmêmes au métier de programmeur. A p r è s ces quelques mots sur l'équipement du L . A . S . L . A . , il me reste à v o u s dire quelles possibilités offre notre Laboratoire dans le domaine de la coopération et de l'échange des expériences. Il y a environ un an, nous rendant compte de l'ampleur sans cesse croissante des recherches menées sur computer dans le seul domaine de la philologie classique, nous avons aperçu les nombreux dangers que présente l'absence de coordination. D ' u n e part, des chercheurs isolés risquent d'entamer parallèlement le traitement des mêmes textes et, pour ce faire, d'affronter seuls des problèmes techniques déjà résolus par ailleurs: il f a u t éviter ces duplications et ces pertes d'énergie. D ' a u t r e part, il importe, si l'on v e u t que les informations soient échangeables entre Laboratoires, que chacun adopte un dessin de carte, un code d'analyse et une série de conventions identiques. P o u r prévenir ces risques, nous avons créé une Organisation Internationale pour l ' É t u d e des Langues anciennes par Ordinateur qui s'adresse, bien sûr, a u x philologues classiques, mais aussi à tous ceux qui traitent des textes sur computer. Certains problèmes et j e dirais même la plupart des problèmes techniques sont en effet communs à toutes les disciplines. J'ai joint au t e x t e de cette communication la documentation qui concerne cette Organisation. Nous avons publié jusqu'ici deux numéros de notre Revue, qui représente notre organe essentiel de liaison. L e L . A . S . L . A . m e t tous ses programmes à la disposition des membres, qui peuvent en outre établir entre eux — et ils l'ont déjà fait — des rapports fructueux. Je voudrais formuler à ce sujet une proposition concrète: nous invitons tous ceux qui traitent les textes sur machines, et en particulier les chercheurs présents à ce colloque, à rejoindre l'Organisation. Elle représente, à l'heure actuelle, le meilleur m o y e n de coordonner les recherches et de bénéficier de l'expérience des autres, car, je le répète, tous les programmes et toute l'éxpérience de chacun sont à la disposition des autres membres. Q u a n t à la mention des langues anciennes qui figure dans l'appellation de l'Organisation, elle s'explique par l'origine de celle-ci mais elle ne signifie nullement que les spécialistes d'autres langues en soient exclus ou y fassent figure de parents pauvres. Des romanistes, des germanistes, des hébraïsants nous ont déjà apporté leur adhésion, car, comme je l'ai déjà dit, la plupart des problèmes techniques nous sont communs. J'ai apporté quelques exemplaires du dernier numéro de notre Revue de manière à vous faire toucher du doigt le fonctionnement de l'Organisation. J e pense avoir ainsi t o u t au moins effleuré les différents points que ce rapport d'introduction devait comporter. J'ai dû m'en tenir à des généralités et je m'en excuse. J'ai préféré, t o u t en disant ce que je crois être l'essentiel, réserver une bonne partie du temps de parole qui m'est imparti à l'exposé de notre dernière réalisation: le programme d'analyse automatique du latin. 37
LITERARY AND LINGUISTIC COMPUTING CENTRE, CAMBRIDGE
ROY WISBEY, M. F. BOTT
The Literary and Linguistic Computing Centre of the University of Cambridge was formally established on the 1st July 1964, but it has taken over and continued work begun several years earlier. I have myself used computers since June 1960 in preparing indexes, concordances and lexicographical material for medieval German texts; my proposals for the present Centre were submitted to the Faculty of Modern and Medieval Languages already in September of that year. As a University Sub-Department, it now provides an inter-Faculty service available to University teaching staff and research students alike. It is financed entirely by University funds and employs a full-time graduate programmer, with three clerical assistants. Programming, tape punching and consultations with users are the responsibility of the Centre, while the University provides free access to its Titan (Atlas II) computer at the Mathematical Laboratory. The equipment of the Centre is notable for its flexibility. This is particularly true of one of its two input-output writer assemblies, an IBM 735 linked by solid state logic to a tape punch (normally 7 channel) and tape reader, with tape duplicating and correction facilities. This machine has a modern Netherlands keyboard selected for the diacritics it provides. Its standard ('golfball') head can be replaced without difficulty by the DanishNorwegian-Swedish, French, Italian, Russian, Spanish or German-Finnish head (see Appendix). For new tape punching in conjunction with these heads it is advisable to convert the keyboard itself by fitting embossed plastic caps. It is simpler, however, to prepare all input tapes on the standard keyboard, using any necessary coding for esoteric signs, and employing the non standard heads merely for printing back final computer output. As only one head can be in use at a given time, this IBM 735 is not suitable for printing out multilingual texts such as etymological dictionary entries. That need is met by an IBM 'B' type input-output writer with a specially designed keyboard. This has a wide range of diacritics and special signs, including interchangeable keys at certain positions and is equal to any language, modern or medieval, using the Roman alphabet. A lower case keyboard with a wide range of phonetic signs has also been designed, although a phonetic 39
head for the 735 input-output writer, if this existed, would meet our needs more satisfactorily. It may be helpful at this point to describe certain features of our routine procedures. When the Centre has accepted a project, discussions take place between the programmer and the scholar who initiated the work in order to determine a suitable format for punching the text. This involves deciding which elements (e. g. foreign words) have to be specially marked and what scheme should be used for marking them. In order to make the punched form of the text easily readable, the convention is usually adopted t h a t an underlined word is a message to the program and not a part of the text itself. Thus one might punch some lines from Shakespeare's King Henry V in the following way: page 7
latin
— There is no bar To make against your highness' claim to France But this, which they produce from Pharamond, — In terram Salicam mulieres ne succedant, end latin
If, however, a certain feature to be marked (e. g. proper names) is of very common occurrence this clarity has to be sacrificed to punching convenience and instances are indicated by some suitable sign. When these conventions have been agreed the scholar annotates the text so as to make clear to the punching staff which features are to be marked. The annotated edition is then handed over for punching on the machine described above. Since line reconstruction takes place when the tapes are read into the machine, back-space is interpreted correctly so that diacritics may be inserted using thisfacility; some correction may also be done in this way by means of the erase key. (All keys are escaping). No proof-reading is done at this stage and only errors detected immediately are corrected. When punching is complete the tapes are read into the computer and stored on magnetic tape (in fact, two copies on two different tapes); the contents of the tape are then printed out, with line numbers, on a fast line-printer. At this stage the copy is proof-read; unfortunately, only a limited character set is available on this printer but it is adequate for most proof-reading. An editing program is used to incorporate corrections into the magnetic tape copy of the text; this program takes as input a series of commands enabling the user to insert, delete or exchange incorrect lines. This edited version is then printed out, checked and further corrected if necessary. At the end of this process we have two (hopefully) perfect copies of the text on magnetic tape. Punched tape copies of the text are then produced for archival purposes. It has been decided to abandon any thought of having a general concordance or word index program. Such programs cannot be written so as to anticipate all possible vagaries of a text and they must therefore impose 40
restrictions on the way in which material can be processed and on the form of the final output. For reasons which will become clear below, this latter point is of some concern. We have therefore adopted the following system and hope that the resulting flexibility will compensate for the greater programming work involved. The heart of the system is a large magnetic tape sorting program, written in machine code for maximum efficiency. (For most commercial machines such a program is provided by the manufacturers; in Cambridge, however, we had to write it ourselves). This program is designed to sort data supplied in a very general format and is suitable for many (not necessarily linguistic) applications. It must be provided with a subroutine whose function it is to compare two items and decide which comes first. An ad hoc program reads the original text from magnetic tape and produces a tape containing items to be sorted. Each item, in general, consists of a word of text, together with its line reference number and perhaps other information. The sorting program, provided with a suitable comparison subroutine, is then used to sort this material. If a concordance is required, the usual technique of bringing down a storeful of references at a time, by repeated scanning of the text, is used. The resulting output magnetic tape then contains a word index or concordance which another ad hoc program punches onto paper tape in a suitable format, i. e. paginated, with all entries for a given word merged under that heading. After the input-output writers at the Centre have printed back these output tapes the resulting pages are checked for errors and cleared for reproduction by offset-lithography or a similar process. This minimizes expense and avoids the need for subsequent proof-reading. There is no theoretical obstacle in the way of designing our output tapes for use in automatic typesetting but this would require extensive programming, more than can be contemplated with our present staff. However, we should all prefer the high standards of traditional printing for our computer publications and the prospect remains an attractive one. As the Literary and Linguistic Computing Centre provides a service to members of the University of Cambridge, the scholarly initiative lies or should lie, with the individual user. The Centre has of course an administrative policy of its own, but it was not set up to pursue any specified research projects, nor has it any preconceived notions as to what lines of research are desirable or undesirable. New projects are naturally scrutinized carefully and rejected if they are unrealisable or over-ambitious, while some work is undertaken at our prompting. It will be apparent that the Centre differs in many ways from a research unit with directed, coherent, but more circumscribed aims, although by no means all the differences are to our disadvantage. One may predict, moreover, that we shall increasingly provide facilities for groups of researchers working together on complex problems, 41
and that, in the foreseeable future, we shall combine both the possible functions of such a Centre. It is significant that the Centre already undertakes some teaching of postgraduate students. Most research now in progress at the Centre is lexicographical in nature, and virtually all of it is concerned with literary works in modern or medieval European languages (Dutch, English, French, German, Italian and Spanish—see Appendix for a list of texts on tape). My own research into medieval German is aimed at producing word indexes for bulky works, concordances for poetic works of moderate length and full scale lexicographical material where this is required. The Middle High German texts on tape alone total approximately three quarters of a million words. These texts are preedited only to a minimal degree, for instance critical emendations are indicated, abbreviations interpreted, manuscript initials marked as such and so forth. On the other hand my texts receive no preediting designed to distinguish grammatical categories. Parsing is, in any case, more economically carried out once a raw index is available, besides which one must always ask oneself whether the ultimate users of the index or concordance will benefit more from the parsing than they will lose from the delay in publication it may occasion. A scholar with a staff of graduate assistants will tend to look more favourably on parsing than one, like myself, who is not in this enviable position. My concordance of the Wiener Genesis, which has been with the publishers since August 1965, and should appear this year, provides a reverse index of all forms in the text (see Appendix). The latter compensates partially for the absence of parsing, allowing the reader to locate final elements in compound words or entries masked by elision. It does not, of course, help to separate homonyms, but the quotations provided assist the user to trace what is semantically relevant. This will be less true of many further volumes, which would assume nightmare proportions if anything bulkier than a world index was envisaged. I have thus no novel advice to offer on the automatic delimitation of prose contexts, beyond what I have already suggested in print, namely to adopt a context of fixed lenght, possibly three or four words on either side of the headword, with appropriate adjustment if a major punctuation boundary is encountered. Even determination of a poetic context can of course be problematical, although in the particular case of early Middle High German the paratactic nature of the verse means that a single line is an adequate context for most part. Lexicographical material in preparation will contain the poetic line in which a headword occurs and a specified number of lines on either side of it. Individual features of other projects may be of interest: one concordance, of a text available in two differently arranged editions will give dual references for each entry. In several cases special indexes or concordances are 42
required, e. g. t o all t h e images, B i b l e quotations, place names, or proper n a m e s in a corpus of material. A r h y m i n g d i c t i o n a r y for a G e r m a n work provided c o m p l e t e references t o all r h y m e s occurring with a given headword. T h e p r o g r a m w a s able t o t a k e a c c o u n t of a specified r h y m i n g scheme a n d t o pick o u t r h y m e pairs on t h e basis of it. A r e s e a r c h s t u d e n t supervised b y M. F . B o t t has w r i t t e n a p r o g r a m which stores a c o n t e x t - f r e e phrase s t r u c t u r e g r a m m a r a n d g e n e r a t e s r a n d o m sentences f r o m it. A n o t h e r p r o g r a m is c a p a b l e of c o m p a r i n g t w o t e x t s a n d of noting divergent readings. I t would be feasible t o e x t e n d this p r o g r a m t o t a k e five t e x t s if necessary. T h e scholar whose enquiry s t i m u l a t e d this work, however, was faced with t h e t a s k of collating no less t h a n 5 0 0 M S S of a R e n a i s s a n c e t e x t , as a s a l u t o r y r e m i n d e r of t h e gulf b e t w e e n w h a t our colleagues-have c o m e t o e x p e c t f r o m a l i t e r a r y c o m p u t i n g c e n t r e and w h a t we can a c t u a l l y a c h i e v e on their behalf. This paper was given on 7 J u n e 1966 by Dr. R . Wisbey; all statements in the first person singular refer to his work.
PUBLICATIONS R . W i s b e y , Concordance Making by Electronic Computer: Some Experience with the Wiener Genesis, Modern Language Review, Vol. 57, 1962, pp. 161—172. (An extended version of this article appeared in Uses of the Computer in Anthropology, Mouton 1965.) R . W i s b e y . Mechanization in Lexicography, Times Literary Supplement, March 30th, London 1962 (Freeing the Mind, II). The series was republished separately under the latter title in the summer of 1962. R . W i s b e y , The Analysis of Middle High German Texts by Computer, Some Lexicographical Aspects, Transactions of the Philological Society 1963 (1964), pp. 28—46. R . W i s b e y , Reports in several issues of Current Research in Scientific Documentation, National Science Foundation, Washington. R . W i s b e y , Vollständige Verskonkordanz zur Wiener Genesis mit einem rückläufigen Formenverzeichnis, Erich Schmidt Verlag, Berlin, 830 pp. (in hands of publishers). M. F . B o t t , Some Problems of Natural Language Computing (Paper given at data processing conference, Graz, April 1966: Place of publication to be decided).
APPENDIX Texts on punched paper tape in Literary and Linguistic Computing Centre, Cambridge: Dutch Vondel: Bespiegelingen Van Godt en Godtsdienst, Lucifer. English Psalms (Authorized Version 1611), Psalms (Revised Standard Version 1952) French S. Mallarmé, Oeuvres complètes, Pléiade édition. 43
German
Italien Latin
44
Speculum Ecclesiae. Eine frühmittelhochdeutsche Predigtsammlung. Edited by G. Mellbourn. Lunder Germanistische Forschungen, Vol. 12. Altdeutsche Predigten. Edited by A . E. Schönbach. Vol. 1, Graz 1886. Die altdeutsche Genesis nach der Wiener Handschrift. Edited by Y . Dollmayer, Halle 1932. Wolfram von Eschenbach (complete works), edited by K . Lachmann, 5th Edition, Berlin 1881. Vorauer Alexander and Straßburger Alexander, edited by K . Kinzel, Halle a. S. 1884. Jacob Böhme: Aurora, Vol. 1 of Jacob Böhme: Sämtliche Schriften 1730 edition. Rolandslied, ed. C. Wesle, Bonn 1928. Das St. Trudperter Hohe Lied, ed. H . Menhardt, Halle 1934. Eilhart von Oberge Tristrant, ed. F. Lichtenstein, Straßburg 1877. Vorauer Bücher Moses, ed. J. Diemer, Wien 1849. Tasso, Gerusalemme Liberata, ed. Lanfranco Caretti. Tasso, G. Conquistata. Psalms Vulg. Clem. 1947.
Standard Head: Netherlands 4 1 * * % / & < : Q W E R T Y U I O P " A S D F G H J K L _
v
Z X C V B N M ? ; =
1 23"4567890 ' /qwertyuiop~asdfghjkl-'zxcvbnm,.+ Other Heads: £°SF5§2I"/?6PWERTOU%OG+A&D9YHJKL84ZXCVBNM3.7 t ) s f ( l e r : , -pwert quuog= aadgyhj k l _ ' zxcvbnm" ;e
% / W $ £ £ ( i * ) Q W E R T Y U I O G : A S D F P H J K L _ | ^ X C V B N M ? + Z
q w e r t y u i o g ; i . ' 4 365 7982casdfphjkl-£fxcvbnm,=z § 2 %££ ( 0 + " ) $ &QWERT J U I O P ' A S D F G H Y K L _ Z 7XCVBNM • : A
5O3a£780/29 = 6qwertjuiop"asdfghykl-z4xcvbnm, A §" l O="A/%S;)QWERTJUI0G7ASDFYH:KL_(ZXCVBNMP!5
92-ii3'a+H517qwert juiog,asdfyhftkl86zxcvbnmp.tt ° 4 8 6 j Z 9 / S ! Y2gWERTPUIOF7A%D?QHGKL5=3XCVBNMJ
• "
)(+e£za:s6y"