Ingurune digitala, hizkuntzen estandarizazioa eta euskara = El entorno digital, la estandarización de las lenguas y el euskera: = L’environnement numérique, la normalisation des langues et le basque = The digital environment, the standardization of languages and basque 9783968693934

Avanzamos en el siglo XXI y el entorno digital forma parte de nuestras vidas, eso nadie lo duda. La inteligencia artific

166 5 23MB

Spanish Pages 296 Year 2022

Table of contents :
AURKIBIDEA / ÍNDICE / SOMMAIRE / INDEX
Aurkezpena / Presentación / Présentation / Presentation
Argitarazleei buruz / Sobre los editores / Les éditeurs / About the editors
I Euskararen estandarizazioa XXI. mendean: baldintzak, ezaugarriak eta ingurune digitala / La estandarización del euskera en el siglo XXI: condiciones, características y entorno digital / Standardisation de la langue basque au XXIE siècle : conditions, caractéristiques et environnement numérique / The standardization of basque in the 21st century: conditions, characteristics and digital environment
Baliabide digitalak euskararen estandarizazioan
II Hizkuntza estandarizazioa eta ingurune digitala: akademien zeregina / La estandarización de las lenguas y el entorno digital: labor de las academias / Standardisation de la langue basque et environnement numérique : travail des académies / The standardization of languages and the digital environment: work of the academies
El aprovechamiento de las nuevas tecnologías en el Diccionario da Real Academia Galega
La lexicografía en el siglo xxi: nuevos métodos, nuevos objetivos. La actividad lexicográfica del Institut d’Estudis Catalans
Digitalización y recursos electrónicos en la Real Academia Española
Digital Frisian and Language Tools: Development and Implementation of the Provincial Policy in the 21st Century
Ressources linguistiques et identification automatique d’expressions polylexicales
Dicod’òc: du dictionnaire en ligne à la multi-application lexicographique
III Estandarizazioaren gizarteratzea eta ingurune digitala: hainbat esperientzia / La socialización de la estandarización y entorno digital: algunas experiencias / Diffusion de la standardisation et environnement numérique : quelques expériences / The socialization of standardization and the digital environment: some experiences
Los recursos digitales y la proyección del gallego en la red. La experiencia de la Real Academia Galega
Conjugueur gascon : de l’acceptation sociale
Dictionnaires informatisés : les pratiques au laboratoire ATILF
IV Euskararen estandarizaziorako ingurune digitalaren baliabide linguistiko eta sozialak / Recursos lingüísticos y sociales para la estandarización del euskera / Ressources linguistiques et sociales de l’environnement numérique pour la standardisation de la langue basque / Linguistic and social resources for the standardization of basque
Euskararen osasuna ingurune digitalean: ariketa txiki bat
Euskara adimen artifizialaren aroan: aukera-leihoak
Estandarizazioa eta hizkuntza-teknologiak: bidean ikasiXa eta plangintza baten beharra
Euskaltzaindiaren Euskara eskuz esku tresna berriaz argibide batzuk

Recommend Papers

Arantzazutik mundu zabalera: 1968-2018 = La normativización del euskera: 1968-2018 = La standardisation de la langue basque: 1918-2018 = Basque language´s standardization: 1968-2018 9783968691589

Preguntarse por la normativización de la lengua vasca transcurrido casi un cuarto del siglo XXI es preguntarse por uno d

109 65 21MB Read more

Le basque unifié (initiation) 2700501918

Assimil, 1996. — 378 p.Il s'agit de la langue commune à tous les Basques, tant français qu'espagnols. Les aute

385 63 7MB Read more

Las lenguas de los incas: el puquina, el aimara y el quechua (The languages of the Incas: Puquina, Aymara and Quechua) [1 ed.] 3631630948, 9783631630945

El presente volumen recoge 14 ensayos que dan cuenta de la experiencia idiomática por la que atravesaron los incas a lo

156 32 4MB Read more

El portafolio digital en la docencia universitaria

401 26 3MB Read more

The Basque Language 9781512819922

Authorized translation of La lengua vasca, 2/e.

116 2 4MB Read more

El poder de las palabras: el uso de la PNL para mejorar la comunicación, el aprendizaje y la conducta

679 142 1MB Read more

Esplendor y vileza: La historia de Churchill y su entorno familiar durante el período más crítico de la guerra 9788434433359

Se diría que sabemos todo (o casi todo) de Winston Churchill. Y, sin embargo, como en toda vida, siempre se nos escapa a

183 39 2MB Read more

Elhuyar: hiztegia euskara - ingelesa, dictionary English - Basque 9788497834971

Elhyar, 2007. — 423 p.Ingelesa kominikazio-hizkuntza garrantzitsua da gaur egun gizarteko hainbat alorretan. Euskal herr

299 109 211MB Read more

ETA. Las claves de la PAZ

Son muchos los acontecimientos que están sucediendo en el País Vasco. El más importante: el fin de ETA. La forma en que

435 37 3MB Read more

Women and ETA: The gender politics of radical Basque nationalism 9781847791443

Women and ETA is the first book-length study of women in radical Basque nationalism. It uses a unique body of oral histo

102 18 4MB Read more

Ingurune digitala, hizkuntzen estandarizazioa eta euskara = El entorno digital, la estandarización de las lenguas y el euskera: = L’environnement numérique, la normalisation des langues et le basque = The digital environment, the standardization of languages and basque
9783968693934

Author / Uploaded
Andoni Sagarna (editor)
Miriam Urkia (editor)

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

Ingurune digitala, hizkuntzen estandarizazioa eta euskara El entorno digital, la estandarización de las lenguas y el euskera L’environnement numérique, Euskal onomastika aplikatua la standardisation des langues xxi. mendean et le basque Onomástica aplicada vasca en el siglo xxi The digital environment, Onomastique basque appliquée the standardization of the languages au xxie siècle and basque Applied Basque onomastics in the xxi century Andoni Sagarna eta Miriam Urkia (arg.) Roberto González de Viñaspre (arg.)

IKER 39 IKER 45 Euskaltzaindia Real Academia de la Lengua Vasca Euskaltzaindia Bilbo

Real Academia de la Lengua Vasca Bilbo Iberoamericana Vervuert Madrid – Frankfurt

2020

Iberoamericana Vervuert Madrid – Frankfurt Euskal-onomastika.indb 3

00-preliminares.indd 3

2022

25/11/2020 15:12:09

13/12/22 10:29

Euskarazko testuen hizkuntza orrazketa: Euskaltzaindiaren Hizkuntza Kalitatearen Behatokia zerbitzua (HIZBEA). Eskubide guztiak jabedunak dira. Legeak aurreikusten dituen kasuak salbu, ez da zilegi liburuki hau osorik edo zatika kopiatzea, ez sistema informatikoekin beronen edukia biltzea, ez inongo sistema elektroniko edo mekanikoz, fotokopiaz, erregistratuz edo beste bitartekoz berau transmititzea —aipamenetarako izan ezik— argitaratzailearen edo copyrightaren jabearen aldez aurreko eta idatzizko baimenik gabe. CEDROra (Centro Español de Derechos Reprográficos) zuzendu zaitez lan honen pasarteren bat fotokopiatu edo digitalizatu behar baduzu (www.conlicencia.com; 91 702 19 70 / 93 272 04 47). Derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta obra solo puede ser realizada —a excepción de las menciones— con la autorización escrita de los editores o de los titulares del copyright, salvo excepción prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47).

© Iberoamericana, 2022 Amor de Dios, 1 – E-28014 Madrid Tel.: +34 91 429 35 22 - Fax: +34 91 429 53 97 © Vervuert, 2022 Elisabethenstr. 3-9 – D-60594 Frankfurt am Main Tel.: +49 69 597 46 17 - Fax: +49 69 597 87 43 © Euskaltzaindia / R.A.L.V. / A.L.B. 2022 Plaza Barria, 5. 48005 Bilbao Tel.: +34 94 415 81 55 - Fax: +34 94 415 81 44 ISBN 978-84-9192-331-2 (Iberoamericana) ISBN 978-3-96869-392-7 (Vervuert) ISBN 978-3-96869-393-4 (e-Book) ISBN 978-84-125463-5-4 (Euskaltzaindia) Lege-gordailua/Depósito legal: M-28088-2022 Gainazalaren diseinua/Diseño de cubierta: Rubén Salgueiros Espainian inprimatua/Impreso en España Liburu hau bere osotasunean klororik gabeko paper ekologikoan inprimatua dago/ Este libro está impreso íntegramente en papel ecológico sin cloro

00-preliminares.indd 4

13/12/22 10:29

AURKIBIDEA / ÍNDICE / SOMMAIRE / INDEX

Aurkezpena / Presentación / Présentation / Presentation........................................ 9 Argitarazleei buruz / Sobre los editores / Les éditeurs / About the editors.............. 25 I Euskararen estandarizazioa xxi. mendean: baldintzak, ezaugarriak eta ingurune digitala La estandarización del euskera en el siglo xxi: condiciones, características y entorno digital Standardisation de la langue basque au xxie siècle : conditions, caractéristiques et environnement numérique The standardization of basque in the 21st century: conditions, characteristics and digital environment Andoni Sagarna Baliabide digitalak euskararen estandarizazioan..................................................... 31 II Hizkuntza estandarizazioa eta ingurune digitala: akademien zeregina La estandarización de las lenguas y el entorno digital: labor de las academias Standardisation de la langue basque et environnement numérique : travail des académies The standardization of languages and the digital environment: work of the academies Manuel González González El aprovechamiento de las nuevas tecnologías en el Diccionario da Real Academia Galega................................................................................................................... 47

00-preliminares.indd 5

13/12/22 10:29

Joaquim Rafel i Fontanals La lexicografía en el siglo xxi: nuevos métodos, nuevos objetivos. La actividad lexicográfica del Institut d’Estudis Catalans........................................................... 81 Guillermo Rojo, Salvador Gutiérrez Ordoñez Digitalización y recursos electrónicos en la Real Academia Española...................... 95 Hans Van de Velde Digital Frisian and Language Tools: Development and Implementation of the Provincial Policy in the 21st Century.................................................................... 117 Mathieu Constant Ressources linguistiques et identification automatique d’expressions polylexicales.......................................................................................................... 139 Benazet Dazéas Dicod’òc: du dictionnaire en ligne à la multi-application lexicographique............. 157 III Estandarizazioaren gizarteratzea eta ingurune digitala: hainbat esperientzia La socialización de la estandarización y entorno digital: algunas experiencias Diffusion de la standardisation et environnement numérique : quelques expériences The socialization of standardization and the digital environment: some experiences Iolanda Fernández Casal Los recursos digitales y la proyección del gallego en la red. La experiencia de la Real Academia Galega........................................................................................... 177 Vincent Rivière Conjugueur gascon : de l’acceptation sociale......................................................... 191 Guilles Souvay Dictionnaires informatisés : les pratiques au laboratoire ATILF............................. 211 IV Euskararen estandarizaziorako ingurune digitalaren baliabide linguistiko eta sozialak Recursos lingüísticos y sociales para la estandarización del euskera Ressources linguistiques et sociales de l’environnement numérique pour la standardisation de la langue basque Linguistic and social resources for the standardization of basque Ainhoa Arregi Saratxo Euskararen osasuna ingurune digitalean: ariketa txiki bat...................................... 229

00-preliminares.indd 6

13/12/22 10:29

Josu Aztiria Urtaran Euskara adimen artifizialaren aroan: aukera-leihoak............................................... 247 Iñaki Alegria Loinaz, Olatz Arregi Uriarte, Xabier Artola Zubillaga Estandarizazioa eta hizkuntza-teknologiak: bidean ikasiXa eta plangintza baten beharra.................................................................................................................. 263 Jean-Baptiste Coyos Euskaltzaindiaren Euskara eskuz esku tresna berriaz argibide batzuk....................... 287

00-preliminares.indd 7

13/12/22 10:29

00-preliminares.indd 8

13/12/22 10:29

AURKEZPENA

xxi. mendean aurrera goaz, eta ingurune digitala gure bizitzaren parte da, hori ez du inork zalantzan jartzen. Adimen artifizialak eta, bereziki, hizkuntza-teknologiak gure egunerokoan sartuak ditugu, eta euskara ez da salbuespena. Horregatik antolatu nahi izan du Euskaltzaindiak, bere mendeurrenaren egitarau akademikoaren barruan, «Ingurune digitala, hizkuntzen estandarizazioa eta euskara» izeneko jardunaldia. Eta hori galdera baten bidez egin du: nola lagun dezake ingurune digitalak euskararen estandarizazioa bizkortzen? Horretarako, beste hizkuntzetako esperientziak, Euskaltzaindiarenak berarenak eta euskal erakundeenak ezagutu nahi izan ditugu, guztiok elkarrekin euskararen estandarizazio horren formulazioan, ebaluazioan eta zabalkundean aurrera egiteko eta xxi. mendeko euskal gizarteak dituen euskarari buruzko premiei erantzun egokia emateko. Azken batean, Akademiak ezinbestekoa duelako inguruan gertatzen dena ezagutzea, eta hizkuntzaren estandarizazioan egindakoa neurtzea. Lau atal nagusitan egituratu da liburua. Lehenengoan xxi. mendeko euskararen estandarizazioaren nondik norakoak aztertzen dira: baldintzak, ezaugarriak eta ingurune digitala. Andoni Sagarna euskaltzain oso eta Euskaltzaindiko IKT batzordeko buruak euskararen estandarizazioan baliabide digitalak nola erabili izan diren eta etorkizunera begira zer erronka eta aukera aurreikusten diren aurkezten du bere artikuluan. Euskararen estandarizazioa 1968an hasi zenetik igaro diren 50 urte baino gehiagoan, baliabide digitalen erabilera asko aldatu da. Artikuluan bi prozesu horiek, euskararen estandarizazioak eta baliabide digitalen erabilerak, izan duten bilakaera eta eragin-trukea deskribatzen ditu. Aldaketa horien barruan bereziki nabarmentzen da corpusen erabilera hizkuntzaren ikerketan.

01-aurkezpena.indd 9

9/12/22 8:57

10

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

Bigarren atalean akademien ikuspegitik heltzen zaio ingurune digitalak hizkuntzaren estandarizazioan duen lekuari, eta akademien zereginaz dihardute hainbat adituk. Mathieu Constant Lorraineko Unibertsitateko ikertzaileak hitz anitzeko unitate lexikalak corpusetan oinarrituz identifikatzeko hainbat prozeduraren berri ematen du, frantseserako. Identifikazio automatikorako hiru metodo aurkezten ditu, eta, azkenik, corpus anotatu baten bidezko zein baliabide lexikalen bidezko ikasketaz baliatuz unitate konplexu horiek identifikatzeko metodo bana eta bien konbinazio bidezkoa aurkezten ditu. Benazet Dazéas Lo Congrès Permanent de la Lenga Occitanako zuzendaria eta 2012az geroztik locongres.org atariko arduraduna da hurrengo artikuluaren egilea. Hainbat eduki biltzen ditu atariak, nagusia dicod’Òc ‘multihiztegia’ deitzen dutena bada ere. Haatik, edukiak egituratu gabe eta elkarrekin lotu gabe daudela oharturik, multiaplikazio bat sortzen ari dira lexikografia, flexioa, toponimia edo corpusak elkarrekin konektatu eta kontsulta bakarrean eskaini ahal izateko. Ondoren, Manuel González Real Academia Galegako osoko kide eta Santiagoko Unibertsitateko filologia erromanikoko katedradunak lexikoaren estandarizazioaz eta Galiziako Akademiaren hiztegiaz dihardu bere artikuluan. Hiztegi horren idazketan, berrikuspenean eta zabalkundean baliabide digitalen erabilerak duen garrantzia agertzen du. Joaquim Rafel Institut d’Estudis Catalanseko Secció Filològicako osoko kide eta Bartzelonako Unibertsitateko katedradun emerituak deskribatzen du, jarraian, hizkuntzalaritzak eta, arlo horretan, informatikaren erabilerak azken urteetan izandako aurrerapenek lexikografiari ekarri dioten egoera-aldaketa, batez ere paperezko hiztegietatik informatizatuetarako jauziak dakarrena. Hiztegien kontzepzioa bera ere nola ari den aldatzen azpimarratzen du, bai sintaxiarekiko harremanaren aldetik eta baita konbinatoria lexikalarenetik ere. Lexikografia katalanak xx. mendean izan zuen bilakaeraren balantzea ere egiten du bere artikuluan. Guillermo Rojo Espainiako Errege Akademiako osoko kide eta Santiago de Compostelako Unibertsitateko katedradun emerituarena da hurrengo artikulua. RAEk azken 25 urtean bere lanak informatizatzeko egindako ahaleginen fruitu oparoak aurkezten ditu Rojok, besteak beste corpus-hizkuntzalaritzan oinarritutako lanak biltzen eta harremanetan jartzen dituen Enclave RAEren garrantzia azpimarratzen du. Espainiako Errege Akademiak egin dituen beste digitalizazio-lan batzuen berri ere ematen du, baita bere zuzendaritzapeko corpusen ezaugarriak xehetasunez azaltzen ere, akademiak sortu dituen kontsulta-zerbitzuak ahaztu gabe. Akademien ikuspegiari eskainitako bigarren atal honetako azken artikulua Hans Van de Velde Fryske Akademyko kide eta Utrecht-eko Unibertsitateko irakaslearena da. Frisieraren normalizazioaz gain, garapen digitalari buruzko gogoetaren berri eman eta hizkuntzaren ikusgarritasunaren garrantzia aipatu ondoren, frisierarako garatu diren tresna nagusiak aurkezten ditu artikuluan. Bukatzeko, aro digitalean bereziki eta hobe-

01-aurkezpena.indd 10

9/12/22 8:57

AURKEZPENA / PRESENTACIÓN / PRÉSENTATION / PRESENTATION

11

to landu beharreko ikerketa eta garapena zein hizkuntza-politikari buruzko ideia batzuk aurkezten ditu. Hirugarren atala estandarizazioa gizarteratzerakoan ingurune digitalak duen lekuari eskainia dago, eta hainbat esperientziaren berri ematen da. Iolanda Fernández Real Academia Galegako komunikazio-arduradunak akademian azken urteotan egindako bideari buruzko ideia interesgarriak dakarzkigu bere lanean. Iraultza digitalak RAGen estandar arauemailearen zabalkundeari aukera berriak ekarri dizkio. 2012an hiztegia sarean jarri zuenetik kontsultek etengabe egin dute gora, baina akademiaren apustua harago doa, eta eduki ludikoak eta didaktikoak ere eskaintzen ditu. Ez hori bakarrik: aukera horiek baliatu dira hizkuntzaren estandarraren berri emateko, baina bereziki hiztunekin, ikasleekin eta profesionalekin harremana estutzeko, haien beharrak entzun eta erantzunak doitzeko batetik, eta galegoarekiko jarrera hobetzeko bestetik, hizkuntza minorizatua dela eta diglosia-egoeran dagoela ezin baita ahaztu. Vincent Rivière Lo Congrès Permanent de la Lenga Occitanako hizkuntza-proiektuen arduradunak gaskoiaren aditzak jokatzeko tresna bat aurkezten du erabiltzaile-talde zabalarentzat. Berrikuntza handia dakar horrek, orain arte ez baitzegoen halako tresnarik gaskoirako. Gilles Souvay Analyse et Traitement Informatique de la Langue Française (ATILF) ikerketa-laborategiko kideak hiztegi elektronikoei buruz dihardu bere artikuluan, ATILFek landu baitu hasieratik Trésor de la Langue Française. Eta, hortik abiatuta, egun lantzen dituzten hainbat baliabide lexikografiko aurkezten ditu: hiztegiak (egungoak, historikoak, etimologikoak), testu-corpusak eta hizkuntzen tratamendu automatikorako bestelako tresnak eta baliabideak. Eta, bukatzeko, laugarren atalean euskararen estandarizaziorako ingurune digitalaren baliabide linguistikoak eta sozialak ditugu aztergai. Euskarak ingurune digitalean duen osasuna aztertzeko egin duen ariketa baten emaitzak aurkezten dizkigu Ainhoa Arregi UZEIko lexikografia saileko teknikari eta euskaltzain urgazleak, euskararen adierazleak oinarri hartuta. Araugintzaren garrantziarekin batera, hura azkar eta egoki zabaltzeko garrantziaz dihardu, eta profesionalen arduraz. Josu Aztiria Elhuyar Fundazioko Hizkuntza eta Teknologia unitateko zuzendariak adimen artifizialaren aroan euskarak dituen aukera-leihoak aipatzen ditu, estrategia sinbolikotik ikasketa automatikora egin diren urratsak erakutsita. Etorkizun hurbilean landu beharreko hainbat interbentzio-esparru ere proposatzen ditu. Ondoren EHUko IXA taldeko kide diren Olatz Arregi, Iñaki Alegria eta Xabier Artola irakasleek estandarizazioaren eta hizkuntza-teknologien inguruko gogoeta egiten dute, bidean ikasitakoaz eta plangintza baten beharraz. Ordenagailuak, digitalizazioa, Internet, liburu elektronikoak, telefono adimendunak eta sare sozialak, besteak beste, gure etxeetan eta enpresetan sartuz joan dira, eta horiekin batera baita hizkuntza-teknologiak ere.

01-aurkezpena.indd 11

9/12/22 8:57

12

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

Euskara goiz hasi zen arlo teknologikora egokitzen, eta teknologia ere hasi zen euskara kontuan hartzen, baina baliabide handiagoko hizkuntzekin alderatuta egoera «osatugabean» dago oraindik. Hala, bada, etorkizunerako dauden erronkak oso handiak dira. Halako plangintza baten nondik norakoak eta balizko lerro nagusiak proposatzen dituzte artikuluan. Atal honetako azken artikuluaren egilea Jean-Baptiste Battittu Coyos euskaltzain oso eta Jagon sailburua da. Coyosek Euskaltzaindiaren Euskara eskuz esku (EEE) baliabide berria aurkezten du artikulu honetan. EEEren helburua euskara Iparraldean hobeki erabiltzeko laguntza eskaintzea da, bertako berezitasunak bistaratu eta, horrekin batera, Euskaltzaindiaren arauak modu sinplifikatuan aurkeztea, horretarako berariazko webgunea prestatuta. Esperientzia hauek guztiak ezagututa, gogoetarako garaia dator, hasierako galderari erantzuna emateko tresnak eskura ditugu eta. Hori izango da etorkizun hurbilerako erronka.

01-aurkezpena.indd 12

9/12/22 8:57

Presentación Estamos avanzando en el siglo xxi, y el entorno digital es ya parte de nuestras vidas; nadie lo pone en duda. La inteligencia artificial y particularmente las tecnologías de la lengua se nos han introducido en el día a día, y el euskera no es una excepción en esto. Ese es el motivo por el cual Euskaltzaindia ha querido organizar, dentro del programa académico conmemorativo del centenario de su creación, la jornada «El entorno digital, la estandarización de la lengua y el euskera». Y la ha planteado mediante una pregunta: ¿cómo puede ayudar el entorno digital a dinamizar la estandarización del euskera? Con ese fin, hemos querido conocer las experiencias de otras lenguas, las de la propia Euskaltzaindia y las de las instituciones vascas, para avanzar conjuntamente en la formulación, evaluación y difusión de esa estandarización del euskera y dar una respuesta correcta a las necesidades que la sociedad vasca tiene planteadas con relación a la lengua vasca. Porque, a fin de cuentas, a la academia le es imprescindible conocer lo que ocurre en su entorno, y medir la labor realizada en la estandarización de la lengua. El libro se ha estructurado en cuatro partes. En la primera se analiza el devenir de la estandarización del euskera en el siglo xxi: las condiciones, las características y el entorno digital. Andoni Sagarna, académico de número y responsable de la comisión TIC de Euskaltzaindia describe en su artículo el uso que se ha hecho de los recursos digitales, y plantea los retos y las oportunidades con vistas al futuro. En los más de 50 años transcurridos desde el inicio de la estandarización del euskera en 1968, el uso de los recursos digitales ha evolucionado mucho. En su artículo describe la evolución y las interacciones de la estandarización del euskera con los recursos digitales. En ese desarrollo se destaca el uso de corpus en la investigación de la lengua. En la segunda parte varios expertos analizan el lugar que ocupa el entorno digital en la estandarización de la lengua y las tareas de las academias en ese ámbito. Mathieu Constant, investigador de la Universidad de Lorena, ha presentado diversos procedimientos de identificación de unidades léxicas complejas

01-aurkezpena.indd 13

9/12/22 8:57

14

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

basándose en corpus del francés. Da cuenta de tres métodos de identificación automática, y, finalmente, presenta dos métodos para identificar esas unidades complejas, uno por medio de un corpus anotado, otro de aprendizaje mediante recursos léxicos y el consistente en la combinación de ambos. Benazet Dazéas, director de Lo Congrès Permanent de la Lenga Occitana y desde 2012 responsable del portal locongres.org, es el autor del siguiente artículo. El portal reúne varios contenidos, entre los que destaca el ‘multidiccionario’ dicod’Òc. Habiendo observado que los contenidos no estaban estructurados ni interconectados, están creando una multiaplicación para interrelacionar la lexicografía, la flexión, la toponimia y los corpus, y poder ofrecer una consulta unificada A continuación, Manuel González, académico de número de la Real Academia Galega y catedrático de Filología Románica de la Universidad de Santiago de Compostela, presenta en su artículo la estandarización del léxico y la labor de la Academia Gallega. Destaca la importancia que tiene el uso de los recursos digitales en la redacción, revisión y difusión de su diccionario. Joaquim Rafel, miembro de número de la Secció Filològica del Institut d’Estudis Catalans y catedrático emérito de la Universidad de Barcelona describe, a continuación, el cambio al que han dado lugar en el campo de la lexicografía los avances que se han producido en la lingüística y en el uso de la informática, sobre todo el que se ha dado en el salto de los diccionarios en formato papel a los informatizados. Subraya en particular cómo está cambiando la propia concepción de los diccionarios, tanto desde el punto de vista de su relación con la sintaxis como de la combinatoria léxica. En su artículo también hace balance de la evolución experimentada por la lexicografía catalana en el siglo xx. El siguiente artículo es de Guillermo Rojo, académico de número de la Real Academia Española y catedrático emérito de la Universidad de Santiago de Compostela. Rojo presenta los abundantes frutos que la RAE ha obtenido en los últimos 25 años, como resultado de los esfuerzos realizados en la informatización de sus trabajos. Subraya la importancia de Enclave, el sistema que reúne y relaciona los trabajos de la RAE en el campo de la lingüística de corpus. Da cuenta también de otros trabajos de digitalización de la Real Academia Española y describe en detalle las características de los corpus que dirige, así como los servicios de consulta creados por la academia. El último artículo de esta parte dedicada a la visión de las academias es de Hans Van de Velde, miembro de la Fryske Akademy y profesor de la Universidad de Utrecht. Después de presentar la normalización de la lengua frisia, ofrece su visión en torno al desarrollo digital, subraya la importancia de la visibilización de la lengua y presenta las principales herramientas que se han desarrollado para la lengua frisia. Finalmente reflexiona sobre aspectos que es necesario mejorar en la investigación y el desarrollo de la era digital así como en la política lingüística.

01-aurkezpena.indd 14

9/12/22 8:57

AURKEZPENA / PRESENTACIÓN / PRÉSENTATION / PRESENTATION

15

La tercera parte está dedicada al lugar que ocupa el entorno digital en la difusión social de la estandarización, y se muestran diversas experiencias de ese ámbito. Iolanda Fernández, responsable de comunicación de la Real Academia Galega, da a conocer en su trabajo varias ideas interesantes acerca del camino recorrido a lo largo de estos últimos años por la academia. La revolución digital ha aportado nuevas oportunidades para la difusión de la labor estandarizadora de la RAG. Desde que publicó el diccionario en la red en 2012, las consultas han crecido constantemente, pero la apuesta va más allá, porque ofrece también contenidos lúdicos y didácticos. Además se han utilizado esos recursos para informar de la lengua estándar, y, sobre todo, para estrechar las relaciones con los hablantes, los estudiantes y los profesionales, para conocer sus necesidades y ajustar las respuestas a aquellas por un lado, y, por otro lado, para mejorar las actitudes respecto del gallego, ya que no se puede olvidar que se trata de una lengua minorizada y se encuentra en situación de diglosia. Vincent Rivière, responsable de los proyectos lingüísticos de Lo Congrès Permanent de la Lenga Occitana, presenta una herramienta para la conjugación de los verbos del gascón para un amplio grupo de usuarios. Supone una innovación muy importante, puesto que hasta ahora no existía ese tipo de herramientas para el gascón. Gilles Souvay, miembro del laboratorio de investigación Analyse et Traitement Informatique de la Langue Française (ATILF), trata en su artículo de los diccionarios electrónicos que han desarrollado. El ATILF ha elaborado la versión electrónica del Trésor de la Langue Française. A partir de ahí han desarrollado diversos recursos lexicográficos: diccionarios (modernos, históricos, etimológicos), corpus textuales y otros recursos y herramientas para el tratamiento automático de la lengua. Y, finalmente, la cuarta parte trata de los recursos lingüísticos y sociales del entorno digital para la estandarización del euskera. Ainhoa Arregi, lexicógrafa de UZEI y académica correspondiente de Euskaltzaindia, nos muestra los resultados de un ejercicio que ha realizado para estudiar la salud de la que goza el euskera en el entorno digital, tomando como punto de partida algunos indicadores relacionados con el euskera. Concede importancia no solo a la normativizacion sino también a la difusión rápida y adecuada de la misma, y subraya la responsabilidad de los profesionales a este respecto. Josu Aztiria, director de la Unidad de Lengua y Tecnología de la Fundación Elhuyar, expone las ventanas de oportunidad que el euskera tiene en la era de la inteligencia artificial, y da cuenta de los avances realizados desde la estrategia simbólica al aprendizaje automático. También propone diversos campos de intervención en los que hay que trabajar. A continuación, Olatz Arregi, Iñaki Alegria y Xabier Artola, profesores de la UPV y miembros del grupo IXA reflexionan sobre la estandarización y las tecnologías lingüísticas, lo aprendido en el camino recorrido y la necesidad de

01-aurkezpena.indd 15

9/12/22 8:57

16

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

planificación. Los ordenadores, la digitalización, Internet, los libros electrónicos, los teléfonos inteligentes y las redes sociales entre otras cosas han entrado en nuestros hogares y empresas, y junto con esas cosas también las tecnologías de la lengua. El euskera se empezó a adaptar al campo de la tecnología, y la tecnología empezó a tener en cuenta al euskera tempranamente, pero si comparamos su situación con la de las lenguas que gozan de mayores recursos, se encuentra todavía en una situación de «incompletitud». Así pues, los retos con vistas al futuro son muy grandes. En su artículo proponen también la orientación y las líneas maestras de una planificación. El autor del último artículo de esta parte es Jean-Baptiste Battittu Coyos, académico de número de Euskaltzaindia y responsable de la Sección Tutelar de la academia. Coyos presenta en su artículo el nuevo recurso de Euskaltzaindia denominado Euskara eskuz esku (EEE) El objetivo del EEE es ofrecer una ayuda para un mejor uso del euskera estándar en Euskal Herria continental, haciendo visibles las particularidades de aquella zona y, junto con eso, presentar las normas de Euskaltzaindia de una manera simplificada, mediante un sitio web desarrollado específicamente con esa finalidad. Conocidas todas esas experiencias, ha llegado la hora de la reflexión, ya que disponemos de las herramientas para la búsqueda de la respuesta a la pregunta del principio. Ese va a ser el reto del futuro próximo.

01-aurkezpena.indd 16

9/12/22 8:57

Présentation Alors que nous avançons dans ce xxie siècle, l’environnement numérique fait déjà partie de nos vies, nul ne peut en douter. L’intelligence artificielle et plus particulièrement les technologies de la langue se sont insinuées en nous jour après jour et la langue basque ne fait pas exception. C’est la raison pour laquelle Euskaltzaindia a souhaité organiser, dans le cadre des manifestations commémoratives du centenaire de sa création, un colloque intitulé « L’environnement numérique, la standardisation de la langue et la langue basque ». Ce colloque a été organisé autour d’une question : comment l’environnement numérique peut-il aider à dynamiser la standardisation du basque ? Nous avons pour cela souhaité connaître les expériences des autres langues, ainsi que celle d’Euskaltzaindia et des institutions basques, pour avancer conjointement dans la formulation, l’évaluation et la diffusion de la standardisation du basque et apporter une réponse adéquate aux besoins relatifs au basque exprimés par la société basque. Car, en fin de compte, l’Académie a absolument besoin de connaître ce qui se passe autour d’elle et de mesurer le travail réalisé en matière de standardisation de la langue. Ce livre se divise en quatre parties. Dans la première partie est analysé le devenir de la standardisation du basque au xxie siècle : les conditions, les caractéristiques et l’environnement numérique. Andoni Sagarna, académicien titulaire responsable de la commission TIC d’Euskaltzaindia (Technologies de l’Information et de la Communication), décrit dans son article l’usage qui a été fait des ressources numériques, il évoque les enjeux et les opportunités pour l’avenir. Au cours des 50 années passées depuis le début de la standardisation du basque en 1968, l’usage des ressources numériques a beaucoup évolué. Il décrit dans son article l’évolution et les interactions de la standardisation du basque avec les ressources numériques. On constate l’utilisation du corpus dans la recherche linguistique. Dans la seconde partie plusieurs experts analysent la place qu’occupe l’environnement numérique dans la standardisation de la langue et les travaux menés

01-aurkezpena.indd 17

9/12/22 8:57

18

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

par les académies dans ce domaine. Mathieu Constant, chercheur à l’Université de Lorraine, présente divers procédés d’identification des unités lexicales complexes basés sur le corpus du français. Il présente trois méthodes d’identification automatique, ainsi que deux méthodes pour identifier ces unités complexes, l’une grâce à un corpus annoté et l’autre étant un apprentissage grâce à des ressources lexicales et consistant en la combinaison des deux. Benazet Dazéas, directeur de Lo Congrès Permanent de la Lenga Occitana et responsable depuis 2012 du portail locongres.org, est l’auteur de l’article suivant. Ce portail comprend plusieurs contenus parmi lesquels on peut remarquer le ‘multidictionnaire’ dicod’Òc. Ayant constaté que les contenus n’étaient ni structurés ni interconnectés, une multi-application a été créée pour interconnecter la lexicographie, la flexion, la toponymie et les corpus, et pour permettre une recherche unifiée. Manuel González, académicien titulaire de l’Académie royale galicienne et professeur de philologie romane à l’Université de Saint-Jacques-deCompostelle, présente quant à lui dans son article la standardisation du lexique, ainsi que le travail mené par l’Académie galicienne. Il souligne l’importance de l’usage des ressources numériques dans la rédaction, la révision et la diffusion de son dictionnaire. Joaquim Rafel, membre titulaire de la Secció Filològica de l’Institut d’Estudis Catalans et professeur émérite à l’Université de Barcelone, décrit ensuite les changements apportés en matière de lexicographie par les avancées de la linguistique et l’usage de l’informatique, surtout le passage des dictionnaires sur format papier vers les dictionnaires numériques. Il souligne en particulier le changement dans la conception elle-même des dictionnaires, tant du point de vue de sa relation avec la syntaxe que de sa combinaison lexicale. Il fait aussi dans son article un bilan de l’évolution qu’a connue la lexicographie catalane au cours du xxe siècle. L’article suivant est de Guillermo Rojo, académicien titulaire de l’Académie royale espagnole et professeur émérite à l’Université de Saint-Jacques-de-Compostelle. G. Rojo présente les fruits abondants que l’Académie royale espagnole a récoltés au cours des 25 dernières années et qui sont les résultats des efforts réalisés en matière d’informatisation de ses travaux. Il souligne l’importance de Enclave, système qui rassemble et met en relation les travaux de l’Académie royale espagnole en matière de linguistique du corpus. Il évoque également d’autres travaux de numérisation de l’Académie royale espagnole et décrit en détail les caractéristiques des corpus qu’il dirige et les services de consultation créés par l’académie. Le dernier article de cette seconde partie consacrée à la vision des académies est de Hans Van de Velde, membre de la Fryske Akademy (académie frisonne) et professeur à l’Université d’Utrecht. Après avoir présenté la normalisation de la langue frisonne, il donne sa vision en matière de développement numérique, il souligne l’importance de la visibilité de la langue et présente les principaux outils qui ont été créés pour la langue fri-

01-aurkezpena.indd 18

9/12/22 8:57

AURKEZPENA / PRESENTACIÓN / PRÉSENTATION / PRESENTATION

19

sonne. Il rend compte enfin de la réflexion qu’il a menée sur des aspects qu’il est nécessaire d’améliorer en matière de recherche et de développement de l’espace numérique mais aussi de politique linguistique. La troisième partie est consacrée à la place occupée par l’environnement numérique dans la diffusion de la standardisation et où sont exposées plusieurs expériences dans ce domaine. Iolanda Fernández, chargée de communication à l’Académie royale galicienne, présente dans son texte plusieurs idées intéressantes sur le chemin parcouru par l’académie au cours de ces dernières années. La révolution numérique a apporté de nouvelles opportunités pour la diffusion du travail de standardisation mené par l’Académie royale galicienne. Depuis la publication en ligne du dictionnaire en 2012 les consultations n’ont cessé de croître, mais le pari va bien au-delà car il offre aussi des contenus ludiques et didactiques. Ces ressources ont également été utilisées pour apporter une information sur la langue standard et surtout pour renforcer les relations avec les locuteurs, les étudiants et les professionnels, pour connaître leurs besoins et ajuster les réponses d’une part, et d’autre part pour améliorer les comportements vis-à-vis du galicien, car il ne faut pas oublier qu’il s’agit d’une langue minorisée et qu’elle est dans une situation de diglossie. Vincent Rivière, responsable des projets linguistiques de Lo Congrès Permanent de la Lenga Occitana, présente un outil pour la conjugaison des verbes gascons pour un large groupe d’usagers. Cela suppose une innovation très importante car jusque là ce type d’outil n’existait pas pour le gascon. Gilles Souvay, membre du laboratoire de recherche ATILF (Analyse et traitement informatique de la langue française), parle dans son article des dictionnaires électroniques qu’ils ont créés. L’ATILF a élaboré la version électronique du Trésor de la langue française. A partir de là ils ont créé diverses ressources lexicographiques : dictionnaires (modernes, historiques, étymologiques), corpus de textes et autres ressources et outils pour le traitement automatique de la langue. Et enfin la quatrième partie parle des ressources linguistiques et sociales de l’environnement numérique pour la standardisation du basque. Ainhoa Arregi, lexicographe de UZEI et membre correspondante d’Euskaltzaindia, nous montre les résultats d’un exercice qu’elle a réalisé pour étudier la santé dont jouit la langue basque dans l’environnement numérique, prenant comme point de départ quelques indicateurs relatifs à la langue basque. Elle accorde de l’importance non seulement à la normativisation mais également à sa diffusion rapide et adéquate et souligne la responsabilité des professionnels en la matière. Josu Aztiria, directeur de l’Unité de langue et technologie de la fondation Elhuyar, présente les fenêtres d’opportunités dont bénéficie la langue basque dans le domaine de l’intelligence artificielle, et fait un compte rendu des avancées depuis la stratégie symbolique jusqu’à l’apprentissage automatique. Il propose également plusieurs

01-aurkezpena.indd 19

9/12/22 8:57

20

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

champs d’intervention dans lesquels il faut œuvrer. Puis, Olatz Arregi, Iñaki Alegria et Xabier Artola, professeurs à l’Université du Pays Basque et membres du groupe IXA, mènent une réflexion sur la standardisation et les technologies linguistiques, ce qui a été appris sur le parcours et la nécessité de planification. Les ordinateurs, la numérisation, Internet, les livres électroniques, les téléphones intelligents et les réseaux sociaux entre autres choses, sont entrés dans nos foyers et nos entreprises et avec eux les technologies de la langue. La langue basque a commencé à s’adapter au domaine de la technologie et la technologie a commencé très tôt à prendre en compte la langue basque mais, si nous comparons sa situation à celle des langues qui bénéficient de meilleures ressources, elle est encore incomplète. Ainsi, les enjeux pour le futur sont très grands. Dans leur article ils proposent aussi l’orientation et les lignes directrices d’une planification. L’auteur du dernier article de cette quatrième partie est Jean-Baptiste Battittu Coyos, académicien titulaire responsable de la section de Sauvegarde de l’Académie. B. Coyos présente dans son article le nouvel outil d’Euskaltzaindia Euskara eskuz esku (EEE). L’objectif de EEE est d’offrir une assistance pour un meilleur usage du basque standard au Pays Basque Nord, mettant l’accent sur ses particularités, mais aussi de présenter les normes d’Euskaltzaindia d’une manière simplifiée, grâce à un site web créé spécifiquement dans ce but. Toutes ces expériences étant maintenant connues, l’heure est venue de la réflexion puisque nous disposons des outils pour répondre à la question initiale. Cela va être l’enjeu dans un avenir proche.

01-aurkezpena.indd 20

9/12/22 8:57

Presentation We are well into the 21st Century and the digital environment is, without a doubt, part of our lives by now. Artificial intelligence, and language technologies in particular, have entered our everyday, and the Basque language is no exception here. This constituted the motive behind Euskaltzaindia’s decision to organise the seminar «The Digital Environment: Language Standardization and Basque», as part of the academic program commemorating the centenary of its foundation. The seminar was conceived around a central question: how can the digital environment help revitalize the standardization of Basque? With this main objective in mind, we set out to learn about the experiences of other languages, that of Euskaltzaindia itself, and that of Basque institutions. The aim was to firstly move forward in the formulation, evaluation and circulation of Basque’s standardization, to then be able to appropriately address the specific needs of Basque society in relation to the Basque language. For it is ultimately essential that the Academy know about what is going on in the world around it, and measure the work done in the standardization of language. The book has been structured into four parts. The first part analyzes the evolution of Basque’s standardization in the 21st Century: the conditions and characteristics of this process and the role of the digital environment in it. Andoni Sagarna, member of Euskaltzaindia and head of the TIC (Communication and Information Technologies) Committee, describes in his article the different uses that have been made of digital resources and presents the challenges and opportunities for the future. It has been over 50 years since the standardization of Basque began in 1968, and the use of digital resources has evolved considerably since then. In his article, Sagarna offers a detailed account of the development of the standardization of Basque and its relationship with digital resources, highlighting the role of the use of corpus data in language research. In the second part of the book, a number of experts analyze the role of the digital environment in language standardization and the work of language

01-aurkezpena.indd 21

9/12/22 8:57

22

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

academies in this regard. Mathieu Constant, researcher at the University of Lorreine, has developed different procedures for the identification of complex lexical items drawing on the corpus data of the French language. He first describes three methods of automatic identification, and then introduces two different methods for identifying complex units: one via an annotated corpus, another learning method based on lexical resources, and one consisting of the combination of both. Benazet Dazéas, director of Lo Congrès Permanent de la Lenga Occitana, and in charge of the website locongres.org since 2012, authors the following article. One particular highlight among the website’s contents is the ‘multidictionary’ dicod-Òc. After observing that contents were neither structured nor interconnected, they are creating a multi-application in order to interrelate lexicography, inflection, toponymy, and corpus data, with the main objective of being able to offer the option of a unified query. In his article, Manuel González, member of the Galician Royal Academy (RAG) and Professor in Romanic Philology at the University of Santiago de Compostela, discusses the standardization of lexicon and the work of the Galician Academy. He underscores the important role played by the use of digital resources in the writing, revision and dissemination of its dictionary. Joaquim Rafel, member of the Secció Filològica of the Institut d’Estudis Catalans, and Emeritus Professor at the University of Barcelona, describes in his article the changes in the field of lexicography resulting from the progress made in linguistics and the use of computer technology, especially the switch from paper dictionaries to digital ones. He lays a special emphasis on the changes that the dictionary as such, in the way it is understood and conceived, is undergoing, both from the perspective of its relationship to syntax, and from that of lexical combinatory. In his article he also takes stock of the evolution of Catalan lexicography in the 20th Century. The following article is by Guillermo Rojo, member of the Spanish Royal Academy (RAE) and Emeritus Professor at the University of Santiago de Compostela. In the article, Rojo presents the results of the RAE’s efforts over the last 25 years to digitalize its work. He highlights the central role played by Enclave, a system that gathers and establishes links between the work that the RAE has developed in the field of corpus linguistics. Rojo also describes other digitalization projects by the RAE and gives us a detailed account of the specific characteristics of the corpus project that he is directing at the moment, and of the query services created by the RAE. The last article in this section focussing on the work of the national language academies is by Hans Van de Velde, member of the Fryske Akademy and lecturer at the University of Utrecht. After offering an account of the normalization of the Frisian language, he presents his understanding of digital development, highlighting the importance of language visibility and introducing the main tools developed for the Frisian language. He

01-aurkezpena.indd 22

9/12/22 8:57

AURKEZPENA / PRESENTACIÓN / PRÉSENTATION / PRESENTATION

23

ends with a reflection on the different aspects that are in need of improvement, both in terms of research and development of the digital era, and in linguistic policy. The third part of the book focusses on the role played by the digital environment in the social dissemination of standardization, and presents different case studies to explore this. In her text, Iolanda Fernández, head of communication at the Galician Royal Academy, provides a number of interesting insights about the path travelled by the Academy over the past few years. The digital revolution has provided new opportunities for the dissemination of the RAG’s standardization work. Since 2012, when the dictionary was published online, the number of queries has increased continuously. Furthermore, the work of the dictionary is not limited to this, it also offers entertainment and didactic content. In addition, these same resources have been employed to inform about the standard language, and especially, to establish a closer relationship with speakers, students and professionals. The main objective has been on the one hand, to learn about their needs and adjust the dictionary’s responses in relation to them, and on the other, to improve attitudes about the Galician language, for let’s not forget that we are dealing here with a minoritized language which is right now in a situation of diglossia. In his article, Vincent Rivière, head of linguistic projects at Lo Congrès Permanent de la Lenga Occitana, introduces a tool to conjugate Gascon verbs for a broad range of users. This is a significant innovation, as this type of tool did not exist for the Gascon language before. Gilles Souvay, member of the research laboratory Analyse et Traitement Informatique de la Langue Française (ATILF) engages in his article with the electronic dictionaries developed at the laboratory. After producing the electronic version of the Trésor de la Langue Française, the ATILF has developed a number of lexicographic resources: dictionaries (modern, historical, etymological), textual corpus data and other resources and tools for the automatic treatment of language. Lastly, the fourth section of the book engages with the linguistic and social resources of the digital environment for the standardization of Basque. Ainhoa Arregi, lexicographer at UZEI and corresponding member of Euskaltzaindia, presents us in her article with the results of an exercise performed to study the health of the Basque language in the digital environment, taking as its starting point some indicators related to Basque. Not only is normativization important, but also that is quickly and adequately disseminated and, Arregi highlights, the responsibility for this lies with language professionals. Josu Aztiria, director of the Language and Technology Department at the Elhuyar Foundation, outlines in his article the windows of opportunity that are currently open for the Basque language in the era of artificial intelligence, and describes the progress made from symbolic strategy to automatic learning. He also proposes a number of

01-aurkezpena.indd 23

9/12/22 8:57

24

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

fields of intervention in which to get to work. In the following article, Olatz Arregi, Iñaki Alegria and Xabier Artola, lecturers at the UPV (University of the Basque Country) and members of the IXA group, discuss standardization and linguistic technologies, and engage both with the lessons learned so far and the need for planning. Computers, digitalization, Internet, electronic books, smart phones and social media among other things, have all entered our homes and businesses, and, together with these, language technologies have also become part of our everyday lives. Basque began its process of adaptation to the technological context, and technology started to engage with Basque quite early on. And yet, if we compare its particular situation with that of other languages with larger resources behind them, it is still in a state of «incompleteness». And so, the challenges for the future are immense. In their article, the authors propose the direction and main lines of development that the required planning should take. The last article in this final section is authored by Jean-Baptiste Battittu Coyos, member of Euskaltzaindia and in charge of the Tutelary Section of the Academy. In the article, Coyos presents Euskaltzaindia’s new resource, called Euskara eskuz esku (EEE), the aim of which is to provide help for a better use of standard Basque in continental Euskal Herria. The rational behind it is both to make the particularities of the area visible, and, alongside it, to introduce Euskaltzaindia’s rules in a simplified way, via a website designed specifically with this objective in mind. Now that we are familiar with all of these experiences, the time has come to reflect, since we now have the tools necessary to go searching for the answer to the question introduced at the beginning of this text. This is going to be the main challenge for the near future.

01-aurkezpena.indd 24

9/12/22 8:57

Argitarazleei buruz Andoni Sagarna (Donostia, 1947) Nafarroako Unibertsitatean egin zituen Goi Mailako Industria Ingeniaritza ikasketak (1971), eta Letren doktoregoa eskuratu zuen 1988an, Bartzelonako Unibertsitate Autonomoan. Euskaltzain osoa da 2006tik. IKER sailburu eta Gipuzkoako ordezkari izan zen, eta arlo akademikoan corpusgintzan eta hiztegigintzan dihardu bereziki. Euskaltzaindiaren Hiztegiaren eta Orotariko Euskal Hiztegiaren zuzendari da 2014tik, eta IKT batzordeko buru 2007tik. Euskararen modernizazioan jardun du Elhuyar, UZEI eta Eusenor erakundeetan, besteak beste, baita irakasle gisa ere, eta erretiroa hartu aurreko azken urteak Elkar enpresa taldeko I+G+b arloko zuzendari gisa aritu zen. Hainbat agerkaritan idatzi du, bereziki hizkuntzaren teknologiaz. Miriam Urkia (Aretxabaleta, 1965) Euskal Filologia ikasketak egin zituen Deustuko Unibertsitatean (1988) eta hizkuntzalaritza konputazionalean doktoregoa eskuratu zuen 1997an, Euskal Herriko Unibertsitatean. Euskaltzain osoa da 2018tik, eta Gipuzkoako ordezkari 2017tik. Arlo akademikoan corpusgintzan eta hiztegigintzan dihardu bereziki. Euskaltzaindiaren Hiztegiaren arduraduna da 2014tik, eta IKT batzordeko idazkari. Lanbidez UZEIko Lexikografia saileko zuzendaria da, eta hizkuntza-teknologien saileko kide. EHUko IXA taldeko partaide izandakoa, irakasle gisa aritzen da tarteka, eta hainbat argitalpen ere baditu. Euskararen Aholku Batzordeko kidea eta Ingurune Digitala azpiatal batzordeko kidea da.

02-argitarazleari buruz.indd 25

24/11/22 10:05

26

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

Sobre los editores Andoni Sagarna (Donostia, 1947) Estudió Ingeniería Industrial en la Universidad de Navarra (1971), y se doctoró en Letras en 1988, en la Universidad Autónoma de Barcelona. Es miembro de número de la Academia de la Lengua Vasca desde 2006. Fue responsable del área de Investigación y representante de Gipuzkoa, y en el ámbito académico es especialmente activo en disciplinas relativas a la lexicografía y al corpus de la lengua. Es director del Diccionario de Euskaltzaindia desde 2014, y responsable de la comisión de la nuevas tecnologías desde 2007. Ha participado activamente en la modernización del euskera en las organizaciones Elhuyar, UZEI y Eusenor, entre otras, como docente, y en los últimos años antes de su jubilación ejerció como director de I+D+B del grupo empresarial Elkar. Ha escrito en varias publicaciones, especialmente sobre tecnología del lenguaje. Miriam Urkia (Aretxabaleta, 1965) Estudió Filología Vasca en la Universidad de Deusto (1988) y se doctoró en Lingüística Computacional en 1997 en la Universidad del País Vasco. Es miembro de Euskaltzaindia desde 2018 y delegada de Gipuzkoa desde 2017. En el ámbito académico, esta especializa en corpus y lexicografía. Es responsable de Vocabulario Vasco desde 2014 y secretaria de la Comisión de Nuevas Tecnologías. De profesión, es directora del Departamento de Lexicografía de UZEI. Antigua miembro del grupo IXA de la UPV/EHU, trabaja ocasionalmente como docente y tiene varias publicaciones. Es miembro del Comité Asesor del Euskera y miembro del subcomité de Entorno Digital. Les éditeurs Andoni Sagarna (Saint-Sébastien, 1947) Il a étudié l’Ingénierie industrielle à l’Université de Navarre (1971) et a obtenu un doctorat en Lettres en 1988 à l’Université autonome de Barcelone. Il est membre titulaire d’Euskaltzaindia depuis 2006. Il a été responsable de la section de Recherche de l’Académie et délégué du Guipuscoa. Il est très actif dans des disciplines ayant trait à la lexicographie et au corpus de la langue. Il est direc-

02-argitarazleari buruz.indd 26

24/11/22 10:05

ARGITARAZLEARI BURUZ / SOBRE LOS EDITORES

27

teur du Dictionnaire d’Euskaltzaindia et du Dictionnaire basque général depuis 2014. Il est responsable de la commission des Nouvelles technologies depuis 2007. Il a pris une part active dans la modernisation de la langue basque au sein d’Elhuyar, d’UZEI et d’Eusenor, comme professeur, et les dernières années avant son départ à la retraite il a été directeur de I+D+B du groupe Elkar. Il a écrit dans plusieurs publications, plus particulièrement à propos de la technologie du langage. Miriam Urkia (Aretxabaleta, 1965) Elle a étudié la Philologie basque à l’Université de Deusto (1988) et a obtenu un doctorat en Linguistique informatique en 1997 à l’Université du Pays Basque. Elle est membre titulaire d’Euskaltzaindia depuis 2018 et déléguée du Guipuscoa depuis 2017. Elle est spécialiste du corpus et de la lexicographie. Elle est responsable du Dictionnaire basque depuis 2014 et secrétaire de la commission des Nouvelles technologies. En ce qui concerne son activité professionnelle, elle est directrice du département de Lexicographie d’UZEI. Elle a été membre du groupe IXA de l’Université du Pays Basque et travaille occasionnellement comme professeur. Elle est auteure de plusieurs publications. Elle est membre de la commission consultative de la langue basque et de la sous-commission d’environnement numérique. About the editors Andoni Sagarna (Donostia, 1947) He studied Industrial Engineering at the University of Navarra (1971), and received a PhD in 1988 at the Universidad Autónoma de Barcelona. He is a member of the Basque Language Academy since 2006. He was head of the Research Area and representative of Gipuzkoa, and within the academic context, he is especially active in disciplines related to lexicography and language corpus. He is Director of Euskaltzaindia’s Dictionary since 2014, and head of the Committee for New Technologies since 2007. As a lecturer, he has been an active contributor to the modernization of Basque within organisations such as Elhuyar, UZEI and Eusenor, among others, and in the few years previous to his retirement, he was Director of the I+D+B Department at the business group Elkar. He has written articles, predominantly about language technology, for various publications.

02-argitarazleari buruz.indd 27

24/11/22 10:05

28

INGURUNE DIGITALA, HIZKUNTZEN ESTANDARIZAZIOA ETA EUSKARA

Miriam Urkia (Aretxabaleta, 1965) She studied Basque Philology at the University of Deusto (1988) and received a PhD in Computational Linguistics in 1997 from the University of the Basque Country (UPV). She is a member of Euskaltzaindia since 2018 and representative of Gipuzkoa since 2017. Within the academic context, she has specialised in corpus data and lexicography. She is head of Vocabulario Vasco (Basque Vocabulary) since 2014 and secretary of the Committee for New Technologies. She is Director of the Department of Lexicography at UZEI. Former member of the IXA group at the UPV/EHU, she works occasionally as a lecturer and has published various articles. She is a member of the Advisory Committee for Basque, and of the Sub-committee for Digital Environment.

02-argitarazleari buruz.indd 28

24/11/22 10:05

I EUSKARAREN ESTANDARIZAZIOA XXI. MENDEAN: BALDINTZAK, EZAUGARRIAK ETA INGURUNE DIGITALA LA ESTANDARIZACIÓN DEL EUSKERA EN EL SIGLO XXI: CONDICIONES, CARACTERÍSTICAS Y ENTORNO DIGITAL STANDARDISATION DE LA LANGUE BASQUE AU XXIE SIÈCLE : CONDITIONS, CARACTÉRISTIQUES ET ENVIRONNEMENT NUMÉRIQUE THE STANDARDIZATION OF BASQUE IN THE 21ST CENTURY: CONDITIONS, CHARACTERISTICS AND DIGITAL ENVIRONMENT

03-andoni sagarna.indd 29

24/11/22 12:26

03-andoni sagarna.indd 30

24/11/22 12:26

BALIABIDE DIGITALAK EUSKARAREN ESTANDARIZAZIOAN Andoni Sagarna Euskaltzain emeritua

Euskararen estandarizazioan baliabide digitalak nola erabili izan diren eta etorkizunera begira aurreikusten ditugun erronkak eta aukerak aurkeztu nahi nituzke azalpen honetan. 1968an Euskaltzaindiak Arantzazun egin zuen kongresua izan zen euskararen estandarizazioaren abiagunea. Ordutik hona 50 urte baino gehiago igaro dira. Norbanakoontzat denbora luzea da hori, baina denbora laburra dela esan daiteke hizkuntza baten estandarizaziorako. Hala ere, euskarak aurrerapen handia izan du estandarizazioaren aldetik. Abiadura-lasterketa izan dela esan dezakegu. Digitalizazioak, berriz, are abiadura handiagoko lasterketa egin du bost hamarkadotan. Honela laburbil nitzake 1968tik hona digitalizazioak egin dituen urrats nagusiak: •

•

03-andoni sagarna.indd 31

1960ko eta 1970eko hamarkadetan, sistema informatikoak enpresa handietan eta kalkulu-zentroetan bakarrik aurki zitezkeen. Oso mainframe garestiak ziren eta espezialistek bakarrik erabiltzen zituzten. Esate baterako, ingeniaritzako kalkuluetarako eta banketxeetako transakzioak prozesatzeko erabiltzen ziren. COBOL eta FORTRAN lengoaietan neurrira egindako softwareak erabiltzen ziren. 1980ko hamarkadaren hasieran, miniordenagailuak iritsi ziren gure ingurura. Izenak mini- aurrizkia zuen arren, nahiko tramankulu handiak ziren.

24/11/22 12:26

32

•

•

ANDONI SAGARNA

Hala ere, aurreko mainframeak baino txikiagoak eta merkeagoak ziren, eta hainbat erabiltzailek aldi berean erabil zitzaketen, berez prozesatzeko gaitasunik ez zutelako, terminal «ergelak» esaten zitzaienen bidez. Software estandarrik ez zegoen artean, eta, beraz, programak neurrira egin behar izaten ziren. 1980ko hamarkadan asko erraztu zen informatikaren erabilera, mahai gaineko ordenagailu pertsonalak agertu zirenean. Makinak eta periferikoak merkatu ziren, testu-prozesadoreak eta datu-baseak kudeatzeko aplikazioak hedatu ziren, lehenbiziko OCRak eta sare lokalak agertu ziren. 1986an SGML markaketa-lengoaia sortu zen. Euskarari aplikaturiko hizkuntzaren prozesamenduaren arloko lehen lanak egin ziren. 1990eko hamarkadan, Internet etorri zen, eta horrekin posta elektronikoa eta World Wide Web. Ordutik hona, XML lengoaia eta TEI gidalerroak garatu eta hedatu dira. Sare sozialen erabilera hedatu da.

Euskararen estandarizazioan digitalizazioaren bilakaera hori nola txertatu den eta etorkizunera begira nola ikusten dudan agertzen ahaleginduko naiz. 1976 arte baliabide digitalek ez zuten eraginik izan euskararen estandarizazioan. Urte horretan, hain zuzen, Elhuyar Taldeak Euskaltzaindiari Euskal Matematika Hiztegiaren azterketa aurkeztu eta entregatu zion. Oinarrizko Hezkuntza Orokorreko zortzi mailetako gaztelaniazko testuliburuetan eta euskarazko hainbat eskola-materialetan azaltzen ziren matematikako terminoak bildu zituzten lan horretan; gutxi gorabehera erdarazko 2.500 termino eta euskarazko 1.900. Bi multzoen arteko baliokidetasunak aztertzeko, Unión Farmacéutica enpresaren sistema informatikoa erabili zen, hura kudeatzen zuen SETISA enpresaren eta batez ere bertan lan egiten zuten Harluxet lehengusu baxenabartarren laguntzarekin. Hori izango zen, seguru asko, euskal hitzek sistema informatiko batekin izan zuten lehen harremana. 1970eko hamarkadan bi joera zeuden euskal hiztegigintzan, alde batetik, euskaraz ordu arte landu gabe zeuden arloak landu nahiz, hainbat hiztegi kaleratzen ari ziren. Beste alde batetik, Koldo Mitxelena, Euskaltzaindiaren enkarguz, Azkueren hiztegia eguneratzeko eta osatzeko orotariko bilketa egiten ari zen. Batzuek behar larriei lehenbailehen erantzun nahi zieten, ikerketa sakonen zain egon gabe. Beste batzuek, berriz, beste ezer baino lehen ikerketa sakonak egin behar zirela uste zuten. Berez, bi irizpide horien arteko tirabira ez zen berria. Mikel Zalbidek, 1991n, Euskaltzaindia euskal hitz-altxorraren berrikuntza-lanean: eginkizuna eta jardupidea izenburua zuen txostenean auzi horren aurrean izan ohi ziren jokabideak honela sailkatu zituen: Hiru bide-edo agertu izan dira, lexiko-berrikuntza nola bideratu erabakitzerakoan, hautakizun: nolabait bataiatzearren, aitzindari-bidea deituko diot lehenengoari,

03-andoni sagarna.indd 32

24/11/22 12:26

BALIABIDE DIGITALAK EUSKARAREN ESTANDARIZAZIOAN

33

aitorle-bidea bigarrenari eta, azkenik, elkargile-bidea aurreko beste bien tarte-bitartean dagoen sintesi-bideari.

Horrela zehazten zituen Zalbidek jokabide horien ezaugarriak: Aitzindari-irizpideak hitz berriak sortzera darama hizkuntzalari edo euskaltzaina. Hitz-erabide arruntez normalean: eratorpenez, hitz-elkarketaz, maileguz, zabalkuntza semantikoz edo berrezarpen lexikalez. Ex nihilo sortzera ere jo ohi du inoiz, hizperrigileak, gai horietan euskaraz diharduten euskaldunek benetan zer erabiltzen duten kontuan hartu gabe. Horren aurrez aurreko punta-muturrean dago, bestalde, aitorle-irizpidearen araberakoa: aztertu egin behar da lehenik, jendeak hitz berri horiek nola esaten dituen.

Azken finean, bide honek corpusak lantzea eskatzen zuen. [Hirugarren bidea hobestea litzateke] ez arau «teoriko» egokien aplikatzaile mekaniko izan, eta ez euskaldun-jendearen ezpain-lumetan zabalduenik zeuden esamoldeen aitorle itsu gertatu.

Aitzindari-irizpidearen arabera egin zen lehen hiztegia, unibertsitateko beharrei erantzuteko asmoz, Jakinek 1976an argitaratu zuen Natur Zientziak hiztegia izan zen. Hura izan zen, hain zuzen, 1979tik aurrera UZEIk egin zuen hiztegi teknikoen sail luzearen aurrekaria. Aitzindari-irizpidearen araberakoak izan ziren halaber 1977an Xabier Kintana, Joseba Tobar eta bestek egindako Euskal hiztegi modernoa eta Luis Mari Mujikaren Hiztegi orokor-teknikoa. Biek Arantzazuko erabakietan eta Azkueren Hiztegian zuten oinarri nagusia. Kintanarenak bigarren bertsio bat izan zuen, Hiztegia 80 izenburuaz argitaratu zena. Euskarazko corpus bat informatika erabiliz arakatzeko lehenbiziko saioa Ibon Sarasolari zor zaio. Garai hartan Gipuzkoako Aurrezki Kutxa Probintzialak enkargatu zion hiztegigintza-egitasmoaren barruan egin zuen lan hori. Helburua zen idazle garaikideek erabiltzen zituzten hitzak aztertzea, batasunerako aldaera egokienak izango zirenak proposatzeko, benetako erabileraren maiztasuna kontuan hartuz. Aztergaitzat 1977an euskaraz argitara eman eta garai bertsuan egindako guztia hartu zuen, sei milioi testu-hitz baino gehiagoko corpusa osatzen zuena. Erabil zitzakeen baliabideak kontuan izanda, corpus osoa aztertu beharrean, haren 800.000 testu-hitz inguruko lagin bat aztertu zuen. Hasieran esan dudan bezala, 1970eko hamarkadan gure inguruan aurki zitezkeen sistema informatiko bakarrak mainframe handiak ziren. Lan horretan erabili zena Donostiako EUTGko (gaur egun Deustuko Unibertsitatearen Donostiako campusa esaten zaioneko) kalkulu-zentrokoa izan zen. Testuak sartzeko txartel zulatuak erabili zituzten, garai hartan ohikoa zen bezala.

03-andoni sagarna.indd 33

24/11/22 12:26

34

ANDONI SAGARNA

Laginaren tamaina aukeratzeko garaian, ordenagailu hari jar ziezaiokeen lana eta azterketa egiteko erabil zitezkeen dirua eta denbora erabakigarriak izan ziren. Ordenagailuaren emaitzetako bat konkordantzia edo corpus zerrendatua zen, paperean emana, hau da, lagineko hitzen agerraldi guztien zerrenda, alfabetoaren hurrenkeran emana, ezkerreko eta eskuineko testuinguru-zati batzuekin. Hori 800.000 errenkadako zerrenda zen, inprimategi bidez argitaratzeko gehiegizkoa. Horregatik, ordenagailuaren inprimagailuaz baliatuz, ikertzaileentzako ale batzuk egin zituzten, liburutegi batzuetarako. Dena den, publiko zabalarentzako hiru tomotan eskaini zituen ondorioak 1982an, Gaurko euskara idatziaren maiztasun-hiztegia titulupean. Maiztasunen datuak gero OEHn jaso ziren Dfrec atalean. Lematizazioa ezin izan zuten ordenagailu bidez egin, garai hartan ez zegoelako horretarako baliabide teknikorik. Hori bai, hitzen maiztasunekin egin beharreko kalkuluetan, laginaren adierazgarritasunari buruzkoetan adibidez, ordenagailua guztiz lagungarria gertatu zen. Bistan da lan hau Zalbidek zioen aitorle-irizpidearen araberakoa izan zela. Aurrerapauso aipagarria izan zen metodologiaren ikuspegitik. UZEI 1976an lanean hasi zenean, hustuketa-fitxen kopurua izugarri handia egiten hasi zenez, baliabide informatikoen beharra ikusi zen, fitxak gordetzeko eta zerrendak egiteko. Soluzioa Deustuko Unibertsitatearen lokaletan zegoen baina unibertsitatearen barrukoa ez zen Instituto Deusto S.A. enpresaren zerbitzuez baliatzea izan zen. Bankuei eta enpresa handiei zerbitzua ematen zien kalkulu-zentro horrek, ordenagailu handien bitartez. Laster sentitu zuen, ordea, UZEIk sistema informatiko propioa izateko premia. 1980ko hamarkadaren hasiera hartan ez zen garbi ikusten hori lor zitekeenik. UZEIk euskal informatikari-talde bati aholkua eskatu zion. Bildutako guztien iritziz, UZEIko lanerako sistema informatiko propioa izatea eta erabiltzea ezinezkoa zen. Batek bakarrik esan zuen baietz, Klaudio Harluxet zenak zehazki. Honeywell-Bull etxearen Mini6 ordenagailu bat eta Fortran lengoaian neurrira kodetutako datu-base bat prestatu ziren. Soluzio erabat ez-konbentzionala garai hartarako. Sistema handietan garai hartan erabiltzen ziren datu-baseak, luzera finkoko eremuak erabiltzen zituztenak, ez ziren egokiak UZEIko lanerako. Harluxetek proposatu zuena, aldiz, malgua zen eta hardwareari baliabide gutxi eskatzen ziona. Horrela lortu zen hiztegigintzan ziharduen etxe batek, mainframeetara eta kalkulu-zentroetara jo gabe, sistema informatiko bat erabiltzea. Hala ere, garai hartan hiztegiak paperean soilik argitaratu ziren. 1978-1981 bitartean UZEIk 8 hiztegi tekniko argitaratu zituen: Banka, Fisika, Zoologia, Kimika, Politika, Psikologia, Ekonomia eta Enpresa hiztegiak, lehen aipatutako gizartearen eskariari erantzun nahian. Ekoizpen ugari horren aurrean iritzi desberdinak zeuden. Eusko Jaurlaritzatik Euskaltzaindiari euskal hiztegigintza gidatzeko iritsi zitzaion eskeak hauxe zioen:

03-andoni sagarna.indd 34

24/11/22 12:26

BALIABIDE DIGITALAK EUSKARAREN ESTANDARIZAZIOAN

35

[…] zuzenean edo zeharbidez gai honekin dihardutenen artean dauden oinarrizko eritzi-desberdintasunak, inoiz ez bezalako gordintasunez ari dira azkenaldi honetan kaleratzen.

Luis Villasante euskaltzainburuak, eskari horren aurrean, bilkura berezi batzuk antolatu zituen 1981eko abenduan Hondarribian. Bilkura horien ondorioa hiztegigintzari buruzko adierazpen bat izan zen. Hor hiztegigintzaren hiru hiztegi mota bereizten ziren: Orokorra, Hiritartua eta Espezializatuak. Hiztegi orokorrari zegokionez, esaten zen Euskaltzaindiak aspaldidanik hasiak zituen lanak aurrera zeramatzala, ahalik eta lasterren buru emateko asmoz. Mitxelena lantzen ari zen hiztegiaz ari zen, noski. Hiritartuaz, berriz, bilkura hartan beharrezkoa ikusi zela batzorde bat sortzea, horretarako behar ziren gaiak, ahalak eta lankideak biltzeko. Espezializatuez esaten zen ez zirela Euskaltzaindiaren lanak hiztegi horiek sortzea eta banan-banako azterketa egitea, hizkuntzari eta euskararen egiturari dagozkion funtsezko puntuak zaintzea izan ezik. Handik laster, 1982ko martxoan, Euskaltzaindiak irizpide horien araberako lehen erabakiak hartu zituen: Mitxelenaren lana bideratzeko, Gasteizko ordezkaritzan lantoki bat, laguntzaileak eta tresnak jartzea, Ibon Sarasola lagun zuela, eta hiztegi hiritartua bideratzeko asmoz, Hiztegigintza batzordea izendatzea. Gauzak, hala ere, ez ziren hain bizkor joan. 1984 arte ez ziren bideratu Eusko Jaurlaritzak eta Autonomia Erkidegoko hiru diputazioek jarriko zituzten dirulaguntzak. 1987an, OEHren paperezko lehen liburukia aurkeztu zenean, Luis Villasante euskaltzainburuak egin zuen hitzaurrean honako hau esan zuen: Bestalde, hiztegi hau hasi zenean ez zeuden teknika eta tresna berriak daude gaur —ordenagailua batipat—.

OEH egitasmoaren helburua hiztegia paperean argitaratzea zen. Hiztegia lantzeko bi prozesutan erabili zen informatika. Batetik, corpus zerrendatua prestatzeko, Eusko Jaurlaritzaren Informatika Erakundearen (EJIE) sistema informatikoa erabili zen. Sistema horretan 300 liburu inguruko testuak eskuz sartu zituzten eta hortik 4 milioi testu-hitz inguruko konkordantzia edo corpus zerrendatua atera zuten. Hiztegia erredaktatzeko, berriz, testuak prozesatzeko Wang makinak erabili zituzten aldi batean, eta PC ordenagailuak gero. Hiztegiak oso egitura konplexua du: lemak, aldaerak, erreferentzia gurutzatuak, euskalki-markak, tradizio lexikografikoa, tradizio literarioa, erreferentzia bibliografikoak, adierak gaztelaniaz edo frantsesez, kategoria gramatikalak, erabilera-adibideak, hitz konposatuak eta esamoldeak, etimologia, etab. ditu. Hori guz-

03-andoni sagarna.indd 35

24/11/22 12:26

36

ANDONI SAGARNA

tia ondo bereizita dago tipografia bidez, paperezko obraren irakurleak interpreta dezan, baina egitura hori ez dago datu-base batean antolatua. Euskaltzaindiaren Gramatika batzordeak 1987an aspalditik zeukan asmo bati heltzeko erabakia hartu zuen: Orotariko Euskal Hiztegiaren corpusa informatika bidez erabiltzea bere lanerako. 1989an BILEGI izeneko egitasmoaren bidez lortu zen helburu hori. EJIEren sistema informatikotik atera ziren egokiak ziren edukiak, MISTRAL sistemara pasatu eta bekadun batek prestatu zuen batzordeak txostenak egiteko behar zuen materiala. OEHren lanak abian jarri ziren urte berean, 1984an, Hiztegigintza batzordeko idazkari Mike Zalbidek aurkeztu zuen epe luzerako plana onartu zuen Euskaltzaindiak. Hor, besteak beste, Lexikologi Erizpideen Finkapena (LEF) eta Egungo Euskararen Bilketa-lan Sistematikoa (EEBS) egitea proposatzen zuen. Hortik aurrera, ikusiko dugun bezala, aitzindari-irizpidearen eta aitorle-irizpidearen araberako lanak paraleloan garatu ziren. 1985 inguruan UZEIra lehen Macintosh ordenagailuak heldu ziren eta handik laster makina horietan datu-baseak kudeatzeko sistema eta programazio-lengoaia aurreratua zituen 4ème Dimension softwarea. Gertakari horiek oso garrantzitsuak izan ziren, corpusen prozesamendua kalkulu-zentroetako sistema informatikoetatik askatzen zutelako. Oso garai egokian etorri ziren gainera, zeren Egungo Euskararen Bilketa-lan Sistematikoa abian jartzeko tenorea baitzetorren. 1986ko urriaren 24 eta 25ean Larraun-Lekunberrin Euskaltzaindiaren Hiztegigintza batzordeak, hiztegigintzan, komunikabideetan, herri-administrazioan eta beste arlo batzuetan ziharduten hainbat lagunekin batera egin zituen gogoeta-saio batzuetan, egitasmo horrek zer epe hartu behar zuen zehaztu zen. Aztertu beharreko testuak xx. mendearen hasieratik ikerketa egiten zen garaia artekoak izan behar zutela erabaki zen. Euskaltzaindiak, bilketa-lan honen garrantzia azpimarratu arren, argi eta garbi azaldu zuen, 1987ko urtarrilaren 31ko bilkuran hartutako erabakian, ez zuela berak bilketa-lan sistematiko hori, burutik burura, bere gain hartzeko asmorik, eta ez zuela berak bilketa hori egiteko lantalde propiorik sortu eta beharrezko baliabidez hornituko, eta lehendik lanean ari ziren elkarte eta lantalde beregainen bidez burutu beharko litzatekeela. Egin zen deialdi ireki batera UZEI aurkeztu zen eta aukeratua gertatu zen, Euskaltzaindiaren batzorde baten kontrol akademikoaren pean egitasmoa gauzatzeko. UZEIk eta Eusko Jaurlaritzak hitzarmen bat sinatu zuten eta lanak abiatu ziren. xx. mendeko euskarazko produkzio idatzia inbentariatu eta sailkatu zen, testu-masa, euskalkia eta testu mota kontuan izanda. Corpusak guztira 227 milioi testu-hitz zeuzkan. Eskura zitezkeen baliabideak eta lana burutzeko har zitekeen denbora kontuan izanda, laginketa geruzatuz hautatutako 2 milioi testu-hitzeko lagin bat erabiltzea erabaki zen, horrekin 40.000 lema lortzeko asmoz.

03-andoni sagarna.indd 36

24/11/22 12:26

BALIABIDE DIGITALAK EUSKARAREN ESTANDARIZAZIOAN

37

Lagina osatzen zuten testuen % 90 OCR bidez digitalizatu eta ondoren eskuz zuzendu ziren. Konkordantzia lortzeko programa 4ème Dimensionen programazio-lengoaia bisuala erabiliz lortu zen. Honen aurretik aipatu diren konkordatzien aldean, honetan corpusaren egitura esplizitatuta zegoen datu-basean, eta, aurrerago ikusiko dugun bezala, horrek ahalbidetu zuen corpusak egituratzeko estandarrak sortu ziren garaian haietara egokitzea eta beraz erabiltzaileek bilaketa zehatzak egitea. Garai hartan lematizatzaile automatikorik ez zegoenez, lematizatze-lana errazteko estrategiak asmatu behar izan ziren. Lehenik eta behin, arazoak identifikatzeko eta soluzio egokiak bilatzeko, xx. mendearen hasierako 60.000 testu-hitzeko corpus batekin proba pilotu bat osatu zen. Trebetasun handiko giza lematizatzaile batek, Baionako HIZKIA etxeak prestatutako RTerm programa baliatuz, eskuz lematizatu zuen, eta, horren ondoren, corpus osoa lematizatzeko sistema erdi automatiko bat erabili zen. Corpusaren lematizatu gabeko atal bat hartzen zen eta, horko forma bati aldez aurretik eskuz lema bat esleitu baldin bazitzaion, sistemak lema huraxe atxikitzen zion. Ondoren giza lematizatzaileak errepasatzen zuen makinak egindakoa, eta, egokia ez bazen, zuzendu egiten zuen. Hurrengo corpus atala hartzen zenean, gerta zitekeen forma bati ordu arte lema bakarra egokitu izana. Kasu horretan makinak lema horixe atxikitzen zion. Forma bati lema bat baino gehiago esleitu izan zitzaion kasuetan, maiztasun handieneko lema atxikitzen zion. Gero, berriro ere, giza lematizatzaileak okerrak zuzendu eta beste corpus atal batekin gauza bera egiten zen. Horrela denbora aurreztea lortu zen. 1991n burutu zen 1900-1987 epeko corpusaren azterketa. Orduan bigarren aldi bat ireki zen, helburutzat xx. mendearen bukaera arteko azterketa zuena. Lehen aldian erabili zen eredu estatistiko berbera jarraitu zen bigarrenean ere, emaitzak koherenteak izan zitezen, nahiz eta aztertu beharreko laginaren tamaina jaitsi beharra izan zen, aldi horretan euskal testuen ekoizpena asko handitu zelako, eta, hori egin ezean, mendearen lehen erdiaren atala ezkutaturik geratuko zelako. Bi aldiak kontuan izanda, 764.505.796 hitzek osatzen zuten unibertsotik 4.657.165ek osatu zuten lagina. Lemen kopurua 40.000tik 100.000tik gora igo zen. Bigarren aldi horretan testu batzuk euskarri digitalean lortu ziren. Dena den, informatizazioaren ikuspegitik, berrikuntzarik handiena dokumentuak SGML markaketa-lengoaiaren bidez etiketatzea izan zen. Horri esker, corpusaren erabiltzaileak testuak letra-tipo desberdinetan aurki zitzakeen, jatorrizko testuan zeuden bezala, eta, gainera, erdarazko zatiak, aipuak, metahizkuntza eta bestelakoak ere markatuta aurki zitzakeen, egilearen erabilera bereziak edo beste norbaiti hartuak agerian utziz. Horixe izan zen euskarazko corpus bat nazioarteko estandar baten arabera egituratu zen lehen aldia.

03-andoni sagarna.indd 37

24/11/22 12:26

38

ANDONI SAGARNA

1992an Euskaltzaindiak Hiztegi Batuko azpibatzordea izendatu zuen, euskarazko hitzen ortografia batua finkatzeko xedeaz. Azpibatzorde horrek OEH eta EEBS corpusak aztertuz egingo zituen proposamenak. Horretarako, UZEIk EJIEtik OEHren corpusa eskuratu zuen eta EEBSrekin batera Oracle datu-base bat antolatu zuen. Lematizazio-lana arinago egiteko, automatizatu beharra zegoen, baina hori ez zen gauza erraza, euskararen morfologiaren izaera eranskariarengatik. Miriam Urkiak eta EHUko IXA taldeko Iñaki Alegriak beren tesietan MORFEUS prozesadore morfologikoa garatu zuten, euskara batua automatikoki lantzeko edozein tresnatarako oinarri edo abiapuntu izango zena, besteak beste EUSLEM euskarazko lematizatzaile/etiketatzaile automatikoarena eta IXAren Euskararen Datu-Base Lexikalarena (EDBL). 1991-1999 epean EEBSko corpusa automatikoki lematizatu zen, UZEIren eta IXA taldearen elkarlanaren ondorioz sortutako EUSLEM lematizatzaile automatikoa baliatuz. Baina, hemen ere, RTerm-ekin egin zen bezala —askoz ere modu azkarragoan, noski—, guztia berrikusi zen eta eskuz zuzendu, osatu edo desanbiguatu, beharrezkoa zenean. Azpibatzordearentzat egin behar ziren txostenak prestatu ahal izateko, informazio hori datu-base lexikografiko batean antolatu zen, Hiztegi Batuko datu-basea deitu izan zaionean. Datu-base horretan jasotzen ziren hitz-forma bakoitzaren erabilerak, forma arautu baten proposamenerako azalpenak, 105 iritzi-emailek osaturiko sare batetik zetozen ohar, proposamen eta kritikak, Hiztegi Batuko azpibatzordeak bere erabaki-proposamenak landu zitzan, hortik ateratako dokumentazioan oinarrituta. UZEIk kudeatzen zuen datu-basea eta prestatzen zuen azpibatzordearentzako dokumentazioa. Hitzen forma arautuak Euskaltzaindiaren Osoko bilkurak erabakitzen zituen eta arau gisa paperean argitaratzen ziren. 2000. urtean Hiztegi Batuaren ordura arteko forma arautu guztien lehen argitaraldia egin zen paperean, Euskera agerkariaren ale berezi batean, 20.000 formarekin. 2000. urtean sarean jarri zen Euskaltzaindiaren webgunea eta urte berean Euskaltzaindiaren IKT zerbitzua sortu zen. 2002an webgunean, eduki orokorrez aparte, estandarizazioarekin zerikusia zuten eduki batzuk zeuden: Euskal Onomastikaren Datutegia (EODA), Euskaltzaindiaren arauak, Hiztegi Batua eta, Euskaltzaindiak eta Euskaltelek sinatu zuten hitzarmenaren bidez, xx. mendeko corpus estatistikoaren (EEBSren emaitza) kontsulta, eta baita euskararen erabiltzaileen kontsultak jaso eta erantzuteko JAGONET zerbitzua ere. Euskaltzaindiak 2005. urteko maiatzean Argomaizen egin zituen XIV. Barne Jardunaldietan Euskal Corpus Onomastikoa (ECO) proiektua onartu zuen, euskarazko izen propio edo berezien ahalik eta corpus osoena biltzeko asmoarekin. Corpusa, berez, 1999an hasi zen lantzen, baina 2005ean egitasmo izaera

03-andoni sagarna.indd 38

24/11/22 12:26

BALIABIDE DIGITALAK EUSKARAREN ESTANDARIZAZIOAN

39

eman zitzaion. Corpus horretako informazioa taula anitzeko datu baseetan antolatua dago, MS Access softwarearen bidez. Abiapuntua, Nafarroako Toponimia eta Mapagintza bildumako ehun bat mila leku-izen izan ziren. Hasierako oinarri horri Euskaltzaindiak Euskal Herriko nahiz kanpoko lekuen, ponte-izenen eta euskal deituren arloan eman dituen arau nahiz irizpenetako izen bereziak ere gehitu zaizkio, eta baita Akademiak argitaratu dituen beste zenbait izendegitan kontsultagai dauden toponimoak ere. Datu-base horretan datu asko daude, denek, ordea, ez dute berme maila berbera, ezta legezko eskakizun berberak ere. Izan ere, Onomastika batzordearen lanen oinarri izateko sortua zen eta ez argitaratzeko. Bermerik handieneko datuak webgunean kontsultagai jarri izan dira Euskal Onomastika Datutegia (EODA) delakoan. Gaur egun egoera hori aldatuta dago, geroago esango dudan bezala. Euskaltzaindiaren beste egitasmo bat Gasteizko Toponimiaren bilketa, finkapena eta argitalpena helburutzat duena da. Egitasmoa 1996an abiatu zen. Datu-basea Filemaker softwarearen bidez kudeatu izan da. Guztira 400.000 erregistro inguru dauzka eta erregistro bakoitzak 38 eremu. Emaitzak paperean hainbat liburukitan argitaratzeaz gainera, horien PDF bertsioko fitxategiak doan jaitsi daitezke webgunetik. Argomaizen 2005ean izan ziren Euskaltzaindiaren XIV. Barne Jardunaldietan beretan Orotariko Euskal Hiztegian aldi hartan egitekoak ziren lanak burututzat eman ziren eta orduan Euskara-euskara hiztegia izendatu zen egitasmoa abiarazi zen, Ibon Sarasolaren zuzendaritzapean. Hark, Barne Jardunaldietan egin zuen azalpenean, esan zuen egitasmoaren helburua zela «Hiztegi Batuko lehen itzuliko hitz-zerrendei mamia jartzea, horretarako oinarri eta adibide-iturri gisa OEH aztertu eta egokituz». Erredakzioa hasi eta urtebetera, 2007an Euskaltzaindiak Etxalarren izan zituen XV. Barne Jardunaldietan egitasmo horrek aldatua zuen izena: Euskaltzaindiaren Hiztegia. Adierak eta adibideak esaten zitzaion eta handik aurrera halaxe deitu izan zaio. Xedea zen 2000. urtean Euskera agerkarian argitaratu zen eta hogei bat mila hitzez osatua zen Hiztegi Batuko zerrendako hitz-sarrerak erredaktatzea, artean Hiztegi Batua bukatu gabe baitzegoen. Hiztegia erredaktatzeko, aplikazio informatiko berezia sortu zuen UZEIk, Euskaltzaindiaren enkarguz. Egitura kodetzeko, XML eta TEI (Text Encoding Initiative) estandarrak aukeratu ziren. Barne Jardunaldi haietan, Informazio eta Komunikazio Teknologien bidez Euskaltzaindiaren edukiak gizarteratzeko plana onartu zen. Plan horretan garrantzi berezia ematen zitzaien euskarazko testu-corpusak elikatzeko, egituratzeko, estandarizatzeko eta erabiltzaileen eskueran jartzeko lanak koordinatzeari eta Euskararen Erreferentzia-Corpusa lantzeko oinarriak jartzeari. Plana gauzatzeaz arduratuko zen Informazio eta Komunikazioaren teknologiak (IKT Batzordea) izenpeko egiturazko batzorde berria sortzea ere onartu zen.

03-andoni sagarna.indd 39

24/11/22 12:26

40

ANDONI SAGARNA

2007 arte Euskaltzaindiak paperean banatzen zituen arauak harpidetza bidez. Urte horretan Arau-erabakien Banaketa Elektronikoa izeneko zerbitzua (e-AEB) jarri zuen abian, eta horrela aurreko harpidetza-sistema baztertu eta arauak, izendegiak eta gomendioak webgunetik doan jaisteko aukera eman zuen. Erabiltzaile aurreratuei eduki horien XML fitxategiak eskuratzeko modua ere eman zitzaien. Garai hartan webgunean eskaintzen zen Hiztegi Batuko zerrendak 31.782 hitz zituen guztira, 27.690 sarrera eta 4.092 azpisarrera. 2010. urtea arte handituz joan zen Hiztegi Batua 36.016 sarrera eta 6.052 azpisarrera izan arte. Oinarrizko hiztegi ortografikoa finkatuta geratu zen horrela, eta paperean nahiz webgunean kontsultagai jarri zen. 2010eko martxoan beste bi tresna jarri ziren webgunean: Hiztegi Batu Oinarriduna (HBO) eta Lexikoaren Behatokia. Hiztegi Batu Oinarriduna Hiztegi Batuko forma bakoitza erabakitzeko erabili zen dokumentazioaren berri ematen duen datu-base bat da, Internet bidez edonork kontsulta dezakeena. Lexikoaren Behatokia, berriz, xxi. mendeko euskararen corpusa da. 2007an Hiztegi Batuko Lantaldeak (lehen azpibatzordea zenak) txosten bat aurkeztu zion Euskaltzaindiaren Zuzendaritzari, aurrerantzean izan zitzakeen eginkizunak proposatuz. Txosten horretako proposamen nagusia zen komunikabideek argitaratzen duten materialarekin corpus monitore bat, hau da, hizkuntza denborarekin nola aldatzen ari den erakusten duen corpus bat etengabe elikatzen eta automatikoki lematizatzen eta etiketatzen joatea, eta, corpus horretan oinarrituz, lexikoaren erabileraren behaketa eta azterketak egitea. Halaxe sortu zen Lexikoaren Behatokia eratzeko asmoa. Eratu beharreko corpusak ezaugarri hauek izatea proposatzen zen: batez ere 2000. urtetik aurrera sortutako testuz osatua izatea, euskaraz sortuak nahiz itzulpenak biltzea, testu oso espezializatuak edo hizkuntzaren erabilera berezia dutenak salbu, beste era guztietakoak onartzea, eskuragarritasuna eta automatikoki lantzeko erraztasuna hartzea testuak hobesteko irizpidetzat eta etengabe elikatzen joatea. Euskaltzaindiaren ametsa erreferentzia corpus handi, orekatu, lematizatu, etiketatu eta linguistikoki anotatua izatea da, eta badu esperantza amets hori hezurmamitzeko. Bitartean Lexikoaren Behatokia helburu hori duen corpus monitore oportunista da, baina, testuen sailkapen baten bidez, oreka kontrolatua duena. Testu guztien egitura-etiketatzea eta etiketatze linguistikoa (lema, kategoria, azpikategoria eta kasua) XML eta TEI estandarren arabera egiten dira. Urtero testu gehiagorekin elikatzen da, edukien jabeekin hitzarmenak sinatuz, haien erabilerak berme juridiko osoa izan dezan, eta prozesatu ostean webgunean jartzen dira kontsultagai. Horiek dira, hain zuzen, gaur egun testu-bilduma batek corpustzat hartua izateko izan behar dituen gutxieneko ezaugarriak. Oraintxe bertan 72 milioi testu-hitz dauzka corpusak.

03-andoni sagarna.indd 40

24/11/22 12:26

BALIABIDE DIGITALAK EUSKARAREN ESTANDARIZAZIOAN

41

Egitasmo honek duen konplexutasuna kontuan izanda, Euskaltzaindiak, alderdi teknologikoa lantzeko, UZEI, Elhuyar Fundazioa eta EHUren Donostiako Informatika Fakultateko IXA taldea ditu bidelagun. 2009an OEHren paperezko bertsiorako RTF egitura zuen bertsio elektronikoa jarri zen webgunean, XHTML formatura eraldaturik. Bilaketak egitearen aldetik, bertsio horrek oso aukera mugatuak eskaintzen ditu, mikroegitura ez dagoelako esplizitaturik makinarentzat. Hortik 2017 arte bertsio hori eduki berriz hornitu eta osorik berrikusi zen. Urte horietan paperezko hainbat libururen PDF bertsioak ere jarri dira webgunean, esate baterako Gasteizko Toponimia, Onomasticon Vasconiae, Literatura Terminoen Hiztegia, Euskararen Herri Hizkeren Atlasa, EGLU, Euskera agerkaria eta beste hainbat argitalpen. Eduki guztiak Creative Commons lizentziapean jartzen dira, hau da, libreki erabili eta zabal daitezke, aldatu gabe, Euskaltzaindiarenak direla aitortuz gero eta helburu komertzialik gabe. 2012an Euskaltzaindiaren Hiztegia. Adierak eta adibideak paperean argitaratu zen, Hiztegi Batuaren lehen itzuliko 20.000 sarrerak oinarri hartuta, beren definizio, kategoria gramatikal, espezialitate-, erregistro- eta euskalki-markekin, aditz-erregimenekin, eta OEHn, xx. mendeko corpusean eta Lexikoaren Behatokian jasotako adibideekin. 2014an Euskaltzaindiak euskara baturako emandako hiztegia, morfologia, sintaxia, ortografia, onomastika eta ahoskerari buruzko arauak, gomendioak, onespenak eta irizpenak Euskara Batuaren Eskuliburua (EBE) izenburua izango zuen argitalpen baten bidez, bai paperean, bai webgunean, gizarteratzeko erabakia hartu zuen. Baliabide hori modu didaktikoan lantzeko enkargua batzorde ahaldundu suntsikor bati eman zion. 2018an egin zen lan horren lehen argitaraldia. 2015ean IKT batzordeak OEH mikroegituradun hiztegi egituratu gisa lantzea hobetsi zuen, RTF formatuan dokumentu gisa landu beharrean, eta erabaki zuen EHUko Informatika Fakultateko IXA taldeko kideekin gaia aztertzea. Helburu hori lortzeko asmoz, plan hau diseinatu zen: 1. OEHren TEI estandarraren araberako egituraren analisia egitea, hau da, hiztegiaren artikulu guztiak eta bakoitzaren egitura (sarrera, aldaerak, azpisarrerak, adierak, kategoria gramatikalak, adibideak, etab.) deskribatuko lukeen eskema definitzea eta hiztegiaren egituraketa hori automatikoki egiteko parser edo analizatzaileak jasoko lituzkeen erregelak eta alderantzizko bidea egiteko estilo-orria ere lantzea. 2. Migrazioa egitea egitura berrira eta parserra exekutatzen zenean artikulu batzuek salbuespenak baldin baziren, horiek identifikatu eta irtenbide egokia ematea.

03-andoni sagarna.indd 41

24/11/22 12:26

42

ANDONI SAGARNA

3. Barneko erredakzio lanetarako software berria garatzea. 4. Webgunea OEHren egitura berriari egokitzea. Plan horri 2016. urtearen hasieran ekin zitzaion. Garbi zegoen hasieratik egituraketa guztiz automatikoki egitea ezinezkoa izango zela, baina bai ehuneko handi batean, eta bestela ezinezkoa litzatekeela lana. Beharrezkoa ikusten zen, lan horiek egiteko, informatikariekin batera, OEHren erredakzioan lan egindakoek parte hartzea eta halaxe gertatu zen, mikroegituraren konplexutasunagatik. Edizio-ingurune berriaren garapena, OEHrako ez ezik Akademiaren hiztegigintza-egitasmo guztietarako baliagarria izan behar zuena, UZEIri eskatu zitzaion. 2017-2018 urteetan hiztegiaren egitura formala TEIren arabera definitu eta automatikoki TEI egitura horretara migratzeko parserra landu zuen EHUko IXA taldeak. Parser horrek ez du egitura % 100ean automatikoki zehaztu, baina dagoeneko lortu da OEHn bilaketa aurreratuak egitea egituraren atalik esanguratsuenetan, eta emaitzen aurkezpena hobetzea aurreko bertsioan egiten zenaren aldean, baina datozen urteetan zuzenketa asko egin beharko dira. 2016an, Euskaltzaindiaren Hiztegia webgunean kontsultagai jarri zen, paperezko bigarren argitaraldia aurkeztearekin batera. Mikroegitura XML lengoaiaren bidez esplizitatua duenez, hiztegi hau hainbat modutara kontsulta daiteke. Hitz bat bila daiteke sarreretan, adibideetan, definizioetan, erreferentzia gurutzatuetan, antzeko formetan edo taxonetan; hitz-hasiera edo bukaera jakin bat duten hitz guztien artikuluak bila daitezke eta bilaketa konbinatuak egin daitezke euskalki-marken, jakintza-arloen, erregistro-marken eta bestelako marka batzuen konbinazioaren arabera. Bilaketa aurreratuaren emaitzen informazio gehiago ikus daiteke gainera HBOn, OEHn, EHHAn, xx. mendeko corpusean eta Lexikoaren Behatokian. 2017an Euskaltzaindiaren webguneak zituen ahulezien analisi bat egin zen. Informazioaren antolaketa, itxura grafikoa, komunikazio-estrategiak eta mantentzeko eragiketak hobetu beharra ikusi zen. Egitasmo hori gauzatzeko egokiak izan zitezkeen enpresa batzuei beren proposamenak egin zitzaten eskatu zitzaien eta proposamen egokiena egin zuenari esleitu zitzaion lana. Ordutik hona web-guneari hobekuntza asko egin zaizkio, batez ere hainbat edukiren kontsulta aberatsak egiteko. Besteak beste, Euskaltzaindiaren Hiztegia eta webguneko beste datu-base batzuk automatikoki lotzeko prozeduraren beharra ikusi zen. Asmo hori betetzeak ahalegin berezia eskatu du baliabide linguistikoetan, hau da Euskaltzaindiaren Hiztegian, Hiztegi Batu Oinarridunean, Euskal Onomastika Datutegian, Jagonet kontsulta zerbitzuaren datu-basean, Euskaltzaindiaren Arauetan, Literatura Terminoen Hiztegian, Euskara Batuaren Eskuliburuan eta Euskararen Herri Hizkeren Atlasean bilaketa bateratuak egin

03-andoni sagarna.indd 42

24/11/22 12:26

BALIABIDE DIGITALAK EUSKARAREN ESTANDARIZAZIOAN

43

ahal izateko. Euskal Onomastika Datutegiaren kontsultan Euskal Corpus Onomastikoko dokumentazioa ikusteko aukera ere badago orain webgunean. Lexikoaren Behatokiaren kontsulta-sisteman zenbait hobekuntza egin dira, eta aurrera doa une honetan Elhuyar egiten ari den Lexikoaren Behatokitik kolokazioak erauzteko sistema baten garapena. Baliabide digitalak euskararen estandarizazioan erabiltzeko egin diren ahaleginen historiak erakusten du informazio eta komunikazio teknologiek aldi berean erronka eta abagunea direla. Bide horretan ikasi dugu, erronkei gogotsu ekinez gero, abaguneei etekina ateratzen zaiela. Horregatik, aurrera begira, are ahalegin handiagoak egiteko asmoa dugu. Ez gara geldituko oraingo garapen mailarekin. Lexikoaren Behatokiak erreferentzia-corpus izatera iritsi behar du eta, lexikografian ez ezik, erabilgarria eta erabilia izan behar du hizkuntzalaritzaren beste arlo batzuetako ikerketan, hizkuntzaren irakaskuntzan, hizkuntzaren soziologian, literaturaren ikerketan eta hizkuntzaren prozesamendu automatikoan, esate baterako. Euskaltzaindiaren hizkuntza-baliabide guztien integrazioa bilatzen dugu. Euskara Batuaren Eskuliburua etengabe eguneratu nahi dugu eta Jagonet zerbitzuari berehalakotasuna eta interaktibotasuna eman. Gurpilak ez du gelditu behar, aitzitik, teknologiaren abiadura gero eta handiagoari jarraitzeko, azeleratu ere egin beharko da.

03-andoni sagarna.indd 43

24/11/22 12:26

03-andoni sagarna.indd 44

24/11/22 12:26

II HIZKUNTZA ESTANDARIZAZIOA ETA INGURUNE DIGITALA: AKADEMIEN ZEREGINA LA ESTANDARIZACIÓN DE LAS LENGUAS Y EL ENTORNO DIGITAL: LABOR DE LAS ACADEMIAS STANDARDISATION DE LA LANGUE BASQUE ET ENVIRONNEMENT NUMÉRIQUE : TRAVAIL DES ACADÉMIES THE STANDARDIZATION OF LANGUAGES AND THE DIGITAL ENVIRONMENT: WORK OF THE ACADEMIES

04-manuel gonzalez.indd 45

24/11/22 10:22

04-manuel gonzalez.indd 46

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS EN EL DICIONARIO DA REAL ACADEMIA GALEGA Manuel González González Director del Dicionario da Real Academia Galega

1. Presentación En el título de este congreso, aparte de la referencia al euskera, figuran dos términos fundamentales y de capital importancia para una lengua en proceso de normalización en el siglo xxi: entorno digital y estandarización. Los recursos digitales ocupan un lugar cada vez más nuclear en el estudio de la lengua y en la elaboración e implementación de recursos lingüísticos, fundamentales para el establecimiento y difusión de los estándares. Mi intervención se centrará en el ámbito de la estandarización del léxico y, de manera particular, en el Dicionario de la Real Academia Galega, una herramienta que consideramos fundamental en el proceso de lo que Heinz Kloss en 1969, hace ya 50 años, denominó la planificación del corpus de la lengua gallega. La informática y el entorno digital constituyen la armazón imprescindible en el proceso de redacción, revisión y difusión del DRAG. 2. El DRAG, una obra en revisión permanente Cuando nuestra Academia acordó que su diccionario general debería ser una obra abierta en constante actualización, de esta decisión se derivaban casi necesariamente dos consecuencias:

04-manuel gonzalez.indd 47

24/11/22 10:22

48

MANUEL GONZÁLEZ GONZÁLEZ

a) en primer lugar, que el trabajo de revisión y actualización del Dicionario ha de ser continuado, ya que una obra de este tipo debe responder a las necesidades sociales de cada momento. La sociedad cambia constantemente, y en ningún aspecto de la lengua se plasma y visibiliza esta evolución de un modo tan rápido y tan nítido como en el léxico. b) En segundo lugar, que una permanente actualización del DRAG implica casi necesariamente una edición en línea, que pueda ser actualizada diariamente o en períodos muy cortos de tiempo. Con estas premisas se iniciaron los trabajos de revisión y actualización del DRAG, tratando de utilizar los recursos digitales con los que contamos en el momento actual, en lo que se refiere a: a) la utilización de las fuentes; b) la plataforma de redacción y revisión del diccionario; y c) los procedimientos de acceso de los usuarios a la información de la obra, difusión de su contenido y diálogo con la sociedad. En mi intervención me referiré particularmente a los dos primeros aspectos: la utilización de las fuentes y los procedimientos de redacción y revisión del diccionario. 3. Los recursos digitales y las fuentes del drag Hoy no se entiende la elaboración de un diccionario de lengua sin un corpus que le sirva de soporte; y, al hablar de corpus, no me refiero exclusivamente a los corpus textuales, que son imprescindibles, sino a todo tipo de fuentes que consideramos que deben alimentar una obra lexicográfica como el DRAG. El DRAG bebe fundamentalmente de dos tipos de fuentes, cuya exploración y aprovechamiento sería impensable sin un adecuado entorno digital: las obras lexicográficas anteriores (diccionarios, vocabularios, léxicos…) y un corpus textual representativo del gallego moderno escrito y oral.

04-manuel gonzalez.indd 48

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

49

3.1. Los diccionarios y obras lexicográficas anteriores 3.1.1. El Dicionario de dicionarios da lingua galega No puedo detenerme en la enumeración de todos los diccionarios y vocabularios existentes sobre el gallego anteriores al DRAG, pero permítanme que me refiera a una obra que reúne una buena parte de estos trabajos lexicográficos: el Dicionario de dicionarios da lingua galega, preparado por A. Santamarina, y publicado por la Fundación Pedro Barrié de la Maza (consultable en línea en la dirección http://ilg.usc.gal/ddd/). Esta obra contiene los diccionarios y vocabularios gallegos más relevantes desde el siglo xviii (con las obras del P. Sarmiento y del P. Sobreira) hasta época relativamente reciente, y facilita enormemente el trabajo de documentación histórica, al ofrecernos ordenada cronológicamente toda la información sobre cualquier palabra que aparezca en estas obras lexicográficas. Si buscamos, por ejemplo, la palabra canga, podemos ver como esta voz es tratada en Sarmiento (1746-1755c), Sarmiento (1746-1770), Sobreira (17921797), Payzal (1800c), Rodríguez (1854c), Aguirre (1858), Rodríguez (1863), Pintos (1865c), Cuveiro (1876) , Valladares (1884), Porto (1900c), RAG (19131928), Filgueira (1926), Carré (1928-1931), Acevedo (1932), Carré (1933), Ibáñez (1950), Carré (1951), Rodríguez G. (1958-1961), Otero (1959), Franco (1972), Carré (1979), García (1985), Rivas (2001) TABLA 1 Martín Sarmiento (1746-1755c): Catálogo de voces y frases de la lengua gallega, ed. de J. L. Pensado Tomé (Universidad de Salamanca, 1973)

Canga

04-manuel gonzalez.indd 49

Plauto, Casin., act. II, sc. VI: Deos quaeso.. ut quidem hodie canem et furcam feras. Festo genus quoddam vinculi quod interdum canis appellatur. De esta voz canis el adjetivo canica (que le hay) se origina canga, y es una como golilla en triángulo que ponen en Galicia a cerdos y perros, para que no entren en las viñas cerradas. Acaso los romanos hacían lo mismo, y de ahí llamarían canis a ese instrumento, y a veces le aplicarían al pescuezo de los criados malos. Es voz usada mucho en Galicia, y no la trae Bluteau, ni Calepino la voz canis en esta acepción. El mismo instrumento se usa en la China para los hombres, y allí llaman también canga, que, si no la llevaron los portugueses es cosa singular. Canga en Bluteau es aquella golilla que en Galicia ponen a los bueyes para el yugo, y viene al caso. Algunos dicen que de aquí, canis, viene canalla o gente vil y esclava. CatálogoVF 1745-1755

24/11/22 10:22

50

MANUEL GONZÁLEZ GONZÁLEZ

Martín Sarmiento (1746-1770): Colección de voces y frases de la lengua gallega, ed. de J. L. Pensado Tomé (Universidad de Salamanca, 1970)

[canga]

Una de las voces que se deben agregar a las dichas es canga, voz portuguesa, y muy trivial en Galicia. Canga en general es un triángulo de tres maderos, el cual se pone al pescuezo de cerdos y de perros, en tiempo de los frutos, para que ni entren ni salten en las viñas. En breve, es una golilla o cepo que abraza el pescuezo del animal. Así, no sé si tiene correspondiente propio en el castellano, pues la voz corma, que pudiera ser del caso, significa el cepo para los piés; y aun la misma voz viene del griego cormos que significa tronco o cepo. Los franceses llaman a la dicha canga, carcan, y en la más obvia significación. En las Historias del Oriente en francés es muy común el nombre canga, para significar la canga que se pone por castigo al pescuezo de los delincuentes. Los que no saben que es voz portuguesa, la creen china, persiana, malaya, etc., y yo con ser gallego, dudé al principio si del oriente se había comunicado a Portugal y a Galicia, o si de Portugal al oriente. Mr. Chardin pone una pintura de un delincuente con una molesta canga triangular, que como golilla casi le agarrota el pescuezo. Dice se llama en persiano cronduchakè, que significa collar de dos puntas, y le llama en francés carcan. Otras cangas hay en el Oriente que de ellas se eleva un palo y en el remate una campanilla con la cual va avisando el infeliz cangado que ha merecido aquel suplicio. [...] Hay muchos sitios o lugares con el nombre de Cangas. Hay en Asturias Cangas de Tineo y Cangas de Onís, hay en Galicia Cangas de Morrazo y Cangas de Monforte, el latín de instrumentos correspondientes a esos lugares es Cannicas y su raíz es canna o la caña, v. g.: cannicas, canigas, Cangas. Pero la voz canna no es la raíz de canga, aunque si alguno lo dijese, creyendo que las primeras cangas se hacían con tres cañas en triángulo, no diría cosa que no se pueda admitir como muy verisímil. Colección 1746-1770

Juan Sobreira Salgado (1792-1797): Papeletas de un diccionario gallego, ed. de J. L. Pensado Tomé (Instituto de Estudios Orensanos, 1979) andar co a canga bayxa

Fras. de Ribadavia con que se significa que alguno anda o está triste o abatido o decaído de cuerpo o de ánimo por algún sentimiento, pena, aflicción y dolor. Papeletas

andar coa canga bayxa

Loc. de Ribadavia. Traer la cabeza baja, caída, inclinada. Andar cangado. Papeletas

canga

El collar de madera, que en forma de medio arco, puntas abajo, ponen a los bueyes en Galicia. Papeletas

04-manuel gonzalez.indd 50

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

51

Bernardo Vicente Payzal (1800c): Vocabulario gallego-castellano (edición de Damián Suárez sobre o ms da RAG) Canga

Tarangallo

Canga

Horca

Francisco Javier Rodríguez (1854c): Diccionario gallego-castellano, transcrito do ms da RAG por AS para este diccionario Palo como de una vara, que ponen atravesado por devajo de la garganta de los cerdos y tambien de las cabras para que no puedan pasar ó atravesar los zarzales. Tambien suelen llamar así todo lo que sirve de estorbo. Sarm.

canga

Luís Aguirre del Río (1858): Diccionario del dialecto gallego, ed. de Carme Hermida Gulías, CSIC-IPS, 2007 Golilla o cepo que se pone atravesado en el pescuezo de los cerdos a fin de que non salten las murallas. Port. id.

canga —

—

Yugo.

Francisco Javier Rodríguez (1863): Diccionario gallego-castellano, ed. de Antonio dela Iglesia González, A Coruña 1. Talvina, golilla ó cepo que se pone atravesado en el pescuezo de los puercos ó cerdos, asegurándole por medio de una horquilla para que no puedan saltar y pasar los muros y zarzales. Por la misma razon la suelen poner en algunos paises á los perros y á las cabras. Viene de canna, caña ó vara de que se hacen esas golillas ó cangas. En Sarm. y port. id., en franc. carcan.

Canga

—

—

2. Yugo.

Juan Manuel Pintos Villar (1865c): Vocabulario gallego-castellano, ed. de Margarita Neira e Xesús Riveiro, A Coruña, RAG, 2000 Torga, se toma tambien por toda la cabeza y asi se dice anda co a canga baixa, con la cabeza baja como un cerdo y alude a mala intencion.

canga

Juan Cuveiro Piñol (1876): Diccionario Gallego, Barcelona Talvina, golilla ó cepo que se pone atravesado en el pescuezo de los cerdos, perros y otros animales, asegurándole por medio de una horquilla para que no puedan saltar ni pasar los muros y zarzales.

CANGA — CANGA

04-manuel gonzalez.indd 51

—

Yugo. Racimo pequeño. V. CANGA.

24/11/22 10:22

52

MANUEL GONZÁLEZ GONZÁLEZ

Marcial Valladares Núñez (1884): Diccionario gallego-castellano, Santiago, Imp. Seminario Conciliar Torga, golilla, ó cepo, que se pone atravesado en el pescuezo de los cerdos, asegurándole por medio de una horquilla, para que no puedan saltar, ni pasar los muros y zarzales.

CANGA

Francisco Porto Rey (1900c): Diccionario gallego-castellano, ed. de María Xesús Bugarín e Begoña González Rei;, A Coruña, Real Academia Galega, 2000 f.

Cepo o talvina que, en algunas partes, se pone en el pescuezo de los cerdos fieros y otros animales, para que no puedan pasar los muros y zarzales.

—

—

Racimo pequeño.

—

—

Yugo.

canga

Real Academia Galega (1913-1928): Diccionario gallego-castellano

CANGA

s. f.

Horquilla o artificio formado de tres palos que se pone al pescuezo de los cerdos para que no puedan atravesar muros ni zarzales y entrar en las heredades. Aprendín de carpinteiro Na parroquia de Sigrás A facer cangas aos cochos E caravillas aos cás. C. pop.En algunas partes llámase también CANGALLA y CANGÓN.

—

—

En Sobrado, pieza de madera que sujeta las chedas del carro a la cabezalla, en la parte delantera.

—

—

El yugo de los bueyes. Loc. Andar co-a canga baixa: andar con la cabeza baja, como los taciturnos, pensativos o mal intencionados.

X. Filgueira Valverde, L. Tobío Fernandes, A. Magariños Negreira e X. Cordal Carús (1926): Vocabulario popular castelán-galego (publicado por entregas en El Pueblo Gallego) CANGA

sf.

Torga, golilla, cepo que se pone en el cuello de los animales. Racimo.

Leandro Carré Alvarellos (1928-1931): Diccionario galego-castelán, 1ª ed., Lar, A Cruña, 1926-1931 Canga —

04-manuel gonzalez.indd 52

s. f.

Yugo. Instrumento de madera con que se uncen los bueyes. V. xugo.

—

Cepo que se pone atravesado en el pescuezo de los cerdos para que no puedan escapar. Fig. Carga molesta.

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

53

Bernardo Acevedo y Huelves e Marcelino Fernández y Fernández (1932): Vocabulario del bable de occidente (Del port. canga, yugo). Yugo especial que en vez de unir los bueyes o vacas por su testuz, los une por el cuello. Hoy no se usa este yugo ni, por tanto, la palabra. F.

canga

Leandro Carré Alvarellos (1933): Diccionario galego-castelán, 2ª edizón, A Coruña, Roel Cepo que se pone atravesado en el pescuezo de los cerdos para que no puedan escapar. Figurado: Carga molesta.

canga —

s. f.

Yugo. Instrumento de madera con que se uncen los bueyes. V. Xugo.

José Ibáñez Fernández (1950): Diccionario galego da rima e galego-castelán, Madrid Canga

f.

El yugo

Canga

f.

Yugo. (V. xugo.)

Canga

s. f.

Yugo con que se uncen los bueyes. Cepo para sujetar los cerdos por el pescuezo. Fig.: Carga molesta.

Leandro Carré Alvarellos (1951): Diccionario galego-castelán, 3ª edizón, A Coruña, Roel canga —

s. f.

Yugo. Instrumento de madera con que se uncen los bueyes. V. Xugo.

—

Cepo que se pone atravesado en el pescuezo de los cerdos para que no puedan escapar. Figurado: Carga molesta. Achaque.

Eladio Rodríguez González (1958-1961): Diccionario enciclopédico gallego-castellano, Vigo, Galaxia s. f.

Torga, horquilla, cepo que se pone al pescuezo de los cerdos para que no puedan entrar en las heredades; CANGALLA, CANGÓN.

—

—

Yugo de madera con que se unce la yunta de bueyes; XUGO.

—

—

Pieza de madera que sujeta las CHEDAS del carro a la CABEZALLA.

—

—

Cabeza cabizbaja por los años, por enfermedad o preocupación.

—

—

Palo o madero atravesado en un camino, que estorba o dificulta el tránsito.

—

—

Lo que compone, sienta o combina bien o mal; p. ej.; ese traxe novo non canga ben co eses zapatos vellos.

—

—

Parte del aparejo pesquero denominado CHINCHA, que va unida a cada una de las dos piernas*, y que extienden a ambos lados los COMPAÑEIROS para cercar el pescado. [*No orixinal pernas].

CANGA

04-manuel gonzalez.indd 53

24/11/22 10:22

54

MANUEL GONZÁLEZ GONZÁLEZ

—

—

Cuando los plantíos comienzan a desarrollarse y florecer, nuestros aldeanos suelen colocar la CANGA en el cuello de los cerdos y otros animales que andan sueltos, para evitar que entren en los cercados y causen destrozos en ellos. Esta medida de policía rural la practican todos espontáneamente por conveniencia común, y si alguno se olvida o se descuida, no falta un amigo que se lo recuerde, si es que el pedáneo no interviene amistosamente.

Aníbal Otero Álvarez (1959): Contribución al léxico gallego y asturiano, Oviedo, Archivum IX, pp. 72-90 Pierna del racimo, con uvas. Viñoás. Del Lat. Canna. (CLGA06)

Canga

X. L. Franco Grande (1972): Diccionario galego-castelán, 2ª ed., Galaxia, Vigo s. f.

Torga, horquilla, cepo que se pone al pescuezo de los cerdos para que no puedan entrar en las heredades; cangalla, cangón.

—

—

Yugo de madera con que se unce la yunta de bueyes; xugo.

—

—

Pieza de madera que sujeta las chedas del carro a la cabezalla.

—

—

Cabeza cabizbaja por los años.

—

—

Palo o madero atravesado en un camino, que estorba o dificulta el tránsito.

—

—

Lo que compone, sienta o combina bien o mal; p. ej.: ese traxe novo non canga ben co eses zapatos vellos.

—

—

Parte del aparejo pesquero denominado chincha.

canga

Leandro Carré Alvarellos (1979): Diccionario galego-castelán e Vocabulario castelángalego, A Coruña, Moret s. f.

Yugo. Instrumento de madera con que se uncen los bueyes. V. Xugo.

—

—

Cepo que se pone atravesado en el pescuezo de los cerdos para que no puedan escapar. Figurado: Carga molesta. Achaque.

—

—

Palos verticales y paralelos unidos por otro horizontal en la parte superior, que usan en algunas comarcas sustituyendo al cambón.

Canga

Constantino García González (1985): Glosario de voces galegas de hoxe, Universidade de Santiago, Verba, anexo 27 canga

04-manuel gonzalez.indd 54

f.

1. (Caa. Cab. Fea. Mel. Sob. Gui.), cangalleiro (San.) estadojo especial, colocado en la parte delantera del lecho del carro cuando éste lleva una carga abultada;

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

—

—

2. (Raz. Dum. San. Com. Nov. Oir.), canca (Tob.) palo que se ata al cuello de los cerdos para que no puedan atravesar las vallas ni entrar en los huertos;

—

—

3. (Cal. Vil.) raspa que queda del racimo, después de quitar las uvas;

—

—

4. (Ver.) hoja del pino;

—

pl.

var. de cangallas;

—

—

canga baixa (Nov.) persona que se hace pasar por tonta;

—

—

canga caellas (Bur.) triunfo de poco valor en el juego de la brisca.

55

Eligio Rivas Quintas (2001): Frampas, contribución al diccionario gallego (inédito ata a 1ª ed. electrónica neste dicionario) canga

s. f.

Vigueta en el armazón del tejado; va de la cumbrera a la pared. Cabreiros de Xermade, Lu.(FrampasIII)

canga

s. f.

Yunta de encuarte; la que lleva la temoncela. Viariz do Bierzo.(FrampasIII)

canga

s. f.

Rancajo, parte del peciolo del racimo. Faramontaos da Merca, Our. (FrampasIII)

canga

s. f.

Traba de madera que une los fungueiros delanteros en el carro. Lea de Friol, Lu.(FrampasIII)

(http://ilg.usc.gal/ddd_pescuda.php?lang=gl&pescuda=canga&tipo_busca=lema) [consulta realizada el 23-09-2019]

Gracias a este seguimiento histórico podemos constatar cómo los diccionarios se copian unos a otros, y sobre todo descubrir cómo las malas lecturas o malas interpretaciones se transmiten acríticamente de unas obras a otras. Así, por ejemplo, la uva tinta araúxa se convierte en arauco,-a por una mala lectura del manuscrito en Eladio Rodríguez, y de aquí pasa a otros diccionarios. Una papeleta de Sobreira dice, refiriéndose también a una variedad de uva tinta «carnaz [en] Caldelas», en la que debe interpretarse que la denominación carnaz fue recogida en la localidad de Caldelas; pero alguien, poco familiarizado con las papeletas de Sobreira, interpretó incorrectamente esta información y creyó que el Caldelas de la papeleta era una nueva denominación del tipo de uva, un sinónimo de carnaz. Este error pasó al Diccionario de la Academia de 1918, y de allí a Eladio Rodríguez, Franco Grande y otros diccionarios. Más compleja es la historia lexicográfica de la palabra antergo, que significa,

04-manuel gonzalez.indd 55

24/11/22 10:22

56

MANUEL GONZÁLEZ GONZÁLEZ

cuando se aplica a una persona, que esta ya se encuentra plenamente formada (que ya ha dejado de ser niño), significado que hereda del latín INTEGRU, del que es continuadora. Pero algunos escritores de las primeras décadas del siglo xx interpretaron erróneamente la definición (ya de años) de esta palabra que aparecía en el Diccionario de Valladares, y convirtieron el ya de años en el sentido de ‘ya no niño’, ‘ya de cierta edad’, ‘ya formado’ de Valladares en ‘antiguo’, ‘viejo’, sentido que esta voz jamás había tenido. En este error no sólo cayeron algunos escritores de los años 20, sino que incluso Filgueira Valverde lo incorpora al Diccionario das Irmandades da Fala, y de ahí se extendió a otros diccionarios, que todavía le añadieron el significado de «antepasado». Estos nuevos significados «fantasma», probablemente por una especie de paronimia con antiguo, tuvieron una gran fortuna en los textos literarios posteriores y en el habla culta, de modo que la propia RAG ya los ha admitido en su diccionario. El Dicionario de dicionarios supone un ahorro de tiempo importantísimo para la utilización de las obras lexicográficas, ya que con una simple consulta obtenemos, ordenada cronológicamente, la información que estas obras nos ofrecen sobre una voz, información que, de no contar con esta herramienta, exigiría el examen uno por uno de un gran número de diccionarios y vocabularios. Además del Dicionario de dicionarios, en la revisión y actualización del DRAG hemos utilizado otros recursos lexicográficos, como la Base de datos del Atlas Lingüístico Galego, el Tesouro do léxico patrimonial galego e portugués o el Tesouro fraseolóxico galego, a los que me referiré brevemente. 3.1.2. Base de datos del Atlas Lingüístico Galego Residente en el Instituto da Lingua Galega de la USC, y codirigida por Rosario Álvarez Blanco, Francisco Fernández Rei y Manuel González González, esta base de datos incorpora toda la información contenida en los cuestionarios del Atlas Lingüístico Galego. Del conjunto de materiales, hasta este momento, sólo están a disposición pública los índices de los mapas de los seis volúmenes publicados, que pueden ser consultados en la siguiente dirección: http://ilg.usc. gal/indices. Si hacemos una consulta en los índices sobre la voz amencer, nos ofrecerá el siguiente resultado.

04-manuel gonzalez.indd 56

24/11/22 10:22

57

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

TABLA 2 Nome do mapa

Forma

Nº do mapa

Volume

Páxina

1a

IV

25

mencer esclarecer esclarece-lo día crarear clarear clarea-lo día amencer ameicer amañecida Amencer

amañecer amañece-lo sol amañece-lo día amanexo amanecer amanece-lo sol amanece-lo día amancer amaecer aclarea-lo día aclarar o día

04-manuel gonzalez.indd 57

24/11/22 10:22

58

MANUEL GONZÁLEZ GONZÁLEZ

vi-la alba do día venir a aurora tocar a alba rompe-la aurora riscar el alba luz da alba blanca do día aurora do día aurora albrexar o día Amencer

alborexar

1b

IV

27

alborexa-lo día alborecear o día alborece-lo día alborear o día alborear alborada álbora do día alba do día alba da mañán alba

04-manuel gonzalez.indd 58

24/11/22 10:22

59

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

resplandor do día relumbra-lo día manexo madrugar madrugada madruga-lo día luzada da mañán luzada lumbrigar luceiro da mañá Amencer

estrelecer entre lusque e fusque

1c

IV

29

deslumbra-lo día crepúsculo axexo da mañán axexo alumear o día alumear alumbrigar alumbriga-lo día alumbra-lo día aculumbra-lo día

04-manuel gonzalez.indd 59

24/11/22 10:22

60

MANUEL GONZÁLEZ GONZÁLEZ

ser sol ser día ser de día rompida do sol rompida do día rompente do día rompenta do día rompenta Amencer

rompe-lo sol rompe-lo día

1d

IV

31

rente brente do día brente abriente abri-lo sol abri-lo día abrento do día abrente

04-manuel gonzalez.indd 60

24/11/22 10:22

61

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

vi-la raíña do sol risca-lo día raiar raia-lo sol raia-lo día raia do sol nacida do sol Amencer

nacida do día

1e

IV

33

1f

IV

35

nace-lo sol nace-lo día espuntar o día despunta-lo sol arraia-lo sol arraia-lo día apunta-lo sol vi-lo sol vi-lo día salida do sol sali-lo sol sali-lo día Amencer

saí-lo sol levantarse o sol habe-lo sol da-lo sol avistarse o sol aparece-lo día

[Consulta realizada el 23-09-2019.]

04-manuel gonzalez.indd 61

24/11/22 10:22

62

MANUEL GONZÁLEZ GONZÁLEZ

En estos índices de acceso público se recoge la información que figura en la leyenda de los mapas, pero para la revisión del DRAG tenemos acceso a la totalidad de la información contenida en la base de datos, cuya consulta es especialmente importante para el léxico referido a la cultura popular. En la base de datos podemos obtener también la localización geográfica de cada una de las denominaciones para un concepto y su extensión en el territorio. 3.1.3. El Tesouro do léxico patrimonial galego e portugués Es un proyecto coordinado por Rosario Álvarez (ILG-USC), en el que participa una veintena de universidades de Galicia, Portugal y Brasil. Se trata de un portal que recoge el léxico dialectal, especialmente el referido a la cultura tradicional. Para Galicia (que es el territorio que nos interesa), reúne fundamentalmente, aunque no exclusivamente, el material contenido en las distintas tesis doctorales, memorias de licenciatura y otros trabajos académicos dirigidos, en su mayoría inéditos, realizados sobre el habla de distintos puntos del territorio gallego. Los datos aparecen localizados geográficamente, lo que permite ver la distribución y difusión de los elemento léxicos. Contiene también elementos gráficos (diseños, fotografías) e información etnográfica complementaria. Si, por ejemplo, buscamos el lema aixada (http://ilg.usc.gal/Tesouro/gl/se arch#search=normal&mode=lema&q=aixada) nos devolverá la siguiente información: Resultados atopados (48) ------ lema: aixada

aixada Azadón para cavar. Acosta 1970:112. LEMA: aixada sf.

GL 3.4

aixada Sacha ou aixada. Úsase máis a primeira denominación. Álvarez 1974:36. Vid. picoña, sacha. LEMA: aixada sf.

GL 3.4

aixada Azada (poco usada). Baamonde 1977:139. LEMA: aixada sf.

GL 3.4

aixada s.f. Tamén eixada. Apeiro para cavar, rozar, etc. E as aixadas xa son as de cavar no monte, as que tein unha pala

GL 3.4

sola {Taramundi (Riodelouro)}. Babarro 2003:336. Vid. eixada, xada, escavón. LEMA: aixada sf.

aixada Azada. Temos outra aixada. Carracedo 1977:60. LEMA: aixada sf.

GL 3.4

aixada s. f. Abeño de ferro, afiado na punta, que s' utiliza pra cabar. Castro 1986:45. LEMA: aixada sf.

GL 3.4

aixada Herramienta para rozar y cortar tojo. Azada. CastroI 2010. Vid. pavea de toxo molar, pavea de toxo molar. LEMA:

GL 3.4

aixada sf.

aixada Azada. | gal. De *ASCIATA, REW 697. Sobre esta palabra, Krüger, GK 236-7. Véase dibujo. Cortés 1954. Vid.

GL 3.4

aixadón dos torgos, aixadón. LEMA: aixada sf.

aixada Azada para cavar. Díaz 1971:84. LEMA: aixada sf.

GL 3.4

aixada

GL 3.4 s.f. Instrumento de labranza formado por unha pa de ferro por un extremo e un ollo onde se insire o mango no outro, que se usa para cavar. O, o toxo má[is], máis c’äixada, a’ixada son coma leghóns, pèro máis ancha, xa sábex como son. (1:295). Dopazo 2013. LEMA: aixada sf.

aixada Especie de azada cuya pieza de hierro es alargada y más ancha en el filo. Gil 1969:85. LEMA: aixada sf.

GL 3.4

aixada s. f. Azada, instrumento de labranza. {San Roque do Monte} GonzálezGM 2002:394. LEMA: aixada sf.

GL 3.4

aixada s.f. Ferramenta agrícola composta dunha pá de ferro colocada perpendicularmente nun dos cabos do mango, máis

GL 3.4

ancha xunto deste e máis estreita na punta. Emprégase para arrincar xestas, silvas, etc. LópezC 1990:89. LEMA: aixada sf.

aixada

GL 3.4

aixada Hazadón de corte recto. Morandeira 1969:135. LEMA: aixada sf.

GL 3.4

aixada Azada. Pérez 1969:75. LEMA: aixada sf.

GL 3.4

aixada Azada. Rodríguez 1971:83. LEMA: aixada sf.

GL 3.4

aixada

GL 3.4

sf Ferramenta agrícola composta por un mango longo e unha folla metálica con dous gallos. {Serantes; Berán} Louredo 2012. Vid. eixada. LEMA: aixada sf.

Azada; véase § 19. Schneider 1938:198. LEMA: aixada sf.

aixada Azada. Taboada 1971:103. LEMA: aixada sf.

GL 3.4

aixada Azada. Vázquez 1971:108. LEMA: aixada sf.

GL 3.4

04-manuel gonzalez.inddaixada 62 Instrumento para cavar en el monte, muy duro y resistente y semejante al sacho pero más grande que éste.

GL 3.4

24/11/22 10:22

aixada Herramienta para rozar y cortar tojo. Azada. CastroI 2010. Vid. pavea de toxo molar, pavea de toxo molar. LEMA:

GL 3.4

aixada sf.

aixada Azada. | gal. De *ASCIATA, REW 697. Sobre esta palabra, Krüger, GK 236-7. Véase dibujo. Cortés 1954. Vid.

GL 3.4

aixadón dos torgos, aixadón. LEMA: aixada sf.

aixada Azada para cavar. Díaz 1971:84. LEMA: aixada sf.

GL 3.4

aixada

GL 3.4 s.f. Instrumento de labranza formado por unha pa de ferro por un extremo e un ollo onde se insire o mango no outro, que se usa para cavar. O, o toxo má[is], máis c’äixada, a’ixada son coma leghóns, pèro máis ancha, xa sábex como son. (1:295). Dopazo 2013. LEMA: aixada sf.

aixada Especie de azada cuya pieza de hierro es alargada y más ancha en el filo. Gil 1969:85. LEMA: aixada sf.

GL 3.4

aixada s. f. Azada, instrumento de labranza. {San Roque do Monte} GonzálezGM 2002:394. LEMA: aixada sf.

GL 3.4

aixada s.f. Ferramenta agrícola composta dunha pá de ferro colocada perpendicularmente nun dos cabos do mango, máis

GL 3.4

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

63

ancha xunto deste e máis estreita na punta. Emprégase para arrincar xestas, silvas, etc. LópezC 1990:89. LEMA: aixada sf.

aixada

GL 3.4

aixada Hazadón de corte recto. Morandeira 1969:135. LEMA: aixada sf.

GL 3.4

aixada Azada. Pérez 1969:75. LEMA: aixada sf.

GL 3.4

aixada Azada. Rodríguez 1971:83. LEMA: aixada sf.

GL 3.4

aixada

GL 3.4

sf Ferramenta agrícola composta por un mango longo e unha folla metálica con dous gallos. {Serantes; Berán} Louredo 2012. Vid. eixada. LEMA: aixada sf.

Azada; véase § 19. Schneider 1938:198. LEMA: aixada sf.

aixada Azada. Taboada 1971:103. LEMA: aixada sf.

GL 3.4

aixada Azada. Vázquez 1971:108. LEMA: aixada sf.

GL 3.4

aixada Instrumento para cavar en el monte, muy duro y resistente y semejante al sacho pero más grande que éste.

GL 3.4

VázquezF 1971:115. Vid. sacho, ollo. LEMA: aixada sf.

aixada sf Ferramenta agrícola composta dun pau longo que leva no seu extremo inferior unha peza de metal que imita a

GL 3.4

forma dun bidente, pero máis redondeada e estreita, rematada nunha peta que vai na parte traseira do pau. No cultivo da cepa, utilízase para cavar as viñas xunto con outras ferramentas. Abres o... o espacio que ten entre cepa e cepa, que lle chaman o gabañón falo..., vas sacando a terra e logo co rodo a capa máis gorda e despois ca aixada con..., pa non..., o rodo non pode entrar (...) pois córtala (Viñoás).. Sin.: gancha, gadaña. Cfr.: petolo, sacho, rodo, pluma, legón. VázquezG 2001. Vid. petolo, legón, pluma, rodo, sacho, gancha, gadaña. LEMA: aixada sf.

aixada s.f. Ferramenta de labranza que sirve pra cabar na terra. VázquezS 1986:55. LEMA: aixada sf. aixada As minas son as galerías. Trazá-la mina é labor do facultativo. Pra abrila usan dinamita, cas barrenas, os barrenos ou, se son pequenas, as aixadas. Álvarez 1974:85. LEMA: aixada sf. äixada

s.f. Aixada. Dopazo 2013. Vid. aixada. LEMA: aixada sf.

anxada Ferramenta de traballos agrícolas, de boca ancha e que serve para mover e limpeza da terra. RivasC 2016. LEMA:

GL 3.4 GL 8.4.2

GL 3.4 GL 3.4

aixada sf.

axada Azada. González 1972:165. LEMA: aixada sf.

GL 3.4

axada Azadón para cavar. Santamarina 1967:96. LEMA: aixada sf.

GL 3.4

azada Apeiros de labranza. Rey 2001. LEMA: aixada sf.

GL 3.4

cota da aixada Final de la azada. CastroI 2010. Vid. cota. LEMA: aixada sf.

GL 3.4

eixada Azada. Baamonde 1977:139. LEMA: aixada sf.

GL 3.4

eixada Aixada. Babarro 2003. Vid. aixada. LEMA: aixada sf.

GL 3.4

eixada Azada. BlancoC 2012:25. LEMA: aixada sf.

GL 3.4

eixada Azadón de corte recto. Leis 1969:129. LEMA: aixada sf.

GL 3.4

eixada Picaña para cavar a viña e espicañar a terra prás patacas. López 1969:139. LEMA: aixada sf.

GL 3.4

GL 3.4 eixada Variantes do sacho son o lejón e a eixada, o primeiro de forma rectangular un pouco cóncava, empregado pra gabeá-las leiras, ou pra collé-lo balume ou o mato no monte. A eixada é moi parecida ó legón; emprégase pra gabeá-lo monte; ten

a parte posterior redondeada pra que non enganchen os toxos nos antigos. LópezF 1975:250. Vid. antigos, cota, fío, manco, ollo, pa. LEMA: aixada sf.

eixada

sf Aixada. {Orega} Louredo 2012. Vid. aixada. LEMA: aixada sf.

GL 3.4

eixada Azadón de corte recto. Marín 1978:104. Vid. folla, manjo, cota. LEMA: aixada sf.

GL 3.4

eixada Azada. Meilán 1980. LEMA: aixada sf.

GL 3.4

eixada Azada. PérezC 1976:228. LEMA: aixada sf.

GL 3.4

eixada Azada. RodríguezL 1974:113. LEMA: aixada sf.

GL 3.4

eixada Azadón. En la parte de atrás lleva un saliente llamado peta. Sánchez 1971:127. Vid. peta. LEMA: aixada sf.

GL 3.4

eixada

GL 3.4

Azada; véase § 19. Schneider 1938:264. LEMA: aixada sf.

eixadas Azadas. Tm. AIXADAS. As eixadas pa escaldeirar. Carracedo 1977:98. Vid. aixada. LEMA: aixada sf.

GL 3.4

inxada Azada. BlancoC 2012:25. LEMA: aixada sf.

GL 3.4

xada s.f. Aixada, gadaño. Nós dicimos "úa xada", outros dicen "un garduño" {Villallón [Villallón (Carrio)]}. Babarro 2003:456.

GL 3.4

LEMA: aixada sf.

zada Azada. Couceiro 1967:145. LEMA: aixada sf.

GL 3.4

zada Aixada. Cuns 1989:287. LEMA: aixada sf.

GL 3.4

y el siguiente mapa:

04-manuel gonzalez.indd 63

24/11/22 10:22

64

MANUEL GONZÁLEZ GONZÁLEZ

FIGURA 1

[Consulta realizada el 23-09-2019.]

3.1.3. El Tesouro fraseolóxico galego Proyecto dirigido inicialmente por Xesús Ferro Ruibal en el Centro Ramón Piñeiro, y en la actualidad por María Isabel González Rey, reúne en una base de datos todo tipo de fraseologismos de la lengua gallega, desde locuciones a paremias. No es este el lugar para discutir qué tipos de fraseologismos deben tener cabida en un diccionario de lengua, pero, cuando se trata de unidades con una estructura fijada y con un significado que no es la suma de los significados de las voces que las integran, no hay duda de que

04-manuel gonzalez.indd 64

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

65

aquellas que alcancen un determinado nivel de difusión deben ser incorporadas al DRAG. La fraseología, además de reflejar la visión del mundo del pueblo que habla una lengua, es fundamental para interpretar correctamente determinados textos, y su conocimiento es imprescindible también en el ámbito de la traducción. No podemos olvidar que los traductores son usuarios asiduos de nuestro diccionario. Esta base de datos reúne en el momento actual más de doscientos mil fraseologismos, recogidos desde mediados del siglo xviii hasta la actualidad. 3.2. Corpus textuales La fuente fundamental que sirve de base a los diccionarios actuales es sin duda el corpus textual o conjunto de textos representativos de la lengua. En los corpus con finalidad lexicográfica predominan en general los textos escritos, pero cada vez se les otorga mayor importancia a los textos orales. El corpus para un diccionario de lengua ha de ser en la medida de lo posible equilibrado, y en él se han de ver representados los distintos tipos de textos, y los distintos temas. Para la revisión y actualización del DRAG recurrimos fundamentalmente a dos corpus del gallego: el Tesouro informatizado da lingua galega (TILG) y el Corpus de referencia do galego actual (CORGA). 3.2.1. El Tesouro informatizado da lingua galega (TILGA) Fue construido en el Instituto da Lingua Galega de la USC, bajo la dirección de Antón Santamarina. En su elaboración participaron, además del equipo de dirección, 35 lingüistas y 5 informáticos. Es un corpus concebido fundamentalmente con una finalidad lexicográfica, que contiene alrededor de 30 millones de palabras gráficas correspondientes a un ámbito temporal que va desde el siglo xvii (1612) hasta la actualidad. Contiene más de 3.000 documentos (2.915 escritos y 161 orales), entre los que encontramos textos literarios, textos periodísticos, textos de carácter técnico y científico, textos de literatura oral y textos orales sin carácter literario. Estos textos presentan cierto tratamiento de uniformización ortográfica: – – –

04-manuel gonzalez.indd 65

unha, un-a, un-ha, umha > unha regularización de b, v: avó, abó > avó regularización en el uso de h: hoso, óso > óso

24/11/22 10:22

66

MANUEL GONZÁLEZ GONZÁLEZ

–

acento ortográfico de acuerdo con las normas actuales: cantéi, cantei > cantei; pèrtega, pértega > pértega

Ofrece concordancias, lematización y categoría gramatical. La lematización y anotación morfosintáctica se realizó de modo semimanual, con la ayuda de un programa desarrollado ad hoc, que llevaba incorporado un diccionario máquina con los lemas previsibles. La versión actual (TILG 4.1) ofrece, además de las dos modalidades básicas de busca simple (por lemas o por palabras gráficas), una configuración de busca avanzada que permite seleccionar el tipo de texto sobre el que se realiza la consulta y utilizar en las operaciones de busca la información gramatical. Si hacemos una busca simple por el lema mixiricas, accediendo a través de la dirección web http://ilg.usc.gal/TILG/gl/tilg obtenemos el resultado: FIGURA 2

[Consulta realizada el 23-09-2019.]

Si hacemos una busca compleja del verbo mirar seguido de la preposición por, nos proporcionará 135 resultados, cuyos 24 primeros son los siguientes:

04-manuel gonzalez.indd 66

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

67

FIGURA 3

[Consulta realizada el 23-09-2019.]

3.2.2. El Corpus de referencia do galego actual (CORGA) El CORGA es una colección de documentos en formato electrónico, en la que están representados los diferentes tipos de texto de la lengua gallega actual publicados o producidos desde el año 1975 hasta la actualidad. Contiene en este momento 40,2 millones de palabras, distribuidas en 52.650 documentos. La confección de este corpus ha sido dirigida por Guillermo Rojo y Marisol López Martínez en el Centro «Ramón Piñeiro», y coordinada en su parte lingüística por Eva María Domínguez Noya. Es un corpus equilibrado, cuyos textos fueron seleccionados de acuerdo con tres criterios de clasificación, independientes entre sí: fecha, tipo de texto y área temática. En cuanto a la fecha, la distribución se ha realizado por lustros, procurando darles mayor representatividad a los períodos más recientes: • 1975-1979 • 1980-1984 • 1985-1989 • 1990-1994 • 1995-1999 • 2000-2004

04-manuel gonzalez.indd 67

24/11/22 10:22

68

MANUEL GONZÁLEZ GONZÁLEZ

• 2005-2009 • 2010-2014 • 2015-2019 En cuanto a la tipología textual, se han establecido 8 grandes grupos: • Diario • Revista • Ensayo • Novela • Relato corto • Teatro • Guión • Blog Si se pretende que un corpus sea representativo del habla debe contener, en la medida de lo posible, textos referidos a todos los temas presentes en la vida de la sociedad en una proporción semejante a la vitalidad que estos temas tienen en la vida real. En el CORGA los textos se han agrupado en las siguientes cinco grandes áreas temáticas: • Economía y política • Cultura y artes • Ciencias sociales • Ciencias y tecnología • Otros Cada una de estas áreas contiene diversas subáreas. El área de Economía y política integra las subáreas de: – Política – Desarrollo e infraestructuras – Empleo, trabajo, industria – Sector servicios – Explotación primaria – Economía, hacienda, bolsa – Ordenación sanitaria – Justicia, legislación, derecho – Asuntos sociales – Ordenación académica

04-manuel gonzalez.indd 68

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

69

El área de cultura y artes, las subáreas de: – – – –

Audiovisuales y espectáculos Medios de comunicación Artes gráficas y plásticas Patrimonio, arquitectura, archivos

El área de Ciencias sociales, las subáreas de: – Lengua – Literatura – Religión – Historia y geografía – Civilización, etnología, arqueología y antropología – Pensamiento, ética y filosofía – Sociología y psicología – Erotismo y sexología – Astrología y ocultismo El área de Ciencias y tecnología, las subáreas de: – Sanidad – Biología, botánica, ecología, zoología y paleontología – Tecnología e industria – Medio, astronomía y geología – Matemáticas y estadística – Química, bioquímica y farmacia El área Otros es una especie de cajón de sastre que engloba un grupo de subáreas con poca conexión temática entre sí: – Deportes – Turismo – Aficiones y asuntos domésticos – Actualidad, sucesos, homenajes, inauguraciones – Biografía – Nota prologal Una parte de este corpus fue lematizada manualmente, pero la mayoría de sus textos están lematizados automáticamente, gracias al etiquetador-lemati-

04-manuel gonzalez.indd 69

24/11/22 10:22

70

MANUEL GONZÁLEZ GONZÁLEZ

zador Xiada, una herramienta desarrollada paralelamente a la elaboración del CORGA, que, además de atribuirle un lema a cada forma, le asigna una etiqueta con la información gramatical: clase de palabra, género, número, tiempo, modo… La utilización de un etiquetador-lematizador automático hace posible la actualización del corpus con un bajo coste económico, lo que facilita su mantenimiento y sostenibilidad. Las buscas pueden realizarse sobre la totalidad de los textos o sobre alguna de las divisiones temáticas, cronológicas o de tipo textual establecidas en el corpus. Si deseamos conocer, por ejemplo, la presencia de la palabra desenvolvemento en los textos de economía y política en la prensa diaria entre los años 2010 y 2015, y realizamos la consulta pertinente, obtendremos 389 ocurrencias, de las que mostramos únicamente las primeras: FIGURA 4

[Consulta realizada el 23-09-2019.]

También se pueden buscar colocaciones y secuencias de palabras, como desenvolvemento sostible:

04-manuel gonzalez.indd 70

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

71

FIGURA 5

[Consulta realizada el 23-09-2019.]

Y, gracias a la marcación gramatical, pueden realizarse buscas secuenciales utilizando la información gramatical. Ello hace posible solicitar, por ejemplo. las concordancias del verbo tirar seguido de preposición, cuando la preposición no se encuentra situada a una distancia superior a la de tres palabras después del verbo: FIGURA 6

[Consulta realizada el 23-09-2019.]

04-manuel gonzalez.indd 71

24/11/22 10:22

72

MANUEL GONZÁLEZ GONZÁLEZ

4. La aplicación informática para la redacción y consulta del drag La redacción del DRAG se hace sobre un programa informático suficientemente conocido, el TLex de TswaneLex, desarrollado en Sudáfrica, y en el que se ha diseñado una DTD con la estructura que adopta nuestro diccionario. Hemos decidido utilizar este software por su flexibilidad y su bajo costo. No me detengo a examinar la estructura del Diccionario, que pueden ustedes deducir fácilmente mediante su consulta, o bien mediante la lectura de la documentación que lo acompaña. Pero permítanme hacer unas referencias muy breves a algunos aspectos que me parecen importantes para los usuarios de la obra: a. Contiene un sistema de acceso a la información eficiente (https://academia. gal/dicionario), que permite buscas simples, a partir del lema, pero también buscas complejas de muy diversa índole: Si, por ejemplo, se quiere saber qué palabras del ámbito de la medicina contienen el sufijo –ite, que significa ‘inflamación’, se puede realizar la pertinente consulta, que me devolverá 85 resultados FIGURA 7

[Consulta realizada el 23-09-2019.]

04-manuel gonzalez.indd 72

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

73

b. El diccionario cuenta con un documento en el que se ofrece información sobre las últimas voces actualizadas: FIGURA 8

[Consulta realizada el 23-09-2019.]

c. Contiene dos herramientas complementarias importantes: reproductor oral del lema, y conjugador verbal. Pulsando en el altavoz que se encuentra al lado del lema, el usuario puede escuchar la pronunciación o pronunciaciones que se consideran más recomendables en el modelo estándar del gallego para cada una de las entradas. Estas realizaciones fueron extraídas del Dicionario da pronuncia, publicado por el ILG y la RAG, y del que es autor el académico X. L. Regueira. Dado que el DRAG se actualiza constantemente, es necesario realizar periódicamente la grabación de las nuevas entradas incorporadas al diccionario Si el usuario hace clic en la pestaña «conxugar», que figura al lado de cada verbo, es reenviado a un conjugador verbal, que le ofrecerá el paradigma completo del verbo en cuestión. Este conjugador está extraído del Diccionario de verbos Laverca, un proyecto desarrollado bajo mi dirección, que permite la con-

04-manuel gonzalez.indd 73

24/11/22 10:22

74

MANUEL GONZÁLEZ GONZÁLEZ

jugación total o parcial de cualquier verbo de la lengua gallega, y la lectura de sus formas mediante voz sintetizada. Si pedimos la conjugación del verbo subir, nos ofrecerá el siguiente resultado: FIGURA 9

[Consulta realizada el 23-09-2019.]

5. El entorno digital en el proceso de revisión del drag La revisión y actualización del DRAG es llevada a cabo por los académicos miembros del Seminario de Lexicografía, que combinan el trabajo en línea con el trabajo presencial. Para el trabajo en línea se ha implementado una plataforma que facilita el trabajo colaborativo, bajo el control del director de la obra. Cada cierto tiempo (generalmente cada mes), el director abre el período de revisión de un conjunto de voces (entre 200 y 250), para el que se establecen las fechas en las que se podrán proponer enmiendas, discutirlas y votarlas telemáticamente. Una vez abierto el período, los miembros del Seminario de Lexicografía pueden hacer sus propuestas de enmiendas. Finalizada la fase de presentación de enmiendas se procede a la discusión de las mismas, y en esta fase los revisores,

04-manuel gonzalez.indd 74

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

75

FIGURA 10

además de sus argumentos, pueden aportar a través de la misma plataforma toda la documentación que consideren pertinente para defender o rechazar cada una de las propuestas. Cuando finaliza el período de discusión, el equipo de redacción del DRAG hace una propuesta, que trata de recoger el parecer mayoritario, y la somete a votación. Cuando no existe más de un voto en contra, la propuesta se considera aprobada, y se incorpora al DRAG. Si hay dos o más votos en contra, la propuesta pasa a discutirse en una reunión presencial. FIGURA 11

04-manuel gonzalez.indd 75

24/11/22 10:22

76

MANUEL GONZÁLEZ GONZÁLEZ

¿Por qué hemos diseñado esta herramienta? 1. Porque la revisión del DRAG exige un trabajo continuado, y la mayoría de los académicos encargados de realizarlo tienen una ocupación laboral que deben atender y que no les permite disponer libremente de su tiempo ni desplazarse con facilidad a otra población para asistir a reuniones de actualización del diccionario: casi todos están fuertemente condicionados por el tiempo y el espacio. Y con este método cada académico puede adaptar el trabajo a sus circunstancias personales: puede realizarlo a cualquier hora del día o de la noche y puede realizarlo en cualquier espacio físico, siempre que cuente con una conexión a internet. 2. Porque supone un notable ahorro económico, al evitar desplazamientos. 3. Porque este modo de proceder facilita que todas las propuestas y el desarrollo de las discusiones sobre cada una de ellas queden perfectamente documentados. 6. Conclusiones La informática y el auxilio de un entorno digital son fundamentales hoy en el trabajo lingüístico en general y, de manera muy especial, en el trabajo lexicográfico. Hoy, gracias a la ayuda de la informática podemos acceder a un volumen de información de corpus textuales, que era inmanejable hace no demasiados años, y hacerlo con suma rapidez, con buscadores que nos permiten afinar cada vez más el perfil de aquello que nos interesa, prescindiendo de ruido innecesario. El disponer de un gran número de obras lexicográficas históricas en formato electrónico y, sobre todo, la aparición de los Diccionarios de diccionarios nos facilitan la consulta de estas fuentes con una rapidez que permite un gran ahorro de tiempo. Los programas informáticos para la redacción de diccionarios, han dado también mayor solidez a la estructura de este tipo de obras y mayor coherencia y sistematicidad a la redacción del artículo lexicográfico. Hemos visto como la posibilidad de contar con una herramienta que permite el trabajo en línea en el proceso de revisión y actualización del DRAG facilita enormemente el trabajo de los miembros del Seminario de Lexicografía, que pueden realizar su tarea a cualquier hora del día y desde cualquier lugar. Ello tiene como consecuencia un número de reuniones presenciales considerablemente menor, con el consiguiente ahorro económico. La edición en línea del DRAG, además de posibilitar la actualización constante de la obra, facilita al usuario el acceso a la información que necesita, bien a través de la web, o bien por medio de las apps. Y no sólo esto, sino también un

04-manuel gonzalez.indd 76

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

77

contacto permanente entre los responsables del DRAG y los usuarios, que pueden hacer llegar sus comentarios y sugerencias a través de la misma plataforma. Hoy es impensable un Diccionario moderno sin que la informática esté presente en prácticamente todas sus facetas. El entorno digital ha venido para quedarse definitivamente. Bibliografía Acevedo y Huelves, Bernardo y Fernández y Fernández, Marcelino (1932): Vocabulario del bable de occidente. Madrid: S. Aguirre, impresor. Aguirre del Río, Luis ([1858] 2007): Diccionario del dialecto gallego, ed. de Carme Hermida Gulías. Santiago de Compostela: Consejo Superior de Investigaciones Científicas/IPS. Álvarez, Rosario (coord.): Tesouro do léxico patrimonial galego e portugués. Santiago de Compostela: Instituto da Lingua Galega, [consultado 23-09-2019]. Carré Alvarellos, Leandro (1928-1931): Diccionario galego-castelán, 1ª ed. A Coruña: Lar. — (1933): Diccionario galego-castelán, 2º ed. A Coruña: Roel. — (1951): Diccionario galego-castelán, 3ª ed. A Coruña: Roel. — (1979): Diccionario galego-castelán e Vocabulario castelán-galego. A Coruña: Moret. Cuveiro Piñol, Juan (1876): Diccionario Gallego. Barcelona: Establecimiento Tipográfico de N. Ramírez y Cª. Filgueira Valverde, Xosé; Tobío Fernandes L.; Magariños Negreira, A.; Cordal Carús, X. (1926): Vocabulario popular castelán-galego (publicado por entregas en El Pueblo Gallego). Franco Grande, Xosé Luís (1972): Diccionario galego-castelán, 2ª ed. Vigo: Galaxia. García González, Constantino (1985): Glosario de voces galegas de hoxe. Santiago: Universidade de Santiago. Anexo 27 de Verba. García, Constantino y Santamarina, Antón (dirs.), Álvarez, Rosario; Fernández, Francisco y González, Manuel (invs.) (1990 y ss.): Atlas Lingüístico Galego: I Morfoloxía verbal (1990), II Morfoloxía non verbal (1995), III Fonética (1999), IV Léxico. Tempo atmosférico e cronolóxico (2003); V Léxico. O ser humano (I) (2005); VI Léxico. Terra. Plantas e árbores (2015). A Coruña/Santiago: Fundación P. Barrié de la Maza/ Universidade de Santiago. González González, Manuel (dir.) (2012): Dicionario da Real Academia Galega. A Coruña: Real Academia Galega (edición en línea: http://www.academia.gal/dicionario). — (2012): «El diálogo Real Academia Galega-sociedad en la elaboración del Dicionario da Real Academia Galega», en Dolores Corbella et al. (coords.): Lexicografía hispánica del siglo xxi: nuevos proyectos y perspectivas. Homenaje al Profesor Cristóbal Corrales Zumbado. Madrid: Arco/Libros, pp. 381-391.

04-manuel gonzalez.indd 77

24/11/22 10:22

78

MANUEL GONZÁLEZ GONZÁLEZ

— (2016-): TERGAL: Banco de termos galegos recomendados, versión 1.5.2. Santiago de Compostela: Centro Ramón Piñeiro para a Investigación en Humanidades, http:// www.cirp.gal/tergal, [consulta realizada 23-09-2019]. — (2017): «O Dicionario da Real Academia Galega (DRAG), unha ferramenta electrónica en continua evolución», en S-M Ardeleanu, I-C. Prodan, C. Bleorţu (coords.), Anadiss. In honorem Doctor Hororis Causa Johannes Kabatek. Suceava: Editura Universităţii Ştefan cel Mare, pp. 77-88. González González, Manuel; García Mateo, Carmen; Rodríguez Banga, Eduardo; Fernández Rei, Elisa (2002): Diccionario de verbos galegos Laverca (contén CDROM co programa Laverca 1.0). Vigo: Edicións Xerais de Galicia. González González, Manuel y Santamarina Fernández, Antón (coords.) (2004). Vocabulario ortográfico da lingua galega (VOLGa). A Coruña: RAG/ILG. Ibáñez Fernández, José (1950): Diccionario galego da rima e galego-castelán. Madrid: Marsiega. Otero Álvarez, Aníbal (1959): «Contribución al léxico gallego y asturiano», Archivum (Oviedo) IX, pp. 72-90 Payzal, Bernardo Vicente (1800): Vocabulario gallego-castellano, edición de Damián Suárez sobre o ms da RAG. Pintos Villar, Juan Manuel ([1865] 2000): Vocabulario gallego-castellano, ed. de Margarita Neira e Xesús Riveiro. A Coruña: RAG. Porto Rey, Francisco ([1900] 2000): Diccionario gallego-castellano, ed. de María Xesús Bugarín e Begoña González Rei. A Coruña: Real Academia Galega. Real Academia Galega (1913-1928): Diccionario gallego-castellano. A Coruña. Regueira, Xosé Luís (dir.) (2010): Dicionario de pronuncia da lingua galega. Santiago de Compostela: Instituto da Lingua Galega, . Rivas Quintas, Eligio (1978): Frampas: contribución al diccionario gallego. Salamanca: CEME. — (2001): Frampas III. Ed. para Diccionario de diccionarios. Ed. del autor. Rodríguez, Francisco Javier (1854): Diccionario gallego-castellano, transcrito do ms da RAG por Antón Santamarina para o Diccionario de diccionarios. — (1863). Diccionario gallego-castellano, ed. de Antonio dela Iglesia González. A Coruña. Rodríguez González, Eladio (1958-1961): Diccionario enciclopédico gallego-castellano. Vigo: Galaxia. Rojo, Guillermo y López Martínez, María Sol (s. a.): Corpus de Referencia do Galego Actual (CORGA) [3.2] . Santiago de Compostela: Centro Ramón Piñeiro para a investigación en humanidades [consulta realizada 2309-2019]. Santamarina, Antón (ed.) (2003): Diccionario de diccionarios, versión 3, CD-ROM. A Coruña: Fundación Pedro Barrié de la Maza/Instituto da Lingua Galega. Santamarina, Antón (dir.); González Seoane, Ernesto María; Álvarez de la granja, María (s. a.): Tesouro informatizado da lingua galega (Versión 4.1). Santiago de Compostela: Instituto da Lingua Galega. http://ilg.usc.gal/TILG/> [Consultado: 23-09-2019].

04-manuel gonzalez.indd 78

24/11/22 10:22

EL APROVECHAMIENTO DE LAS NUEVAS TECNOLOGÍAS

79

Sarmiento, Martín ([1746-1755] 1973): Catálogo de voces y frases de la lengua gallega, ed. de J. L. Pensado Tomé. Salamanca: Universidad de Salamanca. — ([1746-1770] 1970): Colección de voces y frases de la lengua gallega, ed. de J. L. Pensado Tomé. Salamanca: Universidad de Salamanca. Sobreira Salgado, Juan ([1792-1797] 1979): Papeletas de un diccionario gallego, ed. de J. L. Pensado Tomé . Ourense: Instituto de Estudios Orensanos. Valladares Núñez, Marcial (1884): Diccionario gallego-castellano. Santiago: Imp. Seminario Conciliar.

04-manuel gonzalez.indd 79

24/11/22 10:22

04-manuel gonzalez.indd 80

24/11/22 10:22

LA LEXICOGRAFÍA EN EL SIGLO XXI: NUEVOS MÉTODOS, NUEVOS OBJETIVOS. LA ACTIVIDAD LEXICOGRÁFICA DEL INSTITUT D’ESTUDIS CATALANS Joaquim Rafel i Fontanals Institut d’Estudis Catalans [email protected]

Buena parte de los estudiosos que se han dedicado a analizar la situación de la lexicografía en el momento actual suelen hablar, en el mejor de los casos, de período de transición. Así lo hacen Sven Tarp y Sandro Nielsen, investigadores muy activos del Center of Lexicography de la Universidad de Aarhus (Dinamarca), en la introducción de la obra Lexicography in the 21st century, publicada el año 2009, cuando dicen: «Lexicography is now in a transitional period and needs to find its place in the research world» (Nielsen; Tarp 2009: X). Pero en otros casos se habla abiertamente de crisis. Así lo hace el mismo Sven Tarp en una obra más reciente, de 2015: Hoy en día, parece que la lexicografía está paulatinamente entrando en una crisis que puede afectar a su futuro papel en la sociedad. La crisis tiene dos caras interrelacionadas. La primera es una crisis de identidad que se expresa en un creciente abismo entre una teoría cada vez más avanzada y una práctica donde la mayoría de los diccionarios siguen produciéndose mediante criterios pragmáticos o recetas anticuadas. La segunda es una crisis de pérdida relativa de usuarios que cada vez más buscan otras fuentes, especialmente Internet, para satisfacer sus necesidades de información.

05-joaquim rafel i fontanals.indd 81

15/11/22 12:33

82

JOAQUIM RAFEL I FONTANALS

[...] las dos crisis mencionadas están interrelacionadas, pues la única forma de romper el nudo gordiano es desarrollar la teoría lexicográfica y usarla como medio de orientación para la nueva generación de diccionarios. En este sentido, es oportuno subrayar que existen dos clases diferentes de teoría: 1) Una contemplativa que se restringe a estudiar los diccionarios que ya existen, y 2) otra transformativa, que además de estudiar lo que ya se ha hecho, también es capaz de orientar la concepción y producción de una nueva y mejor generación de diccionarios (Tarp 2015: 22-23).

Es un hecho, que yo mismo he puesto de relieve en más de una ocasión, que la mayoría de los estudios sobre diccionarios son de carácter hermenéutico, es decir, intentan descifrar, aclarar, describir o interpretar los diccionarios existentes, o simplemente informar sobre ellos, y son pocos los que hacen propuestas para unos diccionarios que satisfagan más plenamente las necesidades de los usuarios actuales. Voy a intentar resumir brevemente cuáles son los principales aspectos que, a mi modo de ver, deberían ser tenidos en cuenta para la elaboración de diccionarios que cumplan con estas expectativas. De entrada hay que tener presentes dos cuestiones de fondo. La primera es que no pueden ignorarse los avances que se han llevado a cabo a partir de la segunda mitad del siglo xx en el campo de la lingüística, especialmente en el de la descripción del léxico, y la segunda es la importancia que ha adquirido en lexicografía la eclosión de la informática y el extraordinario desarrollo que ha adquirido en los últimos años. Este segundo aspecto está llevando a la conclusión que pierde sentido el diccionario concebido y realizado como libro impreso, en favor del diccionario electrónico concebido como base de datos y consultable a través de Internet. Se ha llegado a afirmar que el diccionario impreso es ya obsoleto en el momento de su publicación (Bergenholtz 2011: 52). Hay que decir, sin embargo, que la utilización de la informática en lexicografía puede tener un carácter más superficial o más nuclear, pero, sobre todo en este segundo caso, la incorporación de la informática en el trabajo lexicográfico, transforma completamente los métodos tradicionales de esta actividad. La informática puede tener una importancia mayor o menor, según el tipo de proyecto que se quiere llevar a término. Francis E. Knowles (1990) distingue a este respecto tres situaciones bien diferenciadas: 1) La situación banal que supone llevar a cabo una edición ampliada de un diccionario existente. 2) La realización de un diccionario con un nuevo diseño, pero partiendo de material lexicográfico preexistente, compilado para diccionarios anteriores. 3) La elaboración de un diccionario partiendo de nuevos planteamientos lexicográficos. Ni que decir tiene que esta tercera opción es la más interesante desde el punto de vista metodológico y la que explota en mayor medida las posibilidades que ofrecen las técnicas y los recursos informáticos en

05-joaquim rafel i fontanals.indd 82

15/11/22 12:33

LA LEXICOGRAFÍA EN EL SIGLO XXI: NUEVOS MÉTODOS, NUEVOS OBJETIVOS

83

cualquiera de las fases que podemos distinguir en el quehacer lexicográfico, es decir, en la compilación y preparación de los datos (fase prelexicográfica), en la elaboración de la obra propiamente dicha (fase lexicográfica), y en los métodos de divulgación o difusión de los resultados (fase postlexicográfica). Por lo que respecta a los conocimientos lingüísticos, creo que hay dos cuestiones que no pueden dejar de ser consideradas. La primera es la importancia de la sintaxis en la descripción del léxico; en este aspecto, la descripción de una unidad léxica no es completa si no va acompañada de la especificación de todas las estructuras sintácticas en que suele o puede ser inserida, lo cual afecta especialmente a las unidades léxicas de carácter predicativo (verbos, nombres y adjetivos predicativos). La segunda cuestión es la importancia de la combinatoria léxica, de acuerdo con el principio cada vez más firmemente asumido en la investigación sobre el léxico que una de las propiedades que caracterizan las unidades léxicas es su capacidad de combinarse con ciertas unidades del sistema con preferencia a otras, o dicho de otra manera, que las unidades léxicas de una lengua seleccionan ciertas unidades y no otras para activar determinadas funciones semánticas. Si se tienen en cuenta los aspectos que acabo de mencionar, se resuelve ya, al menos en parte, uno de los problemas de la mayoría de los diccionarios existentes, que tienen una función eminentemente interpretativa o descodificadora, es decir, sirven para descifrar el significado de un elemento léxico que se encuentra en un texto y cuyo sentido no entiende el lector; su finalidad es la comprensión. Pero cada vez es más necesario que el usuario, además de poder interpretar los textos, pueda obtener información que le permita elaborar textos nuevos de manera adecuada, es decir, que el diccionario tenga una función creativa o codificadora, cuya finalidad sea la producción. Antes de terminar estas palabras preliminares déjenme hacer referencia a la dificultad de hacer progresar las innovaciones metodológicas en el campo de la lexicografía, especialmente en el caso de la lexicografía comercial, que está condicionada por criterios mercantiles, pero también en la lexicografía institucional a causa de la presión de sectores inmovilistas. Veamos, por ejemplo, lo que dice Henri Béjoint a este respecto. Certains pensent même que les formations en lexicographie offertes par certaines universités, fondées quasi exclusivement sur des connaissances linguistiques, ne servent pas à grand-chose dans la pratique quotidienne de la lexicographie. Pour eux, le public n’a pas besoin de toutes les subtilités de la théorie, il veut des réponses concrètes, pratiques, faciles à comprendre et surtout conformes à la tradition lexicographique qu’il s’est établie peu à peu en écho au «sentiment linguistique» de la communauté. Les dictionnaires ne peuvent se vendre que s’ils ressemblent à ce que le public que les achète attend d’eux. Les linguistes, dans ces conditions, ne peuvent être que des trouble-fête, puisqu’ils poussent à des changements qui ne sont pas dési-

05-joaquim rafel i fontanals.indd 83

15/11/22 12:33

84

JOAQUIM RAFEL I FONTANALS

rés. Il y a dans le milieu lexicographique, dans les pays de langue anglaise comme ailleurs, ni mieux ni pire, une très forte résistance au changement (Béjoint 2009: 125).

Déjenme todavía referirme al hecho de que la elaboración de un diccionario es una labor difícil, y que muy frecuentemente los lexicógrafos no tienen una conciencia clara de las dificultades que presenta esta actividad. Veamos cómo nos lo dice André Clas, uno de los colaboradores de Igor Mel’čuk, en la presentación del primer volumen del Dictionnaire explicatif et combinatoire du français contemporain: «L’activité lexicographique est une tâche difficile pour des très nombreuses raisons. Heureusement, certaines de ces difficultés ne sont pas toujours perçues nettement par les auteurs de dictionnaire, sinon ils auraient renoncé à leur entreprise avant de commencer leur travail.» (Clas 1984: xiii). Puede que esta falta de percepción de las dificultades sea la causa del importante número de grandes proyectos lexicográficos que no han llegado a verse concluidos: «El cementerio de la lexicografía está lleno de tristes ejemplos de diccionarios truncados» (Seco 2013:151). *** Después de estas consideraciones generales, si quisiéramos hacer un balance de la lexicografía catalana del siglo xx, tendríamos que admitir que, con la excepción del Diccionari general de la llengua catalana de Pompeu Fabra, que representa un verdadero hito en la lexicografía catalana de la época (1932), ningún otro diccionario general de la lengua presenta avances dignos de mención desde el punto de vista que nos ocupa. Los diccionarios que han visto la luz durante la segunda mitad del siglo se han sentido poco inclinados a las innovaciones metodológicas, más bien, al contrario, han tendido al mantenimiento de hábitos consolidados por la tradición a lo largo de los años. Así lo vieron ya Germà Colón y Amadeu J. Soberanas en su obra Panorama de la lexicografia catalana al decir que la lexicografía catalana no respondía, salvo alguna excepción, a las exigencias del momento (Colon; Soberanas 1986: 226). Esta situación es más de lamentar si tenemos en cuenta que durante el siglo xx se han producido avances muy importantes en lingüística, algunos de los cuales tienen una indudable repercusión en la descripción de las lenguas, y, por tanto, en la descripción del léxico, y no han tenido ningún reflejo en nuestra lexicografía. Y también si tenemos en cuenta la reflexión intensa sobre teoría lexicográfica y sobre el método lexicográfico que ha tenido lugar desde mediados del siglo xx y que ha originado una importante bibliografía, y esta circunstancia no ha tenido tampoco prácticamente ninguna repercusión en los diccionarios aparecidos en este período; y todavía podríamos añadir que solo han sido explotados de una manera superficial los avances en el

05-joaquim rafel i fontanals.indd 84

15/11/22 12:33

LA LEXICOGRAFÍA EN EL SIGLO XXI: NUEVOS MÉTODOS, NUEVOS OBJETIVOS

85

tratamiento de la información fruto de la revolución tecnológica que ha representado el rápido desarrollo de la informática en los últimos tiempos. Hace ya bastantes años, en 1977, Germà Colon afirmaba que el catalán no habría de encontrarse ausente de ninguna de las metodologías modernas (Colon 1977: 16). Esta circunstancia, sin embargo, no es privativa de la lexicografía catalana, sino que afecta en una mayor o menor medida a muchas otras lenguas, por no decir a la mayoría, y, de hecho, son muchos los especialistas que han puesto de relieve la dificultad de la penetración de las innovaciones lingüísticas y metodológicas en el terreno concreto de la lexicografía, y ello por diversos motivos en que ahora no podemos entrar. Me referiré solo a un par de testimonios. Maria Fernanda Bacelar do Nascimento afirma «La plupart des dictionnaires portugais de langue, que je connais, publiés dans ces dernières années ne révèlent pas de marques sensibles d’innovation ni dans le fond ni dans la forme. En les analysant, on ne perçoit pas une interaction entre les théories linguistiques, les études lexicales les plus récentes et les pratiques lexicographiques, interaction qui est décisive pour l’enrichissement de la lexicologie et de la lexicographie» (Bacelar do Nascimento 2002: 40). Por otra parte, Patrick Hanks opina que los principios que informan grandes diccionarios nacionales como el Oxford English Dictionary, el Woordenboek der Nederlandsche Taal, y el Deutsches Wörterbuch, permanecen en el siglo xix, y que la labor realizada en estas grandes obras por los lexicógrafos en el siglo xx ha consistido en trabajos de compleción, mantenimiento y mejora dentro de unos «principios establecidos», sin reconsiderar los fundamentos teóricos (Hanks 2015: 86-87). La parte específica de mi intervención se refiere, sin embargo, al modo como este marco ha condicionado las realizaciones concretas de la lexicografía catalana, específicamente en el ámbito institucional académico, es decir, en el ámbito del Institut d’Estudis Catalans. Para ello hemos de remontarnos al comienzo de los años 80 del siglo pasado, cuando la Sección Filológica del Institut d’Estudis Catalans se plantea la forma más adecuada de organizar su actividad lexicográfica después de un dilatado período de interrupción por circunstancias de orden político. En aquel momento se acuerda la realización de un proyecto lexicográfico que responda a los principios propugnados por la lexicografía moderna en los años precedentes; el proyecto, denominado Diccionari del català contemporani (DCC) pretende asumir los avances consolidados de la lingüística y de la lexicografía y aplicar las posibilidades de la tecnología moderna en el tratamiento de la información con la utilización de ordenadores como estrategia de trabajo. Asimismo, por otra parte, la Sección Filológica se planteó cómo acometer las nuevas ediciones o actualizaciones del diccionario que tenía en aquel momento todavía carácter normativo, pero que estaba claramente desfasado, el Diccionari general de la llengua catalana de Pompeu Fabra. Puesto que en el año

05-joaquim rafel i fontanals.indd 85

15/11/22 12:33

86

JOAQUIM RAFEL I FONTANALS

1990 se consideró que esta era una necesidad urgente, y teniendo en cuenta el prestigio social del diccionario de Fabra, se decide elaborar un nuevo diccionario normativo sobre la misma base, pero revisado y, sobre todo, actualizado. El resultado es el Diccionari de la llengua catalana, publicado en 1995 y una segunda edición nuevamente revisada y ampliada, publicada el año 2007. No voy a entretenerme en el comentario de esta acción, puesto que se trata de una edición ampliada de un diccionario existente, aunque revisada, remozada y actualizada en cuanto al repertorio léxico, y no representó un replanteamiento de la teoría subyacente ni una renovación metodológica fundamental. Por lo que respecta a la actividad normativa, la Sección Filológica del Institut d’Estudis Catalans ha continuado trabajando en la actualización de este diccionario y ha ido incorporando periódicamente en su versión electrónica las innovaciones, es decir, las nuevas palabras y los nuevos significados que van surgiendo con la evolución de la sociedad y que se considera que deben formar parte del repertorio normativo. El proyecto que conocemos con el nombre de Diccionari del català contemporani ha consistido en un programa de actuación lexicográfica de largo alcance, que comenzó en 1985 y ha finalizado en 2015. En síntesis ha consistido en la constitución de un corpus textual informatizado, el Corpus textual informatitzat de la llengua catalana (CTILC), la Base de dades lexicogràfica (BDLex), y el Diccionari descriptiu de la llengua catalana (DDLC). No voy a extenderme sobre las dos primeras realizaciones; solo les diré que el CTILC es un corpus de referencia de la lengua catalana escrita en los últimos ciento cincuenta años aproximadamente, cuya extensión supera los 52 millones de palabras, y que permite utilizaciones múltiples no solamente en el campo de la lexicografía, sino también en otros aspectos de la lengua; constituye, por tanto, una infraestructura básica de investigación lingüística que fue pionera en su momento en nuestro entorno; por otra parte, la BDLex contiene debidamente informatizados, codificados y dispuestos en forma de base de datos los 13 diccionarios que han sido considerados más significativos de los siglos xix y xx; constituye, pues, un verdadero diccionario de diccionarios, y tiene una utilidad específica de carácter tangencial, a la que me referiré más adelante, en la elaboración del DDLC. Por lo que respecta al DDLC, se trata de un diccionario eminentemente descriptivo, basado fundamentalmente en el CTILC a partir de la idea, cada vez más extendida, que el contexto determina el significado de las unidades léxicas en una situación lingüística determinada, y de ello podemos deducir que la mejor manera de establecer el significado de estas unidades y de delimitarlo tan claramente como sea posible es el estudio sistemático de los distintos contextos en que cada forma léxica ocurre realmente. En una referencia necesariamente breve como esta no podré comentar con detalle cada uno de los aspectos de esta obra; me referiré, por tanto, solo a sus características generales y a la estructura general de los artículos.

05-joaquim rafel i fontanals.indd 86

15/11/22 12:33

LA LEXICOGRAFÍA EN EL SIGLO XXI: NUEVOS MÉTODOS, NUEVOS OBJETIVOS

87

Lo primero que querría señalar es que el DDLC tiene por objeto la definición y la caracterización de las unidades léxicas de la lengua desde el punto de vista del contenido y de la utilización reales, sin restricciones basadas en criterios prescriptivos o de otra naturaleza. La elaboración de un diccionario descriptivo de estas características por parte de una academia de la lengua se justifica sobre todo por la creencia que las decisiones normativas serán tanto mejor fundamentadas cuanto mejor conocida sea la realidad de la lengua; en el caso del Institut d’Estudis Catalans la justificación es doble, puesto que entre sus misiones estatutarias tiene no solamente el establecimiento de la normativa lingüística, sino también «ocuparse del estudio de la lengua». Con la elaboración de un diccionario como este el Institut d’Estudis Catalans no solo ha producido una obra concebida de acuerdo con los principios generalmente asumidos por la lexicografía contemporánea más avanzada, sino que se dota de un instrumento muy valioso a la hora de establecer la normativa lingüística. Desde el punto de vista de su naturaleza y de su contenido, el DDLC se aparta en muchos aspectos de los diccionarios corrientes (diccionarios para el gran público); sin pretender ser un diccionario teórico, comparte con este tipo de obras alguna de sus características: no tiene un carácter pragmático ni una finalidad pedagógica, es concebido como una investigación ex novo, su realización persigue el máximo rigor científico, su formulación aspira a un alto grado de explicitud y utiliza una cierta formalización en su lenguaje y en su presentación. Como consecuencia de ello, sus usuarios ideales son los profesionales de la lengua; sin embargo no pretende dirigirse solo a especialistas, sino que, además de ser útil para estos, aspira a estar al alcance de cualquier usuario medianamente culto interesado por los problemas de la lengua: aspira, pues, a presentar el contenido del diccionario combinando el rigor en el tratamiento de la información con la claridad expositiva y con la facilidad de interpretación. Una de las cuestiones que plantea la elaboración de un diccionario descriptivo por una academia de la lengua es que este diccionario contiene elementos (ciertas entradas, determinadas acepciones o sentidos, algunas estructuras sintácticas, ciertas locuciones, etc.) que no son explícitamente reconocidas por la normativa vigente, a pesar de encontrarse documentadas en los textos; por una parte este diccionario puede ser considerado más científico que el normativo por cuanto intenta dar cuenta de una manera sistemática de la realidad de la lengua a partir de datos empíricos, pero por otra parte puede ser visto como un peligro para el uso lingüístico considerado correcto. En el caso que nos ocupa, este tema se debatió ampliamente en el seno de la Sección Filológica, la cual decidió que se identificara con una marca visible todos aquellos elementos (entrada, categoría, acepción, patrón sintáctico, etc.) que no gozaran de sanción normativa explícita en el momento de divulgarlos.

05-joaquim rafel i fontanals.indd 87

15/11/22 12:33

88

JOAQUIM RAFEL I FONTANALS

El DDLC se organiza en artículos, que constituyen la unidad básica en que se estructura toda la información que contiene. Los criterios para el establecimiento y la delimitación de los artículos se basan exclusivamente en principios de carácter formal y gramatical, y se aplican de una manera sistemática a lo largo de todo el diccionario sin ninguna excepción. Estos criterios consisten en la identidad o diferencia en cualquiera de las tres características que configuran la entrada: la grafía de la forma canónica, su categoría y sus propiedades flexivas. La diferencia en cualquiera de estas tres características determina la existencia de un artículo distinto; en caso contrario, toda la información se agrupa en un único artículo, independientemente de las diferencias meramente semánticas o de consideraciones etimológicas, que no intervienen como criterios diferenciadores de los artículos, contrariamente a lo que ocurre en la mayoría de los diccionarios tradicionales. En el DDLC no existen, pues, dos entradas que coincidan en su forma gráfica, en su categoría y en su modelo de flexión. Otra de las características del DDLC que merece ser mencionada es el sistema de ordenación de las acepciones, que se basa exclusivamente en una combinación de criterios frecuenciales y lógicos. Resumidamente les diré que en un artículo que presenta varias acepciones puede ocurrir que estas tengan una afinidad semántica estrecha, en cuyo caso se aplica el criterio frecuencial: la acepción que se muestra más frecuente en el corpus aparece en primer lugar y el resto se ordenan por orden decreciente de frecuencia; si, en cambio, pueden establecerse varios grupos a partir del criterio de afinidad de significado, aparece en primer lugar el grupo que contiene la acepción más frecuente y el resto de grupos por orden decreciente de la acepción más frecuente del grupo. El sistema de ordenación presenta, pues, una jerarquía de dos niveles. De acuerdo con lo dicho más arriba sobre el tipo de diccionario a que aspiramos, las definiciones del DDLC evitan la información enciclopédica (basada en la descripción de la realidad) y se concentran en la información lingüística (descripción del valor significativo, de las restricciones léxicas y de las propiedades sintácticas de las unidades). Desde el punto de vista del texto definidor, se tiene en cuenta la distinción entre los elementos propiamente definidores (constituyentes intrínsecos de la definición) y los que se refieren a condiciones o restricciones selectivas (constituyentes extrínsecos), codificándolos de manera adecuada. El DDLC contiene, para cada entrada, información de carácter cuantitativo relativa al uso observado en el corpus. Esta información aparece simplificada, con una representación gráfica, no numérica, que indica la pertenencia de la entrada a uno de los cinco rangos de uso establecidos. Para las entradas correspondientes a los tres primeros rangos de uso, el DDLC contiene, además, información sobre la repartición porcentual de sus categorías morfológicas en el corpus.

05-joaquim rafel i fontanals.indd 88

15/11/22 12:33

LA LEXICOGRAFÍA EN EL SIGLO XXI: NUEVOS MÉTODOS, NUEVOS OBJETIVOS

89

El DDLC consta de una serie de elementos estructurales organizados en forma de base de datos; cada uno de ellos está vinculado a un elemento de referencia, que es la entrada, lo cual permite configurarlos en forma de artículo de diccionario, que es la manera más común de presentarlos ante los usuarios, pero no la única posible; por otra parte, esta es la forma más práctica de referirse organizadamente a los distintos elementos que constituyen la obra, por lo cual, en este comentario sobre el contenido y la estructura del diccionario seguiremos la pauta organizativa del artículo estándar de DDLC. Figura 1

El artículo así concebido consta de unos elementos que constituyen su cabecera (la entrada, la categoría, la información flexiva, la información estadística y el perfil morfológico) y de otros que constituyen su cuerpo (las acepciones, las locuciones, las variantes, los derivados y la información complementaria). Estos elementos tienen distintos grados de obligatoriedad y de dependencia unos de otros y, en consecuencia, puede haber artículos muy complejos —sobre todo si tenemos en cuenta la recurrencia potencial de algunos de sus componentes— y artículos muy simples. Hay, sin embargo, unos mínimos elementos obligatorios sin los cuales no es posible un artículo: la entrada, la categoría, la información flexiva (explícita o implícita) y la información estadística, por lo que se refiere

05-joaquim rafel i fontanals.indd 89

15/11/22 12:33

90

JOAQUIM RAFEL I FONTANALS

a la cabecera, y como mínimo una acepción por lo que se refiere al cuerpo del artículo; esta acepción puede aparecer en su modalidad de descripción, que conlleva una serie de elementos asociados, o en su modalidad más simple de remisión. Conviene quizá aclarar que en el DDLC se entiende por remisión una referencia explícita iniciada por la indicación Vegeu («Véase»); conviene, pues, no confundir este tipo de referencias explícitas con las referencias implícitas que se dan habitualmente en forma de definiciones sinonímicas o sintéticas, que frecuentemente se denominan también remisiones; unas y otras forman parte de la estructura referencial del diccionario pero tienen un valor muy distinto: las primeras, las remisiones propiamente dichas, se encuentran en lugar del bloque descripción, mientras que las segundas constituyen el elemento definición dentro del bloque descripción; unas y otras responden a dos funciones completamente distintas. La existencia de remisiones en el DDLC —en este sentido estricto— es un mero reflejo del carácter complejo de la nomenclatura a que me he referido al tratar de las características generales del diccionario. Puesto que ya he aludido a ellos al hablar de las características generales del DDLC, no voy a entretenerme ahora en el comentario de los elementos de la cabecera del artículo: la entrada (la representación gráfica de la forma canónica de la unidad léxica que se describe), la categoría, la información flexiva, la información estadística y el perfil morfológico para aquellas entradas de los rangos 1, 2, o 3. Dentro del cuerpo del artículo, el bloque de acepciones tiene una cierta complejidad. La descripción de una acepción consta de los siguientes elementos: el patrón sintáctico, las restricciones semánticas de los elementos del patrón, la definición, las colocaciones, el ejemplo o los ejemplos y las conversiones sintácticas. Los patrones sintácticos se expresan por cadenas de símbolos categoriales (N, V, Adj, etc.), que pueden incorporar modificadores en forma de subíndices (Ncompt, Vpron, etc.); también en forma de subíndices se indica el carácter correferencial o no de dos o más elementos del patrón; cada símbolo del patrón puede ir introducido por una palabra literal (una preposición, un artículo, etc.). Por otra parte, determinadas transformaciones sintácticas regulares se describen de forma relacionada, como por ejemplo, una construcción intransitiva y la transitiva causativa correspondiente. Se indican también las restricciones léxicas o semánticas que existen sobre los elementos no nucleares del patrón. Otro apartado específico de la descripción de una acepción consiste en las colocaciones, es decir, los grupos de unidades que presentan una coocurrencia frecuente a causa de una cierta atracción léxica entre ellas; como sea que el significado de las colocaciones es función del de sus componentes, no conllevan una descripción semántica específica. En cuanto a los ejemplos, solo recordaré que son citas extraídas del CTILC, que se reproducen sin ninguna adaptación ni modificación; para la selección del ejem-

05-joaquim rafel i fontanals.indd 90

15/11/22 12:33

LA LEXICOGRAFÍA EN EL SIGLO XXI: NUEVOS MÉTODOS, NUEVOS OBJETIVOS

91

plo más adecuado para ilustrar una determinada acepción, se tienen en cuenta una serie compleja de criterios que ahora no podemos detallar; solo mencionaré que el ejemplo debe contener la información necesaria y suficiente para ilustrar la acepción de que se trata y que no debe ser ambiguo desde ningún punto de vista. Si la acepción tiene más de un patrón sintáctico, debe haber un ejemplo por cada patrón. Los ejemplos se identifican con una referencia simplificada que aporta una primera información sobre la procedencia de la cita; la consulta electrónica del DDLC permite desarrollar interactivamente los elementos codificados de esta referencia simplificada y se puede acceder a la referencia bibliográfica completa de la obra en cuestión. Finalmente, el último elemento de una acepción son las conversiones sintácticas, que no comportan ningún tipo de descripción, pero llevan asociado un ejemplo. Los tipos de conversiones que se tratan en este apartado son: infinitivo → sustantivo y participio → adjetivo. Otro gran apartado del artículo está constituido por las locuciones. Entendemos por locución cualquier combinación de elementos léxicos de significado no directamente deducible del de sus componentes; tenemos, pues, locuciones nominales, adjetivales, verbales, adverbiales, prepositivas, conjuntivas e interjectivas. Estas unidades se tratan como elementos subordinados a una entrada y, por tanto, se describen dentro del artículo correspondiente a su entrada de referencia; cada locución, por otra parte, puede tener una o más acepciones y cada acepción consta de los mismos elementos estructurales subordinados que las acepciones de una entrada, excepto las conversiones sintácticas. El apartado de variantes contiene tres tipos de elementos distintos: las variantes formales de la entrada que no son consideradas meras variantes gráficas, los derivados apreciativos o intensivos y las variantes de flexión no previstas en el modelo flexivo normativo asociado a la entrada. El apartado de derivación incluye todos los derivados —formados sobre la misma base que la entrada o sobre una base culta con cierta similitud formal y de sentido equivalente— cuyo sentido sea máximamente predictible, es decir, que sean el resultado de un proceso derivativo transparente a todos los niveles (semántico, morfosintáctico y fonológico). A fin de evitar decisiones subjetivas de los redactores se establecieron y se definieron claramente siete procesos derivativos, especificando los afijos que pueden actualizarlos, el tipo de transformación que suponen, la categoría y el significado del derivado en relación con los de la base a que está asociado y la definición formularia que le corresponde. Para cada derivado que se incluye en este apartado se indica el número del proceso derivativo a que corresponde y tantos ejemplos como acepciones de la entrada se encuentran actualizadas por este derivado en el corpus, indicando en cada ejemplo el número de la acepción de la entrada que actualiza. Este apartado contiene también colocaciones y conversiones.

05-joaquim rafel i fontanals.indd 91

15/11/22 12:33

92

JOAQUIM RAFEL I FONTANALS

Finalmente, el artículo incorpora en un apartado específico, titulado información complementaria, toda la información léxica relativa a las acepciones y locuciones de una entrada que se encuentran en alguno de los diccionarios de la BDLex pero que no se han documentado en el CTILC; en cada caso se indica de qué diccionario procede la información y la entrada bajo la que se encuentra, en aquellos casos en que esta no coincide con la entrada del artículo del DDLC. Actualmente, finalizada la redacción sistemática de la obra, el diccionario consta de 110.000 artículos. La aplicación informática que se ha puesto a disposición pública en el lugar web del Institut d’Estudis Catalans (https://www. iec.cat) permite el acceso a la base de datos con diferentes criterios; además de la consulta puntual de artículos a partir de la entrada, que es la consulta convencional, permite la recuperación de informaciones diversas a partir de los diferentes elementos estructurales del diccionario (definiciones, patrones sintácticos, locuciones, derivados, variantes e información complementaria). Mediante esta aplicación compleja, se ha puesto a disposición del público un instrumento fundamental para la difusión de la obra, orientado tanto al usuario medianamente culto interesado por los problemas de la lengua, como a los profesionales con intereses tanto ocasionales, como de investigación lingüística. Pensando en las características concretas de este diccionario, que, como he dicho, no responde estrictamente a lo que puede ser considerado un diccionario teórico, por lo menos en el sentido estricto de la palabra, pero tampoco se trata de una obra destinada al público en general sin una cierta formación lingüística, me viene a la mente una observación de Pierre Corbin, estudioso de la lexicografía en general y de la francesa en particular, y persona preocupada por la interacción entre los conocimientos lingüísticos y la realidad de los diccionarios. Corbin, después de constatar que los lexicógrafos, aunque tengan una formación lingüística básica, normalmente no tienen tiempo «de llevar a cabo largas investigaciones para saber dónde pueden encontrar la información útil, ni para extraer de los trabajos académicos lo que es aplicable a la labor práctica», dice: Il faudrait donc que les lexicographes puissent disposer de travaux qui calibreraient les résultats des recherches linguistiques exploitables dicionnairiquement dans une mise en forme propice à une utilisation sans médiation. On pourrait penser à des sortes de métadictionnaires, c’est-à-dire des dispositifs de compilation d’analyses linguistiques systématiques et extensives d’unités lexicales, qui ne seraient pas lisibles par des lecteurs profanes, mais dans lesquels des lexicographes suffisamment formés pourraient puiser directement des données qu’ils devraient ensuite convertir dans des formats textuels accessibles aux usagers (Corbin 2002: 33).

El DDLC responde quizás a un dispositivo de este tipo, útil no solo para los lingüistas como repertorio de datos estructurados con unos criterios deter-

05-joaquim rafel i fontanals.indd 92

15/11/22 12:33

LA LEXICOGRAFÍA EN EL SIGLO XXI: NUEVOS MÉTODOS, NUEVOS OBJETIVOS

93

minados, sino también para los lexicógrafos en el sentido de evitarles muchas investigaciones particulares. De hecho, en el momento de su concepción ya se preveía que podía ser útil para la actividad normativa del Institut d’Estudis Catalans, partiendo del supuesto, que ya he mencionado, que el conocimiento de la lengua en su realidad fáctica a partir del análisis exhaustivo de datos empíricos es una base indispensable para el ejercicio de su función institucional de establecimiento de la norma lingüística. De hecho, esta obra y el corpus textual en que se basa ya han sido utilizados en los trabajos habituales de la Sección Filológica (fundamentalmente la nueva gramática y las actualizaciones del diccionario normativo) a la espera de que se emprenda definitivamente la elaboración de un nuevo diccionario normativo acorde con los criterios innovadores de la lexicografía actual. Bibliografía Bacelar do Nascimento, Maria Fernanda (2002): «Associations lexicales: du corpus aux dictionnaires», en Francine Melka, M. Celeste Augusto (eds.), De la Lexicologie à la Lexicographie /From Lexicology to Lexicography. Utrecht: Utrecht UniversityUtrecht Institute of Linguistics, pp. 39-54. Béjoint, Henri (2009): «Lexicographie et linguistique: quelques réflexions sur le domaine anglais», Lexique 19, pp. 117-158. Bergenholtz, Hennig (2011): «Access to and Presentation of Needs-Adapted Data in Monofunctional Dictionary», en Pedro A. Fuertes-Olivera, Henning Bergenholtz (eds.), e-Lexicography. The Internet, Digital Initiatives and Lexicography. London/ New York: Continuum, pp. 30-53. Clas, André (1984): «Préface», en Igor Mel’čuk, Dictionnaire explicatif et combinatoire du français contemporain. Recherches sémantiques, I. Montréal: Les Presses de l’Université de Laval, pp. XIII-XVI. Colon, Germà (1977): «La lexicografia catalana: realitzacions i esperances», en Germà Colón (ed.), Actes del quart Colloqui Internacional de Llengua i Literatura Catalanes, Basilea, 22-27 de març de 1976. Barcelona: Publicacions de l’Abadia de Montserrat, pp. 11-35. Colon, Germà, Soberanas, Amadeu J. (1985): Panorama de la lexicografia catalana. De les glosses medievals a Pompeu Fabra. Barcelona: Enciclopèdia Catalana. [2a ed. actualizada, 1991.] Corbin, Pierre (2002): «Lexicographie et linguistique: une articulation difficile. L’exemple du domaine français», en Francine Melka, M. Celeste Augusto (eds.), De la Lexicologie à la Lexicographie /From Lexicology to Lexicography. Utrecht: Utrecht University-Utrecht Institute of Linguistics, pp. 9-38. Fabra, P. (1932): Diccionari general de la llengua catalana. Barcelona: Llibreria Catalònia. (2ª edición, 1954, Barcelona: A. López Llausàs, editor; 4ª edición revisada y ampliada, Barcelona: A. López Llausàs, editor, 1966; otras ediciones posteriores

05-joaquim rafel i fontanals.indd 93

15/11/22 12:33

94

JOAQUIM RAFEL I FONTANALS

hasta la decimoséptima de 1983, con apéndices que recogen las palabras aprobadas sucesivamente por el Institut d’Estudis Catalans.) Hanks, Patrick (2015): «Cognitive Semantics and the Lexicon», International Journal of Lexicography 28: 1, pp. 86-106. Knowles, Francis E. (1990): «The Computer in Lexicography», en Franz Josef Hausmann et al. (eds.), Wörterbücher. Ein internationales Handbuch zur Lexicographie. Dictionaries. An International Encyclopedia of Lexicography. Dictionnaires. Encyclopédie internationale de lexicographie. Berlin/New York: Walter de Gruyter, II, pp. 1645-1672. Nielsen, Sandro, Tarp, Sven (2009): Lexicography in the 21st Century. In honour of Henning Bergenholtz. Amsterdam/Philadelphia: John Benjamins Publishing Company. Seco, Manuel (2013): «Las palabras en el tiempo: los diccionarios históricos», en Estudios de lexicografía española, segunda edición aumentada. Madrid: Gredos, pp. 109-156. Tarp, Sven (2015): «La lexicografía y su relación con otras disciplinas independientes como la lingüística y la ciencia de la información», en M. Pilar Garcés Gómez (ed.), Lingüística y diccionarios. A Coruña: Universidade da Coruña (Anexos de la Revista de Lexicografía, 32,) pp. 9-31.

05-joaquim rafel i fontanals.indd 94

15/11/22 12:33

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA Guillermo Rojo RAE/Universidade de Santiago de Compostela [email protected] Salvador Gutiérrez Ordóñez RAE/Universidad de León [email protected]

1. Introducción A lo largo del mes de abril de 2020, la página electrónica del Diccionario de la lengua española (DLE), elaborado por la Real Academia Española (RAE) y la Asociación de Academias de la Lengua Española (ASALE), superó ligeramente la cifra de 100 millones de consultas. En ese mismo mes, el Diccionario panhispánico de dudas (DPD) recibió cerca de 1,5 millones de visitas, 1,8 millones tuvo el Diccionario del español jurídico (DEJ), el conjunto de los corpus de la RAE fue interrogado unas 175.000 veces y el departamento de Español al Día respondió una media de 500 consultas diarias. Pocas semanas después, a comienzos de junio, se publicó la versión 0.92 del Corpus del Español del Siglo xxi (CORPES XXI), ahora con algo más de 312 millones de formas ortográficas en su interior, correspondientes a textos publicados entre 2001 y 2020 en todos los países del ámbito hispánico, incluyendo Guinea Ecuatorial y Filipinas. La cuenta de la RAE en Twitter cuenta en la actualidad con algo más de 1.700.000 seguidores.

06-guillermo rojo/salvador gutierrez.indd 95

15/11/22 12:34

96

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

Estas impresionantes cifras, únicamente las más llamativas de un amplio conjunto de servicios que la RAE presta a la comunidad hispanohablante, son resultado del trabajo realizado a lo largo de los últimos 25 años, en un camino que ha supuesto una inversión considerable en recursos humanos y económicos. Tras algunos intentos previos de informatización de parte de los métodos usados tradicionalmente en la RAE, el arranque del proceso que ha llevado a la situación actual se sitúa en unas jornadas de estudio celebradas en la Academia en febrero de 1994. En agosto de ese mismo año, los responsables de la institución, que en aquel momento eran Fernando Lázaro Carreter (director), Ángel Martín Municio (vicedirector) y Víctor García de la Concha (secretario), aprobaron el proyecto de creación del Corpus de Referencia del Español Actual (CREA). Los primeros resultados, obtenidos con la tecnología existente para PC en la época, fueron tan espectaculares que la RAE decidió complementar la elaboración del CREA con la construcción del Corpus Diacrónico del Español (CORDE). También en 1995 apareció el CD de la 21.ª edición del DLE (publicada en forma impresa en 1992), realizada por un equipo externo a la Academia, pero que trabajó a partir de la conversión de la edición impresa en una base de datos electrónica, tarea realizada dentro de la institución y sobre la que el Instituto de Lexicografía (ILex) fue incorporando ya las modificaciones que se iban redactando en la preparación de la 22.ª edición, publicada finalmente en 2001. El proceso avanzó con gran rapidez y seguridad. En 1998 se publicó la primera versión de la página electrónica de la RAE y en ella fueron incluidas las primeras versiones del CREA y el CORDE, que están desde ese momento a disposición de todas las personas interesadas. En 2001, en paralelo a la distribución de la edición impresa, la página incluyó un acceso abierto a la consulta del DLE, en la que se añadieron, en cinco entregas distintas, las enmiendas y adiciones que las academias iban aprobando en el proceso de preparación de la que luego sería la 23.ª edición. En paralelo, en 2003 se publicó un CD del diccionario, proyectado y desarrollado íntegramente en la RAE, que permitía una explotación mucho más profunda, profesional, de su contenido. En 1998 se abrió el servicio de consultas de Español al Día, que recibe y contesta en la actualidad algo más de 500 consultas diarias. En 2014 se publicó el formato impreso de la 23.ª edición del DLE y un año después, en octubre de 2015, se presentó la aplicación que permite el acceso a todo el contenido del diccionario a través de Internet y también a través de dispositivos móviles, aplicación que alcanza ahora cifras situadas en torno a los 100 millones de consultas mensuales. Poco tiempo después, se adoptó el principio de la publicación anual de las enmiendas y adiciones aprobadas por las academias (la última de ellas, que da lugar a la versión 23.3, en noviembre de 2019), lo cual ha supuesto un importante cambio en el ritmo de propuesta y aprobación de las enmiendas y adiciones en ASALE.

06-guillermo rojo/salvador gutierrez.indd 96

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

97

La conversión del formato tradicional del diccionario en una base de datos lexicográficos ha facilitado, entre otras muchas posibilidades, la producción de recursos como el Enclave RAE, que permite un acceso muy profundo y detallado a toda la estructura del DLE y a muchos otros recursos de la RAE, o el Enclave de Ciencia, resultado de la colaboración con la Fundación Española para la Ciencia y la Tecnología (FECYT), que proporciona la explotación de la parte científico-técnica del DLE y también a recursos como las bases de datos de la Asociación Española de Terminología, el Diccionario médico-biológico histórico y etimológico de la Universidad de Salamanca y el Diccionario español de ingeniería de la Real Academia de Ingeniería, además de un corpus científico-técnico construido para este proyecto a partir de textos del CORPES y textos publicados por la FECYT. Los reseñados son los proyectos y realizaciones más llamativas, pero la Real Academia Española ha digitalizado muchos otros materiales que están en su página web a disposición pública. En un proyecto denominado Nuevo tesoro lexicográfico de la lengua española (NTLLE), se construyó una base de datos con los lemas contenidos en todas las ediciones de los diccionarios de la RAE, incluido el de Autoridades, y muchos otros diccionarios importantes en la historia de la lexicografía hispánica. Fue distribuido inicialmente en dos DVD, pero ahora es directamente accesible a través de una aplicación de búsqueda en la página web. Dado que los diccionarios fueron publicados originariamente en la tipografía correspondiente a su época, hubo que adoptar una técnica que no pasaba por la conversión de las entradas a texto: fueron digitalizadas las páginas de las obras y se creó una base de datos integrada por los lemas de todos los diccionarios y la referencia de la imagen que lo contiene en cada uno de ellos, con indicación precisa de la columna en que aparece. Es, pues, una base mixta, que no permite la extracción del texto de la entrada ni, por supuesto, la búsqueda por las definiciones ni las marcas, pero constituye una herramienta fundamental para los lexicógrafos, a quienes proporciona un procedimiento cómodo de rastrear la aparición de las palabras y los cambios en las definiciones a lo largo de toda la historia de la lexicografía española. Una tecnología semejante es la aplicada en la digitalización del Fichero General de la RAE (FRAE): base de datos con los lemas y la referencia a las imágenes de los más de diez millones de papeletas, léxicas y lexicográficas, incluidas en este fichero, Sí se dispone del texto electrónico del Diccionario de Autoridades, que fue digitado manualmente en el curso del proyecto de preparación de materiales para la redacción del Nuevo diccionario histórico del español, y de otras ediciones del DLE incluidas en el Mapa de diccionarios. También en la página web se puede acceder al contenido del Diccionario de americanismos, publicado por ASALE en 2010. Como último paso en esta dirección, el Diccionario del español jurídico y el Diccionario panhispánico del

06-guillermo rojo/salvador gutierrez.indd 97

15/11/22 12:34

98

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

español jurídico muestran todas las posibilidades de explotación de una estructura diferente, concebida ya en formato electrónico, y el enriquecimiento del producto que se puede conseguir mediante la adición de enlaces a documentos complementarios (en este caso, la legislación más importante asociada a cada lema o sublema). Además de las lexicográficas, la RAE se ha esforzado en digitalizar y poner a disposición de las personas interesadas otras obras. Como caso intermedio hay que citar el DPD, cuya estructura no responde exactamente a la de un diccionario «normal», ya que contiene artículos sobre palabras o expresiones concretas y también artículos en los que se desarrollan temas como los numerales, el leísmo, el género, el voseo, el ceceo, etc. Es posible asimismo recuperar el texto de los parágrafos de la Nueva gramática de la lengua española (NGLE) que contienen una determinada expresión (formulable incluso como secuencia de lemas) o de la Ortografía de la lengua española (OLE). Está previsto que en un futuro próximo se incorpore la versión electrónica del Glosario de terminología gramatical (GTG) recientemente publicado en versión impresa. En resumen, la Real Academia Española ha hecho, en muy pocos años, una reconversión total del sistema de recopilación de datos, los modos de trabajo y la difusión de sus obras. En los dos apartados siguientes se expondrá, con mayor detalle, lo realizado en los dos ámbitos más destacados en esta línea: el diseño y construcción de corpus textuales por una parte y la digitalización de las obras lexicográficas. En la última sección nos centraremos en la aplicación de todo lo visto anteriormente al establecimiento y difusión de las orientaciones normativas en el ámbito del español. 2. Los corpus textuales Como ya se ha indicado, los trabajos de preparación del CREA comenzaron en 1995. Su diseño inicial establecía un total de 125 millones de formas ortográficas para textos publicados entre 1975 y 1999 en todos los países hispánicos, con una proporción del 50 % para España y el 50 % para América. Dada la potencia y capacidad de memoria de las computadoras de la época, la explotación del contenido se concebía fundamentalmente para la recuperación global de datos procedentes de la totalidad del corpus. Por tanto, era comprensible una distribución temporal según la cual los períodos más recientes pesaran más que los antiguos y se resaltara así lo que estaba ocurriendo en la época más próxima al momento en que se realizaba la consulta. En esta línea, los veinticinco años del CREA se estructuraban en quinquenios a los que se atribuían diferentes pesos porcentuales (el 10 %, 15 %, 20 %, 25 % y 30 %, respectivamente).

06-guillermo rojo/salvador gutierrez.indd 98

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

99

Por tanto, al año 1975 deberían corresponder 2,5 millones de formas, mientras que a 1999 se le asignaba el triple. Dada la gran cantidad de parámetros que era necesario tener en cuenta y las deficiencias de la tecnología de la época, la representatividad se buscaba por quinquenios, áreas lingüísticas (andina, Río de la Plata, etc.), grandes áreas temáticas y medio (prensa, libro, etc.) en lugar de pretender conseguirla por años o países. Además de los textos digitalizados y codificados en el proyecto, los responsables del CREA hicieron un esfuerzo considerable para integrar corpus que habían sido construidos con anterioridad o en paralelo y que no en todos los casos estaban codificados o eran consultables. Es el caso del Corpus Oral de Referencia de la Lengua Española Contemporánea (CORLEC), el Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico, el de Análisis de la conversación (Universidad de Alcalá de Henares), el de lenguaje oral y juvenil de Alicante, etc.1 El CREA está accesible hoy en dos versiones distintas. Una de ellas, que no ha sido lematizada ni anotada morfosintácticamente, comprende la totalidad de los textos de este corpus, unos 160 millones de formas. La segunda ha sido lematizada y anotada con los mismos recursos que se han aplicado al CORPES XXI y contiene los textos escritos publicados entre los años 1975 a 1999. El CORDE fue diseñado con la intención fundamental de reunir los materiales necesarios para el Nuevo diccionario histórico del español. En la configuración prevista inicialmente, este corpus debería constar de unos 250 millones de formas correspondientes a textos desde los orígenes de la lengua hasta 1974 y procedentes de todos los países del ámbito hispánico. En el primero de estos parámetros se atribuía el 21 % para la Edad Media, el 28 % para los Siglos de Oro y el 51 % para el resto. En el segundo, el 74 % para España, el 25 % para América y el 1 % para el resto. Se pretende lograr la representatividad exigible por grandes zonas lingüísticas, períodos históricos, tipos de texto (organizados en función de los existentes en las distintas épocas) y medios. En el diseño modificado que se estableció algún tiempo después, la previsión era que el CORDE llegara a tener 300 millones de formas. Se puso en marcha un procedimiento de trabajo que ha dado muy buenos resultados hasta el momento y se ha extendido a otros proyectos: un equipo central, radicado en Madrid, hacía la selección de los textos y las ediciones, pero la codificación era realizada también por un numeroso grupo de equipos situados en diferentes universidades españolas que colaboraban en el proyecto mediante la firma de convenios específicos (cf. infra). A todo ello hay que añadir un conjunto impor1 Cf.

https://www.rae.es/publicaciones/corpus-orales-incorporados-crea para la relación completa de corpus orales integrados en el CREA.

06-guillermo rojo/salvador gutierrez.indd 99

15/11/22 12:34

100

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

tante de textos cuya transcripción y codificación fueron encargados por la RAE a distintos equipos universitarios especializados en este trabajo. En la actualidad, el CORDE consta de unos 270 millones de formas que pueden ser consultadas en la página web de la RAE. Una parte considerable de los textos ha sido integrada en el Corpus del «Nuevo diccionario histórico del español» (CDH), lo mismo que ha ocurrido con muchos textos del CREA. El Corpus del Español del Siglo xxi (CORPES) tiene, como es lógico, una concepción mucho más moderna y ha podido beneficiarse de todos los progresos de la informática y la lingüística computacional, además de la experiencia adquirida en la confección de sus dos predecesores. El proyecto fue propuesto por la Real Academia Española al Congreso de Academias de la Lengua Española celebrado en Medellín en 2007 y aprobado formalmente como proyecto de ASALE por su pleno. Es un corpus que ocupa también una situación intermedia entre los cerrados y los abiertos. Su diseño prevé la introducción de 25 millones de formas para cada uno de los años del siglo xxi. Es abierto, pues, en tanto que el corpus va creciendo e incorporando textos a medida que van transcurriendo los años. Es cerrado en tanto que, una vez alcanzados los 25 millones correspondientes a un año determinado, ese subconjunto se cierra y ya no se modifica, con lo que los resultados obtenidos en su consulta serán estables a partir de ese momento. Su diseño establece que el 70 % de los textos debe proceder de países americanos y el 30 % de España. Además, tiene la entrada permanentemente abierta para textos procedentes en Filipinas y Guinea Ecuatorial. Presenta una organización interna semejante a la del CREA, pero bastante simplificada en lo que se refiere a las áreas temáticas. Como novedad de gran interés, contiene textos orales con transcripción y sonido alineados, en los que la recuperación de la información se hace por la versión escrita, pero es posible disponer también del sonido correspondiente a la zona seleccionada. La última versión, publicada en junio de 2020, tiene algo más de 312 millones de formas ortográficas. Además de estos, la RAE ha diseñado y construido otros corpus textuales a lo largo de este período. En primer lugar, el Corpus del Nuevo Diccionario Histórico del Español (CDH). Está integrado en buena parte por textos procedentes del CORDE o del CREA, pero incluye también otros que no figuran en ellos y, sobre todo, ha aplicado una codificación diferente y añadido una lematización y anotación morfosintáctica orientada fundamentalmente a la explotación lexicográfica. Consta en la actualidad con 355 millones de formas. Se está construyendo también un Corpus complementario del DLE, constituido por aquellos textos que, por razones relacionadas con la representatividad y el equilibrio de sus distintos componentes no han podido entrar en CORDE ni en CREA, pero tienen, a juicio de las academias de ASALE, un valor especial

06-guillermo rojo/salvador gutierrez.indd 100

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

101

para la nueva versión del DLE. Tendrá, a finales de 2020, alrededor de cinco millones de formas, todas ellas anotadas y lematizadas con los recursos que se apliquen al CORPES. En los últimos tiempos, la Real Academia Española ha prestado atención especial a los textos vinculados a la lengua de especialidad. En el marco del convenio entre la RAE y la FECYT que ha producido Enclave de ciencia, se ha construido un corpus de textos científicos y técnicos constituido por los que tienen este carácter pertenecientes al CORPES, la gran cantidad de noticias de carácter científico publicados en el Servicio de Información y Noticias Científicas (SINC) y otras publicaciones de la FECYT. En total, unos 112 millones de formas. También como resultado de otro convenio, en este caso el firmado con la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), se ha elaborado el corpus CAPITEL, constituido fundamentalmente por noticias de prensa y del que se ha revisado manualmente la etiquetación morfosintáctica de 1,1 millones de formas y la anotación sintáctica de casi medio millón. La característica más notable de este último corpus radica en que ha sido elaborado para su distribución completa en el marco de lo previsto en el Plan de Impulso de las Tecnologías del Lenguaje. El interés que posee la descripción de las características individuales de todos estos recursos es menor, para una perspectiva general como la que aquí se pretende, que el que deriva de la consideración conjunta de todos ellos y, muy especialmente, de la línea evolutiva que han seguido a lo largo de estos veinticinco años. En este sentido, el primer aspecto al que hay que atender es, sin duda, el del sentido integral con que han sido concebidos. CORDE, CREA y CORPES se suceden y relevan en el tiempo y muestran, en conjunto, la historia y características del español en su variabilidad diacrónica, diatópica y, hasta cierto punto, también diastrática. La integración de CORDE y CREA fue, en su primera fase, incluso superior a la que muestran actualmente. El CREA fue concebido como el corpus de los últimos veinticinco años de historia del español, de modo que, una vez llegados los años correspondientes, se abriría un nuevo quinquenio para englobar los años 2000 a 2004, luego otro situado entre 2005 y 2009, etc. Mantener el tamaño de 125 millones, que era considerable para los estándares de la época, significaba, por un lado, que la entrada de un quinquenio nuevo por el extremo más reciente supondría la desaparición de otro por la parte más antigua. El mayor inconveniente de esta pérdida se anulaba con la idea de que los textos de estos años pasarían a formar parte del CORDE, que iría así ampliando su ámbito temporal. Más difícil de solucionar era el segundo problema creado por esta concepción: mantener la cifra total implicaba tener que modificar las cantidades asignadas a cada período: con la transferencia al CORDE de los situados entre 1975 y 1979, el siguiente (1980-1984), que tenía el 15 % del total, debía pasar a tener únicamente el 10 % y así debería ocurrir con todos los demás pe-

06-guillermo rojo/salvador gutierrez.indd 101

15/11/22 12:34

102

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

ríodos. No se perdían los textos, que podían pasar a integrarse en el CORDE, pero suponía una enorme cantidad de trabajo. Afortunadamente, a medida que se acercaba el momento en que habría que tomar la decisión de recomponer el corpus, la evolución de la informática iba dejando claro que la posibilidad de manejar con soltura corpus de varios cientos o incluso miles de millones de formas era real, con lo que la reconfiguración prevista, tan dificultosa, carecía de sentido: el CREA podría seguir creciendo, sin necesidad de prescindir de los períodos más antiguos. Esa fue la decisión que se tomó finalmente, de modo que la versión del CREA que se cerró en 2005 comprendía también 37,5 millones de formas correspondientes a textos publicados entre 2000 y 2004. Con ello, la versión completa del CREA disponible hoy contiene unos 160 millones de formas procedentes de textos producidos entre 1975 y 2004. Un factor realmente importante ha sido el del diseño de todos estos corpus de referencia teniendo en cuenta el carácter inevitablemente policéntrico de una lengua con la extensión y el número de hablantes que tiene el español. Las críticas por una supuesta falta de representatividad de CREA y CORPES al no reflejar cuantitativamente la distribución poblacional del español carecen de sentido desde el momento en que queda claro que el objetivo fundamental en el análisis de los datos procedentes de un corpus no está en la consideración global de los resultados, sino en el contraste de las frecuencias normalizadas que presentan los múltiples subcorpus que se pueden construir de forma dinámica mediante consultas que combinan distintos valores en diferentes parámetros. En este mismo sentido, es importante también tener en cuenta que los construidos por la RAE son corpus de uso general, responden a lo que se considera un corpus de referencia y, por tanto, sin renunciar a alcanzar el mayor tamaño posible, priorizan la codificación minuciosa de los textos, lo cual supone un enorme esfuerzo en tiempo y recursos humanos y económicos. En efecto, es mucho más valioso y útil, tanto para la investigación lingüística como para cualesquiera otros propósitos, disponer de la información que puede proporcionar un corpus de cientos de millones de formas en el que cada uno de los textos que lo integran está codificado manualmente con respecto al año, el país, el medio y el área temática que un corpus integrado por miles de millones de formas en el que no se hayan incorporado estas informaciones o se haya hecho, parcialmente, mediante vías indirectas como, por ejemplo, el dominio en que se encuentran las páginas web originales o la dirección IP del servidor que las contiene. El grado de detalle, la granularidad que requiere, por ejemplo, la utilización de los datos contenidos en un corpus para la confección de un diccionario como el DLE establecen con toda claridad las ventajas de este acercamiento. El relativo retraso con el que la RAE se incorporó al mundo de la construcción de corpus ha tenido también el efecto positivo de haber podido beneficiarse

06-guillermo rojo/salvador gutierrez.indd 102

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

103

de las experiencias ajenas por una parte y de las enormes mejoras experimentadas por la tecnología utilizada. A pesar de que sus primeras versiones fueron publicadas ya en 1998, el CORDE y el CREA optaron desde el principio por un sistema de consulta basado en la utilización de Internet y los navegadores de uso general. Todos los datos y los programas que constituyen la aplicación de consulta se encuentran en un servidor central, con lo que la recuperación se realiza sin requisitos especiales. Por supuesto, el mismo sistema general se ha seguido para todos los corpus posteriores. La evolución de los recursos informáticos y la digitalización progresiva que se ha vivido en estos años ha repercutido también de forma favorable en la construcción de los corpus. El penoso trabajo de escanear, pasar por un sistema de reconocimiento de caracteres y corregir manualmente los libros (que ya constituía un enorme progreso con relación a fases anteriores) sigue siendo necesario en algunos casos, pero la disponibilidad de textos que ya están en formato electrónico es en este momento muy amplia. En ese sentido, la RAE se ha beneficiado enormemente de la generosidad con la que numerosos grupos editoriales y autores han facilitado el formato electrónico de sus textos para que fueran integrados en el CREA primero y luego en el CORPES. Desde una perspectiva complementaria, el proceso experimentado con relación a los textos de prensa es ilustrativo de toda esta evolución. En la confección del CREA (entre 1995 y 2004), la introducción de textos de prensa fue casi siempre un proceso muy largo y costoso. La posibilidad de disponer de textos en formato electrónico como los que publicaron periódicos como ABC o El Mundo era minoritaria. En la mayor parte de los casos, a las dificultades existentes para conseguir los ejemplares impresos (de países americanos, por ejemplo) se añadían las derivadas de las características tipográficas de estas publicaciones. En la preparación del CORPES, en cambio, la prensa digital es una fuente muy cómoda y sencilla, que permite obtener textos electrónicos de cualquier país, de años anteriores, que incorporan ya una codificación que se puede reconvertir a la utilizada en el corpus (incluyendo su área temática). En definitiva, la prensa ha pasado de ser el bloque más complicado de manejar a convertirse en el recurso más cómodo y que requiere menor esfuerzo. Hay un último aspecto que, aunque no forma parte del núcleo de los trabajos asociados habitualmente al proceso de producción de los corpus, sí es un factor importante en la estrategia de su construcción. El volumen del CORDE y lo ajustado del tiempo previsto para su construcción hizo necesario diseñar un sistema de colaboración con grupos universitarios que, mediante los convenios oportunos, hicieron la codificación de una buena parte de los textos, seleccionados siempre por el equipo central. Los resultados del sistema fueron muy positivos, de modo que el CORPES lo incorporó desde sus comienzos y continúa utilizándolo con la inclusión también de equipos radicados en otras academias

06-guillermo rojo/salvador gutierrez.indd 103

15/11/22 12:34

104

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

de ASALE. Proporciona un procedimiento ágil de conseguir procesar grandes cantidades de material en períodos reducidos de tiempo y, lo que es más importante, contribuye a difundir una técnica de trabajo de gran interés para quienes quieran dedicarse profesionalmente a la investigación lingüística y proporciona un estándar de facto en la codificación de los textos. 3. Los diccionarios La labor lexicográfica, que ha sido la ocupación fundamental de la RAE desde su fundación, ha experimentado también un cambio radical en estos últimos años. La conversión de los sistemas utilizados para la confección de diccionarios en la época preelectrónica en bases de datos lexicográficas (BDL) ha significado una auténtica revolución en el modo de planificar, estructurar, desarrollar y difundir los diccionarios. Las ventajas de los diccionarios electrónicos son enormes y pueden observarse incluso desde los modelos más elementales. Es necesario tener en cuenta que la lexicografía es la disciplina lingüística en la que tradicionalmente se ha mostrado mayor interés por la codificación de la información. Las entradas de cualquier diccionario impreso muestran, mediante diferentes recursos tipográficos, los contenidos de los diferentes bloques en los que se estructura una entrada: lema, clase gramatical, etimología, acepciones y subacepciones, ejemplos, etc. Como consecuencia de esta estructuración, la conversión de un diccionario impreso a la base de datos correspondiente no suele presentar grandes dificultades una vez se conocen bien sus características y se van resolviendo los problemas que plantea un sistema diseñado para su interpretación por seres humanos a otro que debe ser trabajado automáticamente. La gran diferencia radica en el hecho de que el formato impreso tiene forzosamente una organización jerarquizada, que resulta muy útil para ciertos propósitos, pero no para otros. La presentación alfabética de los diccionarios usuales es adecuada para localizar una palabra cuyo significado desconocemos, pero no sirve si lo que interesa es, por ejemplo, encontrar las palabras que llevan un determinado sufijo o las que proceden de otra lengua. Para estas otras finalidades se requieren diccionarios organizados de modo diferente. En un diccionario electrónico, en cambio, esa misma información está estructurada en campos distintos, a los que se puede acceder por vías independientes. De esa forma es posible, sin cambio en la información que aparece en la versión impresa, recuperar todas las preposiciones, las palabras procedentes del griego, las que terminan en ‑miento, etc. Como se ha indicado en el apartado 1, la RAE dispuso ya de una base de datos operativa de su diccionario para la edición de 2001 (la 22.ª), lo cual permitió ir añadiendo (y publicando en grandes bloques) las enmiendas, adiciones

06-guillermo rojo/salvador gutierrez.indd 104

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

105

y supresiones aprobadas por las academias de ASALE hasta desembocar en la 23.ª edición, publicada en forma impresa en 2014 y en línea en 2015. En ese mismo momento comenzó la preparación de la 24.ª edición, cuya publicación está prevista para 2026. Tiene, frente a las anteriores, la ventaja de que ha sido concebida, desde su mismo arranque, como una base de datos electrónica. Esta edición supone cambios cruciales en la estructura del diccionario, cuyo contenido ha sido sometido a un replanteamiento completo, con lo que, sin pérdida de lo que le ha conferido la importancia que tiene en el mundo hispánico, le otorga el carácter de un diccionario concebido y desarrollado en el siglo xxi. Incorpora el gran cambio que supone la lexicografía electrónica: se construye una base de datos lexicográfica (BDL), no un diccionario concreto. Por tanto, la misma BDL puede servir para producir varios diccionarios, con diferentes entradas o con distinta organización. Al tiempo, es posible graduar la presentación de las entradas, de modo que la complejidad de su contenido, que puede ser muy elevada, no imponga la misma salida a todos los usuarios, que podrán ir escalonando la información que desean examinan (con o sin subacepciones, con o sin etimología, con o sin ejemplos, etc.). Una ventaja adicional de esta línea, muy importante en un proyecto conjunto de ASALE, se sitúa en la posibilidad de hacer una auténtica redacción conjunta y colaborativa, sistema en el que la coordinación y unidad de criterios se combina con la posibilidad de que equipos diferentes trabajen sobre la misma entrada e incorporen informaciones de diverso tipo, que van desde la modificación de la definición a la inclusión de palabras, acepciones o subacepciones propias de un determinado país, pasando por la adición de ejemplos ilustrativos, marcas de uso, etc. Los corpus constituyen un elemento fundamental en esta nueva singladura del DLE. En lo que se refiere a la macroestructura, proporcionan un procedimiento objetivo, basado en datos reales, para establecer el lemario. Los datos de los corpus permiten detectar palabras utilizadas, pero que no figuran en el lemario por diferentes razones, conocer los datos relevantes acerca de su frecuencia y distribución y, en consecuencia, tomar las decisiones oportunas acerca de la conveniencia de incluirlas en el diccionario. En cuanto a su importancia para la microestructura, los corpus proporcionan ejemplos reales, lo cual resulta imprescindible para conocer el significado que tienen las palabras en los diversos ámbitos de uso, identificar los entornos sintácticos que utilizan, vincular su empleo o ciertas acepciones a tipos específicos de textos, países, etc. Constituyen el recurso con el cual es posible que un diccionario añada un conjunto razonablemente seguro de marcas de uso. El empleo de corpus textuales ha supuesto un cambio muy profundo en el universo lexicográfico. Los equipos encargados de la redacción de los diccionarios han pasado de tener que enfrentarse con un conjunto de algunos cientos o

06-guillermo rojo/salvador gutierrez.indd 105

15/11/22 12:34

106

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

unos pocos miles de ejemplos, seleccionados por otras personas con unos criterios cambiantes, a situarse ante quince o veinte mil líneas de concordancias de una palabra, lo cual hace absolutamente inviable el análisis completo de los datos. Afortunadamente, los desarrollos informáticos pueden ayudar a vencer estas dificultades. Por mencionar solo las más utilizadas en lexicografía, el análisis de las coapariciones (también llamadas colocaciones) permite tener una perspectiva rápida de las diferentes acepciones o subacepciones que tiene una palabra. Con un ejemplo bien conocido, si saco coaparece con patatas, garbanzos o yute por una parte y también con botones, ojal y corbata por otro, la explicación es, por supuesto, que tiene dos grandes acepciones, en la segunda de las cuales, general en muchos países del otro lado del Atlántico, equivale a chaqueta. Con técnicas desarrolladas en lingüística computacional, disponemos ya de recursos que permiten establecer de forma automática las grandes líneas de los esquemas de uso de las palabras, de modo que, en el caso de un verbo, se puede obtener la relación de sustantivos que pueden aparecer en función de sujeto, complemento directo, etc., saber si se pueden combinar con oraciones con indicativo, subjuntivo, infinitivo, etc. Recursos de este tipo suponen que el aumento inicial en la carga de trabajo derivada del incremento del número de casos que hay que tomar en consideración se compensa con la liberación de una buena parte de las tareas mecánicas que es necesario realizar para construir la entrada. 4. Departamento de «Español al Día» 4.1. Departamento de «español al día» La Real Academia Española creó el Departamento de «español al día» a finales de 1998 como un observatorio de la evolución cotidiana de la lengua. Se le asignaron desde el inicio los siguientes objetivos: a) Formar un equipo de filólogos especializados en observar y orientar sobre la norma lingüística. b) Constituir un Servicio de Consultas, abierto de forma universal a todos los usuarios de la lengua y destinado a resolver cuantas dudas se planteen a los hispanohablantes. En un momento en el que el español cruzaba la línea estadística de los 500 millones de usuarios y en el que el abordaje de extranjerismos era más intenso que nunca, esta sección era absolutamente necesaria. c) Redactar o apoyar la redacción de un corpus de obras normativas fundamentales de la RAE, en colaboración estrecha con el resto de las academias de ASALE. Estas obras normativas han sido conformadas y publicadas de forma

06-guillermo rojo/salvador gutierrez.indd 106

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

107

sucesiva: Diccionario panhispánico de dudas (2005), Ortografía de la lengua española (2010), Ortografía básica de la lengua española (2012), El buen uso del español (2013), Libro de estilo de la Justicia (2018), Libro de estilo de la lengua española (2019). Ha colaborado asimismo en los aspectos normativos de otras obras como la Nueva gramática de la lengua española (2009), el Diccionario de americanismos (2010), el Diccionario de la lengua española (2014), etc. 4.2. Servicio de Consultas Constituye una de las funciones esenciales de «Español al día». Atiende en la actualidad de forma gratuita a más de 500 consultas diarias para resolver dudas que proceden de todos los rincones del mundo hispánico. Su experiencia, su conocimiento filológico de la lengua, su atenta observación a los cambios que se producen día a día lo convierten en un instrumento necesario al servicio de la Real Academia Española. Aborda problemas de corrección en todas las áreas de nuestra lengua: ortografía, prosodia, morfología, sintaxis, léxico, variaciones dialectales… Realiza una labor social de enorme importancia por cuanto atiende a las dudas que se plantean tanto los profesionales para los que la lengua es un instrumento indispensable (escritores, periodistas, juristas, profesores, administrativos…) como los hablantes de a pie que necesitan resolver sus dudas lingüísticas. El Servicio de Consultas está realizando una doble labor de gran trascendencia. Por una parte, al recibir tantas consultas diarias, establece un puente con las preocupaciones cotidianas de los hablantes. Ello le proporciona un conocimiento directo de la evolución de nuestro idioma. Por otra parte, al fundamentar sus respuestas, halla cada día nuevos argumentos y nuevas perspectivas de explicar todas las áreas lingüísticas del español. 4.3. Dimensiones de la lengua española y estudio científico. A principios de siglo, la RAE y ASALE diseñaron un programa de confección y redacción de obras fundamentales para el conocimiento científico y normativo de la lengua: a) Dimensión gramatical: Nueva gramática de la lengua española (2009), seguida de obras más reducidas: Nueva gramática de la lengua española. Manual (2011), y Nueva gramática básica de la lengua española (2012). b) Dimensión fónica: Nueva gramática de la lengua española. Fonética y fonología (2011).

06-guillermo rojo/salvador gutierrez.indd 107

15/11/22 12:34

108

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

c) Dimensión ortográfica: Ortografía de la lengua española (2010). Esta obra fue seguida de abreviaciones: Ortografía básica de la lengua española y Ortografía escolar de la lengua española. d) Dimensión léxica: Diccionario del estudiante (2005); Diccionario esencial de la lengua española (2006); Diccionario de americanismos (2010); Diccionario de la lengua española (23.ª ed. 2014); Diccionario del español jurídico (2016); Diccionario panhispánico del español jurídico (2017, 2020 versión en línea). En este apartado se han de incluir dos proyectos en marcha de enorme importancia. En primer lugar, el Nuevo diccionario histórico del español, que enfocó la lexicografía histórica desde una concepción revolucionaria de un moderno diccionario electrónico, redactado sobre el formato de una nueva planta y de un amplio manual de redacción, y fundamentado inicialmente en un corpus específico (el Corpus del «Nuevo diccionario histórico»), que fue incorporando la información de otros corpus académicos, especialmente el CORDE. El segundo gran proyecto en marcha es el nuevo Diccionario de la lengua española (24.ª ed.), construido sobre una nueva planta y, al igual que el NDH, concebido desde el principio como un diccionario electrónico. 4.4. Obras para la aplicación de la norma De forma paralela, las instituciones académicas promueven la creación de una serie de obras de carácter práctico, destinadas a resolver los problemas normativos de los hablantes y a facilitar el uso correcto de nuestro idioma. Tres son las modalidades más frecuentes que adoptan este tipo de trabajos: la organización alfabética (diccionario), la organización temática y los llamados libros de estilo (que combinan ambas formas). Siguiendo este proceder se editaron: a) El Diccionario panhispánico de dudas (2005). b) El buen uso del español (2013). c) Libro de estilo de la justicia (2017). d) El libro de estilo de la lengua española (2019) 4.5. El Diccionario panhispánico de dudas 4.5.1. Origen y estado actual Fue publicado en noviembre de 2005. Es la primera obra en cuyo diseño, gestión, aprobación y publicación participaron todas las academias de ASA-

06-guillermo rojo/salvador gutierrez.indd 108

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

109

LE. Atiende no solo a la norma castellana, sino a las diferentes normas y variedades de los países hispanoamericanos y aporta ejemplos tomados de autores y de la prensa de todo el mundo hispánico. Constituyó un auténtico éxito editorial y es una fuente inagotable de información normativa. Aunque parte de su información necesita ser adecuada a las obras relevantes publicadas con posterioridad, su forma de aplicar criterios y de tratar aspectos ortográficos, gramaticales, léxicos… mantiene su vigencia. A pesar del tiempo transcurrido desde su publicación, continúa siendo un obligado punto de referencia y de cita. El número de consultas mensuales a través de la red es ingente. En la actualidad, se halla iniciando un proceso que afecta no solo a la actualización teórica y su adecuación a la nueva realidad del español después de quince años, sino también a la organización de su estructura para convertirse en un diccionario electrónico que ofrezca fuerte interrelación de sus entradas, gran facilidad para la consultas, honda versatilidad en las adaptaciones y un lenguaje compatible con el de los nuevos diccionarios académicos, en especial el NDH y el DLE). 4.5.2. Estructura El ordenamiento del DPD se halla condicionado por dos factores: a) por el hecho de ser un diccionario semasiológico, y b) por la finalidad que busca: resolver dificultades y formar al hispanohablante en cuestiones normativas. Frente a los diccionarios de lengua, su información no sigue las pautas de la lexicografía tradicional. Al lado de las definiciones aporta informaciones, exposiciones, argumentaciones, ejemplos, etc. que ayudan a entender el problema y los motivos de la decisión. Frente a los diccionarios tradicionales su objetivo no se centra en la información gramatical y en la definición, sino que focaliza aquellos aspectos que presentan problemas en el uso. Por otra parte, su exposición no se halla necesariamente guiada por la ley de la economía. Sobre ella priman la claridad y la explicación necesaria y suficiente. Adopta una redacción discursiva, expositiva. No duda en establecer puntos y extenderse en párrafos diferentes. Por otra parte, al tratarse de un diccionario de norma incluye información sobre la escritura de ciertos nombres propios que presentan problemas (Rin, Aquisgrán, Río de Janeiro, Oaxaca, Orleans…). Incluye asimismo información sobre siglas, símbolos, abreviaturas… en apéndice. Obsérvense las diferencias de estructura y de redacción en la entrada show y crupier en el DLE y en el DPD:

06-guillermo rojo/salvador gutierrez.indd 109

15/11/22 12:34

110

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

Tabla nº 1: diferencias de estructura y de redacción en la entrada show y crupier en el DLE y en el DPD DLE

DPD

show Voz ingl. 1. m. Espectáculo de variedades. 2. m. Acción o cosa realizada por motivo de exhibición. montar un show 1. loc. verb. Organizar o producir un escándalo.

show. Anglicismo innecesario, pues su equivalente español espectáculo está plenamente vigente en el uso, tanto con el sentido recto de ‘función pública destinada a entretener’ como en el figurado de ‘acción que causa escándalo’: «El espectáculo no había hecho más que comenzar» (Alsius Dudas [Esp. 1997]); «No se te ocurra, Marina, volver a montar otro espectáculo como este» (Rubio Sal [Esp. 1992]). En sentido recto, el anglicismo puede sustituirse también, según los contextos, por función, gala, número o exhibición.

DLE

DPD

crupier Del fr. croupier. 1. m. y f. Persona contratada en los casinos para dirigir el juego, repartir las cartas, controlar las apuestas, etc.

crupier. Adaptación gráfica de la voz francesa croupier, ‘empleado de un casino encargado de dirigir el juego, repartir las cartas y controlar las apuestas’. Es común en cuanto al género (→ género2, 1a y 3g): el/la crupier. Su plural es crupieres (→ plural, 1g): «Surgen escuelas para crupieres» (Proceso [Méx.])

4.5.3. Artículos temáticos Otra originalidad del DPD es que incluye artículos temáticos, es decir, entradas donde se tratan fenómenos teóricos que presentan repercusiones en la descripción o en la explicación de la norma. Aparecen incrustados entre los demás, pues respetan el orden alfabético, pero se diferencian tipográficamente porque su lema se halla escrito en versalita. Son artículos temáticos acento, acortamiento, acrónimo, apóstrofo, cardinales, concordancia, dequeísmo, fecha, fraccionarios, género, hiato, hora, laísmo, leísmo, loísmo, mayúsculas, etc. Sirvan como ejemplo de ambos tipos de entrada las de apóstrofe y apóstrofo:

06-guillermo rojo/salvador gutierrez.indd 110

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

111

Tabla nº 2: ejemplos de tipos de entrada: apóstrofe y apóstrofo Información no temática apóstrofe. ‘Invocación vehemente a una segunda persona’: «¡Aléjate del yo, Simón, y créeme! ¡El yo quema! (Juan Anido dejó de hablar después de este apóstrofe)» (MFoix Quincena [Esp. 1988]); e ‘insulto o dicterio’: «Ante el alud de apóstrofes y de ultrajes, retrocedió, temeroso, el público» (Mujica Escarabajo [Arg. 1982]). Aunque en el español clásico se usaba a menudo con el género femenino etimológico, hoy se emplea exclusivamente en masculino. No debe confundirse con apóstrofo (‘signo ortográfico’; → apóstrofo).

Información temática apóstrofo.

Signo ortográfico auxiliar en forma de coma alta (’), que apenas se usa en el español actual. 1. Como usos propios de la lengua española, se distinguen principalmente dos: a) Para indicar, en ediciones actuales no modernizadas de textos antiguos, sobre todo poéticos, la elisión de la vocal final de determinadas palabras (preposiciones, artículos, conjunciones) cuando la que sigue empieza por vocal: d’aquel (por de aquel), l’aspereza (por la aspereza), qu’es (por que es). b) Para reflejar, en la escritura, la supresión de sonidos que se produce en ciertos niveles de la lengua oral. Aparece con frecuencia en textos literarios cuando el autor desea reproducir el habla de personajes de escasa cultura: «Sacúdete el vestidito, m’ija, pa’que se nos salga el mal agüero» (Hayen Calle [Méx. 1993])…

4.5.4. Renovación de contenidos El DPD se halla sometido a una profunda revisión de contenidos. Muchos problemas léxicos acuciantes en el año 2005 (por ejemplo, casete y sus compuestos) han dejado de ser de actualidad. Por el contrario, han surgido numerosas dudas sobre términos que nos llegan a través de las redes, de la moda, de la técnica, del deporte, de la cultura… • •

Extranjerismo crudos: banner, hacker, software, hardware, cookie… Extranjerismos adaptados: gentrificación, tuit, chat (chatear), wifi…

El DPD ha de incluir información que, por urgencia o por otras razones, en 2005 se quedó en el muelle. A la espera de la publicación de la Nueva gramática de la lengua española, no se trataron las preposiciones. Todo lo que aparece de la entrada contra en el DPD tiene que ver con sus usos nominales:

06-guillermo rojo/salvador gutierrez.indd 111

15/11/22 12:34

112

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

contra. 1. Esta preposición puede usarse como sustantivo femenino con los sentidos siguientes: a) ‘Inconveniente o dificultad’: «Muertos y viejos no: son demasiadas contras» (Gambaro Envido [Arg. 1983]); «La de gente en el mundo que no habrá tenido ni tiene más que penas y contras y aburrimientos» (Quiñones Noches [Esp. 1979]). b) En amplias zonas de América, ‘antídoto’: «Solo falta leer un poco sobre los Borgia y las lavativas y contras rarísimas que se hacían Gemetius y el emperador Claudio» (Obando Paraíso [C. Rica 2001]). c) En boxeo, ‘golpe no directo’: «No logró más que una buena contra de izquierda al final del segundo “round”» (Abc [Esp.] 15.6.89)…

Es necesaria una armonización con las nuevas normas de la Ortografía de la lengua española: acentuación, mayúsculas y minúsculas, abreviaciones, prefijos… Y, aspecto importante, se habrán de incluir informaciones y precisiones que se han venido acumulando a partir de las preguntas y respuestas del servicio de consultas. El nuevo DPD deberá: a) Incluir las partes que no pudieron ser estudiadas y redactadas en la primera edición. b) Actualizar todas las decisiones normativas que se corresponden con las decisiones asumidas por las obras académicas posteriores. c) Aumentar el número de entradas y de construcciones problemáticas. d) Enriquecer los contenidos siguiendo el banco de respuestas acumulado en el Servicio de Consultas. e) Dotar de mayor respaldo testimonial con un mayor número de ejemplos hispánicos. 4.5.5. Entorno informático El DPD fue una obra redactada en un procesador de textos, el Microsoft Word. En los años subsiguientes a su publicación, hubo intentos de realizar una redacción a través de una nueva herramienta informática que no llegaron a su fin. En la actualidad, la nueva edición de esta obra seguirá un proyecto de estructuración electrónica. El nuevo DPD ha de ser un diccionario digital; se ha de modernizar con el fin de que permita: a) Acceder a la información desde entradas múltiples (no solo desde el lema). b) Facilitar la conexión con otros diccionarios de la casa.

06-guillermo rojo/salvador gutierrez.indd 112

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

113

c) Facilitar el acceso electrónico desde diferentes plataformas. d) Renovar los contenidos, corregir errores, ampliar información, ejemplos… El proyecto se articula en varias fases: a) Primera fase. Definición de la estructura de los artículos y definición de las herramientas de actualización de contenidos. Ahora mismo, los artículos de redacción antigua, se hallan almacenados en formato HTML, creado sobre el formato original de Microsoft Word. Se deben crear programas que permitan la primera estructuración automática. En este trabajo participarán el Departamento de «Español al día» y el Departamento de Tecnología de la RAE. Se seguirán criterios formales, usabilidad, finalidad, etc. El resultado se someterá a un cotejo cruzado entre los dos departamentos. Para las aplicaciones en la actualización de los contenidos del DPD, conviene desarrollar un sistema de gestión del conocimiento adaptado a singularidad de esta obra. b) Segunda fase. El DPD dispondrá de una estructura de partida nueva y de un entorno informático para su actualización. Se ha previsto iniciar una segunda fase de estructuración en la que puedan acometerse dos nuevas tareas: por una parte, la marcación explícita de la doctrina contenida en el diccionario, de forma que pueda recuperarse en cualquier momento la valoración normativa académica de los diferentes fenómenos tratados en el DPD (usos censurados, usos admitidos pero desaconsejados, usos recomendados, etc.); por otra, la creación de una interfaz de consulta nueva para la versión electrónica en Internet, que aproveche la infraestructura de tecnología lingüística que ha desarrollado la Real Academia Española en los últimos años. Para realizar los objetivos trazados, se incorporarán los trabajos sobre el DPD en el nuevo sistema gestor de bases de datos lexicográficas (BDL) desarrollado por la RAE, que permite la integración de diferentes tipos de datos («backend») con distintas aplicaciones. Este sistema permitirá que varios integrantes de los equipos de trabajo del Departamento de «Español al día» puedan editar y modificar, de forma simultánea, los registros estructurados correspondientes a la primera edición del diccionario, garantizando la integridad de los datos y de la información, al mismo tiempo que se facilitarán las validaciones en los módulos de control, seguridad y autenticación. Esta metodología tiene como finalidad, también, favorecer la validación y ajuste de las propuestas de codificación inicial incorporadas en los artículos correspondientes a la primera edición del DPD.

06-guillermo rojo/salvador gutierrez.indd 113

15/11/22 12:34

114

GUILLERMO ROJO / SALVADOR GUTIÉRREZ ORDÓÑEZ

Corpus, diccionarios y otros recursos mencionados en el texto ACUAH: Análisis de la Conversación. Universidad de Alcalá de Henares. Dir. Ana María Cestero. Integrado en CREA. ALCORE: Alicante Corpus Oral del Español. Dir. Dolores Azorín. Integrado en el Corpus oral para el estudio del lenguaje juvenil y del español hablado en Alicante. Integrado en CREA. BNC: British National Corpus (www.natcorp.ox.ac.uk/). BUE: Real Academia Española y Asociación de Academias de la Lengua Española. El buen uso del español. Madrid: Espasa, 2013. CDH: Real Academia Española. Corpus del Nuevo Diccionario Histórico del Español (http://www.rae.es/recursos/banco-de-datos/cdh). CORDE: Real Academia Española. Corpus Diacrónico del Español (http://rae.es/recursos/banco-de-datos/corde). CORLEC: Corpus oral de referencia de la lengua española contemporánea. Dir. Francisco Marcos Marín (http://www.lllf.uam.es/ESP/Corlec.html). Integrado en CREA. CORPES: Real Academia Española. Corpus del Español del Siglo xxi (http://rae.es/ recursos/banco-de-datos/corpes-xxi). CREA: Real Academia Española. Corpus de Referencia del Español Actual (http://rae. es/recursos/banco-de-datos/crea). DAm: Asociación de Academias de la Lengua Española (ASALE): Diccionario de americanismos (http://lema.rae.es/damer/). DicAut: Real Academia Española: Diccionario de Autoridades (http://web.frl.es/ DA.html). DE: Real Academia Española: Diccionario del estudiante. Madrid: Santillana, 2005. DEI: Real Academia de Ingeniería. Diccionario Español de Ingeniería. Consultable en Enclave de Ciencia y http://diccionario.raing.es/. DEJ: Real Academia Española: Diccionario del español jurídico. Dir. Santiago Muñoz Machado (https://dpej.rae.es/). DELE: Real Academia Española. Diccionario esencial de la lengua española. Madrid: Espasa, 2006. DICCIOMED: Diccionario médico-biológico, histórico y etimológico. Dir. Francisco Cortés Gabaudan. Consultable en Enclave de Ciencia y en https://dicciomed.usal.es/. DLE: Real Academia Española y Asociación de Academias de la lengua española. Diccionario de la lengua española (https://dle.rae.es/). DPD: Real Academia Española y Asociación de Academias de la lengua española. Diccionario panhispánico de dudas (https://www.rae.es/dpd/). DPEJ: Real Academia Española. Diccionario panhispánico del español jurídico. Dir. Santiago Muñoz Machado (https://dpej.rae.es/). Enclave RAE: Real Academia Española. Enclave RAE (https://enclave.rae.es/). Enclave de Ciencia: Real Academia Española y Fundación Española para la Ciencia y la Tecnología. Enclave de Ciencia (https://enclavedeciencia.rae.es/). FRAE: Real Academia Española: Fichero general de la lengua española (http://web.frl. es/fichero.html).

06-guillermo rojo/salvador gutierrez.indd 114

15/11/22 12:34

DIGITALIZACIÓN Y RECURSOS ELECTRÓNICOS EN LA REAL ACADEMIA ESPAÑOLA

115

LEJ: Real Academia Española y Consejo General del Poder Judicial. Libro de estilo de la Justicia. Dir. Santiago Muñoz Machado. Madrid: Espasa, 2017. LELE: Real Academia Española y Asociación de Academias de la Lengua Española. Libro de estilo de la lengua española. Según la norma panhispánica. Madrid: Espasa, 2017. Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (integrado en CREA). NDHE: Real Academia Española. Nuevo diccionario histórico del español (http://web.frl. es/DH/). NTLLE: Real Academia Española. Nuevo Tesoro Lexicográfico de la Lengua Española (https://www.rae.es/recursos/diccionarios/diccionarios-anteriores-1726-1992/nuevo-tesoro-lexicografico). TERMINESP: Asociación Española de Terminología. Proyecto Terminesp. Consultable en Enclave de Ciencia y en https://aeter.org/proyecto-terminesp/.

06-guillermo rojo/salvador gutierrez.indd 115

15/11/22 12:34

06-guillermo rojo/salvador gutierrez.indd 116

15/11/22 12:34

DIGITAL FRISIAN AND LANGUAGE TOOLS: DEVELOPMENT AND IMPLEMENTATION OF THE PROVINCIAL POLICY IN THE 21ST CENTURY Hans Van de Velde Fryske Akademy/Utrecht University [email protected]

1. Background Regional and minority languages are facing two threats in the digital world. First, language technology for these languages —which is crucial for speech recognition and speech synthesis, writing tools, automatic translation and information retrieval systems— is underdeveloped or non-existent. Second, the Internet is dominated by a small number of languages and especially those languages that have mainly an oral tradition are close to digital language death. But at the same time, as already acknowledged twenty years ago, the Internet and digital technologies create an opportunity for revitalization of regional and minority languages (Crystal 2000, 2001, Cunliffe 2007). The rise of the Internet, spectacular developments in language technology and the growing recognition of regional and minority languages coincide in time. In this paper we will present an overview of the language policy for Frisian in the digital world, the online use of Frisian and the main digital Frisian language tools. The use of Frisian on social media (see Jongbloed-Faber 2021) is outside the scope of this paper. Fryslân (Friesland) is a province in the north-western part of the Netherlands, with a population of almost 650,000. It is a bilingual province, where West-Frisian —commonly called Frisian— is recognised as an official language, next to

07-hans van de velde.indd 117

24/11/22 10:24

118

HANS VAN DE VELDE

Dutch (Overheid 2014). Recent language surveys show that about 60 % of the inhabitants are native speakers of Frisian (Klinkenberg et al. 2018, Taalatlas 2020). It should be noted that monolingual Frisian speakers do no longer exist: all Frisian speakers are fluent speakers of Dutch and are literate in Dutch. Only 7 % of the population claims to have problems with understanding Frisian (Taalatlas 2020: 7). There are also Frisian speakers living outside the provincial borders, but their number is unknown. The total number of native speakers is estimated at 450,000. The Frisian language is protected and promoted under a number of provincial, national and European regulations and laws. At the European level (Council of Europe) Frisian is recognised under Part III of the European Charter for Regional or Minority Languages (1998) and the European Framework Convention for the Protection of National Minorities (2005). From the mid 1950’s a series of Dutch laws have regulated the use of Frisian in education and court cases. In 1995 Frisian was recognised as an administrative language in Fryslân. In 2014 the Frisian language act (Wet Gebruik Friese Taal 2014) came into force, regulating the linguistic rights of the citizens and the linguistic obligations of the government in administrative communication. I would like two point out two core issues of this language act: (1) it is based on the territorial principle: Frisian is allowed, but only within the borders of the Fryslân province; (2) even in Fryslân there is language inequality: exceptions are almost always in favour of Dutch and a speaker of Dutch has more rights to use Dutch than a speaker of Frisian to use Frisian. Since 1989, the provincial and national government have settled in the Covenant on Frisian Language and Culture (BFTK 1989, 1993, 2001, 2005, 2009, 2013, 2019) how they will ensure and stimulate the use of Frisian. The increasing responsibility of the provincial government is illustrated by the fact that, as language skipper, it has taken up the leading role in the implementation of the BFTK Covenant (De taalskipper Frysk 2018). In Section 2 the development of the digital ambitions of the Fryslân provincial government in the first two decades of the 21st century is sketched on the basis of a series of policy documents. It is also discussed and illustrated how they try to stimulate and support the digital use of Frisian. In Section 3 I will discuss the online visibility and use of Frisian. Fryske Akademy is the main developer and provider of digital and online language tools for Frisian. They are presented in Section 4. I end this paper in Section 5 with a sketch of the current initiatives that should lead to more research and development in the field of technology and Frisian and that should result in a better implementation of the language policy, stimulating the vitality and use of Frisian in the digital era.1 1 This

is an elaborated and updated version of the two papers I presented (in French) in Donostia on 12 and 13 September 2019. At that moment I was rather pessimistic about the de-

07-hans van de velde.indd 118

24/11/22 10:24

DIGITAL FRISIAN AND LANGUAGE TOOLS

119

2. Digital ambitions of the provincial government Twenty years ago, in the Covenant on Frisian Language and Culture, province (Fryslân) and state (The Netherlands) formulated for the first time the ambition to promote the development of Frisian multimedia ICT materials in Frisian to facilitate the use of ICT technology in Frisian-medium education (BFTK 2001: 5) and to obtain «an appropriate place» for Frisian in the new media (ibid.: 7). The provincial government even had the ambition «to make the position of Frisian (Internet and e-mail) in the new media at least equal to that of Frisian in the traditional media (in particular radio and television) in Fryslân» (ibid.: 7, my translation). In the two follow-up implementation agreements (BFTK 2005, 2009) there were no modifications concerning digital Frisian, apart from the statement that the national government (BFTK 2009: 5) would use on its websites the correct Frisian names for the province2 and the Frisian municipalities. In the Covenant covering 2013-2018, the attention for Frisian in the digital world was still limited. The definition of new media was expanded to Internet, digital cable video-on-demand, narrowcasting and social media (BFTK 2013: 14), but the ambitions were an almost literal repetition of what was stated in the 2001 version. A strikingly detailed addition was that the national public broadcaster had to host on its website ten hours per year of school television in Frisian, specifically for primary school children. In the section on education the development of digital course materials for primary and secondary education was mentioned. Digitization was introduced as an important tool for opening up and disseminating Frisian literature. This covenant did not seem very promising for digital Frisian, but a bill in the provincial parliament at the end of 2014, asking for a continuous investment in digital tools for Frisian, seemed to be the turning point (FNP et al. 2014). In the current Covenant on Frisian Language and Culture province (Fryslân) and state (The Netherlands) jointly acknowledge that to achieve an equal position of Frisian and Dutch, it is necessary to continuously provide language and standardization tools for Frisian, such as course materials, dictionaries, Frisian (mass) media and digital tools (BFTK 2018: 12). The goals and ambitions are more outspoken than in the previous covenants. In the section on education, velopments at Fryske Akademy and the implementation of the provincial language policy. However, in Spring 2020 momentum was created, resulting in several new initiatives which I preferred to report on in this contribution. Some of these initiatives were inspired by other presentations at the conference. 2 On 1 January 1997 the provincial government changed the name of the province from Friesland (Dutch) to Fryslân (Frisian). In 2004 the Dutch national government adopted this policy (Leeuwarder Courant 2004).

07-hans van de velde.indd 119

24/11/22 10:24

120

HANS VAN DE VELDE

the course materials for Frisian language education in primary (Spoar 8) and secondary schools (Searje 36) are explicitly mentioned. It is stated that a broader spectrum of physical and digital instruments should be developed, catering the needs of different user groups. Due to market failure, the government needs to take an active and stimulating role and (financially) support the development of printed and digital course materials (BFTK 2018: 20). They also have the intention to explore the possibilities of a national platform, where teachers of Frisian could share the course materials they develop. In the section on (mass) media (BFTK 2018: 31), the national and provincial government share the vision that Frisian is continued to be used in the mass media. They explicitly acknowledge the important role of digital (social) media and new media formats, in addition to radio and television. Omrop Fryslân, the Frisian regional broadcasting company, is attributed a crucial role in the preservation, promotion, development, transmission and use of Frisian. They broadcast in Frisian, and the website (in both Frisian and Dutch) is by far the largest digital provider of present-day written and spoken Frisian. The other Frisian media outlets are not explicitly mentioned. The most actual provincial policy documents (Fryslân 2016, 2020) are much more explicit about the goals, participants, means and budgets for the digital codification and implementation of Frisian. In Fryslân (2016) the development of digital tools for Frisian is highlighted as a point of attention, and for the period 2016-2020 a budget of € 1,500,000 was attributed, as part of the annual support of about 11 million for the implementation of the Frisian language policy (Van de Velde 2021). Table 1 provides an overview of the projects that were funded. With the funding scheme several objectives were achieved: • • • •

Development of tools supporting standardization and writing of Frisian; Increase the visibility of Frisian in the digital world; Increase the visibility and use of the Frisian digital tools; Develop more products for children (and not exclusively for literate adults).

07-hans van de velde.indd 120

24/11/22 10:24

121

DIGITAL FRISIAN AND LANGUAGE TOOLS

Table 1: Overview of the digital tools for Frisian, developed under the provincial policy 2016-2020 (Fryslân 2016) Online

Partners

Period

Online Dutch-Frisian dictionary

Integrated in frysker.nl

Fryske Akademy

2017-22

Upgrade spelling tools and plugin MS Office 365

taalweb.frl/downloads -> frysker.nl/downloads

Fryske Akademy private

2017

Taalhelp.frl: portal with Frisian digital tools and games for adults and children

taalhelp.frl

Afûk

2018

Incorporation of Frisian spell checker in Microsoft Office

taalhelp.frl

Microsoft private Fryske Akademy

2019-20

Frisian Synonyms for MS Office

taalhelp.frl

Fryske Akademy

2019-20

Common Voice: development of an open source spoken database

commonvoice.mozilla. org/fy-NL

Mozilla Fryske Akademy volunteer

2019

Lear de Lûden: new course materials (sounds, words, orography) for primary education: toolkit and app

heutink.nl/artikel/100_523472

private

2019-20

Tsjil: development of app, with programs and videos in Frisian for children under 12

tsjil.omropfryslan.nl

Omrop Fryslân

2019-20

Taalweb 2.0: upgrade and development of front-end and back-end digital language tools on taalweb.frl (dictionary portal, automatic translation, spelling tools, etc.)

taalweb.frl -> frysker.nl

Fryske Akademy private

2020-21

Oersetter 2.0: app (iOS and Android) and widget to translate words and short sentences, also included in Edufrysk (digital learning platform)

oersetter-app.nl

Fryske Akademy Afûk private

2020-21

In these projects, the main regional partners, such as Fryske Akademy (research centre on Frisian language and culture), Afûk (promotion and transmis-

07-hans van de velde.indd 121

24/11/22 10:24

122

HANS VAN DE VELDE

sion of Frisian) and Omrop Fryslân (Frisian broadcasting station), private companies and big international players such as Microsoft and Mozilla were involved. The Mozilla Common Voice project (Figure 1) was instigated and supported by an individual language activist, who had already constructed a Frisian version of Firefox (Fjoerfoks). The aim is to collect open access data for the development of speech technology. The collaboration with Microsoft (Figure 2) is the result of a long negotiation process, involving the provincial administration and government, the Frisian stakeholders, a product manager of Microsoft Netherlands, and an ICT company. It resulted in the development of a business case that convinced Microsoft to start the incorporation of Frisian. A decisive factor, after a failed project with another language minority, was that the Frisian language data are hosted by the Fryske Akademy, an academic institute with a long tradition in the field of language standardization and lexicography and ample experience in the development of digital spelling tools. The main online language tools developed by Fryske Akademy under the provincial granting programme are described in Section 4.4. Attempts by the provincial administration to have Frisian included in Duolingo, a digital language learning tool, were unsuccessful. Figure 1: Frisian in Mozilla Common Voice (https://commonvoice.mozilla.org/fy-NL)

07-hans van de velde.indd 122

24/11/22 10:24

DIGITAL FRISIAN AND LANGUAGE TOOLS

123

Figure 2: Frisian in Microsoft Office, announcement on taalhelp.frl

In Nije Poadium, the current provincial policy document in the fields of arts and culture, cultural heritage, and language and education, the instruments and means are described to reach the ambitions and goals formulated by the provincial government. Digitalization of collections and their accessibility for researchers and especially the general public is a core ambition (Fryslân 2020:27), expanding the Frisian cultural heritage hub redbot.frl. 3. Online visibility and use of Frisian To my knowledge, there are no detailed analyses of language choice on websites hosted by Frisian companies and organizations. In this section I present some striking observations that could be the starting point of a more detailed analysis. Websites providing information primarily in Frisian are hosted by core members of the Frisian cultural world, such as Tresoar (tresoar.nl, provincial

07-hans van de velde.indd 123

24/11/22 10:24

124

HANS VAN DE VELDE

archive and library), Afûk (afuk.frl, transmission and promotion of Frisian), Fryske Akademy (fryske-akademy.nl, research institute Frisian language, culture and history) and Tryater (tryater.nl, Frisian theatre). On these websites the user can switch between a Frisian, Dutch and English version. Omrop Fryslân (omropfryslan.nl), the Frisian regional broadcasting corporation offers information in both Frisian and Dutch, but the Frisian version provides more information than the Dutch one. Monolingual Frisian sites are exceptional and mainly hosted by advocacy groups for the Frisian language, such as the Ried foar de Fryske Beweging) (fryskebeweging.frl). They also support a news site in Frisian (itnijs. frl). The news items are mainly related to Frisian language and culture and other language minorities. However, the two regional newspapers, Leeuwarder Courant (lc.nl) and Friesch Dagblad (frieschdagblad.nl), have a monolingual Dutch website and only a very small number of contributions are written in Frisian. De Moanne is a bilingual digital and paper magazine on Frisian art and culture. It accepts contributions in Dutch and Frisian, but Frisian is the dominant language. The bilingual website Heitenmen.nl («mum and dad» in Frisian) was launched in 2007 by Afûk to provide information about growing up bilingual for prospective and young parents in Fryslân. Two years later the website was accompanied by a magazine. The dominant language of both website and magazine is Frisian, part of the information is provided in Dutch, and have developed into a more general magazine for parents with children under 12 years old. However, there is still a strong focus on multilingualism and the stimulation of the use of Frisian. The Frisian tourist information office has a website (friesland.nl) in Dutch, Frisian, German and English, but the warning in the middle of the Frisian site invites the visitors to use the Dutch one: «Nice to see you, but consult the Dutch site for the latest news» (see Figure 3). Most Frisian museums do not have a website in Frisian, or only provide limited information in Frisian. A notable exception is the website of the foundation Alde Fryske Tsjerken (aldefrysketsjerken.nl), favouring the preservation of the old Frisian churches. The provincial government’s website (fryslan.frl) provides all information in both Frisian and Dutch. Given the fact that Frisian has the status of official language, one would expect —although this is not a legal obligation— that the municipalities in the Frisian language area have a parallel website in Frisian and Dutch. It should be noted that not all 18 municipalities in the Fryslân province belong to the Frisian language area. Ameland, Vlieland and Weststellingwerf are officially monolingual Dutch areas. The small islands Schiermonnikoog and Terschelling are also exempt from having a language policy plan. In October 2021, seven from the thirteen remaining communities have a Dutch-only web-

07-hans van de velde.indd 124

24/11/22 10:24

DIGITAL FRISIAN AND LANGUAGE TOOLS

125

Figure 3: Frisian home page of the Frisian tourist office (1 October 2020), where users are advised to consult the Dutch version.

site and do not even mention or publish their current language policy plan. Nevertheless, one of them, Súdwest-Fryslân, even proudly announces —in Frisian— to be the largest municipality in the Netherlands. Four municipalities present their Frisian language policy under the Frisian part of their website3: In soad ynwenners fan ús gemeente hawwe it Frysk as memmetaal. Foar harren foarmet it Frysk in wichtich part fan harren identiteit. As gemeente wolle wy dêrom alle war dwaan om de Fryske taal yn ús gebiet te behâlden en fuort te sterk3 Note

07-hans van de velde.indd 125

that they all use the same format and the same texts.

24/11/22 10:24

126

HANS VAN DE VELDE

jen. Hjirre kinne jo lêze hoe’t wy de Fryske taal behâlde wolle, hoe’t wy it Frysk in prominint plak jaan wolle yn ús wurk en hoe’t wy it Frysk brûke wolle yn ús omgong mei ynwenners, bedriuwen, maatskiplike organisaasjes en oare oerheden. Many residents of our municipality have Frisian as their mother tongue. For them, Frisian is an important part of their identity. As a municipality, we therefore want to do everything to preserve and strengthen the Frisian language in our area. Here you can read how we want to preserve the Frisian language, how we want to give Frisian a prominent place in our work and how we want to use Frisian in our dealings with residents, companies, social organizations and other authorities.4

Waadhoeke presents itself as a trilingual municipality and provides information in three languages: Dutch, Frisian and Bildts5. However, in October 2021 it is mainly the framework and the headings that are offered in three languages. The more detailed and lower-level information is in Dutch. Smallingerland is the only municipality having almost equivalent information in Frisian and Dutch (smallingerland.nl). Only the news section is exclusively presented in Dutch. The very limited use of Frisian illustrates that most of the Frisian municipalities do not consider Frisian as a convenient tool for written communication with their Frisian speaking citizens. At the one hand, this in in line with the language situation. Frisian is mainly used in oral and informal domains (Klinkenberg et al. 2018). In official letters and e-mails Frisian is only used by 5 % of the speakers. However, in informal social media that are closer to the spoken language, Frisian is frequently used, especially by the younger generations (Jongbloed-Faber 2021). At the other hand, it shows that at the local governmental level there is a serious lack of support to break the vicious circle of not writing Frisian because people are not used to reading Frisian. 4. Fryske Akademy’s Frisian language tools The Covenant on Frisian Language and Culture also contains a section on the tasks, governance and funding of Fryske Akademy (BFTK 2001: 9-10, 2013: 17; 2018: 37-38) as the research institute for Frisian Language and Culture. Fryske Akademy is also the main developer and host of the digital infrastructure for Frisian, for both researchers and language users. These tools 4 This English translation is automatically generated in two steps: (1) The Frisian original was translated to Dutch by means of frysker.nl. (2) The Dutch text was translated to English by means of Google translate. 5 Bildts is a Dutch-Frisian contact variety, see Van Sluis, Hoekstra & Van de Velde (2016).

07-hans van de velde.indd 126

24/11/22 10:24

DIGITAL FRISIAN AND LANGUAGE TOOLS

127

have to cater the needs of a diverse group of language users, such as language professionals who are fluent in spoken and written Frisian (writers, translators, journalists, teachers, developers of course materials), people working for administrations and public services, occasional writers (e.g. birth, wedding or funeral announcements, rhymes, etc. ), native speakers of Frisian who mainly write in Dutch, and second language learners (mainly native speakers of Dutch), and researchers who want to study the Frisian language, literature or history. In this section we will focus on four online tools that are available for linguists and language users: a scientific grammar (4.1), a scientific dictionary (4.2), a speech recognition system (4.3) and a collection of online tools for language users (4.4). 4.1. Taalportaal Figure 4: taalportaal.org, online scientific description of Frisian grammar

Taalportaal is a comprehensive scientific grammar of Frisian, integrated in a larger project also covering Dutch and Afrikaans. In English, it presents a stateof-the-art description of the phonology, morphology and syntax of standard Frisian (mainly based on the Clay dialects), occasionally enriched with information on other dialects. It is freely available online. The primary target audience

07-hans van de velde.indd 127

24/11/22 10:24

128

HANS VAN DE VELDE

is the international research community interested in Frisian, but a secondary audience is formed by language professionals (teachers, language advisors, translators, developers of Frisian teaching materials). More information can be found on the portal (taalportaal.org) and in Landsbergen, Tiberius & Dernison (2014). 4.2. WFT: Wurdboek fan de Fryske taal / Woordenboek der Friese taal Figure 5: Hard copy of WFT, scientific dictionary of Frisian

The scientific historical dictionary of Frisian covers the Frisian lexicon in the period 1830-1950. It has a bilingual Frisian-Dutch title, but it is written in Dutch. Data collection started in 1938, with the foundation of Fryske Akademy, and the 25 volumes (with entries in alphabetical order) were compiled between 1960 and 2010, and publication started in 1984 and reached completion in 2011. However, the full online volume was published one year earlier, in 2010. Thanks to a collaboration with the Institute for the Dutch language (at that time: Institute for Dutch Lexicology), it was integrated in a database and portal giving access to four Dutch historical dictionaries and the Frisian one (https://gtb.ivdnt. org/). The search engine was updated and expanded in 2019 and is available in a basic version (mainly for language users) and an extended one (for researchers). The search engine is only available in Dutch. It is an important online source for contemporary Frisian lexicographic work, and Frisian literary writers and language professionals regularly consult this Frisian historical dictionary. 4.3. FAME! Frisian speech recognition The development of the first Frisian speech recognition system was inspired by a very practical question: how can journalists and producers search

07-hans van de velde.indd 128

24/11/22 10:24

DIGITAL FRISIAN AND LANGUAGE TOOLS

129

easily and quickly in the sound archive of the Frisian broadcasting company. This resulted in the project Frisian Audio Mining Enterprise (FAME!), funded under the Creative Industry Programme of the Dutch Research Council, with the Centre for Language and Speech Technology (Radboud University), Omrop Fryslân (Frisian broadcaster), Tresoar (provincial archive and library), Gridline (a company) and Fryske Akademy (Yilmaz et al. 2017). It resulted in a bilingual Dutch-Frisian speech recognizer (given language usage patterns in Fryslân, the recognizer has to deal with both Frisian and Dutch and with code-switching between these languages), a speaker diarization system (to identify all recordings of a speaker) and a search engine (in Dutch), that can both search in Frisian (e.g. gearkomste ‘meeting’) and Dutch (vergadering ‘meeting’) and find the equivalents in the other language. However, lexical variants or synonyms of these words are not yet retrieved. For this tool there is a triple audience: (1) journalists and producers of Omrop Fryslân (with company internal access); (2) everybody interested in looking for information in the archive (access restricted to terminals in the provincial library, downloads not enabled due to copyright and privacy restrictions) and (3) researchers (access with Clarin login). An example Figure 6: Search result for the Frisian word gearkomste (meeting). It retrieves 291 occurrences of the Frisian word and 60 occurrences of the Dutch equivalent (vergadering).

07-hans van de velde.indd 129

24/11/22 10:24

130

HANS VAN DE VELDE

of the search resulted is presented in Figure 6. More information (including references) can be found on fame.frl. Recently Fryske Akademy, the Center for Language and Speech Technology and Humain’r (a Frisian company specialised in voice technology and artificial intelligence) co-developed a new speech recogniser for Frisian council meetings, that will be implemented in a subtitling service for the video archives of these public council meetings, following a European regulation to guarantee access to the content of these meeting for the deaf and hard of hearing (Bentum et al. 2022). Until now, such a service was in the Netherlands exclusively available for Dutch. 4.4. Digital tools to support (written) Frisian Between 2012 and 2014 Fryske Akademy developed with additional financial support from the provincial government a number of tools to support the writing of Frisian. External partners were the company Gridline and the Center for Language and Speech Technology. The tools were presented on taalweb.frl. Taalweb Frysk was a product-oriented website (see Figure 7), in Frisian, launched in January 2015, and consisting of the following components: •

• • •

Foarkarswurdlist. A standard glossary to address the linguistic insecurity of language users about orthography and word forms and to provide insight in standard forms and their regional variants. Its aim was not to impose a strict norm, but to provide a list of preferred forms and their generally accepted variants, following the proscriptive principle (Bergenholz & Gouws 2010). It is explicitly mentioned that these variants are equally good forms. The standard glossary is also incorporated in the automatic text correction system; Staveringshifker. Automatic text correction at three levels: spelling and typing errors; dutchisms and (regional) variants; Oersetter. Bidirectional automatic translation Frisian – Dutch (oersetter); Wurdboekportaal. A dictionary portal, with simultaneous search facilities in four —originally published in print— dictionaries: a concise Frisian dictionary (Duijff et al. 2008), a legal dictionary (Duijff 2000) and two translation dictionaries Frisian-Dutch (Zantema 1984) and Dutch-Frisian (Visser 1985). It should be noted that these dictionaries are less proscriptive (as they are older than the standard glossary) and that the spelling is not in line with the (minor) adaptations in the 2014 orthographic reform;

07-hans van de velde.indd 130

24/11/22 10:24

DIGITAL FRISIAN AND LANGUAGE TOOLS

• •

131

Downloads. Plug-ins and add-ons for text correction for different software packages and software systems, an electronic edition of the concise dictionary; Paadwiizer. Spelling guidelines.

Figure 7: Frisian language tools on Taalweb Frysk, until November 2021 available on taalweb.frl

However, digital tools and infrastructure age quickly and were in the first stage more a collection of products, and some of them digital versions of an originally printed product (e.g. dictionaries). A complicating factor was that the provincial government financed the development of most of the products on taalweb.frl, but that licences, software updates and hardware had to be financed by the developer, Fryske Akademy. As all the online products are available free of charge, this started to weigh too heavily on the budget of a research institute. To keep tools and infrastructure up to date from both a technical and content perspective, a digitally born infrastructure was needed. From 2016 onwards, starting with the recruitment of an ICT architect, the development of this infrastructure was step-by-step integrated in a number of internal projects and in the three large new projects that were funded as part of the provincial stimulation programme on digital Frisian (2016-2020) introduced in Section 2 and Table

07-hans van de velde.indd 131

24/11/22 10:24

132

HANS VAN DE VELDE

1. Some smaller updates of spelling correction tools were supported by the provincial funding scheme too. The underlying infrastructure of language resources and services follows international ICT standards and the FAIR principles (go-fair.org) and provides open access to data whenever possible (Drenth, Sijens & Van de Velde 2021). This infrastructure enables us to do the data curation at a central location, ensuring both cost-efficiency and higher data quality, as the infrastructure provides automatic updates to providers of Frisian language tools and the users of these tools. More information can be found on frisian.eu. Fryske Akademy’s translation dictionaries (Zantema 1984, Visser 1985) were more than thirty years old and there was high demand for a new version, especially for Dutch to Frisian. In 2016 the compilation of a new online contemporary Dutch-Frisian translation dictionary has started (ONFW: Online Nederlânsk-Frysk Wurdboek), with substantial financial support from the provincial government. This dictionary caters the needs of speakers of Dutch and —especially— speakers of Frisian who want (i) to translate Dutch texts into Frisian or (ii) want to write in Frisian and —in line with our other language tools— follows the proscription principle (for more information, see Duijff & Van der Kuip 2018). At the end of 2021 we started making lemmas of this new dictionary available in the new portal described below, as part of the current dictionary search tool and gradually replacing the lemmas of the digital version of Zantema (1984), but without announcing it as the launch of the new dictionary. In the course of 2023, the dictionary will be «completed» and 69,000 lemmas will be published. However, the system allows for a continuous update and expansion of the dictionary. In September 2020 a provincial grant for an update and revision of taalweb. frl was obtained. This resulted in November 2021 in frysker.nl, a new portal with a usage-oriented approach instead of the product-oriented approach used in taalweb. frl. Both the front-end and the back-end were newly developed and it is tailored to work on computers, tablets and smartphones (see Figure 8). The front-end was designed and developed by a commercial partner (BW H), in close collaboration with Fryske Akademy. The target group is the wide scope of language users sketched above, but special attention is paid to secondary school students. An important addition in the provincial grant is that it includes a four-year service contract. There are three types of actions proposed at the top of the page to «everybody who wants to write Frisian without errors»: •

Sykje (search): simultaneous search in the dictionaries of Fryske Akademy. For more technical information on the digitization of the Frisian dictionaries, see Drenth, Sijens & Van de Velde (2021);

07-hans van de velde.indd 132

24/11/22 10:24

DIGITAL FRISIAN AND LANGUAGE TOOLS

•

•

133

Hifkje (check): to check texts and get suggestions on word choice and orthography. It is a new version of the automatic spelling correction used before, expanded with synonyms (developed under Oersetter 2.0, see below), frequent lexical errors, better spelling suggestions and hyphenation. Also the integration of the Frisian POS-tagger contributes to a much better performance in comparison with the previous staveringshifker; Oersette (translate): to get an automatic translation of Dutch sentences and texts to Frisian and vice versa. A new version was developed as part of the Oersetter 2.0 project described below. Figure 8: Frisian language tools on frysker.nl, web (left) and mobile version (right)

In the right-hand corner on top of the page, the user still has the option to go to the spelling guidelines and the downloads section. When scrolling down (Figure 9), the user is offered a couple of highlights, including some more specific functions (e.g. looking for synonyms or idioms) or providing explanations on hot topics in writing Frisian. These items can easily be changed or expanded. On demand of the users, the foarkarswurdlist will be added in the next release. In November 2020 the project Oersetter 2.0 was granted by the Fryslân province. The aim was to improve the quality of the existing tools for automatic translation, with better accessibility, higher user-friendliness and a wider scope. This should result in an increase of the use of these tools in every-day language practice and in educational settings. An additional aim is to provide a solid foundation

07-hans van de velde.indd 133

24/11/22 10:24

134

HANS VAN DE VELDE

Figure 9: Other functions and topics on frysker.nl

for the development and administration of the infrastructure and language data. Fryske Akademy and Afûk (the institute for the promotion of Frisian) closely collaborate in this project. Others partners in the project are the Center for Language and Speech Technology (development automatic translation) and the companies Buro Klei (app and widget development) and Taal & Digitaal (technical implementation in EduFrysk). Also this grant includes a four-year service contract. The Wat wurd it! app was developed by Afûk to translate words from Frisian to Dutch and vice versa. It was no longer available as a stand-alone app, but only as part of another application (Praat mar Frysk). The underlying database was static and the app could not cater the demand for translating sentences or texts. Text translation was only possible with the oersetter (see above). However, this automatic translation application was developed about ten years ago and both the technology and the underlying datasets needed to be updated. It could only be used on the website taalweb.frl and it didn’t perform well on Apple computers and on smartphones. There were also issues with the application’s stability. For potentials users looking in Dutch or English for an automatic translation programme to or from Frisian the oersetter was difficult to find. In comparison with the alternatives (oersethelp, google translate), the oersetter was performing better, but the quality of the translations was decreasing, partly due to neologisms in Dutch and Frisian missing in the dataset. In the oersetter 2.0 project these issues were addressed, resulting in

07-hans van de velde.indd 134

24/11/22 10:24

DIGITAL FRISIAN AND LANGUAGE TOOLS

135

• •

A state-of-the-art automatic translation, integrated in frysker.nl An integration of the synonyms collected by Afûk in the database of Fryske Akademy; • The development of a new oerset-app, available for Android and Apple, and offering the possibility to translate words and texts, and to search for synonyms; • Integration of the oerset-app in the Praat mar Frysk-app; • Integration of the oerset-app in tools for Frisian language education (EduFrysk); • Development of a widget to translate words and sentences on websites. From the above description it is clear that in the past six years the Fryske Akademy has booked great progress in the development of a sustainable digital language infrastructure and state-of-the-art language tools for Frisian. This wouldn’t have been possible without the enthusiasm and determination of its lexicographic team and ICT-architect, its fruitful collaboration with academic, public and private partners and the financial support of the provincial government. 5. Looking forward On 4 march 2020, in my inaugural lecture at Utrecht University, I called —especially the national authorities— to take the second national language, Frisian, more seriously, and to invest more in both research and in the development of tools for language users (Van de Velde 2021). I also invited the partners and colleagues to enhance collaboration with Fryske Akademy and to show more interest for Frisian. Early 2022, without extra support from the national government, there is a solid basis for the further development of the Frisian digital language infrastructure in Fryslân. Fryske Akademy holds the linguistic and —part of— the technological expertise to build and develop this infrastructure and to keep it up to date. Its current management recognizes the importance of this infrastructure for both language users and researchers, and has started investing in young linguists to guarantee that the linguistic expertise, which is at the heart of a high-quality language infrastructure, is transferred to a new generation. As Fryske Akademy is a small institute, with a limited budget, collaboration with different type of partners is another crucial factor in the sustainability of the language infrastructure and in straning new developments. The Instituut voor de Nederlandse Taal and the Center for Language and Speech Technology are long term partners. An interesting new partner in the field of artificial intelligence

07-hans van de velde.indd 135

24/11/22 10:24

136

HANS VAN DE VELDE

and voice technology, and based in the Fryslân province, is the company Humain’r. Our collaboration has started in response to a demand of their Frisian clients, who pointed out that in the Fryslân context, AI tools for Frisian are needed, not only for Dutch. The start of the MSc programme Voice Technology at RUG Campus Fryslân, also opens new perspectives for research and development. An important aspect of the infrastructure is that it defines much more clearly the roles and tasks of the partners and different regional institutes in the development and implementation of digital language tools, enforcing the collaboration and reducing the competition for funds and public attention between these institutes. Recently, in response to advisory reports on the role of the Fryske Akademy, the provincial government has instigated the development of a plan for the knowledge infrastructure Frisian language and culture, by the regional partners themselves. One of the core themes in this plan is technology and Frisian. This resulted in August of 2022 in a concrete research and development plan, pointing out priorities and strategies to reach its goals. The plan awaits approval and support from the provincial government. Without any doubt, this will lead to a better implementation of the language policy, stimulating the vitality and use of Frisian in the digital era. Finally, I would like to invite researchers, developers and institutes working on the language infrastructure for low-resource, or minoritized languages in Europe, to join forces and to try to participate in initiatives such as the European Language Grid. At the one hand to exchange ideas, techniques, applications and best practices. At the other hand to try to put the development of speech and language technology for these languages higher on the European agenda and that language equality in the digital age does not remain idle words (European Parliament 2018). References Bentum, M., Ten Bosch, L., Van Den Heuvel, H., Wills, S., Van Der Niet, D., Dijkstra, J., Van De Velde, H. (2022): «A Speech Recognizer for Frisian/Dutch Council Meetings». In Proceedings of the 13th Conference on Language Resources and Evaluation (LREC), pp. 1009-1015, http://www.lrec-conf.org/proceedings/ lrec2022/pdf/2022.lrec-1.107.pdf. Bergenholz, H., Gouws, R. H. (2010): «A Functional Approach to the Choice between Descriptive, Prescriptive and Proscriptive Lexicography», Lexikos, 20, pp. 26-51. BFTK (1989): Bestuursafspraak Friese taal en cultuur 1989 [Covenant on Frisian Language and Culture].

07-hans van de velde.indd 136

24/11/22 10:24

DIGITAL FRISIAN AND LANGUAGE TOOLS

137

— (1993): Bestuursafspraak Friese taal en cultuur 1993 [Covenant on Frisian Language and Culture]. — (2001): Bestuursafspraak Friese taal en cultuur 2001 [Covenant on Frisian Language and Culture]. Staatscourant 3 July 2001, nr. 125 / p. 8. — (2005): Uitvoeringsconvenant Friese taal en cultuur 2005 [Covenant on Frisian Language and Culture]. Staatscourant 23 March 2005, nr. 58 / p. 12. — (2009): Uitvoeringsconvenant Friese taal en cultuur 2009 [Covenant on Frisian Language and Culture]. Staatscourant, 22 June 2009, nr. 112 / p. 12 — (2013): Bestuursafspraak Friese taal en cultuur 2013-2018 [Covenant on Frisian Language and Culture]. — (2019): Bestjoersôfspraak Fryske taal en kultuer 2019-2023 [Covenant on Frisian Language and Culture]. Crystal, D. (2000): Language Death. Cambridge: Cambridge University Press. — (2001): Language and the Internet. Cambridge: Cambridge University Press. Cunliffe, D. (2007): «Minority languages and the Internet: New threats, new opportunities», en M. Cormack, N. Hourigan (eds.), Minority language media: Concepts, critiques and case studies. Clevedon: Multilingual Matters, pp. 133-150. De Taalskipper Frysk (2018): De taalskipper Frysk. Den Haag: Ministerie van Binnenlandse Zaken en Koninkrijksrelaties and Provinsje Fryslân. Drenth, E.; Sijens, H.; Van de Velde, H. (2021): «Frisian Dictionaries, Digitized from A to Z», Proceedings from EURALEX2020, pp. 609-614, https://euralex2020. gr/wp-content/uploads/2021/09/Pages-from-EURALEX2021_ProceedingsBook-Vol2-p609-614.pdf. Duijff, P. (2000): Nederlands-Fries Juridisch Woordenboek met een index Fries-Nederlands. Ljouwert: Fryske Akademy / Groningen: Martinus Nijhoff (Dutch-Frisian Legal Dictionary). Duijff, P.; Van der Kuip, F. J. (2018): «Lexicography in a Minority Language: A Multifunctional Online Dutch-Frisian Dictionary», International Journal of Lexicography, 31(2), pp. 196-213. Duijff, P.; Van der Kuip, F. J.; De Haan, R.; Sijens, H. (2008): Frysk Hânwurdboek. Ljouwert: Afûk / Fryske Akademy (Frisian Concise Dictionary). European Parliament (2018): Language Equality in the Digital Age: Towards a Human Language Project. Directorate-General for Parliamentary Research Services, https:// data.europa.eu/doi/10.2861/834747. FNP, PvdA, CDA (2014): Moasje 1037: Bliuwend ynvestearje yn digitale helpmiddels Frysk. Bill provincial parliament Fryslan, 10 December. Fryslan (2016): Mei hert, holle en hannen. Beliedsbrief kultuer, taal, ûnderwijs en sport. Leeuwarden: Provinsje Fryslân. — 2020, Nij Poadium. Kunst & cultuur, taal & onderwijs en erfgoed in Fryslân 20212024. Leeuwarden: Provinsje Fryslân. Jongbloed-Faber, L. (2021): Frisian on Social Media. The Vitality of Minority Languages in a Multilingual Online World. Amsterdam: LOT. Klinkenberg, E. L.; Jonkman, R. J.; Stefan, M. H. (2018): Taal yn Fryslân. De folgjende generaasje. Ljouwert: Fryske Akademy.

07-hans van de velde.indd 137

24/11/22 10:24

138

HANS VAN DE VELDE

Landsbergen, F.; Tiberius, C.; Dernison, R. (2014): «Taalportaal: an Online Grammar of Dutch and Frisian», Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), pp. 2206-2210. Leeuwarder Courant (2014): Ook voor rijk heet Friesland Fryslân. Leeuwarder Courant 10 October 2004, https://www.dekrantvantoen.nl//vw/article. do?id=LC-20041110-17011. Overheid (2014): Wet gebruik Friese Taal [Frisian Language Act], https://wetten.overheid.nl/BWBR0034047/2014-01-01. Searje 36 (s. a.): Dé metoade foar it fak Frysk [Resources for teaching Frisian in secondary education], https://searje36.frl. Ljouwert: Afûk. Spoar 8 (s. a.): De metoade Frysk foar it basisûnderwiis [Resources for teaching Frisian in primary education], https://spoar8.frl. Ljouwert: Afûk. Taalatlas (2020): De Fryske Taalatlas 2020. Fryske taal yn byld. Ljouwert: Provinsje Fryslân. Van de Velde, H. (2021): It fertutearzjen fan it Frysk. Leeuwarden: Fryske Akademy. Van Sluis, P.; Hoekstra, E.; Van de Velde, H. (2016): «Bildts As a Mixed Language», International Journal of the Sociology of Language 242, pp. 59-80. Visser, W. (1985): Frysk Wurdboek. Nederlânsk-Frysk. Drachten/Ljouwert: A.J. Osinga Uitgeverij. [Frisian dictionary. Dutch-Frisian] Yilmaz, E.; Dijkstra, J.; Van de Velde, H.; Kampstra, F.; Algra, J.; Van den Heuvel, H.; Van Leeuwen, D. (2017): «Longitudinal Speaker Clustering and Verification Corpus with Code-switching Frisian-Dutch Speech», Proceedings INTERSPEECH, pp. 37-41. Zantema, J. W. (1984): Frysk Wurdboek. Frysk-Nederlânsk. Drachten/Ljouwert: A. J. Osinga Uitgeverij (Frisian dictionary. Frisian-Dutch).

07-hans van de velde.indd 138

24/11/22 10:24

RESSOURCES LINGUISTIQUES ET IDENTIFICATION AUTOMATIQUE D’EXPRESSIONS POLYLEXICALES Mathieu Constant Université de Lorraine, CNRS, ATILF, F-54000 Nancy, France [email protected]

1. Introduction Le traitement automatique des langues est un domaine cherchant à concevoir des méthodes et outils pour analyser et générer automatiquement des données langagières. Les chercheurs dans ce domaine sont généralement confrontés à de nombreux problèmes liés à la langue, et notamment le traitement des expressions polylexicales qui représentent un ensemble de phénomènes linguistiques que l’on retrouve fréquemment dans les textes. Les expressions polylexicales sont généralement définies comme des combinaisons de mots qui montrent une certaine irrégularité de composition à un ou plusieurs niveaux linguistiques. Les exemples prototypiques sont en général des expressions idiomatiques totalement opaques sémantiquement : ex. cordon bleu (signifiant « excellent cuisinier» ), prendre le taureau par les cornes (signifiant « s’attaquer sérieusement à une difficulté» ). Mais ces expressions sont en réalité très variées et montrent une grande disparité comme cela est montré dans (Sag et al. 2002). Leur identification automatique dans les textes est une étape cruciale pour le traitement automatique des langues, et notamment des applications telles que la traduction automatique. Par exemple, la phrase Luc avait un coup dans le nez à cette soirée où l’expression idiomatique avoir un coup dans le nez signifie « être ivre », est traduite littéralement par Luc has a punch in the nose par le traducteur

08-mathieu constant.indd 139

24/11/22 10:54

140

MATHIEU CONSTANT

automatique de Google (https://translate.google.fr, consultation: 31-07-2020), ce qui est clairement erroné. L’indication au système que avait un coup dans le nez est une occurrence d’expression idiomatique, avec idéalement sa traduction dans la langue cible, peut être extrêmement utile pour de tels systèmes, comme cela est montré dans (Constant et al. 2017). Dans le cadre de nos travaux de recherche, nous nous intéressons à l’identification automatique de telles expressions dans les textes. Les approches que nous mettons en œuvre sont génériques, dans le sens où elles sont applicables à la majorité des langues. Nous portons néanmoins une attention particulière au français. Nos méthodes s’appuient néanmoins sur des ressources linguistiques telles que des corpus annotés ou des ressources lexicales, propres à chaque langue. Dans cet article, nous montrons différentes approches d’identification à partir de ces deux types de ressources, sur lesquels nous avons travaillé. Pour un état de l’art plus complet concernant le domaine, nous invitons les lecteurs à se référer notamment à (Constant et al. 2017). Cet article est organisé comme suit. Nous présentons, dans un premier temps, le traitement automatique des langues et l’exploitation des ressources linguistiques dans ce cadre (section 2). Puis, dans la section 3, nous nous intéresserons aux expressions polylexicales : nous en donnerons une définition, puis nous indiquerons des critères linguistiques d’identification et les principaux défis pour leur détection automatique dans des textes. Nous décrirons ensuite trois méthodes d’identification automatique : la section 4 sera dédiée à l’identification à partir d’un apprentissage sur un corpus annoté, la section 5 sera dédiée à l’identification à partir de ressources lexicales ; enfin la section 6 s’intéressera au couplage des deux méthodes précédentes. Nous terminerons par la section 7 qui présentera brièvement le projet PARSEME-FR dédié au traitement automatique des expressions polylexicales. 2. Le traitement automatique des langues Le traitement automatique des langues (TAL) est un domaine de recherche dont l’objectif est de concevoir des méthodes et outils permettant d’analyser et de générer des données en langage naturel. C’est un domaine pluridisciplinaire qui se trouve à la croisée des chemins entre plusieurs disciplines comme la linguistique, l’informatique ou l’intelligence artificielle. Certaines applications du TAL sont très connues du grand public comme la traduction automatique, popularisée par les services de traduction de Google par exemple. Mais il y a aussi des applications telles que le résumé automatique de textes, ou la recherche d’informations spécialisées dans de grandes bases textuelles. Le TAL est histo-

08-mathieu constant.indd 140

24/11/22 10:54

RESSOURCES LINGUISTIQUES ET IDENTIFICATION AUTOMATIQUE D’EXPRESSIONS

141

riquement lié au domaine de la linguistique. Pendant très longtemps, les informaticiens et les linguistes ont travaillé main dans la main. De multiples outils d’analyse linguistique automatique ont vu le jour grâce à cette collaboration. Nous citerons en particulier le découpage et l’étiquetage lexical qui identifie et catégorise les unités lexicales, l’étiquetage morphologique (analysant la forme de ces unités), l’analyse syntaxique produisant la structure des phrases ou même l’analyse sémantique qui calcule le sens des mots et des phrases… tout cela automatiquement. Nous proposons, dans la figure 1, un exemple d’analyse linguistique potentiellement produite par un outil du TAL. L’exemple décrit l’étiquetage morphosyntaxique de la phrase ceci remet sa garde à vue en cause. L’étiquetage morphosyntaxique est indiqué sous la phrase. Chaque mot est associé à une étiquette morphosyntaxique. Par exemple, remet est associé à la catégorie VERBE. La structure syntaxique est décrite par des relations de dépendance entre les mots. Par exemple, remet est associé à garde par une relation étiquetée OBJ indiquant le relation complément d’objet. Figure 1: Exemple d’analyse syntaxique

La recherche en TAL est confrontée à de multiples obstacles inhérents à la langue naturelle. Le premier obstacle, le plus connu, est l’ambiguïté : l’ambiguïté des mots ou des attachements entre les mots. Dans notre exemple, le mot cause a, dans l’absolu, deux analyses morphosyntaxiques possibles : soit un verbe (causer), soit un nom (cause). C’est le contexte d’occurence qui va aider à lui associer la bonne analyse. Une autre difficulté consiste à mettre au point un mécanisme pertinent de composition du sens à partir du sens des mots, l’un des buts majeurs du TAL étant notamment de calculer le sens des textes donnés en entrée des outils. Par

08-mathieu constant.indd 141

24/11/22 10:54

142

MATHIEU CONSTANT

ailleurs, nous avons à faire face au phénomène de l’idiomaticité qui est extrêmement fréquent dans les textes et qui, quelque part, représente une irrégularité à prendre en compte dans le mécanisme de composition : ex. le sens de l’expression idiomatique casser du sucre sur le dos (de quelqu’un) signifiant « dire du mal (de quelqu’un) en son absence » ne peut être dérivé à partir du sens des mots casser, sucre et dos. Notre exemple de la Figure 1 compte deux expressions idiomatiques : garde à vue et remet en cause. Le TAL connaît actuellement une petite révolution avec l’émergence de l’apprentissage profond plus connu sous le terme « deep learning » en anglais, et avec le développement de réseaux de neurones pour modéliser les différentes tâches du TAL. Les performances des outils ont fait des bonds spectaculaires grâce à cela. Mais, l’un des inconvénients de ce type d’approche est d’être extrêmement gourmand en données ; en plus d’avoir un coût computationnel important (et donc énergivore). Les données prises en compte par ces outils prennent plusieurs formes. Tout d’abord, il y a les données annotées qui servent d’exemples pour l’apprentissage des modèles. Les annotations qui correspondent aux analyses que doivent produire le modèle, sont réalisées manuellement, voire automatiquement avec une validation manuelle par des linguistes. A partir des exemples, les méthodes d’apprentissage automatique tentent d’inférer un modèle pour la tâche cible. De gros corpus bruts contenant uniquement du texte sont également utilisés et servent à connaître la distribution des mots et leurs contextes d’occurrence en général, et ainsi à améliorer l’apprentissage des modèles. Enfin, il y a les ressources lexicales qui sont produites par des linguistes et qui peuvent apporter des informations complémentaires des deux précédents types de ressources. Pour plus de détails sur différentes approches utilisées en TAL, nous proposons aux lecteurs de se référer à (Eisenstein 2019). 3. Les expressions polylexicales Dans cet article, nous nous intéressons au traitement automatique des expressions polylexicales et plus précisément à leur identification automatique dans des textes. Dans un premier temps, nous allons donner une définition de ce que nous entendons pas le terme expression polylexicale. Puis nous donnerons quelques critères linguistiques permettant de les identifier. Enfin, nous indiquerons les défis majeurs pour l’identification automatique de telles expressions dans des textes. Définition. Les expressions polylexicales (EP) —ou « multiword expressions » en anglais— sont des expressions formées de plusieurs mots, qui affichent une

08-mathieu constant.indd 142

24/11/22 10:54

RESSOURCES LINGUISTIQUES ET IDENTIFICATION AUTOMATIQUE D’EXPRESSIONS

143

irrégularité de composition (i.e. une idiosyncrasie). Cette irrégularité peut être située à un ou plusieurs niveaux linguistiques. Comme exemple d’idiosyncrasie au niveau sémantique, nous pouvons citer pomme de terre qui est un mot composé dont on ne peut pas connaître le sens à partir du sens de ses composants. Une pomme de terre n’est pas une pomme (ou un fruit) qui vient de la terre. De même, pour l’expression idiomatique mettre les voiles dans le sens de « partir ». La définition ci-dessus reprend en grande partie les définitions de référence que l’on retrouve dans la littérature, cf. (Sag et al. 2002), (Baldwin; Kim 2010) ou (Savary et al. 2017). Comme dans la littérature sur le sujet, elle est cependant relativement floue. Le contour exact des expressions polylexicales dépend beaucoup du cadre théorique linguistique dans lequel on se trouve. Par ailleurs, cette définition couvre des phénomènes linguistiques très variés. Par exemple, bien que et en dépit de —ce dernier voulant dire « malgré »— représentent des mots grammaticaux complexes. La séquence à reculons est une expression adverbiale qui présente des irrégularités au niveau morphosyntaxique et syntaxique. En effet, reculons correspond au verbe reculer à la première personne du pluriel au présent de l’indicatif. Or, un verbe précédé de la préposition à doit être à l’infinitif, d’où l’irrégularité de composition de la séquence. Il existe également des expressions nominales comme moulin à paroles qui désigne une personne qui parle beaucoup ou comme Los Angeles qui forme un nom propre. Il existe aussi des expressions verbales dont nous donnons des exemples provenant des trois catégories que nous avons traitées dans nos travaux. Tout d’abord, l’expression idiomatique lancer des fleurs (à quelqu’un) qui veut dire « flatter (quelqu’un) ». L’expression se souvenir correspond à un verbe intrinsèquement pronominal : le verbe souvenir en tant que tel n’existe pas seul, le pronom réflexif est obligatoire. Les expressions verbales peuvent aussi être des constructions à verbe support dont le sens est porté par un nom prédicatif en position de sujet ou de complément. Dans l’expression faire un choix, c’est le nom choix qui porte le sens de la phrase. Le sens du verbe est neutralisé et la sélection de ce verbe dépend du nom. Critères linguistiques d’identification. Les expressions polylexicales ont un lien très fort avec le domaine de la phraséologie en linguistique, où les différentes classes d’expressions ont déjà été largement étudiées dans la communauté. Un certain nombre de critères linguistiques d’identification ont été mis au point notamment dans le cadre de recensements systématiques au sein de grandes bases lexicales —inter alia (Gross 1982)— ou de campagnes d’annotation de corpus —entre autres (Abeillé et al. 2003)—. Afin d’avoir une méthodologie rigoureuse de construction des ressources, il est important de mettre en place des critères opératoires d’identification linguistique des expressions.

08-mathieu constant.indd 143

24/11/22 10:54

144

MATHIEU CONSTANT

Dans un certain nombre de projets de recherche tels que ceux décrits dans (Gross 1982) pour la constitution de lexiques syntaxiques ou (Savary et al. 2017) pour l’annotation d’expressions verbales dans des corpus, les critères fonctionnent de la manière suivante : étant donné une séquence candidate, on lui applique une opération linguistique simple. Le critère est satisfait si l’opération produit une séquence interdite ou une séquence dont le sens comporte une modification qui va au-delà de l’opération initiale. Nous donnons maintenant deux exemples de critères pour illustrer ce principe. Le premier est très classique. On remplace l’un des éléments pleins de l’expression par un mot sémantiquement lié tel qu’un synonyme ou un hyperonyme. Le critère est satisfait si l’opération produit une séquence interdite ou une séquence dont le sens comporte une modification qui va au-delà de la substitution initiale. Par exemple, le critère est satisfait lorsque l’on substitue le mot eau par boisson dans la séquence eau de vie correspondant à une boisson alcoolisée : *boisson de vie. Comme deuxième exemple, nous donnons un critère morphosyntaxique où l’on modifie un trait morphologique d’un des éléments de l’expression. Par exemple, le mot au pluriel voiles de la séquence met les voiles est transformé en son équivalent au singulier. En suivant les règles de la grammaire, la séquence devient met la voile qui n’a rien plus à voir avec le sens initial. Le critère est donc satisfait. Les défis du traitement automatique des expressions polylexicales. La prise en compte de tels phénomènes est crucial pour le TAL, comme l’ont montré d’illustres chercheurs en linguistique et en traitement automatique des langues —par ex. (Gross 1986), (Sag et al. 2002)—. Ce constat est particulièrement vrai pour la traduction automatique, comme le montre cet exemple d’erreur flagrante de traduction par le service de traduction automatique de Google : la phrase « A cette soirée, Luc avait un coup dans le nez » est traduite littéralement par « At this evening, Luc had a blow in the nose »1 (consultation: 31-07-2020), alors que l’expression idiomatique avoir un coup dans le nez signifie « être ivre » en français. Dans cet article, nous nous intéressons à l’identification des expressions polylexicales qui consiste à annoter automatiquement les occurrences de ces expressions dans des textes donnés en entrée. Cette tâche fait face à de nombreux défis. Tout d’abord, le premier d’entre eux est bien sûr la détection de la non-compositionalité inhérente à la définition des expressions polylexicales. La discontinuité est aussi une difficulté importante. En effet, les composants d’une expression ne sont pas toujours juxtaposés les uns à côté des autres car il peut 1 La

phrase est traduite par At that party, Luc had a punch in the nose par le traducteur en ligne DeepL (https://www.deepl.com/translator, consultation: 31-07-2020).

08-mathieu constant.indd 144

24/11/22 10:54

RESSOURCES LINGUISTIQUES ET IDENTIFICATION AUTOMATIQUE D’EXPRESSIONS

145

exister des éléments extérieurs à l’expression au sein de la séquence. Par exemple, dans la phrase Marie prend très souvent part aux conversations, il existe deux mots très et souvent entre les composants de l’expression prend part. Une autre difficulté est la variation potentielle des expressions que ce soit au niveau flexionnel ou syntaxique. Par exemple, le nom composé pomme de terre possède une forme au singulier (pomme de terre) et une autre au pluriel (pommes de terre). Autre exemple, la construction à verbe support faire un choix autorise des transformations syntaxiques, comme ici la relativisation : Le choix que Luc fait. Enfin, l’ambiguïté pose aussi des problèmes. En effet, une expression peut aussi prendre son sens littéral suivant le contexte. Par exemple, prendre la porte dont le sens idiomatique veut dire « sortir », peut très bien être pris dans son sens littéral comme dans « est-ce que tu peux prendre la porte et la fenêtre, puis les ramener chez moi avec ton camion ? ». Il peut arriver que les composants de l’expression apparaissent ensemble de manière accidentelle. Par exemple, les deux mots bien et que peuvent se trouver juxtaposés au sein d’une phrase alors qu’il n’ont rien à voir avec le mot grammatical complexe bien que. Dans la phrase j’aime bien que tu répondes à mes messages, l’adverbe bien peut être substitué très naturellement par beaucoup, et le mot que correspond à une conjonction de subordination qui introduit la complétive servant de complément au verbe aimer. Dans les trois prochaines sections, nous allons décrire des méthodes d’identification des expressions polylexicales à partir de deux types de ressources linguistiques (les corpus annotés et les ressources lexicales). 4. Identification par apprentissage sur corpus annoté Une première méthode d’identification automatique des expressions polylexicales dans les textes consiste à utiliser un modèle d’annotation qui a été appris automatiquement à partir d’un corpus annoté en expressions polylexicales. Les exemples d’annotations vont permettre d’inférer le modèle. Nous allons maintenant montrer un exemple simple de méthode d’identification qui est très utilisée dans la communauté. Dans cette approche, l’identification des expressions peut être vue comme une tâche d’étiquetage de la phrase comme l’est l’étiquetage morphosyntaxique. Nous avons notamment abordé cette approche dans (Constant; Sigogne 2011) et (Constant et al. 2013) pour le français, mais aussi dans (Constant et al. 2018) pour le serbe. À partir de données d’apprentissage, il est possible d’apprendre un modèle qui permet d’associer à chacun des mots de la phrase une étiquette indiquant si le mot appartient à une expression ou pas, et, si tel est le cas, à quelle position dans l’expression, comme on le montre dans l’exemple ci-dessous.

08-mathieu constant.indd 145

24/11/22 10:54

146

MATHIEU CONSTANT

Le premier ministre met souvent O B I B O

les voiles vers Bayonne I I O O

Dans la phrase Le premier ministre met souvent les voiles vers Bayonne où premier ministre et met les voiles sont des expressions, le mot souvent sera associé à la catégorie O voulant dire que le mot ne se trouve pas dans une expression (O pour « Outside » en anglais). L’étiquette B associée au mot met indique que ce dernier se trouve au début d’une expression (B pour « Beginning » en anglais). Enfin, la catégorie I associée aux mots les et voiles dans l’exemple montre que ces mots se trouvent en position non-initiale d’une expression polylexicale (I pour « Inside » en anglais). On pourra noter que l’utilisation distincte des catégories B et I permet d’étiqueter deux expressions juxtaposées dans la même phrase. Après l’étiquetage des mots, une procédure automatique permet de récupérer les occurrences des expressions. Il existe des variantes de ce type d’annotation séquentielle comme le montre l’exemple ci-dessous. Le premier ministre met souvent les voiles vers Bayonne O B-NOM I-NOM B-VERBE O I-VERBE I-VERBE O O Dans cet exemple, on complexifie le jeu d’étiquettes en juxtaposant les étiquettes B et I avec la catégorie grammaticale de l’expression à laquelle appartient le mot. Par exemple, premier ministre est une expression nominale (étiquette NOM) et met les voiles est une expression verbale (étiquette VERBE). C’est la variante que nous avons utilisée dans (Constant et al. 2013) pour pré-identifier les expressions polylexicales continues non-verbales avant de réaliser une analyse syntaxique automatique. Dans ce type d’approche, il existe deux phases : (1) une phase d’apprentissage du modèle à partir de données annotées dans l’une des variantes montrées ci-dessus ou équivalente ; (2) une phase d’étiquetage d’une nouvelle séquence de mots donnée en entrée et qui va produire une séquence d’étiquettes associées aux différents mots à partir du modèle appris en phase (1). A partir de cette séquence d’étiquettes, il sera alors possible de reconstituer l’ensemble des expressions polylexicales se trouvant dans la séquence en entrée. Dans les expériences classiques, les jeux de données annotées sont généralement découpées en deux parties disjointes : une grande partie (ex. 80 %) qui va servir de corpus pour l’apprentissage du modèle ; une plus petite partie (ex. 20 %) pour l’évaluation du modèle. Les annotations des données d’évaluation sont considérées comme les annotations de référence auxquelles seront comparées les annotations obtenues automatiquement sur les mêmes données (non annotées) à l’aide du modèle appris sur le corpus d’apprentissage.

08-mathieu constant.indd 146

24/11/22 10:54

RESSOURCES LINGUISTIQUES ET IDENTIFICATION AUTOMATIQUE D’EXPRESSIONS

147

Les méthodes d’identification par étiquetage séquentiel sont extrêmement populaires dans la communauté du traitement des expressions polylexicales car elles sont à la fois relativement simples à mettre en œuvre et efficaces. Mais il existe d’autres approches parfois plus sophistiquées qui permettent de contrecarrer certaines limitations —cf. (Constant et al. 2017), (Al Saied 2019) pour un panorama détaillé—. En particulier, il existe des méthodes d’identification se fondant sur l’interaction des expressions polylexicales avec l’analyse syntaxique. L’une des hypothèses sous-jacentes à ce type d’approche est que l’identification des expressions polylexicales peut aider l’analyse syntaxique et inversement. Dans le cadre de l’étiquetage séquentiel à la mode IOB, nous avons par exemple intégré l’étiquetage morphosyntaxique avec la reconnaissance des expressions polylexicales (Constant; Sigogne 2011). En plus de l’étiquetage des expressions polylexicales avec leur catégorie morphosyntaxique, nous avons ajouté l’étiquetage morphosyntaxique des mots n’appartenant pas à une expression dans le schéma d’annotation comme dans l’exemple ci-dessous. Le premier ministre met souvent les voiles vers Bayonne DET B-NOM I-NOM B-VERBE ADV I-VERBE I-VERBE PREP NOM

Les données annotées les plus souvent utilisées pour les expériences d’annotation de ce type d’expressions sont le corpus arboré de Paris 7 (Abeillé et al. 2003) pour le français, le corpus DiMSUM (Schneider et al. 2016) pour l’anglais, et le corpus multilingue PARSEME éditions 1.0 (Savary et al. 2017) et 1.1 (Ramisch et al. 2018). Le corpus arboré de Paris 7 inclut l’annotation des expressions principalement non-discontinues et non-verbales. Le corpus DiMSUM contient des annotations de tous types. Le corpus PARSEME contient des données annotées en expressions verbales pour une vingtaine de langues. Il existe bien évidemment bien d’autres corpus annotés en expressions polylexicales que nous ne citerons pas par manque de place. Nous invitons par exemple le lecteur à se référer à (Rosén et al. 2015) qui fait un état des lieux des corpus annotés en syntaxe contenant des annotations d’expressions polylexicales. Pour le français, on notera l’existence de plusieurs autres corpus annotés : voir, par exemple, (Laporte et al. 2008), (Candito; Seddah 2012), (Tutin et al. 2015) ou (Nivre et al. 2016). L’identification au moyen d’une approche par apprentissage du modèle d’annotation à partir d’un corpus annoté a plusieurs avantages. En particulier, la mise en contexte des expressions permet d’apprendre au modèle à gérer au moins partiellement les ambiguïtés et les variations. Cependant, elle se heurte à un problème majeur : les performances se dégradent fortement pour les expressions qui n’ont jamais été vues dans le corpus d’apprentissage (Savary et al. 2019). La faible cou-

08-mathieu constant.indd 147

24/11/22 10:54

148

MATHIEU CONSTANT

verture des corpus annotés en expressions polylexicales est un frein pour ce type d’approche. L’utilisation de ressources lexicales, couvrant notamment des expressions polylexicales rarement présentes en corpus, peut se montrer intéressante. 5. Identification avec des ressources lexicales Nous nous intéressons maintenant à l’identification des expressions polylexicales à partir de ressources lexicales. Comme nous l’avons évoqué dans la section précédente, les corpus annotés ont une couverture limitée des expressions polylexicales, ce qui n’est pas le cas pour les ressources lexicales. Une identification au moyen de ressources lexicales peut donc se révéler intéressante. C’est d’ailleurs une approche qui a fait ses preuves depuis longtemps comme dans (Silberztein 1993). Afin d’être utilisées pour l’identification automatique d’expressions dans des textes, les ressources lexicales ont besoin d’être explicitement formalisées et/ou être l’objet de procédures automatiques. Prenons l’exemple du DELACF (Courtois et al. 1997) qui est un dictionnaire électronique de mots composés pour le français. Une entrée lexicale contient non seulement sa forme de base, mais aussi sa catégorie grammaticale, et facultativement une étiquette indiquant sa structure interne et des traits sémantiques. Ces informations ne sont pas suffisantes pour repérer les occurrences des expressions correspondantes dans des textes. Ainsi, les entrées lexicales du DELACF indiquent aussi les formes fléchies associées, ainsi que leurs traits morphologiques. Ces formes fléchies peuvent être obtenues de manière semi-automatique en assignant une classe flexionnelle associée à différentes règles de flexion (Savary 2009). Ainsi, pour l’expression pomme de terre, nous aurons les informations suivantes : pomme de terre,pomme de terre.N+NDN+Conc:fs pommes de terre,pomme de terre.N+NDN+Conc:fp

Dans cet exemple, la forme avant la virgule correspond à la forme fléchie, la forme entre la virgule et le point correspond à la forme lemmatisée. Les étiquettes N, NDN et Conc correspondent respectivement à la catégorie grammaticale (N pour nom), à la structure syntaxique (NDN pour le patron Nom de Nom) et à un trait sémantique (Conc pour concret) du mot composé pomme de terre. Les lettres f, s et p après le double point représentent les traits morphologiques féminin, singulier et pluriel. Pour repérer les occurrences des expressions codées dans le dictionnaire, il existe plusieurs outils possibles. Par exemple, le logiciel Unitex (https://

08-mathieu constant.indd 148

24/11/22 10:54

RESSOURCES LINGUISTIQUES ET IDENTIFICATION AUTOMATIQUE D’EXPRESSIONS

149

unitexgramlab.org/fr) repère toutes les occurrences potentielles dans le texte en essayant de trouver une correspondance directe avec les formes fléchies du dictionnaire. Cela permet en particulier de récupérer toutes les analyses lexicales possibles pour une phrase donnée. Dans nos travaux, nous avons repris ce principe tout en ajoutant une méthode simple permettant de générer une seule segmentation lexicale pour la phrase en entrée : nous sélectionnons la segmentation la plus courte de la phrase favorisant ainsi les segments lexicaux identifiés les plus longs (une expression polylexicale comptant pour un segment lexical). Si l’on prend l’exemple ci-dessous en supposant que les expressions premier ministre, en effet et à partir de sont dans notre dictionnaire, la consultation de ce même dictionnaire proposerait huit segmentations possibles de la phrase (nous représentons ces segmentations de manière factorisée) : Le

premier ministre premier_ministre

construit

en effet en_effet

son discours

à partir de à_partir_de

statistiques économiques

La segmentation la plus courte (en gras) est alors sélectionnée comme segmentation de la phrase. L’inconvénient d’une telle approche est qu’elle ne permet pas de gérer les discontinuités dans les expressions. Pour les expressions verbales, c’est particulièrement problématique car elles sont sujettes à de multiples variations syntaxiques impliquant des discontinuités : Luc fait face à cette situation, Luc fait souvent face à cette situation. La gestion de la coordination pour les expressions nominales possédant des éléments communs est également problématique : la séquence acides aminé et chlorhydrique contient les noms composés acide aminé et acide chlorhydrique. Il est donc nécessaire de mettre en place des heuristiques pour gérer ces différents cas de figure. Par ailleurs, il existe d’autres types de ressources lexicales d’expressions polylexicales : par exemple, des lexiques syntaxiques —ex. (Gross 1982)—. Pour chaque type de ressource lexicale, il est nécessaire de mettre au point des méthodes spécifiques de projection des ressources sur les textes : ex. (Savary; Waszczuk 2017) pour les lexiques syntaxiques. Nous vous invitons à lire (Constant et al. 2017) pour avoir un panorama plus complet de telles approches. Malgré l’intérêt d’utiliser des ressources lexicales pour l’identification des expressions polylexicales, de telles approches ont cependant certains défauts. Tout d’abord, une expression non présente dans la ressource lexicale ne pourra pas être identifiée dans un texte, contrairement aux méthodes d’identification par apprentissage de modèles à partir d’un corpus annoté. En effet, ces dernières permettent parfois de repérer des expressions non présentes dans le corpus d’ap-

08-mathieu constant.indd 149

24/11/22 10:54

150

MATHIEU CONSTANT

prentissage, bien que les performances puissent être assez dégradées dans ce cas de figure (Savary et al. 2019). Par ailleurs, l’ambiguïté n’est pas vraiment gérée non plus. Par exemple, elle ne l’est pas du tout avec la méthode par consultation simple de dictionnaires présentée ci-dessus. A titre d’illustration, en supposant que l’expression adverbiale sur ce (signifiant « là-dessus ») se trouve dans le dictionnaire, on identifierait de manière erronée cette expression dans la phrase Sur ce dessin, la couleur est jolie. En effet, les deux mots de l’expression sont juxtaposés de manière accidentelle dans le texte. Ils se composent de manière régulière dans le cadre du groupe nominal prépositionnel sur ce dessin. Sur

ce

Sur_ce

dessin

,

la

couleur

est

jolie

6. Identification hybride Les données annotées sont l’élément incontournable pour apprendre un modèle TAL moderne. Dans notre cas, ces données annotées sont des corpus annotés en expressions polylexicales (cf. section 4). Le principal problème d’utiliser uniquement des corpus annotés pour apprendre un modèle d’identification est leur couverture en expressions qui est assez limitée. En effet, la littérature sur le sujet tend à montrer que les expressions non vues à l’apprentissage sont très mal identifiées par ces modèles, même si cela peut dépendre du type d’expression. On pourra se référer par exemple aux résultats de la compétition internationale PARSEME en 2018 sur l’identification des expressions verbales dans une vingtaine de langues (Ramisch et al. 2018). Le meilleur système utilisant juste des données annotées, atteint péniblement les 20 % de succès sur les expressions non couvertes par les données d’apprentissage. Une solution pour pallier ce problème est de combiner les données annotées avec des ressources lexicales à large couverture. Dans nos travaux, nous avons mis au point une méthode générique pour combiner ces deux types de ressources (Constant; Sigogne 2011). Le principe est le suivant : lors de l’apprentissage du modèle qui se fait à partir des données annotées, les ressources lexicales sont consultées à l’aide de la méthode décrite dans la section 5 et permettent d’indiquer où se trouvent les expressions potentielles. Lors de l’apprentissage, les modèles vont apprendre à faire confiance ou pas à la ressource lexicale selon le contexte. Par exemple, cette approche est particulièrement utile dans les cas d’ambiguïté. Supposons que l’expression bien que se trouve dans un dictionnaire de formes composées fléchies. Il existe des contextes où la séquence bien que

08-mathieu constant.indd 150

24/11/22 10:54

RESSOURCES LINGUISTIQUES ET IDENTIFICATION AUTOMATIQUE D’EXPRESSIONS

151

correspond à une co-occurrence accidentelle comme dans l’exemple J’aime bien que tu viennes où l’adverbe bien pourrait être remplacé par l’adverbe beaucoup sans changer le sens. Alors que dans d’autres contextes, il faut faire confiance au dictionnaire, comme dans l’exemple J’aime le chorizo bien que cela soit épicé. Cette approche hybride est aussi utile pour identifier les expressions non vues à l’apprentissage, mais qui se trouve dans la ressource lexicale. En effet, suivant le contexte, le modèle apprend à faire confiance ou pas aux ressources lexicales. Cette méthode a notamment été appliquée avec succès sur le français (Constant; Sigogne 2011) et le serbe (Constant et al. 2018) avec un modèle dit linéaire (champs aléatoires conditionnels) pour des expressions polylexicales continues. Ce qu’il en ressort est que les performances des outils sont bien meilleures avec des ressources lexicales que sans, notamment dans des textes appartenant à des domaines thématiques éloignés des données annotées d’apprentissage, où la proportion d’expressions non vues dans le corpus d’apprentissage est importante. Une future direction de recherche pourrait consister à explorer la robustesse de cette approche en passant à des modèles neuronaux plus récents. 7. Le projet PARSEME-FR Toutes les techniques testées par (Constant et al. 2018) pour combiner des ressources lexicales se sont révélées très intéressantes, mais elles étaient limitées à quelques types d’expressions. L’étape suivante était de passer à l’échelle. C’est l’objectif principal du projet PARSEME-FR financé par l’Agence Nationale de la Recherche. Il a commencé en janvier 2016 et s’est terminé en septembre 2021. Il regroupe cinq partenaires académiques : deux laboratoires de linguistique (Analyse et Traitement Informatique de la Langue Française [ATILF] et Laboratoire de Linguistique Formelle [LLF]) et trois laboratoires d’informatique (Laboratoire d’informatique Fondamentale et Appliquée de Tours [LIFAT], Laboratoire d’Informatique Fondamentale d’Orléans [LIFO] et Laboratoire d’Informatique et Systèmes [LIS]). A noter que PARSEME-FR est un projet dérivé de l’action européenne COST PARSEME2 (2013-2017) sur ces mêmes thèmes. Ce projet s’intéresse à la fois à des aspects informatiques et linguistiques du problème. Le premier objectif est de mettre au point des méthodes et des outils d’identification, (1) en explorant et appliquant les approches neuronales récentes, (2) en étudiant son articulation avec l’analyse syntaxique automatique, tout en essayant de tenir compte au mieux des variations. Le deuxième objectif est plus linguistique et consiste à produire des ressources linguistiques à vaste 2 https://typo.uni-konstanz.de/parseme/.

08-mathieu constant.indd 151

24/11/22 10:54

152

MATHIEU CONSTANT

couverture pour le français : des corpus annotés en expressions polylexicales en couvrant tous les types d’expressions, et l’extraction d’un lexique structuré pour le TAL. Concernant les données annotées, deux campagnes d’annotation ont été réalisées durant le projet en s’appuyant sur des critères formels opérationnels. La première campagne a consisté à annoter les données françaises de la compétition internationale PARSEME sur l’identification des expressions polylexicales verbales. Le corpus comporte près de 20 000 phrases et est formé de deux sous-corpus : le premier correspond au corpus initial du français de Universal Dependencies (Nivre et al. 2016) qui est une initiative internationale pour constituer des corpus annotés en syntaxe de dépendance ; le second sous-corpus correspond au corpus Sequoia (Candito; Seddah 2012) comportant un peu plus de 3 000 phrases. A noter que ce deuxième sous-corpus est un corpus de référence du français, annoté en syntaxe profonde. Sur le corpus global, ont été annotées près de 5 000 occurrences d’expressions verbales en suivant scrupuleusement le guide d’annotation basé sur des arbres de décisions fondées elles-mêmes sur des critères opératoires (Savary et al. 2017). Il est intéressant de noter qu’en moyenne il y a une occurrence d’expression verbale toutes les quatre phrases. Chacune de ces annotations ont été catégorisées en quatre classes : les expressions idiomatiques, les verbes intrinsèquement pronominaux, les constructions à verbe support et les autres expressions verbales.3 Pour plus de détails, nous invitons le lecteur à se référer à (Candito et al. 2017). Pour la deuxième campagne d’annotation, tous les types d’expressions polylexicales ont été annotées, mais sur un plus petit corpus, le Sequoia. Les annotations verbales ont été reprises de la campagne précédente. A noter aussi que nous avons également annoté les entités nommées contenant un seul ou plusieurs éléments tel que Bilbao ou Los Angeles. Le corpus contient un peu plus de 6 500 annotations pour environ 3 000 phrases. Parmi ces annotations, un peu moins de la moitié sont des entités nommées. Les données et guides d’annotation sont librement disponibles sur le site web du projet PARSEME-FR. 8. Conclusion Le traitement des expressions polylexicales est fondamental pour le traitement automatique des langues. Les ressources y jouent un rôle crucial : en particulier, les corpus annotés et les ressources lexicales produites par des lin3 La

proportion des autres expressions verbales dans le corpus est négligeable par rapport aux trois autres classes.

08-mathieu constant.indd 152

24/11/22 10:54

RESSOURCES LINGUISTIQUES ET IDENTIFICATION AUTOMATIQUE D’EXPRESSIONS

153

guistes. Dans cet article, nous avons décrit plusieurs approches simples que nous avons développées dans nos travaux et qui utilisent ces deux types de ressources linguistiques montrant une complémentarité certaine. Nous avons terminé l’article en présentant rapidement le projet PARSEME-FR dédié aux expressions polylexicales pour le français, qui a produit de nouvelles données linguistiques et des outils d’identification automatique librement disponibles. 9. Remerciements Ce travail a été partiellement financé par le projet PARSEME-FR lui-même financé par l’Agence Nationale de la Recherche (ANR-14-CERA-0001). L’auteur de cet article remercie très chaleureusement les coordinateurs locaux du projet pour leur investissement : Marie Candito, Yannick Parmentier, Carlos Ramisch et Agata Savary. 10. Bibliographie Abeillé, Anne; Clément, Lionel; Toussenel, François (2003): «Building a Treebank for French», in Treebanks: Building and Using Parsed Corpora. Dordrecht: Kluwer Academic Publishers, pp. 165-187. Al Saied, Hazem (2019): Analyse automatique par transitions pour l’identification des expressions polylexicales. Thèse de doctorat, Université de Lorraine. Baldwin, Timothy; Kim, Su Nam (2010): «Multiword Expressions», in Handbook of Natural Language Processing. Second Edition. Boca Raton: CRC Press, pp. 267-292. Candito, Marie; Seddah, Djamé (2012): «Le corpus Sequoia: annotation syntaxique et exploitation pour l’adaptation d’analyseur par pont lexical», in Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN. Grenoble: ATALA/ AFCP, pp. 321-334. Candito, Marie; Constant, Mathieu; Ramisch, Carlos; Savary, Agata; Parmentier, Yannick; Pasquer, Caroline; Antoine, Jean-Yves (2017): «Annotation d’expressions polylexicales verbales en français», in Actes de la 24e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2017): articles courts. Orléans: France, pp. 1-9. Constant, Matthieu; Sigogne, Anthony; Watrin, Patrick (2013): «Stratégies discriminantes pour intégrer la reconnaissance des mots composés dans un analyseur syntaxique en constituants», Traitement Automatique des Langues, 54: 1. Constant, Mathieu; Krstev, Cvetana; Vitas, Dusko (2018): «Lexical Analysis of Serbian with Conditional Random Fields and Large-Coverage Finite-State Resources», in Human Language Technology. Challenges for Computer Science and Linguistics. LTC 2015, Lecture Notes in Computer Science, 10930. Cham: Springer.

08-mathieu constant.indd 153

24/11/22 10:54

154

MATHIEU CONSTANT

Constant, Mathieu; Eryigit, Gülşen; Monti, Johanna; Van Der Plas, Lonneke; Ramisch, Carlos; Rosner, Michael; Todariscu, Amalia (2017): «Multiword Expression Processing: A Survey», Computational Linguistics, 43: 4, pp. 837-892. Constant, Matthieu; Sigogne, Anthony (2011): «MWU-aware Part-of-Speech Tagging with a CRF model and lexical resources», in Proceedings of the Workshop on Multiword Expressions: from Parsing and Generation to the Real World. Portland: Association for Computational Linguistics, pp. 49-56. Courtois, Blandine; Garrigues, Mylène; Gross, Gaston; Gross Jung, René; Mathieu-Colas, Michel; Monceaux, Anne; Poncet-Montange, Anne; Silberztein, Max; Vivès, Robert (1997): Dictionnaire électronique DELAC : les mots composés binaires, Technical Report, 56. LADL. Eisenstein, Jacob (2019): Introduction to Natural Language Processing. Cambridge: MIT Press. Gross, Maurice (1982): «Une classification des phrases ‘figées’ du français», Revue québécoise de linguistique, 11: 2, pp. 151-185. Gross, Maurice (1986): «Lexicon Grammar. The Representation of Compound Words», in Coling 1986 Volume 1: The 11th International Conference on Computational Linguistics. Bonn: Association for Computational linguistics, pp. 1-6. Laporte, Éric; Nakamura, Takuya; Voyatzi, Stavroula (2008): «A French Corpus Annotated for Multiword Nouns», in Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions (MWE 2008). Marrakech, pp. 27-30. Nivre, Joakim; De Marneffe, Marie-Catherine; Ginter, Filip; Goldberg, Yoav; Hajič, Jan; Manning, Christopher D.; Mcdonald, Ryan; Petrov, Slav; Pyysalo, Sampo; Silveira, Natalia; Tsarfaty, Reut; Zeman, Daniel (2016): «Universal Dependencies v1: A Multilingual Treebank Collection», in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Portorož: European Language Resources Association (ELRA), pp. 1659-1666. Ramisch, Carlos; Cordeiro, Silvio R.; Savary, Agata; Vincze, Veronika; Barbu Mititelu, Verginica; Bhatia, Archna; Buljan, Maja; Candito, Marie; Gantar, Polona; Giouli, Voula; Güngör, Tunga; Hawari, Abdelati; Iñurrieta, Uxoa; Kovalevskaite, Jolanta; Krek, Simon; Lichte, Timm; Liebeskind, Chaya; Monti, Johanna; Parra Escartín, Carla; Qasemizadeh, Behrang; Ramisch, Renata; Schneider, Nathan; Stoyanova, Ivelina; Vaidya, Ashwini; Walsh, Abigail (2018): «Edition 1.1 of the PARSEME Shared Task on Automatic Identification of Verbal Multiword Expressions», in Proceedings of the Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions (LAW-MWE-CxG-2018): Santa Fe: Association for Computational Linguistics, pp. 222-240. Rosén, Victoria; Smørdal Losnegaard, Gyri; De Smedt, Koenraad; Bejček, Eduard; Savary, Agata; Przepiórkowski, Adam; Osenova, Petya Verginica; Barbu, Mitetelu (2015): «A survey of multiword expressions in treebanks», in Proc. of the 14th International Workshop on Treebanks & Linguistic Theories Conference. Sag, Ivan A.; Baldwin, Timothy; Bond, Francis; Copestake, Ann A.; Flickinger, Dan (2002): «Multiword Expressions: A Pain in the Neck for NLP», in Compu-

08-mathieu constant.indd 154

24/11/22 10:54

RESSOURCES LINGUISTIQUES ET IDENTIFICATION AUTOMATIQUE D’EXPRESSIONS

155

tational Linguistics and Intelligent Text Processing: Third International Conference, CICLing 2002. Springer, pp. 1-15. Savary, Agata (2009): «Multiflex: a Multilingual Finite-State Tool for Multi-Word Units», in Proceedings of the Conference on Implementation and Application of Automata. Sydney, 237-240. Savary, Agata; Cordeiro, Silvio R.; Ramisch, Carlos (2019): «Without lexicons, multiword expression identification will never fly: A position statement», in Proceedings of the Joint Workshop on Multiword Expressions and WordNet (MWE-WN 2019). Firenze: Association for Computational Linguistics, pp. 79-91. Savary, Agata; Ramisch, Carlos; Cordeiro, Silvio R.; Sangati, Federico; Vincze, Veronika; Qasemizadeh, Behrang; Candito, Marie; Cap, Fabienne; Giouli, Voula; Stoyanova, Ivelina; Doucet, Antoine (2017): «The PARSEME Shared Task on Automatic Identification of Verbal Multiword Expressions», in Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017): shared task track. Valencia: Association for Computational Linguistics, pp. 31-47. Savary, Agata; Waszczuk, Jakub (2017): «Projecting Multiword Expression Resources on a Polish Treebank», in Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing (BSNLP 2017). Valencia: Association for Computational Linguistics, pp. 20-26. Schneider, Nathan; Hovy, Dirk; Johannsen, Anders; Carpuat, Marine (2016): «SemEval-2016 task 10: Detecting minimal semantic units and their meanings (DiMSUM)», in Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016), San Diego: Association for Computational Linguistics, pp. 546-559. Silberztein, Max (1993): Dictionnaires électroniques et analyse automatique de textes-Le système Intex. Masson. Tutin, Agnès; Esperança-Rodier, Emmanuelle; Iborra, Manolo; Reverdy, Justine (2016): «Annotation of multiword expressions in French», in EUROPHRAS 2015-Computerised and Corpus-based Approaches to Phraseology: Monolingual and Multilingual Perspectives. Geneva: Editions Tradulex, pp. 60-67.

08-mathieu constant.indd 155

24/11/22 10:54

08-mathieu constant.indd 156

24/11/22 10:54

DICOD’ÒC: DU DICTIONNAIRE EN LIGNE À LA MULTI-APPLICATION LEXICOGRAPHIQUE Benazet Dazeas Directeur du Congrès Permanent de la langue occitane

L’occitan, une langue européenne L’occitan est une langue romane parlée dans trois États de l’Union européenne (France, Espagne, Italie) sur un espace d’environ 180 000 km2. Sur les 15 millions d’habitants concernés. Il est difficile d’en dénombrer les locuteurs ; à partir des différentes études conduites ces dernières années, partielles et étalées dans le temps, on situe, selon les sources, le nombre de locuteurs entre plusieurs centaines de milliers et plusieurs millions de personnes (Région Aquitaine 2009 ; Région Midi-Pyrénées 2010). En l’absence de standard imposé officiellement et du fait de la vitalité de certaines variétés dialectales, l’occitan peut être défini comme une langue polynomique, composée par convention de six grandes variétés dialectales: auvergnat, gascon, languedocien, limousin, provençal, vivaro-alpin. Il existe également, au nord de l’espace occitan, une zone de transition avec les parlers d’oïl et le franco-provençal : le Croissant. Co-officielle en Val d’Aran, la langue occitane bénéficie, à défaut d’une reconnaissance publique, du soutien des collectivités territoriales en France et fait partie des langues protégées par la loi sur les minorités linguistiques en Italie. Riche d’une littérature écrite millénaire, l’occitan est aujourd’hui présent dans la presse, sur Internet et à la télévision. Soutenue par un réseau associatif et

09-benazet dazeas.indd 157

24/11/22 11:42

158

BENAZET DAZEAS

Figure 1: Classification des dialectes occitans selon Pierre Bec.

institutionnel dense, elle est enseignée de la maternelle (enseignement immersif associatif ou bilingue public) jusqu’à l’Université. Lo Congrès, une institution collégiale pour réguler l’occitan Lo Congrès permanent de la lenga occitana (en français Congrès permanent de la langue occitane) est l’organisme interrégional de régulation de l’occitan. Il rassemble les institutions et fédérations historiques du territoire occitanophone et il est soutenu par la Délégation à la langue française et aux langues de France (ministère de la Culture et de la Communication) et les collectivités territoriales. Installé officiellement à l’hôtel de l’ex-région Aquitaine à Bordeaux en décembre 2011, il a pour mission de contribuer à la vitalité et au développement de l’occitan —appelé aussi langue d’oc— en travaillant à sa connaissance et à sa codification par la production d’outils concernant les différents aspects de la langue (lexicographie, lexicologie, terminologie, néologie, phonologie, graphie, morphosyntaxe et toponymie). Lo Congrès possède deux organes assesseurs —le Conseil linguistique1 (dont le président est Patrick Sauzet, linguiste et ancien professeur à l’Université Tou1 La

Communauté scientifique est représentée au Congrès par le Conseil linguistique. Ce conseil assesseur est déjà constitué et ses membres sont à l’œuvre sur différents travaux. Toutes les

09-benazet dazeas.indd 158

24/11/22 11:42

DICOD’ÒC

159

louse 2) et le Conseil des usagers2— et agit selon des principes d’action tels que le respect de l’unité́ et de la diversité́ de l’occitan, la stabilité́3, la représentativité́ des régions linguistiques du territoire d’Oc, la collégialité́ des décisions et la diffusion de l’information. L’institution est animée par une équipe permanente de sept salariés : un directeur, une développeuse TAL, trois lexicographes, un chargé de mission linguistique et une secrétaire-comptable. Locongres.org, une plateforme linguistique au service des usagers Afin de répondre à la demande urgente des usagers, plus spécifiquement ceux du domaine de l’enseignement et de la formation pour adultes, le Congrès a développé et mis en ligne en 2012 une plateforme numérique —locongres. org— rassemblant différents outils linguistiques de références : un multidictionnaire occitan (dicod’Òc), un conjugueur (vèrb’Òc), une base terminologique (tèrm’Òc), une base toponymique (top’Òc), un corpus textuel ainsi qu’un portail d’accès vers les différentes ressources occitanes en ligne. Avec plus de 400 000 visites en 2018, le portail numérique locongres.org est pensé comme un service public en langue occitane : son accès est gratuit, et il est accessible depuis plusieurs systèmes d’exploitation (Windows, iOS, Android, etc.), et les formats libres ainsi que les licences contributives sont privilégiées. Enfin le Congrès pilote la Feuille de route de développement numérique de l’occitan un document-cadre4 de planification et de coordination du développerégions occitanes y sont représentées. Le Conseil linguistique a un Président et un bureau élu, ainsi que des commissions qui travaillent pour les besoins du Congrès. Liste des membres: http://www. locongres.org/index.php/fr/lo-congres-fr/le-conseil-linguistique/membres 2 Le Conseil des usagers est un conseil assesseur du Congrès ayant pour fonction de représenter la demande sociale. Il rassemble des personnes qualifiées représentatives de la pratique sociale de la langue et qui sont réparties en trois secteurs : les transmetteurs (enseignement, cours pour adultes et formation professionnelle), les utilisateurs (écrivains, éditeurs, médias) et les opérateurs de politiques publiques (collectivités territoriales, Etat). 3 Les actions du Congrès doivent avoir pour objectif de traiter des questions encore non résolues et non de changer les choses déjà établies. Ces questions se situent surtout dans les domaines de la néologie, de la terminologie ou encore de l’onomastique (toponymie, anthroponymie, etc.). 4 La Feuille de route pour le développement numérique de l’occitan utilise la méthode de MetaNet, un réseau européen d’excellence dédié à la mise en place des fondations technologiques d’une société multilingue de l’information en Europe. Réalisée par plus de 200 experts internationaux, cette étude fait l’état actuel des ressources et technologies du langage pour 30 langues européennes dans 6 domaines : traduction automatique, synthèse et reconnaissance vocales, correction orthographique, analyse sémantique, analyse grammaticale et génération automatique de texte.

09-benazet dazeas.indd 159

24/11/22 11:42

160

BENAZET DAZEAS

ment des ressources et outils TAL (Traitement automatique des langues) pour l’occitan qui a débouché sur plusieurs programmes opérationnels. Le dicod’Òc est l’application phare du portail lexicographique et textuel locongres.org. Avec près de 400 000 visites par an, il est aujourd’hui le multidictionnaire de référence pour les usagers. Une version pour terminaux mobile existe sur les boutiques Android (Google Play) et iOs (Appstore), elle représente actuellement 45 % des connections. Depuis sa mise en ligne en novembre 2012, le dicod’Òc n’a cessé de s’enrichir depuis de nouveaux dictionnaires, proposant aujourd’hui 20 dictionnaires (pour 550 000 entrées cumulées) répartis en quatre sections : français-occitan (10 dictionnaires), occitan-français (6 dictionnaires), occitan monolingue (1 dictionnaire) et dictionnaires historiques (3 dictionnaires). Toutes les variétés de l’occitan sont representées, ainsi que le dictionnaire normatif du Congrès, le Basic : dans le cadre d’une recherche, l’interface dicod’Òc est paramétrée de manière à mettre systématiquement en avant les formes préconisées par le Basic. D’un point de vue technologique, le dicod’Òc est un développement propre du Congrès (réalisé par un prestataire technique) intégré dans un CMS, Joomla!, faisant des requêtes dans une base SQL via un moteur de recherche, Elasticsearch5. Pourquoi une multi-application? La principale limite de la version actuelle du dicod’Òc est son modèle de données, ce dernier n’étant pas structuré. Actuellement la base comprend 4 champs6 : l’index (numéro unique de l’entrée), l’entrée (mot-vedette du dictionnaire), la catégorie grammaticale (de l’entrée) et la définition. A l’intérieur des ces champs, il n’y a, d’un point de vue machine, qu’une chaine de caractères. Ce qui signifie que dans le corps d’un article de dictionnaire, il n’y a aucune information indiquant que tel mot ou telle phrase correspond à une acception, définition, traduction, citation, locution, etc. Cette caractéristique technique devient désormais une entrave à la bonne exploitation des données à l’état de l’art des outils TAL : on ne peut connecter les données entre elles, en premier au sein même du dicod’Òc (notamment pour traiter la variété linguistique) mais également pour les autres applications du Congrès (comme le conjugueur automatique par exemple) ou les 5 Elasticsearch est un logiciel utilisant Lucene pour l’indexation et la recherche de données. Il fournit un moteur de recherche distribué et multi-entité à travers une API REST. 6 Ce format avait été choisi pour pouvoir traiter et éditer des ressources hétérogènes (les dictionnaires sont différents en termes de structures et de richesse de contenu) et non structurées

09-benazet dazeas.indd 160

24/11/22 11:42

DICOD’ÒC

161

applications tierces. Enfin, en termes de gestion du contenu éditorial, l’outil est également limité, voire même obsolète quand on le compare aux standards actuels de la lexicographie numérique7 : le rendu de dicod’Òc après une recherche est une concaténation d’articles provenant de différents dictionnaires, dans différentes variétés, la recherche faisant remonter finalement une quantité importante de données non structurées, imbriquant pour chaque entrée traductions, définitions, exemples, etc., créant de fait des répétitions (une entrée ou encore une traduction seront potentiellement présentes dans différents dictionnaires), et ce pour chaque article de chaque dictionnaire. Plusieurs ressources sont trop peu visibles (notamment la section des dictionnaires spéciaux, les bases toponymiques, etc.), les utilisateurs restant attaché au dicod’Òc comprenaient mal l’organisation et l’accès aux autres données. Or, les nouveaux standards de l’édition numérique permettent aujourd’hui de structurer l’impression d’une recherche unique dans plusieurs ressources, et afficher du contenu en fonction du contexte, de la recherche. C’est pourquoi le Congrès a engagé très tôt une réflexion visant à aboutir à une nouvelle plateforme lexicographique et textuelle moderne, avec de nouvelles caractérisitiques techniques et ergonomiques, permettant à partir d’une seule recherche d’interconnecter et de rendre visible les différentes données (lexicographie, flexions, toponymie, corpus textuels, etc.). Le nom provisoire de multi-application a été choisi pour ce programme ambitieux et engageant l’équipe du Congrès sur plusieurs années. Préparation des données du Congrès Formatage en TEI Pour mener à bien la Feuille de route de développement numérique de l’occitan et développer les différentes ressources et outils prévus, il a été nécessaire de créer des standards d’échange et d’interopérabilité.8 Une telle standardisation permet de développer rapidement de nouvelles ressources (bases lexicales, corpus) nécessaires à la création d’outils à destination du grand public (traducteurs automatiques, outils transcrivant un texte d’une variété de l’occitan à une autre, correcteur orthographique, clavier prédictif, etc.) ou des spécialistes (étiqueteur morphosyntaxique). Le Congrès a élaboré avec ses partenaires des 7 On peut se référer aux portails lexicaux grand public, tels que Reverso (https://www.reverso.net) ou encore Linguee (https://www.linguee.fr). 8 On est par exemple régulièrement confronté à la variation de la nomenclature des catégories grammaticales : selon les auteurs, un nom féminin peut s’écrire f., n. f., nf, fem., etc.

09-benazet dazeas.indd 161

24/11/22 11:42

162

BENAZET DAZEAS

standards d’encodage des ressources lexicographiques occitanes et a ensuite entrepris un long et minutieux travail de formatage de ses ressources en norme TEI P5. Tableau 1 : Ressources du Congrès au format TEI Ressources

Description

Dictionnaires français-occitan

5 généraux, 4 noms propres9

Dictionnaires occitan-français

3 généraux, 3 noms propres

Formes fléchies

vèrb’Òc pour 2 variétés

Autres ressources

top’Òc (Base toponymique)

9

La TEI (Text encodadge information) est un sous-langage XML avec une norme (extensive qui plus est, ce qui signifie que la norme permet d’ajouter des balises) pour étiqueter le contenu textuel. Concrètement, il s’agit de balises permettant de donner des attributs spécifiques pour les dictionnaires et les lexiques : catégories grammaticales, acceptions, définitions, traductions, locutions, exemples, citations littéraires, etc. Le texte n’est pas modifié au cours du traitement, seules les balises sont rajoutées. Figure 2 : exemple d’entrée de dictionnaire avec son encodage TEI

9 Il

09-benazet dazeas.indd 162

s’agit des sections Noms propres des dictionnaires cités dans le Tableau 1.

24/11/22 11:42

DICOD’ÒC

163

Ce formatage appliqué à une ressource lexicographique permet donc de structurer les données, ce qui signifie, d’un point de vue machine, que l’information n’est plus une concaténation de caractères (mots, articles) mais un ensemble de mots ou d’expressions structurées au sein d’une arborescence. LoFlOc (lexique ouvert des formes fléchies) Plusieurs ressources et outils ont donc pu être créés automatiquement ou semi-automatiquement grâce à ces données formatées, cela dans des délais relativement courts. Parmi celles-ci est le LoFlOc (lexique ouvert des formes fléchies de l’occitan), qui est réalisé dans le cadre d’un partenariat entre le Congrès permanent de la langue occitane et le laboratoire CLLE (CNRS / Université Toulouse-Jean-Jaurès). L’initiative a été engagée par le programme Restaure10. Dans la lignée du Morphalou pour le français ou du Lexic Obert Flexionat de Català, LoFlOc est un lexique des formes fléchies d’un lemme, à savoir une base lexicale monolingue comprenant une liste de mots occitans avec la catégorie grammaticale (type, genre, nombre, etc.), les formes fléchies (féminin, pluriel, conjugaison, etc.) et la variété. Plusieurs ressources ont été utilisées : un corpus textuel littéraire constitué par CLLE, les formes fléchies générées automatiquement après le formatage TEI des dictionnaires du Congrès ainsi que la base du conjugueur automatique du Congrès (vèrb’Òc). Inscrit parmi les développements prioritaires de la Feuille de route de développement numérique de l’occitan, LoFlOc est une ressource indispensable à l’annotation des corpus textuels, mais également à la création d’applications numériques telles que la saisie prédictive, la traduction automatique et la correction orthographique. Après la mise en ligne en 2017 d’une première version test en occitan languedocien, le consortium a développé une version en occitan gascon. Par la suite a été mené un travail de normalisation orthographique, qui a permis de produire une ressource de référence expurgée de toutes les variations issues. Un corpus d’environ 900 000 entrées pour chacune des variétés a ainsi pu être constitué.

10 (RESsources

informatisées et Traitement AUtomatique pour les langues Régionales), un projet ANR (Agence nationale de la recherche) qui a vu s’associer CLLE-ERSS (Université de Toulouse), LESCALP (Université d’Amiens) et LILPA (Université de Strasbourg) autour du développement des ressources informatiques et des outils de traitement automatique pour trois langues régionales de France : alsacien, occitan et picard.

09-benazet dazeas.indd 163

24/11/22 11:42

164

BENAZET DAZEAS

Tableau 2 : Echantillon du LoFlOc (lexique ouvert des formes fléchies de l’occitan)

Architecture et ressources de l’application Ressources et outils disponibles Le Congrès a engagé, avec ses partenaires scientifiques et intentionnels, différents programmes de développement de ressources et d’outils linguistiques, dont Linguatec11 est le plus important : cet important programme européen a Tableau 3 : Ressources et outils réutilisables Ressources/outils

Programme LINGUATEC

Multi-application

Lexiques des formes fléchies

POS-tagger Traducteur automatique

Conjugueur et « flexionneur » Recherche par forme fléchie

Phonétiseur

Synthèse vocale

Prononciation des mots Dictionnaire des rimes

PoS-tagger

Traduction automatique

Corpus étiqueté (affichage de citations)

Dictionnaires bilingues

Traducteur automatique

Dictionnaires de traductions

Corpus monolingue

Enregistrements synthèse vocale Entraînement du PoS-tagger

Emploi de mots en contexte

Corpus bilingue

Traduction automatique

Affichage de traductions en contexte (type linguee.fr)

Synthèse vocale

Synthèse vocale

Phonétisation d’un mot

11 https://linguatec-poctefa.eu/.

09-benazet dazeas.indd 164

24/11/22 11:42

DICOD’ÒC

165

permis de développer pour l’occitan la traduction automatique, la synthèse vocale et la constitution d’un corpus annoté. Cette démarche s’inscrit dans une vision toujours planifiée et structurée dont la multi-application est un des aboutissements, le programme proposant des séquences ponctuées par la réalisation de livrables (outils et ressources) ayant plusieurs diffusions ou usages. Ainsi la nouvelle synthèse vocale occitane permet d’assurer dès à présent plusieurs services web12, et pourra être utilisée dans la future multi-application pour phonétiser automatiquement les données. Ressources et outils à créer Il s’agit d’un chantier interne au Congrès qui est déjà largement engagé13, les ressources étant créées automatiquement grâce au formatage en TEI des dictionnaires du dicod’Òc : – – – – –

Dictionnaire des synonymes14 généré à partir des dictionnaires monolingues et occitan-français ; Dictionnaire des rimes15 généré à partir des lexiques de formes fléchies et du phonétiseur ; Dictionnaires de variantes généré de façon semi-automatique à partir d’algorithmes ; Corpus16 monolingues et parallèles (avec le PoS-tagger) ; Dictionnaire d’expressions17 généré automatiquement à partir des dictionnaires monolingues et bilingues, mise en forme de dictionnaires d’expressions).

Les API (Application programming interface) La dernière étape avant d’envisager le développement de la multi-application est l’accès aux différentes données via des API. Il s’agit d’une interface logicielle permettant de se connecter à des données et des fonctionnalités d’un autre 12 https://votz.eu/.

13 L’avancée des travaux dépendent des ressources disponibles et traitées (formatage TEI), en sachant qu’il est difficile pour l’heure de couvrir l’ensemble des variétés de l’occitan, notamment pour les parlers du Nord. 14 https://dicesp.locongres.com/syns.php. 15 https://dicesp.locongres.com/rimas.php. 16 https://corpus.locongres.com/. 17 https://dicesp.locongres.com/locucions.php.

09-benazet dazeas.indd 165

24/11/22 11:42

166

BENAZET DAZEAS

logiciel. Ces fonctionnalités, désormais couramment utilisées18, offrent de nombreuses possibilités, par exemple la portabilité de données qui peuvent donc être utilisées par des logiciels tiers. Concrètement, une API est une méthode permettant d’envoyer des paramètres à une application et d’en faire remonter des données. Tableau 4 : API du portail locongres.org Nom de l’application

DescriptionTableau 4 - API du portail locongres.org

Usages

Express’Òc

Dictionnaire d’expressions

Application TAL, intégration dans un site web, via module : https://api.locongres.org/expressoc_module.php

Top’Òc

Base toponymique

Application TAL, intégration dans un site web, via module : https://api.locongres.org/topoc_module.php

Vèrb’Òc

Conjugaison

Application TAL, intégration dans un site web, via module : https://api.locongres.org/verboc_module.php

Punt de lenga

Fiches de grammaires

Intégration dans un site web, via module : https://api.locongres.org/puntlenga_module.php

Sinonimes

Dictionnaire des synonymes

Application TAL

Fon’Òc

Phonétiseur

Application TAL

Rimas

Dictionnaire des rythmes

Application TAL

Letras

Tirage aléatoire de lettres

Application TAL

Basic

Dictionnaire bilingue

Application TAL, base lexicale en ligne

Revirada

Traducteur automatique

Plateforme web (votz.eu), service web, application mobile, plug-in pour cms et navigateurs web

Votz

Synthèse vocale

Plateforme web (votz.eu), service web, application mobile, plug-in pour cms et navigateurs web

18 Par

exemple la possibilité d’intégration de fonds cartographiques issus de plateforme Géoportail, Googlemap ou OpenStreetMap.

09-benazet dazeas.indd 166

24/11/22 11:42

DICOD’ÒC

167

Le Congrès a constitué ses propres API19 qui propose les ressources principales20, mises à disposition des développeurs avec la documentation technique. Le service est gratuit et accessible via une clé fournie par les services techniques du Congrès. Aujourd’hui, plusieurs services fonctionnent dès à présent grâce à ces API. Dans la perspective du développement de la multi-application, il est important de continuer d’actualiser les API existantes et de développer celles faisant encore défaut, notamment pour la base de formes fléchies (LOFlOC) ou encore le corpus textuel du Congrès. Enfin, la technologie des API nous permet d’envisager d’enrichir la multi-application de ressources tierces, comme nous pourrons le voir plus bas. Application finale Contenu et fonctionnalités Le principe de la multi-application est celui d’une interface légère faisant appel à différentes ressources indépendantes les unes des autres à partir d’une barre de recherche unique. Cela présente un grand intérêt, d’abord d’un point de vue éditorial : l’usager qui devait jusqu’alors faire l’effort de naviguer d’une interface à une autre (dictionnaires, dictionnaires spéciaux, conjugaisons, etc.), et se retrouvait dans un « maquis » d’application dont la juxtaposition ne faisait pas toujours sens n’y gagnera qu’en lisibilité grâce à cet accès unique. Un intérêt d’un point de vue linguistique également : l’utilisateur reste, souvent par facilité, sur la partie dictionnaire de la plateforme locongres.org, passant à côté de quantité d’informations de qualité pouvant enrichir sa recherche. On pense par exemple au corpus (où on peut voir un mot en contexte), à la phonétisation (pour avoir un référentiel en termes de prononciation) ou encore la variation linguistique. Enfin, d’un point de vue technique l’interface, en étant plus intuitive, permettra d’optimiser la consultation sur les terminaux mobiles, dont l’usage croît d’année en année21. Elle permet également, en séparant techniquement les ressources (via les API) du moteur de consultation (via une interface web), d’avoir un dispositif plus souple et évolutif dans la durée. La multi-application est donc composée de deux éléments : les API (dont certaines sont publiques et donc ouvertes à d’autres développements) et une interface qui récupère, organise et met en forme les données. 19 http://api.locongres.org. 20 Sauf

le dicod’Òc, dont les œuvres sont sous droit. terminaux mobiles représentent plus de la moitié des connections sur la plateforme locongres.org. 21 Les

09-benazet dazeas.indd 167

24/11/22 11:42

168

BENAZET DAZEAS

Pour la première version de la multi-application, un premier bouquet de ressources a été envisagé, avec d’abord un cartouche contenant un premier niveau d’informations directement rattachées à l’entrée : – Flexions ; – Variétés ; – Prononciation (API et audio) ; – Synonymes. Un deuxième bloc affichera les corpus du Congrès : – – – – – –

Définitions ; Traductions ; Expressions (locutions métaphoriques, etc.) ; Corpus littéraires ; Rimes ; Corpus et dictionnaires historiques (via un transcripteur de graphie).

Enfin, un troisième et dernier bloc faisant apparaître les ressources tierces, entre autres : – – –

Wikipédia occitana (environ 100 000 articles, les données du Wiktionnaire) ; Occitanica (encyclopédie du Cirdòc-Institut occitan de culture) ; Thésoc (thesaurus occitan).

Toutes les données étant en TEI (au moins pour les deux premiers blocs), chaque forme ou mot dans le champ du texte sera enrichi d’un hyperlien ; l’utilisateur n’aura qu’à cliquer dessus afin de recharger la page avec cette nouvelle recherche. De même la TEI permet de transcrire la graphie afin d’interroger des données historiques et patrimoniales22. Prototype Un premier prototype a ainsi été créé. Il s’agit d’un premier jet permettant de définir une organisation et des fonctionnalités sans préjuger de l’aspect 22 La graphie normalisée de l’occitan, dite « graphie classique », a été diffusée après la Seconde Guerre mondiale. Il existe d’autres graphies antérieures (mistralienne, fébusienne, école du Pô, etc.) qui constituent un corpus important, dont des œuvres académiques comme le Tresor dóu Felibrige de Frédric Mistral.

09-benazet dazeas.indd 168

24/11/22 11:42

DICOD’ÒC

169

final de la plateforme. La page est codée en html et php et permet de tester un scénario avec l’entrée « marcha ». L’utilisateur entre le terme dans un champ sous lequel sont disposés des filtres (variétés de l’occitan), le champ proposant une autocomplétion avec les occurrences trouvées, en occitan comme en français, les langues étant mentionnées par une étiquette, respectivement [oc] et [fr]. Figure 3 : exemple d’entrée de dictionnaire avec son encodage TEI

Une fois l’entrée choisie, on accède à la page de recherche. On retrouve sur la colonne de gauche le formulaire de recherche réduit ainsi que les différentes occurrences correspondant exactement ou commençant par le mot sélectionné. Chaque occurrence précise la langue concernée (occitan ou français) ainsi que la catégorie grammaticale. Ainsi l’usager peut chercher exactement l’information qu’il souhaite. Dans la partie centrale, on indique en haut la forme et ses informations directes : prononciation (alphabet phonétique international et fichier son), variantes, synonymes ainsi que les flexions. Plus bas, un bloc fait remonter les correspondances dans le type de ressources actif, à savoir le type de ressources que l’on souhaite visualiser en détail (c’est le bloc le plus grand par la taille). Dans la colonne de droite est affiché un aperçu des autres ressources. Enfin, du contenu connexe (modules ludiques, mise en valeur de ressources externes) est prévu en bas de page, dans les colonnes extérieures. Il serait possible d’y afficher des ressources tierces, comme le Thésoc (atlas linguistique), Wikipédia, le Wiktionnaire, Occitanica, Géoportail, etc.

09-benazet dazeas.indd 169

24/11/22 11:42

170

BENAZET DAZEAS

Figure 4 : organisation des informations dans la multi-application

Ce choix éditorial est guidé par l’idée de proposer une vue générale des ressources sur une seule page, avec dans le bloc principal présentant, par défaut, la vue de la ressource la plus pertinente pour l’entrée sélectionnée, ou d’une autre ressource si celle-ci a été sélectionnée dans la prévisualisation des autres ressources dans la colonne de droite. Ainsi avons-nous ci-dessous des vues détaillées de différentes ressources : –

09-benazet dazeas.indd 170

Définitions (dictionnaires monolingues occitans)

24/11/22 11:42

DICOD’ÒC

171

–

Traductions (dictionnaires bilingues occitan-français et français-occitan)

–

Expressions (extraites grâce au formatage TEI des dictionnaires)

09-benazet dazeas.indd 171

24/11/22 11:43

172

–

09-benazet dazeas.indd 172

BENAZET DAZEAS

Citations littéraires (extraits du corpus textuel)

24/11/22 11:43

DICOD’ÒC

–

09-benazet dazeas.indd 173

173

Tableaux de conjugaison

24/11/22 11:43

174

–

BENAZET DAZEAS

Dictionnaires historiques

Un chantier avec plusieurs étapes d’édition La multi-application est un travail sur le temps long. Il est prévu un temps de test avec un panel d’utilisateurs afin d’en valider l’ergonomie et les fonctionnalités ou, le cas échéant, de corriger les choix qui ont été faits. De par son ergonomie et ses fonctionnalités avancées, la multi-application pourrait être vécue comme un changement brutal pour certains usagers. Il est prévu de conserver une version classique des applications (dicod’Òc, vèrb’Òc, etc.) afin de laisser le choix aux utilisateurs. De même, il est prévu une version intermédiaire courant 2023, croisant certaines applications à partir d’une recherche unique, avec des fonctionnalités limitées, afin de commencer à habituer le public à ses nouveaux usages. Le formatage TEI est déjà très avancé et la majorité des API nécessaires sont déjà créées, toutefois la mise en service de la multi-application dépend de l’édition du Basic-lexique référentiel français-occitan élargi à toutes les variétés de l’occitan (il est pour l’instant limité au gascon et au languedocien), qui est une ressource centrale. Etant donné que c’est le seul dictionnaire normé panoccitane, il constitue un point d’entrée (bloc central haut de la multi-application) permettant de renvoyer vers toutes les autres ressources. Le Basic multivariétés est actuellement en cours de relecture et son édition est prévue courant 2022.

09-benazet dazeas.indd 174

24/11/22 11:43

III ESTANDARIZAZIOAREN GIZARTERATZEA ETA INGURUNE DIGITALA: HAINBAT ESPERIENTZIA LA SOCIALIZACIÓN DE LA ESTANDARIZACIÓN Y ENTORNO DIGITAL: ALGUNAS EXPERIENCIAS DIFFUSION DE LA STANDARDISATION ET ENVIRONNEMENT NUMÉRIQUE : QUELQUES EXPÉRIENCES THE SOCIALIZATION OF STANDARDIZATION AND THE DIGITAL ENVIRONMENT: SOME EXPERIENCES

10-iolanda fernandez.indd 175

24/11/22 11:45

10-iolanda fernandez.indd 176

24/11/22 11:45

LOS RECURSOS DIGITALES Y LA PROYECCIÓN DEL GALLEGO EN LA RED LA EXPERIENCIA DE LA REAL ACADEMIA GALEGA Iolanda Fernández Casal Real Academia Galega-Departamento de Comunicación comunicació[email protected]

Resumen La revolución digital ha abierto nuevas oportunidades para la divulgación del estándar normativo del gallego que la Real Academia Galega (RAG) aprovecha desde la segunda mitad de la primera década del siglo xx. En 2012 la institución dio un paso fundamental en este camino con la puesta en marcha de la versión en línea de su diccionario, que en abril de 2020 alcanzó las 133.000 consultas diarias. Pero la apuesta de la Academia por la divulgación lingüística a través de la Red va mucho más allá y ofrece, entre otros, contenidos lúdicos y didácticos multimedia desde espacios como el Portal das Palabras. El diálogo con los usuarios y usuarias a través de las webs de la RAG y sus redes sociales cobra en este contexto una importancia especial no solo por su capacidad de contribuir a la fijación de la norma del idioma, sino también a su normalización. El objetivo fundamental de la Real Academia Galega ha estado claro desde su fundación. «Lo primero es nuestra lengua», proclamaba Manuel Murguía en la sesión inaugural de la institución celebrada en A Coruña el 30 de septiembre de 19061. 1 Murguía,

Manuel (1906): «Discurso del señor académico presidente», en Boletín de la Real Academia Gallega. A Coruña: Real Academia Galega, pp. 125-129, https://academia.gal/

10-iolanda fernandez.indd 177

24/11/22 11:45

178

IOLANDA FERNÁNDEZ CASAL

«No puede perecer un lenguaje que tiene una literatura gloriosa, y nombres que son orgullo de la inteligencia humana. Por eso, y para recoger en Galicia su verdadero léxico, dar a conocer su gramática, y afirmar su existencia, se fundó esta Academia», expresaba solemne aquel día el primer presidente de la institución. Ciento quince años más tarde, Galicia ha cambiado profundamente y la realidad sociolingüística es también diferente, pero la razón fundamental de la RAG sigue siendo el estudio y la codificación del gallego. Desde 1983 lo hace por mandato legal. La Lei Normalización Lingüística, aprobada ese año por el Parlamento de Galicia, le encomienda oficialmente a la Real Academia Galega la elaboración de la norma gramatical, ortográfica y fónica del idioma propio de Galicia, el inventario del léxico, la propuesta de un diccionario de uso y la modernización y actualización de su vocabulario2. Un trabajo que, lejos de poder darse por concluido, se ha intensificado en los últimos años apoyándose en una revolución digital que incrementa también a cada paso la demanda social de más y mejores recursos de divulgación. Hoy en día la gran mayoría de los hogares gallegos cuentan con conexión a Internet. Según los datos del Instituto Galego de Estatística3, en 2018 casi el 77 % disponía de este servicio y el uso de Internet entre los jóvenes de 14 a 24 años superaba el 99 % de la población en esta franja de edad. Desde entonces, a falta de datos concretos para Galicia, cabe suponer que la penetración de Internet ha seguido creciendo de manera similar al conjunto del Estado. En enero de 2020, el 91 % de la población española la empleaba, y casi 26 millones de personas usaban a diario las redes sociales y pasaban de media cerca de seis horas al día conectadas, en buena medida a través de los teléfonos móviles (el 94 % de estos dispositivos ya son inteligentes)4. Consciente de las oportunidades y exigencias de la revolución digital que ilustran estas cifras, la Real Academia Galega ha desarrollado y desarrolla distintas iniciativas que buscan no solo la amplificación de la difusión de la normativa y del estándar del idioma gallego, sino también el diálogo con la comunidad de hablantes, estudiantes y profesionales que lo emplean. El objetivo es doble: por un lado, escuchar directamente sus necesidades y demandas con el propósito de desarrollar proyectos y contenidos divulgativos más eficaces; y por otro, algo boletins-web/paxinas.do;jsessionid=4FF83686657EC8AEDD5489CDEFF34016?id=2182&d447263-p=1 (consulta: 2020-06-24). 2 Lei 3/1983, do 15 de xuño, de normalización lingüística, http://www.parlamentodegalicia.es/sitios/web/BibliotecaLeisdeGalicia/Lei3_1983.pdf (consulta: 2020-06-24). 3 Instituto Galego de Estatística (2019): Enquisa estrutural a fogares. Novas tecnoloxías, https://www.ige.eu/estatico/estatRM.jsp?c=0205002&ruta=html/gl/OperacionsEstruturais/Resumo_resultados_EEF_NovasTecnoloxias.html (consulta: 2020-06-24). 4 We Are Social (2020): Digital 2020 España, https://wearesocial.com/es/digital-2020-espana (consulta: 2020-06-24).

10-iolanda fernandez.indd 178

24/11/22 11:45

LOS RECURSOS DIGITALES Y LA PROYECCIÓN DEL GALLEGO EN LA RED

179

no menos importante: reforzar una actitud positiva hacia el gallego y su norma, sin perder de vista que sigue siendo una lengua minorizada y afectada por una situación de diglosia. El diccionario en línea El último Dicionario da Real Academia Galega en papel se publicó en 1997 y conoció su última edición con la llegada del nuevo milenio, en el año 2000. Tres años después, en 2003, la RAG publicó las actuales Normas ortográficas e morfolóxicas do idioma galego. El nuevo diccionario adaptado a ellas no vería la luz hasta casi una década después, en el año 2012, ya como diccionario en línea albergado en la actual página web de la institución, academia.gal. Pero esto no quiere decir que la RAG no ofreciese con anterioridad recursos de consulta lingüística en la que fue su primera página web, realacademiagalega.org, estrenada en el año 2005. De las Normas se imprimieron distintas ediciones promovidas por la propia Real Academia Galega, la Xunta de Galicia y alguna editorial, poniendo en circulación un número elevado de ejemplares, pero su difusión sin duda se multiplicó desde que pasaron a estar disponibles en versión digital, en la segunda mitad de la primera década de este siglo, en esa primera web institucional. También se publicó en papel, en 2004, la versión definitiva del Vocabulario ortográfico da lingua galega (VOLG), después de catorce años de exposición pública, estudio y revisión bajo la coordinación de los académicos Manuel González y Antón Santamarina. Este trabajo de la Real Academia Galega y el Instituto da Lingua Galega de la Universidade de Santiago de Compostela, que sumó casi 850 páginas y 49.000 términos, sentó una base sólida para el establecimiento del léxico estándar del gallego, y lo consiguió no solo por sus propias cualidades, también gracias al alcance que logró cuando pasó a estar disponible en versión digital y gratuita en la Red, casi al mismo tiempo que las Normas. Su repercusión se multiplicó igualmente a golpe de clic muy por encima de lo que hubiera conseguido la tirada más ambiciosa. La aplicación digital del VOLG, que todavía puede consultarse en la web de la Academia5, se convirtió enseguida en una herramienta popular tanto entre usuarios comunes como especializados. Aunque no ofrece definiciones, sí que aclara si una palabra es o no correcta, mediante un código de colores a 5 Vocabulario

2020-06-24).

10-iolanda fernandez.indd 179

ortográfico da lingua galega, https://academia.gal/recursos-volg (consulta:

24/11/22 11:45

180

IOLANDA FERNÁNDEZ CASAL

modo de semáforo que también identifica las que se quedan en «toleradas». El VOLG digital ofreció además desde el principio sinónimos y la categoría gramatical, avanzando, en definitiva, varias utilidades del futuro diccionario en línea. Hasta 2012, el VOLG fue la única referencia oficial de estandarización de nuestro léxico. A partir de ese año, quedó superado con el estreno de un nuevo diccionario ya nativo digital, accesible en abierto en academia.gal/ dicionario. Esta herramienta, dirigida por el académico Manuel González, no solo le añade al VOLG las definiciones de los términos —que ascendían por entonces a algo más de 50.000 voces— también incorpora fraseología y expresiones. Desde junio de 2013, cuenta además con un buscador de sinónimos con ejemplos de uso, un listado de términos relacionados con la palabra buscada y permite realizar búsquedas avanzadas en los lemas y en las definiciones. En actualizaciones posteriores el Diccionario incorporó el conjugador de verbos (muy útil, por ejemplo, para comprobar los casos de alternancia vocálica) y la aplicación del Instituto da Lingua Galega que permite escuchar la pronunciación de las palabras. Esta herramienta se basa en la información fonética del Dicionario da pronuncia da lingua galega, que la RAG publicó en papel en 2010 bajo la coordinación del académico Xosé Luís Regueira. En la web se puede oír en la voz de Luís Iglesia —el actor que hizo hablar en gallego a Harrison Ford o Robert de Niro—; también prestaron la suya para parte de las entradas la periodista de la Radio Galega Belén Regueira y la filóloga Noemi Basanta. Figura 1

10-iolanda fernandez.indd 180

24/11/22 11:45

LOS RECURSOS DIGITALES Y LA PROYECCIÓN DEL GALLEGO EN LA RED

181

El Dicionario de academia.gal es a día de hoy el recurso de estandarización más potente de la lengua gallega. Su uso no para de aumentar y, tras varias subidas importantes en los últimos ejercicios, cerró 2019 con casi 26 millones de consultas, por encima de las 70.000 diarias, más del doble que cuatro años antes. Estas cifras volvieron a ser superadas, de forma extraordinaria, durante el estado de alarma que decretó en la primavera de 2020 el confinamiento de la población por la expansión del coronavirus, alcanzando en el mes de abril las 133.00 búsquedas diarias. Hay que tener en cuenta además que estos números no incluyen las consultas realizadas a través de las aplicaciones para dispositivos móviles lanzadas en 2013 para sistemas operativos iOS y Android, que descargan el Dicionario en el dispositivo móvil de modo que es posible consultarlo sin conexión, algo hasta hace poco muy útil. En estos momentos, con cada vez menos zonas sin cobertura y tarifas de datos generosas, la RAG prevé lanzar próximamente una nueva aplicación que sí que requerirá acceso a la Red, como sucede con la mayoría de estos programas. A cambio ocupará menos espacio en los dispositivos y hará más sencillas y económicas las actualizaciones, que no solo son necesarias por cuestiones técnicas, sino por la propia vida del Dicionario, en permanente proceso de revisión y actualización. Sirva como ejemplo la inclusión en mayo de 2020 de nuevas voces relacionadas con la pandemia como covid-19, coronavirus, desescalada o desconfinamento. Diálogo con los usuarios El Diccionario se acerca en estos momentos a las 60.000 entradas. El Seminario de Lexicografía da Real Academia Galega incorporó en 2019 un total de 201 nuevos lemas e introdujo cambios en más de 800. Las actualizaciones se suben al Dicionario en línea en bloques, tres o cuatro veces al año, y quedan perfectamente registradas en cada entrada y en la pestaña «Últimas actualizacións». La revisión y mejora es fruto del trabajo interno del Seminario, pero también se nutre del diálogo con la comunidad de usuarios y usuarias del propio Diccionario, que gracias a la Red es cada vez más intenso y fluido. Los usuarios pueden enviar sus comentarios sobre esta herramienta a través de la pestaña «Axúdanos a mellorar», que se despliega en cada entrada; el formulario de contacto al que se accede desde la página de inicio de academia.gal y otras vías telemáticas como las redes sociales. Los usuarios también emplean todos estos canales para plantear dudas lingüísticas. Se benefician así de la facilidad de acceso y de la rapidez en la respuesta y la Real Academia Galega obtiene una información de gran utilidad: cuáles son sus dudas más habituales, en qué contextos suelen utilizar el Diccionario y cómo creen que este podría ser mejorado. Gracias a esta retroalimentación, se confirma lo que intuitivamente se suponía. El Diccionario y las demás herramientas

10-iolanda fernandez.indd 181

24/11/22 11:45

182

IOLANDA FERNÁNDEZ CASAL

lingüísticas digitales que la Real Academia Galega ofrece son empleadas por todo tipo de personas, pero por su propia naturaleza lo son especialmente por parte de profesorado, alumnado, trabajadores de los medios de comunicación y distintas administraciones o traductores. La RAG sigue atendiendo telefónicamente dudas, pero hace tiempo que la vía telemática es la más usada, sobre todo el formulario de contacto de academia.gal, que permite responderlas en privado por correo electrónico. Es frecuente que las personas que eligen este sistema se presenten brevemente e indiquen el contexto en que surgió su duda, e incluso a qué se dedican, una información de gran valor para diseñar estrategias de divulgación. Las redes sociales como vía de resolución de dudas Las redes sociales son otro canal que emplean los usuarios para hacer llegar sus dudas a la Real Academia Galega. La institución está presente en Twitter (@ AcademiaGalega) Facebook e Instagram (@realacademiagalega). Por su propia naturaleza, la red más usada con este propósito es la primera. Aunque el conjunto de las dudas planteadas a través de las redes sociales apenas representa el 5 % del total, son cada vez más y presentan una gran ventaja, porque cuando se formulan en público, no por mensaje privado, el alcance de las respuestas se multiplica. De este modo se resuelven no solo para los usuarios y usuarias que las plantean, también se brinda la oportunidad de fijar conocimientos lingüísticos y la normativa entre muchas otras personas que escuchan. Las consultas en redes sociales en ocasiones parecen formuladas por usuarios poco especializados, o menos conscientes, que probablemente no tomarían la iniciativa de emplear otras vías de contacto. Sin embargo, no tienen ningún problema en preguntar cualquier duda que les surge a cualquier hora a golpe de tuit, en ocasiones incluso antes de probar suerte en el Diccionario. Aunque pueda parecer contradictorio, tampoco es raro que parte de las consultas más avanzadas lleguen por esta vía, quizás con un claro ánimo por parte de quienes las realizan de provocar un pronunciamiento público de la institución sobre distintos aspectos que afectan la actualidad de la lengua. El Portal das Palabras Otra herramienta digital de la Real Academia Galega centrada en la divulgación de la normativa léxica es el Portal das Palabras (portaldaspalabras.gal), una marca desde la que también se resuelven dudas a través de un formulario de

10-iolanda fernandez.indd 182

24/11/22 11:45

LOS RECURSOS DIGITALES Y LA PROYECCIÓN DEL GALLEGO EN LA RED

183

correo electrónico y de las redes sociales. Hay contenidos, matices, curiosidades, contextos y vínculos de las palabras con la actualidad, o con los afectos colectivos, que los diccionarios no pueden transmitir, o lo hacen de manera limitada. Es en este terreno en el que se mueve este blog alimentado por el Seminario de Lexicografía, gracias a la colaboración de la Fundación Barrié. La Barrié es el principal apoyo económico con el que cuenta la RAG para desarrollar las mejoras técnicas del Diccionario, que también se ofrece a través de esta ventana virtual con una visualización diferente pero los mismos servicios. La Palabra do Día Desde su creación en el año 2013, el Portal das Palabras amanece con una nueva «Palabra do Día», una sección que no se limita a reproducir la definición que da el Diccionario del término elegido. Las voces suelen estar relacionadas a través de un hilo conductor semanal, a menudo en relación con la actualidad, tanto del propio calendario (comienzo del curso escolar, vacaciones, el Día das Letras Galegas...) como de temas que son tendencia (avances científicos, el cambio climático, la igualdad de género, la pandemia del coronavirus), y aparecen acompañadas de la etimología correspondiente y de un par de citas de literarias o periodísticas en las que son empleadas. La «Palabra do Día» se difunde a través de las redes sociales propias del Portal (Facebook y Twitter) a las 9 de la mañana, normalmente con el tono que caracteriza a todo este proyecto: más relajado, más informal del que se puede emplear desde una página web de perfil institucional. Así se busca, en definitiva, lo que en la jerga de medios sociales se ha dado en llamar engagement, compromiso traducido literalmente, aunque quizás sería mejor hablar de complicidad, o de un vínculo afectivo con los usuarios que hace más eficaz el mensaje, tanto el que tiene que ver con la normativa como el que tanto importa en clave normalizadora. Juegos interactivos La página de inicio del Portal das Palabras se actualiza además tres veces a la semana con otros contenidos: uno textual y un juego interactivo inéditos, y una tercera entrada reprogramada. Tras siete años de vida, la web cuenta con un banco de recursos lo suficientemente amplio como para volver a llevarlos periódicamente a la primera plana sin que resulten repetitivos. Aprender de forma divertida es una de las premisas del Portal das Palabras y los juegos interactivos son seguramente la mejor prueba. Su repositorio web

10-iolanda fernandez.indd 183

24/11/22 11:45

184

IOLANDA FERNÁNDEZ CASAL

suma más de 350 con distintos niveles de dificultad y repartidos en siete tipos diferentes: «Verdadeiro ou falso», «Canto sabes?», «Só unha vale», «Dimo con letras», «Apunta ben» y «A ver se dás» y «Opa¡». Desde 2016 también es posible acceder a ellos desde la aplicación para dispositivos móviles del Diccionario. La app ofrece un divertimento más: agitando el teléfono móvil, destaca palabras de manera aleatoria. En realidad es una versión especial de las «Palabras á toa» disponible en la versión del Diccionario para navegadores. Textos divulgativos En cuanto a los contenidos de texto, el archivo del Portal das Palabras ofrece ya casi medio millar de extensión y temática variable. Ninguno se limita a ofrecer la definición y la etimología de las palabras o expresiones trabajadas, todos ahondan en sus relaciones con lo histórico o la cultura contemporánea y su uso presente. La idea es que cada entrega sea interesante y amena no solo para las personas apasionadas de lo lingüístico, sino para cualquiera con un mínimo de curiosidad por el mundo que nos rodea. El Portal das Palabras contribuye así a fijar términos normativos frente a formas deturpadas o castellanismos de uso extendido, divulgar alternativas propias de la lengua gallega ante los extranjerismos y también promocionar, por así decirlo, entradas o definiciones de reciente incorporación al Dicionario, explicando a los usuarios los porqués de cada decisión. Por ejemplo, por qué se ha elegido la forma «apoderamento» para el concepto nombrado en inglés empowerment; cómo las palabras patrimoniales «faldriqueira» y «suadoiro» vuelven a estar de moda para designar la funny pack y la sweatshirt anglosajonas; o por qué covid-19 es una palabra femenina. Los contenidos de texto se reparten entre cuatro secciones: «Setestrelos», «Allos con bugallos», «Mira que din» y «Palabras asinadas». La primera toma su nombre de la denominación popular de las Pléyades, de manera que cada entrada de este tipo profundiza en siete términos vinculados de alguna manera con asuntos relacionados con la actualidad, el momento del año (la vendimia, las lluvias del otoño…) o la celebración de fechas como el Día das Letras Galegas o el Día Mundial de los Océanos. «Mira que din» se detiene en palabras de moda y actualidad o neologismos como sororidade o aporofobia; cada «Allos con bugallos» se centra en grupos de palabras emparentadas semánticamente y sinónimos o en la riqueza fraseológica del gallego; y en las «Palabras asinadas» los miembros de la RAG son invitados a comentar voces desde una perspectiva personal que transciende el enfoque estrictamente lingüístico.

10-iolanda fernandez.indd 184

24/11/22 11:45

LOS RECURSOS DIGITALES Y LA PROYECCIÓN DEL GALLEGO EN LA RED

185

Figura 2

Los vídeos de «Pregúntalle á Academia» También gozan de muy buena recepción los vídeos de la sección «Pregúntalle á Academia», en los que distintos miembros de la RAG y personal técnico responden consultas frecuentes de los usuarios y usuarias. Además de su programación periódica en la página de inicio del Portal das Palabras y sus redes sociales, estas minipiezas audiovisuales se emplean como complemento en las respuestas a las consultas lingüísticas siempre que sea pertinente. Hasta hace poco, todos estos vídeos solo estaban disponibles a través del Portal das Palabras, pero ahora también pueden encontrarse en Youtube para aprovechar todo el potencial del segundo sitio web con más tráfico después de Google.6 El equipo del Portal das Palabras está trabajando además para incorporar a los vídeos ya disponibles y a las futuras grabaciones la opción de subtítulos. Otra red social en la que el vídeo toma fuerza es Instagram. Su capacidad de generar tráfico hacia las páginas webs institucionales es muy limitada (no permite compartir hiperenlaces), impone límites estrictos a la duración de los vídeos (máximo 60 segundos) y la extensión de los textos dificulta su gestión, de manera que obliga a elaborar contenidos específicos en los que debe primar la imagen, algo que a priori parece que no encaja bien con la divulgación lin6 Alexa

Internet, Inc. (2020): The top 500 sites on the web, https://www.alexa.com/topsites (consulta 2020-06-24).

10-iolanda fernandez.indd 185

24/11/22 11:45

186

IOLANDA FERNÁNDEZ CASAL

güística. Pero la Real Academia Galega ha decidido que es imprescindible no descuidar una de las redes favoritas de la gente más joven7 y está diseñando una estrategia específica para sacar el máximo provecho a este canal de comunicación primando los contenidos audiovisuales y las creatividades, que también se emplean en las demás redes sociales. Figura 3

La elección popular de la Palabra del Año Uno de los mayores éxitos de la estrategia de la RAG para la divulgación del gallego estándar es la campaña de elección de la «Palabra do Ano», la Palabra del Año, que se escoge por votación popular desde 2014 a través del Portal das Palabras. La elección telemática de la voz que mejor resuma o identifique la realidad, o el deseo colectivo, que de alguna manera marca cada año consta de tres fases. La primera, que se abre a comienzos del mes de diciembre, permite a cualquier persona enviar sus sugerencias al Portal das Palabras. Los términos más repetidos y significativos se someten en la siguiente fase a una votación telemática cuyo resultado se anuncia el 27 de diciembre con una muy buena recepción mediática que suele servir de ocasión para proyectar en los medios de comunicación otras cuestiones e ideas de interés para el idioma.

7 Reuters Institute for the Study of Journalism (2019): Reuters Institute Digital News Report, 2019, https://reutersinstitute.politics.ox.ac.uk/sites/default/files/inline-files/DNR_2019_FINAL. pdf (consulta: 2020-06-24).

10-iolanda fernandez.indd 186

24/11/22 11:45

LOS RECURSOS DIGITALES Y LA PROYECCIÓN DEL GALLEGO EN LA RED

187

En 2019 la palabra elegida fue sentidiño, una forma propia del gallego para denominar el sentido común, quizás como reivindicación de este valor ante distintos desafíos que marcaron ese año. Compitió con otras cinco finalistas: quecemento global (calentamiento global), feminicidio, narcosubmarino, ecocidio y negociación. En las ediciones anteriores las ganadoras fueron deseucaliptización, que refleja la preocupación social que suscita el predominio del eucalipto en el monte gallego; afouteza, palabra patrimonial que se refiere a la disposición de quien actúa sin temor, durante meses una de las más buscadas en el Diccionario tras ser recuperada para el uso popular en una campaña del Celta de Vigo; irmandade, coincidiendo con el centenario de las Irmandades da Fala, organización pionera en la reivindicación del uso del gallego en todos los contextos; refuxiados/as y corrupción. Los medios de comunicación La elección de la Palabra do Ano es un buen ejemplo para recordar que la creciente importancia de las redes sociales no debe llevar al descuido de otras vías clásicas para la difusión de cualquier tipo de contenido, también el dedicado a la divulgación del estándar de un idioma. Los medios de comunicación, tradicionales y nativos digitales, son aliados que deben procurarse. Mediante notas de prensa, la gestión de entrevistas o estableciendo convenios como el que la Real Academia Galega firmó en 2018 con un canal de la TDT gallega, Nós Televisión, que emite los vídeos del Portal das Palabras a diario, justo antes del informativo de la noche. Con frecuencia no es fácil que los medios demuestren mucho interés por los contenidos puramente lingüísticos. Más allá de la campaña de la Palabra do Ano, lo que suele llamar más su atención son las innovaciones tecnológicas de herramientas como el Diccionario, no su contenido, pero la RAG envía a las redacciones desde hace un tiempo balances periódicos de sus actualizaciones que, en función de las palabras incorporadas y destacadas, parte de los medios suelen recoger. Tergal En el terreno de los lenguajes de especialidad y de la estandarización de los neologismos, la Academia edita distintos vocabularios y diccionarios terminológicos dentro del proyecto Termigal, nacido en 1997 al amparo de un convenio firmado por la institución y la Xunta de Galicia, y que se desarrolla

10-iolanda fernandez.indd 187

24/11/22 11:45

188

IOLANDA FERNÁNDEZ CASAL

en colaboración con el Centro Ramón Piñeiro para a Investigación en Humanidades8. Estas obras están disponibles en PDF en la Red y existe una aplicación de búsqueda de términos ya aprobados por la RAG, aunque puede que aún no incorporados al Diccionario. Este banco de datos terminológicos, Tergal, está especialmente centrado en el léxico de los campos científicos y técnicos y ofrece, junto a las denominaciones gallegas recomendadas, los equivalentes de cada concepto en otros idiomas. Una nueva web con más recursos La Real Academia Galega está trabajando en el diseño de una nueva página web adaptada a todo tipo de dispositivos móviles, pero el cambio no se limitará a esta necesaria actualización tecnológica. El portal se dotará de un micrositio que presentará de una forma más atractiva y ordenada los recursos de divulgación lingüística de la institución, tanto para especialistas como para el público general. Entre las novedades, se prevé la puesta en marcha de un repositorio con las respuestas a las dudas más frecuentes que permita compartirlas por separado mediante su propio enlace. Esta solución también se podría extender a las Normas ortográficas, en estos momentos disponibles en PDF, un formato útil para ciertos usos, pero poco funcional para otros. Habrá que determinar además cómo se integrará en este espacio la Gramática da lingua galega, que presentará próximamente el Seminario de Gramática de la Academia; y, el diccionario bilingüe castellano-gallego digital, un trabajo del Seminario de Lexicografía ya muy avanzado que mejora y actualiza el Diccionario castelán-galego que la RAG editó en papel en 2004. El valor de la toponimia La Real Academia Galega estrenó a finales de 2019, en colaboración con la Xunta de Galicia, la aplicación Galicia Nomeada9 para la recogida colaborativa y la difusión de microtopónimos a través de la geolocalización. En menos de dos meses, los usuarios y usuarias dados de alta introdujeron en la plataforma más de 4.000 topónimos de montes, fincas, fuentes e incluso rocas de la costa localizados en 140 de los 313 ayuntamientos de Galicia, un trabajo colectivo de 8 Sitio

web de Termigal, https://www.cirp.es/w3/proxectos/proxecto-termigal.html. de escritorio de Galicia Nomeada disponible en https://galicianomeada.xun-

9 Versión

ta.gal/.

10-iolanda fernandez.indd 188

24/11/22 11:45

LOS RECURSOS DIGITALES Y LA PROYECCIÓN DEL GALLEGO EN LA RED

189

gran valor que demuestra el interés ciudadano por la preservación del gran patrimonio inmaterial que atesora Galicia en este terreno. La experiencia permite además restituir las formas gallegas deturpadas, ya que todos los nombres de lugares son verificados por el equipo técnico del Seminario de Onomástica de la Real Academia Galega antes de pasar a formar parte del banco de topónimos normalizados de Galicia. La estructura para la recogida de la microtoponimia se completa con una nueva versión de la página Toponimia de Galicia10, que se ha enriquecido con diversas secciones desarrolladas por la Real Academia Galega. En «O Seminario de Onomástica responde», académicos y técnicos de la institución aclaran en pequeñas piezas audiovisuales dudas comunes sobre los criterios aplicados en la normalización de los topónimos o sobre su origen y significado; y en «¿Sabías que...?» se ofrecen píldoras informativas dedicadas a la relación de la toponimia con fraseología y los cancioneros, las etimologías populares y otras historias de interés que esconden los nombres del territorio. Otra línea de trabajo de este seminario, la centrada en la antroponimia, también contará próximamente con dos herramientas de divulgación digital, un diccionario de nombres11 y otro de apellidos gallegos, que se integrarán en la nueva web de la Real Academia Galega. Primavera das Letras Además de academia.gal y portaldaspalabras.gal, la Real Academia Galega cuenta con una tercera página web concebida para el público de infantil y primaria, primaveradasletras.gal. El proyecto, estrenado en 2016, gira en cada edición alrededor de la figura a la que la institución dedica el Día das Letras Galegas, pero aunque su objetivo principal no es la divulgación del gallego estándar también contribuye a ello no solo de manera transversal, sino a través de ciertos juegos interactivos dedicados al léxico u otras cuestiones lingüísticas. Los contenidos de Primavera das Letras ganan año a año popularidad en los centros educativos y en los hogares con niños y niñas. La edición del año 2020, marcada por el confinamiento, registró en los cinco primeros meses cerca de 300.000 páginas vistas. Esta cifra confirma la buena marcha de una iniciativa que comparte, como todas las actividades de la RAG, el deseo que el 10 Disponible 11 Una

10-iolanda fernandez.indd 189

en https://toponimia.xunta.gal/. guía de nombres.

24/11/22 11:45

190

IOLANDA FERNÁNDEZ CASAL

Figura 4

escritor y académico Álvaro Cunqueiro expresó en 1980 en el célebre discurso que inspiró el nombre de esta plataforma web, conocido como «Mil primaveras máis»12. Esas mil primaveras más para el gallego que soñó el maestro Cunqueiro requieren hoy, más que nunca, diversas estrategias en el mundo real. Pero a estas alturas ya no hay duda de que la normalización y la normativización de la lengua gallega necesitan también del mundo virtual. Frente a la amenaza uniformizadora de todo lo digital, cualquier estrategia inteligente debe buscar en él un aliado. Lei 3/1983, do 15 de xuño, de normalización lingüística (http:// www.parlamentodegalicia.es/sitios/web/BibliotecaLeisdeGalicia/Lei3_1983.pdf (consulta 2020-06).

12 Cunqueiro,

Álvaro (1980): «Álvaro Cunqueiro no homenaxe de Vigo», en Encrucillada. Revista Galega de Pensamento Cristián, 22 (1981), pp. 126-127.

10-iolanda fernandez.indd 190

24/11/22 11:45

CONJUGUEUR GASCON : DE L’ACCEPTATION SOCIALE Vincent Rivière Chargé de mission linguistique, Congrès Permanent de la Langue Occitane Membre associé, Axe VAst, CLLE-ERSS UMR 5263, Université Toulouse Jean Jaurès

De nombreuses grammaires établissent des corpus de verbes occitans, avec ou sans leurs variétés dialectales. Ces listes sont très utiles pour l’apprentissage et l’enseignement de la langue. Quand ces ouvrages nous donnent des listes de verbes et une description du système verbal en synchronie, et quelques fois en diachronie, ils ne nous expliquent pas toujours comment se construit ce système verbal occitan. Maurand [Maurand 79: 335] parle de diasystème. La manière de classifier ce système verbal varie selon les auteurs. Elle peut être traditionnelle, comportant trois groupes, comme la classification française, ou innovante avec la prise en compte de la syntaxe, du lexique et de la morphophonologie. Les chercheurs du Congrès Permanent de la Lenga Occitana ont récemment élaboré un conjugueur numérique pour le gascon (www.locongres.org – verb’oc) à destination du grand public. Ce dernier se fondant sur les travaux de Viaut et Bianchi (1995) est une innovation importante dans la mesure où, jusqu’alors, cette variété de la langue occitane n’était pas dotée d’un tel outil. Néanmoins, cette étude avait fait le choix de valoriser une seule partie du domaine gascon, créant ainsi une sorte de modèle parfois peu représentatif : En tenant compte de l’inscription majoritaire de nos choix dans la partie sud et occidentale, nous proposons la forme [Ø] comme modèle principal. […] (Viaut et Bianchi 1995: 48)

11-vincent riviere.indd 191

24/11/22 12:08

192

VINCENT RIVIÈRE

Les auteurs précisent qu’il existe d’autres formes qui seront citées comme formes secondaires. En avant-propos, il est précisé l’objectif de cette étude : Last but not least, nous rappelons que nous avons travaillé, à partir de la spécificité gasconne, dans l’élaboration d’une norme occitane gasconne conçue dans l’esprit d’une communicabilité panoccitane. (Viaut et Bianchi 1995: 15)

Le Conseil des usagers du Congrès Permanent de la Langue Occitane, notamment le réseau Oc’bi a fait émerger des demandes d’usagers, d’enseignants notamment. Les choix proposés dans le conjugueur ne reflètent pas, pour une partie des temps, les grandes tendances de la morphologie verbale gasconne. Un des piliers fondateurs du Congrès Permanent de la Langue Occitane est la valorisation de l’unité dans le respect de la diversité. Quelques ajustements permettront d’être en parfaite adéquation avec ce dernier. Une partie des résultats de cette recherche sera mise en valeur sur la carte toponymique dynamique de la Gascogne : http://mover.osca-oc.org:8080/. 1. Contexte social Le conjugueur languedocien construit à partir des formes de Sauzet a connu un très bel accueil malgré une diversité morphologique réelle, et sert, de fait, de norme. Les ouvrages traitant de la conjugaison languedocienne (Ubaud, Sauzet, Poujade, Taupiac, etc.) reprennent les formes que nous trouvons dans le conjugueur. Table 1 : Diversité morphologique verbale languedocienne Prétérit (3ème pers.)

Conjugueur languedocien

Languedocien Président Congrès (Aveyron)

Languedocien Garonne

Far

faguèt

fèt

fasquèc

Èsser

foguèt

siguèt

fusquèc

La diversité de la morphologie verbale gasconne est très importante avec des variétés aussi étendues géographiquement les unes que les autres. Il n’y a pas, contrairement au languedocien, d’ouvrage de référence qui ait été plébiscité par les usagers. L’essai de synthèse de Viaut et Bianchi (1995) n’a pas eu l’effet

11-vincent riviere.indd 192

24/11/22 12:08

CONJUGUEUR GASCON: DE L’ACCEPTATION SOCIALE

193

escompté alors qu’il s’engageait sur la voie périlleuse de la norme tout en décrivant, à la marge, la diversité. L’ouvrage de Grosclaude et Narioo (1998) relate de façon cohérente la réalité de la diversité du verbe gascon à partir de la littérature et il propose une forme qui pourrait servir de forme principale. Pour les néo-apprenants, ces essais de formes principales peuvent être salutaires, néanmoins, pour les autres, le manque d’un outil qui puisse les aider est identifié. 2. Cadre théorique La classification des groupes verbaux utilisée dans le conjuguer gascon s’aligne sur la proposition de Sauzet (1995) avec trois groupes : • • •

Conjugaison vocalique : -a (–AR) Conjugaison suffixée : -iss-/-igu-/-isc-/-i- (-IR) Conjugaison radicale : (-ER)

Nous avons sélectionné un échantillon de verbes en partie représentatifs des problématiques qui nous ont été soumises. • • • • • • •

cantar [kãnt’a] (chanter) bastir [bast’i] (construire) créser / créder [kr’eze] / [kr’eðe] (croire) véser / véder [b’eze] / [b’eðe] (voir) díser / díder [d’ize] / [d’iðe] (dire) poder [pud’e] (pouvoir) vóler [b’ule] (vouloir) Seule la troisième personne du singulier sera traitée pour des raisons de clarté.

3. Variété des désinences Trois temps sont particulièrement problématiques : le prétérit, le subjonctif présent et le subjonctif passé. 3.1. Prétérit 3.1.1. Consonnes finales Peu importe le groupe, trois cas de figures sont possibles.

11-vincent riviere.indd 193

24/11/22 12:08

194

VINCENT RIVIÈRE

Figure 1 : Consonnes finales du prétérit

De façon régulière sur l’espace géolinguistique – 2/3 du territoire possède une finale : –

11-vincent riviere.indd 194

[t]: zone ouest et nord - quasi similaire au languedocien.

24/11/22 12:08

CONJUGUEUR GASCON: DE L’ACCEPTATION SOCIALE

195

Les paradigmes se construisent avec infixe [r] aux autres personnes comme suit : Cantèri, cantères, cantèt, cantèrem, cantèretz, cantèren –

[k]: zone est et sud-est – typique du gascon

Les paradigmes se construisent très largement sans infixe comme dans la zone sud-ouest. Ceci étant, l’infixe est productif en toulousain, à partir d’une probable reconstruction sur la base de la troisième personne. Cantèc [k] – sourde en position finale Cantègui [V] – sonorisation en intervocalique –

[Ø]: zone sud-ouest

Il n’y a pas de consonne finale dans cette zone, qui représente moins d’un tiers du gascon. Cette absence de finale peut paraître paradoxale, si on compare à la morphologie nominale de la zone. En effet, c’est le sous-dialecte qui a la plus grande tolérance des finales de tout le territoire occitan (cf. Rivière 2018). Seule cette forme est présente actuellement dans le conjugueur. 3.1.2. Voyelles finales La conjugaison suffixée (-IR) et radicale (-ER) offre trois possibilités. – – –

Nord : [y] - dissut Sud-est : [ε] – didèc = voyelle similaire au languedocien La majorité du domaine : [u] – digoc/disoc/dishot/digó La conjugaison vocalique (-AR) offre une possibilité et demie.

– –

L’intégralité du domaine : [ε] – cantèt/cantèc/cantè Concurrence en Béarn : [ε] / [a] – cantè/cantà

Concernant les infinitifs en (-IR), deux types de terminaisons s’opposent, avec ou sans infixe : L’Armanhac et le Toulousain ont un infixe dit incohatif: bastiscoc. Le reste du domaine non: bastic/bastit/bastí. Les formes incohatives présentent la voyelle caractéristique du gascon [u] que l’on retrouve dans la conjugaison radicale: entenoc/entenó/entenot.

11-vincent riviere.indd 195

24/11/22 12:08

196

VINCENT RIVIÈRE

Figure 2 : Voyelles finales du prétérit

11-vincent riviere.indd 196

24/11/22 12:08

CONJUGUEUR GASCON: DE L’ACCEPTATION SOCIALE

3.2.

197

Subjonctif présent

Ce temps ne présentant pas de consonnes finales, nous étudierons exclusivement les voyelles finales. –

Conjugaison vocalique : deux zones sont nettement identifiées [i] – [e]. Figure 3 : Voyelles finales du subjonctif présent des verbes en (-AR)

11-vincent riviere.indd 197

24/11/22 12:08

198

VINCENT RIVIÈRE

• •

canti – cante : La zone en [i] a, de fait, une seule forme pour la première personne du présent de l’indicatif, du subjonctif primaire et la troisième de ce même temps. Conjugaison radicale (-ODER, -LER) : deux possibilités [i] – [] : posqui – posca / valhi - valha Figure 4 : Voyelles finales du subjonctif présent des verbes en (-ER)

11-vincent riviere.indd 198

24/11/22 12:08

CONJUGUEUR GASCON: DE L’ACCEPTATION SOCIALE

199

La zone en – i correspond quasiment à celle de la conjugaison vocalique, hormis la zone bordelaise. •

Conjugaison radicale (-EDER/ESER, -ER) : trois possibilités [i] – [] – [j] : veja/vesi/védia Figure 5 : Voyelles finales du subjonctif passé

11-vincent riviere.indd 199

24/11/22 12:08

200

VINCENT RIVIÈRE

Cette fois-ci, le traitement de la zone bordelaise correspond à la conjugaison vocalique. Par contre, une semi-voyelle épenthétique est présente dans la zone béarno-bigourdane, et cette dernière peut-être plus étendue pour certains verbes. 3.3. Subjonctif passé 3.3.1. Voyelles finales Trois zones se dessinent à tous les groupes : [si] – [se] – [s]. Hormis le Couserans, les voyelles sont similaires à celles du subjonctif présent au sein des conjugaisons vocaliques (cante-canti), avec un infixe consonantique. 3.3.2. Voyelles initiales quand désinence bissyllabique Les conjugaisons suffixées et radicales connaissent trois traitements [y] – [u] – [ε]. Cela correspond à celui du prétérit pour lequel nous retrouvons les mêmes voyelles, dans les mêmes zones, ce qui conforte une construction désinentielle fondée sur ce temps : dissusse - digosse - didessa. Les formes courtes et longues suivront ainsi les formes du prétérit. 4. Répartition thématique

11-vincent riviere.indd 200

24/11/22 12:08

CONJUGUEUR GASCON: DE L’ACCEPTATION SOCIALE

201

De nombreux verbes n’ont qu’une forme de thème à tous les temps. En particulier tous les verbes qui proviennent de la forme latine –are. Mais certains sous-dialecte, tel le béarnais, ont également des conjugaisons radicales de ce type : créder, véder, etc. Six verbes permettant d’ébaucher un modèle : Tables 2-3-4-5-6-7

11-vincent riviere.indd 201

24/11/22 12:08

202

VINCENT RIVIÈRE

Deux niveaux d’opposition possibles caractérisent l’organisation languedociano-provençale. Nous appellerons Thème Languedociano-provençal (TL), le thème possiblement unique, le thème du Présent de l’Indicatif (PI), le thème possiblement commun au Subjonctif et au Prétérit (Pret/ Subj), enfin le thème du Subjonctif présent (Subj I), et celui du Subjonctif passé (Subj II).

11-vincent riviere.indd 202

24/11/22 12:08

CONJUGUEUR GASCON: DE L’ACCEPTATION SOCIALE

203

Modélisation comparative Figures 7-8-9-10 :

Répartition languedociano-provençale TL

PI (1)

Prét/Subj (2)

Prét/Subj II (2)

Subj I (3)

Répartition gasconne en partie commune, mais plus complexe… TG Bazadais

PI (1)

Prét/Subj (2) Prét (1)

PI/Subj (2)

Prét/Subj II (1)

PI/Subj I (2) PI (2)

11-vincent riviere.indd 203

Subj I (3)

24/11/22 12:08

204

VINCENT RIVIÈRE

TG Bordelais/Landes Prét (1)

PI/Subj (2)

Prét/Subj II (1)

PI/Subj I (2) PI (2)

Subj I (3)

TG Couserans

PI (1)

Prét/Subj (2)

Prét/Subj II (2)

Subj I (3)

Les trois sous-dialectes précédents ont en commun, avec l’organisation thématique languedociano-provençale, au-delà le thème unique, le dernier niveau d’opposition à trois thèmes :

11-vincent riviere.indd 204

24/11/22 12:08

CONJUGUEUR GASCON: DE L’ACCEPTATION SOCIALE

• • •

205

Indicatif présent Prétérit/Subjonctif passé Subjonctif présent Figure 11-12

TG Béarnais PI (1)

Prét/Subj (2) PI/Subj I (1)

Prét/Subj II (2)

TG Armagnac et toulousain PI (1)

Prét/Subj (2) PI/Prét/Subj II (1)

11-vincent riviere.indd 205

Subj I (2)

24/11/22 12:08

206

VINCENT RIVIÈRE

Ces deux sous-dialectes n’ont que deux niveaux d’opposition, quand les autres en avaient trois. Pour la zone est (armagnac – toulousain), le thème du subjonctif présent est opposé au reste, alors que pour le béarnais l’opposition se fait entre présent et passé, de chaque mode. Conclusion La variété des désinences est très importante, néanmoins, certaines caractéristiques sont identifiables : • • •

Consonnes finales au prétérit : [t], [k], [Ø] Subjonctif présent : [i], [] Subjonctif passé  

Voyelle initiale : [y], [u], [ε] Voyelle finale : [e], [i], []

Une diagonale, parfois perfectible, se dessine de l’est (Agen), au sud-ouest (Mourenx), notamment au subjonctif. La voyelle [i] est régulièrement présente au nord, alors que ce sera [] et [e] en fonction du temps au sud. Cette diagonale est confortée par la tolérance et la nature des consonnes finales. [t] au nord la diagonale, [k] au sud. Seule la zone sud-ouest n’a pas de finale. De nombreux verbes n’ont qu’une forme de thème à tous les temps. En particulier tous les verbes qui proviennent de la forme latine –are. Jusqu’à cinq niveaux d’opposition sont identifiables. Le Bazadais est la zone qui en compte le plus, la zone Bordelais/Landes, en reprend quatre sur cinq, renforçant encore un ensemble au fonctionnement commun au nord de la diagonale. Les niveaux d’opposition, à un, deux, et trois thèmes du languedociano-provençal sont communs à cette zone, qui en compte deux supplémentaires : • • •

Thème unique Opposition Indicatif présent / Prétérit – Subjonctif Opposition Indicatif Présent / Prétérit - Subjonctif passé / Subjonctif présent

Il est à noter que le Couserans a précisément cette répartition, la plus répandue en occitan.

11-vincent riviere.indd 206

24/11/22 12:08

CONJUGUEUR GASCON: DE L’ACCEPTATION SOCIALE

•

207

Deux niveaux d’opposition échappent à cette répartition. Opposition Prétérit - Subjonctif passé / Indicatif présent – Subjonctif présent

C’est cette opposition que Lafont qualifie d’anormale, elle est commune au Béarnais, qui n’oppose que deux thèmes, tout comme la dernière zone. La diagonale se vérifie une nouvelle fois. La zone Armagnac – Toulousain se caractérise par l’opposition du Subjonctif présent au reste des temps. Malgré une diversité importante des désinences, et une répartition thématique qui n’en est pas bien moins variée, une synthèse non exhaustive peut permettre de rendre compte d’une partie de la réalité des locuteurs. Voici donc une proposition qui pourrait venir en complément du conjuguer gascon. Les formes en couleur sont les propositions de complément, hormis le jaune qui est une forme déjà proposée dont j’ignorais l’existence. Table 8

11-vincent riviere.indd 207

24/11/22 12:08

208

VINCENT RIVIÈRE

Table 9

11-vincent riviere.indd 208

24/11/22 12:08

CONJUGUEUR GASCON: DE L’ACCEPTATION SOCIALE

209

Table 10

11-vincent riviere.indd 209

24/11/22 12:08

210

VINCENT RIVIÈRE

Bibliographie Allières, Jacques (1971): Atlas linguistique de la Gascogne: le verbe, vol. 5. Paris: CNRS. — (2001): Manuel de linguistique romane. Paris: Champion. Boye, Gilles; Bonami, Olivier; Giraudo, Hélène; Voga; Madeleine (2008): Quels verbes sont réguliers en français? Paris: CMLF. Casagrande, Sylvain (2011): L’unité et la diversité des systèmes verbaux en langue d’oc et dans les aires limitrophes : Essai de reconstruction, Thèse de Doctorat, Université de Nice. Gilliéron, J. et Edmont, E. (1968): Atlas linguistique de la France. Bologna: Champion. Grosclaude, Michel (2000). 70 clés pour la formation de l’occitan de Gascogne. Per Noste: La Civada. Grosclaude, Michel et Nariòo, Gilabèrt (1998): Répertoire des conjugaisons occitanes de Gascogne. Per Noste: La Civada. Lafont, Robert (1981): Le verbe occitan. Nîmes: MARPOC, coll. Entradas n° l. Lartigue, Philippe (2004): Le vocalisme du gascon maritime dit gascon «noir», Mémoire de DEA, Université de Toulouse le Mirail. Lassalle, Renaud (2017): Grammaire du parler de la Grande-Lande et du Born. Cressé: Régionalisme Eds. Laurent, Jean-Pierre (2002): Le dialecte gascon d’Aulus. Maas, Utz (1969): «Morphologie du parler occitan de Couzou (Lot) 1», Revue romane 4: 148-182; 5, pp. 55-93. Massoure, Jean-Louis (2001). Le dialecte des vallées de Luz, de Barèges et de Gavarnie, Thèse de Doctorat, Université de Toulouse 2 le Mirail. Maurand, Georges (1979): Mélanges à la mémoire de Louis Michel «Morphologie verbale de l’occitan: Approche d’un diasystème». Montpellier: Société des amis de la faculté de lettres. Puyau, Jean-Marie (2010): Comprendre, parler, lire, écrire le gascon de Chalosse et Tursan. Monein: Éd. Pyrémonde. Ravier, Xavier (1978-1993): Atlas linguistique et ethnographique du Languedoc occidental. Paris: CNRS, 4 vol. (abrev. ALLOc). Riviere, Vincent (2018): Finales en sandhi en aquitanopyrénéen, Copenhague: Congrès mondial de linguistique française, https://www.shs-conferences.org/articles/shsconf/ abs/2018/07/shsconf_cmlf2018_09005/shsconf_cmlf2018_09005.html. Rohlfs, G. (1977): Le gascon: étude de philologie pyrénéenne. Pau: Marrimpouey jeune. [3ème éd.] Ronjat, J. (1930-1941): Grammaire historique des parlers provençaux modernes. Montpellier: Société des langues romanes. Sauzet, Patrick (2016): Savoir conjuguer en occitan. Toulouse: IEO Edicions. Viaut, Alain; Bianchi, André (1995): Fiches de grammaire d’occitan gascon normé. Bordeaux: Presses universitaires de Bordeaux, vol. 1.

11-vincent riviere.indd 210

24/11/22 12:08

DICTIONNAIRES INFORMATISÉS : LES PRATIQUES AU LABORATOIRE ATILF Gilles Souvay ATILF (Analyse et Traitement Informatique de la Langue Française), CNRS (Centre National de la Recherche Scientifique) et UL (Université de Lorraine) [email protected]

1. Présentation L’ATILF (Analyse et Traitement Informatique de la Langue Française) est un laboratoire de recherche en sciences du langage. Cette unité mixte de recherche (UMR 7118) a deux tutelles : le Centre national de la recherche scientifique (CNRS) et l’Université de Lorraine (UL). Il est situé dans le nord-est de la France à Nancy. Le site du laboratoire est à l’adresse . Le laboratoire existe sous ce nom depuis 1981. Il est né dans les années 60 dans le but de réaliser le Trésor de la Langue Française, un dictionnaire de la langue française du 19e et 20e siècle. L’ATILF s’appuie sur une double compétence forte en linguistique et en informatique, qui lui permet de mettre à disposition des chercheurs de nombreux outils en ligne, dont plusieurs dictionnaires et autres ressources de référence dans ses domaines de recherche. Cet article présentera une sélection de ressources lexicographiques produites à l’ATILF avec quelques aspects techniques de leur réalisation et leur environnement informatique.

12-gilles souvay.indd 211

13/12/22 10:30

212

GILLES SOUVAY

2. Ressources informatisées Le ressources informatisées de l’ATILF se déclinent selon trois grands domaines : la lexicographie en ligne, les bases de données textuelles et les outils pour le TAL (Traitement Automatique des Langues). 2.1. Lexicographie en ligne 2.1.1. Des éléments Les dictionnaires en ligne sont une des grandes spécialités de l’ATILF qui a été un des laboratoires pionniers dans le domaine avec le TLFi, la version informatisée du TLF, ouverte en 2002. Par la suite d’autres dictionnaires informatisés ont été réalisés à l’ATILF pour les états anciens du français (langue médiévale) et dans le domaine de l’étymologie française et romane. Ces dictionnaires sont des références non seulement dans leur contenu scientifique mais aussi dans la méthodologie utilisée. En ce qui concerne le contenu scientifique des linguistes spécialistes du domaine au niveau national et international ont contribué à la rédaction des articles. En ce qui concerne la méthodologie, recours à des outils informatiques s’appuyant sur une structuration des données en XML et utilisation d’une plate-forme de diffusion interactive. Sous les termes dictionnaire informatisé ou dictionnaire en ligne se cache un ensemble de réalisations très différentes selon leur implémentation informatique, en terme d’accès au contenu, d’ouverture vers d’autres ressources, en terme d’évolutivité... On peut déjà distinguer les dictionnaires en mode image par opposition aux dictionnaires en mode texte. Pour un dictionnaire en mode image, on prend une photo de chacune des pages, on fait une liste des entrées et enfin on associe à chaque entrée, la première page de l’article. C’est le reflet d’un dictionnaire physique existant, souvent créé avant le développement de l’informatique. Au laboratoire ATILF un exemple de ce type de dictionnaire est la version électronique du FEW (Französisches Etymologisches Wörterbuch) . La communauté des médiévistes utilise le Dictionnaire de Godefroy et sa version image . Ce type de dictionnaire permet de mettre rapidement en accès un ouvrage, avec des coûts en temps de développement réduits, mais en contrepartie les fonctions d’accès au contenu du dictionnaire sont limitées. Pour un dictionnaire en mode texte, on rencontre deux cas de figure. Il y a d’un côté les dictionnaires existants avant le développement de l’informatique,

12-gilles souvay.indd 212

13/12/22 10:30

DICTIONNAIRES INFORMATISÉS : LES PRATIQUES AU LABORATOIRE ATILF

213

il faut les ressaisir, ou les numériser avec des logiciels de reconnaissance de caractères. De l’autre côté, il y a les dictionnaires bénéficiant d’une saisie informatique native. Dans les deux cas, il faudra repérer chaque entrée comme on le fait pour un dictionnaire en mode image. Mais pour les dictionnaires en mode texte, on peut complexifier l’informatisation en repérant la structure et les différents éléments de l’article : entrée, code grammatical, définition, domaine, exemple… On parle dans ce cas de figure de balisage des informations et on utilise le langage XML (Extensible Markup Language). En résumé on a d’un côté les dictionnaires en mode image et de l’autre les dictionnaires en mode texte, structurés ou non. La recherche dans un dictionnaire informatisé est très liée à son implémentation et à la structuration ou non des articles. Pour un dictionnaire traditionnel papier, un seul mode d’accès : l’entrée. Quand on recherche le sens d’un mot, on doit trouver son entrée, en général le singulier pour un substantif, le masculin singulier pour un adjectif, l’infinitif pour un verbe... Pour un dictionnaire informatisé, on peut faire de la même façon, laisser l’utilisateur taper l’entrée mais on peut aller plus loin. Tout d’abord pour la recherche sur l’entrée, on peut gérer la flexion et la variation graphique des mots de manière assistée. On recherche pensée, le dictionnaire va non seulement proposer d’aller consulter le substantif pensée (la fleur ou l’activé psychique) mais aussi le verbe penser, il a supposé que pensée était le participe passé féminin de ce verbe. Pour résoudre informatiquement ce problème, on utilise souvent des listes de mots (des lexiques morphologiques : mot, lemme et flexion du mot). Pour les dictionnaires informatisés en mode texte, on peut rechercher dans le corps de l’article, en plein texte, ou alors si le dictionnaire a été balisé, un mot ou toutes les flexions d’un mot dans un élément de l’article. Exemple de recherche : quelles sont les entrées qui contiennent le mot aimer dans leur définition. On imagine bien que dans un dictionnaire papier, ou un dictionnaire informatisé non balisé on va devoir y passer beaucoup de temps. Une autre force d’un dictionnaire informatisé, c’est qu’on peut combiner facilement plusieurs critères de recherche. Exemple de recherche : trouver tous les verbes du domaine de la botanique. Un dictionnaire en ligne sur internet permet de faire des renvois à d’autres ressources informatisées. Des liens vers d’autres dictionnaires : un dictionnaire spécialisé dans les domaines techniques, dans les régionalismes, un dictionnaire concurrent, un dictionnaire étymologique, un dictionnaire en diachronie. Des liens vers d’autre type de ressources : morphologie, synonymie, concordance dans des corpus textuels… C’est ce que propose le portail lexical du CNRTL (Centre National de Ressources Textuelles et Lexicales), basé à l’ATILF, autour du TLF .

12-gilles souvay.indd 213

13/12/22 10:30

214

GILLES SOUVAY

Une chose que le responsable scientifique du dictionnaire informatisé ne doit pas négliger, c’est l’évolutivité du contenu. Le dictionnaire est-il figé, ou peut-il lui apporter des corrections, ajouter de nouveaux articles ? Peut-il exporter ses données dans un format standard ? Pour faire cette correction, est-il entièrement autonome, ou doit-il attendre la disponibilité du responsable informatique de son projet ? C’est un aspect qu’il ne faut pas négliger, nombre de projets sont freinés voire arrêtés par un informaticien indisponible… Les articles d’un dictionnaire sont illustrés avec des exemples d’utilisation. Va-t-il s’agir d’exemples créés de toute pièce par le rédacteur de l’article, ou vat-il aller les chercher dans la littérature, dans un corpus textuel dédié ? En plus de la constitution du corpus, qui peut s’avérer être une tâche lourde, il faudra prévoir une composante bibliographique. Différents dictionnaires existent à l’ATILF, présentant ou non plusieurs des caractéristiques mentionnées plus haut. En ce qui concerne les dictionnaires développés au sein de l’équipe linguistique historique, ils sont gérés avec une plate-forme possédant les caractéristiques les plus avancées : un dictionnaire en mode texte finement balisé, un moteur de recherche permettant de parcourir la structure, une gestion détaillée de la bibliographie, des corpus textuels associés (Souvay; Renders 2014). 2.1.2. Le Trésor de la Langue Française Le TLF est un dictionnaire du français des xixe et xxe siècles. La rédaction du TLF est terminée depuis 1994 et la plupart des contributeurs ont quitté le laboratoire. Il n’a pas vocation à être mis à jour. Cette ressource, qui ne fait pas l’objet d’une veille lexicographique, est donc close « en l’état ». Il comporte 100 000 mots avec leur histoire, 270 000 définitions, 430 000 exemples issus de la littérature française, ce qui représente environ 350 millions de caractères. Il est publié en version papier en 16 volumes. La version informatisée du Trésor de la Langue Française est appelée TLFi. Il possède une structuration fine des données, les différents éléments de l’article sont balisés (définition, conditions d’emploi, domaines, exemples, source des exemples... Les données du TLF ont été entièrement ressaisies et relues. Des programmes automatiques ont posé les balises qui ont été ensuite vérifiées. Le TLFi est paru initialement en 2012 dans une version cédérom désormais obsolète avec le développement grand public d’internet et la possibilité d’offrir un accès libre au dictionnaire. Deux sites utilisent les données du TLFi, chacun ayant sa propre approche. Tout d’abord la version historique à l’adresse . Elle n’a pas

12-gilles souvay.indd 214

13/12/22 10:30

DICTIONNAIRES INFORMATISÉS : LES PRATIQUES AU LABORATOIRE ATILF

215

évolué depuis son ouverture, les interfaces sont anciennes, pas toujours ergonomiques, mais c’est la plus élaborée pour les recherches en particulier sur la structure, la combinaison de critères… La seconde version via le portail lexical du CNRTL est plus récente du point de vue technologie utilisée, mais tout aussi figée depuis son ouverture, et ne propose que la recherche sur les entrées, avec néanmoins prise en compte de la flexion. Le plus de cette version comme indiqué plus haut, est sa connexion avec d’autres ressources informatisées : morphologie, diachronie, diatopie, synonymie, corpus textuel… 2.1.3. D’autres dictionnaires à l’ATILF Deux grandes orientations sont présentes à l’ATILF, les dictionnaires étymologiques et les dictionnaires en diachronie/synchronie. En ce qui concerne les dictionnaires étymologiques, l’ATILF héberge le FEW (Französisches Etymologisches Wörterbuch). Le FEW écrit par le philologue suisse Walther von Wartburg est le principal dictionnaire étymologique de référence des langues gallo-romanes. La création de l’édition originale du FEW, s’est amorcée en 1922 et achevée en 1967. Il est accessible en mode image à partir des entrées. Un mode texte avec un balisage fin est en cours de réalisation (Renders 2011). Un second dictionnaire de taille plus réduite consiste à mettre à jour la rubrique étymologique du TLFi. Il s’agit du programme de recherche TLF-Étym . Ce dictionnaire contient actuellement 526 notices étymologiques. Le dictionnaire est structuré en XML et en plus de l’entrée, il peut être interrogé sur une sélection de critères. Il est implémenté avec la plate-forme ISIS, qui permet au responsable du projet de gérer le dictionnaire, et le mettre à jour aussi souvent que nécessaire en déposant la version XML des articles qui sont alors immédiatement disponibles (Souvay; Renders 2014). Un troisième dictionnaire qui couvre l’étymologie pan-romane a été développé dans le cadre de projets ANR (Agence nationale de la recherche)/DFG(Deutsche Forschungsgemeinschaft). Il s’agit du DÉRom (Dictionnaire Étymologique Roman). Les articles sont balisés en XML, on peut interroger les entrées et des champs prédéfinis. Comme le dictionnaire précédent, il est implémenté avec la plate-forme ISIS. En ce qui concerne les dictionnaires en diachronie du français, deux principaux ouvrages sont en ligne à l’ATILF. Pour la période Ancien Français, le Dictionnaire Électronique de Chrétien de Troyes (DÉCT) constitue à la fois un lexique complet de cet écrivain du xiie siècle et une base textuelle qui permet de lire ou d’interroger les transcriptions de ses cinq romans (Érec, Cligès, Lancelot ou le Chevalier à la Charrette, Yvain ou le Chevalier au Lion, Perceval ou

12-gilles souvay.indd 215

13/12/22 10:30

216

GILLES SOUVAY

le Conte du Graal). Le second dictionnaire en diachronie concerne la période du moyen français (1330-1500) avec le Dictionnaire du Moyen Français et couvre l’ensemble de la langue. Ils sont construits sur le même modèle : des schémas de définition du balisage proches, un balisage fin des structures des articles ; des recherches possibles dans la structure ; un corpus textuel ayant permis de rédiger les articles ; de nombreux liens vers d’autres ressources lexicales et textuelles. Ils ont été saisis nativement en XML et sont diffusés avec la plate-forme ISIS. 2.2. Corpus textuel : Frantext La base de données textuelle Frantext est une des références dans le domaine des corpus textuels. Initialement créée dans les années 1970 afin de fournir des exemples pour le TLF puis pour le DMF, elle a poursuivi son développement et constitue désormais une ressource linguistique à part entière. Elle est constituée de textes littéraires, techniques, scientifiques pour toutes les périodes de français. En juin 2019 elle comportait 5 415 références. Elle comporte des textes sous droits, d’où un accès contrôlé avec abonnement. Figure 1 : Répartition chronologique par siècle des textes dans Frantext

2.3. Ressources pour le TAL L’ATILF distribue différentes ressources utiles pour les outils du traitement automatique des langues et en particulier des lexiques morphologiques pour

12-gilles souvay.indd 216

13/12/22 10:30

DICTIONNAIRES INFORMATISÉS : LES PRATIQUES AU LABORATOIRE ATILF

217

toutes les périodes du français : Morphalou pour la période moderne et LGeRM pour le français médiéval et le français du XVIIe . Morphalou est utilisé par le CNRTL pour gérer la flexion des entrées et présenter la morphologie des mots. LGeRM est utilisé par le DMF et le DÉCT pour gérer la flexion et la variation graphique des entrées. L’ATILF diffuse aussi les fichiers paramètres pour l’étiqueteur ayant permis d’annoter le corpus Frantext. Modèle Talismane pour textes littéraires en français moderne D’autres ressources sont disponibles, elles sont listées sur le site de l’ATILF . 3. Dictionnaire du Moyen Français Nous allons maintenant présenter le Dictionnaire du Moyen Français et les aspects techniques spécifiques qui ont dû être résolus pour qu’il soit facilement consultable. C’est un des dictionnaires électroniques de référence pour la langue médiévale, et une grande partie de la communauté des médiévistes l’utilise. 3.1. Un dictionnaire informatisé à tous les niveaux La principale difficulté en diachronie est de pouvoir trouver le mot que l’on recherche dans le dictionnaire que l’on consulte. Pour le français contemporain, on maitrise en général la langue, on connaît sa morphologie, il y a peu de variations graphiques, on arrive facilement à trouver l’entrée sous laquelle le mot est traité sans vraiment besoin d’assistance. En ce qui concerne la langue médiévale, on maîtrise beaucoup moins la morphologie et on est surtout confronté à la variation graphique des mots due à l’absence de norme graphique et aux marquages régionaux encore très présents dans les textes, surtout pour les plus anciens. Le problème pour trouver l’entrée correspondant au mot que l’on cherche se pose aussi bien au spécialiste de la langue médiévale qu’à l’étudiant débutant dans l’étude de cette période du français. Quelle entrée (quel lemme) a été retenue pour le dictionnaire ? Pour une forme comme destroict on peut supposer qu’il faut regarder sous le substantif détroit, pour ameroyent, le verbe aimer, c’est d’autant plus facile que les mots existent encore dans la langue contemporaine. En ce qui concerne acormens on est en face d’un mot ayant disparu du français contemporain, en connaissant un peu la morphologie on aurait envie de regar-

12-gilles souvay.indd 217

13/12/22 10:30

218

GILLES SOUVAY

der sous acourment, accourrement ou encore acourement… on a le problème des lettres doublées ou pas. Face à polra, il faut connaître la morphologie verbale pour deviner le verbe pouvoir, mais face à aulter on est un peu démuni avec cette variante régulière du lemme autel. Le choix de la graphie du lemme est aussi un problème pour les rédacteurs du dictionnaire. Pour le mot agneau moderne, une entrée agnel serait tout à fait légitime. L’équipe de rédaction du DMF a choisi initialement de moderniser les graphies des mots anciens pour faciliter la consultation du dictionnaire et essayer de garder une cohérence dans une famille, surtout au niveau des mots disparus. Malheureusement la construction du dictionnaire étape par étape, la durée du projet, l’impossibilité parfois de trancher, les changements de points de vue au cours du temps n’ont pas permis d’être toujours cohérent. La solution retenue pour la consultation informatique du DMF est algorithmique. L’utilisateur tape la forme telle qu’il l’a rencontrée dans le document, sans se soucier de savoir où le mot est rangé dans le dictionnaire. Le mot est lemmatisé à la volée et le DMF propose d’aller consulter une ou plusieurs entrées du dictionnaire. Figure 2 : chercher le mot embache dans le DMF :

12-gilles souvay.indd 218

13/12/22 10:30

DICTIONNAIRES INFORMATISÉS : LES PRATIQUES AU LABORATOIRE ATILF

219

L’informatique est au cœur de l’élaboration du dictionnaire. La conservation des exemples et leur sélection se fait à travers des bases de données textuelles. La rédaction des articles se fait en XML avec un éditeur de texte balise, on n’utilise pas de traitement de texte qui ne permet pas facilement de marquer la structure des articles. La consultation du dictionnaire est assistée par un lemmatiseur. Le DMF est en accès libre à l’adresse . La dernière version est datée de 2015. Il contient 65 720 entrées, 470 125 exemples, soit environ 200 millions de caractères. Cela représente, si on l’imprimait 19 900 pages, soit l’équivalent de 15 volumes du TLF. Les points forts du dictionnaire sont sa bonne couverture de toute l’étendue de la langue médiévale, sa gestion performante de la variation graphique et de la morphologie médiévale, les nombreux liens qui le connecte aux différentes autres ressources médiévales de la communauté (Tobler-Lommatzsch , Anglo Norman Dictionary , The Online Froissart < https://www.dhi.ac.uk/onlinefroissart/>…), et la possibilité à la communauté de connecter le dictionnaire à ses propres ressources à l’aide d’adresses pérennes: pour afficher l’article amer. Figure 3 :

pour analyser le mot amer.

12-gilles souvay.indd 219

13/12/22 10:30

220

GILLES SOUVAY

Derrière les articles du DMF se cache une structure XML qui peut être interrogée via les interfaces du dictionnaire. La structuration ne suit pas les recommandations de la TEI (Text Encoding Initiative). Une première raison est que la première version du DMF est antérieure aux recommandations. Néanmoins s’il y avait besoin, le XML serait facilement transformable. Une seconde raison est que le DMF utilise sa propre plate-forme et n’a pas besoin d’être dans ces normes. Et enfin, il s’avère que le schéma de saisie avait pour but initialement de faciliter la saisie des lexicographes qui sont passés d’une saisie faite avec un traitement de texte par une secrétaire, à une obligation de saisir eux-mêmes les articles prêts à monter. Le DMF est un des tous premiers dictionnaires saisis nativement en XML. Figure 4 : Le balisage de l’article FIEF :

Exemple de requête avancée dans le DMF, rechercher les substantifs utilisés dans le domaine du droit féodal:

12-gilles souvay.indd 220

13/12/22 10:30

DICTIONNAIRES INFORMATISÉS : LES PRATIQUES AU LABORATOIRE ATILF

221

Figure 5 :

3.2. LGeRM : le point d’entrée du DMF LGeRM est l’outil de lemmatisation qui permet de consulter le DMF. LGeRM est l’acronyme pour Lemmes, Graphies et Règles Morphologiques www.atilf.fr/LGeRM (Souvay; Pierrel 2009). 3.2.1. Architecture générale du lemmatiseur On fournit un mot à un analyseur. Il utilise un lexique de formes connues et des règles morphologiques et de variations graphiques pour proposer des hypothèses de lemme pour le mot. Figure 6 :

12-gilles souvay.indd 221

13/12/22 10:30

222

GILLES SOUVAY

L’analyseur est un programme informatique. L’algorithme est plutôt simple. Si le mot est dans le lexique, il propose les analyses (les lemmes) connues pour ce mot. Si le mot n’est pas dans le lexique, il applique des règles de transformation du mot pour trouver un mot présent dans le lexique. Il faut un mécanisme d’arrêt du système pour éviter de boucler, pour éviter d’appliquer trop de règles et une stratégie de gestion des formes produites, en effet beaucoup de règles peuvent s’appliquer sur un mot. La couverture du lexique est suffisante pour en général proposer la bonne hypothèse à l’utilisateur du DMF. Néanmoins, si ce dernier n’est pas satisfait de la réponse, il peut demander au DMF de proposer de nouvelles hypothèses sur les mots connus. Cela corrige éventuellement les lacunes du lexique si le lemme est présent dans le dictionnaire. Figure 7 : LGeRM connaît deux lemmes pour la forme amer.

Figure 8 : La forme pollra n’est pas dans le lexique, mais LGeRM propose le lemme pouvoir :

Figure 9 :

12-gilles souvay.indd 222

13/12/22 10:30

DICTIONNAIRES INFORMATISÉS : LES PRATIQUES AU LABORATOIRE ATILF

223

La forme bruyt est connue avec les lemmes bruit et bruire. En forçant LGeRM à appliquer les règles, il peut proposer en alternative le lemme bruir. 3.2.2. Le lexique Le lexique LGeRM est une liste de triplets (forme, lemme, code grammatical). Exemples de triplets : (amer, aimer, verbe) (amer, amer, adj.) (amera, aimer, verbe) Les codes grammaticaux sont ceux des lemmes du DMF. Ils sont utilisés par les règles qui sont liées à la morphologie. Le lexique s’est construit et enrichi au fur et à mesure du développement du DMF. Les articles étant balises il était facile d’extraire une première liste de triplets. Par la suite des compléments ont été faits, très peu par procédures automatiques, mais plutôt en exploitant les formes présentes dans les corpus textuels, dans les différents textes traités par le lemmatiseur lors de collaborations formelles ou informelles avec des éditeurs de textes. Le lexique s’appuie donc sur des corpus textuels, plus spécifiquement Frantext, des formes réellement attestées dans les textes. En août 2019, le lexique comportait environ 975 500 entrées. 3.2.3. Les règles Il existe deux grandes familles de règles : les règles portant sur la morphologie, flexion des mots et les règles portant sur la variation graphique. Un ensemble initial de 200 règles a été défini en s’appuyant sur les travaux réalisés dans le cadre d’un DEA Analyse de textes de moyen-français (Souvay 1986). Cet ensemble ne contenait aucune règle sur la morphologie verbale. Lors de l’ouverture du DMF, il a donc été nécessaire de compléter cet ensemble initial. Par la suite chaque mot demandé au DMF qui n’était pas correctement reconnu, chaque texte traité par le lemmatiseur, a permis d’ajouter de nouvelles règles. Actuellement encore de nouvelles règles sont ajoutées, très souvent des cas particuliers de variantes spécifiques à un mot, à une graphie régionale ou plus spécifique à l’ancien français. En tout, il y a environ 6 500 règles, dont les trois quarts portent sur la flexion verbale et sa variation. La structure générale d’une règle est de la forme « si des conditions sont remplies alors on effectue une action » : si conditions alors action finsi.

12-gilles souvay.indd 223

13/12/22 10:30

224

GILLES SOUVAY

Les règles peuvent s’appliquer sans condition. Les conditions portent sur le graphème du mot : l’initiale, la finale, les caractères qui entourent le graphème (précédé de, suivi de, liste de lettres, d’une consonne, d’une voyelle, sauf…). Les conditions peuvent porter sur le lemme résultat (son initiale, sa finale, une liste de lemmes…). Enfin une condition de succès ou non de la règle : si une règle peut s’appliquer sur un mot, on ne l’applique effectivement que s’il y a une solution, cela permet de réduire le champ d’exploration du lemmatiseur sur des règles qui s’appliqueraient trop souvent. En ce qui concerne les actions, on peut supprimer le graphème ou transformer le graphème en une autre suite de caractères. Table 1 : Exemples de règle sans condition Y®I

fayre® faire, FAIRE

modernisation

C®SS

mesfacent ® mesfassent, MÉFAIRE

équivalence graphique

OUN®ON

mount ® mont

variante anglo-normande

Pour ce qui traite de la flexion, la première approche serait d’essayer de retrouver l’infinitif du mot. Il existe en effet des règles de cette nature. Mais compte tenu de la variation sur la base, il nous a semblé plus pertinent de créer des règles de transformation de la personne, du genre, du nombre… Table 2 : si en finale alors ES®EF finsi

nes®nef, NEF

flexion des lemmes en –EF

si en finale alors ERA®ER finsi

amera®amer, AIMER

infinitif pour IF3S (indicatif futur 3ème personne du singulier)

si en finale alors RONT®RA finsi

menront®menra, MANER

passage de IF3P à IF3S

si en finale et précédé de [D, T, V]alors ERAI®RAI finsi

ponderai®pondrai, PONDRE

variation de la flexion

Les règles sont utilisées pour pallier les lacunes du lexique. Il semble impossible, tant la variation est grande, d’établir un lexique exhaustif de toutes les formes médiévales. Toute la variation graphique est contenue dans les règles. À

12-gilles souvay.indd 224

13/12/22 10:30

DICTIONNAIRES INFORMATISÉS : LES PRATIQUES AU LABORATOIRE ATILF

225

titre d’exemple, si l’on voulait décrire la flexion et variation du lemme connaissance, on obtiendrait une expression régulière ressemblant à : [c|k|q][o|oi|e|oei][n|nn|gn|ngn][oi|ai|i|ioi|e|oe][s|ss|sc|sç|ç|c][i]?[en|an|ã| ẽ] [s|ss|c|sc|ç|ch][e][sz]? Il y a 55 formes identifiées dans les corpus médiévaux de l’ATILF : cognescence cognissance cognissanche cognoeissance cognoiscences cognoisçance conaisanche congnioissance congnoessance connissanche conoissances cougnoissance… L’objectif de LGeRM est d’identifier toutes les variations et flexions d’un lemme connu. Il n’est pas un outil figé. Il s’enrichit en permanence de nouvelles formes, de nouvelles règles, voire de nouveaux lemmes. L’outil est disponible sur demande pour des tests, un travail est en cours pour le rendre distribuable plus largement. Il existe une version en ligne limitée à quelques mots accessible depuis le DMF. Enfin il est utilisable via une plate-forme de lemmatisation qui permet de traiter les éditions nouvelles ou anciennes numérisées que la communauté continue de produire. Il s’avère être un bon relecteur pour les erreurs d’océrisation ou de saisie, un outil pratique pour établir le glossaire d’une édition, et un bon moyen de diffuser un texte lemmatisé et étiqueté. Le lexique est distribué librement sous licence Creative Common. Deux versions sont disponibles, une version focalisée sur le français médiéval et une seconde focalisée sur le français du xviie . 4. Conclusions L’ATILF a une expertise dans la création de ressources et dans leur mise à disposition sur internet et plus spécialement en lexicographie informatisée. Elle diffuse des dictionnaires traitant de la langue moderne ou sur l’histoire de la langue, diachronie et étymologie. Elle a produit des outils de référence qu’elle ouvre et diffuse largement pour les linguistes en lexicographie, corpus textuels ou traitement automatique de la langue. Sites internet cités Site du laboratoire ATILF : . Französisches Etymologisches Wörterbuch en ligne : . Portail lexical du Centre National de Ressources Textuelles et Lexicales : .

12-gilles souvay.indd 225

13/12/22 10:30

226

GILLES SOUVAY

Trésor de la langue française informatisé : . Dictionnaire de l’ancienne langue française et de tous ses dialectes du ixe au xve siècle, Frédéric Godefroy, 1880-1895 : . Le programme de recherche TLF-Étym : . Dictionnaire Électronique de Chrétien de Troyes : . Dictionnaire du Moyen Français (1330-1500) : . Base de données textuelle Frantext : . Lexique morphologique Morphalou : . Lexiques morphologiques LGeRM : . Modèle Talismane pour textes littéraires en français moderne : . Dictionnaire électronique en ligne Tobler-Lommatzsch : . The Anglo-Norman On-Line Hub : . The online Froissart : . Plate-forme de lemmatisation LGeRM : .

Bibliographie Renders, Pascale (2011): Modélisation d’un discours étymologique. Prolégomènes à l’informatisation du Französisches Etymologisches Wörterbuch. Thèse de Nancy-Université et Université de Liège. Souvay, Gilles (1986): Analyse de textes de moyen-français. Rapport de Diplôme d’Études Approfondies. Centre de Recherche en Informatique de Nancy. Université de Nancy I. Souvay, Gilles; Pierrel, Jean-Marie (2009): LGeRM : lemmatisation des mots en moyen français. Traitement Automatique des Langues, vol. 50, n.º 2, . Souvay, Gilles, Renders, Pascale (2014): « Traitement informatique du DÉRom », en Eva Buchi et Wolfgang Schweickard (eds.), Dictionnaire Étymologique Roman (DÉRom). Genèse, méthodes, résultats.

12-gilles souvay.indd 226

13/12/22 10:30

IV EUSKARAREN ESTANDARIZAZIORAKO INGURUNE DIGITALAREN BALIABIDE LINGUISTIKO ETA SOZIALAK RECURSOS LINGÜÍSTICOS Y SOCIALES PARA LA ESTANDARIZACIÓN DEL EUSKERA RESSOURCES LINGUISTIQUES ET SOCIALES DE L’ENVIRONNEMENT NUMÉRIQUE POUR LA STANDARDISATION DE LA LANGUE BASQUE LINGUISTIC AND SOCIAL RESOURCES FOR THE STANDARDIZATION OF BASQUE

13-ainhoa arregi.indd 227

15/11/22 13:23

13-ainhoa arregi.indd 228

15/11/22 13:23

EUSKARAREN OSASUNA INGURUNE DIGITALEAN: ARIKETA TXIKI BAT Ainhoa Arregi Saratxo (UZEI) [email protected]

1. Sarrera Euskaltzaindiaren sorreraren mendeurrenaren harira antolatutako jardunaldi-sortako azkena da «Ingurune digitala, hizkuntzen estandarizazioa eta euskara» izeneko hau. Jardunaldi honen helburuen artean dago euskararen estandarizazioa nola bizkortu eta horren zabalkunde eraginkor bat nola egin pentsatzea. Akademiek egin ohi duten bezala, Euskaltzaindiak arauak ematen ditu, eta arau horiek tresna egokiak dira normalizaziorako, Euskaltzaindiaren autoritateari euskaldunok zor diogun aitortzagatik. Baina egia da arauen inplementazio hori ez dela beti egin edota ez dela beti behar den moduan egin. Bada, euskararen normalizazioan aurrera egin nahi badugu, denon ardura izango da horretan laguntzea. Horretarako, gainera, ingurune digitalak ematen digun berehalakotasuna eta azkartasuna baliatu beharko genituzke. Eginkizun handi horretan, baina, elkarlana ezinbestekoa da, azken batean, zabalkunde hori egitea euskalgintza osoaren ardura eta lana dela uste baitugu. Saiatuko gara, bada, gaia testuinguruan kokatzen eta euskara estandarra ingurune digitalean zertarako, zenbat eta nola erabiltzen den aztertzen.

13-ainhoa arregi.indd 229

15/11/22 13:23

230

AINHOA ARREGI SARATXO

2. Euskara ingurune digitalean: zertarako, zenbat eta nola Artikulu laburra izanik, argi dago azterketa txiki hau azalekoa izango dela, inondik ere ez sistematikoa, baina aurkezpen honen helburu nagusia aspalditik buruan daukagun kezka bat mahaigaineratzea da. Eta horretarako edo, nahiago bada, horren erakusgarri, ariketa txiki bat egin dugu, gure tresnak erabiliz. Batez ere, gogoetarako aprobetxatu nahiko genituzke gaur aipatuko ditugunak. Hortaz, has gaitezen: Zertarako erabili euskara ingurune digitalean? Galdera horri behar bezala erantzuteko, ingurune digitala zer den edo noraino zabaltzen den mugatu beharko genuke. Baina askotan aipatu den bezala, gaur egun ingurune digitala mundua bera da, edozein zereginetan sarea baitugu lagun eta lanabes. Are gehiago, sarean egotea ezinbestekoa da hizkuntza baten iraupena nolabait bermatzeko. Beraz, euskarak iraungo badu, hor egon behar du. Beste aukerarik ez dugu. Presentzia hori bermatzeaz gain, uste dugu ingurune digitalean egoteak euskara bera indartzen duela. Hizkuntzaren teknologiek euskara hobetzen, egokiago erabiltzen lagun baitiezagukete, orain arte ez bezala. Oso aurreratua dugun estandarizazio hori finkatzen lagun dezakete, hau da, araututakoaren zabalkunde egokia egiten, arau horiek ezartzen eta barneratzen. Eta, gainera, oraindik arautu gabeko alderdi lexikoari, gramatikalari edota sortzen doazen premia berriei erantzuna ematen ere lagun dezakete. Izan ere, informazio-masa handiak, corpusak, prozesatzeko eta lantzeko moduak eskaintzen zaizkigu hizkuntza-teknologien bidez. Hortaz, tresna horiek abantaila estrategikoak dira, eta, zalantzarik gabe, aprobetxatu beharrekoak. Gatozen orain mundu digitalean zenbat euskara dagoen aztertzera. Horretarako, onena dugu eskura ditugun adierazleei erreparatzea. Azken urteotan asko hitz egin da adierazleak definitu, neurtu, aztertu eta lantzeko beharraz. Diagnostiko zehatza egin aurretik ahalik eta datu gehien bildu beharraz, alegia. Langintza horretan dihardugu Euskal Herrian ere, eta egin dira hurbiltze-saio batzuk, baina oraindik hobeto definitzea eta fintzea falta da. Argi dago hori egin beharra dagoela, eta, gainera, aldiro-aldiro egin beharko dela; kaleko erabileraren inguruko neurketak egiten diren bezala, eta, seguruenik, maiztasun berarekin. Kaleko erabilera aldatu egiten da sarri, eta aldaketa horien zergatia edota ondorioak aztertzen diren bezalatsu, ingurune digitalean euskarak duen presentzia ere neurtzekoa eta aztertzekoa izango da. Inguruko erabilera-eremu urriko beste hizkuntza batzuek horri heldua diote aspaldi, eta horietako batzuek neurketa eta azterketa horien berri ematen dute sarean, bai eta modu txukunean eman ere. Horretarako katalanei begiratzea baino ez dugu. PuntCAT fundazioaren behatokiak landu ditu adierazle horiek.

13-ainhoa arregi.indd 230

15/11/22 13:23

EUSKARAREN OSASUNA INGURUNE DIGITALEAN: ARIKETA TXIKI BAT

231

1. irudia: PuntCAT fundazioaren webgunea.

Egia da katalanaren egoera ez dela euskararena bezalakoa; askoz ere erabiltzaile gehiago ditu eta zabalduago dago, baina erreferentzia gisa balio lezake. Esan bezala, PuntCAT fundazioaren webgunean agertzen zaigu katalanari buruzko informazio xehatua. PuntCAT domeinuaren zabalera, hazkundea eta eboluzioa (baita mundu mailan ere). Katalanak Interneten duen presentzia, tresnak, aplikazioak… hainbat eta hainbat datu ageri dira. Katalanak ulermenaren unibertsalizaziotik hurbil egon arren, erabilerak, erronkak, aukerak eta arriskuak

13-ainhoa arregi.indd 231

15/11/22 13:23

232

AINHOA ARREGI SARATXO

aztertzen eta ebaluatzen jarraitzen dute etengabe. Hurbiltze-saio bat baino gehixeago dela esan liteke. Adierazle horiek behar bezalako zehaztasunez aztertzea eta neurtzea nahitaezkoa izango da gurean ere, arriskuak detektatu eta horiei aurre egiteko estrategiak planteatzeko. Gaurkoan, zortzi adierazle aipatu nahi ditugu. Euskararen adierazleak Euskarak eta euskal kulturak Interneten duten adierazleetako bat .eus domeinua1 da. 2019ko ekainean plazaratutako datuen arabera, bost urtetan 10.000 domeinu gainditzetik gertu izatera iritsi da. Euskal domeinua ez da bakarrik kultura arloan zabaldu, administrazioaren, enpresa-munduaren eta merkataritzaren bultzada ere jaso du, eta hori urrats handia da, azken finean, euskal komunitatearen erakusleiho bihurtzea baita erronka. 2. irudia: PuntuEus fundazioaren webgunea

1 Puntu eus fundazioa: https://www.domeinuak.eus/eu/domeinuari-buruz/fundazioa/ [Kon-

tsulta 2019ko ekaina].

13-ainhoa arregi.indd 232

15/11/22 13:23

EUSKARAREN OSASUNA INGURUNE DIGITALEAN: ARIKETA TXIKI BAT

233

Domeinuaren erabilera datu pozgarria izanik ere, gauza jakina da .eus izate hutsak ez duela ziurtatzen euskarazko edukirik izatea delako webgune horrek. Gainera, eta gaurko gaiaren muinera etorrita, euskara nola erabiltzen dugun jakitea garrantzitsua da ere, ez bakarrik zenbat erabiltzen dugun. Kantitatea kontuan hartzekoa da, jakina, baina askotan automatikoki lotzen da kantitatea hizkuntzaren osasunarekin, eta uste dut kalitatea, hots, zuzentasuna eta egokitasuna ere zaintzeko modukoak direla, zalantzarik gabe, osasunaz ari garenean. Esan nahi da, erabiltzen dena nolakoa den aztertzekoa ere badela. Beraz, gure hizkuntza biziko bada, besteak beste, sarean erakusten duen osasunaren arabera izango da. Etorkizuna gure gazteak badira, ohar gaitezen lehenbailehen gazte horien mundua guztiz dela digitala; egiten, kontsultatzen, entzuten, bizi duten gehiena, guztia ez bada, sarean dago. Telebista ere ez dute ikusten ohiko kateetan, baizik eta sarean, nahieran (Netflix, HBO bezalako plataformetan). Belaunaldi berriek sarea dute erreferentzia nagusia (YouTube, Instagram); horregatik da ezinbestekoa hor egotea. Baina presente egotea ez da aski gazteek erabil dezaten: erakargarria izan behar du, erraza, eta euskarazko produktuak jostagarriak, haien interesekoak behar dute izan, erabiliko badituzte. Eta, berriro ere, erraztasun hori lortzeko ezinbesteko bitartekoak dira hizkuntzaren teknologian oinarritutako tresnak. Ez dugu ahaztu behar ikasteko eta irakasteko moduak ere aldatu direla. Entziklopediak izan dira tradizionalki ikasleek erabili duten kontsultagune nagusietako bat, eta hala izaten jarraitzen dute. Gaur egun, ordea, paperezko entziklopedien ordez sareko informazioa da ikasleek bilatzen eta baliatzen dutena. Horretarako, edo horregatik, nahi bada, sortu zen Wikipedia2. Eta horregatik behar genuen guk ere Wikipedia euskaraz egotea. Azken datuen arabera (2019ko ekainekoak) Euskarazko Wikipediak 29. lekua hartu du mundu-mailan. 2017an 32. hizkuntza zen euskara (mailaketa horretan artikulu-kopuruari begiratzen zaio), baina orain 29. lekuan jartzea lortu da. Euskarazko Wikipediak 30 milioi bisita izan omen zituen 2018an. Euskaltzaindiaren hiztegiak, berriz, 1.261.585 bisita. Gogoan hartzeko moduko datuak dira horiek. Wikipediak askoz ere bisita gehiago ditu Euskaltzaindiaren beraren hiztegiak baino. Beraz, jendeak erreferentziatzat hartu duen horrek zaindu beharko du, ezinbestean, eskaintzen duen edukiaren kalitatea. Gazteak natibo digitalak direla esan dugu, baina gainerako herritar guztion mundua ere gero eta digitalagoa da. Administrazioarekin dugun harremana ere guztiz digitalizatzeko bidean da. 2 Euskarazko

Wikipedia: https://eu.wikipedia.org/wiki/Euskarazko_Wikipedia_(webgunea) [Kontsulta: 2019ko ekaina].

13-ainhoa arregi.indd 233

15/11/22 13:23

234

AINHOA ARREGI SARATXO

Euskal Autonomia Erkidegoko webgune ofizial gehienek euskarazko bertsioa eskaintzen dute: Eusko Jaurlaritzak, Osakidetzak, udalek eta gainerako erakundeek. Nafarroan eta Ipar Euskal Herrian ere badira batzuk, baina gorabeheratsua da egoera. Oro har, nahiko txukun ageri dira horien egitura nagusiak, baina zenbait webgunetan oso azalekoa da (izenburu nagusiak besterik ez, eta gainerakoa erdara hutsean), eta beste zenbaitetan hala moduzko itzulpen automatikoa erabiliz egin da euskarazko bertsioa (Espainiako Gobernuaren webgunea, adibidez) eta ulergaitza egiten da maiz. Horrez gain, badira behin eta berriz errepikatzen diren arazo batzuk. Gogora dezagun garai batean oso ohikoa izan zela Osakidetzako «aurretiko zita» (sic) eskatzerakoan data euskarazko formatuan ez onartzea. Gerora zuzendu zuten, zorionez. Horrelako doikuntzak eta zuzenketak etengabe egin beharko dira, baina susmoa dugu erabiltzaileen kexuen ondoriozkoak izaten direla gehien-gehienetan. Horregatik aipatu behar da behin eta berriz presio sozialaren eraginkortasuna eta beharra. Natibo digitalak izan ala ez, gu guztion arteko harremanak edo komunikazio informalak gero eta gehiago egiten ditugu sare sozialen bidez. Gure aurreko belaunaldiek, euskaraz baino hitz egiten ez zuten askok ere, idatziz komunikatu behar zutenean, erdarara jotzen zuten, euskaraz alfabetatuta ez zeudelako. Eremu digitalean ere ez ote zaigu horrelako zerbait gertatzen ari? Oraingo euskaldun gehienak alfabetatuta edo alfabetatze-bidean gaude, baina erabiltzen ditugun gailuak ez: behintzat, nekezagoa gertatzen da euskarari eustea, gailu mugikorren idazkera prediktiboak etengabe erdarara bultzatzen gaituenean. Zer esanik ez, gailuak euskara ulertzen ez badu. Askotan, baina, gure esku dago euskarazko konfigurazioa lehenestea. Mila aldiz aipatutako kontua da, baina egiten ez badugu, erraldoi teknologikoek ez dute gure hizkuntza aintzat hartuko. Nolanahi ere, euskal komunitate moduko bat osatu da sare sozial horietan, Twitterren, Facebooken zein Instagramen. Erabiltzaileek euskarazko parte-hartzea beste hizkuntza batzuekin tartekatzen dute, baina aitortu behar da badirela nahiko aktibo diren txiolari batzuk eta erreferentziazko bihurtu direla. Banako horiekin batera enpresak eta elkarteak sare sozialetan presente egotearen garrantziaz ohartu dira, eta sarri-sarri hartzen dute parte sarean (Euskaltzaindia dugu horren adierazgarri). Bide horiek erraztu egiten dute komunikazioa, eta erabiltzaileekiko hurbiltasuna eta eskuragarri egotearen sentsazioa eskaintzen dute. Aipatutako ezaugarriez gain, berehalakotasuna ematen duen bidea da. Eta hori baliatu behar da, erabiltzaileek gero eta gehiago eskatzen eta eskertzen dutelako azkartasuna. Beste adierazle sendo bat komunikabideek osatzen dute.

13-ainhoa arregi.indd 234

15/11/22 13:23

EUSKARAREN OSASUNA INGURUNE DIGITALEAN: ARIKETA TXIKI BAT

235

Komunikabide gehienek sarera egin dute jauzi. Zalantzarik gabe, guztien artean Berria egunkaria nabarmendu behar da. Euskarazko egunkari nazional bakarra da, eta osorik argitaratzen da euskaraz. Kantitatea, beraz, badugu hor. Gainera, bereziki eta berariaz zaintzen du Berriak argitaratzen duen euskararen zuzentasuna eta egokitasuna. Berriarekin batera ditugu hainbat komunikabide euskara hutsean aritzen direnak: Argia, Goiena eta herri-aldizkariak. Gehienek jauzia egin dute sarera. Paperezkoari beste buelta bat ematen ari zaio. Gero eta digitalagoa den mundu honetan aritzeko nahitaezkoa da. Horregatik, gogoeta-prozesu horiek beti dira estrategia eta ekintza berriak proposatzeko eta probatzeko egokiak. Horiekin batera badira bestelako komunikabideak, euskara beste hizkuntza batzuekin batera erabiltzen dutenak: EiTB (administrazioan bezala ele bitan eskaintzen ditu edukiak sarean) eta ohiko beste egunkarietan (Deia, El Correo, Gara-Naiz, Noticias de Gipuzkoa, El Diario Vasco, Sud Ouest, Diario de Noticias de Navarra, besteak beste) zenbait artikulu euskaraz argitaratzen dira, baina gehienak gaztelania/frantses hutsean daude. Aipatutako guztiaz gain, komunikabideak, informazioa emateaz gain, gaur egun hizkuntzaren corpus digitalaren oinarri nagusietako bat dira, bai euskaraz bai inguruko hizkuntzetan ere (RAEn adibidez)3. Hau da, informazio hori berrerabili egiten da, adibidez, hiztegigintzarako (Lexikoaren Behatokia)4, irakaskuntzarako (ikasmateriala sortzeko), dokumentazio historikorako (Euskaldunon Egunkariaren hemeroteka), ikerketarako (HNP: Hizkuntzen teknologiak garatzeko), negozioak egiteko (Google News agregatzaileen enpresa-eredua). Beraz, balio erantsi handiko arloa da, eta horrek berekin dakar kazetarien erantzukizun profesionala eta besteon aitortzaren beharra. Komunikabideek eskainitako berriak etengabe sareratzeak, hau da, egunkariaren bertsio bat baino gehiago egoteak edota berriak aldiro-aldiro sareratzeak ekarri du hasieratik aipatu dugun arazoa agerian uztea, zuzentasunarena, alegia. Euskarazko edukien zuzentasunari eta egokitasunari paperezko argitalpenetan arreta handia jarri izan zaio. Argitaletxeek, esaterako, behin eta berriz orraztu dituzte haien testuak. Araugintzaren jarraipen estua egin dute. Oraindik ez gara maila horretara iritsi sareko edukietan, berehalakotasunak pisu handia duelako, baina horretara jo behar dela pentsatzen dugu, zalantzarik gabe. Gainera, badira lan hori erraztuko duten tresnak, eta zabalkundea eman behar zaie. Horrez gain, 3 Real Academia Española: https://www.rae.es/recursos/banco-de-datos/crea [Kontsulta 2019ko ekaina]. 4 Ikus Artola eta beste, 2017.

13-ainhoa arregi.indd 235

15/11/22 13:23

236

AINHOA ARREGI SARATXO

eduki horiek transmisioan duten pisuaz ohartarazi behar da. Ondo erabiltzen eta finkatzen ez baditugu, eta akatsak barreiatzeko bideak ugaritzen badira, ez dugu sekula oinarri sendorik izango eta beti ibiliko gara zalantzan, ziurgabetasun betean. Hekimen elkarteko komunikabideen webguneek 23,7 milioi bisita izan zituzten 2018an. Datu hau ere ondo gogoan gorde beharrekoa da zabaltzen dugun ereduaren garrantzia azpimarratzeko. Ingurune digitalean dugun beste zutabe aipagarri bat lan-mundua da, enpresek osatzen dutena. Komunikabideak enpresak ere badira, jakina, baina kultur eragile gisa ikusten ditugunez euskarazkoak, bi ataletan bereizi nahi izan ditugu. Enpresa askok eskaintzen dituzte edukiak euskaraz. Badago euskaraz zerbait eskaini beharraren pertzepzioa, nahiz eta horietako bakoitzaren kalitatea, maila eta maiztasuna desberdina den. Dena den, ez dugu ahaztu behar enpresak eragile pribatuak direla eta dirua irabaztea dutela helburu nagusia. Eta Euskal Herrian enpresa pribatu horiek, txikienetatik hasita (demagun taberna bat) handienetarainokoak, ez daude legez behartuta euskaraz lan egitera edo euskaraz komunikatzera. Beraz, egiten badute, nahi dutelako izango da edo bezeroak erakartzeko zein asebetetzeko behar dutelako. Presio soziala, berriz ere. Lan-mundua euskaratzeko saioak eta programak (Bikain ziurtagiriak eta antzeko kanpainak) martxan jarri ditu Eusko Jaurlaritzak EAEn, eta, badirudi, dekretu berria tarteko, bultzada bat eman nahi zaiola auzi honi, euskara proiektu guztietan eta dirulaguntzen eskaera guztietan zehar-lerro bilakatuz, genero ikuspegiarekin egin den bezala. Esparru honetan publizitatea erreferentziatzat hartzen badugu, hiru multzo bereiz daitezke: a) kasu gehienetan, elebitasun formala (funtsean erdaraz pentsatzen duten enpresak, edukiak, eta kasu honetan komunikazioa euskarara itzultzen dutenak); b) gutxiagotan, euskara benetan aintzat hartzen duen elebitasuna, edukiak zaintzen dituena, eta komunikazioa euskaraz ere sortzen/pentsatzen duena, eta c) multzoa: badira salbuespen bakan eta miresgarri batzuk, euskara hutsean saltzen eta komunikatzen dutenak euskararen herri honetan. Esan nahi da, saltzen dituzten produktuak merkaturatzean euskara baliatzen dutenak publiko orokorrarentzat, izan euskaldun ala ez. Orobat, enpresen konpromiso-maila hazi egiten da bezeroek egiten duten presio sozialaren arabera, eta, hala balitz, ez litzateke batere itxaropentsua Hegoaldean IKEArekin gertatu dena: iritsi berritan katalogoa eta webgunea guztiz elebiduna izatetik, «arazo teknikoak» tarteko, gaztelania hutsean edukitzera pasatu da. Eta, gainera, ez da kalapitarik sortu, ez behintzat katalanek sortu dutenaren parekoa. IKEAren kasua aintzat hartu beharko genuke, izan ere, kontsumitzaileok sarean uzten dugun hizkuntza-aztarna digitalak eragina izan bai-

13-ainhoa arregi.indd 236

15/11/22 13:23

EUSKARAREN OSASUNA INGURUNE DIGITALEAN: ARIKETA TXIKI BAT

237

tezake enpresen hizkuntza-politikan, bereziki, eleaniztasuna kudeatzea garestia izan daitekeela uste badute. Alegia, erantzukizun partekatua da auzi honetan duguna: enpresena eta kontsumitzaileona. Baina ohartu behar dugu hiru mailatako piramide horretan oraindik beste maila bat falta dela, agian ohikoena: euskararik erabiltzen ez dutenena. Eta, oso gogoan izan behar dugu hori, besteak beste, mundu-mailako salmenta-plataformarik garrantzitsuenek (Amazon, eBay, Alibaba…) ez dutelako euskarazko bertsiorik, ezta euskarak baino askoz hiztun gehiago dituen katalanezkorik ere. Eta normaltasunez edo etsipenez onartu dugu enpresa horien hizkuntza-eredua gure eguneroko bizitzan. 3. irudia: Publizitatea euskararaz

13-ainhoa arregi.indd 237

15/11/22 13:23

238

AINHOA ARREGI SARATXO

Beraz, ez dugu ahaztu behar behin eta berriz aipatutako presio sozialaren garrantzia eta beharra. Beste adar garrantzitsu bat hezkuntzaren munduak osatzen du. Eskola, ikastetxe, ikastola eta unibertsitateek eskaintzen dute haien webguneetan euskarazko egitura hori, eta haien ildo pedagogikoen berri ematen dute. Gainera, gehienek badituzte ikasleekin zein gurasoekin aritzeko zenbait plataforma txertatuta. Horrez gain, irakaskuntzan gero eta gehiago erabiltzen dira liburu digitalak, eta gero eta material gehiago eskatzen da sarean egotea. Hezkuntzaren adierazlearen barruan sartzen dira, halaber, euskaltegiak, hizkuntza-eskolak eta lehen aipatutako euskalgintza osoa. Euskaltzaindiaren arauak eta gomendioak, adibidez, sarearen bidez soilik gizarteratzen dira gaur egun. Hiztegiak eta antzeko materialak oso kasu bakanetan agertzen dira paperean. Gehienez ere, bietara, baina gero eta maizago mugatzen dira digitalera. Katalogo oparoa dugu euskarazko alderdi normatibo horren kontsulta egin nahi badugu sarean. Arestian aipatu dugun bezala, argitaletxeek araugintzaren jarraipen estua egin dute eta egiten jarraituko dute formatu digitalean. Baina ez da kontrol zorrotz hori jarraitzen sareko argitalpen guztietan. Digitalizazioak hartu duen pisuaren adierazgarri, hezkuntza-sistemak irakasleak edukiak sortzera eta sareratzera bultzatzen ditu, eta horren ondorioz blog, tutorial edo ariketa asko eta asko egiten dira publiko, eta, edukiari bai, baina hizkuntzaren kalitateari ez zaio horrenbeste erreparatzen. Ezinikusi moduko bat hartu zaie liburuei, ikasmaterial-sorkuntza etengabe batean murgildu gara eta horrek ziurgabetasuna eragin dezake hizkuntzaren erabilera zuzenaren inguruan. Arazo hori, hortaz, kontuan hartzekoa da, zabalkunde horretan akatsa ala zuzentasuna hedatzen delako. Ez genuke aipatu gabe utzi nahi hizkuntzen teknologiaren esparrua. Itzulpen automatikoan eta horren ondoriozko adimen artifizialaren inguruko produktuetan badu gure hizkuntzak erronka handi bat. Hizkuntza idatzirako itzultzaile automatikoak zein ahots-bidezko gailuak gero eta hedatuago daude. Baina ez dira munduko hizkuntza guztietan berdin zabaltzen ari, noski. Aurreko hilabeteetan horren inguruko polemika piztu zen Katalunian, hango telebista publikoko programa batean hizkuntza-eskubideen aldeko aktibista batek, Alex Hinojok5, aipatu zuelako berak ere nahiko lukeela bere txigorgailua katalanez aritzea. Jakina denez, berehala altxatu ziren gaztelaniaren mundutik haren kontrako iritziak, baina ez dugu ahaztu behar ahots-ezagutza duten 5 «Torradora

afera: “Makinekin katalanez hitz egiteko eskubidea”»: https://sustatu. eus/1562321486 [Kontsulta 2019-07].

13-ainhoa arregi.indd 238

15/11/22 13:23

EUSKARAREN OSASUNA INGURUNE DIGITALEAN: ARIKETA TXIKI BAT

239

munduko tresna nagusiek gaztelania ezagutzen dutela (bada salbuespenik), baina ez katalana (zer esanik ez, euskara). Siri, Cortana eta Google Assistant ederki moldatzen dira gaztelaniaz. Argi dago, bada, eguneroko bizitzara jauzi egin dutela gailu horiek, ez baitira soilik ikerketarako diseinatu. Oraindik ez dakigu noraino zabalduko den ahots-bidezko laguntzaren bidea, baina erronka hor dago. Eta horren inguruan ere estrategiak eta lehentasunak markatu beharko dira. Adierazleen inguruko zertzeladak ikusita, azken urteotan aurrerakada nabarmena egin dela aitortu behar da. Urte gutxiren buruan azkartu egin da euskaraz zerbitzua, informazioa, edukiak sarean emateko beharra, eta bide horretan jarraitzea dagokigu. Hasieratik euskaraz eskaini den guzti-guztia esker onez jaso dugu euskaldunok (baita hala moduz emandakoak zirenean ere), baina uste dugu, hainbat urteren ostean, maila bat igotzeko eta eskatzeko moduan gaudela, eta, horregatik, euskararen presentzia bai baina zuzentasuna eta egokitasuna irmotasun handiagoz eskatzeko unea iritsi dela. Biak dira garrantzitsuak. Horregatik sareko estandarra nola erabiltzen den aztertzea dagokigu orain. UZEI eta Euskaltzaindia elkarlanean aritu dira UZEIren sorreratik bertatik, eta zeregin horretan lankide garen heinean, araugintza barneratzeaz gain, erabili eta horren zabalkundea egitea egon da hasieratik gure helburuen artean. UZEIko lan-esparrua zein den kontuan hartuta, nagusiki, alderdi lexikoari —bai orokorrari bai terminologikoari— erreparatu diogu. Erabilera-eremu urriko hizkuntza da gurea, eta alderdi normatiboan aurrerapauso handiak egin baditugu ere, ez dugu erritmo bera mantendu normalizazioan eta ezarpenean. Horregatik iruditzen zaigu, hain zuzen ere, ezinbestekoa dela eskaintzen den euskararen kalitatea bermatzea. Araugintza landu da azken urteotan, euskara batua sortu zenetik. Azkarra baino azkarragoa izan da estandarizazioa alderdi normatiboan, eta orain lan ikaragarri horri etekin handiagoa ateratzeko garaia iritsi da. Horregatik uste dugu euskalgintzan gabiltzanoi dagokigula, bereziki, hori guztia zabaltzea eta erabiltzea, zuzen erabiltzea. Transmisio-lana egitea, alegia. Eta horretarako bitarteko ezin hobeak dira sarea eta teknologian oinarritutako baliabideak eta tresnak. Alde batetik, iruditzen zaigu erakusten dena zuzena izatea dela gutxieneko baldintza, beste edozein hizkuntzatan gertatzen den bezala, baina gurean garrantzi berezia hartzen du horrek; izan ere, zuzentasun eta egokitasun horrek soilik bermatuko du erabiltzaileek aurrerantzean ere forma egoki horiek erabiltzea etae zenbait hitz behingoz normalizatzea eta zabaltzea. Ezinbestekoa da gure estandarra finkatzeko. Hartara, eredugarri izan behar dute, esaterako, euskarazko Wikipediak (gogoratu hasieran emandako kopuruak, bisita-kopuruak), hezkuntzatik eta hezkuntzan dihardutenengandik iristen zaizkigunak, euskarazko komuni-

13-ainhoa arregi.indd 239

15/11/22 13:23

240

AINHOA ARREGI SARATXO

kabideak (Hekimen taldeko webguneetara bisitak). Horiek guztiek erreferente eta erreferentziazko izan behar dute hizkuntzaren ikuspegitik. Euskaldunengana edo etorkizuneko euskaldunengana iristeko duten ahalmen hori baliatu eta biderkatu behar dugu, hain zuzen ere, araugintza eta zuzentasun horren transmisio egokia egiteko. Zuzentasun edo egokitasun hori bermatzeko mila eta bat tresna sortu, egokitu eta garatu dira gurean: alderdi ortografikoa, lexikoa, itzulpengintzaren eremua edota sintaxia zein gramatikazko oinarrizko puntuak lantzen eta errazten dituzten tresnak. Baina argi dago ez dugula lortu behar bezala ezagutaraztea eta haien erabilera masiboa sustatzea. Ez gara gai izan erabiltzaileei transmititzeko euskararen zuzentasuna zein garrantzitsua den hizkuntza sendo eta osasuntsu bat izateko. Horren adibide da aipatutako adierazle horien eremuko testuak aztertuz lortutako emaitza. Ariketa bat egin nahi izan dugu, gaur egungo euskaldunok sarean aurki dezakegun euskararen argazkia lortzeko. Aipatutako zortzi adierazle horietako testuen lagin bana hartu eta gure tresnak erabiliz aztertu ditugu. UZEIk sortutako Hobelex6 eta IDITE7 erabili ditugu horretarako. Hobelex zuzentzaile ortografiko eta lexikoa da, Word-en zein LibreOfficen erabil daitekeena. IDITE lexiko-egiaztatzaile profesionala da. Testu-masa handiak analiza ditzake eta ez du formatuaren aldetik mugarik ezartzen. Hartara, fitxategia kargatuta edota «kopiatu eta itsatsi» egitearekin aski da analizatutako dokumentuaren txostena eskuratzeko. Analisi ortografiko hutsa hegiteaz gain, euskara estandarrean zuzenak ez diren formak edo ordezko egokiagoak dituztenak detektatzen ditu IDITEk, aukera zuzena edo hobetsia proposatuz. Lexiko orokorraz gain, gainera, terminologia ere kontuan hartzen du. Euskara batuan idatzitako testuak dira denak, publiko egin diren testuak. Bertan aurkitu ditugu grafia ez-estandarrak, lexiko mailako akatsak, oinarrizko sintaxian hutsak, lexiko espezializatuan, toponimian, pertsona-izen historikoetan eta, nola ez, errore tipografikoak. Pentsa dezagun testu horietako asko hezkuntzako profesionalek sortutakoak direla. Bistan da haiek zalantza egiten badute edota araugintzaren jarraipenik egiten ez badute, egiten duten horren transmisioa ere halakoa izango dela. Hizkuntzaren transmisio horretan erantzukizuna denok dugula ulertu eta horretaz jabetu beharra daukagu. Bertan erakusten diren akatsak zein diren ez da hain garrantzitsua. Azpimarragarriagoa iruditzen zaigu aipatzea arau horiek noiztik diren arau. Horietako 6 UZEI, 7 UZEI,

13-ainhoa arregi.indd 240

Hobelex: https://www.uzei.eus/hobelex/. IDITE: https://www.uzei.eus/online/idite/.

15/11/22 13:23

EUSKARAREN OSASUNA INGURUNE DIGITALEAN: ARIKETA TXIKI BAT

241

4. irudia: Aipatutako adierazleetako zenbait webgune arakatu eta gero, aurkitutako adibide gutxi batzuk (2019ko ekaina).

batzuk duela 5, 10, 15 edota 20 urte arautu ziren, eta, oraindik ere, dantzan dabiltza euskaldunon artean, euskaldunon erreferentziazko eremuetan. Testu hauek idatzi dituztenek eduki aldetik ezagutza egokia izango dute, zalantzarik ez, baina azken hogei urteotako araugintza ez dute guztiz jarraitu eta barneratu, dirudienez, eta hori kezkatzekoa da euskararen normalizazioaren ikuspuntutik. Paperezko liburu tradizional batean halakorik ez litzateke onartuko. Paperak zekarren kontrol hori ez dago sarean, dena da berehalakoa, azkarra eta ziztu bizian zabaltzen da lau haizeetara. Batek baino gehiagok pentsatuko du txikikeriak direla horiek, baina inguruko hizkuntzetako akatsak asaldagarri/barregarri egiten zaizkigun bitartean gureak ulergarriak eta onargarriak egiten zaizkigu. Normaltzat jotzen ditugu. Beti aurkitzen dugu horiek zuritzeko arrazoiren bat. Baina ez dut uste euskararen egoerak halako lasaitasunez har ditzakeenik akats horiek. Gure hipotesia da bi arazo daudela hor. Batetik, euskaraz alfabetatuta egon arren, araugintzaren jarraipenik egin ez dutenak daude. Alabaina, sareak eskaintzen dituen baliabide horien ondorioz, haien edukiak zabaltzeko erraztasuna dute. Eta, bestetik, alfabetatu diren horietako askok, lan-mundura jauzi egitean, euskara arlo profesionalean erabiltzeari utzi diote. Ez dute euskaraz idazteko eta nonbait irakurtzeko beharrik izan, eta eskolatik ekar zezaketen euskara estandarraren idatzizko ezagutza eta maila kolokan jartzen da, deskonexio bat gertatzen da eta desikaste-, desalfabetatze-prozesua abiatzen da. Urteetan alfabetatzea izan da gure buruhauste handienetako bat, eta orain, agian, desalfabetatze horri

13-ainhoa arregi.indd 241

15/11/22 13:23

242

AINHOA ARREGI SARATXO

5. irudia: akatsak euskaraz eta inguruko hizkuntzetan

heldu beharko diogu. Uste dugu euskaldun horietako asko eta asko deseroso sentitzen direla euskaraz idatzi behar dutenean. Gainera, ez dute akats horiek arinduko lituzketen tresnak erabiltzeko ohiturarik. Nagusiki euskalduna den hezkuntzatik masiboki erdalduna den lan-mundura jauzi bat dago. Hau da, hezkuntzatik lan-mundurako jauzi horretan katebegi bat galdu da. Horrek guztiak ez dio gehiegi laguntzen euskararen osasunari. Jakin badakigu inguruko hizkuntzen indarra eta euskararena ez direla parekoak, inondik ere. Desabantaila izugarrian gaudela. Real Academia Galegako Rosario Alvarezek8 aipatzen zuen askotan esaten dela galegoa eta espainola kontaktuan daudela, baina argi esan behar dela espainola ez dagoela kontaktuan, gainezarria 8 Rosario

Álvarez (2019-07-11): «A fuego lento. La ansiada gramática de la RAG»: https:// www.youtube.com/watch?v=IetZCbACCLo.

13-ainhoa arregi.indd 242

15/11/22 13:23

EUSKARAREN OSASUNA INGURUNE DIGITALEAN: ARIKETA TXIKI BAT

243

baizik. Eta hori bera gertatzen da gurean, eta horregatik, hain zuzen ere, arduraz jokatzea dagokigula uste dugu. Alabaina, berdintasunetik ez garela abiatzen aintzat hartuta ere, edota horregatik, uste dugu egun dauden euskaldun oso horiei ardura, trebakuntza eta gutxieneko bat eskatu behar zaiela. Duintasun minimo bat eskatzeko moduan gaudela uste dugu. Onintza Enbeitak duela gutxi Berrian idatzitako hitzak hona ekarriz, «errespetua galdu zaio euskarari, eta jendeari berdin dio ondo edo gaizki egin» (Enbeita 2019)9. Gai honek, argi dago, ertz bat baino gehiago du, norbanakoaren erantzukizun eta konpromisoa, batetik, eta goragoko estamentuen edo erakundeen —nahiago bada— erantzukizun, inplikazio eta konpromisoa, bestetik. Norbanakoek atxikimendu eta konpromiso hori erakuts dezaten, baldintzak eta baliabideak eskaini behar dituzte erakunde publikoek. Bien arteko oreka lortzea litzateke egokiena, oreka hori lortzea zaila izango bada ere. 3. Gogoetarako puntuak Seguruenik aipatutako kontzientziazioa, presio soziala eta oinarria zaintzea izan litezke gako nagusiak egoera horri buelta emateko. Euskararen egokitasuna zaindu, eta transmititzen dugun horren pisuaren garrantziaz ohartarazteko. Beraz, batetik, inplikazioa nahiz aktibazioa eskatu behar zaio euskaldunari. Azken Korrikak ideia hori ekarri zigun, «klika», euskararen aldeko hautua egitea, alegia. Lortu behar da euskal komunitatea aktibatzea, komunitatearen parte sentiaraztea herritarrak eta euskaraz kontsumitzea. Egia da esfortzu gehigarri bat eskatzen zaiola euskaldunari, baina beste erremediorik ez dago. Badugu zeregin horretan abantaila bat: araugintza aurreratu samarra dugu, Euskaltzaindiaren azken urteotako apustu sendoaren ondorioz. Eta hori oinarri bikaina da, zalantzarik gabe. Alabaina, norbanakoaren hautua garrantzitsua izanik ere, erakundeek, eragile sozialek eta euskalgintzak berak indarra egin behar dute eta hortik tira egin. Aktibazio horretan, langintza hori erraztuko dizkiguten tresnak baliatu behar ditugu orain arte ez bezala. Etengabe sortzen aritu garen horiek guztiak erabiltzen hasi behar dugu. Herri txikia gara, eta, hala ere, zein bere aldetik sortzen ari gara, lanak bikoizten. Ikusi beharko genuke zergatik bikoizten diren, agian batzuetan izan liteke oinarrizko baliabide horiek ez direlako denen eskura jartzen edo bertsio berriak hobekuntza nabarmenak dakartzalako. Nolanahi ere, askotan aipatzen dugu indarrak batu beharko genituzkeela, euskarak aro digitalean egin behar dituen lanetan lidergoa hartu eta koordinazio-lanak egingo 9 Enbeita,

Onintza, 2019, «Zaila» in Berria, (2019-05-23): https://www.berria.eus/paperekoa/1881/020/002/2019-05-23/zaila.htm.

13-ainhoa arregi.indd 243

15/11/22 13:23

244

AINHOA ARREGI SARATXO

dituen koordinatzaile bat behar dela, eragile guztiak bilduko dituena. Denok irabaziko genuke, gauza berri gehiago garatzeko aukera izango genuke elkarlana bideratuz, kontsentsuak lortuz eta lankidetza sustatuz. Baina argi dago halakoetan aipatzen diren asmo eta gogoeta horiek ez dutela segidarik izaten gutako bakoitzak (edo ordezkatzen dugun erakunde bakoitzak) bereari tira egin nahi izaten diolako eta behar hori ere baduelako. Azken finean, lehia batean sartuta bizi garelako. Mila faktorek eragiten dute hor: bateko, argitalpenak, ikerketak, proiektuak garatu behar dira unibertsitatean merituak lortzeko; besteko, enpresak euskarazko edukiak doan eskaini behar omen ditu, baina aldi berean eduki horiek sortzeko baliabide ekonomiko nahikorik ez dauka. Mila eta bat arazo. Finean, euskarara eta euskal kulturara ekarri nahi izan dira industriaren paradigmak: mozkinak eta errentagarritasuna, baina euskal kulturan ezin da. Euskararen egoerak ez du ematen horretarako. Bestela pentsatzen hasi behar dugu: hizkuntza eta kultura behar ditugu, eragile guztiak behar ditugu (inor bazterrean utzi gabe, lehiakide izan daitekeen beldurrez), bestela ez dago euskal gizarterik. Ikuspegi zabalago bat behar dugu, herri-ikuspegia. Oro har, arazo nagusia da euskal kultura ez dagoela paisaian, edo nahiago bada paisaiaren aurrealdean, eta horrek, jakina, euskarari bete-betean eragiten dio. Badirudi euskaldun gehienok ez dugula serioegi hartu gure hizkuntzaren alderdi hori edota ez dugula aski kezka eta kontzientzia erakutsi zuzentasunaren inguruan. Azken batean, ez dugu lortu duintasun hori, behar duen estatusa eta prestigioa, ematea hizkuntzari. Euskararen ibilbide normatiboan aurreratu dugun arren, estandar hori finkatzea falta zaigu, eta finkatu arte ez dugu estandarizazioa bukatu dela esaterik izango. Arazo larri horiez gain, hutsak saihesteko tresnak ez dira behar beste erabiltzen. Lehenago ere aipatu dugu, baina euskalgintzak ez du asmatu edo ez du jakin nola egin hizkuntza-teknologien alorreko tresna eta baliabideen erabilerarako ezarpen nahiz zabalkunde egokia. Araugintza zabaldu behar da, aspaldi Atxagak10, Arraratsek11 eta beste askok aipatutako erresonantzia-kaxa hori eraiki behar dugu denon artean: hitzak, euskal esapideak esan eta esan, errepika eta errepika, idatzi eta idatzi, irakurri eta irakurri, arauak gizarteratu, txertatu eta finkatu arte. UZEIn ari gara araugintza hedatzeko zeregin horretan gure hondar-alea jartzen. Saiatu gara araututakoak formatu ezberdinetan, erakargarriagoetan gizarteratzen, eta sare sozialen plaza erabiltzen dugu Euskaltzaindiak araututako lexikoa modu didaktikoago eta ari10 Ikus 11 Ikus

13-ainhoa arregi.indd 244

Atxaga 2001. Arrarats 2018.

15/11/22 13:23

EUSKARAREN OSASUNA INGURUNE DIGITALEAN: ARIKETA TXIKI BAT

245

nagoan hedatzeko. Oso harrera ona izan dugu erabiltzaileen aldetik horrelakoak argitara ematean, eta horregatik pentsatzen dugu bide egokia izan daitekeela. Gaurkotasun handiko gaiekin lotutako hitzak eta terminoak izaten dira gehien-gehienetan, eta euskalgintzan ari direnek esker onez hartzen dute. Justiziako zein beste arloetako profesionalentzat ikastaroak ematen ditugunean ere, hori bera berresten dugu, alegia, araugintza zein hura erraztuko luketen baliabide horiek ez direla behar bezala ezagutzen ezta erabiltzen ere. Nabaria da, hortaz, lan handia dagoela egiteko oraindik. Transmisio hori behar bezala egitea edo artikulatzea zaila izan arren, pentsatu behar dugu profesionalizazioa eskatu zitzaiola aspaldi hainbat sektoreri (direla itzultzaileak direla komunikabideak), beharbada baliabide gutxien eta prekarizatuen egon diren horiei, eta beste hainbeste eskatu beharko genieke beste eremuetako profesionalei hizkuntzaren erabilerari eta araugintzaren eguneratzeari dagokionez. Ez dut uste gure komunikabide publikoei, hezkuntzako profesionalei edota gure politikariei sare sozialetan, esaterako, onartu behar geniekeenik edonola idaztea. Uste dut gutxieneko hori eskatzeko moduan gaudela. Asko aurreratu dugu euskararen ibilbide normatiboan, baina orain estandar hori finkatzea falta zaigu. Konplexua da, eta ez da erraza hori artikulatzea. Detektatua dago hutsa, baina konponketari nola heldu pentsatzea falta zaigu. Horrez gain, gazteak euskaraz kontsumitzera bultzatu behar ditugu. Gazteen euskararekiko atxikimenduaren sentimendua aldatu egin da, ez du zerikusirik garai bateko sentimenduarekin. Eskaintza handia dagoela ere aipatu dugu hasieran, beste plataforma batzuk erabiltzen dituztela telebista, musika eta antzekoak kontsumitzeko, baina egia da, horietan guztietan ere ahalegin bat egiten dutela. Ez da erabat egia erosotasunera lerratu direnik. Horietako produktu asko eta asko ingelesez daude, eta horiek kontsumitzeko gazteek esfortzu bat egin behar izaten dute. Izan ere, ez dut uste guztiz eroso kontsumitzeko moduko maila dutenik guztiek. Zerikusi handiagoa du eskaintzen diren edukiek sortzen dieten interesarekin, prestigioko bihurtu dugun hizkuntzan kontsumitu beharrarekin eta horren ondorioz gureganatu ditugun hizkuntza-ohiturekin. Erronka handia dugu hor. Estandarraren transmisio horretan Euskaltzaindiak badu zeresanik, jakina. Aitortu behar zaio azken urteotan ahalegin berezia egin duela edukiak gizarteratzeko eta emaitza onak lortu dituela. Esaterako, arauak eskuratzeko eta zalantzak argitzeko modua erraztu duen EBE (Euskara Batuaren Eskuliburua) bezalako tresna praktiko eta didaktikoak sortuz. Uste dugu bide hori egokia dela eta horretan sakondu behar dela. Euskaltzaindiak eta Terminologia batzordeak arauak eta gomendioak eman dituzte, hurrenez hurren. Euskalgintzan ari garenon egitekoa eta lana da horiek erabiltzea eta zabaltzea. Erresonantzia-kaxa hori sor-

13-ainhoa arregi.indd 245

15/11/22 13:23

246

AINHOA ARREGI SARATXO

tzea, eraikitzea. Horretarako modu praktikoak asmatu beharko dira, gizartearen beharrei modu pedagogikoan erantzunez. Eta, nola ez, azkartasunez. Gainerako hizkuntzek markatutako bideari begiratu behar diogu. Adibide bat bakarrik jartzen hasita, Amazon da gaur egun liburu elektronikoen salmenta-gune nagusia. Irakurleek liburuetan akats ortografikoak ikusten badituzte, oharra egin diezaiokete Amazoni, eta akatsak zuzendu arte liburua salgai ez uztea erabaki omen dezake. Ingeleseko Wikipedian ere akatsek gutxi irauten dute, berehala detektatu eta zuzentzen dituztelako. Ez dut uste gurean halakorik egiteko aski kezkarik edo kontzientziarik daukagunik oraindik. Baina etengabe martxan egon behar dugu. Sekula amaitzen ez den langintza dela ulertu behar dugu, eta beti erne eta arriskuak hartzeko prest egon behar dugula sinetsi. Hauek guztiak gogoetarako puntuak izatea nahi genuen, besterik ez. Gutxi-asko denok detektatuta ditugu; beraz, arazo horiei aurre egiteko elkarrekin estrategiak pentsatzeko, adosteko eta probatzeko unea iritsi dela uste dugu. Bibliografia Arrarats, Irene (2018): «Batuaz honaindikoak», Jakin 225, pp. 29-44. Artola, Xabier (Ixa taldea, UPV/EHU); Ezeiza, Nerea (Elhuyar Fundazioa); Gurrutxaga, Antton (Elhuyar Fundazioa); Sagarna, Andoni (Euskaltzaindia) eta, Urkia, Miriam (UZEI) (2017): «Lexikoaren Behatokia: leiho bat xxi. mendeko hedabideetako euskarari», Senez, 48, pp. 201-209. Atxaga, Bernardo (2001): «Euskaldunok erresonantzia kaxa bat behar dugu», Argia 1834. Enbeita, Onintza (2019): «Zaila», Berria, 2019-05-23. Kornai, Andras (2019): «Hizkuntzen heriotza digitala», BAT aldizkaria, 111. Larrea, Imanol (2019): «Txakurrak oinutsik Katalunian ere?», Berria, 2019-07-16. Waliño, Josu, (2017-03-14). «Zergatik ingurune digitala?» [linean], [Kontsulta: 2018-12-01]. — (2019): «Euskararen bizitasun digitala ispiluaren aurrean», BAT aldizkaria, 111.

13-ainhoa arregi.indd 246

15/11/22 13:23

EUSKARA ADIMEN ARTIFIZIALAREN AROAN: AUKERALEIHOAK Josu Aztiria Urtaran Adimen Artifiziala Hizkuntzan unitateko zuzendaria (Elhuyar Fundazioa)

1. Adimen artifiziala eta lengoaia naturalaren prozesamendua: estrategia sinbolikotik ikasketa automatikora

Adimen artifizialaren inguruko definizio zehatza ematea zaila eta ausarta den arren, hauxe esan daiteke: konputazio-sistemen bidez pertsonen prozesu mentalak imitatu eta horietatik ikasteko gaitasunak sortzen dituen diziplina zientifiko-teknologikoa da; hau da, adimen artifiziala makinek giza adimena imitatzeko duten gaitasuna da. Honenbestez, adimen artifiziala makinek giza adimena imitatzeko duten gaitasuna bada, eta hizkuntzaren ulermena eta mintzamena giza adimenaren adierazpen nabarmenenak badira, Lengoaia Naturalaren Prozesamendua (LNP hemendik aurrera) adimen artifizialaren muin-muinean dagoen diziplina dela esan dezakegu. Esaterako, LNP AI-complete problem1 izenez ezagutua da adimen artifizialaren esparru zientifiko-teknologikoan, hots, algoritmo konplexuak eta sendoak eraikitzen diren adimen artifizialeko alorra dela, hain zuzen ere. UPV/EHUko HITZ Zentroak egindako txosten baten arabera2, adimen artifizialeko ikerketa-ekoizpenaren % 40 LNPrekin lotuta dago, eta datu horrek 1 https://en.wikipedia.org/wiki/AI-complete.

2 Eusko Jaurlaritzako Hizkuntza Politikara Sailburuordetzarentzat egindako Hizkuntza Tek-

nologien inguruko egoeraren txostenean ageri da datu hori.

14-josu aztiria.indd 247

15/11/22 16:47

248

JOSU AZTIRIA URTARAN

eman diezaguke, beraz, adimen artifizialak azken urteotan izan duen hizkuntza bilakaera eta izango duen garapenaren neurria. Hizkuntzaren bidez pertsonen eta makinen arteko komunikazioa, baita pertsonen artekoa ere, errazteko tresna konputazionalak ikertzeaz arduratzen da LNP. Jarduera zientifiko-teknologikoa giltzarria da, beraz; eta are gehiago izango da etorkizunean. Azken urteotan adimen artifizialak hizkuntzan aparteko aurrerapena izan du, batez ere sare neuronal sakonetan oinarritutako algoritmoen bidez; Deep Learning esaten zaio teknika horri izenez ezagutua da. Algoritmo horien hobekuntzari esker zerbitzu ugari automatizatu dira, emaitza bikainak lortu dira ataza desberdinetan eta hizkuntza askotan; eta ongi dakigun bezala euskararekin ere emaitza bikainak lortu dira. Orain arte adimen artifizialean eta, zehazki, lengoaia naturalaren prozesamenduan bi estrategia eta hurbilpen zientifiko nagusitu dira; alde batetik, hurbilpen sinbolikoan oinarritutakoa paradigma; eta bestetik, 2010etik aurrera indarra hartuz joan eta nagusi bihurtu den ikasketa automatikoan oinarritutakoa hurbilpena. Hurbilpen sinbolikoaren arabera, makinek ulertzeko moduko erregelen bidez deskribatu nahi izan da hizkuntza, hizkuntzak dituen maila eta ezaugarri guztien xehetasunak makinari irakatsiz: lexikoa, morfologia, morfosintaxia, sintaxia, semantika, pragmatika... Hurbilpen horretan hizkuntzalaritza konputazionalak izan du berebiziko garrantzia, hizkuntzalariak eta informatikariak elkarlanean hizkuntzaren deskribapena zorroztea eta sistematizatzea izan baita helburua; askotan, ordea, estaldura urriko sistemak eta teknologiak sortu dira. Hurbilpen sinbolikoa nagusi izan da LNPko ataza nagusietan orain gutxi arte, baita itzulpen automatikoan ere. Itzulpen automatikoaren kasuan, antzekotasun handiko eta egitura gramatikal antzeko hizkuntzen arteko ariketak egiteko emaitzak onak lortu izan dira (Apertium3 izenekoaren erregeletan oinarritutako kode libreko sistema automatikoa dugu bide horren erakusgarri). Aitzitik, kode librean oinarritutako Matxin itzultzaileak4 (Elhuyarrek eta EHU/UPVko IXA Taldeak garatu zutena) edo Eusko Jaurlaritzarentzat Lucy Software enpresak garatutako sistemak5, oso urruti zeuden Apertium bezalako sistemen emaitzetatik. 3 Apertium kode irekiko itzulpen automatikoko plataforma da, hizkuntza-erregeletan oinarritutakoa: https://apertium.org. 4 2007an sortu zen itzultzaile automatikoa da Matxin, gaztelaniatik euskarara itzultzen zuen lehen itzultzaile automatikoa, erregeletan oinarritutakoa eta kode irekikoa. Elhuyarrek eta UPV/ EHUko IXA ikerketa-taldeak sortu zuten: http://matxin.elhuyar.eus/. 5 Orain ez dago atzigarri. Eusko Jaurlaritzak 2,5 milioi euro gastatu ditu eta sistemaren jabetzak (hiztegiena eta lexikoena kenduta) enpresarena izaten jarraitzen du. Lizitazio gehienak (hasierakoa izan ezik) lehiaketa publikorik gabe esleitu ziren eta 1,9 milioi euro ingurukoak izan ziren. Oso kudeaketa kritikagarria, nire ustez: esleipenak egiteko moduagatik, inbertsio publikoaren erabileragatik, teknologiaren jabetza ez eskuratzeagatik, kode irekiko sistema ez bultzatzeagatik eta bertoko ikerketa-zentroekin ez kontatzeagatik.

14-josu aztiria.indd 248

15/11/22 16:47

EUSKARA ADIMEN ARTIFIZIALAREN AROAN: AUKERA-LEIHOAK

249

Esan nahi da: gaztelaniaren eta katalan edo galegoaren arteko itzultzaile automatikoek ongi funtzionatzen zuten, baina gaztelaniaren eta euskararen artekoek ez. Ikasketa automatikoan eta, zehazki, ikasketa sakonean oinarritutako estrategia da orain nagusi. Ikasketa automatikoan adibideekin erakutsitakoa ikasten du makinak (testu-corpus handiak eta elebidunak erabiliz), eta gero antzeko beste kasuetan aplikatzen ditu. Ikasketa sakonean gainera, erakutsitakoa ez ezik, erakutsitako horretatik eratortzen dena ere ikas dezake makinak; portaera hori lortzeko, ikasketa sakonak sare neuronaletan finkatutako arkitekturak erabiltzen dituelarik. Ikasketa automatikoaren eta, zehazki, ikasketa sakonaren tekniken bidez, adibideetatik ikasten duten sistemen nagusitasuna etorri da, hizkuntza-teknologien kalitatea, heldutasuna eta irisgarritasuna izugarri handituz. Esan daiteke, orain arteko tresnek heldutasun-maila baxua zutela, oraingoak, aldiz, produkzio-prozesu askotan txertatzeko modukoak dira. 1. irudia: Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems, 15. orrialdea.

Iturria: Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, eta Harshit Surana.

Urteetan egin den ikerketa eta goi-mailako ikertzaile trebatuak ditugu orain, Interneten eztandak testu-masa eta datu-bilduma sekulakoak ekarri dizkigu (izan ere, makinek ikasteko adibide asko dituzte), sare neuronalak entrenatzeko konputazio-ahalmen handia dago eta korporazio teknologiko handiek egundoko esfortzu ekonomiko eta humanoa egiten ari dira itzulpena automatikoa bezalako atazetan gero eta emaitza hobeak lortzeko. Erabateko aldaketa eta leherketa ekarri du horrek guztiak, eta orain arte irudikatu ere ezin genituen

14-josu aztiria.indd 249

15/11/22 16:47

250

JOSU AZTIRIA URTARAN

aukerak ireki zaizkigu parez pare. Hurbilpen honek iraultza ekarri du euskarazko hizkuntza-teknologietara. Azken urteotan gainera, LNP barruan erabat disruptiboa den paradigma-aldaketa berria ari da garatzen: hizkuntza-eredu neuronal orokorrak (domeinu zabaletara bideratuak) entrenatzen dira, gero, entrenamendu txiki batzuen bidez, gai gara beste domeinu bateko edo hizkuntza bateko atazetan bikain funtzionatzeko. Korporazio teknologiko erraldoiak (Google6, Facebook7, Amazon, etab.) ikaskuntza sakoneko eta transferentzia bidezko ikaskuntzako (transfer learning) teknikak erabiltzen ari da dira LNP aplikazioak garatzeko. Adibide adierazgarri bat jartzearren, Googlek oraintsu aldatu du bilatzailearen oinarrizko algoritmoa aurrez entrenatutako hizkuntza-eredu neuronaletan oinarritutako algoritmo batekin. Paradigma aldaketa horrek abagune ederrak ekartzen dizkio euskararen garapenari eta baliabide urriko hizkuntzei; izan ere, transfer learning teknikei esker baliabideetan (adibideetan, testuetan, datuetan…) aberatsak diren hizkuntzen eta baliabideetan eskas diren hizkuntzen arteko ezagutza-transferentzia egin daiteke. Horri esker, baliabideetan aberatsak diren hizkuntzetako datuak erabiliz ikas dezakete sistemek, baliabide gutxiago dituzten beste hizkuntza batzuetako aplikazioak garatzeko. Paradigma disruptibo honi modu egokian erantzuteko, DLNLP proiektua jarri genuen martxan 2018an, Elhuyar, HITZ Zentroa, Tecnalia eta Vicomtech ikerketa-zentroen artean8. Teknika horren bidez lortu ditugun emaitzak oso onak izan dira, eta entrenamendu-datu gutxi duten baliabide gutxiko hizkuntzetarako aplikazio bikainak eraikitzeko aukera ematen digute. 2. Sare neuronalen potentzialitateak Sare neuronalak gure burmuineko neuronak eta haien arteko konexioak imitatzen dituzten arkitektura informatiko-matematikoak dira. Gure burmuinean, sarrerak (hizketa, irudiak…) seinale elektriko bihurtzen dira, eta seinale horiek neurona-sarean zehar transmititzen dira, haren antolakuntzaren arabera, eta irteera bat edo beste sortzen da (beste hizketa bat, mugimendu bat…). Gure neurona-sarearen antolaketa bizitzan izandako ikasketa-prozesuak definitzen du. Sare neuronal artifizialetan, sarrera (audioa, testua, irudia…) 6 https://research.google/research-areas/natural-language-processing/. 7 https://ai.facebook.com/research/NLP/. 8 DLNLP

proiektua Eusko Jaurlaritzaren Ekonomiaren Garapen, Jasangarritasun eta Ingurumen Sailaren Elkartek deialdiaren barruan finantzatu da, funtsezko ikerketa-proiektuen atalean.

14-josu aztiria.indd 250

15/11/22 16:47

EUSKARA ADIMEN ARTIFIZIALAREN AROAN: AUKERA-LEIHOAK

251

digitalizatu egiten da, eta sareak digitu horiek transformatzen ditu, operazio matematikoak aplikatuz, eta irteera bat ematen du (testu transkribatua, testu itzulia, audioa…). Sarearen antolakuntza ikasketa- edo entrenamendu-faseak definitzen du. Sare neuronal artifizialak gure burmuinen imitaziozkoak badira ere, ez dira hain konplexuak —askoz neurona gutxiago dituzte, ehunka edo milaka batzuek; guk, aldiz, milaka milioi ditugu—, eta ataza zehatz baterako soilik entrenatzen dira: itzulpen automatikorako, hizketa-ezagutzarako, irudi-ezagutzarako edo dena delakorako, baina bat bakarrerako. Eta, sare neuronal horrek ikas dezan, ikastea nahi dugunaren adibideak eman behar dizkiogu: itzulpenak, audio transkribatuak, irudi etiketatuak… Sare neuronalek azken urteotan izan duten zabalkundea eta lortu dituzten emaitza onak ez dira beren kausaz soilik etorri. Sare neuronal artifizialen kontzeptua aspaldikoa da, eta zenbait garaitan asko ikertu zituzten eta asko saiatu eurak aplikatzen, baina ez zituzten lortzen espero izandako emaitzak, eta espektatibak ere ez ziren betetzen; hortaz, alboratuta egon dira edo erabilera bazterrekoa izan dute azken hamarkadaren erdialdera arte. Eta zergatik etorri da, orduan, berpizte edo «mirari» hau? Hiru faktore nagusi aipa daitezke sare neuronalen oraingo arrakasta hau azaltzeko. Lehenengoa da, orain askoz datu digital gehiago dagoela sare neuronalak entrenatzeko: itzulpen gehiago, audio gehiago, irudi gehiago… Bigarrena da, ordenagailuak ahaltsuagoak direla orain, eta horrela sare neuronalak ere handiagoak eta konplexuagoak izan daitezkeela eta datu gehiago eman dakiekeela ikasteko. Arlo horretan, GPUk edo grafikoak prozesatzeko unitateek izandako eragina da bereziki aipatzekoa. Berez, bideojokoetan baliatu ahal izateko sortu, garatu eta hedatu ziren txartel horiek, 3D renderizaziorako behar dira eta ahaltsuagoak dira orain: batetik, aipatutako hardware-hobekuntzagatik, eta, bestetik, sare neuronalen tipologia, algoritmo eta funtzio matematiko berriak asmatu direlako. Lehengo sinpleagoetatik bereizteko, gaur egungoei sare neuronal sakonak (deep neural networks) esaten zaie. 3. Itzulpen automatikoaren hobekuntza: hurbilpen sinbolikotik ikasketa automatikora

Itzulpen automatikoaren merkatu eta erabilerak hazkunde-tasa handia izango duela aurreikusten da, Gartner bezalako etxeak egindako aurreikuspenen arabera, eta badu zentzua. Hazkunde horren eraldaketa-faktore nagusiak ditugu, nazioarteko merkatu globalen hazkundea eta digitalizazio-prozesuaren bizkortzea —telelana eta komunikazio digitala nabarmen areagotu dira—, zein COVID-19ak ere azeleratu duen.

14-josu aztiria.indd 251

15/11/22 16:47

252

JOSU AZTIRIA URTARAN

Baina itzulpen automatiko neurolanaren (Neural Machine Translation) eztandak ere lagundu digu igoera esponentzial horretan. Ikasketa automatikoak eta ikasketa sakoneko algoritmoek itzulpen automatikoaren kalitate-maila izugarri hobetu dute eta esan daiteke, itzulpen automatikoak martxan zeuden prozesuan bizkortu egin dituztela hainbat sektoretan disrupzio zantzuak agertuz, hala nola hedabideetan eta ikus-entzunezkoetan. Azken aurrerapenen atzean, Transformer izeneko sistemetan (Vaswani et al. 2017) oinarritutako arkitektura neuronalak daude, izan ere, sare neuronaletan finkatutako arkitektura hori bihurtu da itzulpen automatiko neuronalaren «artearen» egoera berria eta teknologiaren kalitatean aurerapen ikaragarria ekarri duena. Elhuyarren hainbat ikerketa-proiektu abiarazi ditugu azken urteotan gure sistemen kalitate- eta egokitzapen-mailak ahalik eta handienak izan daitezen. Batzuetan elkarlanean funtsezko ikerketa proiektuetan9; eta ikerketa aplikatuko proiektuetan, aldiz, gure kabuz, gero eta itzultzaile automatiko hobeak izan ditzagun euskararentzat. Hala, itzultzaile automatiko pertsonalizatuagoak izango ditugu, kostu gutxiagorekin ezarri ahal izango direnak eta alborapen sozialik gabeak izango direnak, eta eurok gero eta hizkuntza-bikote gehiagotan. 3.1. Itzultzaile automatikoaren pertsonalizazioa Itzulpen automatikoaren merkatuan gero eta beharrezkoagoa da itzulpen pertsonalizatuak egitea, edukien eta erabiltzaileen berariazko eskakizunei zehaztasun handiagoz erantzun ahal izateko. Nahiz eta doitasun-mailak izugarri hobetu diren, hobekuntza horiek askoz txikiagoak dira testuinguru espezifikoetan. Alde horretatik, itzulpen automatiko pertsonalizatuen motorrek onurak ekar ditzakete, ugari, itzulpen automatiko generiko ororen aurrean. Garrantzitsuena itzulpenaren zehaztasuna hobetzea da, eta horrek, aldi berean, itzulpenaren kostua murrizten du (inbertsio txikiagoa postedizioan eta giza berrikuspenean, alegia). Itzulpen automatiko pertsonalizatuaren beste abantaila nagusietako bat, itzulpen-estiloa eta lehentasunezko terminologiaren erabilera kontrolatzeko aukera da. Itzulpen automatiko pertsonalizatua sintaxiaren, terminologiaren edo estiloaren erabilera jakin batera egokitu daiteke. Itzulpenen doitasuna hobetzeaz gain, itzulpen-zerbitzu pertsonalizatu batek erraztasunak eman diezazkioke hedabide bati, esaterako, itzulpen-eredua bere azpiegituran txertatzeko edo eredua modu erdiautomatikoan eguneratzeko. Horrek autonomia handia ematen dio bezeroari, sistemaren pertsonalizazioa modu inkrementalean hobetzeko. 9 MODELA

14-josu aztiria.indd 252

(KK-2016/00082), MODENA (KK-2018/00087).

15/11/22 16:47

EUSKARA ADIMEN ARTIFIZIALAREN AROAN: AUKERA-LEIHOAK

253

Azken urteotan, beraz, honako hauek dira martxan ditugun ikerlerro nagusiak, itzultzaile automatiko neuronalak gero eta hobeagoak izateko: •

•

Itzulpen automatikoko ereduetan terminologia pertsonalizatua erabiltzeko aukera izatea, profil terminologiko berri bakoitzeko eredu berririk sortu beharrik gabe (terminologiaren egokitzapena). Itzulpenetan terminologia aplikatzea aukerakoa eta dinamikoa izatea, hau da, bezeroak terminologia jakin bat itzulpena egiteko unean erabili ala ez aukeratu ahal izatea, eta erabiltzen dituen hiztegi terminologiko edo glosarioak guztiz dinamikoak eta eguneratzen errazak izatea. Ereduak norberaren domeinu, erregistro eta estilora egokitzea: bezeroaren corpusak edo testuak aurreprozesatzeko modua izatea, hainbat iragazki automatikoren bidez. Eredua norberaren domeinu, erregistro eta estilora egokitzeko, fine-tuning tekniken bidez egitea. Ondoren editatzeko eta berriz entrenatzeko aukera izatea, egokitze-prozesu dinamikoa eta inkrementala ahalbidetzeko.

3.2. Konputazio behar txikiagoa izango duten sistemak sortzea On-premise10 ereduak sortu eta Dockersen oinarritutako itzulpen automatikoko sistema eramangarriak erdiautomatikoki gauzatzea da asmoa. Itzulpen automatikoko sistema arinak instalatu ahal izango dira ordenagailuetan edo konputazio mugatuko zerbitzarietan. Horrek aukera handiak bideratuko ditu, izan ere, kostu eta baliabide gutxiagorekin sare neuronalarekin entrenatutako itzultzaile iautomatiko bikain eta pertsonalizatuak erakunde askoren eskura egongo dira, pribatutasun- eta kontrol-eskaerak ere hobe kudeatuz. 3.3. Genero- eta gizarte-alborapen oro saihestuko duten sistemak sortzea Azaldu dugun bezala, arkitektura neuronalek adibideetatik eta aurrez sortutako testu-corpusetatik ikasten dute, hau da, itzulpenetan, testuetan eta datu lingustikoetan dauden datuetatik. Datu horietan alborapenak baldin badaude (eta badaude), itzultzaile automatiko neuronalak alborapenok erreproduzitu egingo ditu eta biralitate handiagoa eman, esponentzialki hazten baita beraien erabilera. Honenbestez, euskaratik gaztelaniarako itzultzaile automatiko neuronalean genero-alborapena saihesteko eta zuzentzeko ikerketa hasita gaude da10 https://en.wikipedia.org/wiki/On-premises_software.

14-josu aztiria.indd 253

15/11/22 16:47

254

JOSU AZTIRIA URTARAN

goeneko, entrenamendu-corpusa orekatuz edo eredua corpus orekatu batekin orekatuz. 3.4. Etorkizuneko ikerlerro berriak Lehen aipatutako moduan, eredu neuronalaren etorrerak aurrerapen izugarria ekarri dio itzulpen automatikoari. Hala ere, gaur egun dauden sistemek datu asko behar dute (gainbegiratze sakona!) eta corpus paralelo gisa, normalean milioika perpaus behar izaten dituzte. Baina harrigarriki, gizakiok, hizkuntzak eskuratzeko eta itzulpenak egiteko, ez dugu baldintza hori behar. Gure asmoak beraz argiak dira: itzultzaile automatiko neuronal hobeak eraiki nahi ditugu, euskara beste hainbat hizkuntzekin lotuz, alborapenik gabekoak, pertsonalizatuak eta konputazio-kostu txikiagoa izango dutenak, hau da, kalitate handiko itzultzaile automatiko neuronal pertsonalizatuak, bideragarriak eta etikoak. 4. Hizketa-teknologien aurrerapenek dituzten potentzialitateak Hizketaren teknologiak sistema automatikoen garapenean oinarritzen dira, ahotsaren bidez gizakien eta makinen arteko elkarreraginerako. Bi multzo bereiz daitezke, helburuaren arabera: hizketaren sorrera edo sintesia (makinei hizketa-gaitasuna ematea) helburu duena, TTS edo Text-To-Speech gisa ere aipatua; eta hizketa ezagutzea (makinei giza hizketa ulertzeko gaitasuna ematea) jomuga duena, ASR edo Automatic Speech Cognition izenez adierazia. Hizketa-ezagutzako teknologia, funtsean, hizketa daukan audio-seinalea testu bihurtzean datza. Ingelesez Automatic Speech Recognition (ASR) edo Speech-To-Text esaten zaio. Hizkuntza- eta hizketa-teknologien beste alor askotan bezala (eta horietaz kanpoko beste alor ugaritan ere bai, hala nola irudien ezagutzan), honetan ere sare neuronalak erabiltzen hasita daude aspaldi, eta jauzi handia egin da kalitatean. Bada, esan bezala, sare neuronal sakonei esker, azkenaldian asko aurreratu dira hizkuntza tratatzeko sistema automatikoak. Hizketa-ezagutza dago haien artean, haren aplikazio ezagun batzuek erakusten duten bezala, berbarako: iPhoneetako Siri laguntzaileak, Youtubek bideo batzuetan eskaintzen dituen azpititulu automatikoek, Amazonen Echo bozgorailu adimendunak… Horiek guztiek, baina, badute ezaugarri komun bat: teknologia-multinazional erraldoienak diren neurrian, ez daude euskaraz. Haien estrategia eta merkatu-interesetatik kanpora daude euskara eta haren gisako hizkuntzak. Elhuyarren

14-josu aztiria.indd 254

15/11/22 16:47

EUSKARA ADIMEN ARTIFIZIALAREN AROAN: AUKERA-LEIHOAK

255

sinestuta gaude euskarak bizitasun digital ona izango badu, gure hizkuntzarentzat giltzarriak diren garapen teknologikoak ez ditugula erraldoi horiek egingo dutenaren edo egingo ez dutenaren menpe utzi behar. Hortaz, euskarazko hizketa-ezagutzako sistema bat garatu eta gizartearen eskura jartzeko lanari ekin genion, eta, urte batzuetako lanaren ondoren, gizarteratzeko eta merkaturatzeko moduko emaitzak ematen dituen sistema bat lortu dugu. Sistema hori ez da inola ere perfektua; egon ere, ez dago halakorik hizkuntza lantzeko teknologia automatikoetan. Youtubek azpititulatze automatikoa bideo-mota jakin batzuetan soilik eskaintzen duen bezala, edo itzultzaile automatikoa testu administratiboekin ongi baina poesiarekin hain ongi ez dabilen bezala, Elhuyarren euskarazko ezagutzailea ere hobeto dabil kasu batzuetan beste batzuetan baino. Asmatze-tasa oso ona —% 95ekoa edo handiagoa— lor daiteke hitzaldietan, dokumentaletan, albistegietan, udalbatzarretan, erreportajeetan eta horien antzekoetan, gehienean euskara batuan, irakurrita eta mikrofono onekin egiten baitira. Aldiz, okerrago dabil filmetan, euskalkietan (batzuetan hobeto beste batzuetan baino), elkarrizketa espontaneo eta informaletan… Esan beharra dago, mikrofonoen edo audio-grabazioen kalitateak, zaratak, oihartzunak, musikak, bolumenak, abiadurak eta abarrek ere eragina dutela emaitzan. Akatsak eta zuzentzekoak hortxe daude, eta bagoaz horiek ere lantzen eta hobetzen, pixkanaka. Baina, kasu askotan oso baliagarria eta erabilgarria denez, teknologia lehenbailehen euskal gizartearen eskura jarri nahi dugu. Zerbitzu horretara audio- edo bideo-fitxategi bat igo ahal izango dugu (edo audio edo bideo bat daukan onlineko esteka bat ere eman diezaiokegu; EITB Nahieraneko, Youtubeko, Facebookeko edo Instagrameko esteka bat, adibidez), eta bertan esaten dena idatziz jasoko dugu, hiru formatutan: transkripzioaren testu hutsean, azpitituluak (srt edo vtt formatu estandarretan) jarrita eta transkripzioa hitzen denbora-markekin (bideoen gaineko bilaketan hitz bat zer segundo zehatzetan esan den jakiteko, adibidez) adierazita. Azpitituluak editatu egin ahal izango dira interfaze eroso baten bidez, deskargatu aurretik. Horrez gain, zerbitzuak mikrofonotik (ordenagailuaren zein telefono mugikorraren mikrofonotik) esaten dioguna transkriba diezaguke, bi modalitatetan: audio-fitxategia sor dezakegu, eta hura transkribatzera bidali; edo mikrofonotik esaten duguna aldi berean transkribatzeko eska diezaiokegu. Euskararen egungo testuinguru diglosikoa aintzat hartuta, euskal gizartearentzat eta bertako erakunde eta eragileentzat baliagarria izan dadin, beharrezkoa deritzogu gaztelaniaz eta frantsesez ere zerbitzua eskaintzeari. Oraingoz, elebiduna izango da sistema, eta euskarazko eta gaztelaniazko audioak transkribatuko ditu, baina lanean ari gara frantsesa eta beste hizkuntza batzuk ere txertatzeko. Hori bai, hizkuntza batean edo bestean lan egiten du, momentuz.

14-josu aztiria.indd 255

15/11/22 16:47

256

JOSU AZTIRIA URTARAN

Audio edo bideo elebidunekin ibiltzeko ahalmena ere laster garatu eta jartzeko asmoa dugu (udalbatzar asko izaten dira bi hizkuntzatan, nahasian). Teknologiak euskaraz funtzionatzea ez da bereizgarri bakarra; beste bi gauzak ezberdintzen dute multinazional erraldoi teknologikoen hizketa-ezagutzako zerbitzuetatik. Batetik, datuen konfidentzialtasuna bermatzen du. Bestetik, enpresa eta erakundeentzat neurri-neurriko soluzioak eskaintzen ditu, haien CMSan, laneko fluxuan, aplikazioetan eta abarretan API bidez integratuta. Aldibereko transkripzioa ere API bidez erabil daiteke, laguntzaile birtual batean integratzeko, ekitaldiei zuzenean azpitituluak jartzeko, eta abarretarako. Harago joanda, nahi izanez gero, bezeroarenean ere instala daiteke transkribatzailea. Plataformak, gainera, ediziorako interfazea ere izango du, automatikoki sortutako transkripzioak eta azpitituluak eskuz zuzendu ahal izateko, testu-fitxategia deskargatu aurretik. Sistema doan proba daiteke, eta, baliagarri irudituz gero, norberaren beharren araberako ordainpeko plana kontratatu. Plataforma honek argia ikustea hasiera besterik ez da guretzat. Teknologia hobetzen jarraitu behar dugu, hobeto ezagut ditzan elkarrizketa informalak, kalitate txarreko audioak, euskalkiak, filmak, abestiak, bertsoak… Horiei guztiei pixkanaka helduko diegu, guk geure kasa edo horiexetan interesa duten erakundeekin elkarlanean. Horrez gain, ahalik eta tresna eta zerbitzu gehienetan integratu nahi genuke, jendeak erraz baliatzeko; adibidez, ordenagailuak edo beste gailu batzuk hizketaz kontrolatzeko softwareetan, diktaketa-tresnetan, bozgorailu adimendunetan, laguntzaile birtualetan… Hamaikatxo erabilera izan dezake sektore anitzetan. Irisgarritasunari begira, ekarpen handia egin dezake: azpitituluak jartzeko, ordenagailuari diktatzeko edo aginduak emateko… Kasurako, ikus-entzunezkoen enpresek, telebistek eta irratiek balia dezakete, albistegiei, dokumentalei eta erreportajeei azpitituluak jartzeko eta beren testuak transkribatzeko. Hedabideek eta kazetariek elkarrizketen grabazioak transkriba ditzakete. Administrazio publikoak bileren aktak jasotzeko erabil dezake. Komunikazioaren munduan, hitzaldi edo ikastaroen azpitituluak sortzeko balia daiteke. Hizketa-ezagutza, gainera, itzulpen automatikoarekin konbina daiteke, hizketa-sintesiarekin (testua ahots bihurtzeko sistema, alegia, zeina dagoeneko garatua eta inplementatua baitugu zenbait webgunetan, hala nola Elhuyarren Zientzia eta Teknologiaren aldizkariaren webgunean) eta chatbot teknologiarekin (hots, elkarrizketak aurrera eramateko eta galderei erantzuteko teknologia). Sistema horiekin konbinatuta, pertsonen eta makinen arteko interakzioko gailuetan inplementa daiteke: bozgorailu adimendunetan, domotikan, elkarrizketa-agenteetan, laguntzaile birtualetan, dei-zentroetan… Horretara heltzeko ez da, bada, asko falta.

14-josu aztiria.indd 256

15/11/22 16:47

EUSKARA ADIMEN ARTIFIZIALAREN AROAN: AUKERA-LEIHOAK

257

Adibidez, pentsatzekoa da ezen, azpitituluak jartzea erraztuta, euskarazko ikus-entzunezkoei gehiagotan azpitituluak ipintzea ekarriko duela horrek. Automatikoki sortutako azpitituluak zuzentzeko enkarguak irits litezke, eta horrek lan-eremu eta espezializazio berri bat ekarriko luke. Azpititulu gehiago itzultzea ere ekar lezake. Eta hori, noski, itzultzaile automatikoen bidez egin liteke, baina badakigu, oraingoz behintzat, itzulpen automatiko oro berrikusi behar duela jatorriko eta helburuko hizkuntzak ondo menderatzen dituen profesional batek; beraz, lan-aukera berriak etor litezke itzultzaile-zuzentzaileentzat. Interpreteen kabinetan ere lagundu dezake hizketa-ezagutzaileak. Interpreteak, atzean geratzen bada, laguntzaile birtuala izan dezake, idatziz erakutsiko baitizkio hizlariaren esanak, bera interpretatzen ari dela. Hala, ez du jarioan ezer galtzeko arriskurik, nahiz eta proposatzen diona guztiz zuzena ez izan. Itzultzaile automatikoen garapenak kezka sortu izan du itzultzaile profesionalen artean, eta hizketaren ezagutzako teknologia honek ere ekarriko du ezinegona. Aipatutako teknologien konbinazio horrek, beharbada, ahalbidetu lezake hizketa-hizketa itzulpenak, bideodeien itzulpenak eta interprete- eta bikoizketa-lanak automatikoki egitea. Baina halakook, inoiz etortzen badira ere, denbora asko barru etorriko dira... Momentuz, askotan ikusi izan dugun bezala, «mehatxuak» aukera bihur litezke, eta hizketa-teknologiek ere ekar ditzakete aukera berriak itzultzaile, zuzentzaile eta interpreteentzat. Beraz, gakoa ez da teknologiak mehatxutzat hartu eta errefusatzea, lan-jardunean txertatu eta bera baliatzen jakitea baizik. Aukera berriak diogu, orain arte bikoizten ez ziren eta azpititulurik jartzen ez zitzaien ikus-entzunezko asko bikoiztea eta azpitituluak jartzea egongo delako, euskarazko edukiak are gehiago hedatzeko modua izango delako eta, azken finean, orain arte iristen ez ginen eremuetara iritsi egingo garelako. Digitalizazioak eta automatizazioak hizkuntzaren profesionalen funtzioak eta eginkizunak aldatu egingo dituzte, baina ez dituzte desagerraraziko; eraldatu bai, eta beharrezkoa izango da profesionalak trebatzea, ibilbide profesionalak egokitzea eta teknologia baliabide bat dela ulertzea. Horrez gain, produktibitate-hobekuntzak eduki gehiago ekoizteko eta profesionalen baldintzak hobetzeko baliatu behar lirateke. Eraldaketa teknologikoa hementxe dago, eta hori gure profesionalen, euskarazko edukien eta kalitatearen alde baliatzea dagokigu; guk egiten ez badugu, inork ere ez du egingo. Ahotsa sintetizatzeko sistema neuronalak garatu dira, makinei hizketa naturalagoa eta arinagoa emateko, aurreko teknikekin alderatuta. Ahots lehenetsien paleta eskaintzeaz gain, sintesia nahi den hizketara egokitu daiteke. Sintesi-sistema eleaniztunak sortzeko aukera ere ikertzen ari dira, hau da, ahots bera hizkuntza desberdinetan sortzeko era. Ahotsa ezagutzeari dagokionez, ezagutzan kalitate hobea eskaintzen duten neurona-sareetan oinarritutako sistemak burutu dira.

14-josu aztiria.indd 257

15/11/22 16:47

258

JOSU AZTIRIA URTARAN

Adibidez, irisgarritasunerako hainbat irtenbide eta tresna garatu dira, TTS teknologian errotuta. (Leturia 2019) Ahotsaren sintesiak ere aukera handiak ematen ditu ahotsak pertsonalizatzeko. Deep learning eta sare neuronaletan oinarritutako teknologien bidez, edozein pertsonaren edozein ahots ordu gutxi-gutxiren barruan pertsonalizatzeko gai gara; beraz, entzun nahi ditugun edukiak naturalago egin ahal izango ditugu, edozein hizkuntzatan (multispeaker teknologiaren medioz); eta aukera ematen die ahotsa galdu duten lagunei, edo berea sortzeko modua izan dezaketenei, beste gailu batzuen bidez komunikatu eta interakzioan aritzeko. Ahotsaren sintesiak ere baliabide asko eskaintzen du. Deep learning eta neurona-sareetan oinarritutako teknologiak erabiliz, kalitate handiko ahots artifiziala sortzea eta edozein ahots egokitzeko malgutasuna lortu dugu. Multispeaker ahotsa sortzeko metodoak erabiliz, ahots hori grabatzeko minutu gutxi behar dituen edozein pertsonaren ahotsa sortzeko gai gara. Pertsonalizazio horri esker, ahotsa galdu duten pertsonek berriro erabil dezakete laguntzari ekiteko, gure zerbitzuak sortutako audioak erreproduzitzeko gailuak. Gainera, gure sistemak cross-language aukera ere badu; horren bitartez, edozein pertsonaren ahotsa sor dezakegu ahotsaren grabazioetan sartu ez den hizkuntza batean hitz egiten. Horrek malgutasun eta pertsonalizazio handia ematen dio komunikazioari zenbait hizkuntzatan. 5. Aukerak eta interbentzio-esparru berriak Aipatu dugu aukera eta interbentzio-esparru berriak dakartzala adimen artifizialak izan dituen aurrerapenak. Hona hemen etorkizun hurbilean landu beharreko eta martxan jartzeko proposatzen ditudan hainbat interbentzio-esparru: • • • • •

Jendaurrean eta komunikazio idatzian euskarari lehentasuna ematea, entzule edo ikusle guztien ulermena eta hizkuntza-eskubideak bermatuz. Ikus-entzunezko euskarazko edukiak biderkatzea lor daiteke bikoizketa automatikoa aplikatuz gero. Fabriketan makinekin euskaraz komunikatzeko gai izatea (4.0 Industria). Euskararen erabilera (zenbatekoa eta nolakoa) monitorizatu eta neur daiteke Big Data sistemen bidez. Euskararen marka, narratiben eta diskurtsoen azterketak. Eta jarraian jorratzen dihardugun bi bide azalduko ditut.

14-josu aztiria.indd 258

15/11/22 16:47

EUSKARA ADIMEN ARTIFIZIALAREN AROAN: AUKERA-LEIHOAK

259

5.1. UdalHiztek proiektua: euskarari lehentasuna nola eman udal administrazioan Hizkuntza-teknologien bidez euskara udalen eguneroko funtzionamenduan sustatzea helburu duen proiektua da UdalHiztek. Gipuzkoako Foru Aldundiaren Etorkizuna Eraikiz–GipuzkoaLab programaren dirulaguntza-deialdiaren bidez finantzatua da proiektu hau, zeina Elhuyarrek sustatu eta Orioko Udalean urte eta erdiz landu baita. Prozesua Elhuyarrek gidatu du, eta Gipuzkoako Foru Aldundiko Estrategia eta Hizkuntza Berdintasuneko zuzendaritzek eta Orioko Udaleko teknikari eta arduradun politikoek parte hartu dute. Esperientzia piloturako Orioko Udala aukeratu zen, proiektua bertan gauzatzeko baldintzak betetzen dituelako (aurrez aurrekoan ere Udalean euskara erabiltzen da, soziolinguistikoki euskalduna da), eta proiektuan sinetsi eta parte hartzeko asmo sendoa agertu zuelako Orioko Udalak. Bi hizkuntza ofizialen erabilerak buruhauste eta arazo ugari ekarri ohi ditu administrazioen egunerokotasunean, dokumentazio guztia bi hizkuntzetan sortu behar izaten denean, bereziki. Egoera horiek hobeki kudeatzeko asmoarekin sortu da UdalHiztek proiektua. Hala, udal batek barne- eta kanpo-komunikazioak euskaraz gauzatzeko dituen beharrak hautematea, eta hizkuntza-teknologiak baliatuz, horrexetarako irtenbideak proposatzea eta aplikatzea izan da egitasmoaren egitekoa, betiere euskara ardatz harturik. Izan ere, udalek euskaraz lan egitea lortu nahi da UdalHiztek egitasmoarekin, euskaraz ez dakiten langile eta herritarren hizkuntza-beharrak hizkuntza-teknologien bidez asez. Egitasmo horrek euskara erdigunean jartzen du, udaleko edukiak sortzeko hizkuntza euskara dela bermatuz. Gainera, hizkuntza-gaitasuna handitzea ahalbidetzen du, eta testuinguru elebidunetan sortzen diren lan gehigarriak ekiditeko tresna ere ematen du, itzultzaile neuronalari eta jarraibide zein prozedura egokiei esker. Proiektua ez da mugatzen teknologia batzuk ezarrita soilik. Azken urratsa da hori. Aurrez, udalaren egoera soziolinguistikoa aztertzen da, langileek euskaraz jarduteko eta idazteko dituzten zailtasunak eta hobetzekoak identifikatu, eta bestelako muga edo zailtasun batzuk hautematen dira (bideoak, ikus-entzunezkoak, sareko edukiak…). Hobetzeko hipotesi batzuk planteatzen dira, eta bi lan-ildo nagusi ezarri: batetik, udalak eguneroko lanean dituen behar linguistikoekin lotutako irtenbide teknologiko batzuk proposatzen dira; bestetik, horietan oinarrituta, aurrerantzean garatuko den metodologia adosten da. Bi dira Orioko Udalean erabili diren teknologiak: •

14-josu aztiria.indd 259

Itzulpen automatikoa: ohiko itzulpenak errazteko erabili da. Alde batetik, Udaleko langileek edukiak euskaraz sortzeko, eta, beharraren arabera, gaztelaniazko edukiak automatikoki itzultzeko; beste alde batetik, Udalean

15/11/22 16:47

260

•

JOSU AZTIRIA URTARAN

bertan euskara-teknikariak itzultzen dituen testuak lantzen laguntzeko. Horrez gain, Orioko Udaleko orio.eus webgunean ere itzultzaile automatikoa integratu da, euskara hutsez argitaratutako albisteak gaztelaniaz irakurri ahal izateko, irakurleren batek beharra balu. Hizketaren ezagutza: udalbatzarrei azpitituluak jartzeko erabili den teknologia da. Udalbatzarretako bideoetan eta zuzeneko emankizunetan, euskaraz nahiz gaztelaniaz hitz egiten dutenen ahotsari azpitituluak jarri zaizkio, eta itzulpen automatikoarekin itzulpenak egin dira: euskaraz hitz egiten denean gaztelaniazko azpitituluak sortu, eta, alderantziz, gaztelaniaz hitz egiten denean euskarazko azpitituluak erakutsi.

Bide horretan, Orioko Udalak euskara hutsez funtzionatzeko erabili nahi ditu hizkuntza-teknologiak, lagungarri gisa. Euskaraz lan egiteko tresna egokiak dira eta, horrenbestez, Udalaren kudeaketa hobetzeko balio dute. Izan ere, euskara hutsean lan eginda —eta itzulpen-lana makinari utzita— Udala askoz eraginkorragoa izan daiteke, beti lan guztiak bi hizkuntzetan egin beharraren katetik askatuta. Orioko Udalak efikazian eta efizientzian aurreratzeko erabili nahi ditu hizkuntza-teknologiak eta, aldi berean, lanean darabilen hizkuntzaren kalitatea hobetu. Administrazioetan euskarazko sareakak sortzeko aliatu aproposa bihur daiteke egitasmo hori, eta testuinguru elebidunetan, ulermena bermatzeko eragile. Hartara, Orioko Udalak egin bezala, dokumentazio guztia zertan ele bitan zabaldu(rik) ez da egongo, euskaraz ez dakienak hizkuntza-teknologien bidez jasoko baitu informazioa. Azpimarratzekoa da, era berean, halako teknologiak erabiltzeak edukietarako irisgarritasuna bermatzen dietela administrazioko langileei eta herritarrei; ez hizkuntzaren aldetik bakarrik, entzumen-urritasuna dutenentzat ere, kasu baterako, oso baliagarriak baitira, azpitituluak, adibidez. Egitasmoa hedatzeko une aproposa oraintxe dela deritzote sustatzaileek, batetik, administrazioko langileen euskara-gaitasuna inoizko handiena delako; bestetik, hizkuntza-teknologietan azken urteotan egin diren urratsek gaitasun teknologiko handia ematen dutelako; eta, hirugarrenik, Euskadiko Toki Erakundeei buruzko Legeak aukera zabaltzen duelako udalek guztiz euskaraz lan egin dezaten. UdalHiztek proiektuaren hurrengo urratsa, metodologia hau beste udal eta administrazio batzuetara zabaltzea izango da, hau da, Orioko Udalean erabili den metodologia beste ezaugarri batzuk dituzten administrazio eta errealitateetan aplikatzea. 5.2. Mycroft. EUS: bozgorailu euskaldun, adimendun eta etikoa Euskaraz ulertzeko eta hitz egiteko gai izango den bozgorailu adimenduna garatzea du helburu proiektuak. Horretarako, Mycroft AI software libreko gailua

14-josu aztiria.indd 260

15/11/22 16:47

EUSKARA ADIMEN ARTIFIZIALAREN AROAN: AUKERA-LEIHOAK

261

egokituko dute Elhuyarrek, Skurak eta Talaiosek, Elhuyarren bi sistema hobetuz eta integratuz: hizketaren ezagutza eta sintesia, biak ala biak adimen artifizialean eta Deep Learning deritzon teknologian oinarrituta garatuak dira. Euskara eremu digitalean sendo sustraitu dadin, beharrezkoak dira hainbat eragileren jakintza, ezagutza eta elkarlana. Egitasmo honek horixe du xedea, punta-puntako teknologia garatzeko norabide berean ariko diren erakundeen indarrak metatzea, administrazioaren babesarekin eta laguntzarekin. Proiektu honek izaera esperimentala duen arren, ikerketa eta garapeneko prozesuaren amaieran, urtebete barru, alegia, euskarazko bozgorailu adimendun guztiz funtzionala izatea aurreikusten da. Bozgorailu berria asmo handiko proiektua da: erabiltzaileen pribatutasuna bermatuko du, eta genero-ikuspegi egokia izango du txertatuta. Horrez gain, Elhuyarren ahotsaren ezagutza eta sintesia bozgorailuen domeinura egokituko dira, eta tokiko gaitasunak garatuko dira, euskarazko bozgorailuak Euskal Herriko albisteak, musika eta erosketak lehenets ditzan. 6. Amaitzeko: desio bat Euskara eta baliabide urriko hizkuntzen garapen teknologikoa aitzindaritzan jartzeko, herri-proiektu anbiziotsua eta nazioartekoa garatzea ezinbestekoa dugula iruditzen zait. Goi-mailako AAH Ikerketa Sare Kooperatiboaren eraketari ekin behar genioke azkar baino lehen: konputazio-ahalmena biderkatuko duena; ikertzaileak eta garatzaileen goi-mailako lanpostuak sortuko dituena; argitalpenak, baliabideak eta enpresak sortuko dituena, emakumeen presentzia parekidea izango duena… Azken batean, euskararen garapena eta munduko baliabide urriko hizkuntzen osasun digitala bermatuko ditu; eta irisgarritasuna unibertsalari eta erronka sozialei (berdintasuna, aldaketa klimatikoa, arrakala digitala..) erantzungo die. Heldu diezaiogun, bada. Erreferentziak Leturia, I. (2014): The Web as a Corpus of Basque. Doktore-tesia (Informatika Fakultatea). Donostia: UPV/EHU. Saralegi, X (2017): CLIR Teknikak baliabide urriko hizkuntzetarako. Doktore-tesia. Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, L. eta Polosukhin, I. (2017): Attention is all you need. Proc. of the 31st Conference on Neural Information Processing Systems (NIPS).

14-josu aztiria.indd 261

15/11/22 16:47

14-josu aztiria.indd 262

15/11/22 16:47

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK: BIDEAN IKASIXA ETA PLANGINTZA BATEN BEHARRA Iñaki Alegria Loinaz Olatz Arregi Uriarte Xabier Artola Zubillaga (Ixa taldea, HiTZ zentroa, UPV/EHU) [email protected]

Laburpena Ordenagailuak, digitalizazioa, Internet, liburu elektronikoak, telefono adimendunak, sare sozialak... joan dira sartzen gure etxeetan eta enpresetan, eta horiekin batera bai hizkuntza-teknologiak ere. Zorionez, euskara goiz hasi zen arlo teknologikora egokitzen, eta teknologia ere hasi zen euskara kontuan hartzen. Dena den, baliabide handiagoko hizkuntzekin alderatuta egindako azterketek diote teknologia hauek (hizketa‐prozesamendua, itzulpengintza automatikoa, testu‐analisia...), eta horretarako beharrezkoak diren oinarrizko baliabideak egoera «osatugabean» ditugula euskararen kasuan. Hala, bada, etorkizunerako dauden erronkak oso handiak dira. Ixa taldearen ibilbidean islatzen da zein bilakaera bizi izan dugun arlo honetan, eta argi dugu erronka horiei aurre egiteko plangintza bat diseinatu eta martxan jarri behar dela, Eusko Jaurlaritzak eta HPSk finantzatuta, eta erakunde, unibertsitate eta enpresen artean lankidetzan garatuta. Halako plangintza baten nondik norakoak eta balizko lerro nagusiak ere aipatzen dira artikuluan.

15-iñaki alegria/olatz arregi/xabier artola.indd 263

24/11/22 13:43

264

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

Sarrera Ordenagailuak, digitalizazioa, Internet, liburu elektronikoak, telefono adimendunak, sare sozialak... joan dira sartzen gure etxeetan eta enpresetan, eta horiekin batera bai hizkuntza-teknologiak ere. Hiztegiak kontsultatzea, testuak zuzentzea, edukiak bilatzea amaraunean, aginduak ahoz ematea, itzulpena automatikoki lortzea, elkarrizketa baten transkripzio automatikoa… Zeregin horien guztien atzean dagoen arlo zientifiko-teknikoari hizkuntza-teknologia edo lengoaia naturalaren prozesamendua deitzen zaio. Hizkuntza eta teknologia gurutzatzen diren tokia. Teknologia hainbatetan komuna izan badaiteke ere, hizkuntza bakoitzak bere berezitasunak ditu, eta horretarako formalizazio, tresna edota datu bereziak behar izaten dira. Aurrera aterako bada, hizkuntza bat ezin da teknologia horietatik aparte geratu, bere garaian inprentaren edo alfabetatzearen bidea hartu behar izan zen modu berean. Kokapena Teknologia hauen lehengaia hizkuntza da, dudarik gabe, hizkuntzazkoak baitira prozesaketan erabiltzen diren datuak. Datuen tipologiari begiratzen badiogu, berriz, lehenik eta behin testua eta hizketa (ahozkoa) bereizi behar dira. Urte askoan testuak izan du nagusitasun handia arlo honetan, baina ahozko seinale digitalizatua gero eta erabiliagoa da aplikazioetan. Hizkuntza aipatzen denean, askotan erregistro formala edo jasoa dugu buruan, baina, aplikazioak erabilgarriak izango badira, bestelako testuak/hizketaldiak ere kontuan hartzekoak dira: akastunak, dialektalak, historikoak, erabilera informala eta ez-estandarra... Are gehiago, erregistro berri bat sortu da, gazteen artean batez ere, Perezek eta Zulaikak (2013) mintzidatzia deitu dutena. Euskararen egoera Zorionez euskara goiz hasi zen arlo teknologikora egokitzen, eta teknologia ere hasi zen euskara kontuan hartzen. Egoeraren berri ezagutu nahi duenarentzat oso gomendagarria da Euskarazko IKTak. Gomendioak herri-aginteentzat txostena (EAB 2016). Bertan aipatzen dira dauden indarguneak eta ahuleziak, eta proposatzen dira lehentasun handiko hamabi gomendio. Informazio eta Komunikazioaren Teknologien (IKT) inguruko gomendioen artean, azkena hizkuntza-teknologiei dagokie: «Hizkuntza-teknologiak garatzen lagundu eta bera-

15-iñaki alegria/olatz arregi/xabier artola.indd 264

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

265

riazko plana garatu». Txostenaren ebaluazioa egiten ari da: puntua bete gabetzat jo da eta garrantzi handikoa dela berretsi da. Euskara beste hizkuntzen testuinguruan kokatzeko Hizkuntzen heriotza digitala artikulua (Kornai 2019) aipatu behar da. Soziolinguistika alorrean inpaktu handia izan duen artikulu horren arabera, munduko hizkuntzen artean ehuneko bost bakarrik dago osasuntsu ingurune digitalean. Ondorio horretara heltzeko, bizi-indar digitala neurtzeko metodo bat proposatzen du, honako adierazle hauetan oinarrituta: • • • •

Eduki digitalak, bereziki Wikipedia. Lokalizazioa eta sistema-euskarria (Windows, Apple). Hitz-mailako tresnak (zuzentzaile ortografikoak). Tresna sintaktikoak eta itzulpengintza automatikoa.

Euskara aipatzen du arrakasta-kasu gisa, baina orokorrean oso ezkorra da hiztun edo baliabide urriko hizkuntzei dagokienez. Beste iturri batzuetara joz, MITen egindako azterketa bat ere aipa daiteke, Sustatuk jaso zuena (Sustatu 2014): [...] euskarak eutsi egiten dio teknologiarako eta kulturarako gai den hizkuntza baten posizioari: liburu-itzulpenen rankingean, 54. da euskara, 247 hizkuntza guztira; Wikipediakoan, 47., 134 hizkuntza guztira; Twitterrekoan, 36., 70 hizkuntza guztira.

Dena den optimismotik ihes egitea ezinbestekoa da, hizkuntza hegemonikoek, eta batez ere ingelesak, nagusitasun gero eta handiagoa dutelako ingurune digitalean. Azpimarratzekoa da Islandia bezalako estatu-nazio eta uharte batean oso kezkatuta daudela «minimizazio digitalaz» (Henley 2018). Euskara hizkuntza-teknologietan (2012) IKTetatik hizkuntza-teknologietara urratsa eginez, 2012ko azterketa interesgarria (Hernáez et al. 2012) har dezakegu oinarri gisa. Azterketa hori Europako azterketa orokor baten barruan dago, eta hizkuntza-teknologien arloan hogeita hamar hizkuntzaren egoera aztertzen da. Lortutako ondorio nagusiak honako hauek dira: • • •

Alde batetik ingelesa dago, eta bestetik beste guztiak. Aztertutako 30 hizkuntzetatik, 21ek duten babes digitala «hutsa» edo «eskasa» da. Euskara 21 hizkuntza horien artean dago, ez azkenekoetakoa.

15-iñaki alegria/olatz arregi/xabier artola.indd 265

24/11/22 13:43

266

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

Aipatzen diren kategoria gehienetan (hizketa‐prozesamendua, itzulpengintza automatikoa, testu‐analisia, baliabideak) egoera «osatugabea» esleitzen zaio euskarari, eta kualitatiboki «egoera baikor baina zuhur aztertu beharrekotzat» jotzen da. Teknologiaren bilakaera eta hizkuntzaren estandarizazioa Kokapena eginda eta euskararen egoera orokorra aztertuta, azter dezagun zein izan den Ixa taldean teknologia garatzeko estrategia euskararako, eta zein diren azken urteotako joerak. Aipatutako estrategia nazioarteko hainbat forotan eta argitalpenetan azaldu dugu (Aduriz et al. 2011; Alegria, Sarasola 2017), eta uste dugu baliabide urriko hizkuntzetarako adibide egokia izan daitekeela. Gaur egun ere lan horretan aritzen gara, Garabide elkartearen eskutik hainbatetan. Ixa Taldea: hasiera 1988. urtean abiatu ginenean euskarak, zorionez, hiztunez gain, bi oinarri sendo zituen teknologiaren garapenari begira: estandarra definituta zegoen eta testuak ekoizten ziren. Hori gabe oso zaila izango zen abiatu genuen bideari heltzea; eta horren falta dute, gaur egun, teknologiaren bidea jorratu nahi duten hainbat hizkuntza-komunitatek. Oinarri sendo horri helduta teknologiak bere bidea egin dezake askoz modu erosoagoan, beharrezkoak diren hainbat osagai prest daudelako abiatu baino lehen. Ikerketa-taldea UPV/EHUko Informatika Fakultatean eratzean finkatu ziren funts metodologikoak (idatzi gabeak) honakoak izan ziren: • • • • •

Euskara izango zen gure ikerkuntzaren zutabeetako bat. Diziplinen artekotasuna nahitaezkoa zen: informatikariak eta hizkuntzalariak nagusiki. Anbizioa eta nazioarteko erreferentzia. Euskara erreferentzia izateak ez zuen ekarri beharko isolamendurik edo txokokeriarik. Berrerabilera. Ikerketa eta aplikazioa uztartu nahi genituen, eta uztarketa horretan arrakasta lortzeko berrerabilera funtsezkoa izango zen egin beharreko urrats bakoitzean. Lankidetza-giroa eta diziplinarteko ekinbidea. Aurrekoarekin lotuz, ezin genituen aparte utzi Euskal Herrian gure lankide izan zitezkeen ikertzaileak

15-iñaki alegria/olatz arregi/xabier artola.indd 266

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

267

eta erakundeak: UZEI, Elhuyar, Euskaltzaindia, EHUko Euskal Filologia saila eta abar, eta abar. Bestalde, oso garrantzitsua izan zen, eta jarraitzen du izaten, gure lana hiru plano osagarritan antolatzea: •

•

•

Baliabideak: Hizkuntzaren isla diren elementuek osatzen dute: corpusak, hiztegiak, ontologiak. Batzuk paperean zeuden, baina egileekin adostu eta digitalizatu egin behar ziren; beste batzuk sortu egin behar dira, ez daudelako edo egileekin ezin izan delako adostu. Tresna orokorrak: Funtzio linguistiko nagusiak burutzeko gai diren tresnak dira, eta normalean ez dute aplikazio zuzenik baina hainbat aplikazioren oinarri dira. Analizatzaile morfologikoak eta sintaktikoak, desanbiguatzaile semantikoak, etiketatzaileak... Adibidez, analizatzaile morfologikoa izan zen zuzentzaile ortografikoaren oinarri: hitz batek analisi morfologikorik badu, hizkuntzaren partea da, eta, beraz, ez da azpimarratu behar. Aplikazioak/produktuak: Erabiltzaileen esku jartzen den teknologia. Erabiltzaile orokorra izan daiteke, edo espezializatua. Hasieran PCetan ezartzen ziren, baina Internet eta teknologiaren garapenarekin telefonoak, e-liburuak, tabletak, eta «hodeia» ere helburu dira gaur egun.

Xuxen Xuxen (Wikipedia 2020) izan zen taldea ezagutarazi zuen aplikazioa. Hogeita bost urteko ibilbidean arrakasta handia lortu du, eta euskararen normalizazioaren aldetik berebiziko garrantzia izan du. Euskalbar-ekin batera, hizkuntza-teknologiako euskarazko produktu arrakastatsuena da, dudarik gabe. Hasiera batean, Hizkia eta UZEIrekin batera plazaratu zen, eta gaur egun Elhuyarrek merkaturatzen du hainbat pakete eta dispositibotan erabilgarri egon dadin (online zuzenean erabiltzeaz gain, Microsoft, Android, MacOS, Mozilla, Libreoffice eta Adobe). Eusko Jaurlaritzaren ekimenez, 1998az geroztik Microsoft Office-ren banaketa ofizial guztietan egon da Xuxen duela gutxi arte. Azken urteetan, euskararako zuzentzaile ortografiko gehiago sortu dira, hala nola UZEIren Hobelex, Microsoftena eta Googlerena, besteak beste. Xuxenen erabilera hedatzeko bertsio librea, Hunspell formatuan, oso garrantzitsua izan da. Horri esker dabil Xuxen LibreOffice, Mozilla, MacOS eta beste software batzuetan integratuta, eta posible da norberak bere beharretara egokitzea. Zenbakietara joz, Mozillarako (Firefox nabigatzailea eta Thunder-

15-iñaki alegria/olatz arregi/xabier artola.indd 267

24/11/22 13:43

268

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

bird e-posta bezeroa) 134.000 deskarga baino gehiago kontatu dira 2007tik hona. Estandarizazioaz Euskara batuaren 50. urteurrenak aukera ematen digu estandarizazioaren gaia teknologiarekin lotzeko. Lehen esan dugun bezala, estandarrik gabe oso zaila da, ia ezinezkoa, tresnak sortzea: oinarrizko testuak, hiztegiak eta gramatikak beharrezkoak dira hasiera batean. Gainera, datuen kalitatean laguntzen du, eta datuen dispertsioa mugatzen du, emaitzak hobetuz. Tresna teknologikoek eta estandarizazioak, askotan, elkar elikatzen dute. Zuzentzaile ortografikoaren kasuan, estandarizazioak laguntzen du tresna eraginkor bat eraikitzen, eta tresnak, bere aldetik, estandarraren zabalkundea bultzatzen du. Dena den, teknologia zenbat eta gehiago erabili, orduan eta behar/ aukera handiagoa dago erregistro gehiago prozesatzeko: sare sozialetako hizkuntza ez-formala eta kode-alternantzia, testu historikoak, lagunarteko hizketa... Galdera hau luzatu digute ekarpen honen harira: «Nola lagundu dezakete hizkuntza-teknologiek estandarizazioan? Hiztegigintza, fonologia/fonetika, morfosintaxia, onomastika etab.». Alde batetik, automatizazioak sistematizazioa eskatzen du, eta, beraz, fonema, morfema, lexiko eta erregela gramatikal zehatzak eta osoak behar dira; horrek bultzatzen du estandarizazioaren inguruan sakontzen eta ikertzen. Bestalde, zuzenketa ortografikoaz eta gramatikalaz gain, ikerketa- eta garapen-fasean dauden hainbat tresnak laguntzen dute estandarizazioa hedatzen. Hor daude, esaterako, idazlanen (auto)ebaluazio automatikoa, hizkuntzak ikasteko metodo aurreratu digitalak, antzinako testuen edo euskalkien normalizazio automatikoa. Amaitzeko, hizkuntza-teknologiaren alorrekoak dira hizkuntzalariek, lexikografoek eta adituek erabakiak har ditzaten behar diren corpusak biltzeko eta ustiatzeko sistemak. Teknologiaren bilakaera Hizkuntza-teknologia adimen artifizialaren atal bat da, eta arlo horretako bilakaerari jarraitu dio. Duela 30 urte ezagutzan oinarrituta egiten ziren tresnak. Pertsonek garunean egiten ditugun prozesuak simulatzea zen printzipio nagusia arlo honetan. Ildo horretatik, nahitaezko baliabideak lexiko eta gramatika estandarra ziren ha-

15-iñaki alegria/olatz arregi/xabier artola.indd 268

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

269

siera batean. Dena den, sistema haiek ataza sinple batzuetarako (zuzenketa ortografikoa, esaterako) txukun funtzionatzen bazuten ere, arazoak ematen zituzten konplexutasun-muga batetik aurrera (itzulpengintza automatikoan, esaterako). Konplexutasun horretan, sinplifikatuz esan daiteke, arazo batzuk konpondu nahian ondo zebiltzan beste elementu batzuk okertu egiten zirela. Duela 15-20 bat urte teknika multzo garrantzitsu batek hartu zuen indarra arlo honetan ataza konplexuagoetarako: ikasketa automatikoa. Oinarri matematiko konplexuko teknika hauetan oinarrituta konputagailua gai izango da, probabilitate handiz, problema zail bat ebazteko. Anbiguotasun semantikoaren problema, adibidez: testuinguru batean baso hitzaren adiera naturari edo edalontziari dagokion ebaztea. Horretarako baso hitza duten hainbat testu beharko dira, non bakoitzean zehazturik egongo baita hitza zein adieratan erabili den (datu anotatuak esaten zaie). Metodo matematikoen bidez, sistema gai izango da natura, adibidez, aukeratzeko, baldin eta testuinguruan zuhaitz hitza edo haren eremuko besteren bat agertzen bada. Esan bezala, beti ez du asmatuko, eta gakoa izango da erabileraren arabera errore-tasa onargarriak lortzea. Ezagutzaren bidezko sistemetan baliabideen kalitatea funtsezkoa zen bezala, ikasketa automatikoaren bidezkoetan kalitatezko datu anotatu asko behar izaten dira. Hala eta guztiz ere, eta bi hurbilpenak konbinatzeko aukera baliatuta ere, ataza konplexuenetarako emaitzak oraindik giza gaitasunetatik urrun zeuden. Azken urteotan urrats handiak egin dira sare neuronalak erabiliz egiten den ikasketa sakona edo deep learning delakoarekin. Hortik datoz itzulpengintza automatikoan edo hizketaren ezagutzan egindako aurrerapen nabarmenak. Horrekin batera adimen artifizialak berak izugarrizko aurrerapena egin du, eta nazioartean lehentasunezko ikergaia bihurtu da. Ikasketa automatikoaren ildoko teknikak dira, baina konplexutasun matematiko handiagoa dute, eta aurrerapen handia egin da hizkuntzaren unitateak (hitzak, adierak...) kodetzeko garaian, embedding izeneko teknikak erabiliz. Ordainean, datuen beharra are handiagoa da (big data), eta bai konputazio-ahalmen zein energia-kontsumo handiagoa (GPUak) ere. Sistema hauetan arazoak daude emaitzen interpretagarritasunarekin, ez garelako gai izaten ondo ulertzeko okerreko emaitzen zergatia. Datuen garrantzia Aurreko ataletik argi ondorioztatzen da datuen beharra gero eta handiagoa dela hizkuntza-teknologietan. Datuak eskura edukitzea funtsezkoa da teknologia hauetan aurrera egiteko. Gure eskarmentutik eta beharretatik, honako hauek lirateke puntu nagusiak datuen eskuragarritasuna bultzatzeko:

15-iñaki alegria/olatz arregi/xabier artola.indd 269

24/11/22 13:43

270

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

• Digitalizatzea eta eduki digitalak publiko egitea funtsezkoa da. Datuak erakustetik datuak partekatzera pasatu behar da, ezagutza librea bultzatuz. Hori derrigorrezko bihurtu behar da erakunde publikoetarako, eta bultzatu pizgarrien bidez pribatuetan. • Lizentzia irekiak bultzatu behar dira edukietan zein softwarean. Gaia berri samarra eta apur bat konplexua da, eta adituen laguntzarekin hartu behar dira erabakiak. Edukien zabalkunderako Wikipedia/Wikimediaren oinarria den Creative Commons BY-SA lizentzia da egokiena zalantzarik gabe. Adibide moduan, hor dago denbora laburrean milioi bat ikustaldi lortu zuen Berriak prestatutako Txernobyleko zentral nuklearraren inguruko grafikoa (Berria 2019). • Lizentzia irekiak ezinezkoak direnean, partzuergoak egin daitezke datuen jabeen eta teknologiaren garatzaileen artean. Edo gutxienez prezio bat ezarri eta luzamendutan ibiltzea saihestu. • Lizentziak aparte, formatu estandarren garrantzia azpimarratu behar da datuak partekatzeko eta software librea erabili ahal izateko. TEI-XML ezinbesteko oinarria da horretan. Ixa taldea. Eta orain zertan? Ixa taldearen ikerkuntzak, garapenak eta berrikuntzak aipatutako testuinguruan egin dute aurrera (Aduriz 2017), beti aipatutako hiru ardatzetan egituratuta: baliabideak, tresnak eta aplikazioak. Nazioarteko proiektu eta egitasmo askotan aritzeaz gain, euskararen ingurukoetan ere ari gara buru-belarri, eta horiek izango dira orain aipatu eta erreferentziatuko ditugunak. Baliabideen alorrean bi proiektu garrantzitsutan gabiltza, Euskaltzaindiarekin lankidetzan: Lexikoaren Behatokia (Artola et al. 2017), euskararen erabilera erreala monitorizatzeko corpusa; eta Orotariko Euskal Hiztegia digitalizatzeko proiektua. Horrez gain, EHUn terminologia lantzeko teknologia (Aldezabal et al. 2017) ezartzen ari gara irakasleen eta sailen lankidetza bideratzen duen proiektu batean, eta Iker zentroarekin batera euskara historikoaren corpus anotatu bat osatzen eta prozesatzen ari gara (Estarrona et al. 2019). Gainera, alderdi linguistiko guztiak etiketatuta dituen EPEC corpusa osatzen jarraitzen dugu (Aldezabal et al. 2007), ezagutza linguistikoaren iturri funtsezkoa baita proiektu gehienetan. Finantzaketa faltagatik ezin izan dugu urrats berririk egin guretzat funtsezkoa den EuskalWordnet datu-base semantikoan (Agirre et al. 2006). Itzulpengintza automatikoan, bestalde, ikasketa sakonean oinarritutako teknikei esker aurrerapen handiak ari gara lortzen euskaratik eta euskarara itzultzen (Aranberri, Labaka 2017), ikerketan Modela proiektuaren barruan,

15-iñaki alegria/olatz arregi/xabier artola.indd 270

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

271

eta, erabilera zabalari begira, Elhuyarrekin batera itzultzailea.eus sistemarekin. Osasun-arloan, tesi batetik abiatuta (Perez de Viñaspre, Oronoz 2018) arloko terminologia eta txostenak itzultzen laguntzeko egitasmo berritzaile bat dago martxan. Azpimarratzekoa da arlo honetan erakunde eta enpresen arteko lankidetza bultzatzen ari den emaitza bikaina. Baliabide urriko inguruko hizkuntzen aldetik, Azpimarratzekoa da martxan dagoen Linguatec proiektua, non Pirinioen alde bietako sei hizkuntza (aragoiera, gaztelania, katalana, frantsesa, okzitaniera eta euskara) lantzen diren. Eremu honetan, Garabide elkartearekin lankidetzan aritzen gara teknologiaren arloan. Humanitate digitaletan ere lankidetza batzuk ditugu esku artean, hizkuntzen ikasketekin lotutakoak bereziki (Arriola 2020). Aipagarria da HABErekin abiatu dugun egitasmoa, baliabideen integrazioari zein ikasleen idazlanak eta euskara-maila ebaluatzeko tresnak sortzeari begira. Soziolinguistikarekin eta hizkuntzen erabilera ez-estandarrarekin lotuta, berriz, gazteen euskararen erabilera (Fernandez de Landa 2019) eta kode-alternantzia (Uria et al. 2017) aztertu ditugu kuantitatiboki. Galderak erantzuteko sistemetan ere urratsak egiten ari gara, balizko laguntzaile birtual euskaldunak gogoan. Hemen, euskaraz dugun ezagutzaz gain, beste hizkuntzetatik transferitutako ezagutza (cross-lingual transfer) ere aplikatzen saiatzen ari gara (Otegi et al. 2020). Taldearen egituraketan eta lankidetzan ere urratsak egin ditugu, EHUren barruan sortu berri dugun HiTZ zentroa azpimarragarria izanik. Ikertzaileen beharra dago arlo honetan, eta, zoritxarrez, ez dugu lortzen titulatu berri nahikorik erakartzea gure master eta doktoretza-programara. Komunitate digitalaren garrantzia Baliabideak eta teknologia garrantzitsua izanda ere, garrantzitsuena ezin dugu ahaztu: hizkuntza-komunitatea, eta, teknologiari begira, teknologiaren erabiltzaileak. Hori oso argi geratzen da Kornairen lanean. Zorionez komunitate bizia dugu euskaldunona, baita teknologia-alorrean ere. Hainbat adibide aipa badaitezke ere, ezin aipatu gabe utzi oso garrantzitsutzat jotzen ditugun hiru ekimen: •

Librezale.org: Software librea euskaratzea (euskararako «lokalizatzea», teknikoki esanda) musu-truk sustatzen duen taldea. Haiei esker funtsezko hainbat software (lehen aipatutako Mozilla eta LibreOffice, esaterako) dugu euskaraz. Kalitate handiko lana, gainera.

15-iñaki alegria/olatz arregi/xabier artola.indd 271

24/11/22 13:43

272

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

• Euskal Wikilarien Kultur Elkartea (EWKE): Euskarazko Wikipedia eta ezagutza librea bultzatzen duen elkarte euskalduna. Bertako datuak kontsultagarriak izateaz gain, libreak dira. «Erakustetik partekatzera» delako izaeraren adibide ederra da. • Puntueus: Hainbat eremutatik bildutako pertsonek eta erakundeek lankidetzan aritzean lor daitekeenaren adibide zoragarria da. Islandiako kasuari buruzko aipamenean esan dugunaren ildotik, oso garrantzitsua da euskarazko edukiak eta tresnak komunitatearen esku jartzea azkar eta eroso. Horretan Administrazioaren lanak berebiziko garrantzia du, eta funtsezkoa da euskara ardatz izatea administrazioentzat arloaren erreferentzia diren agenda digitaletan. Sustapen-politikak eta plangintza baten beharra Aurreko bi atalak laburbilduz, esan dezakegu hizkuntza-teknologiak oso beharrezkoak direla hizkuntzen garapenerako, eta euskararako baliabide, tresna eta aplikazio interesgarriak sortu direla. Dena den, azpimarratu behar da euskara atzean ez geratzeko urrats berriak eta anbizio handiko estrategia bat behar direla. Eta, askoz baliabide gehiago izanda ere, inguruko herrialdeak eta Europar Batasuna (EB) horretan ari direla, inbertsio handiak aurreikusiz. Euskal Herrian estrategia hori martxan jartzeko egin dira lehenengo urratsak, eta, apalak izan arren, ezinbestekoak dira ildo/bide/estrategia horretan aurrera egin nahi bada. Ixa taldeak, Eusko Jaurlaritzako Hizkuntza Politikarako Sailburuordetzaren enkarguz, hizkuntza-teknologiak sustatzeko plan bat abian jartzeko behar diren oinarriak finkatu eta txosten tekniko batean jaso ditu. Lehen urratsa izan da hizkuntza-teknologien arloan Europako beste hizkuntzekin alderatuta euskarak duen presentzia aztertzea, eta, ondoren, Euskal Herrian epe ertainean arlo honetan egin ditzakegun urrats esanguratsu posibleak identifikatzea eta abaguneak erakustea. Ildo horretan, kalitate handiko hizkuntza-teknologia garatzea ezinbestekoa eta presazkoa da euskararentzat. Ezinbestekoa, hizkuntzaren beraren irautea bermatu nahi bada; eta presazkoa, inondik ere, teknologia hauen bilakabidea eta berritze-abiadura ikusita atzean geratzeko arriskua benetakoa baita. Teknologia horiek bultzatzea ohikoa da gure inguruko administrazioetan. Laguntzak bi arlotan bana daitezke, lotuta badaude ere: ikerkuntza eta garapena (honetan, Adimen Artifizialak izango duen eragina garrantzizkoa da), batetik, eta hizkuntzen babesa, bestetik. Euskararen kasuan biak uztar daitezkeelakoan gaude. Horri ekin aurretik ikus dezagun zertan dauden gure ingurukoak.

15-iñaki alegria/olatz arregi/xabier artola.indd 272

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

273

Europa Azpimarratu behar da Europako Parlamentuaren Ikerketa Zerbitzuak egindako txostenean (EPRS 2017) ageri den aurreproiektua eta azterketa. Aurrekoarekin lotuta, eta ildo berberak jarraituz, Europako Parlamentuak Language equality in the digital age txostena onartu zuen, gehiengo handiz, 2018ko irailaren 11n. The EP calls «on the Commission and the Member States to develop strategies and policy action to facilitate multilingualism in the digital market; requests, in this context, that the Commission and the Member States define the minimum language resources that all European languages should possess, such as data sets, lexicons, speech records, translation memories, annotated corpora and encyclopaedic content, in order to prevent digital extinction».

Egitasmoan bete nahi diren hutsuneak hauek dira: • • •

Sozialak: hizkuntzen arteko aldeak, arriskuan dauden hizkuntzak, komunikaziorako mugak. Ekonomikoak: Administrazioaren informazio eleaniztun mugatua, merkatu digital bakarrerako zailtasunak. Sektorekoak: ikerkuntzaren beharra, talentuen galera hizkuntza-teknologien (HT) arloan, enpresen zatikatzea, ekosistemaren galera (AEBrekiko).

Planteatzen diren politiken artean, honako hauek azpimarratu nahi ditugu, gure ingurura ekartzeko duten interesa dela-eta (jatorrizko testuan adibideak daude): • • • • • • • • •

HTen ikerkuntza areagotzea eta birformulatzea. Plataforma komun bat ezartzea. Hizkuntzen arteko aldeak murriztea teknologiaren aldetik. Start-up enpresak sortzea eta azelerazio-programak bultzatzea. Adituen formazioa sustatzea. Tresnak eta zerbitzuak ezagutaraztea. Enpresa txikien webgune komertzialen itzulpen automatikoa bultzatzea. Teknologiaren erosketa publikoa. Webgune publikoen itzulpena, HTak erabiliz.

Oraindik zehaztasunetan sartu ez bada ere, Europako Parlamentuak eskatu duen txostena irakurrita hainbat ondorio atera daitezke:

15-iñaki alegria/olatz arregi/xabier artola.indd 273

24/11/22 13:43

274

• • • • •

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

Hizkuntzen etorkizunei begira arloak garrantzi estrategikoa du. Hizkuntza-teknologien arloa Europarako ardatz bat izango da hurrengo urteetan. Ikerketan, berrikuntzan eta transferentzian zentratuko dira indarrak, eta inbertsioak egingo dira. Euskara bultzatu nahi bada, eta Europako beste hizkuntzen mailan edo haietatik gertu egoteko asmoa baldin badago, urrats garrantzitsuak egin behar dira hemen. Beste hizkuntzetan izan den garapena, eta izango dena, euskarazko komunikaziorako oztopo moduan ikus daiteke, jendarte eleaniztun batean bizi garen neurrian; baina aukera bat ere bada, euskara bultzatzeaz gain ikerketa eta garapenerako gune garrantzitsu bat sortzea/indartzea lortzen baldin badugu.

Espainia: Plan de Impulso de las Tecnologías del Lenguaje 2015eko bukaeran onartutako Plan de Impulso de las Tecnologías del Lenguaje delakoa mugarri izan da arlo honetan. Planaren diseinurako lantaldean Ixa taldeak parte hartu zuen. Helburuei dagokienez, horrela dio planak: El Plan de Impulso de las Tecnologías del Lenguaje tiene como objetivo fomentar el desarrollo del procesamiento del lenguaje natural y la traducción automática en lengua española y lenguas cooficiales.

Eta honako hauek dira planteatzen dituen ardatzak: • • • •

Babesa eskaini azpiegitura linguistikoen garapenari (hizkuntza koofizialak barne, administrazio autonomoekin hitzartuta). Bultzada eman hizkuntzaren industriari: ikerkuntzatik industriara. Administrazio publikoa teknologion bultzatzaile eta bezero, plataforma bateratuak sortuz. Itsasargi‐proiektuak hizkuntza‐teknologietan: osasuna, justizia, zaintza teknologikoa, turismoa, hezkuntza, kultura… Bost urtetan 90 milioi euro inbertitzea aurreikusi da.

Euskal Autonomia Erkidegoa Gurera etorrita, hizkuntza-teknologiak sustatzeko plana izango denaren oinarriak finkatu eta hainbat lan-lerro identifikatu dira. Horretarako, erkidegoko

15-iñaki alegria/olatz arregi/xabier artola.indd 274

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

275

hainbat erakunde eta arloko enpresarekin bildu da Ixa taldea, euskararen indarguneak eta ahuleziak identifikatu nahian. Talde-lan horren emaitza da hemen aurkezten duguna. Argi dago hizkuntza-teknologien arloak garrantzi estrategikoa duela hizkuntzen etorkizunari begira, eta euskarak, Europako beste hizkuntzen gertuko maila izan nahi badu, urrats handiak egin behar ditu atzean geratu gabe. Urteetan egindako ikerketa eta garapenari esker, erronkari heltzeko egokiera onean gaudela esan daiteke, teknologia integratzeko gaitasuna dugu, kalitate maila handiko baliabide eta tresnak erabilgarri daude euskararako, eta, formazioaren aldetik, goi mailako ikasketak eskaintzen dira alorrean. Badira, hala ere, ezinbestean egin beharreko urrats batzuk, datorrenari modu egokian aurre egin nahi bazaio: •

•

•

•

Industria honetan inplikaturiko hainbat agenteren (Administrazioa, industria, ikerketa-taldeak…) arteko koordinazio-mekanismoak definitu beharko dira, sektorearen aurrerapenak ebaluatzeko eta hurrengo urratsak planifikatzeko. Gainera, hizkuntza-teknologiez ari garela, eta are nabarmenago euskara gune-gunean izanda (komunitate txikia, baliabide urriak), ezinbestekoa da eragileen arteko jarduera koordinatzea. Hizkuntzaren industria bultzatu behar da. Ikerketa garrantzitsua izanda ere, erronka nagusietako bat transferentzia egitera eta balio ekonomikoa sortzera iristea da. Euskararako kalitateko produktuen eskaintza sendotzeak eta merkaturatzea hobetzeak izan behar dute urrats honen helburu. Erreferentzia-zentro bat sortu behar da unibertsitatearekin eta arloko enpresa eta erakundeekin lankidetzan. Zentro honen helburua, ikerketan eta trebakuntzan aritzeaz gain, berrikuntzan eta transferentzian ere aritzea litzateke, bai beste ikerketa-zentroekin, eta bai beste enpresa eta erakundeekin ere. Nafarroarekin eta Iparraldearekin lankidetzan aritzeko malgutasun nahikoa beharko luke aipatutako zentroak. Ikerketa-azpiegitura bat bultzatzea ere garrantzitsua da, sortzen den hizkuntza-teknologia guztia bildu, mantendu eta erabiltzaileen beharrak erantzungo lituzkeena.

Bestalde, euskara hizkuntza-teknologien arloan sustatzeko eta garatzeko hainbat lan-lerro identifikatu dira, lauzpabost ardatzetan antolatu daitezkeenak. Hizkuntza-teknologia gaurkotuak aplikatzeko garatuko diren proiektu gehienetan ardatz horietako bat edo gehiago izango da oinarrian. Izan ere, hemen aipatzen direnak esparru guztietara zabal daitezke, izan hezkuntza, justizia, administrazioa edota osasungintza.

15-iñaki alegria/olatz arregi/xabier artola.indd 275

24/11/22 13:43

276

•

•

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

Hizkuntza-baliabideak Ardatz hau helburu orokorreko baliabide linguistikoak biltzera eta etiketatzera zuzenduta dago. Corpus gordinak, corpus etiketatuak, lexikoak eta ezagutza-baseak dira oinarrizko hizkuntza-baliabideak. Hizkuntza-baliabideak erabilgarriak izango badira, inplizitu gordetzen duten informazioa eskuratzeko gai izan behar dugu. Aplikazio askok oinarrizko hizkuntzaprozesamendua eskatzen dute zeregin konplexuagoak egin ahal izateko, hau da, testuan dagoen informazio inplizitua esplizitu egitea etiketatzearen bidez. Garrantzi handikoa da euskararako hizkuntza-baliabideak hobetzea, kopuruan zein kalitatearen aldetik, horri esker garatu ahal izango baitira hizkuntza tratatzeko tresna aurreratuagoak, testuaren eta ahotsaren azaleko azterketa ez ezik sakoneko analisia ere gauzatuko dutenak, horien esanahia atzeman eta ulertzera hurbilduz. Garrantzi handikoa da, halaber, egun ditugun euskarazko corpusen inbentarioa egitea, elebakar zein eleaniztunak aintzat hartuz, eta helburu zehatz batzuk finkatzea beroriek aberasteko, prozesatzaileak modurik egokienean entrenatu ahal izateko aski izango diren testu- eta ahots-masak eratzeko. Hizkuntza-tresnen garapena Garrantzitsua da baliabideak, tresnak eta aplikazioak bereiztea. Tresnak aplikazioak garatzeko balio duten programa orokorrak izan ohi dira. Horrela, analizatzaile morfologiko bat tresna orokorra da, ez da aplikazio bat, baina aplikazioek erabil dezakete hainbat helburutarako: zuzenketa ortografikoa, deklinabidea edo aditz jokatuak irakasteko... Tresna horiek guztiak garatzeko gaur egun erabiltzen ari diren teknikak askotarikoak dira: ezagutzan eta erregeletan oinarrituta egin ohi dira analizatzaile morfologikoak, baina, hizkuntzaren egitura konplexuan sartu ahal izateko, corpus etiketatuetan oinarritutako ikasketa automatiko gainbegiratua da ohiko bidea (ezagutzan oinarritutako metodoekin konbinatuta, batzuetan). Corpus etiketatuen beharra gutxitzeko, berriz, ikasketa erdi-gainbegiratua edo gainbegiratu gabea ere erabiltzen hasi dira. Ikasketa automatikoaren ohiko teknikak ere garatzen joan dira, eta gero eta gehiago erabiltzen da ikasketa sakona (neurona-sareak); baina kontuan hartu behar da horretarako askotan baliabide ugari behar direla, bai corpusak eta baita konputazio-baliabideak ere. Bestalde, arlo estrategikoetan (hezkuntza, medikuntza, turismoa, justizia...) erabili ohi diren termino espezializatuen sorkuntzan laguntzeko tresnak garatzea ezinbestekoa da. Horretarako, terminologoei eta profesionalei, oro har, lan horretan laguntza emango dieten tresnak sortu behar dira.

15-iñaki alegria/olatz arregi/xabier artola.indd 276

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

•

•

277

Hizkuntza-tresnen integrazioa eta aplikazioak Hizkuntzaren industria sustatu nahi bada, ezinbestekoa da hizkuntza-baliabideak, tresnak eta aplikazioak bildu eta gordeko dituen hizkuntza-azpiegitura sortzea. Azpiegitura linguistiko horren ardura izango da oinarrizko baliabideak zein tresnak eskuragarri jartzea, gero arloko enpresek eta berrikuntza-zentroek aplikazioak gara ditzaten kostu txikiagoekin eta teknologia lehiakorrarekin. Izan ere, aplikazio linguistiko konplexuak oinarrizko tresnak konbinatuz garatu ohi dira. Konbinazio hori gauzatzeko hamaika modu daude, pipeline hurbilpenetik hasita arkitektura banatu konplexuetara iritsi arte. Bestalde, aplikazioak —eta tresnak— norberaren makinetan exekutatzen ahal dira, edo urruneko makinetan, SaaS (Software as a Service) moduko hurbilpenak erabiliz. Alabaina, oinarrizko tresnak integratzeko ezinbestekoa da haien artean elkar ulertzea, eta horretarako funtsezkoa da moduluek sortutako anotazio linguistikoak formatu komun eta estandarrean adieraztea. Informazio linguistikoa formatu estandarrean adieraztea ere beharrezkoa da euskarazko hizkuntza-baliabideak eskuragarri ipintzeko; adibidez, Linked Open Data gisako ekimenen gordailuetan parte hartuz. Bestalde, gaur egun euskaraz atzigarri dagoen informazio-masa handia da, eta etengabe ari da sortzen, formatu batean zein bestean (testua, bideoa eta abar). Informazio hori guztia automatikoki prozesatzeak erronka berriak dakartza hizkuntza-analisiaren arlora, batez ere, datu-masa horren prozesaketa arin burutu nahi bada. Erronka horri eusteko, prozesaketa linguistiko masiboa gauzatzeko aukera emango duten arkitektura modular, paralelo eta banatuak behar dira. Horregatik, oso garrantzitsua da konputazio-ahalmen handia duten baliabideak eskura izatea. Hizkuntzaren prozesamendurako errendimendu handiko konputazio zentro batek aukera emango luke euskaraz sortzen den informazioa biltzeko eta analizatzeko, baliabide handiak eskatzen dituzten teknikak erabiliz. Gainera, sistemak aplikazio linguistiko konplexuak eratzeko aukera eman beharko luke, zeregin bereziak egiten dituzten moduluak konbinatuz eta paralelizazio- zein hodeiratze-teknikak erabiliz. Itzulpen automatikoa Bistan da itzulpen automatikoa eguneroko tresna bihurtzen ari zaigula gaur egun, eta horren adierazle da inguruko erakundeek eta enpresek eskatzen duten arloko aplikaziorik ezagunena izatea. Amaraunean badira hainbat zerbitzu, zeinei esker norbanakoek nahiz enpresek beren webguneen ikusgaitasuna beste hizkuntza batzuetan hobetzen ahal duten, bai eta ezagutzen ez dituzten hizkuntzetan idatzitako informazioaren berri izan ere. Azken 60 urteotan Europa politikoki eta ekonomikoki nolabait egituratu

15-iñaki alegria/olatz arregi/xabier artola.indd 277

24/11/22 13:43

278

•

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

eta bateratu egin da, baina kulturalki eta hizkuntza aldetik askotarikoa da oraindik. Hori dela-eta, Europako hiritarren arteko eguneroko komunikazioak zein negozioen edo politikaren esparrukoak hizkuntzaren mugekin egiten dute topo ezinbestean. Europar Batasuneko erakundeek ia mila milioi gastatzen dituzte urtero beren eleaniztasun-politikak mantentzeko, hots, dokumentuak hizkuntza batetik bestera itzultzen eta ahoz esandakoen aldibereko interpretazioa egiten. Hizkuntzaren teknologiak eta ikerkuntza linguistikoak lan handia egin dezakete hizkuntza-muga horiek leuntzeko, dispositibo eta aplikazio adimendunekin konbinatuz gero, gai baitira hizkuntza bera egiten ez duten pertsonen arteko komunikazioa bideratzeko, negozioak egin ditzaten erraztuz. Atzerriko hizkuntzak ikastea izan da beti hizkuntza-mugak gainditzeko ohiko modua. Alabaina, teknologiaren laguntzarik gabe, EBko estatu kideetako 23 hizkuntza ofizialak gehi beste 60 hizkuntza ez-ofizial (euskara tarteko) ikasi beharra helmuga gaindiezina da Europako herritarrentzat, hala nola beren ekonomiarentzat, eztabaida politikorako zein zientziaren aurrerapenerako. Euskaratik edo/eta euskarara automatikoki itzultzeko sistemak direla-eta, esan daiteke oinarri ona dugula eta egoera onean gaudela garatutako sistemak hobetuz joateko, betiere, noski, ikerkuntzako eta erabilera libreko baliabideetako inbertsioari eusten baldin bazaio. Jarraitu behar da esperimentatzen ikasketa automatikoan oinarritutako teknika aurreratuagoetan (sare neuronaletan oinarritutakoetan barne), eta gero eta ezagutza linguistiko sakonagoa baliatuz. Eta, jakina, egindako eta egingo diren garapenak hainbat hizkuntza-bikoteri aplikatuz (eu-en, eu-es, eu-fr...), eta garatuko diren sistema berriak egungoekin konbinatuz. Ahotsaren tratamendua: hizketa-interfazeak Ahots-teknologiak umotu egin dira azken urteotan, beren emaitzak asko hobetuz. Horrela, gaur egun interfaze askotan ahotsa erabiltzen da hainbat tresnaren arteko komunikazio-sistema moduan: smartphone-ak, telebistak eta bozgorailu adimentsuak, adibidez. Gailuekin komunikatzeko ahotsa erabiltzearen abantailen artean, nabarmena da erabilerraztasuna, erabiltzeko ez baita inolako ikasketarik behar eta tresnak erabil daitezkeelako eskuak edota ikusmena erabili barik: gidatzen edo kozinatzen ari garela, adibidez, ezinbestekoa izan daiteke. Zalantzarik gabe, oso erabilgarriak dira ikusmen-, ahots- edo entzumen-urritasunak dauzkatenentzat ere. Oso interfaze eroso eta eraginkorrak dira, oro har, ahotsa eta entzumena besterik ez dutelako behar aginduak emateko eta informazioa jasotzeko. Beraz, gero eta gehiago erabiltzen dira laguntzaile birtualak: 2014an, Googleren

15-iñaki alegria/olatz arregi/xabier artola.indd 278

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

279

azterketa batek erakutsi zuen nerabeen % 55ek eta helduen % 41ek erabiltzen zutela ahotsaren bidezko bilaketa, egunean behin gutxienez. Sistema eragile nagusiek aspalditik dute horrelako interfaze bat inplementatuta: Appleren Siri, Microsoften Cortana eta Androiden Google Assistant-ek, adibidez baina horietako ezeinek ere ez du eskaintzen euskaraz erabiltzeko aukerarik. Ahozko interfazeak gero eta gehiago hedatzen ari dira, eta gaur egun erraza da etxebizitzetan Amazon Echo (Alexak erabiltzen duena), Microsoft Cortana edo Google Home moduko produktuak topatzea. Teknologiakonpainia handiek apustu handia egin dute pertsonekin komunikatzeko erabiltzen dugun era bera onartzen duten laguntzaileak garatzeko. Tamalez, haietako bat ere ez dago euskara erabiltzeko prest. Ahozko interfaze horien garapenak erronka handiak ekartzen ditu ahozko teknologientzat. Alde batetik, beharrezkoa delako hizketa-ezagutzarako oso sistema sendoa izatea, giro zaratatsuetan lan egiteko gai dena: trafikoa duen kale batean, edo etxean telebista piztuta dagoen bitartean, adibidez. Gainera, elkarrizketa-sistemek hizkuntza natural eta espontaneoan egindako edozein eskaera kudeatzeko gai izan behar dute. Azkenik, ahots desberdinak eta adierazkorrak dituzten sintesi-sistemak ere behar dira, ezaugarri desberdinetako ahotsak aukeratzeko gaitasuna dutenak (ahots ezagunak lortzeko adaptazioa barne: adibidez, urruneko medikuntzarako erabiltzen denean, laguntzaile birtualak familia-medikuaren ahotsa izan dezan). Erabiltzailearen esperientzia guztiz gogobetegarria izateko beharrezkoa da teknologia hobetzea testuingurua ulertzeko, ahotsaren tonua eta jarrera antzemateko eta interpretatzeko, erabiltzailearen asmoa hobeto ulertzeko haren ohituren eta aurreko historiaren arabera, eta, era naturalean mintzatuz, haren nortasuna eta emozioak dituen ahotsak sortzeko. Bigarren hizkuntzen irakaskuntza ere arlo garrantzitsua da ahozko interfazeetarako. Eremu honetan erabiltzen direnean, ahozko interfazeek ikaste-esperientzia hobetzen dute, ariketa praktikoak edonon eta edonoiz egiteko erraztasuna emanez. Gaur egun, interfaze horiei esker, posible da hizkuntza ugaritan ahoskera hobetzea, baina ez euskaraz. Aplikazio mota honetarako, ezagutza-sistemak egokitu egin behar dira ikasleen mailara: egokitu behar da sorterritik kanpoko ahoskerak ulertzeko, eta, baita ere, gramatikaren ikuspuntutik zuzenak ez diren esaldiak ezagutzeko. Hizkuntza-teknologia gaurkotuak oinarri dituzten proiektuak ezinbestekoak dira euskara esparru guztietara zabaldu nahi bada. Izan ere, hizkuntzak bere tokia behar du arlo guztietan, nola administrazio publikoaren esparru za-

15-iñaki alegria/olatz arregi/xabier artola.indd 279

24/11/22 13:43

280

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

balean hala industria pribatuaren askotariko adarretan. Hizkuntza-teknologien arloko teknikek eta aplikazioek duten heldutasunak aukera oparoak eskaintzen ditu sektore estrategikoetan koka daitezkeen proiektu egokiak definitzeko; besteak beste, hezkuntzan, administrazioan, osasungintzan, turismoan edota justizian. Proiektuen egokitasuna da hor gakoa, eta, horretarako, badira bete beharreko zenbait ezaugarri: • • • •

Interesa: Proiektuak behar edo nahi erreal bati erantzun behar dio. Egingarritasuna: Garaiko teknologiak ongi erantzun behar dio proiektuak dituen beharrei. Eraginkortasuna: Errendimendu egokia eta hobekuntza nabarmena lortu ezean, oso zalantzazkoa da proiektuaren egokitasuna. Onarpen soziala: Giza testuinguruan ezartzen dira proiektuetatik eratorritako aplikazioak edo tresnak. Osagai teknologikoak dituzte, bai, baina gizakion artean eta gizakiok esku hartuta ezartzen dira. Hori horrela, kontuan hartu behar da nola ezartzen diren, aldekotasuna sor dezaten.

Proiektuak, hainbat sektoretan eragingo badute, horizontalak eta transbertsalak izango dira (hizkuntza-azpiegitura orokorrak, sektore publikoko interes linguistikodun informazioaren berrerabilera, herri-administrazioen hizkuntza prozesatzeko eta itzulpen automatikoko plataformak), eta balio-kate osoa barne hartzen duten produktu eta zerbitzu bukatuak sortuko dituzte. Proiektu zehatzak baino gehiago, proiektu horiek zein alorretan eragin dezaketen aipatuko dugu aurrena, eta, ondoren, adibide gisa, horietako pare bat azalduko ditugu, hobeto ulertzeko nola aplika daitezkeen hizkuntza-teknologiak esparru horietan. Hauek dira antzeman ditugun arlo garrantzitsuenak: administrazioa, hezkuntza, euskalduntzea, osasungintza, justizia, turismoa, kultura eta komunikabideak, polizia eta bestelakoak. Horietan guztietan izaera orokorra duten tresnak eta teknikak —testu-prozesamendurako nahiz ahots-tratamendurako teknika aurreratuak edota tresna praktikoak— erabil daitezke, hainbat betekizun modu eraginkor eta samurragoan egiteko. Adibide pare bat jartzearren; itzulpen automatikoa —betiere hobeto domeinura egokitua bada— erabilgarria izan daiteke goian aipatu diren arlo guztietan, eta gauza bera esan dezakegu corpusetan bilaketak egiteko tresna bati buruz, bai txosten medikoetatik gaixotasun bati buruzko informazioa erauzteko, dokumentu juridiko batean epaiaren inguruko xehetasunak bilatzeko edo, ondare kulturalaren arloan, museo baten erreferentziak lortzeko. Hurrengo atalak administrazioari eta hezkuntzari eskainiko dizkiegu, arlo horietan hizkuntza-teknologien irismena sakonago azaltzeko.

15-iñaki alegria/olatz arregi/xabier artola.indd 280

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

281

Administrazioa Administrazio publikoak aldaketa-aroa bizi du. Erakunde guztiek, izan tokikoak edo orokorrak, baldintza berrietara egokitzeko betebeharra dute. Papera nagusi zen garaia iragana da; administrazio elektronikoa da oraina, eta administrazio guztiek elektroniko bihurtzeko beharra dute. Arlo honetan egin daitezkeen proiektuek aro honi erantzun nahi diote, eta behar horiei egoki erantzun ahal izateko ezinbestekoa da laguntza teknologikoa. Administrazioek kudeatzen duten informazioa, testu- edo ahots-formatuan, gero eta ugariagoa da, eta euskarri elektronikoan maneiatuko da aurrerantzean. Informazio horren prozesamendu automatikoa ezinbestekoa da kudeaketa ordenatua eta eraginkorra bideratu dadin. Zeregin horretan erabilgarriak dira, besteak beste, honako teknika hauek: ahotsaren ezagutza, zuzenketa ortografikoa eta gramatikala, itzulpen automatikoa, informazio-erauzketa (dokumentuetatik informazio erabilgarria automatikoki erauzteko), informazioaren bilaketa, laburpen automatikoa, dokumentuen sailkapen automatikoa edo pertsonen eta konputagailuen arteko elkarrizketa-sistemak. Horrenbestez, hona ekarri ditugun ataza zehatzetan jasoko dugu zertan eta nola erabil daitezkeen hizkuntza-teknologien ahalak. a) Eskaeren bideratze erdi-automatikoa, leihatila bakarrean. Erakunde publikoen jendaurreko leihatilek noraeza sorrarazten dute sarri. Konponbide gisa, leihatila bakarraren eredua ezarri da erakunde askotan, eta ezartze-bidean da beste askotan ere. Eredu berriak erraztu egiten du kanpotik datorrenaren zeregina, baina zaildu erakunde barruko kudeaketa. Gainera, horri gehitu behar zaio gaur egun tramite asko online egiten direla eta gestio horiek sarrera-puntu bakarra izan ohi dutela. Horrenbestez, modu batera edo bestera, dokumentuen sailkatze automatikoa bereziki lagungarria izan daiteke Administraziora iristen diren eskaerak erdi-automatikoki bideratzeko. Eskaera bat iristen denean, erregistratu egingo da, eta, eskaera horren testuzko edo ahotsezko edukien arabera, Administrazioaren zein sailetara bideratu behar den erabakiko da. Bideratzea burututakoan, horren berri bidaliko zaio eskatzaileari. Hori guztia egiteko, honako teknika hauek erabil daitezke: ahots-tratamendua, dokumentuen sailkatze automatikoa, pertsonen eta konputagailuen arteko elkarrizketa-sistemak eta abar. b) Dokumentuen prozesamendua espedienteak kudeatzeko aplikazioetan. Espedienteak kudeatzeko aplikazioak funtsezko tresnak dira erakunde publiko askoren jardunean. Espedienteen kudeaketaren parte garrantzitsu

15-iñaki alegria/olatz arregi/xabier artola.indd 281

24/11/22 13:43

282

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

bat dokumentuen gestioa da, eta horretan baliagarriak dira hizkuntzaren prozesamendua darabilten hainbat tresna: zuzentzaile ortografikoa eta gramatikala, dokumentuen sailkatzailea, informazio-bilatzailea, informazio-erauzlea eta itzultzaile automatikoa. c) Aktak automatikoki jasotzea. Erabakiguneetako aktak oinarrizko dokumentuak dira zernahi erakundetan. Akta horiek jasotzea, transkribatzea, laburtzea eta egituratzea lan handia da. Hizkuntza-teknologiek ekarpen handia egin dezakete lantegi horretan. Prozesu hori kate baten gisara har daiteke: audioa jaso, ahots-ezagutza aplikatu transkribatzeko, OCRa erabiliz zuzendu, testu osoaren laburpena egin eta akta-formatu egokian eman. Kate horretan, erabilgarriak dira hainbat tresna automatiko. Horrez gain, beti dago aukera, itzulpen automatikoa erabiliz, akta horiek hainbat hizkuntzatan emateko ere. d) Datuen babesa bermatzea, tresna linguistikoen laguntzaz. Edonoren eskura jarri behar da informazioa (gardentasunak hala eskatuta), baina ez edozein informazio (datuen babesak zorrotz mugatzen duenez). Are gehiago, dokumentu batzuk partzialki bistaratu behar dira, bereziki babestutako informazioa erauzita. Datu pertsonalen anonimotzea eskatzen du horrek. Bereziki babestutako informazioaren erauzketa oraindik ondo landu gabeko eginkizuna da. Tresna bat beharko litzateke, halako informazioaren erauzle moduko bat, dokumentuen bertsio partzialak sortu eta bertsio horiek eskuragarri uzteko. Eginkizun horrek bere barnean hartzen du dokumentuen anonimotze automatikoa. e) Artxiboaren digitalizazioa eta kontsulta. Artxiboa edo dokumentuen biltegia erakundeen gordailua da, eta sekulako garrantzia du. Bi prozesu nabarmentzen dira gaur egungo egokitzapen-aroan: batetik, dokumentuak artxibatzeko modua aldatzen ari da, eta jadanik paperean gordetzeak bezainbesteko garrantzia du bertsio elektronikoa ondo gordetzeak; bestetik, lehendik gordetako dokumentuak digitalizatzea eta kontsultagai jartzea ere behar-beharrezkoa da. Bi prozesu horietan tresna linguistiko automatikoen beharra oso agerikoa da: eskaneatzea eta OCRa egitea, zuzenketa automatikoa, dokumentuen sailkapena, hitz gakoen erauzketa automatikoa, datu-baseen elikatze automatikoa edota informazioaren bilaketa eta berreskurapena. Hemen aipatu direnak ez dira egin daitezkeen ataza bakarrak, baina esan daiteke, oro har, Administrazioarekin zerikusia duten ataza askotan, hizkuntza-teknologiek ekarpen handia egin dezaketela prozesu horiek aberasteko eta sistematizatzeko.

15-iñaki alegria/olatz arregi/xabier artola.indd 282

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

283

Hezkuntza 2018 urte hasieran, Europako Batzordea bere Hezkuntza Digitalaren Ekintza Plana (Digital Education Action Plan)1 zabaltzen hasi zen. Bertan adierazten den moduan, teknologia digitalak era ezberdinetan aberasten ditu ikaskuntza-prozesuak eta, gainera, guztion eskura egon behar duten ikaste-aukerak eskaintzen ditu. Oinarrizko Hezkuntza amaitu duen ikasleak konpetentzia digitala eta mediatikoa izan behar du egungo herritarrek eskatzen duten alfabetatze eta gaikuntza funtzional osoa bermatzeko. Gainera, ikaslearen hezkuntza-premia bereziei erantzuna emateko bide berriak eskaintzen ditu teknologiak, baita hizkuntzaren teknologiak ere; esaterako, ikusmen-urritasuna duen ikasle batek testuliburuak automatikoki ozen irakurriko dizkion irakurgailua edota garapeneko disgrafia (idazten ikasten dabilen ikaslearen nahasketa edo ezintasuna) aztertzeko teknologiak behar ditu eskura. Adimen artifiziala, robotika eta hodei-konputazioaren moduko teknologiak hezkuntzaren mesedetan jar daitezke komunitatea —irakasleak zein ikasleak— ahalduntzeko. Testu-prozesamendurako eta ahots-tratamendurako teknika aurreratuak aplikatu eta integratu behar dira erabateko eraldaketa digitala bermatzeko. Hizkuntza-teknologiak ikasketa pertsonalizatuak eta bizitza errealeko proiektu eta esperientziak bultza ditzake baliabide didaktikoak era dinamiko eta azkarrean sortuz, besteak beste. Ikasketa pertsonalizatua sustatzeak, ikasleen interesak eta premiak kontuan izateaz gain, ikasleen motibazioa areagotzeko balio dezake. Ondoren, eta zehazte aldera, hezkuntzaren munduan erabilgarri izan daitezkeen hainbat tresna planteatzen dira: a) Hezkuntzan ari diren irakasleentzako baliagarriak diren tresnak garatu. Hezkuntzarako baliabide didaktikoak garatzeko, corpusak biltzea oinarrizko ataza da. Corpus horietan kontsultak eta azterketak egitea lagungarria izan daiteke hainbat egoerari aurre egiteko. Esaterako, garapeneko disgrafia duten haurren testuak lortu, esku-hartze pertsonalizatuak errazteko; edo corpusak bildu, haurren garapena eta hizkuntza-jabekuntza hobeto ulertu eta oinarrizko baliabide didaktikoak sortzeko. Corpusak biltzeko eskuz idatzitakoa digitalizatzeko gai diren tresnak, idazgailu digitalak, egokiak izan daitezke. b) Ikasle eta irakasleei zuzendutako tresnak. Laburpenak, galderak erantzuteko sistemak, testuen arteko antzekotasuna neurtzeko tresnak, idazten laguntzeko sistemak, idazkiak zuzentzeko 1 https://eur-lex.europa.eu/legal-content/ES/TXT/HTML/?uri=CELEX:52018DC0022&

from=EN.

15-iñaki alegria/olatz arregi/xabier artola.indd 283

24/11/22 13:43

284

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

eta anonimotzeko tresnak, ikus-entzunezko materialean etiketak jartzeko edota transkribatzeko eta kudeatzeko tresneria... denak dira lagungarriak eraldaketa digitala bermatzeko. Bestalde, badira bestelako kezkak ere hezkuntzan: esaterako, sare sozialetan zabaltzen diren albisteen sinesgarritasuna edo ikasgelatik kanpo gertatzen den cyberbulling-a. Horiei aurre egiteko ezinbesteko tresnak dira honako hauek, adibidez: albiste faltsuak automatikoki detektatzeko sistemak edo sare sozialetako elkarrizketetan gertatzen diren sentimenduen analisia egitekoak. c) Ikasleen hizkuntza-maila lantzeko baliabideak. Gaur egungo hezkuntza-sistemaren kezka handienetako bat da ikasleek lortzen duten hizkuntza-maila. Hori dela-eta, jakintza-arlo guztietan lortzen den hizkuntza-maila lantzeko funtsezkoa da autonomoki ikasteko eta trebatzeko tresna espezializatuak izatea. Zerrenda luzea da, eta hemen adibide batzuk besterik ez dugu aipatuko: hiztegiak, zailtasunaren arabera mailakatutako dokumentuak, bideoak eta audioak, ariketak automatikoki sortzeko eta zuzentzeko tresnak, laburpenak egiteko sistemak, corpus multimodaletan bilaketak egiteko eta datuak bistaratzeko aplikazioak, ahotsa ezagutzeko gailuak... Tresna horiek guztiak erabilgarri daude ingeleserako eta beste hizkuntza handi batzuetarako, baina, gaur gaurkoz, batzuk eginak egon arren euskararako, asko falta dira oraindik egiteko eta garatzeko. Ondorioak eta zenbait proposamen Hizkuntza‐teknologien arloak garrantzi estrategikoa du hizkuntzen etorkizunari begira. Euskarak ere hor egon behar du, batez ere adimen artifizialaren gorakadarekin eta inguruan garatzen ari diren plangintzekin bat eginez, eta anbizio handiko egitasmo bat landuz eta garatuz. Gure ustez, honako ildo hauek berebiziko garrantzia eta potentziala dute: • • • •

I+G+b-ri begirako erreferentzia-zentro bat sortzea funtsezkoa da. Sortu dugun HiTZ zentroa izan daiteke abiapuntua. Beharrezkoa den trebakuntza espezializatua gehiago bultzatzea: doktoregoa, masterrak, bizialdi osorako trebakuntza. Arlo hau Eusko Jaurlaritzaren hurrengo zientzia‐planaren lerro nagusien artean sartzeko premia. Euskal Hirigune Elkargoaren, Eusko Jaurlaritzaren eta Nafarroako Gobernuaren agenda digitaletan hizkuntza-teknologien garapena eta sozializazioa jasotzea.

15-iñaki alegria/olatz arregi/xabier artola.indd 284

24/11/22 13:43

ESTANDARIZAZIOA ETA HIZKUNTZA-TEKNOLOGIAK

•

285

Zenbait proiektu estrategiko indartsu lankidetzan diseinatzea eta garatzea izan daiteke abiatzeko modu interesgarria.

Bibliografia Aduriz, Itziar; Alegria, Iñaki; Artola, Xabier; Diaz de Ilarraza, Antton eta Sarasola, Kepa (2011): «Teknologia garatzeko estrategiak baliabide urriko hizkuntzetarako: euskararen eta Ixa taldearen adibidea», Linguamatica 3(1), (Kontsulta: 2020-06-15) Aduriz, Itziar, Alegria, Iñaki, Arregui, Olatz, Diaz de Ilarraza, Arantza, eta Sarasola, Kepa (2017): «Hizkuntza-teknologia ‘Datu Handien’ garaian: bilatzaileak, itzultzaileak….», Senez: itzulpen aldizkaria (48), 15, (Kontsulta: 2020-06-15). Agirre, E.; Aldezabal, I.; Pociello, E. (2006): «Euskararako ezagutza-base lexiko-semantikoaren eredu-hautaketa eta garapena: EuskalWordNet», Gogoa 5(2), (Kontsulta: 2020-06-15). Aldezabal, I.; Aranzabe, M. J.; Diaz de Ilarraza, A. eta Zabala, I. (2017): «Terminologia lantzeko baliabideak EHUn», Senez: itzulpen aldizkaria 48, 15, (Kontsulta: 2020-06-15). Aldezabal, I.; Aranzabe, M. J.; Arriola, J. M.; Diaz de Ilarraza, A., Estarrona, A.; Fernandez, K.; Quintian, M. eta Uria, L. (2007): EPEC: dependentziekin etiketatzeko eskuliburua. Barne-txostena, (Kontsulta: 2020-06-15). Alegria, Iñaki; Sarasola, Kepa (2017): Language technology for language communities: An overview based on our experience. Communinities in Control. Foundation for Endangered Languages, DIDLeS, SOAS World Languages Institute and Mercator Research Centre, 91-97. 978-0-9560210-9-0, (Kontsulta: 2020-06-15). Aranberri, Nora; Labaka, Gorka (2017): «Euskarazko Itzulpen Automatikoa», Senez: itzulpen aldizkaria 48, 16, (Kontsulta: 2020-06-15). Arriola, J. M.; Goikoetxea, J.; Iruskieta, M. (2020): «Hizkuntza-teknologiak hizkuntzen ikas-irakaskuntzan: zenbat aukera, hainbat erronka», Ehizpide 95, pp. 1-21 Artola, X.; Sagarna, A.; Urkia, M.; Ezeiza, N. eta Gurrutxaga, A. (2017): «Lexikoaren Behatokia: leiho bat xxi. mendeko hedabideetako euskarari», Senez: itzulpen aldizkaria 48, 16, (Kontsulta: 2020-06-15). Berria (2019): Ia milioi bat ikustaldi izan ditu BERRIAren infografia batek, (Kontsulta: 2020-06-15). EAB, Euskararen Aholku Batzordea (2016): Euskarazko IKTak: gomendioak herri-aginteentzat. Eusko Jaurlaritzaren argitalpen zerbitzua, (Kontsulta: 2020-06-15). EPRS, European Parliamentary Research Service (2017): Language Equality in the Digital Age-Towards a Human Language Project, (Kontsulta: 2020-06-15).

15-iñaki alegria/olatz arregi/xabier artola.indd 285

24/11/22 13:43

286

IÑAKI ALEGRIA LOINAZ / OLATZ ARREGI URIARTE / XABIER ARTOLA ZUBILLAGA

Estarrona, A.; Etxeberria, I.; Soraluze, A. eta Padilla-Moyano, M. (2019): «Spelling Normalisation of Basque Historical Texts», Procesamiento del Lenguaje Natural, 63, pp. 59-66, (Kontsulta: 2020-06-15). Fernandez de Landa, J.; Agerri, R. eta Alegria, I. (2019): «Euskaldun gazte eta helduen harremanak Twitterren», in III. Ikergazte. Nazioarteko ikerketa euskaraz, Kongresuko artikulu bilduma. Gizarte Zientziak eta Zuzenbidea 2, pp. 83-90, (Kontsulta: 2020-06-15). Henley, John (2018): «Icelandic Language Battles Threat of “Digital Extinction”», The Guardian. Otsailaren 26a, (Kontsulta: 2020-06-15). Hernáez, Inmaculada; Navas, Eva; Odriozola, Igor; Sarasola, Kepa; Diaz de Ilarraza, Arantza; Leturia, Igor; Diaz de Lezana, Araceli; Oihartzabal, Beñat eta Salaberria, Jasone (2012): Euskara aro digitalean. Springer, (Kontsulta: 2020-06-15). ITZULBIDE (2019): (Kontsulta: 2020-06-15). Kornai, Andras (2019): «Hizkuntzen heriotza digitala», BAT 111-2019 (2). Jatorrizko bertsioa, (Kontsulta: 2020-06-15). MINECO, Ministerio de Turismo, Energia y Agenda Digital (2015): Plan de Impulso de las Tecnologías del Lenguaje, (Kontsulta: 202006-15). Otegi, A.; Agirre, A.; Campos, J. A.; Soroa, A. eta Agirre, E. (2020): «Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque», in Proceedings of The 12th Language Resources and Evaluation Conference (436-442), (Kontsulta: 2020-06-15). Perez, Elixabete; Zulaika, Esther (2014): «Gzteak lgnrtn idztn: mintzidatzien antolamendua», Euskal Hizkuntzalaritzaren egungo zenbait ikerlerro 111-134. UEU, (Kontsulta: 2020-06-15). Perez de Viñaspre, Olatz; Oronoz, Maite (2018): «Estandar klinikoen itzulpen automatikoa», BAT 118 (3), . SUSTATU (2014): Euskararen zentralitate harrigarria munduko hizkuntzen sare-egituraren ikerketa batean (Kontsulta: 202006-15) Uria, L., Alegria, I. eta Corral, A. (2017): «Kode-alternantzia aztertzeko hizkuntza-teknologien ekarpena», BAT aldizkaria, 104 (3), (Kontsulta: 2020-06-15). Wikipedia. Xuxen, (Kontsulta: 2020-06-15).

15-iñaki alegria/olatz arregi/xabier artola.indd 286

24/11/22 13:43

EUSKALTZAINDIAREN EUSKARA ESKUZ ESKU TRESNA BERRIAZ ARGIBIDE BATZUK Jean-Baptiste Coyos Euskaltzaindia-Euskara, eskuz eskuren zuzendaria [email protected]

Artikulu honetan 2014an asmatu den eta 2018an eraikitzen hasi den Euskaltzaindiaren Euskara eskuz esku (EEE) tresna numerikoa aurkeztuko dugu1. 2020ko urriaz geroz Euskaltzaindiaren webgunean erabil daiteke (www. euskaltzaindia.eus). 1. Euskara eskuz esku egitasmoaren aurkezpen orokorra EEE egitasmoa Ipar Euskal Herriko hiztun alfabetatuei euskara batuaren hedatzeko tresna linguistiko berria da2. Erregularki gaurkotzen den euskarri numeriko erabilgarri honen xedea erabiltzaileen galderei erantzutea da, edo eus1 Euskara

eskuz esku egitasmoa 2018-2020 epean Europako Lurralde Garapen Funtsak % 65ez lagundua da (Fonds Européen de Développement Régional, FEDER), Interreg V-A programaren barnean (Espainia-Frantzia-Andorra, POCTEFA 2014-2020). POCTEFAren helburua mugaz gaindiko Espainia-Frantzia-Andorra lurraldearen ekonomia- eta gizarte-integrazioa indartzea da. Bere laguntza ekonomia-, gizarte- eta ingurumen-jardueraren garatzean kontzentratzen da, lurraldearen garapen jasangarria azkartzen duten estrategia erkideen bidez. 2 EEEren lantaldea hola osatua zen. Ikertzailea: Isabelle Duguine; zuzendaria: Jean-Baptiste Coyos; aholkulariak: Andres Alberdi, Jean-Louis Davant, Txomin Peillen, Allande Socarros eta Xarles Videgain.

16-jean-baptiste coyos.indd 287

24/11/22 13:54

288

JEAN-BAPTISTE COYOS

karrian berean aurki ditzaketen argibideen bidez, edo galderen erantzun-mezu elektronikoren bidez. Hots tresna gaurkotu eta interaktiboa. Euskarri horrek Euskaltzaindiak 1994az geroztik argitaratzen dituen arauak, gomendioak eta adierazpenak proposatzen ditu, artikulu erraz bidez, ahal den neurrian, Ipar Euskal Herriko hizkuntza-aniztasunari dagozkionak azpimarratuz. Hizkuntza idatziari eta ahozkoari lotuak diren eremu hauek kontuan hartzen ditu: aditza, morfologia, sintaxia, onomastika, lexikoaren alderdi batzuk, ahoskera, puntuazioa eta idazkera. Puntu batzuk, puntuazioa edo -a berezkoaren eta (a) artikuluaren arteko bereizketa adibidez, arauetan zuzenki azalduak ez dira. Halere, EEEn aurkezten dira euskararen erabiltzaileentzat lagungarri izan daitezkeela ustez. Oro har, helburua da erakustea nola euskara batua gauza daitekeen Ipar Euskal Herrian. Lan honetan, EEEren lantaldearen kideen euskararen eta Iparraldeko hizkeren ezagutzaz gain, Euskaltzaindiaren Euskara Batuaren Eskuliburua eta Euskaltzaindiaren Hiztegia baliagarriak izan zaizkigu. Bestalde, euskara batua lurralde horretako hizkuntza-testuinguruan kokatzeko, informazio anitz aurkituko ditu erabiltzaileak EEEn: Ipar Euskal Herriko euskarazko literatura, historian eta orain, euskara batuaren historia eta presentzia oraingo gizartean, euskararen estatusa Iparraldean, testu labur batzuetan aurkeztuak; euskara batuak, euskalkiek eta frantsesak osatzen duten hizkuntza-ekosistemari buruz eraman den inkesta soziolinguistiko baten emaitzak; bideo batzuk Ipar Euskal Herrian euskararen biziberritzean parte hartu duten lekuko zenbaiten elkarrizketarekin; lurralde horretako ahoskeraren adibide entzungai batzuk... Sar gaitezen orain gehiago Euskara eskuz esku euskarrian, argibide eta zehaztasun batzuk emanez. Eta lehenik, zergatik egitasmo hori? 2. Euskara eskuz esku zergatik? 2.1. Euskara batuaren ibilbideaz Ipar Euskal Herrian Berrogeita hamar urtez euskara batuak bere bidea egin du euskal gizartean; Ipar Euskal Herrian ere bai. Haren beharra eztabaidatua ez da orain eta gizarte-alor anitzetan sartu da lurralde horretan ere, idatzia edota ahozkoa. Halere galdera anitz badira, fenomeno hori azkenean gutxi ikertua izan baita. Lehen galdera behar bada, zer da euskara batua? Euskaltzaindiaren arauetan stricto sensu agertzen den euskara idatzia? Era batez bai eta hori da nagusiki EEEk eskaintzen duena. Bilbon edo Baionan erabiltzen diren euskara mota ezberdin horiek, alde batetik espainolaren eta bizkaieraren edo, bestetik, frantsesaren eta Iparraldeko euskalkien eraginarengatik egunero aldatzen direnak? Era batez ere

16-jean-baptiste coyos.indd 288

24/11/22 13:54

EUSKALTZAINDIAREN EUSKARA ESKUZ ESKU TRESNA BERRIAZ ARGIBIDE BATZUK

289

bai. Azken horiek «tokiko batuak» deituko ditugu Koldo Zuazorekin (2005: 237-240), edo adibidez «lurraldeetako batuak». Beraz, ikergaian gehiago sartu gabe, erran dezakegu gaur egun euskara batua gauza konplexua dela, anitza eta aldakorra dela. Hizkuntza arautu denak bezala munduan zehar, euskara batua ez da batere monolitikoa edo uniformea. Beste galdera batzuk etortzen zaizkigu: euskara batua nola oinarritua da Ipar Euskal Herrian? Nola onartua da? Zer neurritan? Zein formatan? Zer bilakatzen da lurralde horretako euskalkiekin eta hizkerekin batera, frantsesa aipatu gabe?3 Hori jakitea garrantzitsua da Euskaltzaindiarentzat, baina ere euskal eragile eta botere publikoentzat, lurralde horretan euskararen aldeko politika gero eta eraginkorragoa indarrean jartzeko. 2.2. Euskaltzaindiaren arauak ez dira ongi ezagutuak. Nola hobeki ezagutaraz? Badakigu Euskaltzaindiaren arauak anitz edo ongi ezagutuak ez direla Iparraldean, oro har. Eraman dugun inkesta soziolinguistikoan (Coyos 2018 eta 2019 b), inkestatu batzuek hori azpimarratu dute. Hiztun zenbaitek dudak badituzte. Batzuek Iparraldeko formak edo tokikoak eta euskara batukoak nahasten dituzte. Hegoaldeko forma markatu batzuk baliatzen dituzte ere, euskara batukoak edo jasoagoak direla ustez. Edo ez dakite bata ala bestea noiz erabil. Oro har, euskara batua gaizki aurkeztua eta ezagutua da Iparraldean. Bestalde, euskaraz eskolatuak ez diren euskaldunentzat euskara batua zalantzazkoa da; horiek adineko euskaldun zahar dira nagusiki. Luzatu gabe hemen, ikergai hau zabal eta konplikatua baita, erran dezagun Ipar Euskal Herrian Euskaltzaindiaren arauak hobeki ezagutarazi behar direla. 3 Lurralde

horretako hizkuntza-testuinguru hau hobeki ulertzeko, liburu baten erreferentzia lagungarri bat aipa dezadan. Bere mendeurrenaren kariaz, 2018an Euskaltzaindiak jardunaldi berezi bat antolatu zuen Baionan, Euskara batua eta Ipar Euskal Herria: 1964-2018 deitua. Jardunaldi horren helburu orokorrak hauek ziren: 1964 urte garrantzitsutik hasiz Ipar Euskal Herrian euskara batuaren garapena aztertzea, gaur egungo errealitatearen azaltzea (euskararen batasuna nola ikusten den orain Ipar Euskal Herrian, euskal gizartean euskalkien eta euskara batuaren paperak...), eta, geroari so eginez, beharrak zein ziren agerraraztea. Euskara batua eta euskalkien arteko harremanak ulertzeko, hona beste erreferentzia bat: 2020an Euskaltzaindiak argitaratu duen Euskara batua eta tokian tokiko erabilera: korapiloak eta erronkak. Azpimarra dezadan liburu honetan Mikel Zalbiden «Euskara batua eta eguneroko mintzamolde arruntak: zer dira eta zertarako? Biak nola uztartu?» artikulua. Honetan soziolinguistikan erabiltzen diren kontzeptu teoriko batzuk aurkezten eta aztertzen ditu Zalbidek: hizkuntza estandarra eta estandarizazioa, normatibizazioa, kodetzea, inplementazioa, besteak beste, bai eta euskararen batasuna, euskara batua nozioak ere. Irakurtzeko dudarik gabe.

16-jean-baptiste coyos.indd 289

24/11/22 13:54

290

JEAN-BAPTISTE COYOS

Baina euskaldun alfabetatuak ez dira denak gramatikazaleak edo arauzaleak, eta aitortu behar da Euskaltzaindiaren arauak ez direla beti argi-argiak. Batzuetan pixkat zaharkituak izan daitezke terminologian edo, kasu bakan batzuetan, kontraesanezkoak puntu zenbaitetan. Bistan da Euskaltzaindiak hori badaki eta emeki-emeki gaurkotzen ditu. Hau da desafioa: euskararen profesionaletarik kanpo, nola arau hauek hobeki ezagutaraz? Euskal komunitatean nola sarraraz hobeki? Norabide honetan, EEEn arauak era sinplifikatuan aurkezten saiatu gara. Ipar Euskal Herriko erabiltzaleei pentsatuz, euskara batuan onartzen diren Iparraldeko hizkeren berezitasunak azpimarratzen dira. Adibideetan, euskara batuan onartzen diren Iparraldeko formak lehenesten dira. 3. Euskara eskuz esku-ren helburuko erabiltzaileak Hizkuntza egoera konplexu hau kontuan hartuz, Iparraldeko euskaldunen eta euskara ikasten dutenen beharrei, dudei, galderei erantzuteko, Euskaltzaindiak garatu dituen beste tresna ugariez gain Euskara eskuz esku sortu du. EEEren helburuko erabiltzailea euskaraz alfabetatua den Iparraldeko euskaldun «arrunta» da. Xede-publikoa ez da gramatikariena, baina euskara batuan idatzi nahi duen Iparraldeko euskaldun alfabetatuena. Laburbilduz, helburuko erabiltzailea Iparraldeko euskaldun alfabetatua da, euskara batua erabili nahi duena, irakasleak, ikasleak, euskara teknikariak, euskara idatzia erabiltzen dutenak, eta, publiko horrez haraindian, diasporan edo Hego Euskal Herrian gai horrez interesa duena. Euskaltzaindiak, arauak sortzeko orduan, betidanik euskararen bariazioa, nagusiki historikoa eta geografikoa (diatopikoa), kontuan hartu eta hartzen ditu. Erran bezala, EEEn arauen aurkezpenean agerrarazten duguna hau da: bere arauetan Euskaltzaindiak Iparraldeko euskararen berezitasuna nola kontuan hartzen duen. Ikus dezagun, bi arau adibideren bidez, Euskaltzaindiak nola jokatu duen. 4. Euskaltzaindiaren arauak eta Iparraldeko euskararen berezitasunak: Bi adibide. 5. eta 39. arauak 4.1. «Ene/nire, nirekin, niri»: 5. araua Arau hori 194 arauen (2022-07-01ean) lehenetarik bat da, «Ene/nire, niri» deitzen dena. Bilbon 1994ko urriaren 28an onartu zen.

16-jean-baptiste coyos.indd 290

24/11/22 13:54

EUSKALTZAINDIAREN EUSKARA ESKUZ ESKU TRESNA BERRIAZ ARGIBIDE BATZUK

291

Orrialde bateko testu batean araua bera eman baino lehen, ni izenordainaren testuinguru historiko eta dialektologikoa azaltzen da. Azalpen hori biziki garrantzitsua da arauaren aukera justifikatzeko. Helburua da subjektibotasuna baztertzea, ahal den neurrian. Hola hasten da azalpena: «Euskal pertsona-izenordainen deklinabidean batasuna lortzeko, punturik korapilotsuena, forma indartuen arazoa alde batera utzirik, ni izenordainaren noren kasuari dagokiona da». Gero ikasten dugu ene dela forma zaharrena, «bizkaieratik zubererara». Beraz, forma hori orokorra zen iduriz. Gero, xvii. mendearen amaieran, nere forma goi-nafarrerazko testu batean agertzen dela azaltzen da eta gero xviii. mendean lapurteraz (1733) eta gipuzkeraz (1739). Azkenik, ber mendean nire forma agertuko da, bizkaieran lehenik. Baina Hegoaldean ene forma desagertu zen eta, gaur egun, ene! bezalako erranmolde fosilduan bakarrik erabiltzen da. Testua aipatzen dut berriz: «Kasu honetan zahartasuna eta hedadura kontuan harturik niri da hobestekoa». Hau da Euskaltzaindiaren erabakia eta testuaren bukaerako koadroan agertzen den araua hola idatzia da: Hauxe da, hortaz, Euskaltzaindiaren erabakia: ni izenordainaren noren kasuan nire erabil dadila (eta, jakina, niretzat, nirekin), eta orobat ene, maila jasoan bederen; nori kasuan niri erabil dadila.

Hau da izan Euskara eskuz eskuren lana: kasu honetan azpimarratzea Ipar Euskal Herrian erabilia den ene forma Euskaltzaindiak debekatua ez dela. Lurralde horretan sartzen hasten ari den nire forma ez dugula lehenetsi behar, hori «egiazko» euskara batua litzatekeela ustez. Ikastolen bidez, gau eskolen bidez, Hegoaldeko euskaldunekiko harremanen bidez, nire gero eta gehiago entzuten da. Baina euskara batuan ene forma ez da baztertu behar. Ez, ene forma, Iparraldean betidanik erabilia izan dena, irakatsi behar da ikastoletan eta gau eskoletan, nire forma baliokidea erabiltzen dela ere jakinez, bistan da. Ene ez da, euskaldun berri batzuek uste duten bezala, Iparraldeko herri-mailako hitz bat edo dei nezake «ipar-euskalkikeria» bat. 4.2. «Zenbait aditzen erregimena», 39. araua Azter dezagun laburki bigarren adibide bat, 39. araua, «Zenbait aditzen erregimena» deitzen dena. Bilbon, 1995eko uztailaren 28an, onartua izan zen. Aditz batzuen (deitu, gonbidatu, iguriki eta igurikatu, itxoin eta itxaron, lagundu) erabilera ez da uniformea gaur egun idazle eta hiztunengan; historian ere eskualdeen arabera ez zen. Ohart gaitezen aditz hauek denak iragankorrak

16-jean-baptiste coyos.indd 291

24/11/22 13:54

292

JEAN-BAPTISTE COYOS

direla, gramatika-objektua behar dute eta *edun edo *ezan aditz laguntzaileekin erabiltzen dira. Baina hiztun batzuek adizkian zehar-objektua gehitzen dute eta besteek ez, nor-nori-nork egitura erabiliz ala nor-nork egitura erabiliz. Adibidez: lagunduko zaitut (nor-nork) edo lagunduko dizut (nor-nori-nork) entzun edo irakur daiteke. Semantika alorrean, aditz horiek bi argumenturekiko (bi parte-hartzaileekiko) prozesu bat adierazten dute. Rol semantikoak hauek dira: bata eragilea (nork) da, bestea jasaile (nor edo nori). Hirugarren parte-hartzailerik ez da. Adibidean, lagundu aditzarekin, eragilea lagunduko duena da eta jasaile lagundurik izanen dena. Euskaltzaindia gogoeta honetan sartu ez da, alde semantikoa ez du aztertu, prozesua eta rol semantikoak zein diren. Aditz hauen erabilera du kontuan hartu bakarrik araua sortzeko. Baina Akademiak, bariazio hori gogoan izanez, zalantzak kendu behar zituen eta erabaki, euskara baturako bederen. Eta hemen ere, ene/nire/*nere formekin egin zen bezala, araua bera eman baino lehen, mendeetan zehar Ipar- eta Hegoaldeko literaturan aditz horien erabilera aztertu du, erabakia hartzeko eta justifikatzeko. Har ditzagun lau aditz adibide gisa Euskaltzaindiak nola jokatu duen ikusteko. •

•

•

Gonbidatu (gomitatu Iparraldean) Hau erraten da gonbidatu aditzaren erabileraren analisian: «Aditz honek du eskatzen du, eta ez dio, literaturan ageri diren ehundakako adibideek, eta gaurko erabilerak ere, ongi aski erakusten duten gisa. Esan beharra da xvi-xvii. mendetik hona aise erabiliagoa dela aditz hau Iparraldean, Hegoaldean baino (gomita, gomitatu formekin gainera)». Ondorioz arauan, durekiko (nor-nork) eraikuntza nagusitzen dela kontuan harturik, Euskaltzaindiak egitura hori euskara batuan erabili behar dela erabaki du. Itxoin «Itxoin forma Gipuzkoan baizik ez da aurkitzen eta hor ere xix. mende bukaeran, euskara mintzatuan, bereziki. NORK NORI erregimena darama beti (Mikeli itxoingo diot), non ez den objekturik gabe gertatzen (Hemen berean itxoingo dut)» ohartzen da Akademia. Aditz hori gaur egun Iparraldean gero eta gehiago ulertzen eta entzuten da, bereziki agintera formula honetan: Itxoin!. Baina erabileran igurikatu, iguriki, beha egon edo aiduru izan aditzak ez ditu ordezkatzen. Iguriki, igurikatu kasuan, Iparraldean batez ere erabilia dena beraz, durekiko (nor-nork) egitura gomendatzen du Euskaltzaindiak. Halere historian ez zen hola beti izan: «Behin batean NORK NORI edo NORK ZERI erregimena zeraman aditz honek, baina xviii. mendetik hona, NORK NOR edo NORK ZER nagusitu da orotan. Hemendik egin behar da, beraz, batasuna.»

16-jean-baptiste coyos.indd 292

24/11/22 13:54

EUSKALTZAINDIAREN EUSKARA ESKUZ ESKU TRESNA BERRIAZ ARGIBIDE BATZUK

•

293

Deitu Hau erraten da deitu aditzaren erabileraz: «Gaur arte dirauen tradizioari jarraikiz Iparraldean DEITU aditzaren erregimena NOR NORK izan da eta Hegoaldean, berriz, aditz berarekin NORI NORK nagusitu da. Euskara batuan bi formak dira onartzekoak». Gauza bera erabakitzen du Akademiak lagundu aditzaren kasuan. Hots, hemen, euskara batuan bi aditz-eraikuntza onartzen ditu (du edo dio), Iparraldearen eta Hegoaldearen jokaera ezberdintasuna onartuz. Eta hau da araua: Hortaz, hau da Euskaltzaindiaren erabakia ondoko aditz hauen erregimenaz: 1. gonbidatu aditzak NOR-NORK eskatzen du: «Mikel gonbidatu dute» 2. iguriki aditzak NOR-NORK eskatzen du: «Ez dute bertzerik igurikitzen» 3. itxoin eta itxaron aditzek NORK-NORI eskatzen dute objektua dutenean: «Mireni itxoin zioten eguerdiraino». Eta objekturik gabe daudenean NOR-NORK behar dute: «Egongelan itxoin dute goiz osoan» 4. deitu eta lagundu bietara erabil daitezke: «Mikeli deitu diogu», «Mikel deitu dugu»; «Mikeli lagundu diote», «Mikel lagundu dute».

Oro har, Iparraldetik ikusiz, ohartzen gara, «Ene/nire, niri» arauarekin gisan, Euskaltzaindiak lurralde horretan erabiltzen ziren eta diren formak baztertu ez dituela, batzuek pentsa lezaketen bezala. Aditz horien erabileraren batasunaren bilatuz, gomendio orekatuak egin ditu. Erabakiak erabileran oinarritzen dira eta ez, gorago azaldu bezala, argudio semantikoetan. Alor honetan, erran genezake Iparraldeko aditz horien erabilera orokorra semantikari hurbilago litzaiokeela, durekiko (nor-nork) egitura lehenetsiz, prozesuan bi argumentu baizik ez baitira (edo bat bakarrik batzuetan ixoin eta igurikatu aditzekin). Errealitatean, bi entitate baizik ez dira parte hartzen gertakarian edo bat bakarrik. 5. Lexikoaz-Hitz baliokideak: Euskara estandarra / Iparraldeko ohiko moldea

2.2. lerroaldean azpimarratu bezala, Ipar Euskal Herrian, adituetarik kanpo, Euskaltzaindiak garatu eta garatzen duen euskara batua guti edo gaizki ezagutua da. Batzuetan, tokiko hizkerekin nahasten da. Hiztun zenbaitek zalantzak badituzte: zein forma erabil testuinguru batean edo bestean? Zein da euskara batuan forma egokia? Haurtzaroan ikasi den forma hori erabil daitekea euskara batuan? Gaur egun garatzen ari diren Hegoaldeko euskaldunekiko harremanen bidez, Euskal Herri osoan hedatzen duten komunikabideen bidez (prentsa idatzia eta ikus-entzunekoa, Internet, blogak, sare sozialak...), irakaskuntzaren

16-jean-baptiste coyos.indd 293

24/11/22 13:54

294

JEAN-BAPTISTE COYOS

bidez, Hegoaldean erabili den lexikoa gero eta gehiago sartzen eta erabiltzen da Iparraldean. Lexikoaren sailean dudak eta zalantzak anitz dira eta, argibidea eskuratzeko, Euskaltzaindiaren Hiztegira joatea erreflexua ez da. Horrengatik, Euskara eskuz esku tresnan bi zutabetan egituratu hitz-zerrenda bat ematen da. Iparraldeko irakurle euskaldunari lagungarria izan nahi zaio. Euskara estandarra deitu den zutabe batean dauden hitzek Iparraldeko moldean zein adiera izan dezaketen jakin dezan bigarren zutabean ematen da (ikus zerrendaren lagina beherago, K letra). Euskara estandarra / Iparraldeko ohiko moldea adierazi ditugu izenburuak, baina komeni da zehaztapen batzuk egitea. Hauek, bereziki: –

Gaurko euskararen ekoizpenean Hegoaldeak duen indarra kontuan harturik, ez da harritzekoa estandar diogun horretan forma anitz Hegoaldekoak izatea egun. Batzuetan forma horiek ez dira neutroak, Euskaltzaindiaren Hiztegian Heg., Heg. Beh., Heg. Lgart., Herr., Gip. ala Bizk. marka daramate besteak beste4. – Bigarren zutabean, Iparraldeko ohiko moldea deituan, Iparraldeko euskaldun arruntarentzat ezagunagoak diren formak sartu dira. Forma horiek Euskaltzaindiaren Hiztegiak hobesten dituen formak izan daitezke batzuetan, Euskara estandarra zutabeko baliokideak markatuak baitira orduan. Aparteko tratamendua eman diogu zenbaitetan zubererari (Zub.); izan ere, euskalki horretan batzuetan ahoskera edo hitza bera (bukatu, amaitu / Zub. urrendu [ürrentü]) ezberdina izanik, komeni da ageriko oharra egitea, batez ere ahoskerari dagokionez. – Holako korrespondentzia azaltzen denean, usu sinonimo hitza erabiltzen da nahiz agian zehatzagoa litzatekeen anitzetan geosinonimo terminoa erabiltzea, ipar/hego isoglosa agertzen baita hitz anitzen erabileran. Guk hemen baliokide hitza hautatu dugu. Bi hitzen arteko sinonimotasuna gehienetan osoa ez da, haien erabilera-testuinguruak berdin-berdinak ez baitira. – Mailegu-hitzetan agerikoa da, alde batetik, gaztelaniaren eragina (alkate, kale, kotxe...), eta, bestetik, frantsesarena (auto, diozesa, finitu...). – Zutabeetako baliokidetasunak ez dira beti pare-parekoak. Zenbaitek, baliokidearen adieraz gain, beste adiera bat ukan dezakete. – Zerrendaren hitz denak Euskaltzaindiaren Hiztegian daude, bizpahiru salbuespen izan ezik. Hona zerrendaren lagin bat: 4 Heg.:

Hegoaldea, Heg. Beh.: Hegoaldea Behe-mailakoa, Heg. Lgart.: Hegoaldea Lagunartekoa, Herr.: Herri-mailakoa, Gip.: Gipuzkera, Bizk.: Bizkaiera.

16-jean-baptiste coyos.indd 294

24/11/22 13:54

EUSKALTZAINDIAREN EUSKARA ESKUZ ESKU TRESNA BERRIAZ ARGIBIDE BATZUK

295

1. taula: Baliokideak: Euskara estandarra / Iparraldeko ohiko moldea zerrendaren lagina: K letra (Euskara eskuz esku)

K

Euskara estandarra

Iparraldeko ohiko moldea

kaixo (Heg. Lgart.)

agur (lehen agurtze hitza)

kale

karrika

kale egin

huts egin

kartel (Heg.)

afixa

kartzela

presondegi

koaderno (Heg.)

kaier

koma

kakotx

konforme (Heg. Herr.)

ados, akort

konpromiso (Heg.)

engaiamendu

kotxe

auto, beribil

kuadrilla (Heg. Beh.)

lagun(-)talde

6. Euskara eskuz esku laburbilduz Hauek dira oro har Euskara eskuz eskuren filosofia eta helburua: tresna lagungarria izatea euskara batua hobeki erabiltzeko Ipar Euskal Herrian. Bistan da, hiztuna librea da eta, erran bezala, hiztunen berezko erregistroez, tokiko hizkerez eta ipar-euskalkiez gain, Iparraldeko euskara batu berezi bat garatzen dela erran daiteke (Coyos 2018). Eta hori normala eta beharrezkoa da, hizkuntza denen bilakaeran hiztunen beharrek paper handia baitute. Paper nagusia erran nezake. Dena den, EEEren helburu nagusia da Euskaltzaindiaren arauen aurkeztea era sinplifikatuan. Arauen aurkezpenean, Iparraldeko hizkeren berezitasunak azpimarratzen dira. Adibideetan, Iparraldea oro har eta, zehazkiago, euskara batuan onartzen diren Iparraldeko formak lehenesten dira. Gainera, euskara batua Iparraldeko hizkuntza-testuinguruan kokatzeko, euskarri batzuk kontsulta daitezke EEEn: lekukotasun-bideo, ahoskeraren audio-grabazio, aurkezpen testu batzuk... Bestalde, dudek edo galderek EEEn erantzunik ez baldin badute, erabiltzaileak zuzenki idatz dezake eta Euskaltzaindiaren Jagonet zerbitzuaren bidez berehalako erantzun pertsonala eskuratuko du.

16-jean-baptiste coyos.indd 295

24/11/22 13:54

296

JEAN-BAPTISTE COYOS

Hots, Euskara eskuz esku euskara estandarraren hedatzeko Euskaltzaindiaren baliabide berri bat dugu. Euskararen estandarizazioaren bidean inplementazio tresna berri bat gure esku. 7. Erreferentziak Coyos, Jean-Baptiste (2018): «Euskara batua eta euskalkiak Ipar Euskal Herrian: inkesta pertzepziozko dialektologian oinarritua», Euskera, 63 (2018), 2-1, 185-208. Coyos, Jean-Baptiste, prestatzailea (2019 a): Euskara batua eta Ipar Euskal Herria: 1964-2018, Jagon 19. Bilbo: Euskaltzaindia. Coyos, Jean-Baptiste (2019 b): «Euskara batua eta euskalkiak Ipar Euskal Herrian: inkesta pertzepziozko dialektologian oinarritua Bigarren zatia», Euskera, 64 (2019), 2-1, 255-290. Euskaltzaindia (1994): Ene/nire, nirekin, niri. 5. araua, www.euskaltzaindia.eus/hizkuntza-baliabideak/baliabide-orokorrak/arauak (Kontsulta: 2019-11-24). — (1995): Zenbait aditzen erregimena. 39. araua, www.euskaltzaindia.eus/hizkuntza-baliabideak/baliabide-orokorrak/arauak (Kontsulta: 2019-11-24). — (1994-2019): Arau guztiak, www.euskaltzaindia.eus/hizkuntza-baliabideak/baliabide-orokorrak/arauak (Kontsulta: 2019-11-24). — (2018): Euskara Batuaren Eskuliburua. 3. argitaraldi eguneratua (2019). Bilbo: Euskaltzaindia. — (2016-2020, online). Euskaltzaindiaren Hiztegia, www.euskaltzaindia.eus (Azken kontsulta: 2020-06-02). — (2020, online). Euskara eskuz esku, www.euskaltzaindia.eus. Euskaltzaindia-Ezkerraberri Fundazioa (2020): Euskara batua eta tokian tokiko erabilera: korapiloak eta erronkak, Jagon 20. Bilbo: Euskaltzaindia. Zalbide, Mikel (2020): «Euskara batua eta eguneroko mintzamolde arruntak: zer dira eta zertarako? Biak nola uztartu?», in Euskaltzaindia-Ezkerraberri Fundazioa, Euskara batua eta tokian tokiko erabilera: korapiloak eta erronkak, Jagon 20. Bilbo: Euskaltzaindia, 11-90. Zuazo, Koldo (2005): Euskara batua. Ezina ekinez egina. Donostia: Elkarlanean.

16-jean-baptiste coyos.indd 296

24/11/22 13:54