Testo e computer. Elementi di linguistica computazionale [Paperback ed.] 8843034251, 9788843034253

In che modo il computer può aiutarci a comprendere come funziona la nostra lingua? Cosa significa analizzare un testo co

198 69 2MB

italian Pages 256 [250] Year 2005

Report DMCA / Copyright

DOWNLOAD PDF FILE

Recommend Papers

Elementi di semiologia. Linguistica e scienza delle significazioni 8806032364, 9788806032364

105 1 Read more

Elementi di semiologia. Linguistica e scienza delle significazioni 8806032364, 9788806032364

110 104 Read more

Lingue d'Europa : elementi di storia e di tipologia linguistica 9788843025336, 8843025333

509 112 123MB Read more

Lingua e testo di Ipponatte 9788862279383, 8862279388

477 35 4MB Read more

Elementi di autocritica

382 47 3MB Read more

Elementi di geomatica 8890094370

Elementi di geomatica con elementi di geodesia e cartografia, fotogrammetria, telerilevamento, informatica, sistemi di r

627 78 152MB Read more

Elementi di antropologia culturale

853 94 14MB Read more

Elementi e materiali di diritto doganale 9791255100232, 9791255100287, 9791255100300

Il volume nasce come strumento di studio e di supporto alle attività didattiche e pratico-laboratoriali nell'ambito

115 3 3MB Read more

Elementi di Statistica

439 29 13MB Read more

Elementi di macchine [3]

Volume 3 di 3

389 44 56MB Read more

Testo e computer. Elementi di linguistica computazionale [Paperback ed.]
8843034251, 9788843034253

Author / Uploaded
Alessandro Lenci
Simonetta Montemagni
Vito Pirrelli

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

UNIVERSITÀ

/ 664

LINGUISTICA

I lettori che desiderano informazioni sui volumi pubblicati dalla casa editrice possono rivolgersi direttamente a: Carocci editore via Sardegna 50, 00187 Roma, telefono 06 42 81 84 17, fax 06 42 74 79 31

Visitateci sul nostro sito Internet: http://www.carocci.it

Alessandro Lenci

Simonetta Montemagni

Vito Pirrelli

Testo e computer Elementi di linguistica computazionale

Carocci editore

Ad Andrea, Francesco e Rachele

1a edizione, maggio 2005 © copyright 2005 by Carocci editore S.p.A., Roma Finito di stampare nel maggio 2005 per i tipi delle Arti Graﬁche Editoriali Srl, Urbino ISBN

88-430-3425-1

Riproduzione vietata ai sensi di legge (art. 171 della legge 22 aprile 1941, n. 633) Senza regolare autorizzazione, è vietato riprodurre questo volume anche parzialmente e con qualsiasi mezzo, compresa la fotocopia, anche per uso interno o didattico.

Indice

Introduzione

000

Linguaggio e computer La linguistica computazionale tra ieri e oggi Di cosa parla questo libro

000 000 000

Parte prima Il dato testuale e la sua rappresentazione 1.

I dati della lingua

000

1.1.

Le fonti dei dati linguistici

000

1.1.1. Dati “ecologici” e dati controllati

1.2.

I corpora

000

1.2.1. Tipi di corpora

1.3.

Il corpus come campione

000

1.3.1. Rappresentatività e variabilità / 1.3.2. Corpora bilanciati

1.4.

I corpora in

LC:

istruzioni per l’uso

000

1.4.1. I limiti della rappresentatività / 1.4.2. Il corpus come benchmark / 1.4.3. I corpora specialistici / 1.4.4. Corpora di addestramento / 1.4.5. Usare il web come corpus

1.5.

Considerazioni conclusive Per saperne di più

000 000

2.

Il testo e la sua codiﬁca digitale

000

2.1. 2.2.

La codiﬁca digitale del testo: il problema Livelli di codiﬁca

000 000

7

TESTO E COMPUTER

2.3.

La codiﬁca di livello zero 2.3.1. Il set di caratteri

2.4.

ASCII

000

/ 2.3.2. Il set di caratteri Unicode

La codiﬁca di alto livello: perché, cosa, come

000

2.4.1. Perché codiﬁcare / 2.4.2. Cosa codiﬁcare / 2.4.3. Come codiﬁcare

2.5.

Considerazioni conclusive Per saperne di più

000 000

3.

Costruire un linguaggio di marcatura

000

3.1. 3.2.

XML: principi di base I componenti della marcatura

000 000

XML

3.2.1. Elementi / 3.2.2. Attributi / 3.2.3. Riferimenti a carattere e a entità / 3.2.4. Commenti

3.3.

La deﬁnizione del tipo di documento (DTD)

000

3.3.1. La dichiarazione di un elemento / 3.3.2. La dichiarazione di un attributo / 3.3.3. La dichiarazione di un’entità

3.4. 3.5. 3.6.

Struttura e validazione di un documento XML La codiﬁca del testo in formato XML: un esempio Standard e codiﬁca del testo

000 000 000

3.6.1. Iniziative internazionali di standardizzazione della codiﬁca del testo / 3.6.2. Lo schema di codiﬁca XCES

3.7.

Considerazioni conclusive Per saperne di più

000 000

Parte seconda Metodi e tecniche di analisi testuale

4.

Dal bit alla parola

000

4.1.

La “tokenizzazione” del testo

000

4.1.1. I criteri per la tokenizzazione

4.2.

Le espressioni regolari

000

4.2.1. La sintassi delle espressioni regolari

4.3.

Analizzare il linguaggio con le espressioni regolari Per saperne di più 8

000 000

INDICE

5.

Parole e numeri

000

5.1. 5.2. 5.3.

Popolazione e testo Parole unità e parole tipo Frequenze e distribuzioni

000 000 000

5.3.1. La media aritmetica / 5.3.2. La deviazione standard / 5.3.3. Leggere le distribuzioni

5.4.

Il vocabolario di un testo

000

5.4.1. Rapporto tipo/unità / 5.4.2. Parole grammaticali e parole piene

5.5.

La legge di Zipf

000

5.5.1. La famiglia Zipf

5.6.

La dinamica del vocabolario

000

5.6.1. La crescita di V / 5.6.2. La frequenza media

5.7.

Medie e inferenza statistica Per saperne di più

000 000

6.

Probabilità ed entropia

000

6.1.

Il concetto di probabilità

000

6.1.1. Spazio campionario e distribuzione di probabilità / 6.1.2. Eventi congiunti / 6.1.3. Probabilità e frequenza

6.2.

Lingua e probabilità

000

6.2.1. Modelli stocastici / 6.2.2. Modelli linguistici stocastici

6.3.

Modelli markoviani

000

6.3.1. Il modello base: l’urna lessicale / 6.3.2. Probabilità condizionate e catene markoviane del primo ordine / 6.3.3. Oltre le catene del primo ordine

6.4.

Linguaggio ed entropia

000

6.4.1. Vocabolario ed entropia / 6.4.2. Testo ed entropia

6.5.

Considerazioni conclusive Per saperne di più

000 000

Parte terza Esplorazione e annotazione del testo 7.

Esplorare il testo

000

7.1. 7.2.

Modi di esplorazione Le parole e il loro habitat: le concordanze

000 000

7.2.1. Tipi di concordanze

9

TESTO E COMPUTER

7.3.

Funzioni di ricerca avanzate

000

7.3.1. Problemi e soluzioni

7.4.

Collocazioni

000

7.4.1. Alla ricerca di collocazioni

7.5.

Conclusioni Per saperne di più

000 000

8.

L’annotazione linguistica del testo

000

8.1.

Livelli di annotazione

000

8.1.1. Annotazione morfo-sintattica / 8.1.2. Annotazione sintattica / 8.1.3. Annotazione semantica / 8.1.4. Annotazione pragmatica

8.2. 8.3.

Corpora annotati “Anatomia” di uno schema di annotazione

000 000

8.3.1. Annotazione e informazione categoriale / 8.3.2. Annotazione e informazione strutturale / 8.3.3. Annotazione e informazione relazionale / 8.3.4. Tipi di informazione di base e schemi di annotazione

8.4.

Tipi di informazione e rappresentazione

XML

000

8.4.1. Rappresentazione XML di informazione categoriale / 8.4.2. Rappresentazione XML di informazione strutturale / 8.4.3. Rappresentazione XML di informazione relazionale

8.5. 8.6. 8.7.

Annotazione stand-off Standard e annotazione linguistica Per concludere Per saperne di più

000 000 000 000

9.

Verso il trattamento automatico della lingua

000

9.1. 9.2. 9.3.

Insegnare la lingua al computer Un esempio: la morfologia Alcune conclusioni (in forma di introduzione)

000 000 000

Bibliograﬁa

000

10

Introduzione

Linguaggio e computer Il linguaggio umano (o linguaggio naturale) è lo strumento primario più immediato e duttile di cui disponiamo per creare e comunicare contenuti complessi sempre nuovi. Negli ultimi decenni, il computer si è imposto come la “macchina intelligente” per eccellenza, capace di memorizzare ed elaborare quantità enormi di dati strutturati e di renderli disponibili come informazioni. Ciononostante, le sue capacità “comunicative” sono rimaste sorprendentemente rudimentali, sostanzialmente afﬁdate alla mediazione di strutture logiche predeﬁnite, menu preconfezionati e linguaggi artiﬁciali più o meno ad hoc. L’obiettivo centrale della linguistica computazionale (LC) è quello di sviluppare modelli computazionali della lingua, cioè modelli del funzionamento del linguaggio naturale che possano essere tradotti in programmi eseguibili dal calcolatore e che consentano a quest’ultimo di acquisire le competenze necessarie per comunicare direttamente nella nostra lingua. Allo stato attuale delle nostre conoscenze, questo obiettivo può essere perseguito a più livelli di astrazione. Immaginiamo di pronunciare una richiesta di informazioni davanti a un microfono collegato al riconoscitore vocale di un computer. In prima battuta, possiamo ottenere in risposta la trascrizione ortograﬁca automatica delle parole da noi pronunciate. A un secondo livello, il computer potrebbe analizzare il contenuto della richiesta trascritta, associandolo a una rappresentazione semantica appropriata. Un calcolatore ancora più “evoluto” potrebbe rendere disponibili le informazioni oggetto della richiesta, dopo averle reperite da una fonte di dati accessibile, e così via. Ciascuno di questi compiti richiede l’acquisizione di competenze molto speciﬁche, da tradurre in tecnologie linguistiche accessibili al calcolatore. È chiaro, tuttavia, che la capacità di comunicare con l’ambiente esterno in modo intelligente passa attraverso l’integrazione 11

TESTO E COMPUTER

di queste tecnologie in sistemi funzionalmente complessi, in grado di interpretare l’informazione in ingresso, elaborarla e rispondere con altra informazione pertinente. Sono sistemi con queste caratteristiche che si nascondono dietro un risponditore automatico, un traduttore automatico o un classiﬁcatore di pagine web. In un futuro non troppo lontano, potremmo sorprenderci a interagire con una macchina intelligente che percepisce e ragiona sulla realtà come un essere umano! Il livello di astrazione appropriato, gli obiettivi intermedi di ricerca, i metodi e i modelli di spiegazione della LC possono variare a seconda del punto di vista particolare da cui guardiamo al rapporto tra linguaggio e calcolatore. Ad esempio, possiamo chiederci cosa il linguaggio naturale può fare per il computer. In che misura le attuali potenzialità dei computer possono essere migliorate ed estese dotando queste macchine di capacità linguistiche evolute? Viviamo, infatti, in quella che è stata spesso deﬁnita come la società della conoscenza, dove studenti, professionisti e comuni cittadini si trovano nella necessità quotidiana di recuperare, selezionare e gestire grandi quantità di informazioni contenute nelle miriadi di testi disponibili sul web, nelle biblioteche digitali o sui computer di casa o di lavoro. La facilità di accesso a queste informazioni e la capacità di distinguere le parti rilevanti da quelle inutili sono condizioni essenziali per garantire che si realizzino in pieno le potenzialità della rivoluzione informatica in corso. In questa prospettiva, la LC promette di espandere enormemente le capacità del computer, rendendolo capace di comprendere la struttura e il contenuto dei nostri testi e di interagire col mondo esterno con la naturalezza e l’immediatezza del linguaggio naturale. È possibile però rovesciare il rapporto tra computer e linguaggio umano e chiederci cosa il primo può fare per il secondo: ovvero, in che modo il computer possa essere messo al servizio dell’indagine linguistica. A differenza della precedente, questa è una prospettiva squisitamente legata alla linguistica e alle scienze umane, il cui obiettivo ﬁnale è una migliore comprensione del modo in cui il linguaggio funziona e si rapporta alle altre facoltà cognitive. Da questo punto di vista, il ruolo dei metodi matematici e informatici è di contribuire a deﬁnire modelli che spieghino proprietà e problemi linguistici interessanti. Le domande che si pone il linguista computazionale sono dunque le stesse del linguista tradizionale: come funziona il linguaggio, come viene appreso, come cambia ecc., e la dimensione innovativa è data dal modo in cui il computer aiuta lo studioso a impostare questi problemi e a veriﬁcarne le soluzioni. Distinguere queste due prospettive non signiﬁca però vederle in maniera indipendente o antagonistica. La ricerca linguistica degli ulti12

INTRODUZIONE

mi decenni ha consentito lo sviluppo di programmi applicativi che permettono una migliore gestione dell’informazione, proprio grazie a una più profonda comprensione del linguaggio. Allo stesso modo, metodi matematici e informatici nati e sviluppati per scopi autonomi si sono spesso rivelati assai utili per innovare le metodologie di rappresentazione e le analisi linguistiche. Le due direzioni nel rapporto tra linguaggio e computer sono dunque profondamente compenetrate e in osmosi continua. La LC è, infatti, un ambito di ricerca e di lavoro tipicamente interdisciplinare. Da un lato, essa si intreccia con l’informatica, sia teorica che applicata, e con l’ingegneria, come testimonia l’uso del termine ingegneria delle lingue (o del linguaggio, inglese natural language engineering) per qualiﬁcare le attività rivolte allo sviluppo di applicazioni informatiche basate sulle tecnologie del linguaggio. Dall’altro lato, invece, la LC dialoga con la linguistica, le scienze cognitive, la psicologia, la ﬁlosoﬁa e le scienze umane in generale, con le quali condivide l’obiettivo di indagare la struttura, il funzionamento e l’uso del linguaggio e il suo rapporto con le altre facoltà cognitive dell’uomo. In conseguenza di questo carattere interdisciplinare, linguisti, informatici, ingegneri, logici e umanisti, ma anche neuro-ﬁsiologi, bio-ingegneri e ﬁlosoﬁ della mente si trovano sempre più spesso a lavorare insieme su temi comuni di ricerca. Il linguista computazionale “ideale” dovrebbe essere in grado di riassumere in sé in maniera equilibrata le caratteristiche più salienti di tutte queste anime. Naturalmente, a seconda dell’obiettivo – più o meno applicativo – della ricerca, il peso relativo di ciascun tipo di competenza può cambiare. Il successo ﬁnale, tuttavia, dipende dalla profondità della loro interazione. Alla luce di queste considerazioni, è nostro convincimento che non solo una sintesi tra le varie anime della LC è possibile, ma anche strettamente necessaria. Troppo spesso, invece, assistiamo a scollamenti in entrambe le direzioni. In alcuni casi, l’ingegneria delle lingue tende a procedere in maniera indipendente dalla ricerca linguistica, sulla spinta di esigenze di competizione tecnologica e di mercato. Viceversa, non di rado il computer è visto come un semplice strumento per potenziare il modo tradizionale di fare ricerca sul linguaggio. In realtà, la LC è anche un modo nuovo di guardare al linguaggio, di studiarne la struttura e l’uso, di ripensarne l’organizzazione e le dinamiche. Come in tutte le innovazioni tecnologiche, l’applicazione del computer al linguaggio sta progressivamente mutando il modo in cui immaginiamo, conosciamo e usiamo quest’ultimo. Al tempo stesso, la complessità del fenomeno è tale che lo sviluppo di applicazioni informatiche dotate di intelligenza linguistica non può prescindere dai 13

TESTO E COMPUTER

problemi che l’organizzazione e il funzionamento del linguaggio pongono. La linguistica computazionale tra ieri e oggi È agli inizi della seconda metà del Novecento che può essere ricondotta la nascita della LC come disciplina di frontiera sia rispetto al mondo umanistico, che rispetto alle applicazioni più centrali delle scienze dell’informazione che stavano sviluppandosi in quegli stessi anni. Le sue radici affondano in due distinti paradigmi di ricerca. Da un lato, gli anni cinquanta e sessanta vedono le prime applicazioni del calcolatore allo studio dei testi filosofici e letterari, con il lavoro pionieristico di padre Roberto Busa S. J. che, presso il Centro per l’automazione dell’analisi linguistica di Gallarate, realizza il primo corpus elettronico delle opere di Tommaso D’Aquino (circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo) e un programma per la loro esplorazione attraverso concordanze (cfr. PAR. 7.2). Lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e concordanze, la creazione di repertori lessicali elettronici (i cosiddetti dizionari macchina) sono tra i primi risultati della disciplina. Il secondo paradigma di riferimento è rappresentato invece dall’applicazione di metodi formali all’analisi del linguaggio. Il 1957, data di nascita della grammatica generativa e della “rivoluzione linguistica” di Noam Chomsky con la pubblicazione di Syntactic Structures, segna anche l’inizio di un’intensa attività di indagine, con l’ausilio di grammatiche formali, sulle proprietà del linguaggio naturale. A sua volta, questo lavoro è profondamente intrecciato con le ricerche coeve nel settore dell’Intelligenza Artiﬁciale (IA). È all’interno di questa tradizione che si sviluppa il settore del Natural Language Processing (NLP) o Trattamento Automatico del Linguaggio Naturale (TAL), con i primi programmi per l’analisi sintattica e l’interpretazione semantica automatica, e applicazioni ormai classiche come la traduzione automatica e le cosiddette interfacce uomo-macchina in linguaggio naturale. Nei suoi primi decenni (anni sessanta e settanta), il TAL è stato fortemente inﬂuenzato dalla metodologia razionalista e simbolica allora dominante in IA e condivisa dalla linguistica generativa. Ciò ha signiﬁcato essenzialmente il predominio di metodi logico-deduttivi e algebrici, a discapito di quelli induttivi e statistico-matematici. Il modello più inﬂuente della conoscenza umana, in questa fase, è quello di un sistema di regole per la manipolazione di strutture di simboli. 14

INTRODUZIONE

Nel caso del linguaggio, queste regole riguardano la conoscenza che i parlanti hanno di una lingua, e che determina la loro possibilità di giudicare se una certa frase è grammaticalmente corretta. Nella prospettiva chomskiana, infatti, fondamentale è la distinzione tra competenza ed esecuzione, ovvero tra la conoscenza del linguaggio che hanno i parlanti e l’uso che di essa fanno nelle situazioni comunicative concrete, per comprendere una frase o descrivere un evento. Le informazioni quantitative, secondo Chomsky, non hanno nessun ruolo nello studio della competenza: questa consiste infatti in un sistema di regole strutturate e formulate in modo del tutto indipendente dall’uso. La distribuzione statistica delle costruzioni linguistiche è al più rilevante nella sfera dell’esecuzione, e resta quindi esclusa dall’ambito di indagine proprio della grammatica generativa. Come conseguenza diretta di questo approccio epistemologico, sviluppare un modello computazionale del linguaggio ha voluto dire per lungo tempo scrivere sistemi di regole linguistiche interpretabili dal calcolatore. La mancanza di attenzione verso i problemi dell’uso linguistico ha portato, in molti casi, alla creazione di modelli giocattolo (toy models), ovvero applicazioni che, seppure in grado di analizzare alcune costruzioni linguistiche non banali, non si sono dimostrate capaci, anche a causa dei limiti tecnologici dell’epoca, di uscire dai laboratori e operare in contesti reali, con vocabolari di alcune migliaia di parole e su frasi di lunghezza media. Parallelamente al diffondersi della grammatica generativa, ha continuato a svilupparsi, soprattutto in area anglosassone, una tradizione di ricerca linguistica ancorata a una metodologia di derivazione empirista, che fonda l’indagine linguistica sulla raccolta e l’analisi di corpora (cfr. CAP. 1), ovvero raccolte di grandi quantità di testi appartenenti a una certa varietà del linguaggio. La linguistica dei corpora (corpus linguistics) fa largo uso di strumenti di analisi quantitativa e statistica per esplorare le regolarità linguistiche che emergono dai testi e che vengono a costituire la base per la descrizione della struttura del linguaggio. A differenza della grammatica generativa, la descrizione del linguaggio è giudicata inseparabile dall’analisi del suo uso. I metodi pionieristici di indagine quantitativa, originariamente applicati all’analisi dei testi letterari, sono stati dunque rapidamente estesi a testi di linguaggio comune, come corpora di giornali, trascrizioni di parlato ecc. Questo tipo di indagine ha fortemente beneﬁciato della capacità dei computer di gestire ed elaborare quantità di dati sempre più estese. Nel 1964 compare il Brown Corpus (lungo circa 1 milione di parole), realizzato da W. Nelson Francis e Henry Kucera alla Brown University negli Stati Uniti. Questo è il primo corpus elettronico pro15

TESTO E COMPUTER

gettato e costruito per lo studio di una particolare varietà linguistica contemporanea, nel caso speciﬁco l’inglese americano degli anni sessanta. Uno dei risultati di questa linea di ricerca è stato quello di favorire l’applicazione al linguaggio di una serie di metodi statistici tuttora fondamentali in LC (cfr. CAPP. 5 e 6). Per molti anni, la LC di ispirazione razionalista e quella di tradizione empirista hanno proceduto in maniera parallela, con pochi e sporadici contatti. Il superamento di tale dicotomia è stato reso possibile grazie al radicale mutamento di paradigma avvenuto nella LC a partire dalla seconda metà degli anni ottanta, caratterizzato dal diffondersi e poi dal netto prevalere di un approccio neoempirista al TAL. Questo cambiamento si è concretizzato nella diffusione dei metodi statistico-quantitativi e nella rinnovata centralità dei dati testuali come base essenziale per l’esplorazione del linguaggio. La dimensione dei corpora è andata sempre più crescendo, e la loro disponibilità è diventata una variabile fondamentale in ogni fase di sviluppo e valutazione degli strumenti per il TAL. Al tempo stesso, la crescita del web, con la sua grande quantità di materiale testuale multiforme e in continua evoluzione, ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi non più con esempi da laboratorio, ma con testi reali. Questo ha a sua volta contribuito al diffondersi di tecniche di elaborazione linguistica più “robuste” di quelle simboliche tradizionali, tecniche in grado di affrontare la variabilità lessicale e strutturale dei testi, e la continua violazione delle regole che ha luogo in molte manifestazioni dell’uso linguistico: prima fra tutte, la lingua parlata. La crescente disponibilità di corpora testuali ha indubbiamente facilitato l’innovazione metodologica in LC, fornendo i dati linguistici necessari per un uso intensivo dei metodi statistici. L’emergere di linguaggi standard di marcatura del testo come XML (cfr. CAPP. 2 e 3), inoltre, ha migliorato il processo di creazione, uso e interscambio dei corpora. Al tempo stesso, ha reso possibile l’annotazione linguistica del testo su ampia scala, che consente di rappresentare in maniera esplicita e dettagliata la struttura e l’organizzazione linguistica del testo stesso (cfr. CAPP. 3 e 8), offrendo l’occasione per una riﬂessione rigorosa sulla natura dei dati annotati e sui modelli interpretativi più adatti per darne conto. Parallelamente, anche in linguistica teorica si è incominciato a prestare nuova attenzione al dato statistico, e al ruolo dei modelli probabilistici nella descrizione linguistica e cognitiva in generale. Ad esempio, nelle scienze cognitive si è fatta sempre più strada la con16

INTRODUZIONE

vinzione che la mente umana non sia soltanto capace di elaborare regole, ma anche di tener traccia di regolarità statistiche nell’ambiente che la circonda. Cos’è dunque la LC oggi? Sicuramente è una disciplina scientiﬁca matura, che in 50 anni è riuscita a conquistare una posizione di indiscussa centralità nel panorama scientiﬁco nazionale e internazionale, e in cui sono attivi ormai innumerevoli gruppi di ricerca. La Association for Computational Linguistics (ACL) organizza una conferenza annuale a cui partecipano ricercatori di tutto il mondo. A questa si afﬁanca come importanza l’International Conference on Computational Linguistics (COLING) che si tiene con cadenza biennale. In Italia, Antonio Zampolli (1937-2003), allievo di padre Busa, ha fondato e diretto per lunghi anni l’Istituto di Linguistica Computazionale del Consiglio Nazionale delle Ricerche (CNR) e ha occupato la prima cattedra di Linguistica matematica creata presso l’Università di Pisa nel 1977 (Zampolli et al., 2003). Attualmente, centri di ricerca pubblici e privati sono attivi su tutto il territorio nazionale, e la LC e l’informatica applicata alle scienze umane sono diventate insegnamenti fondamentali in molte università, che offrono spesso percorsi di studio interdisciplinari umanistici e informatici. La storia della LC ne ha anche determinato il carattere complesso sia nell’articolazione interna sia nei rapporti con altre discipline, che comprendono l’analisi informatica dei testi letterari (il cosiddetto literary computing), le scienze cognitive, l’IA e una miriade di settori applicativi legati all’ingegneria delle lingue. Sul versante della ricerca, i modelli statistici hanno ancora un ruolo dominante. Dopo averne esplorato non solo le grandi potenzialità, ma anche i limiti intrinseci, il settore va tuttavia sempre più orientandosi verso un loro uso più consapevole, attraverso lo sviluppo di modelli e strumenti ibridi, che incorporano sia conoscenza rappresentata come regole, sia moduli statistici. Sul piano tecnologico, le applicazioni basate sul TAL incominciano a diffondersi nella vita di tutti giorni. È sempre più comune imbattersi in siti web e call center che usano tecnologie e strumenti linguistici, spesso invisibili all’utente comune, ma tanto più efﬁcaci quanto meno ne è percepita la presenza. Ciononostante, queste tecnologie sono ancora limitate se confrontate alle competenze linguistiche di un parlante. I limiti non sono solo tecnologici, ma riguardano anche la nostra comprensione, ancora parziale, di come il linguaggio funziona. Anche in questo sta il fascino della LC: una disciplina in cui il progresso tecnologico si deve sposare con la nostra capacità di penetrare i misteri del linguaggio e della mente umana. 17

TESTO E COMPUTER

Di cosa parla questo libro Questo libro è il primo di due volumi dedicati al rapporto tra linguaggio naturale e calcolatore. I temi che abbiamo selezionato per questo volume deﬁniscono lo strumentario di base per il linguista computazionale e in genere per chiunque voglia affrontare in maniera proﬁcua l’argomento partendo da un interesse primario per il testo, la sua struttura e il suo contenuto. Nella prima parte, Il dato testuale e la sua rappresentazione, il lettore troverà indicazioni utili riguardo ai criteri per la selezione e l’uso del materiale testuale primario (CAP. 1) e alle metodologie di rappresentazione e codiﬁca dell’informazione linguistico-testuale (CAPP. 2 e 3). L’accesso del computer al testo non è affatto immediato: anche unità banali come il titolo, il paragrafo o la singola parola sono in gran parte implicite e nascoste. Codiﬁcare un testo digitale signiﬁca, in sostanza, tracciare una prima, grossolana mappa virtuale che consenta al calcolatore di muoversi nel labirinto del testo con un minimo di consapevolezza di dove si trovi. Nella seconda parte, Metodi e tecniche di analisi testuale, la complessità linguistica del testo comincia a emergere agli occhi del computer, attraverso un paziente lavoro di ricostruzione a partire dal ﬂusso ininterrotto di bit. Si parte dall’identiﬁcazione di unità lessicali semplici e complesse attraverso l’uso di espressioni regolari (CAP. 4), per proseguire con la descrizione della loro distribuzione nel testo (CAP. 5) e con l’individuazione di relazioni strutturali tra parole mediante modelli probabilistici (CAP. 6). La terza e ultima parte del libro, Esplorazione e annotazione del testo, inﬁne, riporta l’enfasi sul lavoro del linguista e sulla sua capacità di estrarre ulteriori informazioni dal testo attraverso percorsi mirati di ricerca, condotti su materiale sia grezzo che annotato (CAP. 7). È spesso assai utile, infatti, effettuare queste ricerche su testi annotati che diventano così uno scrigno di informazioni linguistiche preziose, automaticamente accessibili a chiunque voglia farne uso per ulteriori ricerche. A questa delicata fase di annotazione linguistica è dedicato il CAP. 8. Inﬁne, l’ultimo capitolo getta un ponte verso il secondo volume accennando al problema dello sviluppo di modelli espliciti della conoscenza linguistica, come ad esempio gli analizzatori morfologici. Alcune avvertenze preliminari si rendono necessarie. Questo libro non è né un’introduzione alla linguistica, né una rassegna delle applicazioni tecnologiche della LC. Per rendere tuttavia il volume ugualmente leggibile sia per linguisti e umanisti che per informatici e ingegneri, abbiamo cercato di limitare per quanto possibile le conoscenze presupposte, sul versante linguistico come su quello matematico e in18

INTRODUZIONE

formatico. A tale scopo, schede tecniche di approfondimento sono disponibili sul sito http://www.carocci.it, dove il lettore potrà anche trovare utili eserciziari raggruppati per capitoli. Per le stesse ragioni, abbiamo evitato di trasformare il volume in una summa teorica del dibattito scientiﬁco attuale. Al contrario, ci siamo sforzati di raggiungere un equilibrio tra il sapere e il fare: nozioni di carattere teorico sono sempre accompagnate dalla presentazione di tecniche e indicazioni metodologiche utili per poter analizzare un testo al calcolatore, per scopi di ricerca o applicativi. Tra le innumerevoli sfaccettature del linguaggio, particolare importanza assume la distinzione tra lingua scritta e parlata, le due principali modalità attraverso cui passa la comunicazione linguistica. Negli ultimi vent’anni, il settore delle tecnologie del parlato ha affrontato con grande successo i problemi relativi alla sintesi e al riconoscimento vocali da parte del calcolatore. Assai più recente, in ambito computazionale, è invece l’interesse per il rapporto tra comunicazione linguistica, gesti ed espressioni facciali e, più in generale, per l’integrazione tra linguaggio e percezione sensoriale, nella direzione di un approccio multimodale al TAL. Da parte nostra, abbiamo deciso di focalizzare l’attenzione su quegli aspetti centrali del linguaggio umano che prescindono dalle particolari modalità attraverso cui passa la comunicazione linguistica. A questa ragione va ricondotta la decisione di scegliere, come elemento cardine del nostro percorso espositivo, il testo, inteso come qualsiasi prodotto dell’attività linguistica che sia elaborato o trascritto in forma di caratteri. Questa deﬁnizione comprende libri, manoscritti, lettere, articoli ma anche dialoghi, trasmissioni radiofoniche o conversazioni telefoniche nella misura in cui questi ultimi sono trascritti in un qualche sistema graﬁco di caratteri. Il testo oggetto delle nostre analisi non è dunque limitato alle forme di produzione linguistica progettate per la modalità scritta, come libri o giornali. Pertanto, i metodi e gli strumenti che verranno illustrati su testi scritti si applicano altrettanto bene al linguaggio parlato trascritto. Ad esempio, alcuni dei metodi quantitativi illustrati nei CAPP. 5 e 6 di questo volume sono stati sviluppati al servizio delle tecnologie per il riconoscimento del parlato, ma la loro rilevanza dal punto di vista dello studio della lingua è indipendente dalle speciﬁcità del segnale acustico. Il web e l’evoluzione telematica hanno inoltre reso molto più ﬂuido il conﬁne tra lingua scritta e lingua parlata. La posta elettronica, le chat, i blog e gli SMS rappresentano alcuni dei nuovi stili di comunicazione in cui lo strumento elettronico e la forma dell’interazione fanno sì che il testo scritto contenga in realtà tratti lessicali, sintattici ed 19

TESTO E COMPUTER

espressivi tipici della lingua parlata. Adottando una nozione aperta di testo, gli stessi metodi e strumenti computazionali possono dunque essere applicati a tutta una serie di prodotti del linguaggio rappresentativi dell’intera gamma delle modalità comunicative, delle varietà linguistiche e dei registri dell’italiano contemporaneo. La centralità che il testo assume nella nostra trattazione ci ha portato inoltre a concentrarci prevalentemente su aspetti d’uso del linguaggio. È nostro convincimento, tuttavia, che lo studio del linguaggio mediante il calcolatore possa contribuire a ricomporre e superare in una nuova sintesi la dicotomia tra conoscenza e uso, competenza ed esecuzione linguistica, rappresentazione e computazione, gettando nuova luce sul rapporto tra facoltà del linguaggio e cognizione. Concludiamo con una nota terminologica. La difﬁcoltà di reperire traduzioni italiane dei tecnicismi del settore ha in genere stimolato la nostra creatività lessicale. Tutte le volte che ci è stato possibile, abbiamo scelto di tradurre il termine tecnico in un modo che suonasse naturale e ragionevole per un parlante italiano e che richiamasse alla mente, al tempo stesso, la sua fonte originale (menzionata alla prima apparizione della traduzione nel testo) per non disorientare troppo il lettore che abbia già una qualche dimestichezza con la letteratura. È possibile che, nonostante i nostri sforzi, le scelte compiute non siano sempre state le più felici e che qualche lettore purista possa storcere il naso di fronte ad alcuni inevitabili prestiti e calchi. Abbiamo preferito questo rischio, tuttavia, a quello di rendere il testo meno comprensibile per il neoﬁta, nascondendo concetti di base dietro etichette generiche e poco comprensibili.

20

Parte prima Il dato testuale e la sua rappresentazione

1 I dati della lingua

Il bagaglio di competenze del linguista computazionale include essenzialmente: 1. la capacità di selezionare e raccogliere i dati linguistici più appropriati per i propri scopi; 2. la conoscenza di metodi formali (logico-algebrici, statistici, matematici e computazionali) per l’analisi di questi dati; 3. la padronanza di tecniche informatiche con cui condurre automaticamente le proprie analisi. In questa prima parte del libro ci occupiamo del primo problema, la raccolta dei dati della lingua e la loro rappresentazione in vista del trattamento automatico. L’attenzione al ruolo del dato testuale è una novità abbastanza recente in LC, frutto del rinnovato interesse per un’impostazione di tipo empirista allo studio del linguaggio. Fino a non molto tempo fa, per un libro di introduzione a questa disciplina sarebbe stato naturale iniziare subito con la descrizione di metodi e strumenti informatici, senza spendere molte parole su tipo e forma dei dati su cui questi strumenti devono operare. L’impiego di metodi statistici ha invece reso indispensabile una maggiore attenzione alla quantità e alla composizione del materiale linguistico. Più in generale, è maturata la consapevolezza che ogni volta che elaboriamo dati linguistici col computer, sia per ﬁnalità applicative che di ricerca, non possiamo comunque prescindere da un’accurata riﬂessione critica sulla composizione e natura dei dati stessi. 1.1 Le fonti dei dati linguistici Per dato linguistico intendiamo i prodotti del linguaggio che sono oggetto di un processo di analisi (nel nostro caso speciﬁco, condotta mediante il computer) e che formano l’evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche. Cosa viene scelto 23

TESTO E COMPUTER

come dato dipende chiaramente dalla tipologia di fenomeni che vogliamo indagare o di capacità linguistiche che vogliamo tradurre in un programma. Dati linguistici possono, dunque, essere parole, come input per analisi morfologiche o per rappresentarne il contenuto semantico, frasi, per identiﬁcarne automaticamente la struttura sintattica, enunciati, per riconoscerne la funzione comunicativa ecc. Uno dei problemi preliminari e più importanti che si pone al linguista computazionale è come individuare le fonti dalle quali attingere i dati necessari per le proprie analisi. Possiamo distinguere due fonti principali di evidenza. La prima sono i testi dei parlanti di una lingua, intesi come qualsiasi prodotto dell’attività linguistica dei parlanti elaborato o trascritto come sequenza di caratteri (cfr. Introduzione). Questa nozione deve essere quindi intesa nel senso più ampio possibile e copre un territorio che si estende da testi fortemente strutturati, come gli articoli scientifici, alle trascrizioni di conversazioni spontanee, da macro-testi, come le enciclopedie, a micro-testi come gli SMS. La seconda fonte di evidenza linguistica sono i parlanti stessi. In psicolinguistica e in buona parte della linguistica teorica ciò che viene assunto come evidenza empirica è la capacità di un soggetto di svolgere un certo compito linguistico, oppure i giudizi che i soggetti formulano su espressioni e strutture della lingua sulla base della propria intuizione di parlanti nativi. Il linguista procede tipicamente preparando dei test ad hoc per lo studio di un particolare fenomeno; questi vengono poi somministrati a un gruppo selezionato di parlanti, sotto forma di questionari o di esperimenti eseguiti in un contesto controllato di laboratorio. Le risposte dei parlanti costituiscono i dati oggetto di indagine del linguista: ad esempio, le frasi giudicate grammaticalmente corrette dai parlanti, il grado di affinità semantica che i soggetti intervistati hanno riscontrato tra due parole, il tempo con cui vengono riconosciute le parole che appaiono su uno schermo, le espressioni usate dai soggetti per descrivere una scena ecc. 1.1.1. Dati “ecologici” e dati controllati Una delle variabili fondamentali che distingue questi due tipi di evidenza linguistica è la naturalezza del contesto in cui i dati sono raccolti. Possiamo infatti parlare dei dati testuali come dati linguistici “ecologici”, a fronte dei dati linguistici controllati ottenuti somministrando ai parlanti i test elaborati da un linguista. Per capire la differenza, confrontiamo il problema dell’indagine sul linguaggio con i diversi metodi che uno scienziato naturalista può usare per raccogliere 24

1.

I DATI DELLA LINGUA

dati sul comportamento di un animale. Prima di tutto, lo scienziato può osservare l’animale nel suo habitat naturale, cercando di limitare al massimo le perturbazioni e i condizionamenti causati dalla sua presenza, limitandosi a registrare come l’animale si muove, mangia o si riproduce. Lo scienziato poi elaborerà le sue teorie e i suoi modelli analizzando il risultato delle osservazioni. In alternativa, lo scienziato può eseguire osservazioni ed esperimenti sul comportamento dell’animale in laboratorio. In questo caso, il contesto dell’osservazione è controllato: lo scienziato prepara, infatti, un contesto sperimentale ad hoc in cui colloca l’animale per veriﬁcare la validità di una particolare ipotesi di ricerca. Osservando l’animale nel suo habitat, la situazione di raccolta dei dati è la più naturale possibile, compatibilmente con i metodi di registrazione. Questo rende talvolta necessario effettuare molte osservazioni prima di riuscire a individuare un comportamento interessante per un particolare obiettivo di ricerca, proprio perché l’animale è osservato senza condizionamenti esterni. Nel caso del laboratorio, dal momento che la situazione è interamente sotto il controllo dello scienziato, è invece più facile fare astrazione da circostanze di contorno non interessanti o di disturbo, selezionando solo gli aspetti che sono oggetto di indagine (ad esempio una particolare abitudine alimentare). Questo va chiaramente a discapito della naturalezza dell’osservazione e spesso richiede una faticosa opera di preparazione del contesto sperimentale, per essere sicuri di riuscire a controllare tutte le variabili in gioco, con il rischio sempre possibile che i risultati ottenuti siano condizionati proprio dal contesto dell’esperimento. I dati linguistici ricavati dai testi assomigliano molto da vicino a osservazioni naturalistiche. Il testo rappresenta l’habitat naturale dei dati linguistici: parole, frasi o enunciati “vivono” nel testo come il luogo nel quale essi acquistano senso, deﬁniscono un andamento narrativo e realizzano uno scopo comunicativo. I dati estratti da testi sono “ecologici”, in quanto osservati e raccolti nel proprio ambiente, di cui dunque conservano tutta la naturalezza. Dall’altro lato, i dati linguistici ricavati attraverso la somministrazione di test ai parlanti sono controllati, così come lo sono gli esperimenti di uno scienziato in laboratorio. La preparazione dell’esperimento consente di controllare in maniera accurata il fenomeno linguistico da osservare e di astrarre da eventuali fattori di disturbo. È possibile così ottenere dati altrimenti difﬁcili da isolare nei testi reali prodotti dai parlanti nel corso della loro attività comunicativa spontanea. Astrazione e idealizzazione (ovvero la creazione di una situazione ideale anche se più astratta rispetto alla realtà) sono momenti normali 25

TESTO E COMPUTER

e fondamentali della metodologia scientiﬁca, in quanto permettono appunto di controllare le variabili rilevanti in un dato processo, linguistico e no. L’idealizzazione sperimentale non deve però alterare la natura stessa del fenomeno da osservare, per evitare che i dati acquisiti siano non afﬁdabili o non proiettabili sui contesti reali. La LC ha evidenziato la necessità di combinare in modo equilibrato i dati linguistici naturali con il ricorso a dati controllati. Da una parte, infatti, i modelli e gli strumenti computazionali devono essere ben adattati all’ambiente linguistico per il quale sono progettati: tale adattamento è possibile solo se essi sono “esposti” ﬁn dalla fase del loro sviluppo a dati linguistici “ecologici”, estratti da testi appartenenti a quel particolare ambiente. D’altra parte, il ricorso a dati più controllati di origine sperimentale o introspettiva, oltre a essere un punto di partenza fondamentale per indagini sulla cognizione umana, consente di superare i limiti derivanti dalla natura comunque limitata e parziale dell’evidenza “sul campo”, a fronte dell’estrema ricchezza delle variabili da controllare. 1.2 I corpora Un corpus è una collezione di testi selezionati e organizzati in maniera tale da soddisfare speciﬁci criteri che li rendono funzionali per le analisi linguistiche. I corpora testuali rappresentano la principale (anche se non esclusiva) fonte di dati in LC. Il rinnovato interesse per l’uso di metodi statistici ha indubbiamente favorito il diffondersi dei corpora come fonti di evidenza per l’analisi computazionale della lingua. Ma questo fattore sarebbe stato da solo insufﬁciente a spiegare il profondo legame che oggi lega i corpora e la LC, se non si fosse accompagnato a una generale consapevolezza dell’importanza del dato “ecologico” come base dell’indagine linguistica tout court. Il fattore propulsivo fondamentale che ha promosso la creazione e l’uso dei corpora è stato indubbiamente lo sviluppo della tecnologia informatica. In realtà, la nozione di corpus precede l’avvento del computer: la raccolta di testi costituiva infatti la prassi comune nello studio sul linguaggio prima della nascita della grammatica generativa chomskiana. Allo stesso modo, il corpus come collezione delle opere di un autore è sempre stato uno strumento fondamentale negli studi letterari, linguistici e ﬁlosoﬁci, ad esempio per realizzare analisi sull’uso di una parola da parte di un autore, l’evoluzione del suo lessico ecc. L’era informatica ha però letteralmente rivoluzionato natura, ruolo e uso dei corpora. Il computer permette infatti di a) immagaz26

1.

I DATI DELLA LINGUA

zinare quantità sempre crescenti di testi; b) ottimizzare la loro esplorazione e la ricerca di dati linguistici interessanti; c) sviluppare modelli computazionali della lingua. Prima della disponibilità di strumenti informatici, la difﬁcoltà di raccogliere, gestire ed esplorare i testi poneva enormi limiti all’uso dei corpora: limiti sia estensivi, per quanto riguarda la dimensione del corpus, sia intensivi, per quanto riguarda lo sfruttamento delle sue potenzialità come fonte di dati. Il fatto che testi in formato digitale siano ormai disponibili non solo sul web, ma anche come risultato diretto di gran parte delle nostre attività quotidiane (ad esempio e-mail, articoli, rapporti tecnici ecc.) rende assai agevole non solo raccogliere grandi quantità di dati linguistici, ma soprattutto accedere a un’ampia varietà di testi appartenenti a tipologie linguistiche diverse. Il ruolo dei computer nell’uso dei corpora è così cruciale che ormai il termine stesso di corpus è diventato di fatto sinonimo di corpus elettronico, ovvero corpus di testi in formato digitale (cfr. CAP. 2). 1.2.1. Tipi di corpora Ogni corpus è per sua deﬁnizione il risultato di un’opera di selezione: i criteri che guidano questa scelta determinano la natura stessa del corpus e condizionano di conseguenza anche lo spettro dei suoi usi possibili. Scegliere un corpus come fonte di dati linguistici per l’analisi computazionale richiede dunque prima di tutto di valutare accuratamente se il suo contenuto e la sua organizzazione sono appropriati per i nostri scopi, ovvero se il corpus è in grado di fornirci il tipo e la quantità di informazioni a cui siamo interessati. La TAB. 1.1 riporta alcuni dei corpora più noti nella comunità di ricerca internazionale in LC. La tipologia è stata deﬁnita sulla base dei seguenti parametri (gli stessi di TAB. 1.2, dove abbiamo riportato le caratteristiche di alcuni dei principali corpora d’italiano). 1. Generalità: il grado di generalità di un corpus dipende dalla misura in cui i suoi testi sono stati selezionati in maniera trasversale rispetto a varietà diverse di una lingua. I corpora specialistici o verticali hanno il grado minimo di generalità, poiché includono solo testi che appartengono a una speciﬁca varietà linguistica (sublanguage) o a un particolare dominio tematico. In questo caso l’ampiezza del linguaggio che il corpus cerca di descrivere è molto ristretta: si tratta in genere di linguaggi settoriali (ad esempio linguaggio medico, linguaggio giuridico, linguaggio burocratico ecc.) oppure di linguaggi con particolari caratteristiche (ad esempio linguaggio infantile, linguaggio pa27

28

Corpus specialistico bilingue (inglese e francese canadese) parallelo. I testi sono tratti dagli atti del Parlamento canadese

Corpus specialistico multilingue (inglese, francese, tedesco, spagnolo, italiano) parallelo. I testi sono tratti dall’“Ofﬁcial Journal of the European Community”

Corpus audio dell’inglese americano. È un corpus specialistico di conversazioni telefoniche, usato per addestrare i programmi per il riconoscimento automatico del parlato

Canadian Hansards Corpus

Multext

Switchboard Corpus

Childes

Corpus di trascrizioni di vari tipi di interazioni dialogiche con bambini o soggetti con patologie del linguaggio

Corpus audio di dialoghi semi-spontanei raccolti col metodo “map task” da parlanti adulti di inglese britannico

Corpus di riferimento bilanciato, sincronico, della lingua inglese britannica. È un corpus misto creato tra il 1991 e il 1994

British National Corpus

Map Task Corpus

Corpus di riferimento bilanciato sincronico della lingua inglese americana scritta, creato negli anni sessanta alla Brown University (USA)

Brown Corpus

HCRC

Tipologia del corpus

LC

Corpus

TABELLA 1.1 Alcuni dei corpora internazionali più usati in

La raccolta di testi di Childes presso la Carnegie Mellon University (USA) è costantemente aggiornata con i contributi di ricercatori di tutto il mondo. I testi raccolti sono codiﬁcati in XML secondo lo standard CHAT per la trascrizione e condivisione di trascrizioni di parlato

128 registrazioni di dialoghi (per un totale di 18 ore), trascritte e codiﬁcate in XML

2.400 registrazioni di conversazioni telefoniche, trascritte e successivamente annotate con vari tipi di informazione linguistica

5 milioni di parole, codiﬁcate in SGML (standard CES), di cui un sottoinsieme è allineato e annotato a livello morfo-sintattico

Esistono diverse versioni del corpus, per un totale di alcuni milioni di parole. Varie porzioni del corpus sono codiﬁcate in XML e allineate

100 milioni di parole di testi di lingua scritta e parlata, codiﬁcate in SGML (standard TEI) e annotate a livello morfo-sintattico

1 milione di parole di testi di lingua scritta pubblicati nel 1961 (successivamente annotate a livello morfo-sintattico e sintattico)

Dimensioni

TESTO E COMPUTER

29

Corpus che include le annate del quotidiano “La Repubblica” dal 1985 al 2000

Corpus audio della lingua parlata spontanea. Il corpus è stato realizzato nel progetto europeo C-Oral-Rom ed è comparabile con altri corpora di spagnolo, francese e portoghese

Corpus generale diacronico della lingua italiana scritta

La Repubblica

C-Oral-Rom

Italnet

1.849 testi in volgare (21,2 milioni di parole), anteriori al 1375

Registrazioni audio per un totale di 300.000 parole, trascritte, codiﬁcate in XML e annotate a livello morfo-sintattico

175 milioni di parole (attualmente in via di ampliamento ﬁno 400 milioni), codiﬁcate in XML (standard TEI) e annotate a livello morfo-sintattico

100 ore di registrazioni audio trascritte, codiﬁcate in XML e parzialmente annotate

Corpus audio dell’italiano parlato di varie tipologie (dialogico, letto, parlato televisivo, conversazioni telefoniche e corpora speciali), bilanciato dal punto di vista diafasico e diatopico

CLIPS

100 milioni di parole di testi di lingua scritta

Corpus di riferimento bilanciato sincronico dell’italiano scritto contemporaneo

Coris

II

et al.

di Firenze

Opera del Vocabolario Italiano-CNR (Firenze)

LABLITA-Università

di Bologna

di Napoli

di Bologna

SSLMIT-Università

Federico

CIRASS-Università

CILTA-Università

Istituto di Linguistica Computazionale-CNR (Pisa)

20 milioni di parole di testi di lingua scritta (attualmente in via di ampliamento ﬁno a 100 milioni), codiﬁcati in SGML (standard CES) e parzialmente annotati a livello morfo-sintattico

Corpus di riferimento bilanciato sincronico, dell’italiano scritto contemporaneo. Il corpus è stato sviluppato nel progetto europeo Parole ed è comparabile con altri corpora per lingue europee

Parole

Realizzazione

Dimensioni

Tipologia del corpus

Corpus

TABELLA 1.2 Corpora per l’italiano

1. I DATI DELLA LINGUA

TESTO E COMPUTER

tologico ecc.). I corpora specialistici sono tipicamente legati a una particolare applicazione o ricerca: ad esempio, Childes è la più nota fonte di dati per lo studio del linguaggio infantile (normale e patologico); il corpus Reuters-21578 è invece una raccolta di 21.578 agenzie stampa in inglese diffuse dalla “Reuters” nel 1987 e usata per lo sviluppo e la valutazione di sistemi di classiﬁcazione automatica dei testi (text categorization). All’estremo opposto si collocano i corpora generali, i cui testi appartengono alle diverse varietà, comunità d’uso o registri di una lingua e sono selezionati per comporre il quadro descrittivo della lingua nel suo complesso. I corpora generali sono essenzialmente plurifunzionali, ovvero non sono costruiti per una speciﬁca applicazione o obiettivo di ricerca. I corpora generali sono spesso progettati come risorse trasversali di riferimento per lo studio di una lingua, ad esempio come fonte di evidenza per realizzare un dizionario o sviluppare una grammatica: di qui anche il nome di corpora di riferimento (reference corpora). Spesso i corpora generali sono articolati in sottocorpora, ovvero sottoinsiemi di testi che appartengono a una particolare varietà. 2. Modalità: la grande diversità che caratterizza a tutti i livelli la lingua scritta e quella parlata rende la modalità (scritta o orale) di produzione dei testi un parametro estremamente rilevante per deﬁnire la ﬁsionomia del corpus e anche deciderne gli usi più opportuni. Rispetto a questa dimensione possiamo distinguere: a) corpora di lingua scritta – contengono solo testi originariamente prodotti in forma scritta, come libri, articoli di giornale, lettere ecc. (ad esempio Brown Corpus, Parole, Coris ecc.); b) corpora di lingua parlata – contengono solo testi originariamente prodotti in modalità orale e successivamente trascritti, come conversazioni spontanee, trasmissioni radiofoniche ecc. (ad esempio Childes); c) corpora misti – contengono in proporzioni variabili sia testi prodotti in modalità scritta sia trascrizioni di lingua parlata (ad esempio BNC). I corpora in b devono essere distinti dai cosiddetti corpora audio (o speech databases), che contengono registrazioni audio di parlato, eventualmente accompagnate dalla loro trascrizione: l’HCRC Map Task Corpus è composto da registrazioni audio di conversazioni raccolte in maniera “semicontrollata” secondo il cosiddetto metodo Map Task (Brown et al., 1984); CLIPS è un corpus audio di varie tipologie dell’italiano parlato (parlato dialogico, letto, televisivo, conversazioni tele30

1.

I DATI DELLA LINGUA

foniche ecc.) stratiﬁcato dal punto di vista diafasico e diatopico. I corpora audio vanno acquistando una sempre maggiore importanza come strumenti per lo sviluppo di applicazioni per il riconoscimento o la sintesi automatica del parlato, in cui è necessario accedere a dati acustici. Un tipo di corpus ancora più di frontiera, ma in rapida diffusione, è il corpus multimodale (o corpus audio-visivo), che contiene le registrazioni audio-video di scambi comunicativi. Queste permettono di acquisire dati importanti non solo sulla struttura linguistica, ma anche sugli aspetti gestuali, facciali, emozionali e ambientali della comunicazione. 3. Cronologia: i corpora differiscono anche per il modo in cui i testi sono selezionati rispetto all’asse temporale. Un corpus sincronico include testi che appartengono a una stessa ﬁnestra temporale, selezionata per lo studio di una particolare fase della lingua: ad esempio i testi del Brown Corpus sono stati pubblicati negli USA nel 1961, mentre il corpus La Repubblica contiene testi pubblicati sull’omonimo quotidiano tra il 1985 e il 2000. Un corpus diacronico comprende invece testi appartenenti a periodi diversi, con lo scopo di monitorare il mutamento linguistico su scala microtemporale oppure su scala macrotemporale. Italnet, il corpus del Tesoro della Lingua Italiana delle Origini, è il maggiore corpus diacronico della lingua italiana con 1.849 testi anteriori al 1375, anno della morte di Boccaccio. 4. Lingua: un corpus monolingue contiene solo testi di una lingua; un corpus bilingue (o multilingue) contiene testi di due (o più) lingue. I corpora bilingui (multilingui) possono essere ulteriormente distinti in corpora paralleli e corpora comparabili. Un corpus parallelo comprende testi sia nella loro lingua originaria (tecnicamente definita L1) sia in traduzione in un’altra lingua (tecnicamente definita L2). Se le unità linguistiche dei testi L1 sono esplicitamente collegate alle unità linguistiche nei testi L2 che ne costituiscono le traduzioni, si parla allora di corpus parallelo allineato: l’unità tipica di allineamento è la frase. Uno dei più celebri corpora paralleli è il Canadian Hansards Corpus, che contiene testi francesi e inglesi allineati, tratti dagli atti del Parlamento canadese. In LC i corpora paralleli sono una fonte di dati estremamente importante per lo sviluppo di sistemi di traduzione automatica. Un corpus bilingue (multilingue) comparabile non contiene invece testi in traduzione, ma testi originali in lingue diverse. Il corpus è comparabile nella misura in cui i criteri di selezione dei testi sono gli stessi nelle varie lingue. Ad esempio, Parole è un insieme di corpora per 12 lingue europee, costruiti seguendo un comune criterio di sele31

TESTO E COMPUTER

zione dei testi; il corpus italiano è dunque comparabile con gli altri membri della famiglia Parole. I corpora comparabili permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico; dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggiore grado di naturalezza, evitando le artiﬁciosità che talvolta conseguono dall’opera di traduzione. 5. Integrità dei testi: un corpus può contenere testi interi oppure porzioni di testi di una lunghezza preﬁssata: il Brown Corpus include campioni di 2.000 parole, mentre i testi in Parole e in Coris sono integrali. Per alcuni tipi di indagini la disponibilità di testi completi è importante per evitare che la selezione di un frammento possa incidere negativamente sulla naturalezza dei dati da estrarre. Dall’altro lato, ragioni di bilanciamento del corpus possono invece far preferire la selezione di porzioni di testi di lunghezza uniforme: questo permette di aumentare il numero di testi rappresentati nel corpus evitando che quelli molto lunghi condizionino la composizione della collezione. 6. Codifica digitale dei testi: un ulteriore elemento di differenziazione tra corpora è il modo in cui sono rappresentati i testi digitali. Nei corpora codificati ad alto livello (cfr. PAR. 2.4) i testi sono arricchiti con etichette che ne rendono espliciti vari tipi di informazione, come ad esempio la struttura e la composizione. Tipi particolari di corpus codificato sono i corpora annotati, nei quali le informazioni codificate riguardano la struttura linguistica del testo a livelli diversi di rappresentazione (ad esempio morfologica, sintattica, semantica ecc.). Le nozioni di codifica e annotazione di corpora rivestono un’importanza fondamentale nella LC e verranno discusse in dettaglio nei CAPP. 2, 3 e 8. Queste diverse dimensioni contribuiscono a comporre la ﬁsionomia di un corpus. Un altro tratto fondamentale è però la sua estensione, la cui unità di misura è il numero di parole unità (token) (cfr. CAP. 5) che esso contiene; nel caso dei corpora di parlato o dei corpora audio un’ulteriore unità di misura è la durata della registrazione. In realtà la dimensione quantitativa non è solo un elemento accessorio, ma entra come uno degli aspetti cruciali per determinare la conformazione e l’usabilità stessa del corpus. Concentrandosi sui corpora generali, la loro evoluzione è contraddistinta dall’ampliamento costante dell’estensione. La grandezza tipica dei cosiddetti corpora di prima generazione degli anni sessanta-settanta è circa 1 milione di parole: il modello di riferimento (sia per le dimensioni sia per i criteri di selezione dei testi) per questa generazione è il Brown Corpus, creato da 32

1.

I DATI DELLA LINGUA

Francis e Kucera alla Brown University negli Stati Uniti nel 1964. L’importanza del Brown Corpus risiede nel fatto di essere il primo corpus elettronico progettato come riferimento per lo studio di una lingua. A partire dagli anni ottanta, la grandezza media dei corpora di riferimento è andata progressivamente aumentando: prima si è spostata sulle decine di milioni di parole, e poi si è attestata stabilmente sulle centinaia di milioni. Il BNC con i suoi 100 milioni di parole rappresenta senz’altro uno dei modelli più importanti per i corpora generali di nuova generazione. Anche per l’italiano, le dimensioni dei corpora più recenti sono in linea con la grandezza standard, aggirandosi in media sul centinaio di milioni di parole. I corpora anche di grandi dimensioni sono comunque realtà “chiuse”: esse ci restituiscono una sorta di “fotograﬁa” di una lingua attraverso i testi selezionati, ma non sono adatti a seguire i mutamenti e le evoluzioni che in una lingua avvengono come conseguenza della sua natura intrinsecamente dinamica. Per superare questo limite, John Sinclair ha proposto di estendere la nozione tradizionale di corpus in uno strumento di monitoraggio linguistico. Un corpus di monitoraggio (monitor corpus) è una collezione “aperta” di testi che muta nel tempo, pur conservando la sua ﬁsionomia originale, introducendo nuovi testi selezionati secondo gli stessi criteri usati per determinare la collezione iniziale. Questo tipo di corpus permette ad esempio di monitorare le dinamiche del lessico della lingua, e dunque può essere usato in contesti lessicograﬁci come fonte di dati per mantenere aggiornati i dizionari. Il primo esempio di corpus di monitoraggio è la Bank of English, ideata e diretta da Sinclair: iniziato nel 1981, questo corpus è arrivato negli anni novanta a un’estensione di circa 200 milioni di parole, per raggiungere i 450 milioni nel 2002. L’idea del corpus aperto è stata adottata anche per la costruzione di altri corpora generali, ad esempio Coris per l’italiano e l’American National Corpus (ANC) per l’inglese americano. Al di là degli aspetti quantitativi, è possibile tracciare alcune linee di tendenza nell’evoluzione dei corpora: 1. mentre i prodotti di prima generazione sono essenzialmente non misti (tipicamente di lingua scritta), i corpora generali più recenti ospitano spesso proporzioni variabili di parlato trascritto (il 10% nel BNC). Sempre più diffusa è anche la presenza di nuove forme testuali digitali, come pagine web, e-mail ecc.; 2. esiste un numero crescente di corpora audio e corpora multilingui, soprattutto paralleli allineati. A questo va aggiunta la disponibilità amplissima di corpora specialistici, per le più diverse varietà linguistiche e applicazioni; 33

TESTO E COMPUTER

3. il numero di lingue per le quali esistono corpora di varie tipologie è in continuo aumento, sotto la spinta sia delle esigenze di mercato per le tecnologie linguistiche, sia della comunità di ricerca interessata ad allargare a nuove lingue la disponibilità di corpora di riferimento; 4. si preferisce includere in un corpus testi interi per garantire la massima naturalezza dei dati linguistici estraibili. Un’eccezione importante a questa tendenza è invece rappresentata dal BNC, che contiene porzioni di testi di circa 45.000 parole; 5. i testi sono riccamente codiﬁcati attraverso linguaggi di marcatura e schemi di codiﬁca standardizzati (cfr. CAPP. 2 e 3); 6. i corpora sono sempre più estensivamente annotati: l’annotazione delle parole con la loro categoria grammaticale (annotazione morfosintattica) è ormai comune, ma a questa di frequente si aggiungono anche informazioni linguistiche più avanzate, ad esempio sintattiche, semantiche ecc. (cfr. CAP. 8); 7. strumenti informatici soﬁsticati (basi di dati, interfacce di ricerca ecc.) permettono la consultazione ed esplorazione efﬁciente dei grandi corpora di riferimento. Questa evoluzione è motivata da vari fattori. L’espansione delle capacità di memorizzazione ed elaborazione dei dati da parte dei computer, lo sviluppo di metodi avanzati per il trattamento e la codiﬁca dei testi digitali e la disponibilità crescente di materiale testuale già in formato digitale hanno permesso non solo un ampliamento quantitativo dei corpora, ma anche una forte evoluzione qualitativa, che concerne i tipi di testi che vengono a comporre il corpus, il modo in cui questi sono rappresentati in formato digitale e anche gli strumenti per la loro esplorazione. I testi sono stati inoltre arricchiti con vari livelli di annotazione linguistica che costituiscono una base essenziale per analisi ed elaborazioni informatiche avanzate. In questo modo i corpora, da collezioni di materiale testuale, si sono andati progressivamente trasformando in autentiche risorse di informazione (cfr. CAP. 2) a disposizione del linguista, computazionale e no, per le sue analisi e applicazioni. 1.3 Il corpus come campione Il grado di adeguatezza di un corpus come fonte di dati per una particolare analisi linguistica o applicazione è determinato dall’interazione di due fattori fondamentali. Da un lato, c’è la dimensione quantitativa, ovvero la grandezza del corpus. Un corpus è come una ﬁnestra dalla quale il linguista può osservare il linguaggio, la sua geograﬁa e 34

1.

I DATI DELLA LINGUA

le sue dinamiche. Le dimensioni della ﬁnestra sono importanti per il tipo di osservazioni che vogliamo compiere e per avere maggiori probabilità di osservare quei fenomeni o strutture che sono rilevanti per i nostri scopi. Dall’altro lato, c’è l’aspetto qualitativo, ovvero la composizione e organizzazione del corpus. Un corpus è infatti il risultato di una scelta di testi che sono giudicati signiﬁcativi per esplorare una lingua. Non è solo il numero dei testi che conta, ma anche il modo in cui li selezioniamo. In altri termini, è anche importante dove e come decidiamo di costruire il nostro punto di osservazione, per ottenere da esso la migliore vista possibile sulla lingua. Lo sviluppo tecnologico informatico ha permesso di potenziare enormemente i corpora nella loro dimensione quantitativa. Il progresso ha toccato però anche gli aspetti qualitativi grazie all’affinarsi di metodologie sofisticate per ottimizzare i criteri di selezione dei testi. Una delle forze propulsive di questa evoluzione è stata la linguistica dei corpora, nella quale la nozione di corpus ha trovato una definizione e trattazione scientifica rigorosa. Questa disciplina più di altre si è fatta portavoce soprattutto della necessità di potenziare i corpora proprio per quanto riguarda il controllo delle modalità di selezione dei testi, accanto agli aspetti meramente quantitativi: a tale proposito Leech (1991, p. 10) afferma che in un corpus «focalizzarsi solo sulla dimensione è ingenuo», in quanto più grande non significa necessariamente migliore. Un corpus costituisce infatti una fonte preziosa di informazioni sul modo in cui si distribuiscono i tratti di una lingua: le parole, le costruzioni sintattiche, la struttura del discorso ecc. Lo scopo è di usare questo tipo di evidenza per formulare una descrizione della lingua dei testi nel corpus, ad esempio una descrizione del suo lessico o della sua grammatica, in generale della sua organizzazione e delle sue dinamiche. Un corpus si configura così come un campione di una lingua o di una sua varietà, nel senso statistico di sottoinsieme di unità di una popolazione oggetto di studio, opportunamente selezionate come fonte di dati per formulare generalizzazioni corrette e affidabili sull’intera popolazione di riferimento. Porre l’attenzione sull’uso dei corpora come campioni di testi ha dunque conseguenze estremamente rilevanti sia sul modo di progettare e costruire i corpora, sia sul loro impiego come fonti di dati per analisi linguistiche. 1.3.1. Rappresentatività e variabilità La possibilità di estendere le informazioni tratte da un campione alla sua popolazione (e quindi la possibilità di studiare una qualche realtà sulla base di un suo sottoinsieme) dipende fortemente da quanto il 35

TESTO E COMPUTER

campione è rappresentativo della popolazione stessa: è necessario infatti che il campione sia il più possibile “simile” alla popolazione e che ne rappresenti un modello fedele in scala ridotta (cfr. Scheda on line 1.1). La rappresentatività agisce come vincolo qualitativo e quantitativo sulla capacità del corpus di fornirci un modello in scala delle proprietà di una lingua o di una sua varietà. Se questa condizione non è soddisfatta, non possiamo essere sicuri che l’evidenza del corpus corrisponda effettivamente a proprietà reali della lingua, o sia piuttosto l’effetto accidentale del modo in cui i testi sono stati campionati. Da ciò deriva una nozione di corpus molto più restrittiva di quella fornita all’inizio del PAR. 1.2, in quanto la rappresentatività rispetto a una data popolazione è il concetto chiave per qualiﬁcare una collezione di testi come corpus. Per tale motivo, i corpora vengono generalmente distinti da collezioni di testi, archivi o biblioteche digitali, quali ad esempio l’Oxford Text Archive, Project Gutenberg e, per l’italiano, la Biblioteca Italiana. Sebbene la quantità di testi di una biblioteca digitale possa essere di gran lunga superiore a qualunque corpus esistente, il modo in cui i testi di una biblioteca sono raccolti è decisamente “opportunistico” rispetto alle esigenze o ai gusti letterari dei suoi utenti oppure rispetto a una speciﬁca politica culturale, senza che per questo i testi possano dirsi rappresentativi di una data lingua. Per essere rappresentativo un corpus deve tenere traccia dell’intero ambito di variabilità dei tratti e proprietà di una lingua. Il modo in cui questi si distribuiscono dipende fortemente dalla tipologia dei testi della lingua. Diversi tipi testuali si legano infatti a differenti situazioni e scopi comunicativi, che a loro volta incidono sulle scelte lessicali e sintattiche e sulle modalità di organizzazione linguistica del testo. Il lessico di una conversazione spontanea ha tratti di informalità maggiori di una conferenza scientiﬁca, il linguaggio letterario presenta costruzioni sintattiche assenti o rare nel linguaggio delle e-mail e delle chat ecc. Il nome nota può signiﬁcare sia un’entità musicale, sia un appunto scritto: la distribuzione di questi due sensi della parola è chiaramente diversa se prendiamo in esame testi musicali, oppure testi burocratici, nei quali la prima accezione può essere molto rara o non essere attestata. Particolari costruzioni sintattiche come il “che polivalente” (il che con valore ﬁnale, o temporale come in l’anno che ho incontrato Gianni) o il “ci attualizzante” (Mario c’ha dei grossi problemi) sono ormai tratti molto comuni della lingua parlata, ma hanno una diffusione più ristretta nella lingua scritta. All’interno di quest’ultima ulteriori variazioni possono essere legate al grado di informalità del testo stesso. Nel costruire un corpus rappresentativo di una lin36

1.

I DATI DELLA LINGUA

gua o di una sua varietà dobbiamo dunque selezionare un campione di testi che «ci fornisca un’immagine il più accurata possibile delle tendenze della varietà in questione, comprese le loro proporzioni» (McEnery, Wilson, 2001, p. 30). La linguistica dei corpora ha sottolineato l’importanza di adottare criteri di selezione dei testi che accrescano il più possibile la rappresentatività del campione. La complessità dell’operazione di selezione dipende dalla trasversalità o generalità della lingua che il corpus deve rappresentare. Il caso più semplice è costituito dai corpora verticali o specialistici, che si riferiscono a varietà linguistiche sufﬁcientemente ristrette o ben deﬁnibili. Alcuni degli esempi più comuni sono: a) i corpora per lo studio della lingua di un autore, la cui estensione coincide con la produzione dell’autore stesso; in questo caso i parametri di selezione possono essere il genere testuale (ad esempio poesia, prosa ecc.), il periodo di produzione ecc.; b) i corpora di domini linguistici settoriali (ad esempio il linguaggio giuridico, il gergo dei controllori del trafﬁco aereo ecc.); c) i corpora di testi che appartengono a generi particolari o di facile identificazione, come SMS, bollettini meteorologici, notiziari stampa ecc. In questi casi i parametri di variabilità interna della lingua sono limitati e comunque più facilmente controllabili. Lo spettro di variabilità ridotto e meglio delimitabile della varietà linguistica consente quindi una maggiore accuratezza nella selezione dei testi e di conseguenza un alto grado di rappresentatività del corpus rispetto ai diversi tratti della lingua. 1.3.2. Corpora bilanciati Un ordine di complessità molto maggiore è invece presentato dai corpora che vogliono essere rappresentativi di una lingua nel suo complesso. L’obiettivo dei corpora generali, come il BNC o Parole, è quello di essere risorse di riferimento trasversali di una lingua, per essere usati come fonte di dati per creare modelli linguistici, lessici, grammatiche ecc. Nel caso dei corpora generali, la necessità di tenere traccia dell’ampio spettro di variabilità dei tratti linguistici si concretizza nel requisito del bilanciamento. Nella linguistica dei corpora il bilanciamento è infatti assunto come condizione essenziale per garantire la rappresentatività di un corpus che voglia essere plurifunzionale e trasversale rispetto alle diverse varietà di una lingua. Un corpus generale deve dunque essere bilanciato proprio per poter essere «diversiﬁcato rispetto a un ampio spettro di tipi testuali» (Biber, 1993, p. 220). Il 37

TESTO E COMPUTER

bilanciamento presuppone una descrizione accurata della popolazione di riferimento: è necessario dunque deﬁnire una mappa della lingua tracciando a) i conﬁni spaziali e temporali (quali testi sono inclusi o esclusi dalla popolazione) e b) la tipologia dei testi (l’articolazione in strati della popolazione). I criteri di bilanciamento differiscono molto a seconda del corpus, anche se uno dei parametri più comuni è il dominio tematico del testo. Un esempio di bilanciamento particolarmente soﬁsticato e articolato è quello del BNC, che rappresenta uno standard qualitativo de facto nei corpora di ultima generazione. Prima di tutto la popolazione testuale è articolata secondo la modalità di produzione: il corpus contiene infatti 90 milioni di parole di testi scritti e 10 milioni di parole di parlato trascritto. Ciascuna di queste componenti è a sua volta organizzata secondo criteri diversi. Nella parte di lingua scritta, i testi (comunque non anteriori al 1975) sono stati selezionati sulla base del dominio (ad esempio scienze, arte, pensiero, economia e ﬁnanza ecc.) e del “medium” (ad esempio libri, giornali, brochure, lettere ecc.). La componente di parlato trascritto è invece ulteriormente suddivisa in una parte “demograﬁca”, contenente trascrizioni di conversazioni spontanee, e una parte “contestualizzata”, formata da trascrizioni di parlato prodotto in situazioni o contesti comunicativi particolari (ad esempio conferenze, discorsi politici, interviste ecc.), a loro volta ulteriormente classiﬁcati. Le conversazioni della parte demograﬁca sono invece bilanciate rispetto a sesso, età e regione di provenienza del parlante. Gli aspetti qualitativi del bilanciamento del corpus non possono ovviamente essere disgiunti dalla dimensione quantitativa, dal momento che anche la grandezza del corpus incide sulla sua rappresentatività. I due fattori sono a prima vista del tutto indipendenti, poiché l’aumento dell’estensione di un campione non è di per sé garanzia di una sua maggiore rappresentatività (un corpus molto esteso può infatti non essere bilanciato). Un bilanciamento corretto richiede però una quantità consistente di testi selezionati per le diverse tipologie individuate nella popolazione. Per tale ragione, la possibilità di gestire quantità sempre maggiori di testi elettronici ha inciso positivamente sulla rappresentatività dei corpora generali. I corpora in

LC:

1.4 istruzioni per l’uso

I corpora costituiscono uno degli strumenti di lavoro essenziali del linguista computazionale, che deve essere in grado di selezionare la fonte di dati linguistici più appropriata in rapporto ai suoi speciﬁci 38

1.

I DATI DELLA LINGUA

obiettivi e metodi di analisi. Le questioni che abbiamo illustrato nelle sezioni precedenti non hanno dunque solo una valenza teorica ed epistemologica, ma hanno anche ricadute importanti nella pratica della ricerca scientiﬁca e tecnologica. Il linguista computazionale usa tipicamente un corpus come fonte di evidenza per deﬁnire modelli linguistici e sviluppare strumenti informatici per l’elaborazione della lingua: analizzare sintatticamente una frase, riconoscere il signiﬁcato di una parola in un particolare contesto, associare una forma lessicale al suo lemma ecc. Un primo tipo di evidenza è qualitativa, ovvero riguarda quali strutture devono entrare a far parte della competenza linguistica rappresentata nel modello o nel programma: ad esempio quali regole devono essere inserite nella grammatica di un analizzatore sintattico del testo. Un secondo tipo di evidenza è invece quantitativa, ovvero riguarda quante volte una certa espressione o struttura linguistica (parola, sequenza di parole, sintagma, frase ecc.) ricorre in un corpus: questo tipo di informazione quantitativa è la base essenziale per l’applicazione di una vasta gamma di metodi statistici in LC (cfr. CAPP. 5, 6 e 7). In entrambi i casi, la composizione e l’estensione del corpus giocano un ruolo fondamentale nel determinare il grado di affidabilità dell’evidenza su cui analisi e applicazioni sono sviluppate. Il linguista computazionale deve dunque chiedersi: di che tipo di corpus ho bisogno? Quanto sono afﬁdabili i risultati delle analisi effettuate su di esso? In che misura è possibile estenderli a una popolazione più ampia? Che tipo di testi è in grado di analizzare un’applicazione basata su tecnologie linguistiche sviluppate a partire dai dati ricavati da un certo corpus? Simili domande non hanno risposte univoche poiché dipendono dal tipo di ricerca o contesto applicativo; tuttavia tenteremo ugualmente di presentare alcune “istruzioni per l’uso” dei corpora per le analisi computazionali. 1.4.1. I limiti della rappresentatività I corpora sono raccolte di “osservazioni” dell’uso linguistico di parlanti reali. Come tali hanno spesso suscitato forti obiezioni circa la loro effettiva possibilità di costituire fonti adeguate di evidenza linguistica. Chomsky infatti afferma che «impariamo di più sul linguaggio seguendo il metodo standard della scienza, che non consiste nell’accumulare enormi masse di dati non analizzati e nel cercare di estrarre qualche generalizzazione da essi. La scienza moderna, almeno da Galileo è stata completamente differente. [...] Galileo non sarebbe stato interessato a registrazioni video di foglie che cadono, pal39

TESTO E COMPUTER

le che si muovono e rocce che rotolano giù dalle montagne» (Andor, 2004, p. 97) 1. Il limite intrinseco dei corpora, per quanto grande possa essere la loro estensione, è quello di essere insiemi finiti di registrazioni di usi linguistici, e dunque di essere comunque parziali e legati alla particolare prospettiva di osservazione sui dati. Al contrario, la conoscenza umana del linguaggio è intrinsecamente infinita, poiché come parlanti di una lingua siamo in grado di generare e comprendere un numero potenzialmente illimitato di espressioni. Molte di queste potenzialità restano inespresse nel nostro uso linguistico, che è guidato e condizionato da prassi, abitudini, convenzioni, limiti temporali ecc., ma nondimeno esse esistono come parte integrante della competenza di una lingua. L’affidabilità di un corpus come fonte di dati linguistici dipende dunque dalla sua capacità di fornirci un modello fedele del lessico e della grammatica di una lingua. Secondo Chomsky, il modello offerto da un corpus è destinato a essere sistematicamente fuori scala e distorto, con un grande squilibrio nella distribuzione dei tratti linguistici: il numero di volte con cui occorre una certa costruzione, così come la sua eventuale assenza, sono inevitabilmente legati alle contingenze dell’uso e della selezione dei testi, senza che ciò sia in qualche modo collegabile a tratti necessari della struttura del linguaggio. Secondo questa prospettiva, un corpus è dunque al più una fonte di “curiosità” linguistiche, ma non una fonte di evidenza a partire dalla quale sviluppare modelli della conoscenza della lingua. Di qui deriva anche il sostanziale scetticismo di Chomsky e di buona parte della linguistica di tradizione generativa verso il valore autenticamente esplicativo delle inferenze statistiche ricavate da un corpus. All’obiezione di Chomsky che nessun corpus è perfetto si potrebbe rispondere dicendo che nessun campione è perfettamente rappresentativo della sua popolazione. La linguistica dei corpora è andata infatti affermando ripetutamente la natura relativa più che assoluta della rappresentatività, un valore limite al quale ci si può avvicinare progressivamente attraverso l’applicazione di una metodologia rigorosa: «il campionamento di un corpus non è assolutamente un esercizio immediato. Comunque l’applicazione costante di rigorose metodologie statistiche dovrebbe garantire che il corpus sia il più possibile

1. Affermazioni simili costituiscono un leit motiv della grammatica generativa: «usi osservati della lingua [...] sicuramente non possono costituire l’oggetto proprio della linguistica, se questa vuole essere una disciplina seria» (Chomsky, 1965, p. 45).

40

1.

I DATI DELLA LINGUA

rappresentativo di una popolazione più ampia, all’interno dei limiti pratici imposti dalla situazione contingente» (McEnery, Wilson, 2001, p. 80). Per la linguistica dei corpora il controllo degli aspetti qualitativi di un corpus è lo strumento fondamentale per migliorarne la rappresentatività. Tutti i grandi corpora di riferimento disponibili oggi sono di fatto ﬁgli di questa strategia: sono risorse estese di materiali testuali trasversali rispetto alle diverse varietà di una lingua e ottenute attraverso accurate opere di selezione. Un corpus presenta comunque aspetti di arbitrarietà e parzialità, legati ai criteri che vengono scelti per caratterizzare la sua lingua. Ogni corpus è di fatto il risultato dell’applicazione di metodologie di campionamento rigorose miste a soluzioni pragmatiche e all’intuizione del progettista del corpus. La selezione dei tipi di testi è strettamente legata anche alla loro effettiva disponibilità: questioni come i diritti di proprietà sui testi, la loro facilità di recupero ecc. possono essere fattori critici nel determinare la composizione di un corpus. Spesso, una certa tipologia di testo compare in un corpus con un’alta percentuale semplicemente perché rappresenta tutto ciò che è recuperabile nei tempi e con le risorse di un progetto. Basti pensare, ad esempio, che la maggioranza dei prodotti di una lingua sono orali, e nonostante questo la parte di lingua parlata di un corpus (quando è presente) è di solito largamente minoritaria (come nel BNC), proprio per le difficoltà connesse alla registrazione e alla trascrizione del parlato. Alcuni corpora nascono anche con una vocazione esplicitamente “opportunistica”, in quanto raccolgono materiale testuale selezionato semplicemente per la sua abbondante disponibilità in formato digitale. Nonostante non siano il risultato di elaborate tecniche di bilanciamento, questi corpora possono comunque essere estremamente utili per il linguista computazionale. Ad esempio, una delle fonti di dati per l’inglese più usate in LC è il corpus composto da varie annate del “Wall Street Journal”. Similmente il corpus italiano La Repubblica è il risultato della collezione di alcune annate dell’omonimo quotidiano, già disponibili in formato digitale. Anche se “la Repubblica” è un giornale “generalista” (e comprende dunque articoli di argomenti diversi), non è certo possibile pensare a questo corpus come a una risorsa di riferimento per la lingua italiana, dato che è composto da un unico tipo testuale. Nondimeno, grazie anche alle sue dimensioni molto considerevoli, questo corpus può costituire una fonte di dati importanti per ricerche e applicazioni linguistiche sull’italiano. C’è inoltre almeno un punto della critica chomskiana cui la rap41

TESTO E COMPUTER

presentatività statistica, anche come nozione limite, non è in grado di dare una risposta soddisfacente. Il concetto di corpus bilanciato visto nel PAR. 1.3.2 presuppone una descrizione adeguata della popolazione di testi da campionare. Purtroppo, però, la nozione di “tipo testuale” su cui il bilanciamento si basa è di difﬁcile caratterizzazione, così come lo è spesso la nozione di lingua che il corpus vuole rappresentare. La composizione di un corpus, anche quando è realizzata seguendo rigorose tecniche statistiche di campionamento, è dunque sempre dipendente dalla particolare prospettiva con cui organizziamo e raggruppiamo i testi. Un corpus di una lingua è il prodotto di una particolare interpretazione che diamo di essa e della sua articolazione interna. Per tali motivi, più che la nozione di bilanciamento «quello che conta è sapere che il proprio corpus è sbilanciato» (Atkins et al., 1992, p. 6). In altri termini, il controllo dei criteri qualitativi di scelta dei testi per migliorare la rappresentatività del corpus deve sempre accompagnarsi alla consapevolezza dei limiti di questo processo. Se vogliamo parafrasare un motto classico, l’imperativo per il linguista computazionale (e no), deve essere: Conosci il tuo corpus!, ovvero sii consapevole che esso è comunque frutto di una selezione effettuata sulla base di particolari criteri e vincoli pratici. I criteri di campionamento di un corpus devono essere resi il più possibile espliciti e ben documentati. Al ﬁne di garantire un corretto uso del corpus, una documentazione accurata dei criteri di selezione adottati è altrettanto importante dei criteri stessi. La natura intrinsecamente sbilanciata di tutti i corpora non li esclude dall’essere una ricca fonte di evidenza linguistica, a patto che questa fonte sia usata con cautela e con la consapevolezza di dove risieda lo sbilanciamento. Ciò è particolarmente importante per usare i corpora come dati di riferimento e confronto in esperimenti psicolinguistici, ma anche per scopi applicativi. L’attenzione a questo problema in LC è testimoniata dal diffondersi di studi e analisi che approfondiscono il rapporto tra la distribuzione dei tratti linguistici e il tipo di corpus. Roland e Jurafsky (1998) analizzano la variabilità dei tipi di complementi retti da un verbo (i cosiddetti schemi di sottocategorizzazione) in un insieme di corpora generali e specialistici. In una direzione simile si muovono studi come quello di Kilgarriff (2001) che hanno l’obiettivo di individuare metodi quantitativi per confrontare il grado di similarità tra corpora sulla base della distribuzione dei tratti linguistici. Nella LC esiste dunque un forte interesse a elaborare strumenti per controllare la variabilità dei corpora. In generale, in ogni tipo di analisi computazionale è necessario veriﬁcare accuratamente se e in che misura i ri42

1.

I DATI DELLA LINGUA

sultati e le prestazioni ottenute siano stati inﬂuenzati dalla composizione del corpus da cui abbiamo estratto i dati linguistici. Se il corpus perfettamente rappresentativo non esiste, la LC è sempre più consapevole dell’importanza di metodi e strategie che permettano di controllare e limitare gli effetti dei possibili sbilanciamenti dei corpora. 1.4.2. Il corpus come benchmark Oltre che dal suo grado di rappresentatività, la scelta di un corpus come fonte di evidenza in LC può anche dipendere dalla misura in cui esso costituisce uno standard di riferimento per un particolare tipo di applicazione o analisi linguistica. Allo scopo di monitorare lo stato di avanzamento in un dato ambito di ricerca è infatti spesso necessario confrontare le prestazioni di sistemi e modelli diversi, e valutare le capacità di algoritmi o programmi di eseguire un certo compito linguistico (ad esempio l’analisi sintattica di una frase). Diventa dunque essenziale disporre di un corpus di dati testuali selezionati con cura proprio allo scopo di “mettere alla prova” i nostri programmi. Poiché il tipo di corpus scelto e la sua composizione influenzano fortemente i risultati che otteniamo, una corretta valutazione comparativa tra metodi e sistemi diversi richiede l’uso dello stesso tipo di dati. Per tale motivo, alcuni corpora hanno progressivamente assunto il ruolo di standard de facto per una certa comunità come dati di confronto (benchmark) nelle valutazioni. Nel caso dei corpora generali, il BNC è uno standard riconosciuto per molti tipi di analisi computazionali sulla lingua inglese. La stessa tendenza, però, vale anche per corpora specialistici e per applicazioni ben definite: ad esempio, la comunità di ricerca che si occupa della classificazione automatica dei testi ha fatto del corpus Reuters-21578 la collezione di dati di riferimento. Tra i molti fattori che contribuiscono a rendere un corpus uno standard di riferimento vi sono chiaramente la qualità stessa del corpus, la sua facile disponibilità, e anche il fatto che siano ben noti i suoi limiti e la sua composizione. Nella prassi della LC la scelta di un corpus deve essere dunque guidata non solo dal suo grado di rappresentatività verso una lingua, ma anche dal suo livello di rappresentatività per una comunità di ricerca. Scegliere come base per le proprie elaborazioni computazionali un corpus che è uno standard riconosciuto per un certo tipo di analisi può essere altrettanto importante della sua effettiva rappresentatività linguistica, proprio per garantire una migliore valutazione comparativa dei risultati. 43

TESTO E COMPUTER

1.4.3. I corpora specialistici I corpora specialistici sono estremamente utili per lo sviluppo di sistemi che siano fortemente adattati a un particolare tipo di linguaggio. Come si è osservato nel PAR. 1.3.1, i conﬁni ristretti e ben deﬁniti della lingua di riferimento permettono infatti di sviluppare in tempi rapidi corpora di dimensioni contenute ma ugualmente dotati di un alto grado di rappresentatività. Al posto dei grandi corpora generali, per il linguista computazionale è dunque possibile (e spesso anche preferibile) optare per corpora molto focalizzati su un particolare dominio di interesse. Si è così assistito al proliferare di corpora verticali per domini linguistici settoriali o per particolari tipi testuali: notiziari radio televisivi, annunci di conferenze, conversazioni telefoniche, agenzie stampa (come nel caso della collezione Reuters citata sopra) ecc. Un problema connesso all’uso dei corpora specialistici è che l’evidenza linguistica che essi forniscono è spesso generalizzabile solo in maniera limitata, proprio per i tratti talvolta altamente idiosincratici della loro popolazione di riferimento. Concentrarsi su corpora specialistici per le analisi computazionali signiﬁca dunque rinunciare a modellare la competenza linguistica generale e trasversale di una lingua? La risposta in realtà è no, o almeno non necessariamente; quello che cambia è piuttosto il modo in cui si può affrontare l’analisi computazionale della lingua nel suo complesso. È infatti possibile sviluppare modelli e strumenti che operano su ambiti linguistici ristretti, ma che sono al tempo stesso dotati della capacità di estendere e adattare rapidamente tale competenza a nuove varietà della lingua. Questo approccio si accompagna a un modo diverso di intendere la stessa nozione di lingua generale. A tale proposito Biber (1998, p. 248) afferma che «non esiste niente che si possa deﬁnire una “lingua generale”; ciascun registro ha i suoi propri usi»; lo scopo del bilanciamento dei corpora generali è esattamente quello di controllare questa diversità cercando di rappresentarla il più possibile all’interno della stessa risorsa di informazione. In alternativa, possiamo concepire la competenza generale di una lingua come il risultato di un processo di estensione progressiva a partire da competenze settoriali che vengono gradualmente ampliate e generalizzate grazie a un’incredibile capacità di adattamento a nuove varianti. Due varietà della stessa lingua mantengono comunque intersezioni che consentono di estendere le nostre competenze linguistiche dall’una all’altra, attraverso un’operazione di adattamento la cui complessità dipende chiaramente dal grado in cui queste varietà differiscono. La capacità di proiettare la propria conoscenza della lingua su nuovi domini imparando nuovi termini lessica44

1.

I DATI DELLA LINGUA

li, costruzioni e usi è parte integrante della competenza linguistica umana. Una delle sﬁde principali della LC è proprio comprendere e modellare questa capacità. Invece di sviluppare sistemi dotati di conoscenze linguistiche generali, ricavate da fonti di dati generali, si preferisce spesso sviluppare sistemi e modelli “specializzati” su domini linguistici locali, e dunque su dati provenienti da corpora verticali, dotando però allo stesso tempo tali sistemi di capacità di adattamento linguistico sempre più soﬁsticate. 1.4.4. Corpora di addestramento In quei settori della LC in cui maggiormente vengono usati metodi di analisi statistica, si è andata recentemente affermando una visione puramente quantitativa dei corpora come fonte di dati. Questa si può riassumere citando un’espressione abbastanza comune nella letteratura scientiﬁca: There is no data like more data, ovvero avere tanti dati equivale ad avere buoni dati. A tale proposito Manning e Schütze (1999, p. 120) affermano: «nel trattamento automatico della lingua basato su metodi statistici, generalmente si ha a disposizione come corpus una certa quantità di dati su un qualche dominio di interesse, senza avere nessuna informazione su come il corpus è stato costruito. In casi simili, avere più testo per addestrare il sistema è generalmente più utile di ogni preoccupazione di bilanciamento, e si dovrebbe semplicemente utilizzare tutto il testo disponibile». L’applicazione dei metodi statistici all’analisi computazionale del linguaggio si basa infatti sulla possibilità di costruire modelli di un fenomeno linguistico a partire dagli eventi osservati all’interno di un corpus, detto corpus di addestramento (training corpus: cfr. PAR. 6.2.1). Gli eventi osservati possono essere le parole del corpus, i loro signiﬁcati o categorie sintattiche, ma anche espressioni e strutture più complesse come sequenze di parole, sintagmi, frasi, sequenze di frasi ecc. In un corpus di addestramento è possibile raccogliere dati quantitativi sull’occorrenza di particolari eventi linguistici. I metodi statistici permettono quindi di trasformare le regolarità rilevate nei dati in modelli con cui effettuare previsioni su un dato fenomeno linguistico. Questi modelli sono usati per l’analisi computazionale del linguaggio, ad esempio per selezionare automaticamente il signiﬁcato di una parola in un contesto (nella frase Il violinista suonò una nota la parola nota si riferisce a un’entità musicale), per determinare l’analisi sintattica corretta di una frase (in Giorgio ha mangiato il panino con le mani il sintagma preposizionale con le mani è un complemento del verbo mangiare), oppure per farne la traduzione in un’altra lingua. 45

TESTO E COMPUTER

L’afﬁdabilità e generalità dei modelli statistici sviluppati dipendono da due fattori: quali espressioni sono attestate nel nostro corpus e quante volte sono attestate, dal momento che queste e solo queste sono le informazioni che vengono usate per elaborare il modello. Poiché il corpus è comunque una porzione limitata di una popolazione linguistica, chiaramente ci sono sempre eventi linguistici che non siamo in grado di osservare, ovvero parole o costruzioni che semplicemente il nostro corpus non riporta: in tali casi non possiamo decidere se l’assenza di queste costruzioni sia correlata a qualche proprietà signiﬁcativa della lingua, oppure sia dovuta semplicemente al modo in cui abbiamo costruito il corpus. Anche relativamente agli eventi attestati, però, in un corpus vi è sempre una grande quantità di eventi linguistici rari, ovvero che ricorrono pochissime volte (cfr. PARR. 5.4 e 5.5). Dall’altro lato, è possibile inferire regolarità statistiche signiﬁcative per un certo dominio solo se queste sono derivate dall’osservazione di un numero consistente di eventi. Se infatti osserviamo un evento una volta sola, non possiamo sapere se sia accaduto per caso, o se faccia parte di un’effettiva regolarità del mondo. Di conseguenza, poiché i dati linguistici di un corpus sono rari, è spesso estremamente difﬁcile ricavare da essi modelli statistici afﬁdabili. L’impatto negativo della rarità dei dati fa sì che la possibilità di accedere a quantità di dati linguistici sempre crescenti renda di fatto secondario il vincolo della loro rappresentatività. Il bilanciamento di un corpus, comunque soﬁsticato, non può infatti compensare la mancanza di dati sufﬁcienti per ricavarne inferenze afﬁdabili. In questo contesto nasce dunque l’ipotesi che la fonte di dati migliore sia semplicemente quella con l’estensione maggiore, poiché questa aumenta la probabilità di osservare gli eventi rilevanti ai ﬁni dei modelli linguistici da costruire. Come abbiamo visto nel PAR. 1.3, la linguistica dei corpora si è concentrata sul controllo degli aspetti qualitativi della selezione dei testi, proprio per ridurre l’eventualità che tratti linguistici rilevanti non siano rappresentati nel campione. La capacità dei computer di gestire dimensioni sempre più grandi di dati elettronici rende plausibile esplorare una strada alternativa: ampliare la quantità dei materiali testuali raccolti, sperando che le grandi dimensioni permettano alla ﬁne di raccogliere dati linguistici sufﬁcienti per lo sviluppo di modelli e analisi afﬁdabili. Questo approccio “estensivo” al trattamento computazionale del linguaggio è reso praticabile e attraente anche dal fatto che è oggi disponibile una vera e propria “miniera” di testi elettronici, dalla quale si possono attingere in maniera pressoché illimitata i dati per le analisi linguistiche: il World Wide Web. 46

1.

I DATI DELLA LINGUA

1.4.5. Usare il web come corpus Che il web sia la più grande collezione di testi esistente è indiscutibile. A questo si aggiunge un vantaggio fondamentale per la LC: si tratta di materiale testuale in formato elettronico. Il web è dunque una vera miniera a cielo aperto per gli studi linguistici: i suoi ﬁloni sono in continua espansione e di fatto ancora largamente inesplorati. Lawrence e Giles (1999) stimano che all’epoca il web contenesse circa 6 terabyte di pagine di testo accessibili (un terabyte equivale a mille miliardi di byte). Nel 2003, la quantità di pagine indicizzate da Google è più che triplicata, arrivando a 20 terabyte di testo accessibile. Calcolando una media di 10 byte per parola, Kilgarriff e Grefenstette (2003) stimano una quantità di testo disponibile sul web equivalente a circa 2.000 miliardi di parole! Sono stime approssimative, ma sicuramente vere per difetto, in quanto sono legate al numero di pagine raggiunte e indicizzate dai motori di ricerca, e dunque coprono in realtà solo una parte del testo digitale che ﬂuttua nel cyberspazio. Le dimensioni di testo nel web sono dunque impressionanti, così come lo è il loro tasso di espansione. Il web è anche per sua natura una risorsa di informazione testuale multilingue, sebbene tuttora con una netta prevalenza dell’inglese: Xu (2000) stima ad esempio che il 75% delle pagine web indicizzate sia in inglese, seguito dal giapponese con appena il 6,8%. L’italiano è fermo allo 0,9%, superato dal cinese all’1,5% e dallo spagnolo all’1,1%. Anche in questo caso i dati sono destinati a mutare presto, in quanto la tendenza ormai consolidata è quella di un aumento della presenza sul web di lingue diverse dall’inglese, soprattutto per quanto riguarda le lingue asiatiche come il cinese. Se poi guardiamo alla quantità di testo disponibile sul web per lingua, si osserva che anche lingue “minoritarie” sono rappresentate da grandi numeri in termini di parole. La TAB. 1.3 riporta alcuni dati citati da Kilgarriff e Grefenstette (2003), dai quali si ricava che l’italiano, a dispetto di una presenza fortemente minoritaria, può comunque contare su quasi 2 miliardi di parole, di nuovo con stime calcolate per difetto e in crescita continua. Dal punto di vista dei puri dati quantitativi il web è di gran lunga vincente rispetto a qualunque corpus generale esistente. Resta però da valutare in che modo possa costituire una fonte di dati linguistici. Prima di tutto il web è estremamente importante come risorsa di materiali testuali per costruire corpora. I testi disponibili appartengono infatti a un ampio spettro di generi, domini ecc. dai quali è possibile attingere per creare corpora generali e specialistici, monolingui e mul47

TESTO E COMPUTER

TABELLA 1.3 Numero di parole sul web per lingue in alfabeto latino sulla base dell’indicizzazione di Altavista nel 2001

Lingua

Numero di parole sul web

Albanese Basco Irlandese Catalano Finlandese Italiano Spagnolo Francese Tedesco Inglese

10.332.000 55.340.000 88.283.000 203.592.000 326.379.000 1.845.026.000 2.658.631.000 3.836.874.000 7.035.850.000 76.598.718.000

Fonte: Kilgarriff, Grefenstette (2003).

tilingui. A questo scopo possono essere di ausilio “agenti” come web robots, spiders, crawlers e bots, nomi diversi con cui sono chiamati quei programmi che navigano sul web passando di sito in sito e che scaricano automaticamente sul computer le pagine di testo visitate. Grazie al web multilingue è anche possibile facilitare la raccolta di corpora paralleli o lo sviluppo di risorse testuali per le cosiddette “lingue minoritarie”, che sono comunque attestate sul web in maniera consistente (cfr. TAB. 1.3). Il web non è però solo una “miniera” di testi da selezionare per costruire corpora, ma può diventare anche una fonte diretta di dati linguistici. Recentemente si è infatti andato diffondendo un uso diverso del web, in cui il web stesso è il corpus su cui vengono effettuate le analisi computazionali. In che senso il web può essere considerato come un corpus? Senza dubbio il web non rientra nella deﬁnizione più restrittiva di corpus come campione rappresentativo. Se anche ci limitiamo alla porzione del web in italiano, essa non è rappresentativa di niente, se non di se stessa. Il web è anarchico e dinamico per eccellenza, con un elevato tasso di volatilità dei suoi testi. Sebbene sia immenso, molte varietà di una lingua non sono comunque rappresentate, come ad esempio il parlato. Inoltre, il mezzo elettronico ha determinato esso stesso la nascita di un particolare tipo di varietà, la lingua del web, fatta di un suo lessico e talvolta anche di particolari costruzioni sintattiche. In questo senso, dunque, come risorsa di riferimento per una lingua, la rappresentatività del web è inferiore a quella di qualunque corpus bilanciato esistente. Dall’altro lato, il web è comunque una collezione di testi da utilizzare come fonte di dati per le analisi 48

1.

I DATI DELLA LINGUA

linguistiche, e in questo senso la sua enorme estensione lo rende un terreno estremamente promettente per le osservazioni linguistiche. I tipi di dati linguistici che possiamo estrarre dal web sono molteplici. Ad esempio, il web ci può fornire attestazioni di errori ortograﬁci o varianti rare. Se su Google cerchiamo la stringa daccordo otteniamo in risposta circa 48.000 pagine che la contengono, a fronte di più di 330.000 che il motore di ricerca restituisce se cerchiamo d’accordo. Allo stesso modo, cercando coscienza, Google restituisce più di 320.000 pagine, a fronte delle “appena” 6.000 che otteniamo cercando coscenza. Questo tipo di dati, che è difﬁcilmente attestato nei corpora tradizionali, può essere estremamente utile anche a ﬁni applicativi, ad esempio per migliorare un programma di correzione ortograﬁca. I corpora, in particolare quelli generali, sono usati come risorse di riferimento per lo sviluppo di dizionari o lessici. Anche in questo ambito il web può essere utilizzato come fonte di dati linguistici. Il dinamismo del linguaggio nel web permette ad esempio di ricavare informazioni interessanti su neologismi o nuovi sensi delle parole: una ricerca su Google riporta più di 7.000 pagine che contengono l’inﬁnito del verbo messaggiare, un neologismo del linguaggio giovanile che si riferisce alla pratica di inviare SMS. A fronte di questi usi più semplici, è possibile impiegare il web anche per estrarre tipi di informazioni linguistiche molto più complesse, attraverso procedure di ricerca non dissimili da quelle disponibili per estrarre i dati dai corpora tradizionali (cfr. PAR. 7.2.1). Lo sviluppo di nuove metodologie di esplorazione del web permetterà così di sfruttare in maniera sempre più soﬁsticata la ricchezza e la vivacità di questa “miniera” testuale. Le dimensioni gigantesche del web possono essere utilizzate in particolare per alleviare il problema della rarità dei dati linguistici (data sparseness). Sebbene paradossalmente anche nel web ci siano espressioni linguistiche rare, è vero però che per molti tipi di strutture (semplici parole, ma anche conﬁgurazioni più complesse) è possibile ottenere quantità sufﬁcientemente alte di attestazioni, almeno quelle necessarie per rendere più afﬁdabili e più generali i nostri modelli statistici (cfr. CAP. 6). È per questa ragione che sempre più di frequente il web è utilizzato come corpus di addestramento per l’applicazione di metodi di analisi statistica. Chiaramente, uno dei problemi da affrontare è la quantità ingente di “rumore”, ovvero di informazione non rilevante, che l’utilizzo del web inevitabilmente comporta e che quindi deve essere ﬁltrato per ottenere dati afﬁdabili. L’uso del web come corpus è di fatto solo agli albori e solleva interrogativi importanti. Non è ancora possibile affermare se e in che misura i nuovi ordini di grandezza dei dati disponibili sul web sa49

TESTO E COMPUTER

ranno in grado di portare un effettivo contributo di innovazione negli studi computazionali sul linguaggio. Ci si può comunque chiedere se l’espansione del web e lo sviluppo di metodi e strumenti per la sua esplorazione renderanno obsoleta la nozione più standard di corpus. Si può immaginare che il web non sostituirà i corpora tradizionali, ma piuttosto li afﬁancherà come una nuova e diversa fonte di informazione linguistica. Per molti aspetti essi sono infatti complementari: sterminata e anarchica l’una, più limitati ma frutto di rigorosi metodi di selezione gli altri. Saranno dunque di fatto le nostre esigenze di ricerca a doverci indicare di volta in volta se afﬁdarci ai dati selezionati estratti da corpora o a quelli molto più numerosi, ma inevitabilmente anche più “rumorosi” del web. 1.5 Considerazioni conclusive I corpora offrono al linguista computazionale l’opportunità di sviluppare modelli e applicazioni sulla base di dati linguistici “ecologici” direttamente estratti dal loro “habitat” naturale, il testo. Se consideriamo un corpus alla stregua di un’osservazione naturalistica, i parametri che determinano la sua conformazione sono la quantità e la qualità dei prodotti della lingua che esso registra. Queste due dimensioni incidono fortemente sul modo in cui i dati ricavati da un corpus possono essere proiettati in un modello descrittivo ed esplicativo delle strutture e dinamiche di una lingua o del linguaggio nel suo complesso. In alcuni casi la necessità di accedere a quantità ingenti di dati linguistici può far passare in secondo piano il ruolo dei criteri di selezione dei testi: anche il web, con la sua struttura multiforme, può così diventare un’utile fonte di evidenza linguistica. Dall’altro lato, è importante che la valutazione del grado di rappresentatività dei dati che utilizziamo agisca sempre come un orizzonte di riferimento nelle nostre analisi. Adottare criteri precisi ed espliciti di selezione dei testi può dunque agire come un meccanismo di controllo qualitativo dei dati raccolti, pur nella consapevolezza che un corpus è comunque ancorato a una particolare prospettiva sulla lingua, scelta con l’obiettivo di ottenere un punto di osservazione ottimale su di essa. Il linguista computazionale deve dunque sempre valutare in che misura i risultati di un’analisi o esperimento possano dipendere dalla scelta e dalla natura dei dati a disposizione, come condizione essenziale per garantire una corretta generalizzazione dei modelli teorici che su di essi vengono elaborati. 50

1.

I DATI DELLA LINGUA

Per saperne di più BIBER D.

(1993), Using Register-Diversiﬁed Corpora for General Language Studies, in “Computational Linguistics”, n. 19 (2), pp. 219-41. ID. (1998), Corpus Linguistics. Investigating Language Structure and Use, Cambridge University Press, Cambridge. MANNING C. D., SCHÜTZE H. (1999), Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge (MA). a MCENERY T. E., WILSON A. (2001), Corpus Linguistics, 2 ed., Edinburgh University Press, Edinburgh. SINCLAIR J. (1991), Corpus, Concordance, Collocation, Oxford University Press, Oxford. THOMPSON H. (2000), Corpus Creation for Data-Intensive Linguistics, in R. Dale, H. Moisl, H. Somers (eds.), Handbook of Natural Language Processing, Marcel Dekker, New York, pp. 507-23.

Siti web Language Data Consortium – LDC – http://www.ldc.upenn.edu/ Evaluations and Language Resources Distribution Agency – ELDA – http:// www.elda.org European Language Resources Association – ELRA – http://www.elra.info International Computer Archive of Modern and Medieval English – ICAME – http://helmer.aksis.uib.no/icame.html David Lee’s Bookmarks for Corpus-based Linguists – http://devoted.to/corpora British National Corpus – http://www.natcorp.ox.ac.uk/ American National Corpus – http://americannationalcorpus.org/ Childes – http://childes.psy.cmu.edu/ Coris – http://corpus.cilta.unibo.it:8080/coris_ita.html Corpus La Repubblica – http://sslmit.unibo.it/repubblica/ Parole – http://www.ilc.cnr.it/parole/parole.html Clips – http://www.cirass.unina.it C-Oral-Rom – http://lablita.dit.uniﬁ.it/coralrom/ ItalNet – http://ovisun198.ovi.cnr.it/italnet/ Bank of English – http://www.collinswordbanks.co.uk/

51

2 Il testo e la sua codiﬁca digitale

Come abbiamo visto nel capitolo precedente, il corpus, in quanto collezione di testi digitali, rappresenta la principale fonte di dati per la LC. In questo capitolo affronteremo i problemi legati alla rappresentazione digitale, o codifica, del testo. Useremo qui il termine testo in senso esteso, per riferirci a qualsiasi collezione di prodotti linguistici, siano essi rappresentati da un singolo spezzone coerente o da un insieme di testi differenti, selezionati e strutturati sulla base di specifici criteri di composizione o raccolti in modo opportunistico e via dicendo. Quale che sia la sua lunghezza o il suo argomento, un testo è una struttura complessa, che contiene informazioni di tipo diverso, articolate su più livelli: la sequenza di caratteri che si combinano a formare parole, le quali entrano a far parte, a loro volta, di una rete di relazioni e strutture linguistiche astratte e si raggruppano in unità testuali con funzioni speciﬁche, come titoli, capitoli e paragraﬁ. La rapidità e l’apparente assenza di sforzo con le quali siamo in grado di accedere ai molteplici livelli della struttura testuale per estrarne informazioni non diminuiscono la complessità di questa operazione e devono anzi farci riﬂettere sul bagaglio di conoscenze astratte e competenze speciﬁche che essa richiede. Un computer non possiede queste conoscenze ed è in grado di vedere e manipolare solo sequenze di codici binari. In questo capitolo cercheremo di spiegare come sia possibile predisporre un testo perché un computer possa avventurarsi al suo interno e coglierne i tipi di informazione che sono al cuore dell’indagine linguistica. Come vedremo, la codiﬁca digitale del testo corrisponde a questo lavoro delicato di preparazione. 2.1 La codiﬁca digitale del testo: il problema I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1 (detti bit dall’inglese BInary digiT, “cifra binaria”), aggregati in sequenze di 8 cifre (byte). I testi – come anche 53

TESTO E COMPUTER

2.1 Frammento testuale da Le avventure di Pinocchio FIGUR A

i suoni, le immagini, i dati numerici ecc. – per essere elaborati o trasmessi da un programma devono dunque avere una rappresentazione binaria. Ciò equivale a dire che ciascun carattere alfanumerico che compone il testo deve essere rappresentato nei termini di un codice binario composto da una sequenza di bit. Lo stesso vale per i segni di interpunzione e alcuni caratteri di controllo come l’accapo o il tabulatore. Tuttavia, la codiﬁca del testo non si esaurisce nella semplice rappresentazione binaria della sequenza dei caratteri che lo compongono. Un testo, infatti, è molto di più di una semplice sequenza di caratteri. Accanto a questa dimensione lineare, ne esiste un’altra lungo la quale si sviluppano i livelli di organizzazione del testo e la sua 54

2.

IL TESTO E LA SUA CODIFICA DIGITALE

struttura linguistica. Ne consegue che con una codiﬁca che si limiti ad associare a ogni carattere del testo una rappresentazione binaria, vi sarà inevitabilmente perdita di informazione, come illustrato dal semplice esempio che segue. Si considerino il frammento testuale della FIG. 2.1, estratto da Le avventure di Pinocchio di Carlo Collodi 1, e quanto otteniamo se consideriamo semplicemente la sequenza dei caratteri che lo compongono, come riportato nell’esempio 2.1. ESEMPIO 2.1 Il testo come sequenza di caratteri

Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C’era una volta... – Un re! – diranno subito i miei piccoli lettori. – No, ragazzi, avete sbagliato. C’era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d’inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. [...]

Dal loro confronto si ricava che, per quanto i due testi siano del tutto equivalenti dal punto di vista dei caratteri, il testo dell’esempio 2.1 contiene soltanto una parte dell’informazione convogliata nella FIG. 2.1. Qui, ad esempio, le diciture Le avventure di Pinocchio e Capitolo I rappresentano un’informazione meta-testuale riguardante, rispettivamente, il titolo dell’opera, ripetuto nell’intestazione di ogni pagina, e la suddivisione in capitoli. La rimanente parte del frammento rappresenta il testo vero e proprio. Tuttavia, l’esempio 2.1 non distingue il titolo Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino dal corpo del capitolo. Infatti, i caratteri in sequenza sono rappresentati tutti sullo stesso piano e il testo è soltanto una replica molto parziale dell’originale. 1. C. Collodi (1983), Le avventure di Pinocchio, Arnoldo Mondadori Editore S.p.A., Milano, I edizione e-book Reader, ottobre 2000, scaricabile gratuitamente dall’indirizzo http://ebook.mondadori.com/ebook/gratuiti.jsp.

55

TESTO E COMPUTER

Questa perdita di informazione si è veriﬁcata perché una parte dell’informazione del testo non è convogliata dalla sequenza dei caratteri che lo compongono, ma è piuttosto implicitamente veicolata attraverso la sua formattazione. Questo è il caso, ad esempio, dell’informazione relativa agli aspetti macrostrutturali (ovvero la suddivisione logica in sezioni, capitoli, paragraﬁ ecc.) e alle coordinate metatestuali (ad esempio il nome dell’autore, il titolo ecc.). Per rendere esplicito questo tipo di informazioni è necessaria una codiﬁca che non opera più al livello dei singoli caratteri, ma si basa sull’identiﬁcazione di intere porzioni di testo e su indicazioni esplicite della loro funzione. Esiste, inﬁne, un ulteriore livello di informazione testuale, fondamentale dal punto di vista del linguista, che né il frammento di FIG. 2.1, né a maggior ragione l’esempio 2.1 rappresentano, nemmeno in modo indiretto: la struttura linguistica del testo. È questa, infatti, la chiave primaria di accesso al suo contenuto. Ad esempio, per interpretare il signiﬁcato della frase Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino è necessario ricostruire le strutture e le relazioni linguistiche che coinvolgono le parole in questione. In primo luogo, condizione necessaria per individuare cosa Maestro Ciliegia ha rinvenuto è identiﬁcare la sequenza un pezzo di legno come un sintagma nominale complemento oggetto di trovò. In seconda battuta, ricollegare il pronome relativo che al suo antecedente permette di riconoscere che ciò che piangeva e rideva era proprio il pezzo di legno trovato da Maestro Ciliegia. Strutture linguistiche come queste sono nascoste nel testo (per esempio, una frase non evidenzia l’inizio e la ﬁne dei suoi costituenti sintattici), ma, come vedremo più avanti (cfr. CAP. 8), devono essere codiﬁcate in modo esplicito se vogliamo renderle accessibili al computer e disponibili per ulteriori ricerche ed elaborazioni. La codiﬁca della struttura linguistica sottostante al testo pone dunque lo stesso tipo di problemi, sebbene con un ordine di complessità maggiore, della rappresentazione della sua organizzazione in capitoli, paragraﬁ, capoversi e periodi. 2.2 Livelli di codiﬁca L’esempio del paragrafo precedente mostra come la rappresentazione binaria di un testo non sia riducibile alla semplice codiﬁca dei caratteri che lo compongono, ma si conﬁguri piuttosto come un’operazione complessa, logicamente articolata su due livelli: 56

2.

IL TESTO E LA SUA CODIFICA DIGITALE

1. una codiﬁca di basso livello, o codiﬁca di livello zero, che riguarda la rappresentazione binaria della sequenza ordinata dei caratteri del testo; 2. una codiﬁca di alto livello, che arricchisce il testo codiﬁcato al livello zero con informazione relativa alla struttura linguistico-testuale e, più in generale, con informazione interpretativa di un qualche tipo; questo tipo di codiﬁca a sua volta richiede: a) la selezione degli aspetti strutturali e funzionali del testo che si considerano rilevanti e che si intende rendere accessibili al calcolatore attraverso una rappresentazione esplicita e astratta; b) la scelta di un linguaggio di rappresentazione, leggibile e manipolabile dal computer, che permetta di codiﬁcare informazioni aggiuntive rispetto a quelle della codiﬁca di livello zero. La codiﬁca di livello zero rende dunque disponibile l’intera sequenza di caratteri di un testo, ma non consente di rappresentare l’articolazione del testo in sotto-sequenze funzionalmente distinte e variamente correlate tra loro. È la codiﬁca di alto livello che permette di colmare questa lacuna rendendo esplicita l’organizzazione del testo o qualsiasi interpretazione, anche di tipo linguistico, si voglia associare esplicitamente a quest’ultimo. Le sezioni che seguono illustrano più in dettaglio questi due livelli di codiﬁca. 2.3 La codiﬁca di livello zero La codiﬁca dei caratteri, o codiﬁca di livello zero, consiste nell’associare a ciascun carattere del testo un codice numerico, cioè un numero (binario) che lo identiﬁca univocamente. Ai ﬁni della codiﬁca binaria, un carattere è un’entità astratta, distinta dalle sue possibili rappresentazioni graﬁche (o gliﬁ), ovvero dai modi in cui esso può apparire secondo forma, dimensione ecc. Ad esempio, la “p” in grassetto (p) e la “p” corsiva (p) sono considerati lo stesso carattere della “p” normale (p), anche se si differenziano tutte sul piano graﬁco. In maniera simmetrica, due simboli possono essere graﬁcamente indistinguibili eppure corrispondere a caratteri diversi: ad esempio, le lettere degli alfabeti latino, greco e cirillico maiuscoli sono graﬁcamente identiche, ma costituiscono nondimeno caratteri diversi dal punto di vista della codiﬁca digitale di un testo, perché appartengono ad alfabeti differenti. Un set di caratteri (o codice) è una tabella di associazioni biunivoche (1 a 1) tra gli elementi di un repertorio di caratteri e codici numerici (detti punti di codice). Nelle tabelle di caratteri, i codici sono 57

TESTO E COMPUTER

tipicamente riportati in base decimale, ottale o esadecimale 2. Ciascun punto di codice è rappresentato in forma binaria come una sequenza di bit. La modalità di rappresentazione binaria dei punti di codice viene chiamata codiﬁca di carattere (character encoding). Il numero dei caratteri codiﬁcabili dipende dai punti di codice disponibili, e questi dipendono a loro volta dal numero di cifre binarie usate per la loro codiﬁca. Avendo a disposizione solo 2 cifre binarie sarebbe possibile rappresentare solo 4 punti di codice (ad esempio 00, 10, 01, 11), utilizzabili per codiﬁcare 4 caratteri diversi. Generalizzando, con n cifre binarie è possibile codiﬁcare 2n caratteri differenti. I set di caratteri sono associazioni convenzionali tra caratteri e codici numerici. La necessità di produrre e scambiare testi in formato digitale ha portato alla deﬁnizione di set di caratteri standard. Sfortunatamente non esiste ancora un’unica convenzione condivisa da tutti i programmi per la codiﬁca dei caratteri (a parte ASCII, cfr. infra). La tendenza odierna è comunque quella di procedere verso una sempre maggiore standardizzazione e internazionalizzazione della codiﬁca binaria dei testi. L’avvento del web ha portato alla necessità di fornire una rappresentazione digitale per un numero sempre maggiore di sistemi graﬁci, e dunque di aumentare la dimensione dei repertori di caratteri codiﬁcati, così come di garantire la completa interscambiabilità dei testi digitali. 2.3.1. Il set di caratteri

ASCII

Il più noto e più diffuso set di caratteri è ASCII (American Standard Code for Information Interchange), che rappresenta il primo codice standard per la rappresentazione binaria dei caratteri, e costituisce il nucleo comune anche di tutti i set di caratteri più estesi. Nel codice ASCII ciascun carattere è codiﬁcato con un byte, ma di questo sono

2. Si tratta di diversi sistemi di numerazione per la rappresentazione dei numeri interi. Sono tutti sistemi di natura posizionale (il valore di una cifra dipende da dove essa si colloca rispetto alle altre) e che differiscono al livello della base sottostante. Per esempio, nel sistema di numerazione decimale, detto anche sistema in base 10, si fa uso delle dieci cifre (da 0 a 9) per la rappresentazione dei valori numerici. Il sistema di numerazione ottale, ovvero in base 8, si avvale di otto cifre (da 0 a 7). La numerazione esadecimale, ovvero in base 16, funziona in modo analogo, con la differenza che si avvale di 16 cifre: le cifre numeriche da 0 a 9, più le prime 6 lettere dalla A alla F per i valori successivi (in pratica, la lettera A in posizione zero corrisponde al numero 10 e la lettera F al numero 15). Per dare un esempio concreto, la rappresentazione ottale del numero decimale 13 è, per esempio, 15 e quella esadecimale è D.

58

2.

IL TESTO E LA SUA CODIFICA DIGITALE

usate per la rappresentazione del codice numerico solo le prime 7 cifre (l’ottavo bit è usato come bit di “parità”, per veriﬁcare la corretta trasmissione del codice). Il set di caratteri ASCII è formato quindi da 128 ( = 27) caratteri. Nella tabella ASCII, 33 punti di codice (0-32 e 127, in notazione decimale) sono associati a caratteri di controllo (ad esempio i caratteri di accapo, tabulazione, escape, backspace ecc.) che non sono usati per rappresentare segni graﬁci. I restanti 95 punti di codice codiﬁcano le cifre da 0 a 9, i più comuni segni di punteggiatura e i caratteri alfabetici maiuscoli e minuscoli. La codiﬁca binaria della parola Pinocchio secondo il codice ASCII è la seguente: TABELLA 2.1 La codiﬁca ASCII della parola Pinocchio

Codice binario

Codice decimale

Carattere

01010000 01101001 01101110 01101111 01100011 01100011 01101000 01101001 01101111

80 105 110 111 99 99 104 105 111

P i n o c c h i o

L’insieme dei caratteri alfabetici rappresentato in ASCII è strettamente limitato alle lettere dell’alfabeto anglosassone, e mancano, ad esempio, i caratteri con diacritici come accenti, dieresi ecc. Per ovviare a questa limitazione, il codice ASCII è stato esteso per poter codiﬁcare anche i caratteri necessari all’italiano, al tedesco, al francese ecc. Sono nate dunque varie estensioni di ASCII caratterizzate dall’uso di 8 bit per la codiﬁca, passando così da 128 a 256 ( = 28) punti di codice disponibili. Sebbene queste estensioni coincidano tutte nei punti di codice da 0 a 127 (cui vengono assegnati gli stessi caratteri del set ASCII), differiscono però per il modo in cui sono allocati i punti di codice dal 128 al 255, con la conseguenza che, a seconda del sistema operativo, talvolta i caratteri sono rappresentati in maniera diversa. L’unica estensione standard di ASCII è ISO-Latin-1 (o ISO-8859-1), che costituisce la forma ormai più diffusa per la codiﬁca dei sistemi graﬁci delle lingue dell’Europa occidentale (italiano, francese, tedesco, lingue scandinave, spagnolo, islandese ecc.). ISO-Latin-1 è compatibile con ASCII in quanto assegna i primi 128 punti di codice agli stessi caratteri del codice ASCII. Per quanto riguarda la nuova parte, i punti 59

TESTO E COMPUTER

di codice da 128 a 159 sono di nuovo caratteri di controllo non stampabili, mentre i restanti codici sono utilizzati per rappresentare caratteri accentati, con dieresi ecc. ISO-Latin-1 è in realtà uno dei membri della “famiglia” ISO8859, che rappresenta il primo tentativo di estendere il processo di standardizzazione delle codifiche di caratteri al di là delle lingue dell’Europa occidentale. ISO-8859 è una famiglia di set di caratteri codificati con un byte; ogni set è equivalente a ASCII per i primi 128 punti di codice, mentre i punti da 160 a 255 sono usati per codificare caratteri di sistemi grafici diversi. Ad esempio, ISO-8859-2 (Latin-2) codifica i caratteri delle lingue slave in alfabeto latino (polacco, ceco ecc.), ISO-8859-5 codifica l’alfabeto cirillico, ISO-8859-6 l’alfabeto arabo, ISO-8859-7 l’alfabeto greco moderno e ISO-8859-8 l’alfabeto ebraico. Oltre alla copertura ancora ristretta (ad esempio i sistemi graﬁci delle lingue orientali non sono rappresentati), lo standard ISO-8859 ha un limite fondamentale, intrinseco alla strategia di codiﬁca adottata, che consiste nel fatto che i set di caratteri della famiglia ISO-8859 sono tutti mutuamente esclusivi. Infatti, uno stesso punto di codice tra il 160 e il 255 corrisponde a caratteri diversi a seconda del set ISO-8859 adottato. Ad esempio, il punto di codice 232 corrisponde al carattere è in ISO-8859-1, al carattere Ì in ISO-8859-5 (cirillico) e al carattere T in ISO-8859-7 (greco moderno), con la conseguenza che un programma interpreterà questo codice come l’uno o l’altro carattere in maniera esclusiva a seconda del set speciﬁcato. La codiﬁca ISO8859 non permette quindi l’uso nello stesso testo di caratteri di sistemi graﬁci differenti, ad esempio cirillici e arabi, un problema ancora più rilevante nell’era del web in cui i programmi si trovano sempre più spesso a dover operare simultaneamente con documenti in più lingue. 2.3.2. Il set di caratteri Unicode La soluzione ai limiti di ISO-8859 è fornita da Unicode, il più recente standard per la codiﬁca dei caratteri. Unicode è il set di caratteri universale, che permette di codiﬁcare testi contenenti caratteri praticamente di ogni sistema di scrittura conosciuta, antica e moderna. La versione 4.0 dello standard Unicode fornisce la codiﬁca di 96.382 caratteri, in cui trovano posto oltre all’alfabeto latino, al cirillico, al greco antico e moderno e all’arabo, anche il devanagari indiano, gli ideogrammi Han cinesi e giapponesi, il tibetano, gli Hiragana e Katakana, per arrivare ﬁno ai caratteri dell’alfabeto fonetico internazionale (o 60

2.

IL TESTO E LA SUA CODIFICA DIGITALE

IPA), i caratteri gotici, gli ideogrammi della lineare B minoica, e i caratteri cuneiformi dell’ugaritico. La differenza fondamentale di Unicode rispetto alle estensioni ASCII come ISO-8859 è che non esiste nessuna mutua esclusività tra caratteri di alfabeti diversi. Lo standard assegna a ogni carattere un punto di codice distinto, rappresentato nelle tabelle di Unicode da un numero in base esadecimale. I caratteri è, T e Ì corrispondono quindi a punti di codice diversi, rispettivamente ai numeri esadecimali E8, 3B8 e 448 (corrispondenti ai decimali 232, 952 e 1096). Questo permette l’uso simultaneo nello stesso testo di caratteri appartenenti a sistemi graﬁci differenti, potendo mescolare testo in italiano, devanagari, cirillico, gotico ecc. I primi 256 punti di codice Unicode rappresentano gli stessi caratteri di ISO-Latin-1. In generale, per l’assegnazione dei punti di codice, Unicode adotta un principio di composizione dinamica dei caratteri, grazie al quale caratteri complessi (ad esempio cinesi, caratteri latini con segni diacritici ecc.) sono rappresentati come sequenze di caratteri elementari. Ad esempio, il carattere sˇ è codiﬁcato come la sequenza formata dal carattere base s seguito dal segno ˇ . Per i caratteri più comuni, alla codiﬁca composizionale Unicode accompagna anche una codiﬁca “statica”; in questo caso, il carattere complesso è codiﬁcato come un’unità predeﬁnita a cui è attribuito un punto di codice singolo. Il carattere sˇ può dunque essere codiﬁcato o come carattere unitario con il codice esadecimale 161 o come combinazione di caratteri attraverso la sequenza di codici esadecimali 73 (s) + 30C ( ˇ ). Lo standard Unicode speciﬁca varie modalità di codiﬁca (ad esempio UTF-8, UTF-16 e UTF-32 ecc.), che utilizzano più di 1 byte per la rappresentazione dei caratteri. Tutte le codiﬁche condividono la stessa assegnazione di punti di codice ai caratteri, mentre ciò che muta è il modo in cui tale codice è “tradotto” in sequenze binarie. La codiﬁca più comune è UTF-8, una codiﬁca a lunghezza variabile da 1 a 4 byte dei punti di codice Unicode. Il vantaggio di UTF-8 è la sua totale compatibilità con ASCII. Infatti, i caratteri da 0 a 127 vengono codiﬁcati in UTF-8 utilizzando 1 byte ciascuno, come in ASCII. Così, il byte 01101001, che codiﬁca la i in ASCII, codiﬁca lo stesso carattere anche in UTF-8. Di conseguenza, ogni ﬁle scritto in ASCII è anche accettabile in UTF-8. I caratteri da 128 a 2047, che corrispondono alla maggior parte dei caratteri non ideograﬁci, sono invece codiﬁcati utilizzando 2 byte. I caratteri ideograﬁci (cinesi, giapponesi ecc.) sono codiﬁcati utilizzando 3 byte, mentre per repertori ulteriori sono usati 4 byte. Da notare che la compatibilità di UTF-8 con ASCII non si estende anche ai caratteri ISO-Latin-1 da 128 a 255. Infatti sebbene i

61

TESTO E COMPUTER

punti di codice dei due set rappresentino gli stessi caratteri, il modo in cui sono codiﬁcati in binario è diverso (1 byte in ISO-Latin-1 e 2 byte in UTF-8). Questo implica che un testo codiﬁcato in ISO-Latin-1 e contenente caratteri accentati (che appunto corrispondono a punti di codice nell’intervallo 128-255) non è compatibile con la codiﬁca Unicode (cfr. Scheda on line 2.1). I programmi di ultima generazione per il trattamento del testo ormai supportano lo standard Unicode, permettendo di estendere agevolmente il trattamento dei testi digitali anche a sistemi graﬁci non latini. Le tastiere dei computer a cui siamo abituati consentono però di inserire direttamente solo un insieme limitato di caratteri (generalmente ristretto all’alfabeto nazionale). Come è possibile inserire nel testo altri caratteri? I sistemi operativi e i programmi offrono generalmente l’opportunità di inserire caratteri non presenti sulla tastiera attraverso l’uso del codice numerico corrispondente, accompagnato da una particolare combinazione di tasti (ad esempio ALT) 3. 2.4 La codiﬁca di alto livello: perché, cosa, come Al termine della codiﬁca di livello zero, il testo si presenta al computer nei termini di un ﬂusso ininterrotto di codici binari, come esempliﬁcato di seguito: N →

o

e

r

a

u

n

l

e

g

n

o

4E 6F 6E 20 65 72 61 20 75 6E 20 6C 65 67 6E 6F

d →

n

i

l

u

s

s

o

,

m

a

u

n

20 64 69 20 6C 75 73 73 6F 2C 20 6D 61 20 75 6E

dove, nelle righe contrassegnate dalla freccia, è riportata la rappresentazione esadecimale dei punti di codice corrispondenti a tutti i caratteri del testo (inclusi segni di interpunzione e spazi bianchi).

3. La codiﬁca di caratteri non ASCII standard, ad esempio caratteri accentati, con linguaggi di marcatura (XML) è discussa nei PARR. 3.2.3 e 3.3.3.

62

2.

IL TESTO E LA SUA CODIFICA DIGITALE

Un testo così codiﬁcato è assimilabile a un manoscritto in scriptio continua, l’uso antico di rappresentare i testi, sia su pietra che su papiro, senza né staccare le parole né introdurre dei segni di punteggiatura, né ricorrere all’accapo. Un testo in scriptio continua si presenta all’occhio umano come schiera compatta di caratteri, all’interno della quale è alquanto difﬁcile rintracciare un sentiero di lettura. In tali condizioni, la lettura diventa qualcosa di ben più impegnativo di quanto si sia soliti ritenere: è cominciare subito a interpretare; leggere è già informare nel senso etimologico del termine, ovvero “dare forma” a dei segni graﬁci. Dovrebbe essere chiara a questo punto l’analogia spesso rilevata tra la trascrizione di un testo a partire da un manoscritto in scriptio continua e la codiﬁca digitale di alto livello. In entrambi i casi, si tratta di rendere esplicito ciò che è congetturale o implicito, con lo scopo di guidare il lettore nell’interpretazione del testo. Il lettore nel nostro caso è il computer e il compito della codiﬁca di alto livello è quello di “dare forma” alla sequenza dei caratteri del testo rendendo esplicita quella parte di informazione che è veicolata attraverso le convenzioni tipograﬁche, testuali e linguistiche. Si va da informazioni sull’organizzazione del testo (ad esempio parti, titoli, paragraﬁ) alla conoscenza linguistica necessaria per la sua comprensione (per esempio la categoria grammaticale di ciascuna parola, o i costituenti sintattici in cui si articolano le frasi del testo). La codiﬁca di alto livello rende appunto esplicita l’informazione relativa ad aspetti speciﬁci di un testo, la sua struttura linguistico-testuale così come l’informazione interpretativa da afﬁancare a porzioni di esso, rappresentandola in una forma che il computer possa elaborare in modo automatico. Gli interrogativi che emergono in relazione a questo livello di codiﬁca sono molteplici. Riguardano innanzitutto le motivazioni sottostanti a una codiﬁca di questo tipo, o perché codiﬁcare. Abbiamo visto che la codiﬁca di alto livello è necessaria per poter rappresentare informazione che altrimenti, con la sola codiﬁca dei caratteri, andrebbe persa. Ma questo è un modo riduttivo di caratterizzare il suo ruolo nella rappresentazione binaria del testo. In realtà, la codiﬁca di alto livello gioca un ruolo cruciale nella trasformazione del dato testuale grezzo in fonte di informazione linguistica (cfr. PAR. 2.4.1). Un altro interrogativo importante concerne i contenuti linguisticotestuali di cui si intende fornire una rappresentazione esplicita, o cosa codiﬁcare (cfr. PAR. 2.4.2). Inﬁne, l’ultimo interrogativo riguarda le modalità di rappresentazione digitale dei contenuti selezionati, o come codiﬁcare (cfr. PAR. 2.4.3). 63

TESTO E COMPUTER

2.4.1. Perché codiﬁcare La codiﬁca di alto livello trasforma il dato testuale in fonte esplicita di informazione linguistica. Cosa signiﬁca essere fonte di informazione linguistica? Quando un testo può essere qualiﬁcato come tale? L’opposizione dato vs. informazione può esserci di aiuto per fornire una risposta a queste domande. I dati non hanno come tali un signiﬁcato intrinseco, a meno di non inserirli in uno schema o struttura che li organizza e li trasforma in informazione. Facciamo un semplice esempio per chiarire questa distinzione. Il numero 56.100 costituisce un dato ma, da solo, slegato da un contesto speciﬁco, non è certo un’informazione. Diventa informazione nel momento in cui viene inserito in un contesto interpretativo: ad esempio, quando viene interpretato come il codice di avviamento postale della città di Pisa, oppure come il numero di conto bancario di un certo cliente. Lo stesso dato può dunque fornire informazioni diverse. Un dato si carica di signiﬁcato e diventa informazione nel momento in cui, inquadrandosi in uno schema di rapporti, viene legato a un contesto. Ne consegue che l’informazione in un certo dominio è costituita da dati strutturati e organizzati in maniera esplicita: ciò può essere tradotto nella banale ma efﬁcace equazione informazione = dati + struttura. Il valore di una base di dati si misura in rapporto alle informazioni che può fornire, non solo ai dati che contiene. Ciò equivale a dire che nella costruzione di una base di dati un ruolo cruciale è giocato dalla strutturazione dei dati che la compongono: integrare i dati all’interno di una base di dati non signiﬁca quindi solo riunirli, ma soprattutto identiﬁcare e rendere esplicite quelle connessioni e quei rapporti che stabiliscono il loro valore informativo. Questa distinzione tra dato e informazione – che nasce in ambito informatico – si applica in modo naturale anche alla rappresentazione digitale del testo. Un testo come ﬂusso di caratteri, parole e frasi è una fonte di dati linguistici (cfr. CAP. 1). Il testo è, però, anche un’entità altamente strutturata, all’interno della quale i dati linguistici sono correlati secondo piani di organizzazione multipli. Questi livelli di organizzazione comprendono: a) la struttura del testo, con la sua articolazione in sezioni, capitoli, titoli ecc.; b) la struttura del contesto in cui il testo è stato prodotto, ad esempio l’autore, la data di produzione, la ﬁnalità del testo ecc.; c) la sua struttura linguistica, ad esempio le informazioni morfologiche, sintattiche, semantiche ecc. (cfr. CAP. 8). Inoltre, quando i testi sono inseriti in un corpus, abbiamo un livello ulteriore di organizzazione dato dalla struttura e composizione del corpus, ovvero dalla sua articolazione in diverse tipologie di testi, di di64

2.

IL TESTO E LA SUA CODIFICA DIGITALE

verso argomento e così via (cfr. CAP. 1). Il testo, visto qui nella sua accezione estesa, diventa fonte di informazione linguistica nel momento in cui almeno alcuni di questi livelli di organizzazione e strutturazione vengono resi espliciti attraverso una codiﬁca di alto livello. In generale, il potenziale informativo di una codiﬁca di alto livello sarà tanto più alto quanto più numerosi sono i livelli di organizzazione testuale e linguistica codiﬁcati esplicitamente. Ma il valore aggiunto non si limita alla quantità di informazioni codiﬁcate. Il fatto che queste informazioni sono interconnesse attraverso livelli espliciti di rappresentazione rende immediato il loro reperimento con l’aiuto del calcolatore. Da questo punto di vista, l’accessibilità dell’informazione linguistica codiﬁcata e la possibilità di elaborarla automaticamente apre il campo a un processo virtuoso di esplorazione incrementale del testo, attraverso cui nuovi livelli di analisi si sviluppano a partire da un’analisi mirata dei livelli di codiﬁca preesistenti. Torneremo su questi aspetti nei CAPP. 7 e 8. 2.4.2. Cosa codiﬁcare Decidere quali tipi di informazione debbano essere selezionati e rappresentati esplicitamente all’interno di un testo rappresenta una precondizione fondamentale non solo per la sua codiﬁca di alto livello, ma anche per la stessa usabilità del testo codiﬁcato come fonte di informazione. Nella fase di deﬁnizione di cosa codiﬁcare possono interagire vincoli di diverso tipo, che vanno dagli speciﬁci interessi di ricerca che la codiﬁca intende promuovere, ai condizionamenti esterni, di tipo ﬁnanziario o temporale, sull’attività di codiﬁca stessa. È spesso difﬁcile contemperare esigenze così diverse. Le dimensioni di questo volume non ci consentono tuttavia di soffermarci sul problema. Ci limiteremo qui a offrire alcune indicazioni di massima. Il primo passo è individuare il livello di informazione che si intende codificare: se, ad esempio, si tratta di informazione relativa alla macrostruttura del testo, o alla sua struttura morfologica o a quella sintattica ecc. Una volta individuato il livello, si può passare a definire il repertorio di tratti giudicati rilevanti. Supponiamo, ad esempio, di voler codificare le parole di un testo al livello morfo-sintattico (cfr. PAR. 8.1.1). Questo livello include informazioni relative alla categoria grammaticale della parola (se cioè una certa forma lessicale del testo è un nome, un verbo, un aggettivo o quant’altro), così come ad alcuni attributi morfosintattici, quali il genere, la persona, il numero, il tempo e così via. Definito questo insieme di attributi, bisogna caratterizzare i valori che possono essere associati a ciascun attributo (ad esempio, maschile/fem65

TESTO E COMPUTER

minile/neutro per il genere). A tutto ciò deve accompagnarsi un’accurata definizione dei criteri di assegnazione di attributi e valori alle singole parole del testo durante il processo di codifica. L’insieme di queste decisioni deﬁnisce quello che in letteratura si chiama uno schema di codiﬁca. Ogni schema di codiﬁca può dunque essere descritto come comprendente: – un repertorio di categorie per la codiﬁca, corrispondenti alla tipologia dei tratti da rappresentare nel testo, generalmente espresso nella forma di attributi e dei loro possibili valori; – la deﬁnizione delle regole di compatibilità tra categorie: ad esempio l’aggettivo non possiede un attributo inerente di persona, o un nome quello di tempo; – la speciﬁca accurata dei criteri di applicazione al testo delle categorie selezionate. Nel caso in cui lo schema di codiﬁca riguardi informazione di tipo linguistico si parla più speciﬁcamente di schema di annotazione linguistica (cfr. CAP. 8). La ricchezza e la varietà di attributi e valori deﬁniti all’interno di uno schema di annotazione possono dipendere da vari fattori: la teoria linguistica di riferimento, la ﬁnezza delle distinzioni linguistiche che le categorie esprimono, il tempo e le risorse umane dedicati alla codiﬁca (soprattutto se questa è condotta in modo non automatico), la possibilità di usare questa informazione per ulteriori livelli di analisi e così via. Non esistono ricette semplici per sviluppare uno schema di annotazione ottimale. Ci limitiamo qui a sottolineare che il successo e la diffusione di uno schema dipendono in buona misura dalla coerenza interna della codiﬁca e dalla trasparenza dei suoi criteri di applicazione (anche e soprattutto per un utente esterno). Chiaramente, dal momento che una codiﬁca di alto livello non è mai ﬁne a se stessa, l’ultima parola spetta all’utilità dell’informazione codiﬁcata, sia rispetto agli obiettivi di ricerca per i quali era stata introdotta, che rispetto a ulteriori livelli di analisi e di codiﬁca. Vale la pena di ricordare, inﬁne, che uno schema di annotazione deﬁnisce il contenuto linguistico dell’annotazione, non il modo in cui l’annotazione è codiﬁcata nel testo. Non è difﬁcile immaginare che lo stesso schema possa tradursi in modi diversi di codiﬁcarlo sul testo. 2.4.3. Come codiﬁcare Passiamo ora a vedere quali siano le modalità di rappresentazione dei contenuti selezionati per la codiﬁca di alto livello. Esistono diversi formati digitali in cui può presentarsi un testo, ma non tutti rappre66

2.

IL TESTO E LA SUA CODIFICA DIGITALE

sentano una risposta adeguata alle ﬁnalità di ricerca dello studioso, nel senso che non tutti predispongono il testo alle analisi ed elaborazioni a cui dovrà essere sottoposto. Riepiloghiamo brevemente le caratteristiche principali dei diversi formati digitali del testo e rapportiamole alle necessità della codiﬁca di alto livello. Da un lato, abbiamo il formato solo testo (o plain text) che codiﬁca il contenuto testuale come pura sequenza di caratteri (cfr. Scheda on line 2.3). Esso costituisce il livello minimo di rappresentazione digitale di un testo e presenta l’innegabile vantaggio di poter essere gestito da programmi diversi indipendentemente dal sistema operativo. Questa caratteristica è deﬁnita tecnicamente portabilità. Tuttavia, esso non prevede l’uso di caratteri speciﬁcamente dedicati alla codiﬁca di aspetti di struttura macrotestuale (quali l’articolazione del testo in paragraﬁ, capitoli e simili), né alla codiﬁca della struttura linguistica. Si tratta quindi di un formato che al massimo della portabilità afﬁanca una minima capacità espressiva, in quanto non va al di là della pura codiﬁca dei caratteri che compongono il testo. A questo formato corrisponde la codiﬁca di livello zero. All’estremo opposto, si situano i formati come doc (il formato dei ﬁle di Microsoft Word) o pdf (il formato dei ﬁle di Acrobat Adobe) che presentano la peculiarità di strutturare un testo digitale in maniera estremamente fruibile per il lettore umano, con tutte le informazioni di formattazione utili alla sua composizione editoriale e alla sua visualizzazione. Le sequenze di bit di un ﬁle doc (o pdf) codiﬁcano i caratteri del testo secondo un certo set di caratteri, ma, a differenza del formato solo testo, qui il contenuto testuale è inframmezzato da istruzioni di formattazione 4. I vantaggi di questi formati per l’utente umano sono ovvi: presentano il testo in una forma più ricca e articolata del formato solo testo. Tuttavia, quando si vada a considerare l’uso del testo così codiﬁcato per elaborazioni computazionali, questi vantaggi si traducono in svantaggi. La caratteristica principale di tali formati è che sono “proprietari”, ovvero possono essere creati, letti e interpretati solo da uno speciﬁco programma (ad esempio un programma di editing del testo elettronico o Word Processor, oppure un

4. Se infatti proviamo ad aprire un ﬁle doc con un editore di testo (cfr. Scheda on line 2.3), quello che otteniamo sono strani simboli inframmezzati da sequenze di caratteri. Questo dipende dal fatto che il ﬁle contiene sequenze di bit che non corrispondono a caratteri, ma a istruzioni di formattazione, codiﬁcate secondo le convenzioni speciﬁche di un certo programma. L’editore di testo tenta invano di interpretare tali sequenze binarie come caratteri, ottenendo così un risultato incomprensibile e inutilizzabile.

67

TESTO E COMPUTER

programma di visualizzazione/presentazione del testo) 5. A una massima espressività del formato fa dunque riscontro una minima portabilità. Un secondo svantaggio riguarda la natura troppo “concreta” di una codiﬁca destinata a uno speciﬁco programma applicativo: la codiﬁca non avviene per categorie testuali astratte, ma per modalità di visualizzazione del testo, espresse attraverso istruzioni di formattazione e composizione tipograﬁca. Diventa presto difﬁcile risalire all’organizzazione astratta del testo a partire da queste istruzioni. Un’alternativa importante che concilia la necessità di rappresentare informazione strutturale astratta con la portabilità del testo è data dalla codiﬁca con linguaggi di mark-up, in italiano detti linguaggi di marcatura (cfr. Scheda on line 2.4), tra i quali vale la pena menzionare in questa sede SGML (Standard Generalized Mark-up Language) e, in particolare, XML (eXtensible Mark-up Language), sul quale ritorneremo in dettaglio nel CAP. 3. Dal punto di vista del formato, un testo codiﬁcato con un linguaggio di marcatura è ancora in formato solo testo. L’informazione strutturale è rappresentata attraverso l’aggiunta al testo di etichette (o tag) di marcatura 6, che si presentano come sequenze di caratteri visibili secondo una convenzione standard e sono intercalate nel testo secondo precise regole di combinazione. Tali etichette sono immesse dentro il ﬁle del testo per “marcare” i blocchi a cui viene assegnata una determinata interpretazione. Con i linguaggi di marcatura, in linea di principio, non vi è limite alla tipologia di informazioni codiﬁcabili: infatti la tipologia di etichette di marcatura può essere deﬁnita in funzione delle ﬁnalità della codiﬁca. Afﬁancando al requisito della portabilità del testo la possibilità di rappresentare informazione strutturale di vario tipo (non ultima quella linguistica) e di personalizzare la codiﬁca in relazione a speciﬁche necessità di ricerca, il formato solo testo, arricchito di etichette di

5. Con tecnologia “proprietaria” si intende una tecnologia posseduta in esclusiva da un soggetto (ad esempio una ditta o casa produttrice) che ne detiene il controllo mantenendo segreto il funzionamento e che può modiﬁcarla a sua discrezione senza doverne rendere conto. Con formato “proprietario” ci si riferisce a un formato le cui speciﬁche non sono diffuse pubblicamente in modo esplicito e che la casa produttrice si riserva il diritto di cambiare a propria discrezione. 6. Storicamente, il termine marcatura deriva dalla designazione – nella stampa tipograﬁca tradizionale – di quell’insieme di simboli, indicazioni e annotazioni inserite in un manoscritto per speciﬁcare la composizione tipograﬁca del testo (ad esempio, l’impaginazione, i tipi e la dimensione dei caratteri da impiegare, le spaziature, i ritorni accapo ecc.). Oggi, il termine marcatura è stato generalizzato per designare qualsiasi tipo di codice inserito in un testo in forma elettronica al ﬁne di associarvi informazione interpretativa.

68

2.

IL TESTO E LA SUA CODIFICA DIGITALE

marcatura, rappresenta la codiﬁca digitale più adeguata dei materiali testuali per gli scopi della LC. 2.5 Considerazioni conclusive Per un utente umano il contenuto informativo del testo va ben al di là della mera sequenza di caratteri. Il dato testuale è organizzato in maniera complessa ed è proprio attraverso la sua organizzazione in strutture linguistiche e testuali che il dato grezzo si arricchisce di valore informativo. Il computer, tuttavia, non dispone dei livelli di conoscenza che consentono al lettore umano di tradurre una serie di convenzioni tipograﬁche in informazione esplicita riguardo alla struttura testuale, né, tanto meno, della competenza linguistica necessaria per identiﬁcare, in una sequenza di caratteri, una parola, un costituente sintattico o una relazione tra soggetto e verbo. Per rendere queste strutture accessibili al computer è necessario ricorrere a una loro adeguata codiﬁca che associ esplicitamente a porzioni del testo struttura e funzione corrispondenti. Questa operazione non solo aggiunge al testo informazione che può essere reperita automaticamente dal computer, ma predispone il testo per ulteriori livelli di analisi automatica, innestando un ciclo virtuoso di analisi incrementale su cui ritorneremo nel CAP. 7. Dettagli e implicazioni della codiﬁca di alto livello del testo mediante l’uso di XML saranno invece oggetto del capitolo che segue. Per saperne di più HOCKEY S.

(2000), Electronic Texts in the Humanities: Principles and Practice, Oxford University Press, Oxford. PIERAZZO E. (2005), La codiﬁca dei testi. Un’introduzione, Carocci, Roma (capp. 1 e 2). SIMONS G. F. (1998), The Nature of Linguistic Data and the Requirements of a Computing Environment for Linguistic Research, in J. M. Lawler, H. Aristar Dry (eds.), Using Computers in Linguistics. A Practical Guide, Routledge, London, New York, pp. 10-25.

Siti web TOMASI F.

(2002), Manuale di informatica umanistica. Per l’applicazione delle pratiche computazionali ai testi letterari, http://www.griseldaonline.it/informatica/ manuale.htm The UNICODE Home Page – http://www.unicode.org/

69

3 Costruire un linguaggio di marcatura

La codiﬁca di alto livello assolve alla funzione di colmare il divario tra l’informazione strutturale e linguistica implicitamente contenuta in un testo e la necessità di renderla esplicitamente accessibile al computer. Nel CAP. 2 abbiamo spiegato che nella LC il modo più adeguato per raggiungere questo obiettivo consiste nell’uso di un linguaggio di marcatura, uno strumento capace di rendere esplicite le relazioni tra il testo e le sue parti e le interpretazioni a esse associate. In questo capitolo, metteremo a disposizione del lettore lo strumentario di base indispensabile per cominciare a lavorare con XML, uno standard ormai consolidato per la marcatura di informazioni di alto livello nel testo. Lo sforzo richiesto al lettore per familiarizzare con la sintassi di XML potrà essere ricompensato, a nostro avviso, dalla possibilità di disporre di uno strumento potente e versatile per rappresentare qualsiasi tipo di dato linguistico e testuale nella maniera più adeguata ai propri scopi applicativi, di studio e di ricerca. XML:

3.1 principi di base

Nel capitolo precedente abbiamo menzionato SGML e XML come esempi noti della famiglia dei linguaggi di marcatura di tipo dichiarativo. In realtà, questi due linguaggi sono legati da un rapporto di tipo evolutivo: XML infatti nasce alla ﬁne degli anni novanta come evoluzione di SGML, linguaggio di marcatura concepito per la rappresentazione di testi in formato digitale la cui origine risale alla ﬁne degli anni sessanta e la cui storia culmina nel 1986, quando SGML diventa uno standard ISO (8879:1986) per la codiﬁca digitale di testi. Oggi XML sta suscitando enorme interesse sia nella comunità scientiﬁca sia in quella industriale e sta proponendosi come naturale successore di SGML come standard per la codiﬁca di dati semistrutturati, particolarmente versato per le applicazioni web. Infatti, XML rappresenta 71

TESTO E COMPUTER

una versione sempliﬁcata di SGML che, pur mantenendo le potenzialità di quest’ultimo, si presta meglio a essere interpretato e manipolato da programmi automatici 1. A questo si deve aggiungere che nonostante la sua ﬁliazione da SGML, XML ha preso progressivamente una strada autonoma, che ha portato alla nascita, sotto l’egida del World Wide Web Consortium (W3C), di una vera e propria galassia di estensioni e applicazioni per il trattamento e la rappresentazione di dati. Usare XML per la codiﬁca dei dati testuali permette dunque oggi di usufruire di una serie di risorse e supporti informatici in grado di potenziare la possibilità di condividere, elaborare e analizzare i dati stessi. Per questi motivi abbiamo scelto XML come punto di riferimento per la codiﬁca digitale del testo. I tratti caratterizzanti di XML, completamente derivati da SGML, possono essere così riassunti: – marcatura dichiarativa: XML usa etichette di marcatura che indicano la funzione astratta assolta dalla porzione di testo a cui si riferiscono (ad esempio titolo, paragrafo, nota ecc.), senza fornire indicazione su come la porzione di testo marcata dovrà apparire ﬁsicamente sulla pagina o sul video; – marcatura strutturata: XML permette di raggruppare porzioni del testo e di deﬁnirle come unità strutturali complesse, che riﬂettono l’organizzazione interna del testo; ad esempio, il presente capitolo può essere visto come articolato in una varia tipologia di unità strutturali di varia grandezza cui è associato un ruolo ben deﬁnito: titolo di capitolo, numero e titolo di paragrafo, paragrafo, tabella, didascalia, capoverso ecc.; – marcatura gerarchica: in XML un’unità strutturale del testo può a sua volta contenere altre strutture incassate; quello che otteniamo è una gerarchia di strutture definibili a livelli incrementali di dettaglio. Ad esempio, le parti di un libro sono composte da capitoli, a loro volta articolati in paragrafi, a loro volta suddivisi in capoversi e poi in frasi. XML, così come SGML, non fornisce alcuna indicazione riguardo alla 1. Ad esempio, mentre in SGML ogni documento deve obbligatoriamente essere collegato a una DTD, questa è opzionale in XML (PAR. 3.4). Altre differenze riguardano vari aspetti della sintassi dei due linguaggi: in XML il tag di chiusura di un elemento è sempre obbligatorio (PAR. 3.2.1), mentre in SGML è possibile renderlo facoltativo; in XML è ammesso un solo modo di dichiarare un elemento con contenuto di tipo misto (PAR. 3.3.1); in XML gli unici connettori leciti nella dichiarazione del contenuto di un elemento sono la virgola e la barra verticale (PAR. 3.3.1) ecc. Sebbene ormai XML abbia di fatto rimpiazzato SGML, è possibile trovare dati testuali codiﬁcati in SGML. Esistono comunque programmi che permettono di automatizzare la conversione di documenti SGML in documenti XML.

72

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

semantica dei marcatori, ovvero alla loro tipologia, quantità o nome, ma si occupa esclusivamente di fornire precise regole combinatorie necessarie a definire un insieme di marcatori. In realtà, dunque, XML si configura come un metalinguaggio di marcatura, vale a dire un linguaggio per la definizione di linguaggi di marcatura veri e propri 2. A questo fine, la nozione chiave è costituita dalla definizione del tipo di documento che avviene all’interno di una DTD (Document Type Definition), dove l’utente può definire, in modo autonomo e funzionale alla propria ricerca, un insieme di marcatori, i loro tratti inerenti e le loro mutue relazioni (cfr. PAR. 3.3): questo insieme di marcatori con le loro relazioni descrivono una classe di testi che condividono le stesse caratteristiche strutturali (ad esempio tutti i testi che, come questo libro, hanno un’introduzione e una serie di capitoli, talora raggruppati in parti; i capitoli hanno tutti un titolo e una serie di paragrafi ecc.). Un tratto fondamentale di XML è che esso garantisce la completa indipendenza dei dati codiﬁcati: in altre parole, XML permette di concentrare la codiﬁca dei dati testuali solo sugli aspetti strutturali o linguistici, facendo astrazione dal tipo di programma o sistema operativo che elaborerà il testo codiﬁcato. Infatti, tutti i documenti XML sono in formato solo testo e usano lo stesso sistema di codiﬁca dei caratteri predeﬁnito, ovvero Unicode UTF-8 (a meno che non venga esplicitamente dichiarato il contrario, cfr. PAR. 3.4), permettendo così la facile interscambiabilità e portabilità dei dati codiﬁcati tra applicazioni e computer diversi. 3.2 I componenti della marcatura

XML

Un documento con marcatura XML contiene testo intercalato con una varietà di marcatori. Per testo si intende qui la sequenza delle sue parole, spazi, punteggiatura ecc. La tipologia dei marcatori include gli elementi, gli attributi, i riferimenti a entità o a carattere, i commenti 3. 2. Contrariamente a SGML e XML, il ben noto HTML (Hyper Text Mark-up Language) rappresenta un linguaggio di marcatura vero e proprio, deﬁnito in termini di SGML, ma costituito da un insieme di etichette preﬁssato e ﬁnalizzate alla pubblicazione di contenuti ipertestuali. Poiché l’insieme dei codici di marcatura HTML non è estensibile, questo linguaggio non è facilmente riusabile per scopi diversi da quello della visualizzazione del testo. Per tali motivi, XML si va progressivamente affermando come la risposta ai limiti dell’HTML anche nell’ambito della tecnologia del web. 3. Un alto tipo di marcatori – sui quali non ci soffermiamo – sono le istruzioni di elaborazione (processing instructions o PI) che consentono di inserire in un documento XML istruzioni destinate ai programmi applicativi che elaboreranno il testo.

73

TESTO E COMPUTER

3.2.1. Elementi Il termine tecnico usato in XML per designare un’unità del testo, vista come componente della struttura linguistico-testuale, è elemento. Gli elementi rappresentano i blocchi costitutivi in cui si articola un testo: esempi prototipici di elementi sono il titolo, l’autore, o il paragrafo. Ogni tipo di elemento è identiﬁcato da un nome (tecnicamente designato come etichetta o tag), tipicamente selezionato per caratterizzare la funzione della partizione logica del testo che descrive 4; il nome associato a ogni tipo di elemento è chiamato identiﬁcatore generico (generic identiﬁer o GI). Nella marcatura del testo, ogni elemento viene marcato in modo esplicito inserendo un delimitatore di apertura < tag > all’inizio dell’elemento e uno di chiusura < /tag > alla ﬁne, dove tag rappresenta l’identiﬁcatore generico dell’elemento. Siccome XML è sensibile alla distinzione tra maiuscole e minuscole (ovvero è case-sensitive), l’identiﬁcatore generico deve essere sempre speciﬁcato con lo stesso tipo di carattere, maiuscolo o minuscolo: < tag > ... < /tag > è corretto così come lo è < TAG > ... < /TAG > o < Tag > ... < /Tag > , mentre non lo è < tag > ... < /TAG > . Tutto ciò che si trova compreso tra il delimitatore di apertura e quello di chiusura rappresenta il contenuto dell’elemento. Consideriamo il semplice esempio di marcatura che segue: < titolo > Le avventure di Pinocchio < /titolo >

il contenuto dell’elemento identiﬁcato dal nome titolo è rappresentato dalla stringa di caratteri Le avventure di Pinocchio. Questo rappresenta il caso più semplice e intuitivo, in cui il contenuto dell’elemento è costituito da testo libero non contenente altri elementi (secondo la terminologia tecnica, dati di tipo carattere). Il contenuto di un elemento può anche essere costituito da altri elementi, come esempliﬁcato di seguito: 4. Esistono norme speciﬁche per la sintassi del nome degli elementi: questo può essere costituito da qualsiasi carattere alfanumerico e può includere il carattere di sottolineatura (o underscore) “_” e i caratteri di punteggiatura trattino “-” e punto “.”; non può invece contenere caratteri di punteggiatura diversi da quelli elencati e nessun tipo di spazi (spazi, ritorni a capo, line feed, tabulazioni, spazi non separabili). Inoltre, i nomi degli elementi non possono iniziare con un numero, un trattino o un punto né con la sequenza di caratteri “XML”. Inﬁne, non esiste un limite di lunghezza per il nome di un elemento.

74

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

< capitolo > < titolo > Capitolo primo < /titolo > < capoverso > C’era una volta... < /capoverso > < capoverso > - Un re! – diranno subito i miei piccoli lettori. < /capoverso > < capoverso > No, ragazzi, avete sbagliato. C’era una volta un pezzo di legno. < /capoverso > < /capitolo >

L’elemento capitolo, detto elemento padre, contiene quattro elementi ﬁgli: un elemento titolo e tre elementi capoverso. È proprio attraverso questo meccanismo di annidamento degli elementi che XML permette la rappresentazione di strutture gerarchiche. Ogni elemento (tranne l’elemento radice, cfr. infra) ha un elemento padre che lo include completamente; ciò implica che, nel caso di elementi annidati, la relazione di inclusione deve essere sempre propria. Ne consegue che non è consentita la sovrapposizione tra elementi: un elemento ﬁglio deve essere completamente incluso nell’elemento padre come in < a > < b > ... < /b > < /a > mentre una sequenza del tipo < a > < b > ... < /a > < /b > non è riconosciuta come ben formata (cfr. PAR. 3.4) da XML in quanto < /a > ricorre prima di < /b > . È importante osservare che ogni documento XML deve contenere uno e un solo elemento radice, ovvero un elemento che contiene tutti gli altri elementi del documento. In altre parole, la radice è un elemento “orfano” (ovvero senza padre) e senza elementi “fratelli”. Se assumiamo che l’esempio riportato sopra identiﬁchi il contenuto di un intero documento XML, capitolo è l’elemento radice. Ciò implica che ogni documento XML ha una struttura ad albero, i cui nodi sono gli elementi e le foglie sono le sequenze dei caratteri del testo contenute in ogni elemento. Nella pratica della codiﬁca XML di un testo, la dicotomia tra elementi che contengono solo dati di tipo carattere ed elementi che contengono solo elementi ﬁgli non è così rigida. Nella rappresentazione del testo è infatti molto frequente avere elementi con contenuto misto, come esempliﬁcato di seguito: < titolo > Le avventure di Pinocchio < sottotitolo > Storia di un burattino < /sottotitolo > < /titolo >

dove l’elemento titolo contiene, sullo stesso livello, sia dati di tipo carattere sia un elemento ﬁglio (sottotitolo). Esiste inﬁne la possibilità di deﬁnire un elemento vuoto, a cui non 75

TESTO E COMPUTER

è associato alcun contenuto del testo (ad esempio potrebbe semplicemente rappresentare un salto pagina): in questo caso si usa la sequenza di marcatori < tag > < /tag > , che può essere abbreviata in < tag/ > . 3.2.2. Attributi Gli elementi XML possono essere dotati di attributi. Gli attributi rappresentano informazioni aggiuntive che speciﬁcano alcune caratteristiche dell’elemento che non fanno parte del contenuto del testo: in pratica, gli attributi si conﬁgurano come “glosse” associate al dato testuale, mentre la funzione assolta dagli elementi è piuttosto quella di “contenitore” e “classiﬁcatore” del dato testuale. Gli attributi sono speciﬁcati all’interno del delimitatore di apertura dell’elemento, nella forma nome_attributo = valore (dove attorno al segno uguale possono essere opzionalmente inseriti degli spazi) 5. I valori degli attributi devono sempre essere racchiusi tra virgolette, singole o doppie 6. Nell’esempio che segue, la numerazione dei capoversi in cui si articola il testo (utile per poter identiﬁcare univocamente un capoverso) è rappresentata mediante un attributo (num) associato all’elemento capoverso: < capoverso num = ”1” > C’era una volta... < /capoverso >

Non è sempre facile stabilire quando preferire una codiﬁca delle informazioni testuali in termini di elementi o di attributi. Prima di tutto, bisogna tenere presente che gli elementi possono ricorrere più volte mentre un attributo può ricorrere al massimo una volta all’interno di un elemento. Inoltre, mentre nel caso degli elementi è possibile speciﬁcare l’ordine in cui devono apparire nella marcatura testo (cfr. PAR. 3.3.1), ciò non è possibile nel caso degli attributi. Esistono poi alcuni criteri euristici di base per decidere se codiﬁcare informazioni mediante attributi o mediante elementi. Ad esempio, questi ultimi vengono utilizzati per marcare porzioni del dato testuale grezzo assegnandogli una speciﬁca funzione, mentre gli attributi sono in genere

5. Per il nome di un attributo vigono le stesse restrizioni deﬁnite per i nomi degli elementi, riportate nella nota 4. 6. Le virgolette singole possono essere utili nel caso in cui il valore contenga a sua volta virgolette doppie e viceversa. I due tipi di virgolette non possono però essere mescolate nello stesso attributo (ad esempio nome_attributo = “valore’ non è sintatticamente corretta).

76

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

utilizzati per codiﬁcare informazioni relative a un elemento. Inoltre, la scelta tra elementi o attributi dipende anche dagli obiettivi speciﬁci della codiﬁca: viene consigliato il ricorso agli attributi se le informazioni da codiﬁcare non hanno una struttura complessa 7, presentano un insieme predeﬁnito di valori o addirittura valori ﬁssi, oppure si conﬁgurano come metainformazioni relative a un elemento esistente. 3.2.3. Riferimenti a carattere e a entità Tra i possibili marcatori XML all’interno di un testo, ci sono i cosiddetti riferimenti a carattere e riferimenti a entità. I riferimenti a carattere sono usati per inserire nel testo caratteri appartenenti al set di caratteri Unicode attraverso il loro valore numerico espresso in notazione decimale o esadecimale. Ad esempio, si ricorre ai riferimenti a carattere per inserire nel testo caratteri non accessibili direttamente dai dispositivi di input disponibili. In generale, per garantire la massima portabilità del testo tra programmi che supportano diverse codifiche dei caratteri, è buona norma codificare come riferimenti a carattere tutti i caratteri che non rientrano nel set ASCII. Il riferimento a carattere può essere espresso in due forme: odice_ esadecimale; se il punto di codice Unicode è rappresentato in base esadecimale; &#codice_decimale; se il punto di codice Unicode è rappresentato in base decimale (in entrambi i casi il punto e virgola fa parte del riferimento a carattere). Ad esempio, il carattere T può essere inserito in un documento XML attraverso il riferimento θ oppure Š. Per aumentare la leggibilità del testo, invece di immettere direttamente nel testo i riferimenti a carattere, possono essere loro associati nomi mnemonici attraverso il meccanismo delle entità (cfr. PAR. 3.3.3). Le entità sono sequenze arbitrarie di byte (che vanno da una stringa di caratteri a un file intero) associate a nomi mnemonici; questi ultimi, attraverso il meccanismo dei riferimenti a entità (cfr. infra), possono essere usati nei documenti XML come “segnaposto” del contenuto effettivo dell’entità. Le entità usate nella marcatura del testo sono dette entità generali (opposte alle entità parametriche, che possono occorrere

7. Vale la pena ricordare che il valore di un attributo XML è semplicemente una stringa di testo e quindi non può rappresentare adeguatamente valori strutturati internamente. Ad esempio, se vogliamo codiﬁcare una data con un attributo, il massimo livello di strutturazione si può ottenere è separando l’anno, il mese e il giorno con un trattino; bisogna tuttavia tenere presente che questa rappresenta una mera convenzione graﬁca.

77

TESTO E COMPUTER

solo all’interno della DTD, cfr. PAR. 3.3.3). Esistono due tipi di entità generali, alle quali si può fare riferimento dal testo marcato: entità interne, il cui valore è dichiarato localmente (ovvero nella DTD), ed entità esterne, il cui valore è rappresentato dal contenuto di una sorgente esterna, ovvero un file XML o in altro formato, inclusi formati grafici. Ci concentreremo qui sulle entità generali interne, che svolgono un ruolo importante nella codifica digitale del contenuto testuale, mentre per il secondo tipo rinviamo il lettore interessato a letture di approfondimento. I riferimenti a entità hanno la forma &nome_entità; e la stringa di testo associata a nome_entità, a parte il caso delle entità predefinite (cfr. infra), deve essere dichiarata nella DTD (cfr. PAR. 3.3.3). Nella fase di elaborazione del testo da parte del parser XML (cfr. PAR. 3.4), il riferimento a entità interne viene sostituito dalla stringa di testo associata. L’utilità delle entità consiste dunque nel fatto che consentono di riutilizzare lo stesso frammento di testo in posizioni diverse, garantendo sempre l’esatta corrispondenza dei dati e permettendo al contempo una loro modifica semplificata. Un caso particolare è rappresentato dalle cosiddette entità predeﬁnite a cui si può fare riferimento nel testo come segue: entità predeﬁnite

carattere

deﬁnizione

& < > " '

& < > " '

e commerciale parentesi angolare di apertura parentesi angolare di chiusura virgolette doppie apostrofo o virgoletta singola

A differenza delle altre entità, queste non devono essere dichiarate nelle DTD. I riferimenti a entità predeﬁnite corrispondono a caratteri riservati di XML e devono essere usati quando questi caratteri vengono impiegati come tali nel testo e non come segni di marcatura. In caso contrario, il documento XML non risulta ben formato. Ad esempio, la sequenza < testo > l’amico < /testo > non è corretta, perché il carattere apostrofo ricorre come parte del testo: la forma appropriata è < testo > l'amico < /testo > 8. 8. I caratteri riservati possono naturalmente essere inseriti nel testo anche attraverso riferimenti a carattere. Inoltre, un modo alternativo offerto da XML è rappresentato dalle cosiddette sezioni CDATA. Queste sono anche particolarmente utili per inserire nel testo intere porzioni di codice XML o HTML contenenti caratteri che altrimenti sarebbero trattati come codici di marcatura. Le sezioni CDATA iniziano con la stringa < ![CDATA[ e terminano con la stringa ]] > .

78

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

3.2.4. Commenti Un testo con marcatura XML può contenere commenti, ovvero brevi note che l’autore del documento può voler aggiungere al documento. Queste note non fanno parte del contenuto del documento e vengono ignorate dalle applicazioni nell’elaborazione del testo. Il commento comincia con la sequenza di caratteri < !-- e ﬁnisce con -- > . I commenti possono apparire in qualunque punto all’interno dei dati di tipo carattere così come prima o dopo l’elemento radice. Non possono apparire all’interno di un delimitatore di apertura o di chiusura di un elemento o all’interno di un commento. 3.3 La deﬁnizione del tipo di documento (DTD) La tipologia dei marcatori XML necessari a effettuare la codifica del testo e le regole della loro combinazione sono definite all’interno della cosiddetta Document Type Definition (o DTD). In pratica, la DTD definisce la “grammatica” del linguaggio di marcatura associato a una specifica classe o tipo di documenti; una volta che i marcatori definiti nella DTD sono intercalati nel testo, questo diventa un’istanza del tipo di documenti (document instance). Per molti tipi di applicazioni e analisi linguistiche esistono DTD predefinite, facilmente reperibili sul web, che possono essere utilizzate per la codifica dei testi. Infatti è sempre preferibile, ove possibile, usare linguaggi di marcatura riconosciuti come standard da una certa comunità di ricerca o per determinate applicazioni (cfr. PAR. 3.6). Grazie alla ricchezza e versatilità di XML è però sempre possibile definire la propria DTD per stabilire il linguaggio di marcatura più adatto ai propri obiettivi di elaborazione testuale. Nella DTD vengono dichiarati – ovvero deﬁniti – tutti gli oggetti necessari alla costruzione di un linguaggio di marcatura; ciascun oggetto deve essere dichiarato una volta sola. Una DTD è dunque una lista di dichiarazioni di tre tipi distinti: – gli elementi in cui si articola il testo; – gli attributi associati a ciascun elemento; – le entità richiamabili attraverso riferimenti all’interno del testo. La lista non è ordinata, ovvero non importa in quale ordine elenchiamo le dichiarazioni nella DTD. Tutte le dichiarazioni sono comprese tra parentesi angolari. Alla parentesi di apertura segue un punto esclamativo, seguito immediatamente da una parola chiave che specifica il tipo di oggetto in corso di dichiarazione: ELEMENT per la dichiarazione di elementi, ATTLIST per gli attributi ed ENTITY per le entità. 79

TESTO E COMPUTER

3.3.1. La dichiarazione di un elemento non fornisce alcun modo per esprimere il “signiﬁcato” di un particolare tipo di elemento, se non attraverso le sue relazioni con altri tipi di elementi (inclusione, suddivisione). Questo tipo di informazione è deﬁnita all’interno della DTD. La dichiarazione di un elemento si articola in due parti: l’etichetta o tag che lo identifica (ovvero il suo identificatore generico) 9, e la descrizione del suo contenuto in termini strutturali, denominata modello di contenuto (o content model), come illustrato nello schema che segue: XML

< !ELEMENT tag_elemento (modello di contenuto) >

La TAB. 3.1 fornisce le speciﬁche di dichiarazione per le varie tipologie di contenuto: TABELLA 3.1 Tipologia dei contenuti di un elemento

Tipo di contenuto

Come si dichiara

1

Qualsiasi sequenza di caratteri

< !ELEMENT tag_elemento (#PCDATA) >

2

Solo sottoelementi

< !ELEMENT tag_elemento (s1,s2?,s3*) > < !ELEMENT tag_elemento (s1|s2|s3) > < !ELEMENT tag_elemento (s1 + ,(s2|s3)*) >

3 Misto

< !ELEMENT tag_elemento (#PCDATA|s1|...|sn)* >

4 Vuoto

< !ELEMENT tag_elemento EMPTY >

5 Qualsiasi tipo di contenuto

< !ELEMENT tag_elemento ANY >

La riga (1) della TAB. 3.1 esempliﬁca il più semplice modello di contenuto, ovvero il caso in cui l’elemento in corso di deﬁnizione può contenere soltanto dati di tipo carattere e non presenta dunque articolazioni interne in termini di altri elementi. In questo caso, il modello di contenuto consiste nella parola riservata #PCDATA (Parsed Character DATA) che speciﬁca che il contenuto dell’elemento in corso di deﬁnizione è testo senza marcatori. Nella riga (2) della TAB. 3.1 trovia-

9. All’interno di una DTD, un identiﬁcatore generico deve identiﬁcare in modo univoco un elemento, e quindi non può essere assegnato a più elementi diversi.

80

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

TABELLA 3.2 Indicatori di occorrenza di un sottoelemento

Simbolo

Descrizione

Numero occorrenze

? + *

occorrenza opzionale occorrenza obbligatoria e ripetibile occorrenza opzionale e ripetibile

0o1 ≥1 ≥0

mo invece la dichiarazione di un elemento il cui contenuto è costituito esclusivamente da sottoelementi (elementi ﬁgli), per i quali è possibile speciﬁcare le modalità di occorrenza. Nel caso in cui i sottoelementi siano più di uno, la loro co-occorrenza e il loro ordinamento reciproco sono speciﬁcati mediante connettori: – la virgola speciﬁca che i sottoelementi devono ricorrere all’interno dell’elemento in corso di deﬁnizione nell’ordine speciﬁcato: ad esempio, il modello di contenuto (s1,s2,s3) speciﬁca che l’elemento s1 deve apparire prima di s2, che a sua volta deve precedere s3; – la barra verticale indica che i sottoelementi rappresentano scelte alternative: ad esempio il modello di contenuto (s1|s2|s3) speciﬁca che l’elemento padre deve contenere uno a scelta dei sottoelementi elencati. È anche possibile stabilire restrizioni sul numero di volte in cui ciascun sottoelemento può ricorrere attraverso indicatori di occorrenza aggiunti come sufﬁssi al nome del sottoelemento (TAB. 3.2) 10. Se un sotto-elemento non è seguito da nessuno di questi indicatori, deve ricorrere esattamente una volta. È possibile inoltre deﬁnire modelli di contenuto complessi raggruppando scelte alternative e/o sequenze di sottoelementi attraverso l’uso di parentesi. Ai sottoelementi complessi così deﬁniti possono essere associati indicatori di occorrenza, come illustrato in (2) nella TAB. 3.1: ad esempio, la dichiarazione (s2|s3)* indica che l’elemento in corso di deﬁnizione può contenere un numero indeﬁnito da 0 a n di sottoelementi di tipo s2 e/o s3 senza vincoli sull’ordine reciproco di occorrenza. La terza riga della TAB. 3.1 riporta la definizione di elementi a contenuto misto. Come già visto, si tratta di un modello di contenuto particolarmente utile nella codifica di un testo, caratterizzato dalla presenza di sottoelementi intervallati da dati di tipo carattere. Un elemento a contenuto misto deve essere dichiarato come illustrato nella riga 10. Nel PAR. 4.2 ritroveremo questi stessi simboli come moltiplicatori di caratteri nelle espressioni regolari.

81

TESTO E COMPUTER

(3) della TAB. 3.1: questa dichiarazione indica che l’elemento in corso di definizione può contenere dati di tipo carattere e sottoelementi di tipo s1,...,sn. Si noti che nel modello di contenuto misto la parola riservata #PCDATA deve essere obbligatoriamente la prima della lista. Nel contenuto misto, i vincoli riguardano soltanto la tipologia dei sotto-elementi, e non l’ordinamento reciproco o il numero delle loro occorrenze: ad esempio, il modello di contenuto misto (#PCDATA|s1|s2)* specifica che l’elemento definito può contenere qualsiasi numero (≥0) di elementi di tipo s1 e s2 in qualsiasi ordine, opzionalmente intervallati da dati di tipo carattere. Inﬁne, le righe (4) e (5) della TAB. 3.1 illustrano la dichiarazione di altre tipologie di contenuto, rispettivamente il caso dell’elemento vuoto (dichiarato utilizzando la parola chiave EMPTY) e dell’elemento jolly (contrassegnato dalla parola chiave ANY). Il primo prevede che l’elemento non possa contenere niente, né dati carattere, né sottoelementi; il secondo, invece, non pone alcun vincolo sul contenuto dell’elemento. 3.3.2. La dichiarazione di un attributo Una dichiarazione di attributo deﬁnisce l’insieme degli attributi pertinenti per la descrizione di un dato elemento e, per ciascun attributo, stabilisce vincoli sulla tipologia dei valori che può assumere, fornisce informazioni circa l’obbligatorietà della sua speciﬁcazione ed eventualmente sul suo valore di default (cfr. infra). La dichiarazione degli attributi rilevanti per la descrizione di un elemento è formulata secondo lo schema che segue: < !ATTLIST tag_elemento tag_attributo1 tipo_valore ... tag_attributon tipo_valore

modificatore modificatore >

La prima riga introduce la deﬁnizione di una lista di attributi associati a un elemento, il cui identiﬁcatore generico fa seguito alla parola chiave ATTLIST. Segue la dichiarazione degli attributi, uno per riga. Questa dichiarazione si articola in tre parti: il nome dell’attributo 11; 11. I nomi di attributi sono soggetti alla stessa tipologia di restrizioni valide per i nomi degli elementi in XML (cfr. nota 4 in proposito). Al contrario di questi, però, i nomi di attributi non devono essere identiﬁcatori univoci all’interno dell’intera DTD; questa restrizione vale invece all’interno della lista degli attributi associati a uno stesso elemento.

82

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

TABELLA 3.3 La tipologia dei valori dichiarati per un attributo

Tipo di attributo

CDATA NMTOKEN NMTOKENS

Enumerated

ID

IDREF IDREFS

ENTITY ENTITIES

Valori associati

Il valore dell’attributo può contenere qualsiasi dato di tipo carattere (Character DATA) Questo attributo può contenere una o più (nel secondo caso) stringhe contenenti caratteri alfanumerici (numeri e lettere) più i seguenti caratteri: “.” (punto), “–” (meno), “_” (trattino basso), “:” (due punti). È un tipo di attributo che può assumere un valore solo tra un insieme di possibili valori deﬁniti dall’autore della DTD; in questo caso i possibili valori sono speciﬁcati come (valore1 | valore2 | ... | valoren) Il valore dell’attributo deve essere una sequenza di caratteri (deﬁnita seguendo le stesse restrizioni di sintassi valide per i nomi degli elementi XML) che costituisce l’identiﬁcatore univoco dell’elemento a cui l’attributo è associato Il valore dell’attributo è una sequenza di caratteri che costituisce il valore dell’attributo ID di un altro elemento nello stesso documento XML. IDREFS permette invece di speciﬁcare una lista di sequenze di caratteri ciascuna delle quali costituisce il valore dell’attributo ID di un altro elemento nello stesso documento XML (gli elementi della lista devono essere separati da uno spazio) Il valore dell’attributo deve contenere uno o più (nel secondo caso) nomi di entità, dichiarate a loro volta all’interno della DTD

la tipologia di valori che può assumere; notazioni circa l’obbligatorietà o l’opzionalità della sua speciﬁcazione così come eventuali valori di default (rappresentati nello schema precedente dalla voce modificatore). La tipologia dei valori che può essere dichiarata per un attributo è sintetizzata nella TAB. 3.3. Si noti che il tipo di valore associato a un attributo può essere dichiarato in due modi diversi: ricorrendo a parole chiave (le parole riportate in maiuscolo nella prima colonna della TAB. 3.3) oppure specificando una lista di possibili valori (questo è il caso dell’attributo di tipo Enumerated nella TAB. 3.3). La parte finale della dichiarazione di attributo specifica la sua obbligatorietà/opzionalità e/o un eventuale valore di default, come indicato nella lista che segue: – #REQUIRED: si tratta di un attributo per il quale deve essere obbligatoriamente speciﬁcato un valore; 83

TESTO E COMPUTER

– #IMPLIED: indica che la speciﬁcazione dell’attributo è opzionale; – #FIXED: permette di ﬁssare nella dichiarazione dell’attributo il valore associato a quell’attributo che rimane costante e immutabile: la sintassi per la sua speciﬁcazione è #FIXED “valore_fisso” dove valore_fisso è il valore associato all’attributo; – Literal ovvero un valore predeﬁnito – o valore di default – per un attributo, da adottarsi nel caso in cui non vi sia esplicita menzione dell’attributo nel testo marcato. La sintassi per speciﬁcare un valore di default è semplicemente il valore dell’attributo riportato tra virgolette, senza alcuna parola chiave. Ad esempio, la dichiarazione seguente speciﬁca che l’elemento s1 deve contenere l’attributo status e che questo riceve automaticamente il valore free, se per un elemento di tipo s1 nel testo non viene esplicitamente indicato un valore speciﬁco per tale attributo: < !ATTLIST s1 status

CDATA

“free” >

Una menzione a parte meritano gli attributi di tipo ID e IDREF(S) (cfr. TAB. 3.3) per il ruolo cruciale da loro svolto nella rappresentazione dell’annotazione linguistica (cfr. PAR. 8.4). I valori associati ad attributi di tipo ID hanno la funzione di identificare univocamente gli elementi a cui sono associati; ciò implica che in un documento con marcatura XML lo stesso valore non deve apparire più di una volta e che nella DTD un solo attributo di tipo ID può essere associato allo stesso tipo di elemento. Un attributo di tipo IDREF(S) è un riferimento all’attributo di tipo ID di un elemento (o più elementi nel caso di IDREFS) del documento: i valori di IDREF devono essere uguali al valore dell’attributo ID di un elemento nello stesso documento. Gli attributi di questo tipo sono comunemente usati per stabilire relazioni tra elementi che non siano esprimibili nei termini della semplice relazione di inclusione. 3.3.3. La dichiarazione di un’entità Come nel caso di tutte le altre dichiarazioni, anche la dichiarazione di un’entità comincia con la parola chiave dedicata ENTITY, seguita dal nome dell’entità da dichiarare e dal valore a essa associato. La dichiarazione di un’entità di tipo interno (cfr. PAR. 3.2.3) segue lo schema: 84

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

< !ENTITY nome_entità “valore_entità” >

dove il valore associato all’entità in corso di dichiarazione (speciﬁcato tra virgolette) può anche essere costituito da testo con marcatura. Nel PAR. 3.2.3 abbiamo menzionato un uso tipico delle entità, ovvero quello di associare nomi mnemonici ai riferimenti a carattere: in questo modo, invece di immettere nel testo il punto di codice corrispondente al carattere, viene inserita un’etichetta più trasparente per la lettura del testo. Ad esempio, la dichiarazione < !ENTITY auml “ä” > deﬁnisce un’associazione tra la stringa auml e il riferimento al carattere ä (corrispondente al carattere ä). Una volta dichiarata nella DTD, l’entità viene richiamata nel testo attraverso il riferimento ä che dunque può essere usato per codiﬁcare il carattere ä in alternativa al più oscuro riferimento a carattere ä 12. Vale qui la pena menzionare infine un altro tipo di entità, le entità parametriche, il cui uso è ristretto alla DTD e la cui funzione è quella di rendere modulari alcune dichiarazioni. Ad esempio, può capitare di dover assegnare lo stesso gruppo di attributi a più elementi; le entità parametriche permettono di dichiarare tali attributi una sola volta e poi, nella dichiarazione dei singoli elementi, fare semplicemente riferimento alla corrispondente entità parametrica. A differenza delle entità generali, le entità parametriche utilizzano il simbolo di percentuale (%) sia nella dichiarazione sia nei riferimenti. Nella dichiarazione, il simbolo di percentuale segue la parola chiave ENTITY, ma precede il nome dell’entità come schematizzato di seguito.

12. Per i repertori di caratteri più comuni, in XML vengono normalmente usate le dichiarazioni di entità deﬁnite da consorzi di standardizzazione come il W3C e la TEI (cfr. PAR. 3.6.1). Riportiamo di seguito per comodità del lettore le dichiarazioni di entità deﬁnite per le lettere accentate minuscole necessarie per la codiﬁca di testi in italiano (liste complete di dichiarazioni entità per vari repertori di caratteri sono facilmente reperibili sul web): – < !ENTITY agrave “à” > – < !ENTITY eacute “é” > – < !ENTITY egrave “è” > – < !ENTITY igrave “ì” > – < !ENTITY oacute “ó” > – < !ENTITY ograve “ò” > – < !ENTITY ugrave “ù” > .

85

TESTO E COMPUTER

< !ENTITY % nome_entità_param

“valore_entità_param” >

Si noti che è richiesto uno spazio prima e dopo il simbolo %. Una volta dichiarata, è possibile fare riferimento a questa entità in altri punti della DTD usando il suo nome direttamente preceduto dal simbolo di percentuale e seguito dal punto e virgola (ad esempio %nome_entità_param;). 3.4 Struttura e validazione di un documento

XML

Un documento XML si articola in due parti chiamate, rispettivamente, prologo e istanza del documento. Nel prologo sono contenute le informazioni che permettono di interpretare il documento come un documento XML, ricollegandolo alla corrispondente DTD (ove esista); l’istanza di documento racchiude il dato testuale vero e proprio con la relativa marcatura. Nonostante il prologo sia facoltativo è sempre consigliabile inserirlo nei propri documenti per completezza di informazione e per consentire una validazione automatica (cfr. infra). Il prologo si articola a sua volta in due parti: la dichiarazione XML (XML Declaration) e la dichiarazione del tipo di documento (DocType Declaration), come nell’esempio che segue: < ?xml version = ”1.0” encoding = ”utf-8” standalone = ”no”? > < !DOCTYPE elemento_radice SYSTEM “nome_dtd.dtd” >

La prima riga corrisponde alla dichiarazione XML. Questa ha l’aspetto esteriore di un’istruzione di elaborazione (è infatti delimitata da < ? ... ? > ) con nome xml e a) fornisce informazioni sulla versione di XML utilizzata per scrivere il documento (attributo version, il cui valore è per il momento solo 1.0) 13, b) speciﬁca il set di caratteri utilizzato per la codiﬁca (attributo encoding; se omesso, viene interpretato come UTF-8, la codiﬁca di caratteri predeﬁnita di XML) 14, e c) indica se al documento è associata o no una DTD esterna (attributo standalone che può assumere valore yes o no; se omesso ha valore

13. Al momento, l’unica versione standard di XML è la 1.0. 14. Ogni volta che un parser XML (cfr. Scheda on line 3.1) legge un ﬁle XML, assume che esso sia stato creato con la codiﬁca UTF-8 di Unicode; l’uso di codiﬁche diverse – come ad esempio ISO-8859-1 – deve essere speciﬁcato esplicitamente nella dichiarazione iniziale del ﬁle XML (ad esempio encoding = ”ISO-8859-1”).

86

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

predeﬁnito no). Le tre parti si devono susseguire in questo preciso ordine. Se presente, la dichiarazione XML dev’essere lka prima riga del documento. La seconda riga rappresenta la dichiarazione del tipo di documento, che permette di associare al documento XML la sua DTD. La dichiarazione del tipo di documento speciﬁca qual è l’elemento radice dell’istanza del documento che segue e contiene il riferimento alla DTD. Senza questa dichiarazione, i programmi non saprebbero quali marcatori o tag sono impiegati nel testo codiﬁcato e quali regole sintattiche in esso vigono, e quindi non sarebbero in grado di validarlo (cfr. infra). La dichiarazione del tipo di documento può essere schematizzata come segue: < !DOCTYPE elemento_radice DTD >

dove DTD può essere: – l’intera DTD contenuta tra parentesi quadre [...]: in questo caso si parla di DTD interna al documento; – un riferimento al ﬁle in cui la DTD è contenuta: in questo caso si parla di DTD esterna. La sintassi del riferimento è SYSTEM “URI_ DTD”, dove “URI_DTD” indica lo Uniform Resource Identiﬁer della DTD, ovvero il protocollo e l’indirizzo che consentono di accedervi: può trattarsi di un nome di ﬁle (come nell’esempio sopra) oppure di un indirizzo web che rimanda al sito in cui si trova la DTD 15. Quando si sviluppa una DTD, può essere utile mantenerla con il testo codiﬁcato all’interno dello stesso ﬁle in modo da potere simultaneamente modiﬁcare i contenuti e veriﬁcarne la correttezza. La soluzione della DTD interna non è più conveniente nel momento in cui vi siano più testi codiﬁcati che fanno riferimento alla stessa DTD. Si noti che è possibile avere una DTD suddivisa in due porzioni, una interna e una esterna al documento; in questo caso, il sottoinsieme interno viene elaborato per primo e gli viene data la precedenza su qualsiasi sottoinsieme esterno. Questa funzionalità è utile quando si ricorra a una DTD esterna, di cui si desidera modiﬁcare alcune parti per un’applicazione speciﬁca. Una volta preparato il documento secondo la struttura descritta

15. Quando si tratta di una DTD standard (“pubblica”), la sintassi del riferimento è PUBLIC Formal_Public_Identifier “URI_DTD”. Il Formal_Public_Identifier fornisce informazioni sulla DTD (ente che l’ha sviluppata, lingua ecc.) e deve essere formulato secondo una sintassi per la quale rimandiamo a letture di approfondimento.

87

TESTO E COMPUTER

sopra, è possibile verificarne la correttezza formale. Esistono due livelli di correttezza, corrispondenti ai concetti di documento XML ben formato e documento XML valido. Un documento XML è ben formato quando obbedisce a tutte le regole sintattiche di XML, ovvero quando sono rispettate le convenzioni per la sintassi dei nomi degli elementi e degli attributi, i marcatori sono bilanciati (a ogni tag di apertura deve corrisponderne uno di chiusura), gli elementi non si accavallano ed esiste un solo elemento radice, tutti i valori degli attributi sono racchiusi tra virgolette, e tutti i riferimenti a entità riguardano entità predefinite o dichiarate nella DTD. Questo tipo di verifica viene effettuata solo sulla base delle regole sintattiche di XML. Un documento XML è valido quando rispetta la tipologia di marcatori e le gerarchie di incassamento dichiarate nella DTD del documento. In questo caso il documento XML è un’istanza valida della classe di documenti definita dalla DTD. La nozione di validità è più restrittiva del concetto di “ben formato”: infatti, un documento XML per essere valido deve essere ben formato e presentare i marcatori previsti dalla DTD, nel giusto ordine e con i giusti attributi. La validazione dipende dunque dallo specifico linguaggio di marcatura definito all’interno della DTD. Per poter verificare se la codifica sia stata effettuata correttamente, esistono software dedicati all’analisi sintattica del testo in formato XML, designati come parser XML. Esistono due tipi di parser XML: validanti, che verificano che il testo sia valido, ovvero sia conforme alle specifiche definite nella DTD, e non validanti, che si limitano a verificare la correttezza sintattica della marcatura del testo, ovvero che il documento XML sia ben formato. Un esempio di questo secondo tipo di programma è il browser Internet Explorer (cfr. Scheda on line 3.1). 3.5 La codiﬁca del testo in formato

XML:

un esempio

Vediamo un esempio di quanto detto ﬁnora procedendo alla codiﬁca di un frammento di testo estratto da Le avventure di Pinocchio. Procediamo innanzitutto alla deﬁnizione della DTD che speciﬁca la tipologia di marcatori che intendiamo usare nella codiﬁca del testo e le regole della loro combinazione. La semplice DTD riportata nell’esempio 3.1, che salveremo in un ﬁle di tipo solo testo con il nome di libro.dtd, contiene gli elementi di base per la codiﬁca della struttura interna del testo: 88

3. ESEMPIO 3.1 Un esempio di

COSTRUIRE UN LINGUAGGIO DI MARCATURA

DTD

< !-- DTD per l’esempio del libro -- > < !ELEMENT < !ELEMENT < !ELEMENT < !ELEMENT < !ELEMENT < !ELEMENT < !ELEMENT

libro (titolo, autore + , parte + ) > titolo (#PCDATA | sottotitolo)* > sottotitolo (#PCDATA) > autore (#PCDATA) > parte (titolo, capitolo + ) > capitolo (titolo, capoverso + ) > capoverso (#PCDATA) >

< !ATTLIST parte p_id ID #REQUIRED > < !ATTLIST capitolo c_id ID #REQUIRED > < !ATTLIST capoverso num ID #REQUIRED > < !ENTITY ograve < !ENTITY egrave

”ò” > ”è” >

L’elemento radice è rappresentato da libro che contiene un elemento titolo, uno o più elementi di tipo autore e si articola in uno o più elementi di tipo parte. Il titolo è un elemento di tipo misto, che può essere composto da testo senza marcatura (identiﬁcato da #PCDATA) al quale può afﬁancarsi un sottotitolo. Gli elementi sottotitolo, autore e capoverso sono accomunati dal fatto di avere contenuto solo di tipo testuale, senza ulteriori articolazioni in sottoelementi. Inﬁne, gli elementi parte e capitolo presentano un’articolazione interna rispettivamente in titolo e uno o più elementi di tipo capitolo, e in titolo e uno o più elementi di tipo capoverso. Agli elementi parte, capitolo e capoverso è associato un attributo di tipo ID per consentirne una più facile e immediata identiﬁcazione all’interno del testo. Segue la dichiarazione di due entità per una codiﬁca più agevole dei caratteri accentati ò ed è. Una volta deﬁnite le regole per la marcatura, procediamo alla codiﬁca del testo, ovvero alla preparazione del ﬁle XML che chiameremo pinocchio.xml. Nell’esempio 3.2 riportato di seguito, il prologo è costituito dalla prima e dalla seconda riga, mentre l’istanza del documento va dalla quarta riga, dove è speciﬁcata l’apertura dell’elemento radice, ﬁno alla ﬁne. 89

TESTO E COMPUTER

ESEMPIO 3.2 Frammento di testo con marcatura

XML

< ?xml version = ”1.0” encoding = ”UTF-8”? > < !DOCTYPE libro SYSTEM “libro.dtd” > < !-- qui comincia l’istanza del documento -- > < libro > < titolo > Le avventure di Pinocchio < sottotitolo > Storia di un burattino < /sottotitolo > < /titolo > < autore > Carlo Collodi < /autore > < parte p_id = ”1” > < titolo > Parte prima < /titolo > < capitolo c_id = ”p_I” > < titolo > Come andò che maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. < /titolo > < capoverso num = ”p1c1c1” > C’era una volta... < /capoverso > < capoverso num = ”p1c1c2” > - Un re! – diranno subito i miei piccoli lettori. < /capoverso > < capoverso num = ”p1c1c3” > No, ragazzi, avete sbagliato. C’era una volta un pezzo di legno. < /capoverso > < capoverso num = ”p1c1c4” > Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d’inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. < /capoverso > < !-- altri capoversi del capitolo qui -- > < /capitolo > < !-- altri capitoli della parte qui -- > < /parte > < !-- altre parti qui -- > < /libro >

Nella dichiarazione del tipo di documento abbiamo indicato il nome del ﬁle della DTD corrispondente 16. Se apriamo il documento XML riportato sopra con un browser come Internet Explorer, otteniamo una 16. Se mettiamo come in questo caso solo il nome del ﬁle della DTD, al momento della validazione del documento dobbiamo assicurarci che il ﬁle XML e la DTD siano nella stessa cartella sul computer. Ovviamente la DTD può anche essere messa in una cartella differente, ma in questo caso nella dichiarazione del tipo di documento dobbiamo speciﬁcare il percorso completo di cartelle e sottocartelle dove si trova la DTD, per dare la possibilità al parser di recuperarla.

90

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

3.1 Visualizzazione in Internet Explorer del testo marcato nell’esempio 3.2 FIGUR A

“visione ad albero” del documento XML (riportata nella FIG. 3.1), dove la struttura gerarchica sottostante è ricostruibile a partire dall’indentazione dei vari elementi costitutivi del testo. Possiamo anche notare che i riferimenti a entità sono stati sostituiti con il corrispondente carattere accentato. 3.6 Standard e codiﬁca del testo La comunità scientiﬁca ha da tempo avvertito la necessità di poter condividere e scambiare testi digitali codiﬁcati: questo non solo per ampliare la circolazione di materiali e risorse utili per la ricerca, ma anche per minimizzare la sovrapposizione e la duplicazione di iniziative, quali la creazione e la codiﬁca di un corpus, che richiedono un investimento economico, temporale e organizzativo non indifferente. La codiﬁca testuale effettuata sulla base di un metalinguaggio di marcatura standard come XML fa sì che il testo sia elaborabile da una ricca varietà di strumenti software, salvaguardando al contempo l’indipendenza dei dati codiﬁcati rispetto a un’applicazione speciﬁca e a un sistema operativo. Per questi motivi, possiamo affermare che l’uso 91

TESTO E COMPUTER

dello standard XML per la codiﬁca digitale del testo rende indubbiamente più facile e immediata la condivisione di testi digitali. Rimane tuttavia da veriﬁcare se l’uso di XML sia di per sé sufﬁciente ad assicurare una completa condivisibilità e interscambiabilità del testo digitale: ad esempio, se questo basti a rendere immediatamente utilizzabile per i nostri scopi di ricerca un testo codiﬁcato da altri, oppure a mettere a disposizione di altri utenti un testo rappresentato secondo le nostre convenzioni. Come illustrato nelle precedenti sezioni, XML non fornisce alcuna prescrizione relativamente alla tipologia, alla quantità e al nome dei marcatori – ovvero in relazione al contenuto della codiﬁca – ma si occupa esclusivamente di fornire un insieme di regole formali per la deﬁnizione di un linguaggio di marcatura. La conformità di un testo allo standard XML riguarda pertanto solo la forma della sua rappresentazione digitale, cioè le regole di buona formazione del documento XML. Una condizione senz’altro necessaria, ma non sufﬁciente, perché il testo codiﬁcato sia immediatamente condivisibile e interpretabile da un utente esterno. Una reale condivisione del contenuto della codifica deve necessariamente passare attraverso la conoscenza del repertorio delle categorie usate, del loro significato e delle loro relazioni, così come della batteria di criteri per la loro applicazione al testo. Riprendendo un uso terminologico introdotto nel capitolo precedente, ciò implica che un’effettiva interscambiabilità del testo digitale può essere garantita soltanto da una codifica basata su uno schema di codifica e annotazione il più possibile condiviso, ovvero su uno schema standard. Dal punto di vista di XML ciò equivale a dire che la codifica deve essere basata su una DTD standard, accompagnata da un insieme di specifiche che forniscono i criteri di applicazione al testo dei marcatori. Un’opera di codiﬁca che utilizzi un metalinguaggio di marcatura standard e uno schema standard di codiﬁca e annotazione trasforma il testo digitale in una risorsa di informazione pronta all’uso. In questo modo viene garantito che l’informazione codiﬁcata nel testo sia interscambiabile e condivisibile sia a un livello formale (quello del metalinguaggio) sia a un livello “semantico” (riguardante il contenuto della codiﬁca). La consapevolezza dell’importanza di una sempre maggiore interscambiabilità a livello di contenuto del materiale testuale ha condotto alla nascita di una serie di iniziative internazionali per la progressiva standardizzazione della rappresentazione digitale del testo. 92

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

3.6.1. Iniziative internazionali di standardizzazione della codiﬁca del testo Dal 1987, la Association for Computers and the Humanities (ACH), la Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC) hanno avviato un progetto internazionale per lo sviluppo di un modello di codiﬁca dell’informazione testuale in formato digitale che intende proporsi come punto di riferimento – o standard – a livello internazionale. Questo progetto – denominato Text Encoding Initiative (TEI) e documentato alla pagina http://www.tei-c.org/ – ha già realizzato diverse versioni di raccomandazioni per la codiﬁca digitale di dati umanistico-letterari: la prima versione, basata sul linguaggio di marcatura SGML, è uscita nel 1994 con il titolo Guidelines for Electronic Text Encoding and Interchange (TEI P3); a questa, è seguita una nuova versione nel 2002 (TEI P4) basata su XML; attualmente, è in corso di deﬁnizione la versione TEI P5. Oggi, la conformità alle speciﬁche TEI rappresenta un requisito importante per garantire l’effettiva condivisibilità dei testi codiﬁcati. Le raccomandazioni TEI sono costituite da un insieme modulare di DTD (prima in SGML, ora in XML) che comprende circa 400 marcatori diversi; sono state progettate per consentire la rappresentazione elettronica di un’amplissima gamma di tipologie di testi (opere di prosa, articoli di giornale, componimenti poetici, opere teatrali, fonti manoscritte, solo per menzionarne alcune), per le ﬁnalità e gli usi più vari che spaziano dalla costruzione dell’edizione critica di un’opera, a studi stilistici, analisi linguistiche e strutturali del testo e così via 17. La ﬂessibilità e la generalità di queste raccomandazioni costituiscono al tempo stesso il punto di forza e di debolezza dello schema di codiﬁca TEI. Come conseguenza di ciò, sono nate una serie di iniziative ﬁnalizzate ad applicare, ovvero specializzare ed estendere, lo schema TEI rispetto a particolari campi di studio, identiﬁcando i parametri di codiﬁca rilevanti e colmando al contempo le inevitabili lacune delle raccomandazioni TEI in relazione a speciﬁci aspetti di codiﬁca. Di particolare interesse per la comunità internazionale della LC è CES (Corpus Encoding Standard, Ide, Priest-Dorman and Veronis,

17. Al ﬁne di facilitare l’applicazione dello schema di codiﬁca della TEI da parte di una vasta utenza e senza richiedere lo studio dell’intero schema di codiﬁca è stato sviluppato un sottoinsieme denominato TEI Lite che permette la creazione di documenti “TEI–compliant” (cioè validi rispetto all’intero schema) in maniera rapida, e si presta facilmente allo sviluppo di applicazioni. Maggiori dettagli su TEI Lite possono essere trovati al seguente indirizzo: http://www.tei-c.org/Lite/.

93

TESTO E COMPUTER

1996), un’iniziativa volta alla deﬁnizione di uno schema di codiﬁca standard ﬁnalizzato all’analisi linguistica del testo sia per scopi di ricerca sia nell’ambito di applicazioni di ingegneria del linguaggio. Lo standard CES è nato come parte delle raccomandazioni del progetto dell’Unione europea EAGLES (Expert Advisory Group for Language Engineering Standards) 18 per quanto riguarda la codiﬁca di corpora testuali. Con l’avvento di XML, lo standard CES si è evoluto in XCES (XML Corpus Encoding Standard, 2002) 19. Lo standard CES/XCES è stato adottato per la codiﬁca di numerosi corpora: tra gli esempi principali possiamo ricordare i corpora multilingui paralleli Multext e Multext-East, i corpora della famiglia Parole e più di recente l’American National Corpus (cfr. PAR. 1.2.1), attualmente in fase di sviluppo. Vediamo adesso più da vicino le caratteristiche principali dello standard XCES. 3.6.2. Lo schema di codiﬁca

XCES

Lo schema di codiﬁca XCES distingue tre categorie di informazione che rivestono un ruolo importante nella codiﬁca del testo ﬁnalizzata a elaborazioni automatiche: 1. documentazione: include informazione globale sul testo, sul suo contenuto e la sua codiﬁca; ad esempio, la descrizione bibliograﬁca del documento, il set di caratteri usato, la descrizione di convenzioni di codiﬁca; 2. dato linguistico primario: all’interno di questa categoria vengono distinti due tipi di informazioni: – macrostruttura del testo: include elementi testuali ﬁno a livello di capoverso (che rappresenta l’unità più piccola che può essere identiﬁcata indipendentemente dalla lingua): ad esempio volume, parte, capitolo ﬁno al livello di capoverso, così come titoli, sezioni, note, didascalie ecc. 20;

18. EAGLES è stata in realtà un’iniziativa internazionale di standardizzazione dalle ambizioni molto più ampie, che ha abbracciato aspetti molteplici e diversi della linguistica computazionale e dell’ingegneria del linguaggio, come la composizione e la rappresentazione di corpora testuali, lessici computazionali sintattici e semantici, formalismi linguistico-computazionali ecc. Il progetto EAGLES è stato ideato e diretto da Antonio Zampolli. 19. Lo standard XCES, sviluppato successivamente a partire da CES, è il risultato della collaborazione tra il Department of Computer Science, Vassar College (USA), e l’Equipe Langue et Dialogue, LORIA/CNRS (Francia). 20. Pertengono a questo livello anche aspetti di composizione tipograﬁca del testo e informazione non testuale (ad esempio immagini).

94

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

– microstruttura del testo: include elementi che appaiono sotto il livello del capoverso che sono spesso segnalati nel testo – talora in modo ambiguo – mediante convenzioni tipograﬁche dipendenti dalla lingua. Ad esempio, periodi, citazioni, abbreviazioni, nomi propri, date, termini evidenziati ecc.; 3. annotazione linguistica: arricchisce il testo associando al dato linguistico primario vari livelli di interpretazione linguistica. Tipicamente l’annotazione linguistica avviene in relazione alla microstruttura del testo, e include informazione relativa ai vari livelli di descrizione linguistica, ovvero informazione morfologica, morfo-sintattica, sintattica, semantica ecc. XCES fornisce una serie di raccomandazioni per la codiﬁca del dato linguistico primario e la relativa documentazione, brevemente illustrate di seguito, così come dà indicazioni sulla codiﬁca dell’annotazione linguistica, sulle quali torneremo nel CAP. 8. Ogni testo codificato conformemente alle specifiche XCES è articolato in due parti, individuate rispettivamente dagli elementi < cesHeader > e < text > , entrambi obbligatori. L’elemento < cesHeader > , corrispondente alla categoria “documentazione”, è usato per rappresentare informazioni bibliografiche ed editoriali relative al testo codificato che sono espresse in termini di metadati, ovvero “dati sui dati” 21. L’elemento < text > , usato per rappresentare il dato linguistico primario, contiene la codifica digitale del testo vero e proprio. La struttura generale di ogni testo conforme alle specifiche XCES è la seguente: < cesCorpus > < cesHeader > [metadati] < /cesHeader > < text > [contenuto testuale] < /text > < /cesCorpus >

L’elemento < cesHeader > si articola in quattro sotto-elementi che forniscono la descrizione bibliograﬁca del testo ( < fileDesc > ), indicazioni sulla fonte originale del testo e la sua codiﬁca elettronica ( < encodingDesc > ), informazioni relative ad altri aspetti del testo 21. I metadati costituiscono in qualche modo il “curriculum vitae” dei dati, ovvero raccolgono le informazioni relative al dove, al quando, al come e da chi i dati sono stati ottenuti. Si tratta quindi di un corredo indispensabile per rendere tali dati fruibili correttamente da chiunque, anche a distanza di tempo e di spazio.

95

TESTO E COMPUTER

quali la lingua ( < profileDesc > ) e un sommario del processo di revisione della versione elettronica del testo ( < revisionDesc > ). Con l’elemento < text > viene codiﬁcata l’articolazione interna del testo che raggruppa le frasi che lo compongono in blocchi testuali, deﬁnendo una struttura gerarchica a più livelli in cui ogni livello può presentare più occorrenze, come esempliﬁcato di seguito nella codiﬁca XCES di parte del frammento testuale dell’esempio 3.2: < text > < body > < div type = ”Part” n = ”1” > < head > Parte prima < /head > < div type = ”Chapter” n = ”I” > < head > Come andò che maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. < /head > < p id = ”p1” > < s id = ”p1s1” > C’era una volta... < /s > < /p > < p id = ”p2” > < s id = ”p2s1” > - Un re! – diranno subito i miei piccoli lettori. < /s > < /p > < p id = ”p3” > < s id = ”p3s1” > No, ragazzi, avete sbagliato. < /s > < s id = ”p3s2” > C’era una volta un pezzo di legno. < /s > < /p > < !-- altri capoversi del capitolo qui -- > < /div > < !-- altri capitoli della parte qui -- > < /div > < /body > < /text > < body > è l’elemento che contiene il corpo del testo. L’elemento < div > è usato per la marcatura delle divisioni strutturali del testo il cui tipo è speciﬁcato dall’attributo type (gli elementi di tipo < div >

nell’esempio sopra corrispondono rispettivamente alla suddivisione in parti e capitoli del testo) 22. L’elemento < head > contiene il titolo di 22. I testi mostrano un’ampia variazione per quanto riguarda la tipologia di suddivisioni strutturali e la loro articolazione interna: a seconda del genere a cui appartie-

96

3.

COSTRUIRE UN LINGUAGGIO DI MARCATURA

suddivisioni strutturali, mentre < p > è il tag che identiﬁca l’elemento capoverso (paragraph), la più piccola unità testuale di tipo strutturale in cui può essere diviso un testo in prosa. Inﬁne, all’interno di ogni capoverso, sono marcati elementi della microstruttura del testo, ad esempio le frasi contrassegnate dall’etichetta < s > (sentence). Riguardo alla rappresentazione del dato linguistico primario, XCES ha identiﬁcato diversi livelli di codiﬁca ai quali un testo può essere sottoposto. Si va da un livello minimale, che prevede la codiﬁca della macrostruttura del testo ﬁno al livello di capoverso, a livelli più complessi che richiedono una marcatura più ricca e articolata per quanto riguarda gli elementi interni ai capoversi (si va dalla marcatura di citazioni a quella di abbreviazioni, numeri e parole straniere). 3.7 Considerazioni conclusive Nei tre capitoli di questa prima parte del libro, incentrata sui dati della lingua e la loro rappresentazione, abbiamo visto il testo trasformarsi da generica fonte di dati linguistici (come tratteggiato nel CAP. 1) in vera e propria fonte di informazione linguistica (CAP. 2). Si tratta di un passaggio che è mediato da un complesso processo di codiﬁca articolato su due livelli: una codiﬁca di livello zero, che assegna a ogni carattere del testo una rappresentazione binaria, e una codiﬁca di alto livello che associa al dato testuale primario informazione interpretativa che spazia da una descrizione dell’organizzazione testuale a rappresentazioni più propriamente linguistiche. È appunto una codiﬁca di questo tipo che arricchisce il valore informativo del dato testuale primario, rendendolo suscettibile di una vasta gamma di analisi ed elaborazioni nel campo della LC. L’affermarsi di metalinguaggi di marcatura standard come XML e il diffondersi di schemi standard di codiﬁca del testo (entrambi trattati in questo capitolo) hanno permesso ai corpora testuali codiﬁcati di compiere un ulteriore passo in avanti, ovvero di trasformarsi in risorse di informazione linguistica, interscambiabili e portabili, a disposizione della comunità scientiﬁca. Questo processo ha indubbiamente facilitato la formazione di un vero e proprio spazio virtuale, in continua espansione, popolato di risorse di informazioni linguistiche “aperte e dotate di vita autonoma”: risorse cioè che possono essere ne, il testo si articola in diversi tipi di unità (capitoli, sezioni, parti ecc.). La codiﬁca mediante un elemento sottospeciﬁcato ( < div > ) permette la massima ﬂessibilità dello schema di codiﬁca e l’adattabilità a diversi generi testuali.

97

TESTO E COMPUTER

condivise, utilizzate e aggiornate dalla comunità di ricerca, in un ciclo virtuoso che coniuga esigenze di autonomia e cooperazione scientiﬁca. Per saperne di più PIERAZZO E.

(2005), La codiﬁca dei testi. Un’introduzione, Carocci, Roma (capp. 3 e 4). SPERBERG-MCQUEEN C. M., BURNARD L. (eds.) (2002), TEI P4: Guidelines for Electronic Text Encoding and Interchange, Text Encoding Initiative Consortium, XML Version, Oxford, Providence, Charlottesville, Bergen.

Siti web Il sito sull’Extensible Markup Language (XML) del Consorzio W3C, http:// www.w3.org/XML/ Traduzione italiana delle raccomandazioni del W3C Extensible Markup Language (XML) 1.0, a cura di Andrea Marchetti, http://www.xml.it:23456/XML/ REC-xml-19980210-it.html Corso introduttivo su XML nel sito delle W3CSCHOOLS: http://www.w3schools.com/xml/default.asp TEI Home Page, http://www.tei-c.org/ CIOTTI F. (a cura di) (1995), TEI Lite, traduzione italiana della TEI U5 1995, http://www.tei-c.org/Lite/teiu5_it.html Corpus Encoding Standard (CES), http://www.cs.vassar.edu/CES/ Versione XML di CES, http://www.cs.vassar.edu/XCES/

98

Parte seconda Metodi e tecniche di analisi testuale

4 Dal bit alla parola

Questa seconda parte del libro è dedicata a illustrare alcune tecniche di base per l’analisi computazionale del testo. In particolare, nei prossimi due capitoli verranno presentati metodi quantitativi che permettono di ricavare informazioni sulla lingua e sui principi della sua organizzazione proprio analizzando come le parole si distribuiscono nei testi. L’applicazione appropriata di tali metodi computazionali presuppone che il computer sia in grado di identiﬁcare quali sono le parole in un testo. A prima vista questo sembra essere un problema banale, dal momento che le parole di un testo ci appaiono sullo schermo di un computer con la stessa evidenza e la stessa naturalezza con cui siamo abituati a vederle sulla carta. In realtà, però, come si è detto nel CAP. 2, dietro le quinte la situazione è molto più complessa. Essere in grado di riconoscere una parola in un testo richiede, infatti, criteri di identiﬁcazione molto differenti che riguardano aspetti graﬁci, morfo-sintattici e semantici. Dall’altro lato, per un computer un testo è semplicemente un insieme di righe, ciascuna formata da una sequenza di caratteri che termina con un ritorno accapo. Il problema cruciale è che non esiste nessuna corrispondenza diretta tra una sequenza di caratteri e una parola, e le righe di un ﬁle non coincidono necessariamente né con una frase né con un capoverso. Le parole sono prima di tutto unità linguistiche e di contenuto, che devono essere quindi ricostruite a partire dalla sequenza di cifre binarie che costituiscono la “materia” del testo digitale. Questo lo si può fare solo dotando il computer di una serie di conoscenze sulla struttura e sulle convenzioni della lingua che permettano di eliminare o almeno ridurre le differenze tra l’organizzazione ﬁsica del testo digitale (come il computer vede il testo) e l’organizzazione logica del testo, con il suo “tessuto linguistico” di parole che a loro volta si combinano in unità più complesse (ad esempio sintagmi, frasi, paragraﬁ ecc.). Nel PAR. 4.2 vedremo come il linguaggio delle espressioni regolari permette di tradurre tali conoscenze in regole formali direttamente interpretabili 101

TESTO E COMPUTER

dal computer e che lo mettono dunque in grado di identiﬁcare le parole in un testo sulla base di criteri linguisticamente motivati. Al tempo stesso, familiarizzare con le espressioni regolari permetterà al lettore di impadronirsi di uno strumento fondamentale per eseguire esplorazioni avanzate dei dati testuali (cfr. PAR. 7.3). 4.1 La “tokenizzazione” del testo In LC le unità di base del testo digitale sono i “token”, una famiglia alquanto eterogenea che raggruppa oltre alle parole ortograﬁche tradizionali (con alcune importanti distinzioni cui accenneremo più avanti), anche numeri, sigle, segni di punteggiatura, nomi propri e altri strani esemplari del “bestiario” testuale. Sebbene i token possano essere anche delle entità complesse con costituenti interni talvolta ben riconoscibili (come nel caso dei morfemi o i componenti di una data), tuttavia sono tutti accomunati dalla caratteristica di rappresentare le unità di base per i successivi livelli di elaborazione (morfologico, sintattico ecc.). Il processo di segmentazione del testo in token è detto “tokenizzazione” e può essere realizzato automaticamente attraverso l’uso di appositi programmi chiamati “tokenizzatori” (cfr. Scheda on line 4.1). Sebbene la nozione di token includa, come abbiamo detto, quella di parola, è importante tenere presente che è al tempo stesso assai più semplice di quest’ultima. Infatti, come vedremo nel PAR. 4.1.1, i token sono identiﬁcati nel testo sulla base di caratteristiche superﬁciali, pertinenti alla sua codiﬁca di livello zero. La tokenizzazione, pertanto, non si basa su espliciti criteri morfologici, sintattici o semantici, che invece entrano a pieno titolo nella deﬁnizione linguistica di parola. Ad esempio, dal punto di vista della tokenizzazione del testo, darglielo è considerato come un token unico, anche se dal punto di vista morfo-sintattico è in realtà composto da tre unità distinte (l’inﬁnito del verbo DARE seguito da due pronomi clitici) 1. La tokenizzazione è generalmente considerata un compito abbastanza semplice per quelle lingue come l’italiano che adottano la convenzione ortograﬁca di delimitare le parole con spazi. Altre lingue, come il cinese o il giapponese, hanno invece un sistema ortograﬁco continuo e le parole ricorrono una di seguito all’altra, senza segni di separazione. In tali casi, la tokenizzazione del testo è un’operazione estremamente complessa e richiede l’uso di algoritmi soﬁsticati, che 1. Da ora in avanti l’uso del maiuscoletto indica che una particolare forma è usata per denotare un esponente lessicale (o lemma).

102

4.

DAL BIT ALLA PAROLA

ricorrono generalmente a modelli statistici e a lessici di riferimento per operare il riconoscimento delle parole nel testo. Nelle lingue a ortograﬁa continua la tokenizzazione del testo assomiglia al problema che si pone per il riconoscimento e l’interpretazione del linguaggio parlato: in questo caso, infatti, l’input è costituito da un segnale acustico continuo che deve essere segmentato e proiettato su sequenze di unità discrete, le parole, il cui riconoscimento è la precondizione per poter decodiﬁcare il contenuto del messaggio. Limitandoci al caso delle lingue con ortograﬁa segmentata, in prima approssimazione potremmo deﬁnire un token come una qualsiasi sequenza di caratteri delimitata da spazi (comprendendo in questa nozione anche il segno di tabulazione, l’inizio riga e l’accapo). Questo fornirebbe ai tokenizzatori un criterio banale per la segmentazione del testo, poiché i conﬁni tra i token potrebbero essere riconosciuti semplicemente individuando i caratteri di spazio nel testo. In realtà, però, questo tipo di soluzione è troppo riduttiva, come si evince dall’esempio seguente: C’era una volta un pezzo di legno. Adottando il criterio degli spazi come delimitatori di token, il testo verrebbe segmentato in questo modo: C’era | una | volta | un | pezzo | di | legno. Il risultato contiene delle unità di analisi non appropriate. La sequenza C’era, considerata un token unico, si compone invece, da un punto di vista linguistico, di due unità distinte, il clitico con elisione C’ seguito da era come voce del verbo essere. Analogamente il token legno. dovrebbe essere segmentato nei token distinti legno e il segno di punteggiatura. Poiché vogliamo che i token corrispondano a unità linguisticamente plausibili, il risultato che vogliamo ottenere è il seguente, in cui il testo viene ora segmentato in 9 token: C’ | era | una | volta | un | pezzo | di | legno | . Dunque, sebbene nelle lingue a ortograﬁa non continua gli spazi siano degli indicatori utili per riconoscere i conﬁni tra token, essi non sono di per sé sufﬁcienti a garantire la corretta segmentazione del testo. Poiché i token rappresentano le unità di base per le nostre analisi computazionali, la loro identiﬁcazione deve essere guidata da criteri strettamente linguistici. 103

TESTO E COMPUTER

4.1.1. I criteri per la tokenizzazione Ciò che rende la tokenizzazione un’operazione non banale anche per una lingua come l’italiano è che le convenzioni ortografiche e la struttura del lessico fanno sì che non esista un rapporto biunivoco tra sequenze di caratteri delimitati da spazi e i token come unità linguistiche di base. Una sequenza continua di caratteri può infatti corrispondere a più di un token, come nel caso di C’era nell’esempio precedente. Viceversa, sequenze di caratteri contenenti spazi possono costituire un token unico: ad esempio, il nome La Spezia rappresenta dal punto di vista linguistico un elemento atomico e per tanto deve essere considerato come un solo token, nonostante includa uno spazio. La variabilità linguistica incide enormemente sulla complessità della segmentazione del testo, così come su tutte le dimensioni di organizzazione linguistica. A livello della tokenizzazione, la variabilità riguarda le diverse convezioni ortograﬁche che vengono adottate a seconda del tipo di testo, genere o registro. Una stessa parola può infatti avere più varianti ortograﬁche, non di rado addirittura nello stesso testo: ad esempio, database si alterna spesso a data base, e similmente markup viene anche reso con mark-up o con mark up. Lo stesso vale anche per parole italiane composte o preﬁssate: una semplice ricerca sul web evidenzia come il termine semilavorato si trovi attestato anche nelle varianti semi-lavorato, semi lavorato e semi – lavorato. La tokenizzazione deve essere dunque in grado di gestire le varianti ortograﬁche delle parole, eventualmente provvedendo a una loro normalizzazione. Non solo, infatti, casi come semi lavorato o data base devono essere considerati come token unici, ma è certamente preferibile riportare le loro varianti a una forma ortograﬁca di base, per garantire il loro trattamento unitario nelle successive analisi linguistiche. Esiste anche una forte variabilità interlinguistica. Le date sono scritte secondo convenzioni diverse in italiano e in inglese; Manning e Schütze (1999, p. 131) riportano un impressionante numero di varianti nel modo di scrivere i numeri telefonici a seconda del paese e della lingua. Le convenzioni per la scrittura dei numeri sono anch’esse soggette a variazione interlinguistica: 45.632,5 viene scritto 45,632.5 in inglese e 45 632,5 in francese. In alcune lingue, inoltre, i composti nominali sono normalmente scritti senza spazi di separazione: ad esempio carta di credito diventa credit card in inglese ma Kreditkarte in tedesco. 104

4.

DAL BIT ALLA PAROLA

La corretta tokenizzazione del testo richiede dunque tre passi fondamentali: 1. stabilire con precisione quali siano le unità linguistiche atomiche di interesse, per deﬁnire i tipi di token in cui il testo deve essere segmentato; 2. individuare la metodologia e i criteri più opportuni per l’identiﬁcazione dei token e le necessarie operazioni di elaborazione del testo. Queste comprendono tipicamente i. la separazione di sequenze di caratteri che devono essere analizzate come token multipli, ii. l’accorpamento in un unico token di elementi distinti e iii. la normalizzazione di eventuali varianti ortograﬁche delle parole; 3. esprimere i criteri e le trasformazioni necessarie in un linguaggio formale (come ad esempio le espressioni regolari, cfr. PARR. 4.2 e 4.3) che sia traducibile in un programma eseguibile dal computer. Le modalità con le quali va effettuata la tokenizzazione dipendono fortemente dal tipo di linguaggio e dal genere del testo, così come dal tipo di analisi computazionale a cui siamo interessati. Generi e testi differenti possono porre problemi diversi in fase di tokenizzazione e richiedono soluzioni speciﬁche. Come per tutti i tipi di analisi computazionale, è dunque fondamentale deﬁnire i criteri e i processi di tokenizzazione sulla base di un’analisi preliminare di un corpus sufﬁcientemente rappresentativo del tipo di linguaggio e di struttura testuale su cui poi il tokenizzatore dovrà operare. Vediamo adesso più da vicino i problemi principali della tokenizzazione e alcuni criteri linguistici per la loro soluzione. Punteggiatura e altri segni ortograﬁci I segni di punteggiatura compaiono attaccati o alla parola che li precede (ad esempio virgole, punti, virgolette e parentesi di chiusura ecc.) o alla parola che li segue (ad esempio virgolette e parentesi di apertura ecc.). Inoltre, quando una parola include l’apice come segno di elisione, questa viene scritta attaccata alla parola che segue (ad esempio c ’ era). I segni di punteggiatura devono però essere considerati come token indipendenti, ed è dunque necessario separarli, in fase di tokenizzazione, dalla parola a cui si accompagnano. Dal momento che i segni di interpunzione costituiscono un insieme assai ristretto e comunque ben deﬁnibile, la loro individuazione e trasformazione in token indipendenti potrebbe apparire un’operazione banale. Il problema è che la punteggiatura è ambigua, ovvero lo stesso segno di interpunzione ha usi diversi, che richiedono tratta105

TESTO E COMPUTER

TABELLA 4.1 Usi principali del punto

Fine frase Abbreviazioni Acronimi cifre decimali date indirizzi internet o e-mail

C’era una volta un pezzo di legno. Sig. Rossi ecc. U.S.A. 9.45 25.12.2004 www.google.it ecc.

menti diversi in fase di tokenizzazione. L’esempio prototipico di punteggiatura ambigua è il carattere punto (.), di cui la TAB. 4.1 illustra alcuni degli usi principali. Il punto di ﬁne frase deve essere considerato come un token indipendente, mentre nel caso di acronimi e abbreviazioni il punto è parte integrante dell’elemento a cui si accompagna e con cui forma dunque un token unico. Per una corretta tokenizzazione del testo è dunque necessario disambiguare la punteggiatura sulla base del contesto in cui essa compare. Mentre riconoscere l’uso del punto come separatore di cifre o nelle date può essere semplice, non altrettanto facile è identiﬁcare il suo uso come delimitatore di frasi. Il metodo più comune per il riconoscimento del punto di ﬁne frase si basa sulla seguente euristica (comunemente detta regola del “punto-spazio-maiuscola”): un punto segnala la ﬁne della frase se è seguito da uno spazio e da una parola con l’iniziale maiuscola. Questa euristica da sola è in grado di riconoscere correttamente ﬁno a oltre il 90% dei punti di ﬁne frase. Vi sono però eccezioni di cui tenere conto: ad esempio, una sequenza che soddisfa questo stesso criterio è Sig. Rossi, in cui però il punto non segnala la ﬁne di frase. La regola del “punto-spazio-maiuscola” deve, dunque, essere arricchita con la condizione che la parola che precede il punto non sia un’abbreviazione. Per rendere più complesso il problema, quando un’abbreviazione compare alla ﬁne della frase, il punto assolve sia alla funzione di terminatore di frase sia di parte dell’abbreviazione (ad esempio Ho letto libri, giornali ecc.). È importante osservare che il corretto riconoscimento dei punti di ﬁne frase ha dei risvolti linguistici molto importanti che riguardano il processo di segmentazione del testo in frasi. Dal momento che le frasi sono le unità linguistiche fondamentali a livello sintattico, la corretta identiﬁcazione dei loro conﬁni è un passo preliminare fondamentale per ogni processo di analisi sintattica automatica (parsing) del testo. Il punto non è un caso isolato. Il segno di apice (’) può essere usato anch’esso in modi diversi: apostrofo (l’uomo), virgoletta (il ‘tre106

4.

DAL BIT ALLA PAROLA

no’ della sera), accento (poiche’) ecc. Di nuovo, a seconda del contesto in cui questo carattere ricorre, la tokenizzazione deve avere esiti diversi. Ad esempio, se usato come virgoletta, l’apice deve essere considerato come token indipendente, se usato come segno di elisione deve invece comparire associato alla parola che precede, inﬁne se è segno di aferesi esso deve essere associato alla parola che segue (ad esempio ‘ntorno, ‘sto). Maiuscole e minuscole I computer sono case-sensitive, ovvero codiﬁcano i caratteri maiuscoli in maniera diversa dai caratteri minuscoli (cfr. Scheda on line 2.2). Di conseguenza, dal punto di vista della loro rappresentazione digitale casa, Casa e CASA sono tre token del tutto differenti (a meno che un programma non disponga di una funzionalità speciﬁca per ignorare la distinzione tra maiuscole e minuscole). Il problema è che le convenzioni ortograﬁche e stilistiche rendono l’uso e la distribuzione delle maiuscole nei testi estremamente complesso. Tra gli usi dei caratteri maiuscoli troviamo infatti i seguenti: a) segnalare l’inizio di una frase, b) esprimere enfasi (ad esempio AIUTO!!), c) distinguere i titoli da altre parti del testo. Questi usi della maiuscola non sono però necessariamente correlati a distinzioni di natura linguistica. È infatti plausibile affermare che nella frase Il burattino legge il libro lo stesso articolo il ricorra due volte, anche se la prima occorrenza ha la lettera iniziale maiuscola. Se vogliamo sottoporre un testo a un’analisi quantitativa calcolando il numero di occorrenze delle sue parole può essere necessario che in un caso simile il computer consideri i due articoli come occorrenze dello stesso tipo di token, sebbene inizino con caratteri differenti (cfr. PAR. 5.2). Questo può essere ottenuto eseguendo una semplice conversione di ogni carattere maiuscolo nel testo in minuscolo o viceversa. A un esame attento, però, questa strada risulta troppo semplicistica e di fatto impraticabile. Come è noto, infatti, accanto agli usi riportati sopra, la maiuscola è anche impiegata per marcare l’iniziale dei nomi propri (ad esempio Pinocchio) e in tedesco addirittura di qualsiasi nome; ugualmente maiuscoli sono anche generalmente le sigle e gli acronimi (ad esempio ITA, USA ecc.). In questi casi, annullare la distinzione maiuscolo/minuscolo è problematico. Prima di tutto, perdiamo informazione importante per distinguere i nomi propri da altre categorie grammaticali. In secondo luogo vengono introdotte omograﬁe, con effetti potenzialmente molto negativi sulle indagini linguistiche. Molti nomi propri possono infatti risultare ambigui con termini comuni: se 107

TESTO E COMPUTER

trasformati in minuscolo, il cognome Rossi diventa indistinguibile dal plurale dell’aggettivo ROSSO, e il nome Ciliegia di un personaggio di Pinocchio si viene a confondere con l’omonimo frutto. Anche nel caso degli acronimi, la loro conversione in minuscolo può renderli indistinguibili da parole comuni (si pensi a USA e usa, NATO e nato ecc.). Ovviamente queste ambiguità possono essere risolte andando a vedere come è usato il token nel testo, ma in LC è bene evitare il proliferare di tali omograﬁe. È dunque necessario operare un processo di normalizzazione “intelligente” delle maiuscole nel testo, ovvero individuare criteri afﬁdabili per decidere quando un token maiuscolo debba essere considerato equivalente al suo corrispettivo minuscolo e quando invece questa equivalenza non sussista. Un semplice criterio euristico può essere quello di convertire in minuscolo solo le parole all’inizio di frase o all’interno di un titolo. Il problema è che non è sempre banale distinguere l’inizio di una frase: questo segue generalmente un punto (semplice, esclamativo o interrogativo), che come abbiamo visto sopra è spesso a sua volta carico di ambiguità. Ugualmente complesso è riconoscere i titoli, anche se in questo caso l’eventuale presenza di codici di marcatura del testo ci può essere di aiuto. Inoltre, è perfettamente possibile che un nome proprio o una sigla ricorra come prima parola di una frase o dentro il titolo, e che dunque la conversione annulli una differenza signiﬁcativa. In realtà, il trattamento dei caratteri maiuscoli è un problema delicato che costringe a scelte ponderate e legate al tipo di testo e di analisi da effettuare. Non esistono infatti soluzioni univoche. L’uso delle maiuscole è governato non solo da convenzioni ortograﬁche e stilistiche, ma anche da competenze e fattori strettamente linguistici, come la capacità di distinguere i nomi propri, di individuare i conﬁni di frase ecc. Rendere il computer in grado di effettuare normalizzazioni intelligenti e accurate dei caratteri maiuscoli signiﬁca in effetti dotarlo di conoscenze signiﬁcative e avanzate sulla lingua e sulle sue convenzioni. Acronimi e abbreviazioni In molti tipi di testi (normative e regolamenti, manuali tecnici, articoli scientiﬁci ecc.) l’uso di abbreviazioni e acronimi è estremamente diffuso: L’art. 1, par. 3, del reg. (CE) n. 1257/1999 del Consiglio, del 17 maggio 1999, sul sostegno allo sviluppo rurale da parte del Fondo europeo agricolo

108

4.

DAL BIT ALLA PAROLA

di orientamento e garanzia (FEAOG), che modiﬁca e abroga taluni regolamenti (GU L 161 del 26.6.1999, pag. 1), ...

La loro corretta tokenizzazione è dunque necessaria non solo per un’appropriata preparazione del testo, ma anche per garantire che abbreviazioni e acronimi siano riconosciuti in maniera adeguata. Essi giocano un ruolo chiave per ricostruire e interpretare il contenuto informativo del testo: infatti, gli acronimi di regola sostituiscono i termini complessi corrispondenti in tutte le funzioni linguistiche espletate da questi ultimi. Inoltre, queste espressioni hanno un altro tasso di variazione strutturale: lo stesso acronimo può essere scritto senza punti (USA), con i punti (U.S.A.), con punti separati da spazi (U. S. A.) ecc., non di rado con diverse varianti che ricorrono nello stesso testo. Lo stesso termine può inoltre essere abbreviato in modi diversi (ad esempio pagina può diventare pg., pag., p. ecc.), a seconda del genere, stile o delle convenzioni tipiche di una certa comunità. La difficoltà maggiore posta da questi tipi di espressioni è comunque la loro produttività: nuove abbreviazioni e acronimi sono creati in continuazione, venendo a costituire di fatto una classe aperta di unità linguistiche che non possono essere elencate in maniera esaustiva. La strategia più diffusa ed efﬁcace adottata dai tokenizzatori per gestire le abbreviazioni e gli acronimi è quella di combinare la consultazione di elenchi e glossari contenenti le espressioni più comuni, con l’uso di regole euristiche generali per individuare le abbreviazioni e gli acronimi non conosciuti. Alcune delle euristiche più semplici considerano come abbreviazioni le sequenze formate da una o più lettere maiuscole ciascuna seguita da un punto (ad esempio W.T.C. ecc.), oppure le sequenze di sole consonanti maiuscole (ad esempio DPR) ecc. Ciascuna di queste regole non è chiaramente in grado singolarmente di catturare tutte le abbreviazioni di un testo, ma il loro uso combinato, unitamente alla disponibilità di ricchi repertori, permette di arrivare anche a un’accuratezza del 99% di abbreviazioni e acronimi riconosciuti e tokenizzati correttamente. Token graﬁcamente complessi Esistono no però pertanto 1. nomi

sequenze di caratteri che, sebbene contengano spazi, formadal punto di vista linguistico delle entità unitarie, e che è opportuno considerare come un singolo token: propri come Los Angeles, La Spezia, Poggio a Caiano ecc. 109

TESTO E COMPUTER

che è plausibile considerare come unità lessicali atomiche dal punto di vista linguistico; 2. espressioni multilessicali (multiword expressions). Tra di esse possiamo includere espressioni caratterizzate da invariabilità e rigidità della forma come di rado, fuori servizio, per davvero ecc., oppure espressioni non analizzabili sintatticamente come ad hoc e al di là ecc. A livello della tokenizzazione non tutte le espressioni linguistiche generalmente definite come multilessicali vanno considerate però come token unitari. Sebbene anche nomi composti come carta di credito o espressioni idiomatiche come tagliare la corda abbiano un alto grado di convenzionalità e coesione interna, questi aspetti riguardano però la sfera sintattica o semantica (cfr. PARR. 7.4, 8.3 e 8.4). Considerarli come token unici vorrebbe dire ad esempio non tenere conto del fatto che tali espressioni possono essere flesse morfologicamente (ad esempio carte di credito, taglierei la corda ecc.) e subire alterazioni sintattiche (ad esempio tagliare sempre la corda), sebbene in misura ridotta; 3. strutture alfanumeriche come espressioni monetarie (125 euro e 30 centesimi), unità di misura (25 kg), date (18 giugno 1815), numeri telefonici (050 354634), targhe (BF 425 KL), indirizzi (Pza. Martiri della Libertà 15) ecc. Quali espressioni complesse è opportuno considerare come token unitari è comunque una questione strettamente dipendente dal tipo di analisi che vogliamo fare sul testo. In alcuni casi anche le sequenze nome-cognome possono essere considerate come token unitari (ad esempio Mario Rossi); nel caso di testi normativi, potremmo invece pensare di uniﬁcare sequenze molto complesse come GU L 161 del 26.6.1999 che segnalano rinvii a testi di legge ecc. I criteri per la selezione di questi fenomeni devono tenere conto della loro frequenza nel testo, e soprattutto del loro possibile impatto sui livelli successivi di analisi. Come nel caso delle abbreviazioni, il riconoscimento di token graﬁcamente complessi deve tenere conto del loro alto grado di variabilità strutturale. Un esempio classico sono i molti modi diversi in cui è possibile scrivere le date: ad esempio 25/02/1993, 25-02-1993, 25 febbraio 1993, febbraio 1993, febbraio ’93, 25 febbraio, 25 feb. 1993 ecc. Il riconoscimento delle espressioni complesse che devono essere trattate come token unitari viene generalmente effettuato utilizzando dizionari e repertori (come nel caso dei nomi propri e delle espressioni multilessicali), combinati con regole generali. Per date ed espressioni monetarie, ad esempio, è facile individuare delle generalizzazioni sulla loro composizione strutturale, che possono essere tradotte in minigrammatiche specializzate per il loro riconoscimento. 110

4.

DAL BIT ALLA PAROLA

4.2 Le espressioni regolari La tokenizzazione del testo si basa sulla ricerca (ed eventualmente la successiva trasformazione) di sequenze di caratteri – più tecnicamente dette stringhe – che soddisfano particolari criteri. Ad esempio, può essere necessario identiﬁcare nel testo quegli elementi che corrispondono alle voci di un dizionario o glossario, oppure individuare i contesti adeguati a qualiﬁcare un punto come delimitatore di frase, per poi scorporarlo dalla parola che lo precede ecc. Lo strumento ideale per realizzare questo tipo di operazioni sono le espressioni regolari (regular expressions o più brevemente regex), una notazione algebrica che permette di deﬁnire in maniera formale e rigorosa pattern di stringhe. Un pattern è uno schema o modello di stringa che speciﬁca i criteri che devono soddisfare le stringhe da individuare nel testo: ad esempio, “le stringhe che iniziano per lettera maiuscola”, “le stringhe che iniziano per b, terminano per a e sono lunghe non più di 4 caratteri” ecc. Le espressioni regolari (ER) sono state originariamente sviluppate dal logico matematico Steven C. Kleene (1909-1994) nel 1956, come notazione algebrica per rappresentare insiemi di stringhe di simboli. In quanto deﬁnisce uno schema di stringa, una ER rappresenta in effetti l’insieme delle stringhe che corrispondono a tale schema. Molti programmi (Emacs, Word ecc.) e linguaggi di programmazione (ad esempio Perl) supportano le ER, ovvero permettono di speciﬁcare pattern di stringhe usando la sintassi delle ER e di veriﬁcare su un testo se esistono stringhe che soddisfano tali pattern. Le ER sono anche usate per fare ricerche avanzate su documenti testuali (cfr. PAR. 7.3), per consultare cataloghi on line ecc. Quando un programma veriﬁca se in un ﬁle di testo esistono stringhe di caratteri conformi al pattern speciﬁcato da una ER, il ﬁle viene generalmente analizzato riga per riga (ciascuna riga termina con un accapo): se una riga contiene una stringa che corrisponde al pattern, il programma restituisce una risposta, altrimenti passa alla riga successiva, ﬁno a quando non arriva alla ﬁne del ﬁle. Veriﬁcare se una stringa soddisfa (corrisponde a) un pattern viene detto pattern matching. I programmi differiscono per il tipo di risultato prodotto in caso di corrispondenza (matching): la stringa di testo che soddisfa il pattern, la riga di testo in cui la stringa ricorre (ad esempio nel comando Linux/Unix grep), l’intero documento (ad esempio nei motori di ricerca) ecc. Perl invece restituisce un valore “booleano”: vero, se nel testo esiste una stringa che soddisfa il pattern della ER; falso, altrimenti. 111

TESTO E COMPUTER

4.2.1. La sintassi delle espressioni regolari 2 Caratteri La ER più elementare è quella costituita da un solo carattere: /a/ specifica il pattern che è soddisfatto dal carattere a. È essenziale ricordare che /a/ e a sono due entità completamente diverse: la prima è una ER che definisce uno schema di stringa, mentre la seconda è una stringa specifica che corrisponde allo schema. Inoltre, le ER sono case-sensitive: /a/ è soddisfatta solo da a, ma non da A (viceversa per /A/). Una ER particolare è //: questa corrisponde alla stringa vuota, ovvero la stringa composta da zero caratteri. Una classe di caratteri – costituita da un insieme di caratteri racchiusi tra parentesi quadre (ad esempio /[la]/) – è una ER che viene soddisfatta da uno qualsiasi dei caratteri indicati all’interno delle parentesi: ER

Interpretazione

Esempi di corrispondenza

/[la]/ /[Ll]/

il carattere l o il carattere a l minuscola o maiuscola

...il pozzo ...; ...un cane ... ...il tappo...; La macchina

L’ordine dei caratteri dentro le parentesi quadre è irrilevante: /[ab]/ e /[ba]/ sono entrambe soddisfatte dalle stesse stringhe. Alcune classi di caratteri di uso frequente possono essere abbreviate con il trattino (-), che specifica un intervallo di caratteri in una scala: ER

Interpretazione

Equivalenza

/[a-z]/ /[A-Z]/ /[0-9]/

una lettera minuscola una lettera maiuscola una cifra numerica

/[abcdefghijklmnopqrstuvwxyz]/ /[ABCDEFGHIJKLMNOPQRSTUVWXYZ]/ /[0123456789]/

2. In questa sezione e nelle seguenti la sintassi delle ER viene illustrata utilizzando la notazione adottata in Perl. La sintassi delle ER è sufﬁcientemente standard e in buona parte condivisa da tutti i programmi che le supportano. È però importante tenere conto che alcune differenze notazionali esistono comunque. Negli esempi, usiamo la convenzione Perl di delimitare la ER con il segno “/”: ad esempio /casa/ (il segno “/” è solo un modo per rendere la ER ben distinguibile e non fa parte della ER stessa). Il testo su cui viene effettuata la ricerca è invece in corsivo, mentre la prima stringa nel testo che soddisfa il pattern della ER è sottolineata.

112

4.

DAL BIT ALLA PAROLA

La classe /[a-z]/ comprende solo i caratteri che nella tabella ASCII sono compresi tra a e z; i caratteri accentati non sono dunque compresi nella classe /[a-z]/. È anche possibile combinare queste abbreviazioni: ad esempio /[a-zA-Z]/. Inoltre, il trattino può anche essere utilizzato per esprimere sottointervalli nella scala numerica o alfabetica: ad esempio /[a-d]/ è esattamente equivalente alla classe di caratteri /[abcd]/. Una classe di caratteri in cui la parentesi di apertura sia immediatamente seguita dal carattere “^” è soddisfatta da qualsiasi carattere diverso da quelli speciﬁcati nella classe: ER

Interpretazione

Esempi di corrispondenza

/[^la]/ qualsiasi carattere diverso da l e da a /[^A-Z]/ qualsiasi carattere che non sia una lettera maiuscola

La pietra ...; ...le stanze... Carlo è arrivato.

In questo caso “^” ha il signiﬁcato di negazione come complemento (in senso insiemistico) della classe di caratteri che seguono, ovvero come tutti i possibili caratteri diversi da quelli speciﬁcati nella classe: /[^a-d]/ è soddisfatta anche dalle cifre numeriche, i segni di punteggiatura, lo spazio ecc. Se “^” non compare in prima posizione all’interno della classe, non viene invece interpretato come negazione: ad esempio /[l^a]/ o /[la^]/ sono soddisfatte da qualsiasi stringa contenga l, a o ^. Il carattere backslash (\) è utilizzato per segnalare che il carattere che segue ha un’interpretazione speciale, diversa da quella usuale. Ad esempio, alcuni caratteri speciali rappresentano caratteri di controllo, come il ritorno accapo (\n), la tabulazione (\t), il line feed (\r) ecc. Altri deﬁniscono invece abbreviazioni per le classi di caratteri più comuni: ER

Interpretazione

Equivalenza

/\d/ /\D/ /\w/ /\W/ /\s/ /\S/

una qualsiasi cifra numerica il complemento di /\d/ un qualsiasi carattere alfanumerico o l’underscore “_” il complemento di /\w/ un carattere di spaziatura il complemento di /\s/

/[0-9]/ /[^0-9]/ /[0-9_a-zA-Z]/ /[^0-9_a-zA-Z]/ /[ \r\n\t]/ /[^ \r\n\t]/

113

TESTO E COMPUTER

Un carattere speciale molto importante è il carattere jolly (.), che corrisponde a qualsiasi carattere escluso il ritorno accapo. Sequenze di caratteri e disgiunzioni di sequenze Le ER consistono di sequenze di caratteri normali, speciali o classi di caratteri: ER

Interpretazione

Esempi di corrispondenza

/[iI]l/ /\s[a-z]/

il oppure Il un carattere di spaziatura seguito da un’altra lettera minuscola una cifra numerica seguita da un carattere qualsiasi

Il caldo ...; ...un pilastro ... Carlo mangia ... Un cane saltò ... C3P8 sollevò ... ...parcheggiò la 2cv ...

/\d./

Come mostra il caso di /[iI]l/, l’uso delle classi di carattere permette di aggirare il problema della natura case-sensitive delle ER. È importante però non confondere le classi di caratteri con le sequenze. Una classe di caratteri come /[il]/ corrisponde in effetti a un solo carattere (i o l). Al contrario, /il/ è soddisfatta dalla stringa di due caratteri il. La disgiunzione tra stringhe di caratteri viene invece espressa nelle ER tramite l’operatore di alternativa (|): ER

Interpretazione

Esempi di corrispondenza

/il|la/ /[iI]l|[Ll]a/

il o la il o Il o la o La

...al pilota...; ...una lama... Il cane...; ...una lavatrice ...

Sebbene la classe di caratteri e l’alternativa abbiano entrambe un’interpretazione disgiuntiva, queste non devono però essere confuse. La classe di caratteri esprime infatti una disgiunzione tra caratteri singoli, mentre l’alternativa esprime una disgiunzione tra stringhe (che possono essere formate da uno o più caratteri): /12|3/ è soddisfatta o dalla stringa 12 o dalla stringa 3, invece /[123]/ è soddisfatta da un singolo carattere scelto tra 1 o 2 o 3. Come mostra il caso di /[iI]l|[Ll]a/, l’operatore di alternativa è combinabile con la classe di caratteri. Questa ER può però essere scritta in maniera del tutto equivalente usando solo l’alternativa: /il|Il|la|La/. Infatti, capita spesso che esistano modi diversi – più o meno compatti – di descrivere con una ER lo stesso pattern. 114

4.

DAL BIT ALLA PAROLA

Moltiplicatori di caratteri I moltiplicatori sono operatori che permettono di speciﬁcare quante volte il carattere che li precede deve comparire nel pattern. I moltiplicatori più comuni sono i seguenti 3: ? * (Kleene Star) +

zero o una occorrenza del carattere precedente; zero o più occorrenze del carattere precedente; una o più occorrenze del carattere precedente.

L’operatore + è in realtà derivabile dal Kleene Star: infatti /a + / è equivalente a /aa*/. ER

Interpretazione

Esempi di corrispondenza

/\d + / /uno?/ /RA\d*/

i numeri naturali un o uno le stringhe formate da RA seguito da zero o più numeri

4; 125; 26363733839 un uomo ...; ...uno sparo ... ...il RA ...; ... il RA4... ...il RA546 ...

Un problema interessante è posto da una ER come /a*/, che è soddisfatta da qualsiasi stringa che contenga zero o più a. Questo implica che /a*/ è soddisfatta non solo da stringhe come cane, kaa, maaaall ecc., ma anche da casi come 3456, pippo ecc., proprio perché tutte queste stringhe contengono zero occorrenze di a. In effetti, la ER /a*/ è virtualmente soddisfatta da qualsiasi stringa di testo. L’operatore “*” è spesso usato insieme al carattere jolly. Ad esempio, volendo trovare le righe di testo che contengono la parola cane seguita a una qualche distanza non ben deﬁnita dalla parola gatto si può scrivere /cane.*gatto/: in questo caso il carattere jolly moltiplicato da “*” copre qualsiasi sequenza di caratteri si interponga tra cane e gatto (a esclusione del ﬁne riga). Esistono anche dei moltiplicatori avanzati con i quali è possibile controllare il numero di volte in cui un carattere può o deve ricorrere: {n} {n,m} {n,}

esattamente n occorrenze del carattere precedente; almeno n e al massimo m occorrenze del carattere precedente; almeno n occorrenze del carattere precedente.

3. È interessante osservare che questi simboli sono usati con un’interpretazione simile nelle DTD XML (cfr. PAR. 3.3.1).

115

TESTO E COMPUTER

In Perl, come in altri programmi che implementano le ER, i moltiplicatori sono predeﬁniti per comportarsi in maniera “ingorda” (greedy). Si prenda ad esempio /b.*s/ e immaginiamo di veriﬁcare questa ER su una riga di testo formata dalla frase bisogna salire sull’autobus. In questa frase, esistono quattro stringhe che sono compatibili con il pattern deﬁnito dalla ER: bis, bisogna s, bisogna salire s, e bisogna salire sull’autobus. In realtà, però, l’unica stringa che in effetti soddisfa la ER è quella più lunga, ovvero l’intera frase. Ciò è dovuto al comportamento “ingordo” dei moltiplicatori, che privilegiano la stringa più lunga tra quelle compatibili con il pattern. Questo tipo di comportamento può essere molto pericoloso, specialmente quando si usano le ER per effettuare sostituzioni di stringhe (cfr. infra). È però possibile costringere i moltiplicatori a comportarsi in maniera “pigra” (lazy), ovvero a trovare la corrispondenza con la stringa più breve tra quelle compatibili con il pattern. Il comportamento pigro dei moltiplicatori è ottenuto facendoli seguire dal carattere “?”: ad esempio, nella frase sopra /b.*?s/ è soddisfatta dalla stringa bis 4. Ancore Le ancore sono caratteri speciali che indicano la posizione precisa nella riga di testo in cui deve comparire la stringa che soddisfa la ER. Le quattro ancore principali sono: ^ $ \b \B

inizio della riga di testo; ﬁne della riga di testo; conﬁne di token; qualsiasi punto che non sia un conﬁne di token;

In Perl un conﬁne di token 5 è qualsiasi punto nella riga di testo situato tra un carattere della classe \w e un carattere della classe complementare \W e viceversa. Nell’esempio seguente, le barre verticali continue marcano alcuni punti che rappresentano conﬁni di token:

4. Il segno “?” ha dunque un doppio uso nella sintassi Perl delle ER: come moltiplicatore di opzionalità e come operatore di “pigrizia” quando segue immediatamente un moltiplicatore. Le versioni “pigre” degli altri moltiplicatori sono + ?, ??, {n}?, {n,m}?, e {n,}?. 5. Abbiamo tradotto così il termine inglese word boundary, per evitare di introdurre ulteriori ambiguità nell’uso di parola.

116

4.

DAL BIT ALLA PAROLA

C’|era| una| volta Attraverso l’uso delle ancore è possibile speciﬁcare nel pattern delle la condizione che la stringa da ricercare compaia in un particolare punto del testo. Ad esempio, /^Il/ è soddisfatta solo dalle stringhe Il all’inizio della riga di testo, e /il$/ è soddisfatta solo dalle stringhe il alla ﬁne della riga di testo. L’ancora \b è molto utile per individuare sequenze di testo che formano unità linguistiche indipendenti, come le parole: ad esempio, per cercare la congiunzione e (e non la semplice lettera e) è sufﬁciente scrivere /\be\b/, che è soddisfatta da Pinocchio e la fata, ma non da Geppetto. Purtroppo, \b coincide solo approssimativamente con la nozione di conﬁne di token come unità linguistica. Ad esempio, /\bè\b/ non può essere usata per trovare è come forma del verbo essere (come in Pinocchio è stanco). Sia il carattere accentato è sia lo spazio rientrano infatti in \W, e dunque tra di essi non esiste un conﬁne di token. La formulazione corretta per individuare è come forma del verbo essere è invece /\Bè\B/. ER

Raggruppamento, precedenze e memorizzazione I moltiplicatori agiscono solo sul carattere immediatamente precedente: ad esempio /la + / è soddisfatta dalle stringhe la, laa, laaa ecc. Per moltiplicare intere stringhe è invece necessario racchiuderle tra parentesi tonde. La ER /(la) + / è dunque soddisfatta non da laaaaaa, ma da lalalalala. Un altro esempio della funzione di raggruppamento delle parentesi è insieme con l’alternativa: per cercare tutte le occorrenze delle parole trovo e troviamo, possiamo infatti scrivere /trov(o|iamo)/. Se omettiamo le parentesi, la ER è invece soddisfatta dalle stringhe trovo e iamo. L’uso delle parentesi è correlato al fatto che, come in tutte le notazioni algebriche, anche nella sintassi delle ER esiste un ordine di precedenza secondo il quale vengono applicati gli operatori, riportato qui sotto (in ordine di precedenza discendente): Ordine precedenza

Tipo di operatore

Sintassi

1 2 3 4

parentesi moltiplicatori sequenza e ancore alternativa

() ? + * {m,n} {n,} {n} ?? + ? *? cane ^ $ \b \B |

117

TESTO E COMPUTER

Poiché i moltiplicatori hanno precedenza sulla sequenza, nel caso di /la + / prima + moltiplica il carattere a, e successivamente le a vengono concatenate a l. Le parentesi hanno invece precedenza massima e dunque permettono di alterare l’ordine predeﬁnito di applicazione degli operatori. Gli operatori dentro le parentesi vengono eseguiti prima di quelli fuori, esattamente come accade in aritmetica. Nella ER /(la) + / il moltiplicatore agisce sul risultato della concatenazione di l con a, e dunque ciò che viene moltiplicato è la stringa la e non il solo carattere a. Un uguale ragionamento si applica al caso dell’alternativa visto sopra. In Perl le parentesi consentono anche di memorizzare la stringa di testo che soddisfa il loro contenuto in variabili temporanee numerate progressivamente (dette registri). Nella stessa ER è possibile riferirsi alla stringa memorizzata usando il numero del registro preceduto dal carattere “\”. La sequenza \1 è dunque interpretato in modo equivalente a ciò che ha soddisfatto il contenuto della prima coppia di parentesi, \2 è interpretata in modo equivalente a ciò che ha soddisfatto il contenuto della seconda coppia di parentesi ecc. La memorizzazione di stringhe è un’estensione delle funzionalità centrali delle ER che non è supportata da tutte le loro implementazioni, ma risulta molto utile nelle elaborazioni del testo. Volendo trovare le parole che contengono due lettere identiche, non è possibile infatti esprimere tale condizione semplicemente con /[a-z][a-z]/. Usando le parentesi possiamo invece formulare la condizione di identità come /([a-z])\1/. Quando la ER viene interpretata sul testo, la lettera che soddisfa il contenuto delle parentesi viene memorizzata temporaneamente nel registro 1. La sequenza \1 richiama il contenuto del registro e lo usa per verificare che la lettera seguente sia esattamente identica alla prima. Questa ER è dunque soddisfatta da ll, aa, mm ecc., ma non da ma, al ecc. È importante ricordare inﬁne che quando gli operatori delle ER (*, + , ?, [, ), / ecc.) sono usati come caratteri da ricercare nel testo, devono essere preceduti dal backslash (\): ad esempio /\./ è soddisfatta dal carattere punto e non da qualsiasi carattere 6.

6. In Perl, quando questi caratteri si trovano dentro una classe di caratteri l’uso del backslash è opzionale (a parte il caso in cui il carattere da cercare sia “/”): ad esempio, /[.\/]/ e /[\.\/]/ sono entrambe accettabili, ma non /[./]/.

118

4.

DAL BIT ALLA PAROLA

Sostituzione di testo Con le ER è possibile non solo cercare stringhe di testo, ma anche effettuare trasformazioni su di esse. In Perl esiste a tale scopo l’operatore di sostituzione: s/ espressione_regolare / nuova_stringa / 7. Attraverso la sostituzione è possibile sia inserire che cancellare testo: ad esempio, s/token/tokens/ aggiunge una s alla parola token (s/token/s/ invece rimpiazzerebbe con s l’intera parola token, perché la nuova stringa sostituisce interamente la stringa che soddisfa il pattern della ER); s/token// cancella la stringa token (formalmente questa viene sostituita con la stringa vuota) 8. Nell’elaborazione del testo siamo spesso interessati a sostituire una stringa solo a condizione che questa compaia in un determinato contesto: ad esempio, rimpiazzare la o con la i soltanto quando la o è preceduta dalle consonanti d o t (così da ottenere dadi da dado). Il contesto della sostituzione può essere espresso con la classe di caratteri [td], ma se formalizziamo la sostituzione come s/[td]o/ i/, otteniamo un risultato sbagliato perché dado viene trasformato in dai. La sostituzione deve infatti operare sulla o, mentre la parte restante della ER rappresenta solo il contesto in cui tale sostituzione deve applicarsi e deve quindi rimanere inalterato nella nuova stringa. Per formulare queste sostituzioni dipendenti da contesto si deve usare la funzione di memorizzazione con l’uso delle parentesi: s/([td])o/\1i/. Le parentesi consentono di memorizzare il carattere che soddisfa il loro contenuto. Grazie a \1, la nuova stringa contiene esattamente la stessa consonante che ha soddisfatto la classe di caratteri [td]. Di conseguenza, se il pattern è soddisfatto da to, questo viene rimpiazzato da ti, mentre se è soddisfatto da do viene sostituito da di, ottenendo così correttamente dadi da dado e dati da dato.

7. In Perl la sostituzione viene effettuata sulla prima stringa che soddisfa il pattern della ER. Per sostituire ogni stringa che soddisfa il pattern bisogna aggiungere l’operatore g in fondo all’espressione di sostituzione: ad esempio s/la/al/g. Inoltre nel caso dell’operatore di sostituzione, i segni “/” sono obbligatori, poiché fanno parte della sintassi di questo operatore in Perl. 8. È importante sottolineare che la seconda parte dell’espressione di sostituzione contiene una stringa e non una ER. Ad esempio, in s/[la]/[la]/, le parentesi quadre a sinistra rappresentano una classe di caratteri, mentre a destra sono interpretate come parentesi quadre effettive. Il risultato è dunque la sostituzione di ogni l o a con la stringa [la].

119

TESTO E COMPUTER

4.3 Analizzare il linguaggio con le espressioni regolari Le regole euristiche per la disambiguazione della punteggiatura che abbiamo visto nel PAR. 4.1.1 hanno una struttura condizionale come la seguente: se il carattere punto è preceduto da una parola minuscola ed è seguito da uno spazio e da una lettera maiuscola, allora il punto è un conﬁne di frase e deve essere considerato un token indipendente. La condizione della regola deﬁnisce la struttura del contesto linguistico che permette di disambiguare il segno di punteggiatura e può essere facilmente rappresentata con una ER: [4.1]

/\b[a-z] + \.\s + [A-Z]/

Il punto è preceduto dal carattere di escape per non essere interpretato come il carattere jolly; inoltre il carattere speciale \s seguito dal moltiplicatore cattura anche i casi in cui il punto è seguito da un ritorno a capo o da più di un elemento di spaziatura. Naturalmente questa ER non è del tutto soddisfacente: per esempio, non tiene conto del fatto che prima del punto potrebbe esserci un carattere accentato, una parentesi o delle virgolette, o che la parola che precede potrebbe essere un’abbreviazione ecc. Saranno dunque necessarie fasi successive di rafﬁnamento della [4.1] (preferibilmente accompagnate da veriﬁche empiriche su un corpus) per essere sicuri che questa ER sia in grado di individuare tutti e soli i contesti rilevanti per disambiguare il punto come conﬁne di frase. L’elemento fondamentale è comunque che le ER ci permettono di formalizzare in maniera semplice e diretta le euristiche linguistiche per una corretta tokenizzazione del testo. Queste regole espresse sotto forma di ER potranno poi entrare a far parte di programmi (come i tokenizzatori) in grado di eseguirle sul testo e dunque di segmentare quest’ultimo in maniera conforme ai nostri criteri linguistici. In maniera simile, con le ER è possibile scrivere regole per il riconoscimento di acronimi o espressioni linguistiche complesse come date, indirizzi ecc. Ecco un esempio di regola per il riconoscimento di date: [4.2]

/\d\d?[-\/]\d\d\?[-\/]\d\d(\d\d)?/

[4.3] /\d\d? ([Gg]ennaio|...|[Dd]icembre) \d\d(\d\d)?/ 120

4.

DAL BIT ALLA PAROLA

La regola [4.2] è in grado di identiﬁcare date come 23-4-1980, 5/12/78 ecc. 9, mentre la regola [4.3] riconosce le date in cui il mese è scritto in lettere. L’uso dell’alternativa abbinata alle classi di caratteri consente di riconoscere i nomi dei mesi con iniziale maiuscola o minuscola; le parentesi consentono invece di applicare l’operatore di alternativa nel modo opportuno. Regole di questo tipo costituiscono il nucleo delle mini-grammatiche per il riconoscimento di strutture linguistiche comunemente usate dai tokenizzatori (cfr. Scheda on line 4.1). L’importanza e la versatilità delle ER non si esauriscono però solo alla fase di tokenizzazione del testo, ma si estendono anche a livelli più avanzati di analisi linguistica. Date e abbreviazioni non sono le uniche strutture le cui regolarità sono esprimibili attraverso le ER. Infatti, regole morfologiche, morfosintattiche e perﬁno alcune regole sintattiche possono essere espresse formalmente come ER. Prendiamo ad esempio la regola che governa la ﬂessione del presente indicativo della prima coniugazione verbale regolare in italiano: questa prevede che verbi come amare, faxare, portare, saltare ecc., si coniughino in maniera simile, con le desinenze o, i, a, iamo, ate e ano che si aggiungono alla radice del verbo. Tale regola morfologica può essere formulata con la seguente ER: [4.4] /\b(am|fax|port|salt|...)(o|i|a|iamo|ate|ano)\b/ È interessante notare come la ER è in grado di rappresentare la stessa strutturazione morfologica delle parole, con la prima parentesi che raggruppa le radici e la seconda le terminazioni ﬂessionali. Questa regola permette dunque di realizzare una forma elementare di riconoscimento morfologico (cfr. PAR. 9.1.2), individuando tutte le forme del presente indicativo dei verbi regolari della prima coniugazione. La regola è inoltre estensibile: infatti, volendo aggiungere un nuovo verbo che si coniuga secondo la stessa classe di ﬂessione, basterà aggiungere alla ER la sua radice. Le ER consentono anche di modellare semplici regole grammaticali, come ad esempio quelle che governano la composizione di un sintagma nominale. Il fatto che in italiano un nome sia opzionalmente preceduto da un articolo e modiﬁcato da zero o più aggettivi che precedono o seguono il nome può essere espresso formalmente con la 9. Si noti come il moltiplicatore ? agisca sul contenuto delle parentesi: questo permette di esprimere la condizione che l’anno deve essere formato da due o da quattro cifre, ma non da tre.

121

TESTO E COMPUTER

seguente ER (dove Art, N e Agg sono etichette che stanno rispettivamente per le categorie grammaticali articolo, nome e aggettivo): [4.5]

/Art?\sAgg*\sN\sAgg*/

Questa ER può essere utilizzata, ad esempio, per deﬁnire una ricerca di gruppi nominali in un corpus le cui parole siano annotate con informazione relativa alla loro categoria grammaticale (cfr. PAR. 7.3). Naturalmente la [4.5] non tiene conto di condizioni sintattiche fondamentali (ad esempio l’accordo in genere e numero tra aggettivo e nome ecc.), ma è nondimeno in grado di rappresentare un sottoinsieme non indifferente di strutture nominali in italiano. Come strumento per la formalizzazione di regole linguistiche le ER hanno limiti che non devono essere sottovalutati. È infatti possibile dimostrare che esistono tipi di regole e strutture linguistiche che non possono essere rappresentate attraverso di esse. In linguistica teorica questo tema è stato al centro di un grande dibattito che ha visto protagonista Noam Chomsky. Nonostante ciò, come sottolineano Karttunen et al. (1996), alcuni importanti aspetti della grammatica di una lingua sono perfettamente formalizzabili con le ER. È per tale motivo che le ER hanno acquistato un ruolo di primo piano nella LC contemporanea, non solo come strumenti per un’efﬁciente tokenizzazione del testo, ma anche per modellare aspetti signiﬁcativi della struttura e organizzazione del linguaggio. Per saperne di più CRESPI-REGHIZZI S.

(2002), Linguaggi formali nelle scienze della comunicazione, Zanichelli, Bologna. nd FRIEDL J. E. F. (2002), Mastering Regular Expressions, 2 ed., O’Reilly. HAMMOND M. (2002), Programming for Linguists: Perl for Language Researchers, Blackwell, Oxford. JURAFSKY D., MARTIN J. H. (2000), Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice Hall (NJ). KARTTUNEN L., CHANOD J.-P., GREFENSTETTE G., SHILLER A. (1996), Regular Expressions for Language Engineering, in “Journal of Natural Language Engineering”, n. 2 (4), pp. 305-28. MIKHEEV A. (2003), Text Segmentation, in R. Mitkov (ed.), The Oxford Handbook of Computational Linguistics, Oxford University Press, Oxford, pp. 210-8. PARTEE B., TER MEULEN A., WALL R. (1990), Mathematical Methods in Linguistics, Kluwer Academic Publishers, Dordrecht.

122

5 Parole e numeri

Ogni testo, quale che sia la sua lunghezza o modalità di codiﬁca, è una miniera di dati quantitativi che possono essere oggetto di elaborazioni statistiche. Ad esempio, possiamo quantiﬁcarne la ricchezza lessicale contando il numero di parole diverse che l’autore del testo ha usato rispetto al numero totale di parole; oppure stabilire quali sono le parole d’uso più frequente e quanta informazione esse ci forniscono riguardo al contenuto del testo. Il linguista computazionale può anche chiedersi se esistano regolarità statistiche della lingua ricorrenti e trasversali, che tendono a ripetersi in modo sostanzialmente invariato in altre produzioni dello stesso autore, o in altre tipologie di testo o in domini tematici diversi. Questo problema si ricollega a un altro tema affascinante: il rapporto tra la lingua come insieme di regole, convenzioni e preferenze socialmente e cognitivamente condivise, da una parte, e dall’altra un corpus di testi in quanto campione di questo universo, cioè riproduzione in scala della popolazione virtualmente inﬁnita di tutti i testi, scritti o parlati, di una lingua (cfr. PAR. 1.3). A questi e altri argomenti si rivolge l’approccio statistico allo studio del testo, che ha ottenuto risultati di grande rilievo in ambiti scientiﬁci relativamente distanti tra loro come la psicolinguistica, la stilometria (o stilo-statistica), la sociolinguistica e l’ingegneria del linguaggio. Questo capitolo contiene un’introduzione alle nozioni di base della statistica linguistica e offre alcune istruzioni e raccomandazioni pratiche per la loro applicazione all’analisi del testo. 5.1 Popolazione e testo La terminologia della statistica riﬂette la tradizionale vicinanza di questa disciplina alle scienze sociali. Una popolazione statistica di riferimento è l’insieme di individui o unità statistiche di cui vogliamo stu123

TESTO E COMPUTER

diare e caratterizzare sinteticamente la distribuzione rispetto a certe caratteristiche di interesse (cfr. Scheda on line 1.1). Ad esempio, presa come popolazione una classe di alunni, possiamo voler misurare, per ciascun alunno, la statura, l’età o i voti del primo quadrimestre. Statura, età e voti rappresentano gli attributi o variabili delle nostre unità. Non tutte le variabili assumono valori quantitativi. Volendo raggruppare i nostri alunni in base al sesso, i valori (o modalità) dell’attributo corrispondente saranno maschio e femmina. Nell’affrontare l’analisi quantitativa di una lingua in generale, la popolazione di riferimento è un concetto più difficile da definire per la sua natura potenzialmente infinita, che richiede, per essere studiato con metodo scientifico, la selezione preliminare di un campione il più possibile rappresentativo della popolazione stessa, un campione cioè che sia in grado di riprodurne, in scala, le caratteristiche rilevanti rispetto alla nostra indagine (cfr. PAR. 1.3). Più abbordabile sembra il problema della descrizione quantitativa di un testo specifico, come ad esempio il libro Le avventure di Pinocchio, o una collezione di testi riconducibili a uno stesso autore o accomunati dallo stesso genere o da un medesimo argomento. In questo caso, consideriamo il testo stesso come la nostra popolazione di riferimento. Nel seguito di questo capitolo, ci concentreremo inizialmente su aspetti di statistica descrittiva del testo, per poi accennare a problemi di campionamento e verifica delle ipotesi rispetto a una popolazione (statistica inferenziale). Il primo passo verso l’analisi quantitativa del testo è deﬁnire quali sono le unità rilevanti e che cosa siamo interessati a misurare. In questo capitolo ci concentreremo, per semplicità, su un’analisi quantitativa delle parole, usando come materiale illustrativo Le avventure di Pinocchio di Collodi. Naturalmente, è possibile applicare i metodi dell’indagine statistica a unità linguistiche più astratte, come ad esempio le categorie grammaticali, i costituenti interni delle parole o morfemi, i sintagmi ecc. Si noti inﬁne che, nella nostra prospettiva, il testo rimane l’oggetto primario dell’analisi quantitativa; le parole rappresentano solo un punto di vista privilegiato per analizzarne aspetti di struttura e organizzazione, sia per ciò che riguarda i legami sintattici del testo, che quelli narrativi, stilistici e di contenuto. 5.2 Parole unità e parole tipo Per predisporre Le avventure di Pinocchio all’analisi statistica, sono necessari due passi preliminari: i. la tokenizzazione del testo, attraverso la quale possiamo individuare i token, cioè le parole e le altre uni124

5.

PAROLE E NUMERI

tà atomiche dell’analisi linguistica (cfr. PAR. 4.1) e ii. la classiﬁcazione dei token in tipi di token. Se facciamo astrazione per semplicità dai segni di punteggiatura, la frase dell’esempio 5.1 contiene 33 token, ognuno dei quali rappresenta una parola unità distinta, individuabile univocamente in base alla sua posizione nella sequenza del testo (le posizioni sono marcate da un numero in pedice). Da questo punto di vista, ad esempio, un3 ≠ un8. D’ora in avanti ci concentreremo sui criteri di classiﬁcazione delle parole unità in parole tipo. ESEMPIO

5.1

Non1 era2 un3 legno4 di5 lusso6 , ma7 un8 semplice9 pezzo10 da11 catasta12 , di13 quelli14 che15 d’16inverno17 si18 mettono19 nelle20 stufe21 e22 nei23 caminetti24 per25 accendere26 il27 fuoco28 e29 per30 riscaldare31 le32 stanze33.

Sapere quante parole unità ricorrono in un testo ci dà una prima idea delle dimensioni del nostro oggetto di studio. Il più delle volte la nostra curiosità è tuttavia mirata: vogliamo sapere quante unità di un certo tipo sono presenti nel testo. La deﬁnizione dei tipi di parola introduce un livello di astrazione dai dati osservabili, che non vengono più analizzati come unità distinte, ma piuttosto come classi di unità. Il processo di astrazione può avvenire a diversi livelli, a seconda degli interessi speciﬁci del linguista, ma anche a seconda degli strumenti empirici di analisi a sua disposizione. Il primo e più immediato livello di astrazione consiste nel considerare due unità come forme graﬁche dello stesso tipo se esse sono indistinguibili a prescindere dalla posizione che occupano nel testo. Da questo punto di vista, ad esempio, un3 = un8, ma Non3 ≠ non130. Il passo successivo è quello di fare astrazione (cum grano salis) da aspetti di rappresentazione tipograﬁca del testo, come la distinzione tra caratteri maiuscoli e minuscoli (cfr. PAR. 4.1.1): pertanto Non3 = non130. Se poi siamo interessati all’esponente lessicale astratto (o lemma) cui un’unità del testo è riconducibile, allora siamo disposti, ad esempio, a riconoscere ero e saranno come due forme (ﬂesse) del verbo ESSERE. Inﬁne, se vogliamo raggruppare le unità in base alla loro lunghezza in caratteri, due forme come non e che diventano membri della stessa classe di parole di lunghezza 3. Analogamente a quanto si fa in statistica sociale, chiameremo attributi le dimensioni rilevanti della nostra classificazione. FORMA GRAFICA, LEMMA, LUNGHEZZA IN CARATTERI sono tutti possibili attri125

TESTO E COMPUTER

TABELLA 5.1 Parole unità e tratti distintivi PAROLA

FORMA

FORMA

UNITÀ

GRAFICA

NORMALIZZATA

Non1 era2 un3 legno4 di5 lusso6 ma7 un8 semplice9 pezzo10 da11 catasta12

Non era un legno di lusso ma un semplice pezzo da catasta

non era un legno di lusso ma un semplice pezzo da catasta

LEMMA

LUN

CATEGORIA GRAMMATICALE

NON ESSERE UN LEGNO DI LUSSO MA UN SEMPLICE PEZZO DA CATASTA

3 3 2 5 2 5 2 2 8 5 2 7

AVVERBIO VERBO ARTICOLO NOME PREPOSIZIONE NOME CONGIUNZIONE ARTICOLO AGGETTIVO NOME PREPOSIZIONE NOME

buti delle nostre unità. Ogni unità assume in genere un solo valore per ciascun attributo. Ad esempio, gli attributi della forma ero sono FORMA GRAFICA = ero, LEMMA = ESSERE, LUNGHEZZA = 3 e così via. Nel caso di forme omografe come era, tuttavia, il rapporto tra unità e valore diventa di uno a molti: era può essere, infatti, a seconda del contesto, riconducibile al LEMMA = ESSERE (verbo) o al LEMMA = ERA (nome). In questi casi, è opportuno risolvere l’ambiguità nel testo, selezionando il valore appropriato (cfr. PARR. 7.3 e 8.1.1). Nella TAB. 5.1 abbiamo classificato le prime 12 parole dell’esempio 5.1 secondo attributi diversi, disposti lungo un gradiente che va dai più concreti (colonne a sinistra della tabella) ai più astratti (colonne a destra). I valori di ciascun attributo definiscono i tipi di parole che possiamo trovare in un testo rispetto a quell’attributo. Diremo dunque che la TAB. 5.1 contiene una sola FORMA ripetuta due volte (un), mentre tutte le altre ricorrono una volta soltanto. Inoltre, ci sono 5 unità di LUNGHEZZA 2, tre di LUNGHEZZA 5, due di LUNGHEZZA 3 e due esemplari singoli di 7 e 8 caratteri. Infine, troviamo 4 parole di tipo NOME, 2 di tipo ARTICOLO, 2 di tipo PREPOSIZIONE, e una ciascuna per i tipi VERBO, AGGETTIVO, AVVERBIO e CONGIUNZIONE. Dato un attributo, contare quante unità ricorrono con un certo valore v dell’attributo significa calcolare la frequenza (assoluta) di v. Nelle pagine che seguono ci concentreremo sulle statistiche riguardanti due attributi soltanto: la LUNGHEZZA di parola (quinta colonna di TAB. 5.1) e, soprattutto, la FORMA NORMALIZZATA (terza colonna di TAB. 5.1). Le ragioni di questa scelta sono molteplici. In pri126

5.

PAROLE E NUMERI

mo luogo le due variabili sono correlate in maniera non banale nel linguaggio: forme che ricorrono più di frequente tendono a essere anche più corte. In secondo luogo, contare quante FORME diverse sono presenti nel nostro testo signiﬁca quantiﬁcare, in prima approssimazione 1, il suo grado di variabilità lessicale (cfr. PAR. 5.4). Esiste inﬁne una ragione pratica: è molto più facile contare con il computer quante parole unità hanno la stessa FORMA piuttosto che quante unità condividono lo stesso LEMMA. Nel primo caso, infatti, l’uguaglianza tra un3 e un8 si ottiene banalmente prescindendo dalla loro posizione nel testo. Nel secondo caso, è necessario andare al di là della loro differenza (o identità) superﬁciale, mediante un’analisi di tipo morfologico e sintattico (cfr. PAR. 8.1.1 e CAP. 9). Per queste ragioni, negli studi statistici del testo è invalso l’uso di chiamare parola tipo di un’unità il valore dell’unità per l’attributo FORMA (NORMALIZZATA). Quando dunque diciamo che l’esempio 5.1 contiene due unità di tipo di, intendiamo dire che di è attestata due volte nel testo, o anche che di ha frequenza 2 2. 5.3 Frequenze e distribuzioni Il comportamento di un insieme di unità osservabili può essere analizzato guardando come esse si distribuiscono rispetto ai valori di uno o più attributi speciﬁci. Possiamo ad esempio misurare la statura di tutti gli studenti di un liceo e raggrupparli in classi per valori di statura crescenti. Analogamente, possiamo misurare la grandezza del lessico in un campione di bambini tra i 18 e i 24 mesi d’età, per vedere se esistono valori ricorrenti intorno ai quali tende a raggrupparsi la maggior parte dei bambini. In generale, il graﬁco di una curva di distribuzione è un modo per fotografare il comportamento delle unità rispetto a uno o più attributi. Ad esempio, il graﬁco di FIG. 5.1 riassume come le parole (unità) di Pinocchio si distribuiscono in base alla loro lunghezza misurata in caratteri. Per disegnare questa distribuzione occorre fare le seguenti tre cose:

1. Naturalmente, a questo livello di astrazione, non siamo in grado di distinguere tra l’uso di era come verbo e il suo uso nominale. 2. Per inciso, la distinzione tra tipo e unità ha un uso generale e non si limita al solo caso delle parole, ma si estende a morfemi, sintagmi ecc.).

127

TESTO E COMPUTER

5.1 Lunghezza di parola in caratteri in Pinocchio FIGUR A

9000

frequenza delle unità

8000 7000 6000 5000 4000 3000 2000 1000 0 1

5

9

13

17

lunghezza in caratteri

1. misurare la lunghezza l di ogni parola nel testo; 2. raggruppare tra loro le parole con la stessa lunghezza; 3. contare quante parole cadono in ciascuno dei raggruppamenti. A questo punto, basta riportare sull’asse orizzontale delle x (o asse delle ascisse) i valori di l misurati al passo 1 in ordine crescente rispetto all’origine degli assi. In corrispondenza di ciascun valore l, riportiamo sull’asse delle y (o delle ordinate) il numero di parole con quella lunghezza, o frequenza assoluta di l. Se la variabile è invece qualitativa, le modalità sull’asse delle x seguiranno un ordine convenzionale. Ad esempio, possiamo studiare la distribuzione delle preposizioni in un testo, semplicemente contando la loro frequenza assoluta, cioè quante volte ogni preposizione tipo ricorre nel testo in questione. Questi valori possono essere poi riportati su un graﬁco, disponendo le preposizioni in ordine alfabetico sull’asse delle x. D’ora in avanti ci concentreremo prevalentemente sulla frequenza di forme lessicali normalizzate. In generale, le frequenze assolute di due distribuzioni, anche se si basano sullo stesso tipo di unità e sulla stessa batteria di attributi e valori, non sono confrontabili, in quanto si riferiscono a un diverso numero totale di unità. La forma occhi, ad esempio, ha frequenza assoluta 3 nei capitoli 1 e 33 di Pinocchio. Da questo dato, tuttavia, 128

5.

PAROLE E NUMERI

non siamo autorizzati a concludere che la forma occhi sia distribuita allo stesso modo nei due capitoli, in quanto il capitolo 33 è lungo tre volte più del primo. Per ovviare a questo effetto di distorsione, si ricorre abitualmente alle frequenze relative, calcolate come rapporto tra la frequenza assoluta ni (rispetto al valore i di un attributo) e il numero totale |T | di unità osservate nel testo T (o lunghezza di T in parole) 3. [5.1]

fi =

ni |T |

Alla luce della [5.1] la frequenza relativa di occhi nel capitolo 1 3 = 0,004) è considerevolmente più alta che nel capitolo 33 ( 799 3 = 0,0012). ( 2524 5.3.1. La media aritmetica In statistica, si chiama media aritmetica di una serie di valori espressi da una classe di unità il risultato della somma di questi valori divisa per il numero di unità della classe. Ad esempio, dire che la lunghezza media in caratteri delle parole di un testo T è uguale a 4,6 signiﬁca calcolare un valore che è il risultato della somma della lunghezza di tutte le parole presenti in T (misurata in numero di caratteri) divisa per la lunghezza |T| di T: [5.2]

¯l =

l1 + l2 + ... + l|T | |T |

|T |

=

i = 1 li |T |

.

Nella formula, ¯l si legge “lunghezza media”, li è la lunghezza in ca|T | ratteri dell’i-esima parola unità del testo T e i = 1li indica la somma di tutti i valori di li con l’indice i che varia tra 1 e |T|. 3. In generale, |T| rappresenta la cardinalità dell’insieme T, cioè il numero dei suoi membri. Dal nostro punto di vista, un testo T può essere rappresentato come un insieme di parole unità, in quanto ciascuna unità è distinta da ogni altra da un indice che esprime, in modo univoco, la sua posizione nel testo.

129

TESTO E COMPUTER

Il valore 4,6 quantiﬁca pertanto la tendenza dell’autore del testo a usare parole più o meno lunghe. Chiaramente, soltanto attraverso un confronto tra il valor medio calcolato e lo stesso valore calcolato su altri testi siamo in grado di trarre indicazioni qualitative da ¯l: potremmo cioè concludere se l’autore ama usare preferibilmente parole lunghe o corte. Nel PAR. 5.6.2 vedremo come la nozione di media si applica alle frequenze lessicali. 5.3.2. La deviazione standard La media ci dà un valore di tendenza che riassume sinteticamente l’andamento di una distribuzione, ma non dice come i dati osservabili in nostro possesso si distribuiscono complessivamente. Una misura statistica che ci consente di “allargare” la nostra inquadratura sul modo in cui i dati si dispongono intorno alla media è la deviazione standard (detta anche scarto quadratico medio) che, nel caso della lunghezza di parola in caratteri, è

[5.3]

s =

√

|T |

(li – ¯l)2

i=1

,

|T |

cioè la radice quadrata della media dei quadrati degli scarti, dove scarto è la differenza tra un valore li e la sua media 4. L’importanza di s come indice statistico deriva dal ruolo centrale che la media svolge all’interno di certe distribuzioni. Infatti s non fa altro che calcolare gli scarti quadratici dalla media, presa come punto di riferimento dell’intera distribuzione. Tornando al nostro esempio della lunghezza in caratteri delle parole, se tutte le nostre unità avessero la stessa lunghezza l, allora ¯l = l e s = 0. Se invece il valore di s cresce, questo vuol dire che ci sono parecchie parole la cui lunghezza differisce molto dal valore della media. In altre parole, s è in grado di quantiﬁcare quanto disomogenea sia la distribuzione.

4. La media dei quadrati degli scarti dalla media è anche nota come varianza. A differenza della varianza, la cui unità di misura è uguale al quadrato dell’unità di misura dei dati originari, la deviazione standard è espressa nella stessa unità di misura dei dati.

130

5.

PAROLE E NUMERI

5.3.3. Leggere le distribuzioni Saper leggere il graﬁco di una distribuzione signiﬁca essere in grado di rispondere a domande del tipo: intorno a quali valori si concentra la maggior parte degli individui della popolazione? Con che ritmo se ne discosta progressivamente? Possiamo prevedere l’andamento della distribuzione per valori non osservati? E così via. Le distribuzioni ci offrono dunque indicazioni importanti riguardo alla tendenza più o meno selettiva delle nostre unità a raggrupparsi intorno a certi valori. Un semplice esempio, attribuito da Herdan (1964) a E. T. Whittaker, ci può aiutare a chiarire meglio questo concetto. Un treno vuoto, composto da un numero inﬁnitamente grande di carrozze, è fermo al marciapiede di una stazione in attesa di partire. I passeggeri cominciano a salire: come si distribuiranno negli scompartimenti? Possiamo immaginare che molto dipenderà da alcuni vincoli ambientali e dall’attitudine di chi viaggia. Proviamo a distinguere tre scenari possibili. Nel primo scenario, ipotizziamo che i passeggeri non abbiano alcuna ragione a priori di preferire una carrozza rispetto a un’altra, o uno scompartimento rispetto a un altro. In questo caso non è difﬁcile prevedere che ogni scompartimento avrà la tendenza a contenere n passeggeri, con n = N/S, dove N è il numero totale dei passeggeri e S quello degli scompartimenti. Questa distribuzione, che si basa sull’ipotesi che ogni scompartimento abbia la stessa probabilità di essere scelto, è anche detta uniforme (cfr. PAR. 6.1, per una deﬁnizione più formale). Supponiamo invece che i passeggeri arrivino al binario attraverso un unico sottopassaggio e che abbiano la tendenza a occupare il posto più vicino al loro punto di accesso al binario, per una sorta di naturale propensione a compiere il minimo sforzo. In questo caso, ci aspettiamo che le carrozze in prossimità del sottopassaggio siano sovraffollate, e che la densità dei passeggeri diminuisca man mano che ci allontaniamo dal sottopassaggio in direzione della testa e della coda del treno. La distribuzione dei viaggiatori ricorderà la forma a campana della cosiddetta curva normale (cfr. Scheda on line 5.1), con valori alti in prossimità dell’asse centrale della campana, valori rapidamente decrescenti su entrambe le “spalle”, e due lunghe “code”, anch’esse disposte simmetricamente ai due lati dell’asse centrale, sulle quali il numero di passeggeri continua a decrescere a un ritmo molto lento. Nel terzo scenario, inﬁne, i passeggeri raggiungono il treno dalla prima carrozza, come accade comunemente nelle stazioni di testa, in 131

TESTO E COMPUTER

cui il binario termina e i treni ripartono invertendo la direzione di marcia con la quale erano arrivati. Supponiamo inoltre che l’attitudine dei passeggeri sia più complessa che nei primi due casi: la pulsione a fare meno strada possibile si combina, questa volta, con il loro grado di socievolezza, che può variare da passeggero a passeggero. Il risultato più prevedibile è che alcuni scompartimenti saranno sovraffollati di viaggiatori socievoli, mentre tanti altri saranno occupati da pochi passeggeri o da viaggiatori solitari. Verosimilmente, gli scompartimenti affollati saranno quelli di testa, più vicini al punto di arrivo dei passeggeri, dal momento che è ragionevole prevedere che i viaggiatori più socievoli siano meno selettivi degli altri e che quindi abbiano la tendenza a fermarsi il prima possibile. Man mano che ci allontaniamo in direzione della testa, naturalmente, i passeggeri diventano sempre più “difﬁcili”. Spingendoci ancora più in là, ﬁniremo col trovare una lunga ﬁla di scompartimenti di viaggiatori solitari, disposti ad attraversare tutto il treno pur di trovare uno scompartimento vuoto. Naturalmente quanto più saranno socievoli i passeggeri, tanto più affollate saranno le carrozze di testa. Come si vede, una semplice funzione di distribuzione delle frequenze può darci molte informazioni utili riguardo all’attitudine della popolazione che stiamo esaminando. Tornando alla FIG. 5.1, notiamo che la curva di distribuzione ha due cuspidi (dette anche mode). Un’altra sua caratteristica evidente è che la più alta delle due mode non è centrata rispetto alla distribuzione complessiva, ma piuttosto spostata verso sinistra. Discuteremo più avanti le ragioni di questa asimmetria; ci limitiamo per adesso a osservare che la mancanza di simmetria in una distribuzione indica, a meno di errori, che esistono dei fattori che impediscono alla popolazione di concentrarsi intorno al valor medio (nel nostro caso 4,6). Riprendendo la nostra metafora del treno, possiamo ipotizzare l’esistenza di due sottopassaggi, uno dei quali è accessibile per un numero più alto di potenziali passeggeri (ad esempio quello che collega il binario all’ingresso principale della stazione). In generale, tuttavia, bisogna stare bene attenti a separare l’osservazione della distribuzione dalla sua possibile spiegazione. Molte spiegazioni diverse sono infatti compatibili con la stessa distribuzione. 5.4 Il vocabolario di un testo Deﬁniamo il vocabolario VT di un testo T come l’insieme delle parole tipo che ricorrono in T. È utile distinguere questa nozione da quella di lessico L di una lingua (oppure di un parlante), che indica, nell’uso 132

5.

PAROLE E NUMERI

più comune, il repertorio di tutte le parole possibili di quella lingua (oppure di tutte le parole conosciute da quel parlante). Il vocabolario VT è dunque quel sottoinsieme di L che ritroviamo effettivamente attestato in T. Secondo la deﬁnizione che qui proponiamo, il lessico deﬁnisce un insieme potenziale, e dunque potenzialmente inﬁnito, di parole. Al contrario, dato un testo di lunghezza ﬁnita, la grandezza del suo vocabolario è sempre ﬁnita, ed è data dalla cardinalità |VT|, cioè dal numero di parole tipo in T. Nel nostro esempio 5.1, |VT| = 29. 5.4.1. Rapporto tipo/unità Il rapporto tipo/unità (type/token ratio), la cui formula è data in [5.4], può essere interpretato come un indice della ricchezza lessicale di un testo. [5.4]

0
1 a 0, che la [5.9] esclude. In conclusione, la legge di Zipf deﬁnisce una tendenza consolidata nella relazione tra rango e frequenza delle parole di un testo: poche parole sono ripetute molto spesso, molte parole hanno invece frequenza 1 o poco maggiore. Dal nostro punto di vista, un aspetto affascinante di questa relazione sta nel fatto che la forma della distribuzione lessicale che essa genera è relativamente indipendente dalla lunghezza del testo (per quanto, come abbiano visto, i suoi parametri C e a non lo siano affatto). Qualsiasi porzione sufﬁcientemente lunga di un testo reale tenderà a presentare un andamento zipﬁano. È abbastanza scontato osservare che ripetere più volte una stessa porzione di testo non signiﬁca produrre un nuovo testo più lungo. È un po’ meno ovvio che una semplice relazione quantitativa come la cosiddetta legge di Zipf consenta di misurare, in un testo, la relazione tra il tutto e le sue parti e distinguere, a colpo d’occhio, testi naturali da testi “artiﬁciali”. 142

5.

PAROLE E NUMERI

5.6 La dinamica del vocabolario Osservare come le parole, i “passeggeri” del testo, si distribuiscono al suo interno ci ha fornito una serie di informazioni preziose riguardo alle loro abitudini, al loro grado di socievolezza e persino alla natura e al contenuto del testo stesso. Questo quadro, tuttavia, è una fotograﬁa fondamentalmente statica della composizione lessicale del testo e non dice nulla, ad esempio, riguardo a quando una certa parola è apparsa per la prima volta (nella nostra metafora, quando è salita sul treno) o riguardo al modo in cui la distribuzione stessa delle parole cambia col tempo, ad esempio da un capitolo a quello successivo. Una visione dinamica della composizione lessicale di un testo è di fondamentale importanza per riuscire a capire, ad esempio, quanto a lungo dobbiamo osservare il comportamento dei nostri passeggeri per essere ragionevolmente sicuri di averne registrato le caratteristiche salienti, o per essere in grado di prevedere la loro distribuzione ﬁnale sulla base di un’osservazione parziale dei dati. 5.6.1. La crescita di V Torniamo a considerare |VT|, la cardinalità dell’insieme di parole tipo nel nostro testo T. Intuitivamente, all’inizio di un testo |VT| cresce rapidamente. Si immagini, ad esempio, di volere contare il vocabolario di questo paragrafo. La prima frase del paragrafo contiene parole tutte diverse tra loro. Ogni parola entrerà dunque nel vocabolario. Nella seconda frase, invece, la preposizione di si ripete, così come il nome testo e così via. Le parole ripetute sono già presenti nel vocabolario e quindi non vanno aggiunte. Pertanto, il ritmo di crescita di |VT| rallenta al crescere del testo. Cerchiamo ora di formalizzare questa intuizione. Per disegnare l’andamento della crescita lessicale all’aumentare della lunghezza del testo è utile rappresentare il testo come una sequenza v1, v2, ... vi ... v|T| di parole indicizzate per posizione. L’indice i può essere anche interpretato come associato a un dato istante temporale, per cui l’unità vi è la parola che troviamo nel testo all’istante i. Questa interpretazione suggerisce una visione del testo più vicina al linguaggio parlato, corrispondente a un ﬂusso di parole nel tempo. Immaginiamo di scorrere il testo parola per parola. Se vi è una parola nuova, cioè se non è mai apparsa nella sequenza v1, v2, ... vi-1, allora incrementiamo |VT| di un’unità. Al contrario se vi è già apparsa prima, allora |VT| resta invariato. Chiamiamo VT(i) il vocabolario delle 143

TESTO E COMPUTER

5.6 La crescita del lessico in Pinocchio FIGUR A

grandezza vocabolario

7.000 6.000 5.000

y = 3.2824x0.6984

4.000 3.000 2.000 1.000 0 0

10.000

20.000

30.000

lunghezza testo con punteggiatura

40.000

50.000

60.000

senza punteggiatura

Potenza (con punteggiatura)

prime i parole v1, v2, ... vi, di T, con i ≤ |T |. |VT(i)| ci restituisce pertanto la grandezza del vocabolario usato nelle prime i parole di T. La FIG. 5.6 presenta il graﬁco della |VT(i)| in due versioni differenti: la prima include nel vocabolario anche i segni di punteggiatura; la seconda si limita alle sole parole in senso stretto. In entrambi i casi, il ritmo col quale |VT(i)| aumenta diminuisce al crescere di i (rappresentato sull’asse delle x) senza tuttavia mai annullarsi completamente. Quando il lessico include la punteggiatura, la crescita è leggermente più lenta. Nella ﬁgura, abbiamo approssimato questo andamento con una funzione potenza del tipo ia, dove il valore di a, l’esponente per il quale dobbiamo elevare la lunghezza i del testo, è vicino a 0,7. Questo andamento non rettilineo (o, più tecnicamente, non lineare), come vedremo, è tipico della crescita del lessico nel testo, anche se l’esponente a può variare da testo a testo. In generale, l’andamento di |VT(i)| si spiega osservando che, al crescere di |T |, diventa intuitivamente sempre più difﬁcile trovare una parola mai usata prima in T. |VT(i)| non cresce sempre, poiché esistono parole che devono ripetersi più o meno regolarmente. Le parole grammaticali, come abbiamo visto, sono certamente tra queste: il loro ruolo di connettivi sintattici le rende insostituibili nella maggior parte delle frasi che usiamo. Un altro fattore di ripetitività è la coerenza lessicale. Quando parliamo di un argomento, tendiamo a ripete144

5.

PAROLE E NUMERI

5.7 La crescita degli hapax in Pinocchio FIGUR A

3.500 3.000 2.500 2.000 1.500 1.000 5.00 0 0

10.000

20.000 media hapax

30.000

40.000

50.000

hapax osservati

re le stesse parole relative a quell’argomento. Sebbene dal punto di vista stilistico sia preferibile non ripetersi troppo, ragioni di chiarezza spesso impongono l’uso coerente delle stesse parole quando si vuole fare riferimento agli stessi concetti. Un ultimo fattore di ripetitività lessicale è l’andamento narrativo. Per illustrarlo più concretamente, in FIG. 5.7 abbiamo rappresentato con una serie di pallini neri la distribuzione degli hapax di Pinocchio, calcolata in modo incrementale dall’inizio alla ﬁne del libro, sulle prime 1.000, 2.000, 3.000 parole e così via, ﬁno a coprire il libro intero. Sullo stesso graﬁco abbiamo poi proiettato la distribuzione degli hapax, calcolata questa volta su 40 campioni casuali di Pinocchio. I campioni sono costruiti estraendo a caso dal testo di Pinocchio 1.000, 2.000, 3.000 parole e così via, ﬁno ad arrivare a un campione casuale di taglia pari alla lunghezza totale del testo. In questo modo capitoli e campioni casuali possono essere confrontati. Si osservi ora che gli hapax “reali” (i pallini neri) sono, in generale, meno frequenti di quelli campionati casualmente (rombi collegati da una linea continua), soprattutto nella parte bassa della curva, in corrispondenza dei primi capitoli del libro. Questo sta a indicare che il ritmo narrativo di Pinocchio determina una certa “vischiosità” lessicale che porta a ripetere le stesse parole molto di più di quanto non imponga la distribuzione zipﬁana delle stesse. Per i lettori più scettici, ci affrettiamo a osservare che gli scarti tra le due distribuzioni sono 145

TESTO E COMPUTER

statisticamente signiﬁcativi: infatti, la probabilità che essi siano dovuti al caso è molto bassa, inferiore allo 0,05 6! 5.6.2. La frequenza media La crescita delle dimensioni del vocabolario di un testo T al crescere della lunghezza di T non è, come tale, sorprendente. Cosa succede se rapportiamo queste due grandezze tra loro? Esprimiamo questo rapporto come segue: [5.11]

f (|T |) =

|T | |VT|

f (|T |) è chiamata frequenza media delle parole in T, in quanto, banalmente, |T | è uguale alla somma delle frequenze di tutte le parole di VT e |VT| ce ne dà la grandezza. Si noti che f (|T |) è un indice inverso di ricchezza lessicale: a parità di lunghezza |T |, quanto più piccolo sarà il numero di parole diverse in T, tanto più grande sarà la loro 1 è uguale frequenza media. A riprova di questo, si osservi che f (|T |) al rapporto tipo/unità ([5.4]). Ma come varia f (|T |) al crescere di T? Prima di veriﬁcare l’andamento dinamico di f (|T |), è utile fare alcune considerazioni generali sul suo comportamento atteso. Nelle prime i parole di T, la probabile mancanza di parole ripetute determina l’uguaglianza tra i e |VT(i)|: pertanto, f (i) = 1, dove f (i) è il valore di frequenza media calcolato sulle prime i parole di T. Non appena il testo comincia a ripresentare parole già usate, tuttavia, f (i) > 1: la lunghezza i del testo continua infatti a crescere a fronte di |VT(i)| che resta costante. In un testo dal contenuto omogeneo, l’andamento tendenziale è quello di una funzione non decrescente, con f (k) ≤ f (k + 1), sebbene si possano registrare occasionali inversioni di questa tendenza, con f (k + h) < f (k), dovute a un incremento signiﬁcativo del ritmo di crescita del lessico nelle ultime h parole. Questa inversione è spesso indice di una discontinuità di contenuto tra la nuova porzione di testo e quella vecchia. Per converso, f (k + h) > f (k) indica una sostanziale omogeneità di contenuto tra porzioni di testo contigue, determinata dal ripetersi delle 6. I risultati di questo esperimento sono stati ottenuti grazie alla batteria di programmi di elaborazione statistica del testo acclusi al testo di R. Harald Baayen Word Frequency Distributions, Kluwer, 2001.

146

5.

PAROLE E NUMERI

5.8 L’andamento della frequenza media per parola in Pinocchio

densità

frequenza media

FIGUR A

10

1 0

10.000

20.000

30.000

40.000

50.000

0,1

0,01 lunghezza del testo

stesse parole. Nel limite, f (i) tende ad avere un andamento strettamente crescente, in corrispondenza dell’atteso rallentamento progressivo della crescita di |VT|. La crescita tuttavia non è mai lineare, a causa del costante “attrito” causato da un vocabolario che continua a espandersi, come abbiamo visto, molto lentamente. Nella parte superiore del graﬁco di FIG. 5.8 abbiamo riportato i valori di f (i) cadenzati secondo la successione dei capitoli di Pinocchio. In generale, il grafo presenta l’atteso andamento crescente, con alcuni “gradini” che congiungono i capitoli nei quali il valore di f (i) varia di meno. Sono questi i capitoli nei quali rileviamo una qualche discontinuità di contenuto rispetto al passato, come testimonia l’aumento repentino della densità di parole nuove per capitolo, riportato nella parte inferiore del graﬁco di FIG. 5.8 7. Si noti a questo riguardo la crescita costante di f (i) nei primi 8 capitoli del testo, in corrispondenza di un calo continuo della densità di parole nuove. Alla relativa uniformità lessicale della parte iniziale del romanzo, si contrappongono il CAP. 9 e in misura ancora maggiore il 10, dove il burattino esce ﬁnalmente di casa per iniziare le sue avventure lontano da Geppetto. 7. La densità è uguale al rapporto tra il numero di parole nuove introdotte in ciascun capitolo di Pinocchio (rispetto ai capitoli che lo precedono) e la lunghezza del capitolo stesso.

147

TESTO E COMPUTER

5.7 Medie e inferenza statistica Vogliamo ora approfondire il comportamento della frequenza media confrontandolo con un altro caso di media trattato in precedenza: la lunghezza media di parola in caratteri (cfr. PAR. 5.3.1). Torniamo dunque a osservare il graﬁco di FIG. 5.1. La lunghezza media in caratteri della popolazione, pari a circa 4,65, si colloca tra i due “picchi” della distribuzione, ottenuti in corrispondenza delle lunghezze 2 e 5. L’alta concentrazione di frequenze su valori relativamente bassi di lunghezza si spiega alla luce di alcune proprietà speciﬁche della distribuzione di parole nel testo. Molte delle cosiddette parole grammaticali, infatti, tendono a essere mediamente corte; inoltre esse sono anche, come sappiamo, le più frequenti in un testo. Cosa succede se confrontiamo tra loro i valori della lunghezza media di parola in una serie di campioni di testo? Innanzitutto, per costruire questa curva dobbiamo: 1. estrarre dal testo un certo numero di campioni; 2. per ogni campione i, misurare la lunghezza media di parola l i; 3. raggruppare le medie ottenute per intervalli di larghezza costante (ad esempio tutte le medie comprese tra i valori 3 e 3,5); 4. calcolare la cardinalità di tutti i raggruppamenti ottenuti al passo 3. La FIG. 5.9 illustra il risultato di questa operazione, ottenuto utilizzando come campioni i 36 capitoli di Pinocchio. Si osservi che il numero di capitoli i cui valori di l i si scostano da l (media della popolazione), diminuisce all’aumentare dello scostamento. L’andamento complessivo della distribuzione di FIG. 5.9 ricorda la forma a campana della curva normale (cfr. Scheda on line 5.2). La sagoma della campana non è perfettamente simmetrica (a causa del numero limitato di capitoli e della variabilità non casuale della loro lunghezza), ma la differenza tra quest’ultima e la distribuzione bimodale di FIG. 5.1 è comunque sensibile. Calcolando i valori di l i nel primo capitolo, nei primi due, nei primi tre, nei primi quattro e così via, osserveremmo che questi valori oscillano intorno a una retta parallela all’asse delle ascisse e che l’ampiezza delle oscillazioni diminuisce al crescere della lunghezza del testo. A conferma di una tendenza verso una graduale stabilizzazione di l i. Questi risultati non sono inattesi, ma rispondono al Teorema del Limite Centrale (TLC) che ci dice ﬁno a che punto siamo autorizzati a trarre conclusioni generali (valide cioè per l’intera popolazione) sulla base dell’evidenza quantitativa fornitaci da un campione, cioè da un’osservazione parziale dei dati. Secondo il TLC, infatti, 148

5.

PAROLE E NUMERI

5.9 La lunghezza media di parola nei capitoli di Pinocchio FIGUR A

14

13

12 10 8

8 6

6

4

4 2

3 1

1

>4.95

4,85-4,95

4,75-4,85

4,65-4,75

4,55-4,65

4,45-4,55

p(ei + 1 = vj). In caso di correlazione negativa, la prima tenderà a escludere l’occorrenza della seconda e quindi p(ei + 1 = vj | ei = vk) < p(ei + 1 = vj). Infine, nell’ipotesi di indipendenza p(ei + 1 = vj | ei = vk) = p(ei + 1 = vj), la probabilità di due eventi indipendenti congiunti torna a essere uguale al prodotto delle probabilità dei singoli eventi. È importante osservare che la [6.10] è una generalizzazione della definizione di probabilità congiunta data nella [6.5]. Si può infatti affermare che dati due eventi qualsiasi A e B, vale sempre che: [6.11]

p(A, B) = p(A) · p(B|A)

Otteniamo la [6.5] come caso particolare della [6.11] quando assumiamo che A e B sono indipendenti. Infatti, in questo caso, si ha che p(B|A) = p(B), cioè A non ha influenza su p(B). Nel PAR. 7.4.1, sfrutteremo queste proprietà per ricercare nel testo coppie coese di parole. Intuitivamente, la nozione di probabilità condizionata quantifica quella porzione di incertezza di un evento che è indipendente (e dunque non prevedibile) rispetto all’occorrenza dell’evento che lo precede. Ad esempio, la presenza dell’articolo il ci consente di predire che ciò che segue sarà (con buona probabilità) un nome, ma non di quale nome si tratta. Nel nostro esempio, l’incertezza rimanente si divide in parti uguali, 0,5 e 0,5, tra cane e gatto. Infine, la formula di scomposizione di due eventi congiunti può essere generalizzata al caso di n eventi congiunti, dando origine allo sviluppo a catena della [6.12], dove pMLS(ei, ei + 1, ..., ei + n) indica la probabilità che uno specifico MLS assegna alla sequenza in questione. Questo sviluppo offre un MLS più sofisticato di quello visto nel PAR. 6.3.1: una catena markoviana del primo ordine. [6.12]

pMLS(ei + 1, ei + 2, ..., ei + n) ≡ p(ei + 1) · · p(ei + 2 | ei + 1) · ... · p(ei + n | ei + n–1)

Con l’aiuto della [6.12] siamo in grado di approssimare la probabilità di un’intera sequenza di n parole come prodotto di probabilità condizionate di una parola, data la parola immediatamente precedente. Nel caso del testo T dell’esempio 6.1, la [6.12] diventa 167

TESTO E COMPUTER

[6.13]

pMLS(T) = p(il)·p(cane | il) ·...· (lì | mangia) =

1

·

1

·...·

1

8 14243 2 2

=

1 242

39 volte

Si noti, per inciso, che il valore così ottenuto è signiﬁcativamente maggiore della probabilità di produrre lo stesso testo con il modello a urna ([6.7]). Addestramento del modello Vediamo inﬁne come possiamo stimare sul testo le probabilità condizionate p(ei + 1| ei). Iniziamo intanto a vedere che dalla [6.11] possiamo deﬁnire la probabilità condizionata p(ei + 1| ei) come segue:

[6.14]

p(ei + 1 | ei) =

p(ei, ei + 1) p(ei)

Per stimare la probabilità p(ei, ei + 1), usiamo la frequenza relativa del bigramma tipo ei, ei + 1 (per tale motivo i modelli markoviani del primo ordine sono anche detti modelli a bigrammi), mentre per stimare p(ei), usiamo la frequenza relativa di ei nel testo. La [6.14] può essere poi riscritta e sempliﬁcata nel modo seguente: f(ei, ei + 1) [6.15]

p(ei + 1 | ei) ≈

|T| f(ei)

=

f(ei, ei + 1) f(ei)

|T| Per calcolare p(ei + 1 = cane | ei = il), contiamo dunque innanzitutto quante volte ricorre la sequenza il cane nell’esempio 6.1. Indichiamo questa frequenza con f(ei = il, ei + 1 = cane) o, più semplicemente, f(il, cane). Allo stesso modo, chiamiamo f(ei = il), o f(il), la frequenza di il in tutto il testo. Una stima di massima verosimiglianza della probabilità condizionata p(ei + 1 = cane | ei = il) è uguale al numero di volte che troviamo cane immediatamente dopo il, diviso per tutte le volte che troviamo il, e cioè 168

6.

[6.16]

PROBABILITÀ ED ENTROPIA

p(ei + 1 = cane | ei = il) ≈

f(il, cane) f(il)

=

1 2

.

Come anticipato, p(cane | il) > p(cane). La presenza di il nel testo fa ovviamente aumentare la probabilità di trovare cane subito dopo. Si noti, per inciso, che f(il) è uguale alla somma della frequenza di tutti i bigrammi che contengono il come primo elemento e cioè [6.17]

f(ei = il) = f(ei = il, ei + 1 = vx), vx∈V

dove V è il vocabolario espresso dal testo di riferimento. Si noti inﬁne che, in generale, il numero di bigrammi unità in un testo può essere reso uguale al numero complessivo di token T, se aggiungiamo alla ﬁne del testo un token “di chiusura”. 6.3.3. Oltre le catene del primo ordine Nei paragraﬁ precedenti siamo passati da un modello probabilistico del testo come sequenza di eventi indipendenti di estrazione lessicale, a un modello più complesso, in cui la selezione di una parola è condizionata dal risultato della scelta lessicale compiuta al passo precedente. Nel modello markoviano del primo ordine, si deve registrare soltanto l’ultimo evento in ordine di tempo, per poter ragionevolmente prevedere cosa succederà nell’istante successivo. Ha senso, dal punto di vista linguistico, incrementare ulteriormente l’ordine di questa catena di parole per ricordarsi le ultime due, tre, quattro o n parole unità? Il testo dell’esempio 6.1 è generato proprio da una catena di Markov del primo ordine. La scelta di un nome dipende solo dall’articolo che lo precede immediatamente, quella di un verbo dal nome alla sua sinistra e via dicendo. Ci aspettiamo pertanto che addestrare su questo testo una catena di Markov di ordine superiore al primo non porti alcun vantaggio apprezzabile in termini di stima della probabilità di produrre l’esempio 6.1, come vedremo nel prossimo paragrafo. Qui, invece, vogliamo porci la domanda se, in generale, un modello markoviano del primo ordine sia un buon modello stocastico dell’italiano. La risposta è no. Per capire il perché, è sufﬁciente osservare che la correttezza delle frasi nell’esempio 6.1 si deve all’interazione di due fattori: l’estrema 169

TESTO E COMPUTER

povertà del vocabolario del modello (solo 8 parole tipo) e l’arbitraria semplicità della sua sintassi. Il modello infatti non è in grado di generare una sequenza perfettamente legittima di categorie grammaticali come un verbo preceduto da un avverbio, come nella frase il cane spesso dorme. Supponiamo allora di voler includere queste sequenze nel nostro modello, assegnando loro probabilità non nulle. Supponiamo inoltre che il vocabolario del modello contenga, oltre alle forme gatto, cane, dorme e mangia, anche le forme gatti, cani, i, dormono e mangiano. Queste due semplici estensioni rendono un modello markoviano del primo ordine inadeguato a descrivere le frasi corrette. Per la regola dell’accordo grammaticale, infatti, cane, in funzione di soggetto, si può accordare a distanza con dorme (o mangia), ma non con dormono (o mangiano). Interponendo un avverbio tra cane e dorme, un modello markoviano del primo ordine è costretto a predire la forma del verbo sulla base dell’informazione relativa all’avverbio immediatamente precedente. Così facendo, a una sequenza come il cane spesso mangia il modello assegna la stessa probabilità di *il cane spesso mangiano. Una mancanza di preferenza alquanto grave per un modello del linguaggio! Addestramento del modello Dimentichiamo per un attimo queste mancanze e proviamo ad addestrare un modello markoviano del secondo ordine sull’ESEMPIO 6.1. Questo richiede che la probabilità di una parola nel testo sia stimata sulla base delle due parole che la precedono. La formula [6.18] ci dice come stimare le probabilità condizionate del secondo ordine sulla base di un testo di riferimento.

[6.18]

p(ei + 2 | ei, ei + 1) ≈

f(ei, ei + 1, ei + 2) f(ei, ei + 1)

dove f(ei, ei + 1, ei + 2) indica la frequenza di una qualsiasi tripla di parole adiacenti o trigramma tipo. Inﬁne, approssimare la probabilità di una sequenza di parole nel testo con un modello markoviano del secondo ordine signiﬁca rimpiazzare l’equazione [6.12] con la seguente: [6.19]

pMLS(e1, e2, ..., ei, ..., ek–1, ek) ≡ p(e1) · p(e2 | e1) · · p(ei | e1, e2) ·...· p(ek | ek–1, ek–2) 170

6.

PROBABILITÀ ED ENTROPIA

Se usiamo la [6.19] per produrre il testo dell’esempio 6.1, otteniamo [6.20] pMLS(T) = p(il) · p(cane | il) · p(dorme | il, cane)... · (lì | cane, mangia) = =

1 8

·

1 2

·

1

·...·

1

2 2 14243

=

1 242

38 volte

con un risultato identico a quanto già ottenuto con la catena markoviana del primo ordine dello stesso testo ([6.13]). Riassumendo, le catene di Markov deﬁniscono una famiglia di modelli linguistici di complessità crescente, in funzione della loro capacità di “memorizzare” le parole già viste del testo, ovvero di rappresentare nel modello probabilistico legami di dipendenza tra più parole nel testo. Ciascuno di questi modelli presuppone uno spazio di eventi semplici suo proprio: le singole parole per il modello di ordine 0; i bigrammi per il modello di ordine 1, i trigrammi per il modello di ordine 2 e via di questo passo. In teoria, non esistono limiti alla lunghezza degli eventi semplici: è per questo che i modelli markoviani sono anche noti come modelli a n-grammi. In pratica, tuttavia, diventa presto difﬁcile ottenere una stima accurata delle distribuzioni degli n-grammi al crescere di n. Quanto più lunghe sono le sequenze di parole, tanto più piccola è la probabilità di trovarle, perché i loro tipi tendono a moltiplicarsi enormemente. La stima di probabilità molto piccole rende dunque indispensabile il ricorso a testi molto grandi, con i problemi noti di rarità del dato e di code zipﬁane (PARR. 1.4.4 e 5.5). Sebbene, a differenza del recente passato, le risorse di calcolo automatico e di memoria di massa oggi disponibili hanno ridotto l’impatto del problema, è in genere sempre buona norma commisurare la complessità del modello alla quantità di dati che il corpus di addestramento è in grado di offrire. Il rischio che altrimenti si corre è quello di sviluppare un modello del tutto ad hoc, che riﬂette soltanto le caratteristiche distribuzionali speciﬁche del corpus sul quale il modello è addestrato. 6.4 Linguaggio ed entropia Finora ci siamo limitati a una valutazione qualitativa e impressionistica della bontà del modello, basata sulla verosimiglianza linguistica del testo che il modello produce. È possibile stimare l’accuratez171

TESTO E COMPUTER

za dell’approssimazione del testo da parte dell’MLS in modo più rigoroso? Gli studi del matematico e ingegnere elettronico Claude Shannon (1916-2001) sulla teoria dell’informazione e la nozione di entropia ci consentono di dare una risposta affermativa a questa domanda. L’interesse che questa risposta ha per un linguista computazionale è soltanto secondariamente legato al rigore matematico sul quale si fonda la teoria dell’informazione. Molto più rilevante, secondo noi, è la considerazione che la teoria dell’informazione ci consente di collegare nozioni apparentemente distanti tra loro quali la capacità predittiva di un MLS, la teoria della codifica e il cosiddetto rasoio di Occam. L’entropia nasce come misura del valore informativo di una classe di eventi esclusivi. Secondo una vecchia massima giornalistica, un cane che morde un uomo non fa notizia, ma un uomo che morde un cane fa notizia. Gli eventi rari contengono dunque maggiore informazione degli eventi più probabili. Periodicità, ripetizioni o correlazioni di varia natura rendono gli eventi più prevedibili e quindi, in ultima analisi, meno informativi 9. Quanto più piccola è la probabilità, tanto più grande è dunque l’informazione. Nella sua espressione più generale, l’entropia è una media calcolata sulla distribuzione di probabilità di un insieme di eventi aleatori mutuamente esclusivi. Più esattamente, è una media del logaritmo (in base 2) dell’inverso delle probabilità della distribuzione. Perché il logaritmo in base 2? Questo aspetto ha a che vedere col legame profondo che esiste tra la nozione di entropia e la teoria della codifica digitale in bit. Nel PAR. 2.3 abbiamo osservato che, dati n bit, il numero k delle loro possibili combinazioni è uguale a 2n; dunque, dato un certo numero k di parole tipo da codificare in bit, log2k è uguale al numero minimo n di bit necessari per codificare in modo univoco tutte le k parole, usando una codifica a lunghezza fissa. Più in generale, si dimostra che l’entropia esprime la lunghezza media minima di una serie di messaggi in cui le parole più frequenti ricevono una codifica più corta e quelle più rare una codifica più lunga (codifica a lunghezza variabile, cfr. Scheda on line 6.1). Come tutte le medie, l’entropia ci consente, come vedremo, di descrivere in modo sintetico il comportamento di un’intera distribuzione. 9. Per la stessa ragione, nel CAP. 5 abbiamo osservato che parole molto frequenti come quelle grammaticali dicono poco o nulla del contenuto di un testo. Da questo punto di vista, sono molto più utili le parole piene e, tra queste, quelle più rare.

172

6.

PROBABILITÀ ED ENTROPIA

6.4.1. Vocabolario ed entropia Deﬁniamo l’entropia puntuale h dell’evento “parola tipo v” in questo modo: h(v) = log2 [

[6.21]

1 p(v)

],

dove p(v) può essere interpretata come la probabilità di trovare v in 1 un testo T. Se, ad esempio, la parola cane ha probabilità 3 , allora 2 h(cane) = log2 23 = 3. Tipicamente, non siamo interessati all’entropia di una singola parola v (con la v minuscola) ma piuttosto all’entropia media di una classe V (con la V maiuscola) di parole: ad esempio, tutto il vocabolario VT di un testo T. Possiamo ottenere H(VT) calcolando una media di ogni h(vi) in T:

f(vi) · h(vi)

H(VT) =

[6.22]

∀ vi∈VT

|T|

dove f(vi) è la frequenza con cui vi ricorre in T e la lunghezza |T| è la f(vi) approssima la p(vi) in somma di tutte le f(vi). Se assumiamo che |T| T, allora la [6.22] si può riscrivere come segue: [6.23]

H(VT) =

p(vi) · h(vi),

∀ vi∈VT

che è la formula classica dell’entropia. Applicando la [6.22] all’esem1 pio 6.1, avremo pertanto, nell’ipotesi di equiprobabilità p(vi) = , 8 8

[6.24]

p(vi) · h(vi) =

∀ vi∈V

i=1

1 8

8

· h(vi) =

i=1

1 8

·3 =

8 8

·3 = 3

L’entropia del vocabolario è, in questo caso, identica all’entropia di ogni singola parola, in quanto la distribuzione delle singole parole nel testo è uniforme. 173

TESTO E COMPUTER

Supponiamo ora che una parola tipo del vocabolario sia più probabile delle altre e che ricorra in media una volta ogni 2 parole (pro1 babilità ), mentre le altre rimangono equiprobabili (probabilità 2 1 ). L’entropia di un vocabolario di 8 parole con questa distribuzio14 ne sarebbe dunque [6.25]

p(vi) · h(vi) =

∀ vi∈V

1 2

7

· (log22) +

i=1

1 14

· h(vi) =

1 2

+

1 2

· (log214) < 3

L’entropia di un vocabolario con distribuzione non uniforme è dunque inferiore all’entropia di un vocabolario delle stesse dimensioni in cui le parole si distribuiscono in modo equiprobabile. Questo risultato è valido in generale: a parità di numero di eventi, l’entropia ha valore massimo quando gli eventi sono equiprobabili (cfr. Scheda on line 6.2). In altre parole, una distribuzione uniforme di probabilità crea la situazione di massima incertezza. A parità di vocabolario, il testo in assoluto più imprevedibile è quello in cui, a ogni istante, ogni parola può apparire con la stessa probabilità di ogni altra, senza alcun tipo di vincoli o restrizioni. Da un punto di vista linguistico, l’entropia è dunque tanto più grande quanto meno numerosi sono i vincoli che condizionano la distribuzione delle parole. 6.4.2. Testo ed entropia Nel paragrafo precedente, abbiamo imparato a calcolare l’entropia di parole avulse dal contesto (o entropia del vocabolario). Un testo, tuttavia, è tipicamente formato da sequenze di parole. Dal punto di vista statistico, la nozione di sequenza di parole si traduce, come abbiamo visto, in quella di evento congiunto: ad esempio, un bigramma, un trigramma, un quadrigramma e così via. Passando da eventi singoli a eventi congiunti, il nostro evento diventa multidimensionale. Ad esempio, se ci concentriamo su sequenze di due parole alla volta, la classe di eventi alla quale siamo interessati è deﬁnita da tutte le coppie ammissibili di parole: una specie di vocabolario di bigrammi. Ma come si passa dall’entropia di eventi singoli all’entropia di eventi congiunti? 174

6.

PROBABILITÀ ED ENTROPIA

Entropia di eventi indipendenti Per l’ipotesi di indipendenza statistica (PAR. 6.1.2), la probabilità dell’esito del lancio di n monete è uguale al prodotto delle probabilità di 1 ogni singolo lancio: n . A partire da questa premessa, sfruttando le 2 proprietà del logaritmo rispetto al prodotto (cfr. Scheda on line 5.1) si arriva facilmente a dimostrare che l’entropia di n lanci di una moneta è uguale alla somma delle entropie di ogni singolo lancio: [6.26]

H(Ei, Ei + 1, ..., Ei + n) = H(Ei) + H(Ei + 1) + .... + H(Ei + n)

dove le E maiuscole stanno a indicare, nuovamente, che ci stiamo occupando della classe di esiti possibili di ogni lancio (testa e croce) e non di un singolo esito speciﬁco. Se dunque l’entropia del lancio di una moneta è uguale a log2 2 = 1, l’entropia di n lanci è uguale a n. L’entropia, cioè, aumenta linearmente col numero di lanci. Per rendere confrontabile l’entropia delle classi di n lanci con l’entropia del singolo lancio è sufﬁciente dividere la prima per n. Così facendo, veriﬁchiamo che l’entropia per lancio di una classe di sequenze di n lanci è uguale all’entropia del singolo lancio:

[6.27]

H(Ei, Ei + 1, ..., Ei + n) n

=

nH(Ei) n

= H(Ei) = 1

La [6.27] vale per qualunque sequenza di eventi indipendenti, anche se la loro distribuzione non è uniforme. Entropia di eventi non indipendenti Nell’ESEMPIO 6.1 ognuna delle 8 parole si distribuisce con probabilità 1 uniforme p(v) = . Se le parole si distribuissero come eventi indipen8 denti, la probabilità p(vi, vi + 1) di trovare il bigramma (vi, vi + 1) nello 1 1 1 stesso testo sarebbe · = e l’entropia dell’insieme dei bigram8 8 64 mi tipo, espressa come H(Vi, Vi + 1), sarebbe uguale a 6. L’esempio 6.1, tuttavia, documenta la presenza di soli 16 tipi diversi di bigram175

TESTO E COMPUTER

6.1 La distribuzione di bigrammi, trigrammi e quadrigrammi in Pinocchio FIGUR A

10.000 8.000 6.000 4.000 2.000 ×

0 0

×

×

2.000 tetragrammi

×

× ×

4.000 ? trigrammi

×

×

×

×

6.000

8.000

× parole

bigrammi

mi, ciascuno con probabilità uniforme p(vi, vi + 1) =

1.0000

1

. L’entropia as16 sociata all’insieme dei bigrammi tipo attestati è dunque uguale a log216 = 4. Questo valore è maggiore dell’entropia del vocabolario H(VT) = 3, ma minore di H(Vi, Vi + 1). Cosa insegna questo risultato? L’entropia della distribuzione di singole parole nel testo tende a essere più piccola dell’entropia della distribuzione di coppie di parole (i bigrammi). La ragione è semplice: il numero di bigrammi tipo di un testo è generalmente maggiore del numero di parole tipo dello stesso testo. Ad esempio, con due parole come cane e vero possiamo formare almeno tre coppie: vero cane, cane vero, vero vero (la sequenza cane cane è decisamente poco plausibile!). Analogamente, i trigrammi tipo sono più numerosi dei bigrammi tipo e così via (cfr. FIG. 6.1). Questo incremento, tuttavia, può essere più o meno grande. Tutto dipende dal grado di indipendenza statistica tra le parole che formano i nostri eventi congiunti semplici. A parità di numero di bigrammi, infatti, l’entropia della loro distribuzione è massima quando la distribuzione è uniforme (tutti i bigrammi hanno la stessa probabilità). Inoltre, maggiore sarà il numero di bigrammi, maggiore è l’entropia della loro distribuzione (in quanto si abbassa la probabilità associata a ciascun bigramma). Cosa succede nel nostro esempio? Abbiamo visto che l’occorrenza di una parola riduce in maniera consistente i gradi di libertà nella 176

6.

PROBABILITÀ ED ENTROPIA

selezione della parola successiva (PAR. 6.3.2). L’effetto di questa riduzione è che alcuni bigrammi (ad esempio cane qui) hanno probabilità 0 di ricorrere in T. Questo porta l’entropia della distribuzione dei bigrammi in T a rimanere ben al di sotto del suo limite massimo (valore corrispondente all’ipotesi di indipendenza statistica tra parole). Passando dall’intuizione alle formule, dall’equazione [6.10] ricaviamo che [6.28]

H(Vi, Vi + 1) = H(Vi) + H(Vi + 1 | Vi) ≤ H(Vi) + H(Vi + 1),

dove H(Vi + 1|Vi) rappresenta l’entropia associata alla probabilità condizionata di una qualsiasi parola vi + 1 data una qualsiasi parola vi che la precede nel testo. H(Vi + 1 | Vi) quantiﬁca dunque l’informazione nuova associata a vi + 1, che non è prevedibile a partire da vi. Riscrivendo la [6.28] come differenza, l’incremento entropico H(Vi,Vi + 1) – H(Vi) che si ottiene passando da una distribuzione di parole singole a una distribuzione di coppie di parole è proprio uguale a H(Vi + 1 | Vi). La formula [6.28] si estende al caso generale, in quanto è sempre vero che [6.29] H(Vi, Vi + 1, ..., Vi + n) = H(Vi, Vi + 1, ..., Vi + n–1) + H(Vi + n | Vi, Vi + 1, ..., Vi + n–1) La [6.29] ci dice che passando dalla distribuzione di una multipla di n – 1 parole alla distribuzione di una multipla di n parole, l’entropia aumenta di una quantità pari all’informazione media della parola vi + n che non è prevedibile dalle n – 1 parole che la precedono nel testo. Che andamento segue H(Vi + n | Vi, Vi + 1, ..., Vi + n–1) al crescere di n? La sua tendenza è verso una graduale diminuzione. Più lungo è il contesto, maggiore è infatti il suo condizionamento sulla parola che segue e minore il grado di incertezza che rimane. Immaginiamo, ad esempio, un gioco in cui ci sia chiesto di indovinare una parola x nel testo scoprendo il contesto alla sua sinistra una parola per volta: ad esempio, ... una x, ... volare una x, ... sentiva volare una x, ... si sentiva volare una x, ... non si sentiva volare una x ecc. Dopo aver scoperto la terza parola a sinistra, un parlante nativo italiano dovrebbe avere forti sospetti che x = mosca. Allargando la nostra ﬁnestra di contesto, la quantità di informazione che il contesto ci fornisce riguardo alla x non può diminuire, ma non può nemmeno aumentare all’inﬁnito, perché da un certo punto in poi le parole che precedono non ci danno più alcuna informazione sulla x. In termini di entropia, 177

TESTO E COMPUTER

questo vuol dire che da un certo n in poi H(Vi + n | Vi + 1, ..., Vi + n–1) e H(Vi + n + 1 | Vi, Vi + 1, ..., Vi + n) avranno valori non nulli identici. Quale impatto hanno queste proprietà sulla nostra analisi della distribuzione di multiple di parole in un testo di riferimento? Molto semplicemente, possiamo andare a calcolare nel testo l’entropia di parole singole, di bigrammi, di trigrammi, di quadrigrammi e così via, per osservare come crescono i valori di queste entropie. Ciascuna di queste classi di eventi di crescente complessità deﬁnisce infatti un insieme di eventi aleatori mutuamente esclusivi. Da un certo punto in poi, ci aspettiamo che lo scarto tra l’entropia calcolata su sequenze di n parole e l’entropia calcolata su sequenze di n + 1 parole non diminuisce più. Per quanto detto ﬁnora, questo vuol dire che allargare la nostra ﬁnestra di contesto non serve. La catena di condizionamenti che ci consente di predire l’occorrenza della parola corrente ha avuto termine. Diventa superﬂuo guardare ancora più indietro. Torniamo al nostro esempio 6.1. L’entropia del vocabolario del testo è, come abbiamo visto, uguale a 3. Passando all’entropia delle coppie di parole (bigrammi), si arriva a 4. Lo scarto tra le due entropie è 1. Calcoliamo ora l’entropia sulle triple di parole attestate nell’esempio 6.1: il risultato sarà 5. Ma, un momento! Lo scarto H(Vi + 2 | Vi, Vi + 1) tra l’entropia dei trigrammi e quella dei bigrammi è identico allo scarto H(Vi + 1 | Vi) tra l’entropia di bigrammi e quella del vocabolario! Passando da coppie a triple di parole non abbiamo migliorato la nostra capacità di predire la parola corrente sulla base delle parole che la precedono. Questo andamento è confermato se proviamo a calcolare anche l’entropia di sequenze di parole più lunghe di 3. Possiamo dunque fermarci tranquillamente alla distribuzione di coppie di parole. Il risultato conferma quanto avevamo osservato nel PAR. 6.3.3. Il modello markoviano del secondo ordine, basato sulla distribuzione dei trigrammi (PAR. 6.3.3), assegna infatti all’esempio 6.1 la stessa probabilità della catena del primo ordine ([6.13]), e non, come ci aspetteremmo in astratto, una probabilità maggiore. La ragione è, come abbiamo appena mostrato, che il testo non contiene restrizioni o condizionamenti che travalichino coppie di parole. Dal momento che il modello a bigrammi è anche quello che richiede di misurare il numero minimo di eventi mutuamente esclusivi, in base al principio del rasoio di Occam, secondo il quale entia non sunt multiplicanda praeter necessitatem, dobbiamo preferirlo ad altri modelli che, pur assegnando la stessa probabilità al testo, fanno afﬁdamento su un numero maggiore di eventi esclusivi (trigrammi, quadrigrammi ecc.). 178

6.

PROBABILITÀ ED ENTROPIA

6.5 Considerazioni conclusive Il testo contiene struttura linguistica e questa struttura si manifesta nel modo in cui le parole si co-selezionano in sequenze ricorrenti. I modelli linguistici stocastici sono meccanismi generativi che associano a ogni sequenza grammaticalmente corretta di parole, comunque lunga, una probabilità maggiore di zero. La probabilità è stimata per approssimazione, combinando tra loro le probabilità di sequenze elementari (o eventi semplici) più piccole. Sequenze elementari corte possono catturare solo relazioni strutturali tra parole vicine tra loro. Maggiore la lunghezza delle sequenze elementari, più ampie e ricche sono le strutture che il modello riesce a descrivere. L’entropia è un indice (inverso) della quantità di struttura presente in un testo. Il valore di massima entropia si raggiunge quando le parole formano un ﬂusso caotico, in cui ogni nuova parola ha probabilità costante, indipendentemente dal contesto che la precede. Questo ﬂusso è simulato dall’MLS più semplice: il modello a urna. Aumentando l’ordine del modello markoviano, siamo in grado di catturare condizionamenti di ampiezza crescente tra parole. Ma quando siamo autorizzati a fermarci? Banalmente, se un testo di n parole fosse il solo testo possibile di quella lunghezza, allora l’MLS più accurato sarebbe un modello markoviano di ordine n – 1 che assegna probabilità 1 al testo in questione! Il problema è che qualsiasi testo può essere modiﬁcato in modo tale da ottenere un altro testo grammaticalmente corretto della stessa lunghezza. La creatività del linguaggio consiste nella possibilità di generare frasi sempre nuove combinando in modo diverso un numero ﬁnito di schemi ricorrenti di lunghezza ﬁnita. Se questo è vero, allora è fondata la speranza che, analizzando un testo sempre più lungo, si riesca a stimare con sufﬁciente accuratezza la distribuzione di tutti gli schemi ricorrenti nel testo. Sulla base di questa stima, la probabilità del testo di partenza può essere approssimata da una combinazione speciﬁca di schemi di cui è nota la probabilità. Questo excursus può essere tradotto in una serie di istruzioni per l’uso. Primo, volendo stimare l’MLS di un testo, è consigliabile che il testo in questione sia il più lungo possibile. Secondo, dobbiamo partire dal modello più semplice, per complicarlo gradualmente. Terzo, per ogni modello che consideriamo, calcoliamo l’entropia degli eventi semplici alla base del modello dopo aver stimato la loro distribuzione di probabilità sul testo (addestramento). Quarto, confrontiamo questa 179

TESTO E COMPUTER

entropia con l’entropia alla base del modello precedente in ordine di complessità e calcoliamo la loro differenza. Quinto, se questa differenza smette di decrescere, per il rasoio di Occam potremo accordare la nostra preferenza al modello markoviano di ordine di complessità precedente a quello corrente. Con un avvertimento però: se una mancata riduzione dello scarto tra entropie di ordini successivi ci dà la prova che possiamo fermarci al modello di ordine precedente, un’effettiva riduzione dello scarto potrebbe essere il prodotto distorto di un campione troppo piccolo, che non offre dati in numero sufﬁciente per le nostre stime di probabilità. Gli MLS che abbiamo descritto in questo capitolo si basano su due assunzioni di fondo. La prima è che esista un modello markoviano di ordine ﬁnito che sia in grado di rappresentare tutta la struttura linguistica che troviamo nel testo. La seconda assunzione è che, avendo a disposizione un testo sufﬁcientemente lungo, saremo in grado di osservare tutte le distribuzioni osservabili (ad esempio tutte le multiple grammaticalmente corrette o tutto il vocabolario esprimibile). Entrambe queste assunzioni sono però dubbie. In primo luogo, ci sono buone ragioni teoriche per dubitare che le proprietà di combinazione delle parole nel testo siano esprimibili attraverso modelli markoviani di un qualsiasi ordine ﬁnito. Inoltre, alla luce di quanto detto nel CAP. 5, anche la seconda assunzione sembra infondata. La coda zipﬁana di un vocabolario si allunga infatti al crescere della lunghezza del testo. D’altra parte, la stima delle probabilità condizionate richiede il conteggio di sequenze di parole anche molto rare. Più rare sono queste sequenze, più difﬁcile diventa distinguerle da sequenze che non sono attestate o perché linguisticamente sgrammaticate, o perché non legate a convenzioni d’uso, o perché non rispondono a vincoli semantici di un qualche tipo. Dobbiamo rassegnarci a una conclusione del tutto negativa? Il successo di cui hanno goduto negli ultimi 20 anni, nonostante i loro indiscutibili limiti, i modelli linguistici stocastici ci autorizza a essere più ottimisti. Alcuni di questi modelli sono infatti stati sviluppati a partire dalla distribuzione di classi di tipi lessicali, come ad esempio le categorie grammaticali. Categorie grammaticali astratte come il nome o l’aggettivo presentano una distribuzione più stabile delle parole pescecane e birichino. Mentre l’occorrenza di pescecane può essere dunque soggetta a oscillazioni casuali, dovute all’argomento o all’andamento della narrazione, possiamo sperare che, aggregando la distribuzione di tutti i nomi, questi fattori di imprevedibilità possano essere ridimensionati (cfr. FIG. 6.2). 180

6.

PROBABILITÀ ED ENTROPIA

6.2 La distribuzione di nomi, verbi e preposizioni in Pinocchio FIGUR A

frequenza relativa

25,00 20,00 15,00 10,00 5,00 0,00 0

2.000

4.000 nomi

verbi

6.000

8.000

10.000

preposizioni

Inoltre, sostituire ciascuna parola del testo con la sua categoria grammaticale appropriata porta a una riduzione assai consistente della cardinalità del vocabolario del testo, cioè del numero di tipi di unità attestati e, in ultima analisi, dello spazio campionario degli eventi attesi. Naturalmente passare da una nozione di testo come pura sequenza di parole alla sua analisi in termini di sequenze di categorie linguistiche astratte solleva tutta una serie di interrogativi: quali sono queste categorie? Come vengono apprese dai parlanti? Come si combinano in strutture complesse? Esistono strutture o categorie innate? È legittimo ipotizzare che gli strumenti della statistica e della teoria della probabilità possano gettare luce su questi problemi, ad esempio raggruppando parole e sequenze di parole rispettivamente in classi astratte e in sequenze ricorrenti di classi astratte, la cui distribuzione si presti a essere stimata a sua volta con accuratezza sempre maggiore. Questo ciclo incrementale, che si compone dei passi stima → generalizzazione → nuova stima, definisce una famiglia di algoritmi, detti in letteratura di bootstrapping, finalizzati a distillare dai testi informazione linguistica sempre più astratta. Una prospettiva assai concreta di indagine scientifica è dunque quella di usare questi algoritmi come strumenti esplorativi dei processi cognitivi legati alle dinamiche della comprensione e dell’apprendimento del linguaggio. 181

TESTO E COMPUTER

Per saperne di più CHARNIAK E.

(1993), Statistical Language Learning, The MIT Press, Cambridge (MA). COVER T., THOMAS J. A. (1991), Elements of Information Theory, John Wiley & Sons, USA. MANNING C. D., SCHÜTZE H. (1999), Foundations of Statistical Natural Language Processing, Cambridge (MA). SHANNON C. E. (1948), A Mathematical Theory of Communication, in “Bell System Technical Journal”, vol. 27.

182

Parte terza Esplorazione e annotazione del testo

7 Esplorare il testo

Il testo è una fonte di dati da cui acquisire informazioni linguistiche per estendere le nostre conoscenze sulla lingua. In questa terza parte del libro, concentreremo la nostra attenzione proprio sul contributo offerto dalla LC per potenziare la ricerca e la rappresentazione dell’informazione linguistica nei testi. La LC ha messo a punto una ricca serie di metodi che consentono di effettuare esplorazioni avanzate del testo allo scopo di individuare tratti e costruzioni rilevanti per una particolare indagine linguistica, e soprattutto di osservare e analizzare il comportamento delle espressioni della lingua nei loro contesti d’uso, ai ﬁni di una possibile classiﬁcazione. Questo capitolo è dedicato a una rassegna dei principali metodi di esplorazione automatica del testo, che consentono di sfruttare al meglio la ricchezza dei testi in quanto fonte di dati linguistici “ecologici”. Esplorare il testo permette di raccogliere informazioni sul modo in cui le espressioni linguistiche si distribuiscono e sui loro schemi ricorrenti di combinazione, ottenendo così evidenza preziosa per elaborare modelli di spiegazione delle proprietà delle espressioni linguistiche e dell’organizzazione del linguaggio. Un fattore fondamentale che condiziona i modi e i risultati delle nostre esplorazioni testuali è la possibilità di disporre di un testo linguisticamente annotato. Infatti, alla dimensione lineare di un testo, relativa all’ordine nel quale le forme lessicali si dispongono all’interno della frase, si accompagna una dimensione verticale di analisi, in stretto rapporto con i livelli di struttura linguistico-testuale (cfr. CAP. 2). [7.1]

Il1 povero2 burattino3 rimase4 lì5 , come6 incantato7

La parola burattino non occupa soltanto la posizione 3 nella sequenza dell’esempio [7.1], ma rappresenta anche la forma maschile singolare dell’esponente lessicale BURATTINO, che è, a sua volta, un nome che svolge il ruolo sintattico di soggetto nella frase in questione. Un testo 185

TESTO E COMPUTER

annotato, a differenza del testo grezzo in [7.1], contiene al suo interno alcuni di questi livelli verticali di analisi, rappresentando così in maniera esplicita (e dunque interpretabile ed esplorabile dal calcolatore) il modo in cui il linguista classiﬁca le forme lessicali concrete in categorie astratte (ad esempio esponente lessicale, categoria grammaticale e via dicendo) o assegna ai legami sintattici del testo una struttura appropriata. Le necessità dell’analisi linguistica richiedono spesso di indagare il testo alla ricerca di classi linguistiche astratte o di relazioni di tipo strutturale e funzionale. Il tema dell’annotazione linguistica – discusso in dettaglio nel CAP. 8 – svolge un ruolo centrale in questa prospettiva, proprio perché la possibilità di disporre di un testo nel quale alcune informazioni linguistiche sono già esplicitamente codiﬁcate (ad esempio in XML) esercita una forte inﬂuenza sull’efﬁcacia delle esplorazioni qualitative e quantitative del testo, sia per quanto riguarda il tipo di generalizzazioni cui è possibile pervenire, che per l’accuratezza delle nostre ricerche. Prima di addentrarci nell’esplorazione del testo è utile però soffermarci su due questioni preliminari di metodo. Il modo in cui il linguista classiﬁca parole o sequenze di parole riﬂette il loro comportamento linguistico tipico e dunque, in ultima analisi, la loro distribuzione nel testo. Al livello morfologico, possiamo deﬁnire un esponente lessicale, con i dovuti caveat, come la classe di tutte le forme ﬂesse che condividono la stessa radice. A livello sintattico, queste stesse forme tendono ad accompagnarsi a contesti ricorrenti, selezionando non solo lo stesso tipo sintattico di complementi (ad esempio un soggetto, un oggetto diretto o una frase introdotta dalla congiunzione CHE) ma anche classi di parole omogenee dal punto di vista semantico. Gli oggetti diretti tipici del verbo MANGIARE, ad esempio, sono solitamente etichettabili come cibo, e i suoi soggetti come esseri animati. Da questo punto di vista, una classe linguistica astratta delinea il proﬁlo comportamentale tipico dei suoi membri nel testo. Come vedremo meglio nel corso di questo capitolo, le nozioni di esplorazione e annotazione del testo sono strettamente legate tra loro in quanto la dimensione distribuzionale (o sintagmatica) e quella classiﬁcatoria (o paradigmatica) delle unità linguistiche sono strettamente interdipendenti. Entrambe possono riguardare tanto singole parole quanto unità altamente strutturate, il cui modo di combinarsi deve essere speciﬁcato in termini di vincoli grammaticali complessi. In secondo luogo, i livelli di analisi morfologica, sintattica e semantica consentono di scandagliare la dimensione verticale di un testo per gradi di profondità crescente. Ciascun livello offre evidenza linguistica che può essere utilizzata a un livello successivo per acqui186

7.

ESPLORARE IL TESTO

sire ulteriori generalizzazioni. Da questo punto di vista, non bisogna enfatizzare la contrapposizione tra testo grezzo e testo annotato. Esiste piuttosto una cascata incrementale di livelli di analisi linguistica sempre più astratti, che possiamo attraversare in diversi modi, anche partendo dal testo nudo e crudo, se disponiamo di strumenti di esplorazione testuale adeguati. A un certo livello di astrazione, quest’analisi a cascata rappresenta una “simulazione” del processo attraverso cui il lettore umano giunge alla comprensione del testo. 7.1 Modi di esplorazione I metodi di esplorazione del testo che si avvalgono dell’uso del calcolatore possono essere qualitativi o quantitativi. I primi rispondono all’obiettivo di individuare esemplari linguistici che illustrino un particolare uso o fenomeno della lingua; non importa quante volte ricorra una costruzione nel testo, ma solo quanto è rilevante per le nostre ﬁnalità di ricerca. I metodi quantitativi, al contrario, cercano di deﬁnire la rilevanza di un tratto linguistico stimando la probabilità con cui esso ricorre in un corpus rappresentativo. Entrambi questi metodi di esplorazione si basano sulla possibilità di recuperare dati linguistici all’interno del testo, isolandoli da tutto ciò che non è rilevante o, come si suol dire, costituisce potenziale “rumore” per un determinato obiettivo di ricerca. A tale scopo, le espressioni regolari (cfr. PAR. 4.2) sono uno strumento fondamentale per l’esplorazione testuale, in quanto consentono di impostare ricerche testuali mirate e complesse. D’altro canto, i metodi statistici permettono di deﬁnire criteri quantitativi per la selezione di costruzioni linguisticamente interessanti e per la veriﬁca di ipotesi complesse sulla struttura della lingua. Nella rassegna che segue, per comodità di esposizione, abbiamo diviso i metodi qualitativi di ricerca testuale (concordanze ed espressioni regolari) dai metodi quantitativi (indici di associazione). Per ciascuna di queste due famiglie siamo partititi dal caso più semplice, in cui ipotizziamo di avere a disposizione nient’altro che il testo grezzo, segmentato in parole unità. Vedremo come, a mano a mano che gli obiettivi di ricerca diventano più articolati, aumenta di pari passo il livello di conoscenze linguistiche che le funzioni di ricerca presuppongono. Questo approccio espositivo ci consentirà di mettere in luce sia la natura incrementale dell’esplorazione linguistica, sia la naturale convergenza tra l’approccio quantitativo e quello qualitativo all’analisi del testo. 187

TESTO E COMPUTER

7.2 Le parole e il loro habitat: le concordanze In Pinocchio, la forma buono ricorre complessivamente 11 volte. Per quanto utile a comprendere come si distribuisca il vocabolario del testo, questa informazione non dice niente riguardo a come venga usata la parola buono in Pinocchio. Si tratta dell’aggettivo buono o del nome buono? Quale dei sensi dell’aggettivo buono compare in Pinocchio? Quale di questi signiﬁcati è maggiormente attestato? In quali contesti sono usati i diversi sensi? L’aggettivo ricorre con funzione attributiva o predicativa? Ci sono differenze nel signiﬁcato della parola a seconda dell’una o dell’altra funzione sintattica? Un modo per rispondere a simili interrogativi è quello di analizzare le concordanze della forma buono in Pinocchio. Le concordanze sono una lista delle occorrenze di una parola tipo nel testo, ciascuna presentata nel suo contesto linguistico. Esse permettono di esplorare l’uso di una parola nei singoli “habitat” linguistici in cui ricorre. Di fatto, la compilazione di concordanze ha motivato storicamente le prime applicazioni di strumenti informatici all’analisi testuale (cfr. Introduzione). Il modo standard in cui vengono presentate le concordanze di una forma lessicale speciﬁca detta parola chiave (o keyword) è il formato KWIC (KeyWord In Context), di cui la FIG. 7.1 riporta un esempio per il caso della parola buono in Pinocchio. Le concordanze KWIC contengono tante righe quante sono le occorrenze della parola chiave nel testo. Ciascuna riga è centrata sulla parola chiave, che è preceduta e seguita da un numero preﬁssato di caratteri di contesto. I numeri incolonnati alla sinistra di FIG. 7.1 identiﬁcano la riga di testo in cui si trova una data occorrenza della parola. FIGURA 7.1 Concordanze di buono in Pinocchio

103 112 326 329 543 1129 1285 1304 1372 1413 2480

cattiva, un letto poco allora cominciò a lavorare a , – che da oggi in poi sarò altri ragazzi! Io sono piu’ e mettermi a studiare a ? Povera bestia! Era tanto il mare diventò tranquillissimo e ? – Gli è il babbo più promette alla Fata di essere che tu avevi il cuore Oh! Babbino mio, come siete

188

buono buono buono buono buono buono buono buono buono buono buono

e un tavolino tutto rotto , e gli fece subito i – Tutti i ragazzi, di tutti e dico sempre . – Guarda me! – disse ! ...Ma giudicandoti come un olio. Allora del mondo, come io sono e di studiare, perché : e dai ragazzi buoni di ! ... e pensare che io,

7.

ESPLORARE IL TESTO

7.2 Esempio di inverted index per Pinocchio

FIGURA

buonissima buono

< 11 >

buonumore

781 103, 112, 326, 329, 543, 1129, 1285, 1304, 1372, 1413, 2480 2396, 2552, 2759

Come passo intermedio per la generazione delle concordanze, i programmi compilano di solito un indice del testo detto inverted index (cfr. FIG. 7.2), una struttura dati che contiene, per ogni parola tipo, la sua frequenza (il numero tra parentesi angolari in FIG. 7.2) e l’indicazione dei punti nel testo (generalmente i numeri di riga) in cui la parola ricorre. Questo tipo di struttura dati consente di velocizzare il processo di compilazione delle concordanze. Quando l’utente immette una parola chiave, il programma cerca un’entrata corrispondente nell’indice, usando i numeri delle righe di testo come coordinate per recuperare i contesti della parola. Diamo un rapido sguardo alle concordanze di buono riportate nella FIG. 7.1. In 7 occorrenze su 11 (righe 326, 329, 1.129, 1.304, 1.372, 1.413 e 2.480), questa forma corrisponde all’aggettivo BUONO nel suo senso morale, di qualcuno che possiede bontà d’animo o che è ubbidiente, ed è usata come attributo o come predicato di esseri animati. L’occorrenza di riga 103 è ancora aggettivale, ma con un senso diverso, che designa un oggetto di qualità soddisfacente o ben fatto: questo uso è attestato come attributo di letto. Nella riga 1.285 buono ricorre invece come predicato di mare, con il senso di calmo, non tempestoso. Le righe 112 e 543 ci riservano una sorpresa interessante: la parola ricorre nella forma preposizionale a buono, una locuzione avverbiale il cui signiﬁcato corrisponde a quello di sodo nelle espressioni lavorare sodo, studiare sodo ecc. Il fatto rilevante è che questo uso di buono non risulta essere attestato nell’italiano standard contemporaneo (ad esempio, il Dizionario della lingua italiana De Mauro non lo riporta tra i sensi di BUONO). Si tratta di un uso regionale, in parte obsoleto, coerente con lo stile di Pinocchio. Questo semplice esempio è sufﬁciente a mostrare come si possa usare una lista di concordanze per acquisire dati linguistici non banali riguardo a un testo. Come tali, le concordanze sono uno strumento fondamentale per il lavoro lessicograﬁco, in quanto consentono di ancorare la descrizione del lessico di una lingua all’evidenza “ecologica” dell’uso reale. Allo stesso modo, il linguista può ottenere dati qualita189

TESTO E COMPUTER

tivi importanti per orientarsi sulla ﬁsionomia di un particolare registro linguistico o per convalidare ipotesi sulla struttura sincronica e su quella diacronica della lingua in esame. 7.2.1. Tipi di concordanze Sono moltissimi i programmi per la compilazione di concordanze oggigiorno reperibili, alcuni dei quali liberamente scaricabili dal web. Esistono anche agenti, programmi simili ai motori di ricerca che usiamo quotidianamente per reperire informazioni sulle pagine web di tutto il mondo, che producono concordanze in formato KWIC di una parola chiave, usando come corpus enormi collezioni di pagine web. Tutti i maggiori corpora sono generalmente accompagnati da software per la loro esplorazione attraverso concordanze (ad esempio SARA per il British National Corpus). È però anche possibile ottenere le concordanze di un testo in maniera più artigianale. Il comando grep nei sistemi operativi Unix/Linux, ad esempio, restituisce tutte le righe di testo in cui compare una stringa corrispondente a una particolare espressione regolare, e può dunque essere utilizzato per generare una forma semplice ma efﬁcace di concordanze. Inoltre, poche righe di codice di un linguaggio di programmazione come Perl sono in genere sufﬁcienti per scrivere piccoli programmi in grado di fornirci le concordanze di una parola. Tipicamente, i programmi di concordanze prendono in input un documento elettronico in formato solo testo, cui si applicano tutti i caveat del CAP. 2 relativamente al problema della codifica dei caratteri. È sempre opportuno raccogliere informazioni su quali siano i set di caratteri che il programma è in grado di riconoscere, per evitare sorprese sgradite con insiemi di caratteri non appartenenti al repertorio ASCII standard. Inoltre, è importante verificare se il programma distingue i caratteri maiuscoli da quelli minuscoli (ovvero se è case-sensitive), in quanto questo parametro può incidere notevolmente sui risultati della ricerca. In genere, i programmi esistenti (soprattutto quelli più sofisticati) eseguono una rudimentale forma di segmentazione del testo, che usano come base per compilare l’inverted index. È però preferibile, in generale, usare un testo già preventivamente segmentato in token, per essere sicuri che le concordanze vengano eseguite su unità linguistiche rilevanti, evitando i problemi relativi a segni di punteggiatura, sigle, date, espressioni multilessicali ecc. (cfr. PAR. 4.1.1). Le funzioni principali dei programmi di concordanze sono quasi sempre le stesse, anche se differenze importanti esistono per quanto riguarda la velocità di compilazione delle concordanze, la quantità dei 190

7.

ESPLORARE IL TESTO

FIGURA 7.3 Alcune concordanze di burattino ordinate rispetto al contesto sinistro

2374 qui? – No, – rispose il 1119 chiamo Melampo, – rispose il 2616 e senza tetto, – rispose il 541 Prima di tutto, – rispose il 1181 PINOCCHIO Come rimanesse il 931 una storia lunga, – disse il 2550 la spiaggia, – disse il 912 buona, Fata mia, – disse il

burattino burattino burattino burattino burattino burattino burattino burattino

, . . , , , . ,

– ci sono altre – O dunque chi sei – Girate la chiave – voglio comprare quand’ebbe – e ve la – Per vostra asciugandosi gli

dati testuali che possono essere gestiti e i modi in cui le concordanze stesse possono essere esplorate dall’utente. Rispetto a quest’ultimo punto, i programmi specializzati rendono solitamente possibile modiﬁcare alcuni parametri della ricerca, in particolare per quanto riguarda la modalità di presentazione delle concordanze e i criteri con cui può essere speciﬁcata la parola chiave. È solitamente possibile, ad esempio, deﬁnire la lunghezza del contesto (in numero di caratteri) che accompagna la parola chiave. Contesti troppo corti nel formato KWIC possono non essere sufﬁcienti per un’analisi accurata delle concordanze. È possibile, ad esempio, che l’analisi del comportamento di un verbo renda necessario individuare i suoi soggetti anche a diverse parole di distanza dal verbo. Determinare la lunghezza appropriata del contesto dipende soprattutto dal tipo di analisi da effettuare: in alcuni casi può essere necessario passare a formati di concordanze in cui il contesto è rappresentato dall’intera frase, oppure da un intero capoverso. Un secondo parametro modiﬁcabile riguarda l’ordine di presentazione delle concordanze. L’opzione predeﬁnita è generalmente quella di presentare le concordanze in ordine di apparizione nel testo. È il caso riportato nella FIG. 7.1, come si può notare dall’ordine strettamente crescente dei numeri di riga. L’ordine di apparizione è utile per esplorare come l’uso di una parola muti all’interno di un testo o di una particolare sezione del corpus. In molti casi, però, l’obiettivo dell’analisi delle concordanze è esplorare in quali contesti tipici tende a ricorrere una parola. A tale scopo, è utile ordinare le concordanze alfabeticamente rispetto alle parole del contesto sinistro (cfr. FIG. 7.3) o del contesto destro (cfr. FIG. 7.4). Questo tipo di ordinamento si dimostra assai utile soprattutto con parole chiave ad alta frequenza, poiché tende a raggruppare contesti simili, offrendo così una preclassiﬁcazione dei dati estratti. Ordinare le concordanze di burattino rispetto al contesto sinistro (FIG. 7.3) ci 191

TESTO E COMPUTER

FIGURA 7.4 Alcune concordanze di burattino ordinate rispetto al contesto destro

1717 2350 2358 1847 2339 2750 57 2045 2536 1286

, che pareva diventato un nell’acqua sei diventato un Sappiate dunque che io ero un - Domani finirai di essere un un’anguilla. Vedendo quel accorse che non era più un di fabbricarmi da me un bel via maestra, gli parve al di fare il gran salto, il come un olio. Allora il

burattino burattino burattino burattino burattino burattino burattino burattino burattino burattino

di gesso. Poi lo di legno?... di legno come sono di legno, e di legno, il pover’ di legno: ma che di legno; ma un di sentire una voce disse al suo babbo: distese i suoi panni

consente, ad esempio, di ricavare informazioni interessanti riguardo ai verbi di cui burattino è soggetto postverbale. Simmetricamente, l’ordinamento delle concordanze della stessa parola rispetto al contesto destro (FIG. 7.4) ci permette di analizzare i modiﬁcatori postnominali di burattino. Confrontando gli esempi d’uso di FIG. 7.3 e FIG. 7.4, salta inoltre agli occhi la tendenza di burattino a ricorrere come soggetto postverbale di verbi come RISPONDERE e DIRE nel contesto di un discorso diretto. Che si tratti di più di un’impressione è confermato da un’analisi quantitativa effettuata sul corpus italiano TRESSI (cfr. CAP. 8) che conferma la tendenza di questi verbi a ricorrere con il soggetto postverbale (circa nel 60% dei casi). Queste riﬂessioni illustrano bene l’idea che un semplice ordinamento di contesti sintagmatici è alla base di generalizzazioni di tipo paradigmatico. Sebbene le concordanze siano basate su un metodo di esplorazione testuale essenzialmente qualitativo e lineare, il loro ordinamento rispetto al contesto permette di avere una visione sinottica delle potenzialità combinatorie di una parola chiave. Questa visione ci consente da un lato di raggruppare la parola chiave con altre parole che selezionano contesti simili e dunque di pervenire a una loro classiﬁcazione, dall’altro di quantiﬁcare la tendenza di una parola a ricorrere in costruzioni speciﬁche. Torneremo su aspetti di analisi quantitativa più avanti nel capitolo. 7.3 Funzioni di ricerca avanzate I programmi di concordanze più soﬁsticati spesso offrono la possibilità di effettuare ricerche sul testo attraverso l’uso di espressioni regolari (ER, cfr. PAR. 4.2). Queste permettono infatti di esprimere criteri di ricerca complessi e articolati, velocizzando il processo di estrazione, 192

7.

ESPLORARE IL TESTO

ma anche migliorando la qualità dei dati estratti, sia in termini di accuratezza che di generalità. Le ER sono dunque uno strumento molto efﬁcace per esplorazioni avanzate dei dati testuali. Ad esempio, le concordanze di tutte le forme ﬂesse di uno stesso lemma possono essere facilmente individuate utilizzando la possibilità offerta dalle ER di cercare classi di stringhe. Se i testi in input non sono lemmatizzati, speciﬁcando buono come parola chiave otteniamo infatti solo le occorrenze di questa stringa. L’espressione in [7.2] ci aiuta invece a trovare anche le forme plurali e femminili di BUONO: [7.2]

/buono|buona|buoni|buone/

Il problema più evidente della [7.2] è che la ER funziona per un solo esponente lessicale, per quanto la conoscenza linguistica alla base della [7.2] sia del tutto generale. Per trovare nel testo le forme di un altro aggettivo regolare a quattro uscite, ad esempio CATTIVO, dobbiamo ricorrere a un’espressione del tutto diversa, a riprova del fatto che abbiamo perso di vista un’ovvia generalizzazione morfologica. In alternativa, possiamo costruire una ER che sfrutti le nozioni morfologiche di radice e terminazione nel modo indicato in [7.3], dove appaiono, tra l’altro, il carattere jolly “.”, il moltiplicatore “ + ” e l’ancora “\b” che segnala un conﬁne di token. La [7.3] consente di trovare alcune forme verbali dell’inﬁnito italiano. [7.3]

/\b. + ?(are|ere|ire)\b/

Le ER permettono di fare ricerche anche su più forme in sequenza. Ad esempio l’espressione in [7.4] può essere usata per trovare tutte le forme verbali del passato prossimo che selezionano l’ausiliare AVERE: [7.4]

/\b(ho|hai|ha|abbiamo|avete|hanno)\s. + ? (ato|uto|ito|eso |sto|rso|tto)\b/

La seconda parte della [7.4], alla destra del “ + ?”, contiene le principali terminazioni del participio passato italiano, che possono essere ulteriormente arricchite per tenere conto di altre forme irregolari, come discusso ed espulso. In generale, non è sempre facile formulare una ER in modo tale da trovare tutti e soltanto i dati rilevanti. Spesso succede che l’espressione ci restituisca erroneamente molti più contesti di quelli che effettivamente cerchiamo, oppure che alcune delle strutture cui siamo interessati manchino all’appello. In altri casi, l’uso delle ER può rendere 193

TESTO E COMPUTER

molto involuta la deﬁnizione di uno schema di ricerca appropriato o ci costringe a ricorrere a più ER per esprimere la stessa generalizzazione linguistica. Il prossimo paragrafo è dedicato a una rapida rassegna di questi problemi e delle possibili soluzioni. 7.3.1. Problemi e soluzioni Prendiamo, come primo esempio, lo schema di ricerca in [7.3]. Sebbene questa ER sia in grado di trovare la stragrande maggioranza delle forme verbali inﬁnitive dell’italiano (con alcune eccezioni, come gli inﬁniti contenenti le radici TRARRE, *DURRE e PORRE), essa è anche soddisfatta da forme come podere, mare o lire che verbi non sono. Per escludere questo tipo di falsi inﬁniti è necessario limitare la nostra ricerca testuale alle sole forme verbali: ma come? [7.5] < pm cat = “art” > il < /pm > < pm cat = “n” > coniglio < /pm > < pm cat = “v” > voleva < /pm > < pm cat = “v” > attraversare < /pm > < pm cat = “prep” > a < /pm > < pm cat = “n” > nuoto < /pm > < pm cat = “n” > nuoto < /pm > < pm cat = “art” > il < /pm > < pm cat = “n” > mare < /pm >

Esistono due strade possibili. La prima è usare un testo annotato a livello morfo-sintattico, che contenga, per ogni parola unità, l’indicazione esplicita della sua categoria grammaticale. Per rendere più concreta questa strategia, si immagini di avere a disposizione un testo annotato come quello in [7.5], relativo alla frase il coniglio voleva attraversare a nuoto il mare. Nell’esempio, le parole del testo sono rappresentate come elementi XML di tipo pm cui è associata l’informazione relativa alla categoria grammaticale (cat). In questo modo, gli inﬁniti in -are nel testo possono essere trovati con una semplice ER che restringa la ricerca agli elementi il cui l’attributo cat abbia come valore “v”, come illustrato dalla [7.6]: [7.6]

/ < pm cat = “v” > . + ?are < \/pm > /

La forma della [7.6] dipende dal fatto che adesso il “pattern matching” viene effettuato su un testo arricchito di codici che rendono esplicite le categorie grammaticali delle sue parole. I codici linguistici con cui è annotato il testo possono quindi essere usati direttamente nella ER per rendere più precisa la ricerca. 194

7.

ESPLORARE IL TESTO

In mancanza di un testo annotato, la nostra ER dovrà necessariamente contenere la conoscenza linguistica necessaria per escludere dalla ricerca i falsi inﬁniti. Questa strategia, per quanto teoricamente praticabile, si scontra, tuttavia, con la difﬁcoltà di esprimere classi linguistiche astratte, tra cui la categoria grammaticale, come insiemi di radici lessicali. Ad esempio, nella frase il coniglio voleva attraversare a nuoto il mare possiamo evitare di cadere nella trappola del falso inﬁnito mare imponendo la restrizione che la forma in -are non possa essere preceduta dall’articolo il (cfr. [7.7]). [7.7]

/\w*[^i][^l]\s\w*are\ > /

Questo escamotage presenta tuttavia diversi limiti. Il primo è che alcuni inﬁniti (i cosiddetti inﬁniti sostantivati) possono in realtà essere preceduti dall’articolo. La ER in [7.7], erroneamente, li escluderebbe tutti. In secondo luogo, la sintassi delle ER introdotta nel CAP. 4 non consente di negare la presenza di una sequenza di caratteri. L’espressione /[^i][^l]/ in [7.7], infatti, non nega solo la forma il dell’articolo, ma anche le stringhe al, el, io, ia ecc., cioè qualsiasi coppia ordinata di caratteri che contenga una i in prima posizione o una l in seconda. Deﬁnire un contesto con la restrizione che un’intera stringa di caratteri non vi ricorra è molto problematico se si usano le ER. Di solito, si deve trasformare una condizione negativa in una positiva o ricorrere a qualche altro espediente. Questa osservazione ci porta al terzo e probabilmente più grave limite della soluzione in [7.7]. Mentre è relativamente poco dispendioso elencare tutte le forme dell’articolo, se vogliamo condizionare la nostra ER rispetto alle categorie grammaticali di classi lessicali aperte, come ad esempio l’aggettivo, ci troviamo costretti a ricorrere a una lista di radici aggettivali, equivalente a una porzione rilevante di tutto il lessico italiano. La questione centrale, a questo punto, non è soltanto che una ER che incorpori una fetta consistente del lessico italiano è complicata da scrivere e da leggere. Il problema vero è che questa stessa ER diventa uno strumento assai poco efﬁciente per le nostre ricerche testuali. Ogni volta che una ER richiede la presenza di un aggettivo, il computer scorre il testo per veriﬁcare se la parola corrente è contenuta nell’elenco di forme che deﬁniscono la classe aggettivo nella ER. Non solo l’elenco deve essere scorso da cima a fondo, ma per ogni nuova ricerca che includa le stesse restrizioni, la stessa veriﬁca deve essere ripetuta ex novo per tutte le forme del testo! 195

TESTO E COMPUTER

7.4 Collocazioni Le parole hanno la capacità di combinarsi in espressioni sintatticamente complesse. Questa capacità non è però illimitata e le parole variano considerevolmente per il grado di libertà con cui si combinano. Alcune potenzialità combinatorie sono determinate da tratti morfo-sintattici e semantici generali delle parole stesse, in quanto membri di una classe linguistica astratta. Si consideri ad esempio la frase Gianni ha visto un topolino grigio. La parola un si combina con topolino in quanto la prima è un articolo e la seconda un nome. A sua volta grigio si combina con topolino in virtù del fatto che il primo è un nome che designa un’entità concreta e il secondo è un aggettivo di colore. In entrambi i casi queste combinazioni sono legittimate da principi generali che regolano la struttura del sintagma nominale italiano. I legami tra le parole di questa frase sono deﬁnibili in termini di tratti generali (sintattici o semantici) condivisi da ampie classi di espressioni linguistiche che possono essere sostituite alle parole della frase originaria per ottenere nuove frasi grammaticalmente e semanticamente coerenti: Gianni ha visto il cane marrone, La mucca ha divorato l’erba verde, Gianni ha notato la macchina rossa ecc. Esistono però nella lingua altri tipi di combinazione lessicale che si basano su legami non riconducibili a classi linguistiche generali. Si pensi a frasi del tipo: A notte fonda c’era la luna piena, Gli alberghi sono cari in alta stagione, Gianni ha la vista lunga. Esse contengono combinazioni del tipo “nome + aggettivo” strutturalmente equivalenti al caso di topolino grigio, ma al tempo stesso fondamentalmente diverse. In espressioni come notte fonda, luna piena, alta stagione e vista lunga l’aggettivo e il nome sono legati da un tipo di associazione che riguarda due forme lessicali speciﬁche. Se proviamo a sostituire queste parole con altre simili, notiamo che qualcosa del legame originario si rompe, ﬁno a raggiungere risultati anomali: Gianni ha la vista {AMPIA, ESTESA ecc.}. A notte {SCURA, PROFONDA ecc.} c’era la luna {TONDA, CHIARA ecc.}. Gli alberghi sono cari in {ELEVATA, AVANZATA ecc.} stagione.

Espressioni come notte fonda, luna piena, vista lunga, alta stagione ecc. sono note in letteratura come collocazioni (collocations), cioè sequenze di due o più parole caratterizzate da un forte legame di associazione reciproca. In realtà non è facile dare una deﬁnizione precisa di collocazione, né stabilire con esattezza i conﬁni di questa tipologia di 196

7.

ESPLORARE IL TESTO

strutture linguistiche. All’interno di questa classe sono spesso compresi termini tecnici (sistema operativo, corte d’assise, legge delega, regime alimentare ecc.), costruzioni a verbo supporto (fare attenzione, dare manforte, prendere posto, prendere un caffè ecc.), nomi propri composti (Stati Uniti d’America ecc.), ﬁno a vere e proprie costruzioni idiomatiche (tagliare la corda, tirare le cuoia, gatta morta, acqua cheta ecc.) e complementi tipici di un verbo (infrangere le regole). Il forte legame di associazione reciproca si manifesta in alcune proprietà che le collocazioni in generale condividono, sebbene in misura diversa: 1. elevata convenzionalità: le collocazioni sono tendenzialmente espressione di usi convenzionali o stereotipati, tipici di particolari varietà linguistiche (come nel caso, ad esempio, dei termini tecnici); 2. ridotta composizionalità semantica: il signiﬁcato di una collocazione è molto spesso non immediatamente ricavabile dalla composizione del signiﬁcato delle parole che la formano. Mentre, conoscendo il signiﬁcato di topolino e di grigio possiamo interpretare senza problemi topolino grigio, lo stesso non si può dire di alta stagione o di legge delega; 3. forte rigidità strutturale: spesso le collocazioni sono resistenti a modiﬁcazioni aggettivali o avverbiali, o possono ricorrere solo in particolari forme ﬂesse e contesti sintattici. È interessante osservare, ad esempio, che l’anomalia di a notte profonda (invece di a notte fonda) non è ascrivibile a una qualche incompatibilità semantica tra il nome e l’aggettivo, come testimonia l’esistenza dell’espressione nel profondo della notte. Il problema è piuttosto che in a notte fonda le parole si selezionano a vicenda in una sequenza così rigida da rendere quasi impossibile ogni minima alterazione. Sinclair (1991, p. 110) considera le collocazioni l’espressione tipica di un principio di combinazione linguistica non riconducibile a vincoli di grammaticalità generali: «l’utente di una lingua ha a disposizione un grande numero di strutture semi-preconfezionate che rappresentano delle scelte unitarie, sebbene possano sembrare internamente analizzabili». Questa strategia di combinazione è chiamata dallo stesso Sinclair idiom principle, in opposizione all’open choice principle che regola la costruzione di strutture complesse in base a vincoli combinatori generali validi per classi aperte di parole (come nel caso di topolino grigio). Le collocazioni sono rimaste per lungo tempo ai margini del dibattito linguistico teorico, proprio per il loro carattere speciale, strettamente ancorato alle convenzioni d’uso e difﬁcilmente riconducibile a principi generali della grammatica. Un merito indiscusso della linguistica dei corpora è stato quello di aver restituito alle collocazioni pieno diritto di cittadinanza nell’analisi della 197

TESTO E COMPUTER

lingua. Invero, lo studio delle collocazioni ha un ruolo cruciale per molti aspetti della ricerca linguistica: indagini lessicograﬁche, studi sulla traduzione, modelli dell’apprendimento di una lingua, analisi dei processi di lessicalizzazione e grammaticalizzazione ecc. Più in generale, lo studio delle collocazioni permette di esplorare la vasta gamma di strutture linguistiche che si collocano nello spazio semantico esistente tra la piena composizionalità di topolino grigio, e la totale idiomaticità di tirare le cuoia. Questo spazio, che potremmo deﬁnire di composizionalità debole, è molto variegato e la sua indagine può fornirci indicazioni interessanti sull’organizzazione, la struttura e l’uso della lingua. 7.4.1. Alla ricerca di collocazioni I corpora testuali – in quanto raccolte di prodotti dell’uso linguistico – sono vere e proprie miniere di collocazioni. La loro esplorazione ci permette di acquisire dati importanti sulla portata di questo fenomeno linguistico pervasivo. A tale scopo, le concordanze sono sicuramente uno strumento utile, ma non sufﬁciente, a garantirci procedure di ricerca soddisfacenti. In effetti, i limiti di questo tipo di esplorazione sono dovuti proprio alla vaghezza della nozione di collocazione, alla varietà di strutture che ne fanno parte e dunque alla difﬁcoltà di stabilire dei criteri qualitativi per la loro selezione. Un problema che si pone è quindi come rendere più precisa la nozione di associazione tra parole che sembra essere l’unico vero comune denominatore tra i membri della famiglia delle collocazioni. La LC può venire in aiuto, fornendo metodi di analisi automatica del testo che consentono di trasformare la nozione intuitiva di associazione lessicale in un indice quantitativo e misurabile. La LC ha infatti messo a punto una serie di misure di associazione che servono a quantiﬁcare la forza del legame tra due o più parole nel testo. Il principio su cui si basano le misure di associazione è molto semplice: se due o più parole formano una collocazione in una certa varietà linguistica, è molto probabile che nei testi rappresentativi di quella varietà esse ricorrano insieme in maniera statisticamente signiﬁcativa. Questa ipotesi è giustiﬁcata dal fatto che, secondo l’idiom principle, le collocazioni sono strutture prefabbricate che i parlanti tendono a usare come blocchi linguistici tendenzialmente unitari e ﬁssi. Per identiﬁcare le collocazioni in un corpus basta, dunque, analizzare il modo in cui si distribuiscono le sue parole. Limitiamoci per semplicità al caso delle collocazioni formate solo da due parole (ad esempio alta stagione). In questo caso, è possibile 198

7.

ESPLORARE IL TESTO

identiﬁcare automaticamente tutti i bigrammi di un corpus, calcolare per ogni bigramma tipo la sua frequenza nel corpus e usare questo dato per ricavare un indice quantitativo di associazione per ogni bigramma. Possiamo poi ordinare i bigrammi per forza di associazione decrescente e selezionare come potenziali collocazioni i bigrammi il cui indice superi una certa soglia. In questo modo, l’analisi automatica del testo permette di costruire rapidamente una mappa delle potenziali collocazioni di un testo, che possiamo utilizzare come punto di partenza per ulteriori analisi. Misure di associazione Lo studio di misure di associazione lessicale per l’identiﬁcazione di collocazioni occupa un posto importante nella ricerca linguisticocomputazionale recente. L’obiettivo è individuare indici quantitativi afﬁdabili in grado di assegnare un valore alto di associazione a buoni esemplari di collocazioni. In prima battuta, ipotizziamo che la frequenza assoluta di un bigramma in un corpus sia un indicatore afﬁdabile di questo tipo. Calcoliamo dunque la distribuzione di frequenza dei bigrammi in Pinocchio. La TAB. 7.1 riporta i bigrammi più frequenti, fatta esclusione per i bigrammi che contengono un segno di punteggiatura. TABELLA 7.1 I bigrammi più frequenti in Pinocchio

il burattino e il e di e la per la di legno a casa

110 82 77 62 54 54 50

Tra i bigrammi di TAB. 7.1, tuttavia, non vi è traccia di collocazioni. Per ironia della sorte, troviamo soltanto “anticollocazioni”, cioè legami, come quello tra il e burattino, sicuramente dettati da vincoli generali di grammaticalità della lingua, secondo lo spirito dell’open choice principle. Ne concludiamo che la frequenza assoluta di un bigramma non quantiﬁca il grado di associazione lessicale tra due parole: è dunque necessario rendere più complessa la relazione tra associazione lessicale e frequenza. È plausibile ipotizzare che due parole siano tanto più fortemente 199

TESTO E COMPUTER

associate quanto più spesso si presentano insieme rispetto alle volte in cui ricorrono l’una indipendentemente dall’altra. In Pinocchio, la frequenza del bigramma il burattino è 110, ma la frequenza assoluta di il è 925. Il numero di volte in cui il ricorre con una parola diversa da burattino è molto più alto del numero di volte in cui il e burattino ricorrono insieme. Questa disparità suggerisce che non c’è un legame di associazione lessicale diretta tra il e burattino, poiché il tende a combinarsi con una classe molto più ampia di parole. Tra le misure di associazione che sfruttano metodi statistici per quantiﬁcare il grado di associazione tra due parole sulla base della tendenza che queste hanno a presentarsi insieme in un corpus, la mutua informazione (MI) è certamente una delle più note. Introdotta come misura di associazione lessicale da Church e Hanks (1990), è presto diventata uno strumento standard per l’analisi delle collocazioni nei corpora. Date due parole tipo v1 e v2, la MI confronta la probabilità di osservare il bigramma tipo v1, v2 con la probabilità di osservare v1 e v2 l’una indipendentemente dall’altra: [7.8]

MI(v1,

v2) = log2

p(v1, v2) p(v1) · p(v2)

dove p(v1, v2) è la probabilità associata al bigramma v1, v2 e p(vi) è la probabilità della parola vi. Originariamente elaborata nella teoria dell’informazione, dove è conosciuta come mutua informazione puntuale (pointwise mutual information), la MI tra due eventi aleatori ei ed ej misura la quantità di informazione (nel senso del CAP. 6) che l’occorrenza di ei fornisce relativamente all’occorrenza di ej. Nel nostro caso, MI(v1, v2) è una misura di quanto sia indicativa la presenza di v1 nel testo per prevedere che v2 appaia subito dopo, e viceversa. La formula [7.8] ha una semplice giustiﬁcazione in termini probabilistici. Se due eventi e1 ed e2 sono statisticamente mutuamente indipendenti, allora la loro probabilità congiunta p(e1, e2) = p(e1) · p(e2) (cfr. PAR. 6.1). Nel nostro caso i due termini di questa uguaglianza appaiono rispettivamente al numeratore e al denominatore della frazione in [7.8]. Sebbene due parole in un bigramma non siano mai del tutto indipendenti, possiamo tuttavia ragionevolmente ipotizzare che maggiore è il valore della frazione in [7.8], più alto è il grado di dipendenza tra v1 e v2, e dunque più forte la loro associazione lessicale. Un ragionamento analogo può essere usato per giustiﬁcare la formula [7.8] in termini di probabilità condizionate (cfr. PAR. 6.2). Se v1 e v2 sono mutamente indipendenti, p(v2 | v1) = p(v2). Possiamo dunque sti200

7.

ESPLORARE IL TESTO

mare il grado di dipendenza tra v2 e v1 sulla base del rapporto p(v2 | v1)/p(v2). Poiché inﬁne p(v2 | v1) = p(v1, v2)/p(v1), allora otteniamo che p(v2 | v1)

[7.9]

p(v2)

=

p(v1, v2) p(v1) p(v2)

.

Rinviamo al PAR. 6.4 per una spiegazione del ruolo del logaritmo in base 2 nella formula della MI in [7.8]. Calcolare la MI tra due parole è relativamente semplice. Stimiamo innanzitutto le probabilità delle singole parole sulla base della loro frequenza relativa in un corpus C. Analogamente, la probabilità del bigramma può essere stimata come il rapporto tra la sua frequenza assoluta in C e il numero totale dei bigrammi unità in C. In questo modo, la formula [7.8] può essere riscritta come in [7.10], dove Nbig è il numero dei bigrammi unità in C e |C| è la lunghezza totale di C in parole. f (v1, v2) [7.10]

log2

p(v1, v2) p(v1) p(v2)

= log2

Nbig f (v1) |C|

·

f (v2) |C|

Se poi assumiamo Nbig = |C| 1, la [7.10] si sempliﬁca come segue: [7.11] f (v1, v2) log2

Nbig f (v1) |C|

·

f (v2)

= log2

f (v1, v2) |C|

·

|C|2 f (v1) f (v2)

= log2

f (v1, v2) · |C| f (v1) f (v2)

|C|

Applichiamo la [7.11] ad alcuni dei bigrammi in Pinocchio. Un ben noto personaggio del testo è la fata dai capelli turchini e il bigramma

1. Come si è detto nel PAR. 6.3, se assumiamo che l’ultima parola di un testo T sia seguita da un simbolo speciale che segna la ﬁne di T, allora il numero dei bigrammi di T è uguale al numero delle parole.

201

TESTO E COMPUTER

TABELLA 7.2 Frequenza e

MI

di tre bigrammi in Pinocchio

il burattino capelli turchini maestro ciliegia

f(v1, v2)

f(v1)

f(v2)

|C|

MI(v1, v2)

110 14 7

925 22 17

195 14 9

48770 48770 48770

4,89 11,11 11,12

capelli turchini sembra un buon candidato a entrare tra le collocazioni del libro. I dati relativi alla frequenza del bigramma e delle singole parole in TAB. 7.2 sono usati nella [7.12] per calcolare la MI tra capelli e turchini: [7.12]

MI(capelli,

turchini) = log2 = log2

f (capelli, turchini) · |C| f (capelli) · f (turchini)

14 · 48770 22 · 14

=

= 11,11

È utile confrontare il risultato della [7.12] con la MI calcolata per il bigramma il burattino: 4,89. La MI sembra riﬂettere l’intuizione che il e burattino siano di fatto molto meno associati lessicalmente rispetto a capelli e turchini, nonostante che il primo bigramma ricorra in Pinocchio, in termini di frequenze assolute, quasi 10 volte più del secondo. Le stesse considerazioni valgono per il bigramma maestro ciliegia, anch’esso premiato dalla MI in TAB. 7.2. Un basso valore di MI non signiﬁca ovviamente che le parole del bigramma non formano una struttura sintatticamente connessa, bensì che questa non ha quei caratteri di convenzionalità d’uso richiesti dall’idiom principle. Dopo aver valutato la congruenza tra la MI e le nostre intuizioni sullo status di collocazione di bigrammi speciﬁci, proviamo a usare la MI per scoprire le collocazioni di un testo. A questo scopo, calcoliamo la MI per tutti i bigrammi di Pinocchio e ordiniamo questi ultimi per valori decrescenti di MI 2. I risultati così ottenuti sono in parte inattesi (TAB. 7.3). I bigrammi più fortemente associati non corrispondono affatto a collocazioni (con le uniche, probabili eccezioni di iniqua frode e insa2. La MI per i bigrammi in Pinocchio è stata calcolata con Ngram Statistics Package v.0.53 di Ted Pedersen, una raccolta di programmi Perl “open source” per il calcolo delle misure di associazione.

202

7. TABELLA 7.3 I bigrammi di Pinocchio con la

palio feroce cartilagine ossea cam mineremo pian farteli sputare sottoposta pianura iniqua frode insaziabile voracità

ESPLORARE IL TESTO

MI

più alta

MI

f(v1, v2)

f(v1)

f(v2)

15.5737 15.5737 15.5737 15.5737 15.5737 15.5737 15.5737

1 1 1 1 1 1 1

1 1 1 1 1 1 1

1 1 1 1 1 1 1

ziabile voracità), nonostante il loro valore di MI sia sensibilmente maggiore di quello assegnato a capelli turchini e maestro ciliegia. Si noti che le coppie di TAB. 7.3 sono tutte bigrammi hapax formati da parole hapax. La MI è infatti estremamente sensibile a eventi rari. In qualsiasi corpus, i bigrammi con frequenza 1 formati da hapax avranno sempre valori massimi di MI. Per capire il perché, è sufﬁciente ricordare che, dato un bigramma v1, v2, il caso di associazione massima si ha quando v1 e v2 ricorrono sempre insieme nel corpus. In questo caso vale che f (v1, v2) = f (v1) = f (v2) = f, e dunque la formula [7.11] si può riscrivere come: [7.13]

log2

f (v1, v2) · |C| f (v1) · f (v2)

= log2

f · |C| f2

dove f 2 è sempre più grande di f: inoltre, al crescere di f, il loro rapporto inverso diventa sempre più piccolo. Da ciò segue che se due parole v1 e v2 ricorrono una volta sola in C, il bigramma v1, v2 avrà una MI comunque maggiore di qualsiasi altro bigramma vi, vj con frequenza maggiore di 1, anche qualora vi e vj apparissero sempre insieme in C. Ad esempio, in un corpus di 10.000 unità, se f (v1) = f(v2) = 1, MI(v1, v2) = 13,28, mentre se f (v1) = f (v2) = 10, MI(v1, v2) = 9,96. In realtà, il fatto che due hapax ricorrano una sola volta insieme nel corpus ci dice molto poco riguardo al loro grado di associazione: la loro appartenenza allo stesso bigramma può essere del tutto accidentale. Inoltre sembra naturale assumere che se due parole ricorrono in un corpus sempre una accanto all’altra, il loro grado di associazione è direttamente proporzionale alla loro frequenza. Ne concludiamo che la MI non è molto indicativa quando calcolata su bigrammi rari. Questo limite è aggravato dal ben noto problema della rarità dei dati linguistici, ovvero dell’enorme numero di eventi rari che registria203

TESTO E COMPUTER

TABELLA 7.4 I dieci bigrammi di Pinocchio con la

gambero rosso mastr’ antonio mostro marino dar retta ce n’ pover’ uomo pur troppo maestro ciliegia capelli turchini grillo parlante

MI

più alta e frequenza ≥ 6

MI

F(v1, v2)

f(v1)

f(v2)

12.5737 12.2518 11.5737 11.5440 11.5148 11.1883 11.1814 11.1237 11.1143 10.8188

6 9 6 6 6 10 6 7 14 17

6 9 16 7 10 11 6 17 22 27

8 10 6 14 10 19 21 9 14 17

mo in qualsiasi corpus (cfr. PAR. 5.5). In Pinocchio, ad esempio, i bigrammi hapax sono 18.780 su 24.990 bigrammi tipo. I bigrammi tipo che ricorrono meno di 5 volte sono invece 23.884! Questo signiﬁca che per la stragrande maggioranza dei bigrammi di un corpus la MI non è in grado di offrire una stima afﬁdabile del loro grado di associazione. Per attenuare questa debolezza intrinseca della MI, è sensato stabilire una soglia di frequenza k, in modo da escludere dal computo della forza di associazione tutti i bigrammi con frequenza inferiore a k, dove k può variare in funzione della lunghezza del testo e del tipo di analisi. In TAB. 7.4 sono riportati i dieci bigrammi con la MI più alta in Pinocchio e frequenza ≥ 6. Oltre ai casi già citati di maestro ciliegia e capelli turchini, troviamo qui la costruzione a verbo supporto dar retta, e i gruppi nominali mostro marino e grillo parlante. Quest’ultimo bigramma, nell’edizione originale di Pinocchio, ricorre nella forma grillo-parlante. Nel computo dei bigrammi del testo abbiamo volutamente ignorato il trattino, considerando dunque il nome come formato da due parole distinte. È interessante notare che la MI è stata comunque in grado di identiﬁcare grillo parlante come uno dei bigrammi più fortemente associati in Pinocchio, coerentemente con la scelta di Collodi di collegare i costituenti del nome con un trattino. Un caso speculare rispetto a grilloparlante è quello di pur troppo, una variante ortograﬁca di purtroppo ormai obsoleta, ma correttamente classiﬁcata come collocazione nella tabella. Il bigramma gambero rosso, inﬁne, apparentemente simile al nostro topolino grigio, indica in realtà il nome dell’osteria in cui Pinocchio si reca a mangiare con il Gatto e la Volpe, e ci ricorda che la nozione di collocazione deve essere sempre valutata in relazione a un 204

7.

ESPLORARE IL TESTO

particolare uso linguistico. L’applicazione di metodi quantitativi per la ricerca di associazioni lessicali deve dunque sempre tener presente il tipo di corpus che viene esplorato e il suo grado di rappresentatività rispetto alla varietà linguistica oggetto di indagine (cfr. PAR. 1.3). Stabilire una soglia di frequenza per i bigrammi ha lo svantaggio di ridurre drasticamente la quantità di candidati individuati. Un gran numero di bigrammi tipo vengono ignorati semplicemente perché ricorrono troppo di rado. Una soluzione alternativa è quella di cercare di ridurre la “rarità” dei dati ampliando il corpus da cui sono estratti i bigrammi. Poiché anche i corpora più estesi presentano comunque un grande numero di eventi linguistici rari, una possibilità ulteriore è quella di esplorare il web per ottenere stime della probabilità dei bigrammi. Le dimensioni del web permettono di registrare valori di frequenza signiﬁcativi per un numero molto più alto di bigrammi, tali da consentire una misura afﬁdabile della loro forza di associazione. Inﬁne, i limiti della MI possono essere risolti semplicemente ricorrendo ad altre misure di associazione, come la log-likelihood proposta da Dunning (1993), che si dimostra assai meno sensibile della MI al rumore introdotto da parole rare. Bigrammi astratti Un’altra estensione rilevante per il calcolo di associazione lessicale riguarda il modo in cui sono deﬁniti i bigrammi. L’assunzione più comune è di considerare come bigrammi solo coppie di parole adiacenti nel testo. Questo ci permette di trovare collocazioni come luna piena o capelli turchini, ma non ad esempio collocazioni formate da più di due unità: capitano di ventura, ferro da stiro, tirare le cuoia ecc. Per estendere la tipologia di collocazioni possiamo dunque ampliare la nozione di bigramma, selezionando, ad esempio, tutte le coppie di parole che ricorrono all’interno di una stessa ﬁnestra di contesto, formata da un numero predeﬁnito di parole. La TAB. 7.5 riporta alcune collocazioni individuate in Pinocchio usando la MI applicata a bigrammi estratti con una ﬁnestra di contesto di tre parole: TABELLA 7.5 Esempi di collocazioni in Pinocchio calcolate estraendo bigrammi con ﬁnestra di contesto di tre parole

campo miracoli paese balocchi

MI

f(p1, p2)

f(p1)

f(p2)

9.7157 8.5673

10 7

58 90

20 20

205

TESTO E COMPUTER

TABELLA 7.6 I trigrammi strutturali di Pinocchio con la

MI

più alta e frequenza ≥ 2

(berretto (di midolla di pane)) (osteria (del gambero rosso)) (direttore (di una compagnia di pagliacci)) (ramo (della quercia grande)) (bambina (dai capelli turchini)) (fata (dai capelli turchini))

MI

f(v1, v2)

5.7944 4.2095 5.2095 4.7944 3.0940 3.0940

2 6 3 4 9 9

Il primo caso corrisponde a campo dei miracoli, il nome del campo in cui Pinocchio seppellisce le monete d’oro. In effetti, in questa espressione il vincolo associativo riguarda le due parole piene campo e miracoli, e lo stesso vale per il secondo esempio, il famigerato paese dei balocchi. Se si amplia ulteriormente la ﬁnestra di testo usata per calcolare i bigrammi, è possibile individuare parole associate a distanze diverse, esplorando così varie tipologie di relazioni lessicali. Un problema che può sorgere in questo caso (e di cui è importante essere consapevoli) è che le coppie di parole che fanno parte della stessa ﬁnestra possono anche non essere collegate tra loro. Non è sempre facile ricostruire il contesto sintattico originario a partire da coppie non adiacenti così deﬁnite. Una possibile via di uscita passa attraverso la rideﬁnizione della nozione di ﬁnestra di contesto: non più come sequenza di parole, ma come porzione di struttura sintattica. Per illustrare concretamente questa idea, si considerino le locuzioni dare un contributo, dare un importante contributo e dare un signiﬁcativo contributo. Se segmentassimo ciascuna locuzione in coppie di parole adiacenti (ad esempio dare un, un signiﬁcativo, signiﬁcativo contributo, nel caso di dare un signiﬁcativo contributo), e confrontassimo tra loro le sequenze di bigrammi così ottenute, ci accorgeremmo che le tre espressioni condividono soltanto la coppia dare un. D’altra parte, tutti e tre gli esempi presentano la stessa struttura sintattica: un verbo seguito da un costituente nominale. Inoltre, il verbo ha esponente lessicale DARE in tutti e tre i casi. Analogamente, i tre costituenti nominali condividono, come testa lessicale piena, la parola CONTRIBUTO. Se dunque calcoliamo i nostri bigrammi sulla base delle teste lessicali DARE e CONTRIBUTO, scopriamo che le tre locuzioni di partenza si riducono allo stesso identico bigramma “strutturale”. I dati di TAB. 7.6 ci mostrano le collocazioni ottenute applicando la MI a bigrammi strutturali (con frequenza ≥ 2) formati da costituenti sintattici. È interessante notare che queste espressioni complesse han206

7.

ESPLORARE IL TESTO

no tutte un alto valore di salienza all’interno del libro, per quanto non tutte possano essere classiﬁcate come nomi propri o altamente convenzionali. 7.5 Conclusioni L’esplorazione mirata di un testo offre l’opportunità di sondarne quella che abbiamo chiamato dimensione verticale o strutturale. Ricerche mirate sui contesti linguistici tipici di una parola o di una classe di parole ci consentono di raccogliere evidenza per ulteriori generalizzazioni, in un processo incrementale che passa attraverso livelli di analisi linguistica via via più astratti, per pervenire a una rappresentazione, al momento ancora necessariamente parziale, del contenuto del testo. Sarebbe comunque riduttivo assegnare all’esplorazione automatica del testo un ruolo puramente strumentale. È un errore comune ritenere che l’uso di procedure di ricerca automatica risponda al solo ﬁne di raccogliere tanti dati in pochissimo tempo. Come è accaduto per altre imprese scientiﬁche, è ragionevole aspettarsi che l’uso di strumenti di analisi automatica abbia un grosso impatto sul nostro modo di guardare alle nozioni di base della linguistica. Abbiamo evidenziato che l’uso congiunto di tecniche automatiche di analisi qualitativa e quantitativa del testo consente di caratterizzare con precisione una classe sfuggente di espressioni linguistiche come le collocazioni, ottenendo così informazioni utili a indagare principi importanti dell’organizzazione del linguaggio. L’approccio può essere generalizzato ed esteso. Non è vero, ad esempio, che i membri di una classe linguistica astratta sono tutti ugualmente rappresentativi della stessa. Osservando la loro distribuzione nel testo è possibile individuare comportamenti più o meno tipici della classe di appartenenza. Ad esempio, sebbene due verbi come DECIDERE e OTTENERE siano entrambi classiﬁcabili come transitivi, lo studio del loro uso in contesti linguistici concreti evidenzia una differente propensione a selezionare un oggetto diretto: DECIDERE manifesta infatti un comportamento transitivo meno spesso di quanto non faccia OTTENERE 3. A loro volta, questi comportamenti possono subire l’inﬂuenza di altri livelli di astrazione, in quanto la stessa parola, nella stessa frase, può essere oggetto di più classiﬁcazioni simultanee. Analizzare questa rete com3. Questa differenza è supportata da un’analisi quantitativa effettuata sul corpus annotato dell’italiano TRESSI (cfr. CAP. 8).

207

TESTO E COMPUTER

plessa di interazioni è un compito che spesso travalica l’intuizione del linguista. Per quanto le ricerche testuali debbano essere necessariamente guidate da ipotesi formulate su base intuitiva, la veriﬁca empirica di queste ipotesi non può non avvalersi di strumenti di ricerca automatici e di metodi di analisi quantitativa delle distribuzioni nel testo. Questo capitolo ha anche evidenziato come esista una profonda interdipendenza tra esplorazione e rappresentazione astratta del testo. Le espressioni regolari sono uno strumento prezioso per definire in modo formale le istruzioni necessarie all’identificazione di un insieme di contesti da ricercare nel testo. Tuttavia, esse presentano limiti vistosi nella loro capacità di rappresentare le generalizzazioni linguistiche necessarie per aumentare la precisione della ricerca. Applicare le espressioni regolari un testo annotato permette invece di amplificare in maniera sostanziale le loro potenzialità come strumento di esplorazione testuale. Anche nel caso delle collocazioni, l’applicazione delle misure di associazione a bigrammi di parole definiti sulla base di criteri linguistici astratti (invece che come semplici sequenze di parole) permette di aumentare la precisione del processo di estrazione e anche la complessità delle strutture identificate. Questo però presuppone che si possano applicare le stesse misure a un corpus che sia stato preventivamente annotato a livello morfologico o sintattico. Le necessità dell’analisi linguistica richiedono spesso di indagare il testo alla ricerca di macrostrutture o di relazioni di dipendenza strutturale e funzionale; inoltre la nozione stessa di contesto linguistico di una parola non è riducibile a semplici sequenze lineari di token che la circondano, ma deve tener conto delle relazioni strutturali in cui la parola è inserita. La possibilità di disporre di un testo annotato su cui le informazioni linguistiche siano esplicitamente codificate non solo consente di rendere più efficaci i metodi quantitativi e qualitativi per esplorarlo, moltiplicando le risposte che il testo offre alle domande del linguista, ma influenza profondamente queste stesse domande, aprendo nuove prospettive di ricerca e di analisi. Per saperne di più BARNBROOK G.

(1996), Language and Computers: Practical Introduction to the Computer Analysis of Language, Edinburgh University Press, Edinburgh. MANNING C. D., SCHÜTZE H. (1999), Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge (MA).

208

7.

ESPLORARE IL TESTO

(2001), Corpus Linguistics, 2nd ed., Edinburgh University Press, Edinburgh. SINCLAIR J. (1991), Corpus, Concordance, Collocation, Oxford University Press, Oxford. SMADJA F. (1993), Retrieving Collocations from Text: Xtract, in “Computational Linguistics”, n. 19 (1), pp. 143-77. MCENERY T. E., WILSON A.

Siti web Computational Approaches to Collocations – http://www.collocations.de.

209

8 L’annotazione linguistica del testo

L’annotazione linguistica di un testo (o annotazione tout court) consiste nella codiﬁca di informazione linguistica associata al dato testuale. Ad esempio, nel frammento di frase Maestro Ciliegia, falegname, trovò un pezzo di legno possiamo voler rendere esplicito che Maestro Ciliegia è un nome proprio di persona; che pezzo è un nome; oppure che la sequenza di parole un pezzo di legno è un sintagma nominale; o ancora che legno, nel contesto speciﬁco, è usato nel senso di materia prima. Possiamo anche voler annotare informazione relazionale: ad esempio, che Maestro Ciliegia svolge il ruolo di soggetto del verbo trovare mentre il sintagma nominale un pezzo di legno ne rappresenta l’oggetto diretto; oppure che sussiste una relazione appositiva tra Maestro Ciliegia e falegname e così via. In LC, l’annotazione ha acquistato un ruolo centrale ormai indiscusso, in quanto permette di rendere esplicita, interpretabile ed esplorabile dal computer la struttura linguistica implicita nel testo (cfr. CAP. 7). Da questo punto di vista, l’annotazione del testo presenta numerose analogie con la codiﬁca della struttura testuale in titoli, capitoli, capoversi ecc. (CAPP. 2 e 3). Tuttavia, il loro ordine di complessità è assai diverso. Da un punto di vista linguistico, infatti, i dati testuali si organizzano su più livelli, caratterizzati da gerarchie multiple di tratti linguistici, talvolta non perfettamente allineate, in alcuni casi solo parzialmente deﬁnite. L’annotazione del testo è dunque un processo delicato, aperto e incrementale, che investe direttamente il linguista in più fasi successive e che può avere ripercussioni non banali sulla sua comprensione dei fenomeni da annotare. È dunque importante, dal nostro punto di vista, sfatare il pregiudizio diffuso che il ruolo del linguista nell’annotazione testuale si fermi alla deﬁnizione del contenuto dello schema di annotazione e che le modalità della sua applicazione sul testo rappresentino un aspetto contingente e puramente secondario rispetto alla fase di speciﬁca linguistica. La codiﬁca, secondo noi, è infatti parte integrante del lavoro 211

TESTO E COMPUTER

di speciﬁca dello schema di annotazione e interagisce con quest’ultimo su almeno quattro livelli fondamentali: – il grado di copertura dello schema, cioè la corrispondenza esatta tra il novero di categorie e strutture che lo schema offre per annotare una certa classe di fenomeni e la tipologia dei fenomeni stessi che si osservano “sul campo”; non è infrequente che l’applicazione di uno schema al testo evidenzi zone d’ombra nella teoria linguistica sottostante; – la riproducibilità dell’annotazione, cioè la possibilità di applicarla in maniera coerente e consensuale a tutti i fenomeni di interesse; la situazione ideale è quella in cui i criteri di applicazione siano così univoci e stringenti da consentire a due esperti di annotare in maniera indipendente lo stesso testo allo stesso modo: non sempre è così; – l’interazione con altri livelli di descrizione; in questo caso evidenziare correlazioni tra due annotazioni relative a livelli differenti di analisi linguistica è altrettanto signiﬁcativo che osservare accavallamenti e potenziali contraddizioni; è possibile, in teoria, che un nuovo livello di annotazione si possa interamente ricondurre all’interazione di due livelli preesistenti; – il grado di espressività dell’annotazione; la traduzione di uno schema in un linguaggio di marcatura (basato ad esempio su XML) pone problemi ripetuti riguardo ai tipi di rappresentazione che devono essere impiegati afﬁnché la traduzione sia formalmente corretta e rispondente agli scopi del linguista; questo processo non è mai banale e può rivelare oscurità o ridondanze nello schema; in molti casi, il risultato è una formulazione più rigorosa dello schema stesso. Quest’ultimo punto ci sembra particolarmente importante. Un testo, infatti, può essere descritto e caratterizzato da molteplici punti di vista. Tipicamente, l’annotazione avviene in relazione ai tradizionali livelli di descrizione linguistica: morfologia, sintassi, semantica ecc. Come vedremo nella prossima sezione, ciascuno di questi livelli pone effettivamente problemi speciﬁci di rappresentazione dell’informazione sul testo. D’altro canto, però, descrivere l’annotazione linguistica solo in termini dei livelli linguistici coinvolti rischia di far perdere di vista importanti generalizzazioni. Alcuni tipi di informazione pongono problemi di annotazione simili, anche se appartengono a livelli di descrizione linguistica diversi come la morfologia o la semantica; viceversa, altri tipi di informazione sollevano questioni di rappresentazione molto differenti, anche se questi tipi sono tradizionalmente accomunati sotto la stessa etichetta. È dunque quanto meno riduttivo affrontare il tema dell’annotazione come se si scorressero i capitoli di un 212

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

manuale di linguistica. Per tale motivo, in questo capitolo vogliamo trattare aspetti di annotazione ortogonali rispetto ai livelli linguistici, per concentrarci sui problemi che tipi differenti di informazione linguistica pongono per la loro annotazione nel testo (cfr. PARR. 8.3 e 8.4). 8.1 Livelli di annotazione Tratteggiamo di seguito le caratteristiche essenziali dei più comuni e diffusi livelli di annotazione linguistica del testo. Coerentemente con la nostra scelta di concentrarci su aspetti linguistici per quanto possibile neutrali rispetto a modalità comunicative speciﬁche (cfr. Introduzione), restano esclusi da questa sintesi quei livelli di annotazione che si basano su trascrizioni non ortograﬁche del testo, come ad esempio i diversi tipi di trascrizioni fonologiche del parlato o gli schemi di annotazione prosodica. 8.1.1. Annotazione morfo-sintattica L’annotazione morfo-sintattica rappresenta la forma basilare e più comune di annotazione linguistica, presupposta dalla maggior parte degli altri livelli di annotazione. Lo scopo dell’annotazione morfo-sintattica è l’assegnazione, a ogni parola (o token) del testo, dell’informazione relativa alla categoria grammaticale (o parte del discorso) che la parola ha nel contesto speciﬁco (ad esempio nome, verbo, aggettivo). Questa informazione viene talora integrata da ulteriori speciﬁcazioni morfologiche (ad esempio riguardanti categorie morfo-sintattiche come persona, genere, numero ecc.). È a questo livello che vengono risolte omograﬁe riguardanti le parti del discorso. Ad esempio, la forma omografa stato, quando considerata al di fuori del suo contesto di occorrenza, è suscettibile di due diverse classiﬁcazioni grammaticali, quella di nome e quella di verbo. Quando invece la forma appare nel contesto Pinocchio è stato buono, l’omograﬁa è risolta a favore dell’accezione verbale, la sola possibile in questo contesto. L’annotazione morfo-sintattica è spesso combinata con l’annotazione per lemma (o lemmatizzazione) che consiste nel ricondurre ogni parola del testo al relativo esponente lessicale o lemma (tipicamente l’inﬁnito per i verbi, oppure il singolare maschile per gli aggettivi, corrispondente approssimativamente all’esponente lessicale delle voci di un dizionario). Si tratta di due livelli di annotazione distinti ma strettamente correlati, in quanto l’identiﬁcazione del lemma rilevante 213

TESTO E COMPUTER

presuppone la classiﬁcazione grammaticale della parola nel contesto speciﬁco. Per questo motivo, la lemmatizzazione viene spesso trattata come naturale estensione dell’annotazione morfo-sintattica. L’informazione relativa alla categoria grammaticale delle parole nel loro contesto di occorrenza rappresenta il prerequisito fondamentale per aumentare la precisione nel recupero delle informazioni da un testo annotato (ad esempio è possibile recuperare tutte le occorrenze di stato come nome), e costituisce il prerequisito fondamentale per ulteriori livelli di annotazione come quella sintattica e semantica (cfr. infra). La lemmatizzazione permette invece di effettuare ricerche che astraggono da variazioni di tipo morfologico, riguardanti sia la morfologia ﬂessionale sia quella derivazionale: ad esempio, a partire dal lemma COSTRUIRE è possibile recuperare tutte le forme ad esso riconducibili, ﬂesse (ad esempio costruisco, costruito, costruiva ecc.) e derivate (ad esempio costruzione, ricostruzione, ricostruibile). 8.1.2. Annotazione sintattica Con il termine di annotazione sintattica ci riferiamo alla codiﬁca di informazione relativa all’analisi sintattica delle frasi di un testo. Questo tipo di annotazione risente fortemente dei diversi approcci teorici alla sintassi, che spesso si correlano a modi differenti di rappresentare la struttura di una frase. Al di là delle particolarità delle diverse teorie, è comunque possibile identiﬁcare due principali approcci alla rappresentazione sintattica nei corpora: – rappresentazioni a costituenti, basate sull’identiﬁcazione di costituenti sintattici (ad esempio sintagmi nominali, sintagmi verbali, sintagmi preposizionali ecc.) e delle loro relazioni di incassamento gerarchico; – rappresentazioni a dipendenze o funzionali, che forniscono una descrizione della frase in termini di relazioni binarie di dipendenza tra parole che indicano relazioni grammaticali come soggetto, oggetto diretto, modiﬁcatore ecc. All’interno di questi due approcci, lo spettro di variazione nella deﬁnizione di schemi di annotazione è comunque molto ampio: ad esempio, può riguardare la tipologia di costituenti e/o relazioni sintattiche identiﬁcate così come la combinazione all’interno dello stesso schema di informazione sintagmatica e funzionale. Un testo annotato sintatticamente diventa suscettibile di molte forme di esplorazione e analisi avanzata. È possibile interrogare il testo per acquisire informazioni sui contesti sintattici tipicamente sele214

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

zionati da una parola: ad esempio possiamo cercare tutti gli usi transitivi del verbo DECIDERE, ovvero quando il verbo ricorre con un complemento oggetto. Allo stesso modo, un testo annotato può anche essere esplorato alla ricerca di intere costruzioni sintattiche, come le frasi pseudo-scisse (ad esempio ciò che desidero è un gelato), le frasi relative introdotte da che, le frasi passive. 8.1.3. Annotazione semantica L’annotazione semantica riguarda la codiﬁca esplicita del signiﬁcato o contenuto semantico delle espressioni linguistiche di un testo. Le forme che può assumere l’annotazione semantica sono molteplici proprio in relazione alla complessità (e anche intrinseca vaghezza) inerente alla nozione di signiﬁcato. Un primo tipo di annotazione riguarda la classiﬁcazione delle parole lessicalmente piene di un testo rispetto a categorie semanticoconcettuali predeﬁnite, che ne catturano tratti salienti del loro signiﬁcato. Queste ultime possono spaziare da categorie generali come PERSONA, LUOGO, ASTRATTO, ANIMATO, EVENTO, DINAMICO ecc. ﬁno a classiﬁcazioni a grana molto più ﬁne, per esempio corrispondenti alle distinzioni di senso desunte da una risorsa lessicale di riferimento (come un dizionario). Un’altra modalità di annotazione semantica – che può anche combinarsi con la precedente – riguarda la marcatura nel testo dei ruoli semantici (o ruoli tematici); questi descrivono la funzione semantica svolta da un certo costituente nell’evento espresso dal predicato di cui è argomento. Ad esempio, nella frase Pinocchio è stato ingoiato da un pescecane, al nome Pinocchio può essere assegnato il ruolo semantico di Paziente dell’evento espresso dal predicato INGOIARE, mentre a un pescecane può essere assegnato il ruolo di Agente dello stesso evento. Oltre ad Agente e Paziente alcuni dei ruoli semantici più comunemente usati sono Tema, Destinatario, Esperiente ecc. Spesso, però, l’annotazione avviene con categorie che descrivono ruoli semantici molto più speciﬁci associati a classi ristrette di eventi (ad esempio Compratore e Acquirente in verbi come COMPRARE, VENDERE ecc.). L’annotazione semantica di un testo consente di aumentare la precisione delle ricerche testuali, evitando il “rumore” causato da eventuali ambiguità semantiche: ad esempio è possibile cercare in un corpus tutte le occorrenze della parola borsa in quanto OGGETTO CONCRETO, escludendo le occorrenze della stessa parola come ISTITUZIONE. Inoltre, l’annotazione semantica permette di studiare come i 215

TESTO E COMPUTER

sensi di una parola si distribuiscono in relazione a speciﬁci contesti sintattici; in maniera simile, la codiﬁca dei ruoli semantici consente di acquisire informazione utile a costruire modelli della struttura argomentale dei termini lessicali predicativi e dei vincoli semantici che operano sui loro argomenti. 8.1.4. Annotazione pragmatica Un livello ulteriore di codiﬁca linguistica riguarda informazioni di tipo pragmatico. L’annotazione pragmatica comprende sotto di sé fenomeni che riguardano la funzione comunicativa di una particolare unità linguistica, oppure relazioni che coinvolgono strutture linguistiche spesso al di sopra della frase, costitutive della struttura del discorso o della macro-organizzazione linguistica del testo. Uno dei principali tipi di annotazione pragmatica riguarda l’identiﬁcazione della funzione illocutoria (ad esempio richiesta, asserzione, domanda, promessa ecc.) di un particolare segmento testuale. Questo tipo di annotazione è applicata essenzialmente alle codiﬁche di trascrizioni di parlato, in particolare di tipo dialogico. Si consideri ad esempio il seguente frammento di dialogo tra due parlanti: A: Vuoi una sigaretta? B: Ho smesso ieri.

In questo caso, l’annotazione pragmatica può assegnare la funzione OFFERTA all’enunciato del parlante A, e la funzione di RIFIUTO all’enunciato del parlante B. Un altro tipo di annotazione che si colloca al livello del discorso riguarda la marcatura delle relazioni tra un aggettivo o un pronome e il suo antecedente, di cui sono un esempio le relazioni anaforiche. Ad esempio in Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto, l’antecedente dell’aggettivo possessivo suo è il nome Maestro Ciliegia. L’annotazione di questo tipo di relazioni è molto importante per lo studio dei meccanismi di mantenimento e gestione della coerenza testuale. Inﬁne, vale la pena di segnalare l’annotazione delle frasi di un testo relativamente alla loro funzione retorica. Ad esempio, una frase può avere la funzione di introduzione o conclusione di un’argomentazione, può descrivere la causa di un evento o un suo effetto. Arricchire un testo con tali informazioni lo predispone a esplorazioni avanzate ﬁnalizzate allo studio dell’organizzazione del testo e della struttura del discorso. 216

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

8.2 Corpora annotati I corpora annotati sono collezioni di dati testuali arricchiti con uno o più livelli di annotazione linguistica. Nella LC si è infatti affermata sempre di più l’importanza di avere corpora non solo come fonti di dati grezzi, ma come collezioni di testi riccamente annotati da usare sia come risorsa di informazione per lo sviluppo di tecnologie linguistiche, sia per ricerche ed esplorazioni avanzate sulla lingua. L’annotazione morfo-sintattica rappresenta una sorta di annotazione di livello base, per molti aspetti quasi elementare. È stata la prima forma di annotazione di corpora e ormai quella sicuramente più comune. Questo è anche legato all’esistenza di strumenti automatici (noti come part-of-speech taggers o disambiguatori morfo-sintattici; cfr. PAR. 9.3) che consentono di annotare porzioni estese di testo. Anche se questi strumenti hanno un certo tasso di errore, la loro afﬁdabilità è comunque molto alta e permette di ridurre l’intervento dell’annotatore solo alla fase di revisione manuale. Il Brown Corpus è stato il primo esempio di corpus annotato automaticamente a livello morfo-sintattico all’inizio degli anni settanta, usando il programma TAGGIT; anche il British National Corpus è stato interamente annotato a questo livello, sempre automaticamente. Per l’italiano, vale la pena ricordare che il corpus La Repubblica è anch’esso annotato a livello morfo-sintattico, così come lo è una porzione del corpus di Parole. In generale, possiamo dire che l’annotazione a livello morfo-sintattico rappresenta quasi uno standard per tutti i corpora più recenti sia di lingua scritta che di parlato. I corpora annotati a livello sintattico sono invece un prodotto più recente. Questi tipi di corpora sono comunemente noti come treebanks (letteralmente, banche di alberi sintattici). Questo nome è dovuto al fatto che i primi corpora rappresentavano la struttura sintattica delle frasi come un albero a costituenti; ormai però il nome di treebank è usato per qualsiasi corpus annotato a livello sintattico, indipendentemente dal tipo di schema di annotazione usato. Le prime treebank, sono nate in Inghilterra nella metà degli anni ottanta, ma hanno acquistato rapidamente fortuna in tutta la comunità della LC. Una delle treebank, più note è la Penn Treebank, realizzata a partire dalla seconda metà degli anni ottanta all’università della Pennsylvania (USA). In origine, comprendeva il Brown Corpus annotato con una struttura a costituenti sottospeciﬁcata (detta skeleton parsing); la quantità di materiale annotato è successivamente aumentata, anche con tipologie diverse di testi (ad esempio il “Wall Street Journal”). 217

TESTO E COMPUTER

Inoltre nella seconda versione di questo corpus, PennTreebank-II, anche lo schema di annotazione è cambiato per consentire la rappresentazione di aspetti della struttura predicativa della frase. La Bank of English è stata invece annotata a livello sintattico secondo uno schema a dipendenze. Per l’italiano la più grande treebank attualmente disponibile è TRESSI (Treebank sintattico-semantica dell’italiano): si tratta in realtà di un corpus annotato sia a costituenti che a dipendenze, dove l’annotazione è articolata su livelli distinti ma interrelati. La TUT (Turin University Treebank) è invece interamente annotata secondo uno schema a dipendenze, ma è di dimensioni più limitate. Nel caso dei corpora annotati a livello sintattico i metodi di annotazione differiscono molto: si va da realizzazioni completamente manuali, a tentativi di automatizzare l’annotazione usando programmi per l’analisi sintattica automatica (o parser). A differenza però del livello morfo-sintattico, il livello di intervento richiesto all’annotatore è sempre sostenuto, a causa del maggior tasso di errori compiuto dai parser. Il numero di lingue per le quali sono disponibili treebank e anche la tipologia di queste è in continuo aumento: ad esempio, per il tedesco possiamo citare il corpus NEGRA, per lo spagnolo la UAM Spanish Treebank, per il ceco la Prague Dependency Treebank. Per ulteriori dettagli, rimandiamo il lettore interessato ad Abeillé (2003), che rappresenta una delle più complete rassegne delle treebank attualmente disponibili per varie lingue e delle problematiche connesse a questo tipo di corpus annotato. Ancora più nuova è l’idea dei corpora annotati a livello semantico. L’apripista in questo caso è stato SemCor, ovvero una porzione del Brown Corpus in cui nomi, verbi e aggettivi sono stati annotati con il loro senso, usando come risorsa di riferimento WordNet, un lessico computazionale per l’inglese americano sviluppato a Princeton (USA). Per l’italiano, TRESSI ha anche un livello di annotazione semantica, con sensi desunti da ItalWordNet, un lessico computazionale italiano costruito secondo i principi di WordNet. Sempre per l’italiano, possiamo citare MultiSemCor, un corpus multilingue annotato a livello semantico. Per quanto riguarda l’annotazione con ruoli semantici, il primo e più famoso esempio è FrameNet, in cui un sottoinsieme del British National Corpus è stato annotato con informazione relativa ai ruoli semantici. Nonostante la creazione di corpora annotati al livello semantico non possa allo stato dell’arte che essere condotta manualmente, la loro importanza sta crescendo velocemente. Esistono infatti molte iniziative internazionali per la creazione di risorse testuali annotate con vari tipi di informazione semantica: ad esempio, classi semantiche generali (come persona, luogo, istituzione ecc.), oppure 218

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

informazione di tipo temporale ecc. Ancora più pionieristica è l’annotazione a livello pragmatico. Per l’italiano possiamo citare i corpora dialogici del progetto SI-TAL, annotati a più livelli (anche sintattico e semantico) e comprensivi di un livello di annotazione pragmatica per quanto riguarda l’assegnazione della funzione illocutoria agli enunciati. È comunque impossibile fare una lista esaustiva delle iniziative in corso nel campo della costruzione di corpora annotati. Il campo si sta estendendo rapidamente con una molteplice sﬁda: costruire corpora testuali sempre più riccamente annotati, generalmente con informazione multi-livello; velocizzare e automatizzare per quanto possibile i meccanismi di annotazione per ridurre i tempi e i costi di sviluppo di questi corpora, che rimangono in molti casi comunque molto elevati; adottare, ove possibile, rappresentazioni standardizzate (cfr. PAR. 8.6). 8.3 “Anatomia” di uno schema di annotazione Abbiamo visto che i livelli di annotazione corrispondono, con buona approssimazione, ai livelli di descrizione linguistica. Per ciascun livello, i caratteri peculiari di uno schema di annotazione sono determinati da fattori diversi quali: i. gli scopi della ricerca e/o applicazione per la quale il corpus annotato è progettato; ii. la teoria linguistica di riferimento per la rappresentazione di un certo tipo di informazione linguistica; iii. la modalità (ad esempio manuale, semiautomatica ecc.) con cui l’annotazione viene effettuata e le risorse umane e temporali disponibili per l’attività di annotazione; iv. la “granularità” della descrizione linguistica che intendiamo codiﬁcare nel testo; v. le caratteristiche stesse della lingua dei testi da annotare ecc. La conseguenza immediata di questi “gradi di libertà” è l’esistenza di molteplici schemi di annotazione linguistica per ciascuno dei livelli discussi nel PAR. 8.1. Ad esempio, nel caso della morfo-sintassi gli schemi di annotazione possono differire per il numero di categorie grammaticali o per la caratterizzazione dei tratti morfologici. Inoltre, a seconda della lingua, i tratti morfologici rilevanti possono essere diversi, o richiedere livelli di granularità differenti nella loro deﬁnizione (ad esempio si pensi al ruolo diverso che il tratto morfo-sintattico di caso svolge nella descrizione di una lingua come il ﬁnnico e in una lingua come l’italiano). Simili considerazioni si applicano naturalmente anche alla sintassi, alla semantica e alla pragmatica. Nonostante il panorama dell’annotazione linguistica e dei corpora annotati appaia dunque improntato alla più ampia variabilità, tuttavia 219

TESTO E COMPUTER

è possibile fare astrazione dagli aspetti peculiari di un particolare schema di annotazione per concentrare la nostra attenzione su alcuni tratti invarianti. A un attento esame, infatti, si scopre che al di là dei tratti di variabilità individuale, ciascuno schema di annotazione può essere in realtà visto come la risultante della combinazione di un ristretto insieme di tipi di informazione linguistica di base, che sono anche trasversali ai livelli di analisi linguistica. Questi tipi di informazione sono gli elementi portanti della “struttura anatomica” di uno schema di annotazione, ciò che ne identiﬁca per così dire i tratti essenziali, la sua “ﬁsionomia” e la sua “espressività” come strumento per la codiﬁca di informazione linguistica. Gli “ingredienti di base” dell’annotazione possono essere identiﬁcati nei seguenti tipi di informazione linguistica: – informazione categoriale: l’assegnazione di categorie alle unità e relazioni linguistiche identiﬁcate in un testo (ad esempio verbo, sintagma nominale, soggetto ecc.); – informazione strutturale: l’identiﬁcazione nel testo di strutture che possono o essere interne a un particolare token (ad esempio la sua articolazione in morfermi) o raggruppare più token (ad esempio i costituenti dell’annotazione sintattica); – informazione relazionale: la deﬁnizione di relazioni tra le unità linguistiche identiﬁcate, come le relazioni di dipendenza sintattica (ad esempio soggetto e oggetto diretto), oppure le relazioni anaforiche o i ruoli semantici. Concentrarsi su questi tipi di base e sul modo in cui essi si combinano ci fornisce una chiave di lettura importante delle caratteristiche di uno schema di annotazione. Per valutare l’adeguatezza di uno schema di annotazione per i propri scopi, è necessario che il linguista lo analizzi proprio rispetto a questi tratti costituivi essenziali, e lo confronti con altri schemi concentrandosi su similarità e differenze sostanziali, e non basandosi su somiglianze o differenze superﬁciali. 8.3.1. Annotazione e informazione categoriale Nell’annotazione linguistica, l’informazione categoriale è tipicamente espressa nella forma di etichette che associano categorie o tratti linguistici alle unità identiﬁcate nel testo, così come alle loro relazioni. Vediamo il ruolo di questo tipo di informazione nei vari livelli di annotazione. L’annotazione morfo-sintattica, si basa primariamente sull’informazione categoriale. Si consideri l’esempio seguente: 220

8.

[8.1]

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

Maestro_Ciliegia/N ,/PUN falegname/N ,/PUN trovò/V un/ART pezzo/N di/PREP legno/N

dove ogni token è seguito dalla categoria grammaticale rilevante nel contesto speciﬁco (N sta per nome, V per verbo, ART per articolo, PREP per preposizione e PUN per punteggiatura). Il repertorio di categorie usato per l’annotazione può variare per il dettaglio di informazione convogliata, che è a sua volta funzionale agli scopi della ricerca e agli usi prospettati per il testo annotato. Ad esempio, l’informazione relativa alla categoria grammaticale può venire integrata da ulteriori speciﬁcazioni morfologiche, riguardanti tratti linguistici quali genere, numero, persona, tempo, modo ecc. che possono essere espresse in modi diversi: ad esempio tramite un’etichetta sintetica che combina i diversi tipi di informazione oppure separatamente (cfr. PAR. 8.4.1). Analogamente, le categorie grammaticali di base selezionate possono essere articolate in sottoclassi: ad esempio, la categoria dei sostantivi può essere suddivisa in nomi propri e nomi comuni, quella dei pronomi in pronomi personali, possessivi, indeﬁniti, dimostrativi, clitici ecc. Riproponiamo di seguito la frase in [8.1] con un’etichettatura basata su una classiﬁcazione a grana più ﬁne: [8.2]

Maestro_Ciliegia/NP_MS ,/PUN falegname/NC_MS ,/PUN trovò/V_ S3IR un/ARTI_MS pezzo/NC_MS di/PREP legno/NC_MS

dove NP sta per nome proprio, NC sta per nome comune e ARTI per articolo indefinito e dove le categorie grammaticali sono integrate da specificazioni relative alle categorie morfo-sintattiche (MS significa maschile singolare e S3IR passato remoto indicativo terza persona singolare). Anche l’annotazione del lemma (o lemmatizzazione) è riconducibile a questo tipo di informazione: il lemma si presenta come la categoria lessicale astratta che accomuna tutte le forme ﬂesse a esso riconducibili. Al tipo di informazione categoriale può essere anche ricondotto il caso dell’annotazione semantica, intesa come classiﬁcazione delle parole in base al loro signiﬁcato in un contesto speciﬁco. In questo caso l’etichetta può essere costituita da categorie che vanno da classi generali come CONCRETO, ASTRATTO ecc. ﬁno all’indicazione del senso lessicale così come appare in un dizionario di riferimento. Ad esempio, alla parola legno in [8.2] può essere semplicemente assegnata l’etichetta CONCRETO, oppure il senso 2 dell’entrata legno nel Dizionario della lingua italiana De Mauro Paravia, glossato come «materia prima fornita dagli alberi, usata come materiale da costruzione, per lavori di falegnameria, come combustibile ecc.». 221

TESTO E COMPUTER

L’informazione di tipo categoriale entra in gioco anche per altri livelli di annotazione linguistica. Si ricorre a essa per la categorizzazione dei costituenti sintattici (ad esempio sintagma verbale, sintagma nominale ecc.), così come per la classiﬁcazione delle relazioni di dipendenza sintattica in soggetto, oggetto diretto ecc. e dei ruoli semantici. 8.3.2. Annotazione e informazione strutturale L’informazione strutturale riguarda l’identiﬁcazione delle unità strutturali del testo (sia internamente al singolo token sia tra token diversi) e la loro organizzazione in strutture gerarchiche. Ad esempio, possiamo annotare un testo segmentando le sue parole in morfemi: in questo caso si parla di annotazione morfemica. La forma verbale trovò può essere segmentata nella radice trov (portatrice del signiﬁcato del lemma TROVARE) seguita dalla terminazione ﬂessionale ò (portatrice dell’informazione morfo-sintattica “prima persona singolare del passato remoto indicativo”). Lo stesso tipo di informazione strutturale può essere usata per rappresentare token che inglobano al loro interno due o più unità morfo-lessicali. Ad esempio all’interno di una forma verbale con clitico come mangiarlo possono essere identiﬁcate un’unità riconducibile al lemma verbale MANGIARE e un’altra corrispondente al pronome clitico LO. Analogo trattamento può essere ipotizzato per una preposizione articolata come al che può essere analizzata come risultante dalla combinazione di una preposizione semplice (A) con un articolo deﬁnito (IL). Un primo esempio di raggruppamento di più token in unità strutturalmente complesse riguarda l’annotazione delle espressioni multilessicali che non siano già state trattate come unità complesse al momento della tokenizzazione del testo (cfr. PAR. 4.1.1). Le espressioni multilessicali sono costituite da sequenze di più parole che formano un’unità di annotazione o a livello morfo-sintattico o a livello semantico. Esempi tipici sono i composti nominali come carta di credito o camera oscura, caratterizzati da una parziale, talora totale, non composizionalità semantica, alla quale si afﬁanca un elevato grado di variabilità al livello morfologico. Le strutture deﬁnite per la rappresentazione delle espressioni multilessicali sono “piatte”, essendo semplicemente costituite da sequenze di token. Ma la tipologia di strutture che vanno “oltre” i token del testo può essere ben più complessa e includere strutture con incassa222

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

menti multipli. Ciò si veriﬁca tipicamente nel caso dell’annotazione sintattica a costituenti. Nell’annotazione a costituenti le sequenze di token in una frase sono raggruppate in strutture progressivamente più ampie o costituenti sintattici. Una rappresentazione sintattica a costituenti si basa sull’identiﬁcazione di costituenti e sulle loro relazioni di incassamento gerarchico, come esempliﬁcato di seguito: [8.3] [ [[Maestro Ciliegia] [falegname]] [[trovò] [[un pezzo] [di [legno]]]]]

dove le strutture linguistiche identiﬁcate – i costituenti sintattici – sono racchiuse tra parentesi quadre e le relazioni di incassamento gerarchico sono rappresentate attraverso l’inclusione di un segmento più piccolo all’interno di un segmento più grande ﬁno ad arrivare al costituente che racchiude l’intera frase. 8.3.3. Annotazione e informazione relazionale L’informazione relazionale collega tra loro unità linguistiche previamente identiﬁcate (ad esempio token, unità morfo-lessicali, costituenti sintattici). È attraverso questo tipo di informazione che possono essere annotate relazioni di dipendenza (ad esempio soggetto, oggetto diretto ecc.) e i ruoli semantici (come agente, paziente ecc.). Lo stesso tipo di informazione è anche alla base della rappresentazione di costituenti discontinui (ad esempio espressioni multilessicali discontinue) e di tutte quelle relazioni tra unità linguistiche che si fondano sul meccanismo della “coindicizzazione” (ad esempio la relazione tra un pronome e il suo antecedente, cfr. infra). Consideriamo la rappresentazione sintattica di FIG. 8.1, nella 8.1 Rappresentazione a dipendenze FIGUR A

Maestro Ciliegia,

falegname, trovò

223

un

pezzo

di

legno

TESTO E COMPUTER

quale la frase viene descritta in termini di relazioni binarie asimmetriche di dipendenza tra una parola, che svolge il ruolo di testa, e una parola, che ne costituisce il dipendente. Nella figura le relazioni di dipendenza sono rappresentate come frecce che vanno dal dipendente alla testa. Ad esempio, Maestro Ciliegia e pezzo sono dipendenti della testa verbale trovò. Lo stesso tipo di informazione è alla base della rappresentazione dei ruoli semantici tra parole o costituenti. Ad esempio, attraverso informazione relazionale si può rendere conto del fatto che pezzo (o un pezzo di legno) si correla a trovò come Paziente. Si ricorre abitualmente a informazione di tipo relazionale anche per rappresentare unità linguistiche discontinue, ovvero quando si voglia ricondurre a una stessa unità token che nel testo non appaiono uno di seguito all’altro. Prendiamo ad esempio la frase Fra tutti i mestieri del mondo non ce n’è che uno solo, che mi vada veramente a genio: possiamo osservare che l’avverbio veramente è inserito all’interno dell’espressione multilessicale vada a genio. Per poter annotare che l’espressione vada a genio costituisce un’unità semantica, abbiamo bisogno di poter stabilire delle relazioni a distanza tra le sue sottoparti. È basata su informazione relazionale anche la rappresentazione di tutti quei fenomeni e costruzioni che nella letteratura linguistica sono trattati attraverso il meccanismo della coindicizzazione. In termini molto generali, possiamo dire che due o più elementi della struttura linguistica (più precisamente sintattica) si dicono coindicizzati quando si riferiscono alla stessa entità; ciò viene rappresentato esplicitamente associando lo stesso indice ai singoli elementi. La coindicizzazione interviene a rappresentare costruzioni e fenomeni alquanto diversi. Consideriamo a scopo esempliﬁcativo il caso delle relazioni tra un pronome o un aggettivo e il suo antecedente nel seguente frammento di testo, dove gli elementi sottolineati e seguiti dallo stesso indice si riferiscono alla stessa entità. [8.4]

Maestro Ciliegia h regala il pezzo di legno i al suo h amico Geppetto j , il quale j lo i prende per fabbricarsi un burattino maraviglioso k che k sappia ballare, tirar di scherma e fare i salti mortali.

La relazione sussistente tra un riferimento anaforico (ad esempio un pronome clitico) e il suo antecedente rientra nella classe di informazioni relazionali che possono essere annotate nel testo. 224

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

8.3.4. Tipi di informazione di base e schemi di annotazione Raramente questi tipi di informazione si presentano allo stato puro all’interno di uno schema di annotazione. Molto più frequentemente avviene che uno schema di annotazione sia la risultante della combinazione di più tipi. Il luogo ideale per osservare questo tipo di “contaminazione” è il caso dell’annotazione sintattica. Al cuore dell’annotazione sintattica a costituenti c’è informazione di tipo strutturale, che riguarda l’identiﬁcazione dei costituenti e delle loro relazioni di incassamento gerarchico. Tuttavia l’informazione di tipo strutturale non è sufﬁciente, da sola, a descrivere in modo adeguato la struttura sintattica di una frase. A questa deve afﬁancarsi informazione di tipo categoriale che assegna a ogni costituente identiﬁcato la corrispondente categoria sintattica. Riportiamo di seguito il risultato di questa combinazione per la frase strutturata in costituenti in [8.3]: [8.5]

F[ SN[ SN[Maestro Ciliegia]SN SN[falegname]SN ]SN [ [trovò] SV V V SN[ SN[un pezzo]SN SP[di SN[legno]SN ]SP ]SN ]SV ]F

dove a ogni costituente è associata un’etichetta: SN per sintagma nominale, SP per sintagma preposizionale, SV per sintagma verbale, V per verbo e F per frase. Questo è il tipo di rappresentazione sintattica adottata in TRESSI. Vi sono schemi di annotazione dove la categorizzazione dei costituenti può includere altra informazione. Questo è il caso della Penn Treebank-II dove, per quanto le relazioni grammaticali siano codiﬁcate attraverso la struttura a costituenti della frase 1, viene fatto ricorso a informazione di tipo categoriale per la codiﬁca di alcune funzioni grammaticali (talora non facilmente rintracciabili nella struttura della frase) come, ad esempio, quella di soggetto “logico”, di complemento predicativo o di soggetto “superﬁciale” (Marcus et al., 1994). Secondo questo approccio, la frase annotata in [8.5] verrebbe rappresentata come segue:

1. Il soggetto è il sintagma nominale immediatamente dominato dal nodo di frase; l’oggetto diretto è il sintagma nominale immediatamente dominato dal sintagma verbale.

225

TESTO E COMPUTER

[8.6] F[ SN_SOGG[ SN[Maestro Ciliegia]SN SN[falegname]SN ]SN_SOGG SV[ V[trovò]V SN[ SN[un

pezzo]SN SP[di

SN[legno]SN

]SP ]SN ]SV ]F

dove la funzione di soggetto del sintagma nominale Maestro Ciliegia falegname è marcata attraverso l’etichetta funzionale SOGG accodata alla categoria sintattica SN. In altri corpora annotati a costituenti, come ad esempio il corpus tedesco NEGRA, l’informazione relativa alle funzioni grammaticali è sistematicamente codiﬁcata con etichette funzionali associate ai costituenti della frase; ciò è legato al fatto che una lingua come il tedesco è caratterizzata da un’alta variabilità al livello dell’ordine dei costituenti della frase, per cui una rappresentazione delle relazioni grammaticali in termini conﬁgurazionali appare difﬁcilmente praticabile. La stessa combinazione di informazione strutturale (relativa ai costituenti sintattici) e informazione categoriale (questa volta relativa ai ruoli semantici, cfr. PAR. 8.1.3) si ritrova nello schema di annotazione semantica di FrameNet. Uno schema di annotazione a costituenti può anche includere informazione relazionale. Consideriamo di nuovo il caso della Penn Treebank-II, che ricorre a informazione relazionale per rappresentare una varietà di fenomeni e costruzioni sintattiche tra le quali il soggetto non foneticamente espresso di costruzioni inﬁnitivali. Una frase come Pinocchio cominciò a camminare da sé secondo lo schema della Penn Treebank-II verrebbe annotata come segue: [8.7]

F[ SN_SOGG_1[Pinocchio]SN_SOGG_1 SV[ V[cominciò]V F[

a [] [ [camminare] [da sé] ] ] ] SN_SOGG_1 SN_SOGG_1 SV V V SP SP SV F SV ]F

dove la posizione vuota di soggetto della frase inﬁnitiva è coindicizzata con il soggetto della frase che regge l’inﬁnitiva. Ciò indica che la posizione vuota e l’SN coindicizzato si riferiscono alla stessa entità (ovvero Pinocchio). Abbiamo visto che un’alternativa alla rappresentazione sintattica a costituenti è data da una rappresentazione a dipendenze o funzionale. Uno schema di annotazione a dipendenze “puro”, ovvero in cui le dipendenze sono stabilite tra parole, si fonda su informazione relazionale tipicamente integrata da informazione categoriale che assegna un tipo alle relazioni identiﬁcate tra le parole del testo. Schemi di annotazione di questo tipo sono alla base dell’annotazione sintattico-funzionale dei corpora dell’italiano TRESSI e TUT, così come della Prague Dependency Treebank. 226

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

8.4 Tipi di informazione e rappresentazione

XML

Gli esempi della sezione precedente mostrano come i tipi di informazione categoriale, strutturale e relazionale possono essere variamente combinati nella deﬁnizione di un singolo schema di annotazione. Ciascun tipo di informazione pone però speciﬁci problemi di rappresentazione quando lo schema di annotazione debba essere tradotto in un linguaggio di marcatura basato su XML. 8.4.1. Rappresentazione

XML

di informazione categoriale

Sulla base di quanto illustrato nel CAP. 3, il modo più intuitivo offerto da XML per la rappresentazione di informazione categoriale è rappresentato dalla sua codiﬁca attraverso attributi associati all’elemento che descrive l’unità linguistica che si vuole categorizzare. Prendiamo il caso dell’annotazione morfo-sintattica. Supponiamo di voler associare la categoria grammaticale ai token del testo e di volerla rappresentare come attributo XML. Illustriamo questo caso in relazione alla parola legno: [8.8]

< pm pos = ”nome” > < orto > legno < /orto > < /pm >

In [8.8] < pm > è l’elemento che rappresenta la parola morfologica e include al suo interno un elemento di tipo < orto > , che contiene a sua volta la forma lessicale associata a < pm > . L’attributo pos fornisce l’informazione relativa alla categoria grammaticale (nome). Abbiamo visto in precedenza che una stessa parola morfologica può essere descritta anche in modo più ricco e articolato, come riportato di seguito per la stessa parola legno, dove i tratti linguistici selezionati per la sua descrizione (il lemma, i tratti di genere e numero e il tipo di nome) sono tutti rappresentati in termini di attributi XML: [8.9]

< pm pos = ”nome” sottotipo = ”nome_comune” num = ”sing” gen = ”masc” lemma = ”legno” > < orto > legno < /orto > < /pm >

227

TESTO E COMPUTER

Una possibile alternativa a [8.8] è quella di rappresentare l’informazione categoriale in termini di elementi, come mostra l’esempio [8.10], dove l’informazione relativa alla categoria grammaticale è codiﬁcata attraverso un sottoelemento di < pm > , l’elemento < pos > , il cui contenuto è rappresentato dalla categoria grammaticale nome. [8.10]

< pm > < orto > legno < /orto > < pos > nome < /pos > < /pm >

È naturale a questo punto chiedersi se gli stili di rappresentazione illustrati in [8.8] e [8.10] siano del tutto equivalenti dal punto di vista espressivo. La risposta è no. Nel CAP. 3 abbiamo visto che a un attributo XML non può essere assegnata una struttura complessa, ovvero che non può contenere al suo interno altri attributi. Supponiamo di voler includere gli attributi num(ero) e gen(ere) in una struttura complessa, chiamata accordo, che include tutti i tratti morfo-sintattici alla base dell’accordo grammaticale. Un modo per rappresentare questa struttura all’interno della [8.10] è il seguente: [8.11]

< pm > < orto > legno < /orto > < pos > nome < /pos > < accordo > < num > sing < /num > < gen > masc < /gen > < /accordo > < /pm >

dove gli elementi < num > e < gen > sono incassati all’interno dell’elemento padre < accordo > . Naturalmente sarebbe possibile combinare gli stessi tratti in un solo attributo XML, usando valori complessi come ad esempio “masc-sing”. Questo avrebbe però due controindicazioni: da una parte, la moltiplicazione del repertorio di valori necessari, dall’altra, una rappresentazione non adeguata dei ruoli distinti che i tratti di persona, genere e numero svolgono nell’accordo grammaticale (ad esempio le voci verbali semplici non richiedono in italiano l’accordo del genere, così come gli aggettivi non richiedono l’accordo della persona ecc.). 228

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

8.4.2. Rappresentazione

XML

di informazione strutturale

In questa sezione esempliﬁcheremo possibili rappresentazioni XML della tipologia di strutture linguistiche illustrate nel PAR. 8.3.2 2. Cominciamo dalla rappresentazione di token morfologicamente complessi illustrata di seguito: [8.12]

< struct > < orto > al < /orto > < struct lemma = ”A”/ > < struct lemma = ”IL”/ > < /struct >

In [8.12] l’elemento < struct > rappresenta una qualsiasi unità strutturale. La preposizione articolata al viene così scomposta in due sottocostituenti, i cui lemmi sono rispettivamente A e IL. La struttura è ricorsiva, in quanto l’elemento < struct > include al proprio interno altri elementi di tipo < struct > . Si noti che l’informazione relativa alla forma ortograﬁca, codiﬁcata attraverso l’elemento < orto > , è associata in questo caso all’elemento < struct > padre 3. Procediamo ora alla rappresentazione di strutture che vanno “oltre” il singolo token testuale. Consideriamo il caso di espressioni multilessicali continue (ad esempio il nome composto Maestro Ciliegia) la cui rappresentazione XML è riportata di seguito: [8.13]

< struct > < struct > < orto > Maestro < /orto > < /struct > < struct > < orto > Ciliegia < /orto > < /struct > < /struct >

2. Per fare ciò, ci siamo liberamente ispirati al metamodello strutturale per la rappresentazione dell’annotazione linguistica di corpora proposto nell’ambito dello standard ISO/TC 37/SC 4 (cfr. PAR. 8.6). 3. L’elemento < orto > è stato introdotto per sempliﬁcare l’illustrazione della rappresentazione XML. In realtà, in un approccio distribuito all’annotazione (cfr. PAR. 8.5) esso corrisponde a un elemento vuoto che punta alla porzione del dato testuale primario alla quale si applica l’annotazione.

229

TESTO E COMPUTER

In questo caso, la sequenza di token che compongono l’espressione multilessicale è annotata come un’unica struttura. La struttura in [8.13] è assimilabile a quella del token morfologicamente complesso in [8.12]: anche in questo caso abbiamo una struttura binaria, con la differenza che l’informazione relativa alla forma ortograﬁca (codiﬁcata da < orto > ) è associata agli elementi terminali della struttura gerarchica. Abbiamo visto che la tipologia di strutture da annotare può essere ben più complessa e includere strutture ricorsive con incassamenti multipli: ciò si veriﬁca, ad esempio, nell’annotazione sintattica a costituenti. La rappresentazione sintattica riportata in [8.5] può essere riformulata in termini di XML come segue: [8.14]

< struct > < cat > F < /cat > < struct > < cat > SN < /cat > < struct > < cat > SN < /cat > < orto > Maestro < /orto > < orto > Ciliegia < /orto > < /struct > < struct > < cat > SN < /cat > < orto > falegname < /orto > < /struct > < /struct > < struct > < cat > SV < /cat > < struct > < cat > V < /cat > < orto > trovò < /orto > < /struct > < struct > < cat > SN < /cat > < struct > < cat > SN < /cat > < orto > un < /orto > < orto > pezzo < /orto > < /struct > < struct > < cat > SP < /cat > < orto > di < /orto > < struct > < cat > SN < /cat > < orto > legno < /orto > < /struct > < /struct > < /struct > < /struct > < /struct >

230

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

L’elemento < struct > radice racchiude la descrizione sintattica della frase e contiene al suo interno altri elementi di tipo < struct > a loro volta costituiti da elementi di tipo < struct > e così via ﬁno ad arrivare ai nodi terminali, corredati dell’informazione relativa al dato testuale primario (codiﬁcata da < orto > ). Si può notare che un elemento < struct > di tipo SN può contenere al suo interno altri elementi < struct > dello stesso tipo (deﬁnendo così strutture linguistiche ricorsive). Per la rappresentazione dell’informazione categoriale, qui codiﬁcata mediante l’elemento < cat > , si rinvia al PAR. 8.4.1. 8.4.3. Rappresentazione

XML

di informazione relazionale

La rappresentazione XML di informazione relazionale presuppone che a ogni elemento della struttura XML sia associato un identiﬁcatore univoco, ovvero un attributo XML di tipo ID (cfr. PAR. 3.3.2). La rappresentazione della relazione consisterà dunque nello stabilire un collegamento tra diverse unità linguistiche (ad esempio token, parole morfologiche, costituenti, unità semantiche) attraverso i loro identiﬁcatori. Supponiamo di voler codiﬁcare in XML una rappresentazione a dipendenze “pura” dove le relazioni sono stabilite tra parole. In particolare, vogliamo rappresentare le dipendenze sintattiche relative alla testa verbale TROVARE nel frammento di frase Maestro Ciliegia, falegname, trovò un pezzo di legno. Da un punto di vista logico, la descrizione di relazioni di dipendenza si articola in due blocchi: uno che descrive i partecipanti alla relazione [8.15] e l’altro che rappresenta la relazione stessa [8.16]. [8.15] < pm id = ”pm_1” > < orto > Maestro < /orto > < orto > Ciliegia < /orto > < /pm > < pm id = ”pm_2” > < orto > falegname < /orto > < /pm > < pm id = ”pm_3” > < orto > trovò < /orto > < /pm > < pm id = ”pm_4” > < orto > un < /orto > < /pm > < pm id = ”pm_5” > < orto > pezzo < /orto > < /pm > ...

[8.16] < rel tipo = ”sogg” testa = ”pm_3” dipendente = ”pm_1”/ > < rel tipo = ”ogg_diretto” testa = ”pm_3” dipendente = ”pm_5”/ >

231

TESTO E COMPUTER

La relazione è rappresentata mediante un elemento vuoto di tipo < rel > ed è descritta da una serie di tratti che, oltre a speciﬁcarne il tipo (soggetto o oggetto diretto), identiﬁcano la testa e il dipendente della relazione attraverso attributi di tipo IDREF (cfr. PAR. 3.3.2), che rappresentano gli identiﬁcatori univoci degli elementi a cui si fa riferimento 4. Quello appena illustrato non è l’unico modo per rappresentare informazione relazionale. Una possibile alternativa è riportata in [8.17]: [8.17] < pm id = ”pm_1” deprel = ”sogg” testa = ”pm_3” > < orto > Maestro Ciliegia < /orto > < /pm > < pm id = ”pm_3” > < orto > trovò < /orto > < /pm > < pm id = ”pm_5” deprel = ”ogg_diretto” testa = ”pm_3” > < orto > pezzo < /orto > < /pm >

dove la relazione di dipendenza viene rappresentata come un insieme di attributi associato alla descrizione del dipendente 5: gli attributi coinvolti sono deprel, che speciﬁca il tipo di relazione, e testa che identiﬁca la testa della relazione. La stessa tipologia di rappresentazioni XML illustrata sopra può essere adottata per la codiﬁca, ad esempio, di espressioni multilessicali discontinue come nel caso di andare veramente a genio. Esempliﬁchiamo di seguito uno dei possibili modi di rappresentarle, basato sulla creazione di un’unità semantica corrispondente all’espressione multilessicale: [8.18]

< pm < pm < pm < pm

[8.19]

< us pos = ”verbo” parti = ”pm_1 pm_3 pm_4”/ >

id = ”pm_1” > < orto > andare < /orto > < /pm > id = ”pm_2” > < orto > veramente < /orto > < /pm > id = ”pm_3” > < orto > a < /orto > < /pm > id = ”pm_4” > < orto > genio < /orto > < /pm >

4. L’indice numerico facente parte dell’identiﬁcatore univoco dei partecipanti alla relazione (ad esempio 5 in pm_5) si riferisce alla posizione della parola nella sequenza delle parole morfologiche della frase (la forma verbale trovò è la quinta parola morfologica della frase). 5. Il motivo per cui è preferibile codiﬁcare l’informazione sulla relazione grammaticale tra gli attributi del dipendente risiede nel fatto che, mentre una stessa testa può avere più dipendenti, un dipendente (a parte casi particolari, come costruzioni ellittiche o costruzioni “a controllo” e “a sollevamento”) si correla solitamente ad una sola testa.

232

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

In [8.19], l’elemento < us > (che sta per unità semantica) descrive l’espressione multilessicale, alla quale è stata associata la categoria grammaticale di verbo e che, attraverso l’attributo parti di tipo IDREFS, punta alle sue parole costitutive. Nelle esempliﬁcazioni proposte ﬁn qui le unità linguistiche di base sono rappresentate da parole. In realtà, può essere necessario anche stabilire relazioni tra strutture più complesse, ad esempio tra costituenti sintattici. Abbiamo riportato di seguito una versione abbreviata della rappresentazione a costituenti discussa nel PAR. 8.4.2, dove viene rappresentata l’informazione relativa al soggetto in termini relazionali: [8.20]

< struct id = ”s_1” > < cat > F < /cat > < struct id = ”s_2” > < cat > SN < /cat > Maestro Ciliegia < rel tipo = ”sogg” testa = ”s_5”/ > [...] < /struct > < struct id = ”s_5” > < cat > SV < /cat > trovò un pezzo di legno [...] < /struct > < /struct >

che viene codiﬁcata attraverso un elemento vuoto di tipo < rel > (associato al costituente dipendente) all’interno del quale viene speciﬁcato il tipo di relazione (attributo tipo) e la testa (attributo testa). 8.5 Annotazione stand-off Il modo più semplice di immaginare l’annotazione linguistica di un testo è come una “griglia” di etichette metatestuali intercalate al dato testuale primario. In realtà, non c’è nessuna ragione forte che motivi la coesistenza ﬁsica del dato testuale primario e dell’annotazione nello stesso ﬁle. Anzi, ci sono ottime ragioni per sostenere il contrario: cioè che i dati e le loro annotazioni siano mantenuti il più possibile indipendenti. In quanto segue, affronteremo brevemente l’argomento di come l’annotazione linguistica possa rapportarsi al dato testuale primario e di come diversi livelli di annotazione possano essere correlati tra di loro. 233

TESTO E COMPUTER

Nel momento in cui ci predisponiamo ad annotare un testo, è bene tener presenti i seguenti aspetti: – lo stesso testo può essere annotato a diversi livelli di descrizione linguistica; – per uno stesso livello di annotazione, più annotazioni alternative (ad esempio, diverse versioni di annotazione morfo-sintattica realizzate sulla base di diverse speciﬁche e ﬁnalizzate a scopi diversi) possono coesistere, così come devono poter convivere versioni diverse dello stesso tipo di annotazione; – nello stesso testo devono potersi integrare diverse prospettive di analisi, offerte da diversi livelli di annotazione: ad esempio, un’annotazione di tipo sintattico con un’annotazione semantica. Tutti questi aspetti trovano una loro naturale collocazione all’interno della cosiddetta annotazione stand-off o annotazione distribuita (Leech, 1993; Thompson, McKelvie, 1997). In essa, il dato testuale primario è ﬁsicamente separato dall’annotazione, così come ogni livello di annotazione è separato da eventuali altri livelli di annotazione o versioni alternative dello stesso livello. Ciò coincide con le indicazioni fornite da XCES (cfr. PAR. 3.6.2) per l’annotazione linguistica. L’annotazione è associata al dato testuale primario mediante collegamenti ipertestuali; possono essere stabiliti collegamenti ipertestuali anche tra i diversi livelli di annotazione. In questo modo, l’annotazione viene virtualmente aggiunta al dato testuale primario: se da un lato il dato testuale primario rimane integro e leggibile, dall’altro la rete di rimandi e relazioni che collega il dato testuale primario e la sua annotazione distribuita su uno o più livelli può essere vista come un unico testo (o meglio “ipertesto”), che contiene il dato di partenza e l’informazione interpretativa a esso associata. Questo approccio distribuito all’annotazione linguistica presenta numerosi vantaggi: – il dato testuale primario si mantiene leggibile, scevro da appesantimenti legati alla presenza di molteplici livelli di annotazione, ed è dunque sempre disponibile nella sua versione originale; – il dato testuale primario rimane stabile e permanente, e non viene modiﬁcato in alcun modo dal processo di annotazione; – si rendono possibili annotazioni su diversi livelli che strutturano gli stessi dati secondo gerarchie “disallineate” o “incompatibili”, gerarchie cioè non propriamente contenute l’una nell’altra, e che non sono, come tali, riconducibili a un unico livello di organizzazione dei dati (cfr. Scheda on line 8.1); – si creano i presupposti per ricerche linguistiche basate sull’intera234

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

zione di più livelli di annotazione (ad esempio sull’interfaccia tra sintassi e semantica); – sul versante pratico, si rende possibile lo sviluppo di annotazioni parallele e distribuite nello spazio e nel tempo in relazione allo stesso testo. Grazie all’uso dell’annotazione stand-off, il testo e la sua annotazione si presentano come un ipertesto organizzato in una serie di moduli: il modulo base, che includerà il dato testuale primario con la sua marcatura e un modulo extra indipendente, corredato della relativa DTD, per ogni ulteriore livello di annotazione linguistica. Ogni modulo extra conterrà le informazioni relative all’annotazione vera e propria, più i dispositivi di puntamento necessari per “ancorare” l’annotazione alla porzione di testo rilevante 6. 8.6 Standard e annotazione linguistica La comunità scientiﬁca e quella industriale nella LC hanno a disposizione sistemi di codiﬁca standard per la rappresentazione del dato testuale, che vanno dalla rappresentazione degli insiemi di caratteri per una miriade di lingue diverse, a linguaggi di marcatura come TEI e XCES per la descrizione e strutturazione del testo (cfr. PAR. 3.6). Le stesse motivazioni che hanno promosso queste iniziative di standardizzazione si ripropongono, mutatis mutandis, anche in riferimento all’annotazione linguistica, visto il considerevole dispendio di energie umane e ﬁnanziarie che tipicamente accompagna la creazione di corpora annotati. La LC e la linguistica dei corpora hanno infatti individuato tre ordini di esigenze cui ogni schema di annotazione dovrebbe idealmente ispirarsi: – la compatibilità con diverse teorie linguistiche di riferimento; – l’usabilità del testo annotato per scopi diversi sia di tipo applicativo sia di ricerca; – la riproducibilità, ovvero la minimizzazione dei margini di arbitrarietà nelle scelte di codiﬁca. Allo scopo di sviluppare schemi di annotazione che aderissero quanto più possibile a questi desiderata, nella LC e in particolare nell’ingegneria del linguaggio sono state promosse numerose iniziative internazionali, ﬁnalizzate a formulare raccomandazioni per una rap6. Il collegamento ipertestuale tra l’annotazione e il dato linguistico primario è realizzato ricorrendo a XML Pointer language (XPointer), un linguaggio che fornisce una sintassi per localizzare punti o porzioni di un documento XML.

235

TESTO E COMPUTER

presentazione standard dell’informazione linguistica nel testo. Tra queste vale la pena menzionare il progetto EAGLES (cfr. PAR. 3.6.1), ﬁnanziato dall’Unione europea per deﬁnire standard in diverse aree dell’ingegneria del linguaggio, tra cui anche l’annotazione linguistica di corpora testuali nelle lingue della Comunità europea. A oggi, le proposte di standardizzazione dell’annotazione linguistica del testo si sono concentrate sull’annotazione morfo-sintattica e su quella sintattica (Leech, Wilson, 1996; Leech et al., 1996). La varietà dei formati con i quali l’annotazione è rappresentata ostacola fortemente l’interscambio e il riuso di corpora testuali annotati. Per tale motivo, a ﬁanco di attività come quella di EAGLES, particolarmente rivolte alla deﬁnizione di uno standard a livello dei contenuti linguistici, sono recentemente nate iniziative di standardizzazione dell’annotazione linguistica incentrate piuttosto sul versante dei meccanismi e del formato di rappresentazione dell’annotazione. Lo standard XCES (cfr. PAR. 3.6.2) per l’annotazione linguistica costituisce il primo passo in questa direzione, oggi proseguito nell’ambito dell’International Standards Organisation (ISO) (ISO/TC 37/SC 4 Language Resource Management, Ide, Romary, 2002, 2003). L’obiettivo è la deﬁnizione di un’infrastruttura generale per la creazione e rappresentazione di corpora testuali annotati (in particolare a livello morfo-sintattico e sintattico), basata su un modello astratto di annotazione indipendente dalla teoria di riferimento e dal repertorio di categorie linguistiche selezionate. Alla base di questo approccio risiede la consapevolezza che la standardizzazione a livello del repertorio di nozioni o categorie linguistiche è un obiettivo estremamente arduo da raggiungere, e forse reso di fatto “chimerico” dalla natura stessa dell’informazione linguistica. Le differenze talvolta profonde che oppongono approcci teorici diversi a uno stesso livello di analisi linguistica, il fatto che per molti tipi di analisi linguistiche non si sia ancora raggiunto un grado di consenso unanime nella comunità di ricerca, e i tratti peculiari e talvolta idiosincratici delle varie lingue rendono estremamente difﬁcile ciascuna impresa di standardizzazione dell’annotazione linguistica intesa come serie di raccomandazioni prescrittive per la rappresentazione di un certo nucleo di nozioni o categorie linguistiche. Questa è forse la differenza qualitativa sostanziale che caratterizza l’annotazione linguistica rispetto ad altri ambiti della codiﬁca di alto livello, come quelli della struttura testuale, intorno ai quali, come si è visto, è stato possibile far coagulare un elevato grado di consenso nella comunità scientiﬁca. Una strada alternativa è quella di immaginare la standardizzazione 236

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

dell’annotazione come la condivisione di una struttura comune “leggera”, che permetta di personalizzare le rappresentazioni secondo i tratti e le categorie linguistiche richieste, garantendo al contempo l’interscambiabilità dei dati e delle informazioni. Seguendo questo tipo di ﬁlosoﬁa, XCES propone uno standard per l’annotazione basato sulla combinazione di un metamodello strutturale (o structural meta-model) con un insieme di categorie di dati (o data categories). Il metamodello è una struttura astratta condivisa da tutti i testi annotati con informazione dello stesso tipo (ad esempio annotazione sintattica a costituenti); i singoli testi possono invece differire per il tipo di categorie di dati associate ai vari componenti del metamodello. Un esempio di metamodello è quello che abbiamo visto nel PAR. 8.4.2 per l’annotazione a costituenti. L’elemento < struct > è in grado di rappresentare lo “scheletro” comune a diversi tipi di testi annotati a costituenti; le categorie di dati in questo caso sono costituiti dai diversi tipi di sintagmi o dai diversi tipi di tratti con cui sono descritti. Il metamodello fornisce una struttura comune condivisibile da più tipi di annotazioni, mentre le categorie di dati, che forniscono la “semantica” dell’annotazione, rimangono di stretta pertinenza di chi progetta un particolare corpus annotato; la compatibilità tra corpora annotati con i diversi formati è garantita dall’esistenza di un repertorio di categorie di dati (o data category registry) all’interno del quale le categorie e i tratti necessari per un particolare tipo di annotazione sono deﬁniti. Questo approccio alla standardizzazione, se da un lato permette variazioni al livello dei contenuti dello schema di annotazione, crea al contempo le basi per il confronto, la valutazione, e l’integrazione di annotazioni diverse; sul versante pratico, questo crea i presupposti per lo sviluppo di strumenti software comuni per la creazione e l’uso di dati linguistici annotati. 8.7 Per concludere L’annotazione linguistica del testo svolge molteplici funzioni in LC. È un banco di prova dei presupposti teorici di uno schema di annotazione, della loro coerenza e applicabilità; una sonda nella complessità del tessuto linguistico del testo, per l’acquisizione di nuova evidenza d’uso; uno strumento per veriﬁcare l’adeguatezza degli schemi di rappresentazione e dei tipi di informazione di cui un livello di descrizione linguistica si avvale; inﬁne, una maniera efﬁcace per mettere a disposizione di altri la propria comprensione di un fenomeno. Di fatto, l’annotazione è diventata il modo per tenere traccia delle nostre co237

TESTO E COMPUTER

noscenze linguistiche e per farle entrare in contatto con altre conoscenze, in un processo di scambio e integrazione che è alla base di ulteriori passi avanti e di ulteriori generalizzazioni. Nel ciclo vitale di informazioni e conoscenze, il computer sembra svolgere un ruolo sempre più importante, nella misura in cui è in grado di potenziare enormemente le nostre capacità di creare, gestire, controllare e condividere quantità sempre più grandi di dati annotati. Possiamo oggi affermare che, senza il computer, questo ciclo vitale si spezzerebbe. È possibile, tuttavia, guardare al computer non solo come a uno strumento insostituibile per il progresso delle nostre conoscenze, ma anche come il destinatario delle stesse. Nel CAP. 6 abbiamo osservato che è possibile migliorare un modello linguistico stocastico addestrandolo anziché sulle sequenze di parole del testo sulle sequenze delle loro categorie grammaticali. Nel CAP. 7 il ricorso a bigrammi astratti, che inglobano conoscenza strutturale della lingua, ha consentito al computer di individuare con estrema precisione un buon numero di collocazioni complesse. Lo strumento che ci ha aiutato nello sviluppo di informazioni sempre più strutturate ed elaborate si può dunque avvalere di queste ultime per migliorare le sue prestazioni. È a questo nuovo modo di guardare al rapporto tra computer, testo e conoscenza linguistica che rivolgeremo la nostra attenzione nel prossimo capitolo. Per saperne di più ABEILLÉ A.

(ed.) (2003), Treebanks. Building and Using Parsed Corpora, Kluwer Academic Publishers, Dordrecht. CALZOLARI N., BAKER M., KRUYT J. G. (eds.) (1995), Towards a Network of European Reference Corpora, Giardini Editore, Pisa. GARSIDE R., LEECH G., MCENERY A. (eds.) (1997), Corpus Annotation: Linguistic Information from Computer Text Corpora, Longman, London. nd MCENERY T., WILSON A. (2001), Corpus Linguistics, 2 ed., Edinburgh University Press, Edinburgh, cap. 2.

Siti web Language Data Consortium – LDC – http://www.ldc.upenn.edu/ European Language Resources Association – ELRA – http://www.elra.info International Computer Archive of Modern and Medieval English – ICAME – http://helmer.aksis.vib.no/icame.html British National Corpus – BNC – http://www.natcorp.ox.ac.uk/ Corpus La Repubblica – http://sslmit.unibo.it/repubblica/ Parole – http://www.ilc.cnr.it/parole/parole.html Bank of English – http://www.collinswordbanks.co.uk/

238

8.

L ’ ANNOTAZIONE LINGUISTICA DEL TESTO

Turin University Treebank (TUT) – http://www.di.unito.it/ ~ tutreeb/ The Penn Treebank Project – http://www.cis.upenn.edu/~ treebank/home.html Treebank sintattico-semantica dell’italiano – TRESSI – http://si-tal.ilc.cnr.it/ TreeBankIndex.htm NEGRA Corpus – http://www.coli.uni-sb.de/sfb378/negra-corpus/. UAM Spanish Treebank – http://www.lllf.uam.es/~ sandoval/UAMTreebank.html The Prague Dependency Treebank –http://quest.ms.mff.cuni.cz/pdt/index.html The SemCor Corpus – http://www.cs.unt.edu/ ~ rada/downloads.html#semcor WordNet – http://wordnet.princeton.edu/ ItalWordNet – http://si-tal.ilc.cnr.it/IWNindex.htm MultiSemCor – http://multisemcor.itc.it/index.php Framenet Website – http://www.icsi.berkeley.edu/ ~ framenet/ Dialoghi Annotati di SI-TAL – http://si-tal.ilc.cnr.it/DialoghiIndex.htm Expert Advisory Group on Language Engineering Standards – EAGLES – http:// www.ilc.cnr.it/EAGLES96/home.html International Standards Organisation – Language Resources Management, http://www.tc37sc4.org/index.php

239

9 Verso il trattamento automatico della lingua

9.1 Insegnare la lingua al computer Che il testo sia innanzitutto struttura è stato uno dei motivi guida dei capitoli precedenti. Gran parte di questa struttura si deve al linguaggio e ai principi della sua organizzazione. Le parole presentano al loro interno strutture ricorrenti di costituenti più piccoli, chiamati solitamente morfemi. A loro volta le parole sono inserite in sistemi di relazioni di ordine lineare, di incassamento gerarchico tra sintagmi e di dipendenze a lungo raggio che nel loro insieme vengono a comporre la struttura sintattica delle frasi. Queste ultime si articolano inﬁne in complesse strutture retoriche che formano la tessitura del discorso. La struttura linguistica è la porta di accesso al contenuto del testo, ma essa rimane implicita, come nascosta al suo interno: ad esempio, una parola ortograﬁca non porta evidenziati i conﬁni di morfema; analogamente, una frase non conserva traccia esplicita dell’inizio e della ﬁne dei suoi costituenti sintattici. Come aprire al computer questa porta? Nel corso di questo libro abbiamo utilizzato il computer prevalentemente per attingere dal testo digitale, in quanto fonte primaria di dati linguistici naturali, le informazioni necessarie ad arricchire la nostra conoscenza riguardo ai principi di organizzazione del linguaggio. Metodi e strumenti come le espressioni regolari, le liste di frequenza lessicale, i modelli linguistici stocastici, gli indici di associazione lessicale e le concordanze si sono rivelati efﬁcaci sonde esplorative nel tessuto connettivo del testo. Grazie al loro aiuto è possibile oggi estrarre, da esempi di uso reale della lingua, generalizzazioni interessanti riguardo al modo in cui le parole possono essere identiﬁcate nel ﬂusso testuale, o si co-selezionano in strutture complesse ed espressioni lessicalmente coese, o si riordinano per frequenza in funzione dell’argomento o dell’andamento narrativo del testo e così via. Il lin241

TESTO E COMPUTER

guista può, a sua volta, far tesoro di queste informazioni per riordinarle, classiﬁcarle e utilizzarle come generalizzazioni, in vista dello sviluppo di nuovi e più accurati modelli esplicativi della lingua. All’interno di questo processo di estrazione e classiﬁcazione di dati linguistici con l’aiuto del calcolatore, l’annotazione linguistica del testo svolge un ruolo di primaria importanza. È attraverso l’annotazione, infatti, che il linguista può riproiettare sul testo le generalizzazioni ottenute nella prima fase, ancorandole esplicitamente a concreti esempi d’uso e rendendole accessibili al computer. In questo modo, viene a chiudersi un ciclo virtuoso di analisi: il testo digitale, una volta annotato, diventa una miniera di informazioni linguistiche a cielo aperto, che possono essere oggetto, a loro volta, di ulteriori esplorazioni da parte del computer e contribuire inﬁne a nuove generalizzazioni. È arrivato il momento di osservare, tuttavia, che nonostante il suo impatto metodologico innovativo sulla ricerca linguistica, il ciclo dati > informazione > annotazione non cambia, come tale, il rapporto tra testo e computer. Quest’ultimo, infatti, accede ai tratti linguistici del testo secondo le modalità standard di ricerca di stringhe di caratteri, con la sola differenza che nel testo annotato l’oggetto della ricerca sono proprio le etichette (ad esempio in XML) che codiﬁcano i tratti. Inoltre, un testo annotato da un esperto umano richiede generalmente un notevole dispendio di tempo ed energie, può presentare problemi di incoerenza dell’annotazione (specialmente quando più annotatori lavorano sullo stesso testo) e a volte non è accompagnato da una documentazione esplicita dei criteri di annotazione. Esiste una seconda possibile strada da percorrere, più innovativa della prima, che di fatto imposta in maniera totalmente diversa il rapporto tra testo e computer. In una sorta di “rivoluzione copernicana” dell’elaborazione dell’informazione testuale, invece di arricchire il testo per avvicinarlo al computer, questa seconda strategia cerca di arricchire il computer con le conoscenze linguistiche necessarie per accedere al testo comprendendone la struttura e il contenuto. In altre parole, il calcolatore può simulare il comportamento di un lettore umano, approssimando il bagaglio di conoscenze linguistiche alla base di questo comportamento. Sia per gli umani che per i computer la comprensione di un testo può essere vista come un processo di astrazione attraverso il quale vengono identiﬁcati livelli successivi di strutture che rappresentano informazione. Ciascuno di questi livelli di analisi ci fornisce una chiave di accesso al contenuto del testo, un modo di rappresentarlo e di comprenderlo che è progressivamente più astratto 242

9.

VERSO IL TRATTAMENTO AUTOMATICO DELLA LINGUA

della mera sequenza di parole. Vediamo ora un piccolo esempio di come questo possa avvenire. 9.2 Un esempio: la morfologia Immaginiamo di voler cercare in un testo tutte le forme ﬂesse riconducibili all’esponente lessicale AMARE. Il computer può svolgere questo compito per noi in molti modi diversi. Un’idea semplice ed efﬁcace è quella di consultare una lista, ordinata alfabeticamente, di tutte le forme ﬂesse di una lingua, detta formario. In un formario, ciascuna forma ﬂessa è accompagnata da una serie di informazioni linguistiche, tra le quali l’indicazione dell’esponente lessicale (o lemma, cfr. TAB. 9.1). Per ogni parola unità del testo, sarà sufﬁciente individuarne il tipo corrispondente nel formario di riferimento (o forma tipo) e registrare il relativo esponente lessicale. Quali sono i limiti di questo metodo? Innanzitutto, mettere insieme il formario completo di una lingua può essere, da un punto di vista pratico, un compito arduo e, almeno per lingue con un sistema ﬂessionale molto ricco, come ad esempio il turco e il ﬁnnico, addirittura proibitivo. È stato calcolato, ad esempio, che un verbo turco può essere ﬂesso in circa 40.000 forme diverse. Il problema di fondo posto dai formari risiede però nel loro carattere statico. Un computer che ha a disposizione soltanto un formario non è in grado di estendere in modo autonomo le proprie conoscenze lessicali. Il suo comportamento linguistico è chiuso. Supponiamo, ad esempio, che il computer debba individuare tutte le forme del verbo FAXARE e che questo verbo non sia presente nel formario. La sola via di uscita è aggiornare il formario, aggiungendo tutte le forme mancanti. Questo richiede tuttavia un intervento esterno che deve essere ripetuto per ogni nuova parola, dal momento che il computer non dispone di informazioni esplicite su quali siano le regole della ﬂessione di un verbo in generale. Non solo: se pensiamo alla distribuzione delle parole nella curva TABELLA 9.1 Un frammento di formario LEMMA

Forma tipo

AVERE

abbia abbiano abbiate aggiunga aggiungano

AVERE AVERE AGGIUNGERE AGGIUNGERE

243

TESTO E COMPUTER

di Zipf (cfr. PAR. 5.5), l’aggiornamento di un repertorio di forme è un compito ripetitivo e letteralmente senza ﬁne, poiché il lessico di una lingua, infatti, è un insieme aperto e produttivo. Una soluzione relativamente semplice per evitare la trappola del numero chiuso di forme è fornita da un tipo di procedura automatica detta stemmer. Nella sua versione classica (Porter, 1980), lo stemmer (dall’inglese stem, letteralmente “tema lessicale”) è un programma che rimuove le terminazioni delle parole con l’obiettivo di ricondurre queste ultime alla loro radice, vale a dire alla porzione di forma condivisa da un’intera famiglia di parole derivate o ﬂesse. Ad esempio, le forme industria, industriosi, industriale, industrializzeremo e industrializzazione possono essere tutte ricondotte alla comune radice industri-. Per ottenere questo risultato, lo stemmer ha a disposizione solo due tipi di informazioni morfologiche: i. le terminazioni di una lingua (sufﬁssi derivazionali e ﬂessionali), e ii. l’ordine nel quale le terminazioni si possono disporre all’interno di una parola. Nel caso di industrializzazione, ad esempio, la regola che separa -zione dal resto della parola deve applicarsi prima di quella che separa -izzare, che a sua volta precede la regola per il sufﬁsso -ale. La forza dello stemmer risiede nella sua semplicità e generalità, entrambe garantite da una lista chiusa di afﬁssi che consentono al programma un comportamento linguistico autonomo e aperto. Se -ato appartiene alla lista dei sufﬁssi conosciuta dal programma, quest’ultimo riconoscerà che fax- è la radice di faxato, esattamente come amlo è di amato, indipendentemente dal fatto che FAXARE sia un neologismo. La semplicità dell’algoritmo costituisce però anche il suo punto di maggior debolezza. Lo stemmer, infatti, non contiene nessuna lista delle radici legittime, e questo provoca due tipi di errori comuni: a) l’individuazione di una radice sbagliata e b) il mancato riconoscimento di una radice. Per illustrare il primo caso, si pensi agli innumerevoli esempi di falsa parentela tra parole solo apparentemente legate dalla stessa radice lessicale: universo e università, cane e canale, ridono e ridare, presentando e presentire ecc. Per accennare soltanto alla seconda fonte di errori, occorre ricordare che in molti casi i processi morfologici di ﬂessione e derivazione alterano la forma della radice alla quale si applicano. Queste alterazioni ﬁniscono col violare il principio di identità formale che consente a uno stemmer di riconoscere la stessa radice in due forme diverse, per cui diventa piuttosto complicato riconoscere la radice di ESPELLERE in espulsione, quella di SCEGLIERE in scelgo o quella di VENIRE in verrò. La situazione si complica ulteriormente quando i due problemi interagiscono tra loro, in quanto le radici alterate (dette anche alternanti) si combinano con al244

9.

VERSO IL TRATTAMENTO AUTOMATICO DELLA LINGUA

TABELLA 9.2 Rappresentazioni morfologiche astratte

Forma superﬁciale

RAPPRESENTAZIONE ASTRATTA

salgo vieni conobbi

SALIRE

+ V3 + 1S PRES IND + V3 + 2S PRES IND CONOSCERE + V2 + 1S PASS VENIRE

REM

cune terminazioni soltanto: si confrontino, ad esempio, vengono/*vienono o verrai/*venirai. Un modo per risolvere questi problemi è quello di dotare il computer di conoscenze riguardanti l’organizzazione del lessico morfologico, in cui le entrate lessicali sono ripartite in classi e sottoclassi, ciascuna delle quali è caratterizzata da un comportamento morfologico omogeneo al suo interno, ma diverso rispetto alle altre classi. Uno strumento software che integri questi tipi di conoscenza linguistica per produrre automaticamente l’analisi morfologica di una parola del testo è chiamato analizzatore morfologico. Tipicamente, un analizzatore morfologico ha a disposizione 4 tipi di informazione: i. un lessico di radici lessicali; ii. un lessico di afﬁssi (preﬁssi e sufﬁssi); iii. regole di combinazione tra radici e afﬁssi; iv. regole di normalizzazione che riconducono forme diverse della stessa radice (o dello stesso afﬁsso) a un unico esponente (ad esempio vien - > ven). Diversamente dallo stemmer, un analizzatore morfologico non si limita a segmentare una parola eliminando i suoi afﬁssi, ma assegna alla prima una rappresentazione strutturale astratta che associa alla radice una forma normalizzata e converte le terminazioni in tratti morfo-sintattici: ad esempio V2 per “verbo della seconda coniugazione”, o 1S per “prima persona singolare” (cfr. TAB. 9.2). Le differenze tra formari, stemmer e analizzatori morfologici riguardano dunque il modo in cui si realizza il passaggio dalle forme lessicali del testo a rappresentazioni astratte che ne mettono in luce proprietà morfologiche. In particolare, questi strumenti differiscono tra loro per a) il livello di astrazione delle rappresentazioni prodotte; b) il grado di generalità della conoscenza linguistica che incorporano (sistemi chiusi vs. sistemi aperti); c) la complessità del modello di morfologia che deﬁniscono. I vantaggi degli stemmer dipendono dal loro ricorrere solo a euristiche generali basate sugli afﬁssi di una lingua. L’analizzatore morfologico supera i limiti di questa strategia, incorporando un modello più articolato e più accurato di morfologia che tiene conto delle classi di ﬂessione e dei tratti morfo-sintattici convogliati dagli afﬁssi. L’aumento di accuratezza del modello è controbilanciato però dalla sua maggiore complessità, dovuta alla necessi245

TESTO E COMPUTER

tà di strutturare e codiﬁcare un repertorio morfologico di radici, afﬁssi e regole di combinazione. Questa dialettica tra accuratezza e complessità è un aspetto comune a molti settori di ricerca della LC. 9.3 Alcune conclusioni (in forma di introduzione) Dotare il computer di conoscenze morfologiche per analizzare la struttura delle parole è chiaramente solo il primo dei molti passi necessari per metterlo in grado di comprendere il contenuto di un testo. Basti solo pensare al fatto che molte forme lessicali sono ambigue dal punto di vista morfo-sintattico, come nel caso di era che può essere sia una forma dell’imperfetto del verbo ESSERE, sia un nome femminile singolare. Per far sì che un computer sia in grado di trovare in un testo tutte e sole le forme di ESSERE, non è sufﬁciente insegnargli la ﬂessione di questo verbo, ma bisogna anche insegnargli a riconoscere quando la stringa era è effettivamente usata come verbo. Per rendersi conto della diffusione delle ambiguità morfo-sintattiche in una lingua, è sufﬁciente osservare una semplice frase come C’era una volta un pezzo di legno, le cui ambiguità di questo tipo sono riassunte in TAB. 9.3. Un passo fondamentale per analizzare la struttura del testo è dunque assegnare a ciascuna parola la categoria grammaticale appropriata, che dipende a sua volta dal contesto linguistico in cui la parola appare. I programmi in grado di operare questo tipo di assegnazione sono detti part-of-speech tagger (o più semplicemente tagger) e si basano su un’analisi dei contesti sintattici tipici di ogni categoria grammaticale. Ad esempio, in una sequenza come il calcio l’ambiguità tra nome e verbo della forma calcio è risolta in favore del nome dalla presenza dell’articolo il. TABELLA 9.3 Ambiguità morfo-sintattiche nel testo

Parola unità

Categoria grammaticale

C’ era una volta un pezzo di legno

AVVERBIO / PRONOME VERBO / NOME ARTICOLO / PRONOME / NUMERALE NOME / VERBO-VOLTARE / VERBO-VOLGERE ARTICOLO / NUMERALE NOME PREPOSIZIONE NOME / VERBO

246

9.

VERSO IL TRATTAMENTO AUTOMATICO DELLA LINGUA

Il problema dell’ambiguità (ovvero di espressioni linguistiche compatibili con più interpretazioni) riguarda in effetti tutti i livelli di informazione linguistica, dalla fonologia alla pragmatica. Una componente fondamentale della competenza linguistica umana è proprio la capacità di scegliere, apparentemente senza sforzo, l’analisi adeguata in un dato contesto. A seconda del tipo di ambiguità, l’informazione contestuale necessaria per la sua disambiguazione può essere anche molto complessa. Se, ad esempio, per scegliere la categoria sintattica di una parola è in generale sufﬁciente osservare la categoria delle parole che la precedono o la seguono nel contesto locale, per risolvere casi di ambiguità sintattica o semantica è spesso necessario ricorrere a ricche strutture di informazione sul signiﬁcato delle parole o sul contesto extralinguistico. Dotare i computer di questo tipo di conoscenze e capacità è comunque una condizione chiave per garantire loro un’autentica capacità di accedere al contenuto testuale. Immaginiamo, ad esempio, di cercare notizie su Google riguardo a Giulio Cesare. Se proviamo a digitare queste due parole, il sistema ci restituisce pagine dedicate al condottiero romano, insieme però anche a siti di alberghi o scuole che si chiamano Giulio Cesare, a siti di persone o ditte che abitano o sono situate in una via o una piazza Giulio Cesare ecc. Il motivo è che il nome Giulio Cesare è ambiguo dal punto di vista semantico, in quanto con esso ci possiamo riferire a tipi diversi di entità (esseri umani, luoghi, istituzioni ecc.). Di nuovo, l’ambiguità semantica delle parole è un fenomeno estremamente diffuso nella lingua. Ciascuna delle parole in C’era una volta un pezzo di legno ha potenzialmente più di un signiﬁcato: ad esempio, nel Dizionario De Mauro Paravia il nome volta ha nel complesso 15 signiﬁcati principali, pezzo ha 9 sensi, legno altri 9, per non parlare dei signiﬁcati di essere o di! La preposizione di dal punto di vista semantico può esprimere una relazione di parte (ad esempio la ruota della macchina), provenienza (ad esempio lo studente di Pisa), materia (ad esempio la spada di legno), possesso (ad esempio la macchina di Paolo) ecc. Per avvicinarsi al contenuto del testo il computer deve dunque essere dotato di una rappresentazione del potenziale semantico delle parole, della capacità di selezionare il signiﬁcato appropriato in un dato contesto e della capacità di correlare i signiﬁcati delle parole nell’interpretazione di strutture linguistiche complesse. Ad esempio, comprendere una semplice frase come Maestro Ciliegia trovò un pezzo di legno, che piangeva e rideva come un bambino richiede di ricostruire le strutture e relazioni che coinvolgono le sue parole. Dopo aver identiﬁcato trovò come passato remoto del verbo trovare, riconoscere che questo verbo ha come complemento oggetto il sintagma nominale corrispondente 247

TESTO E COMPUTER

alla sequenza un pezzo di legno è una condizione essenziale per individuare cosa Maestro Ciliegia ha rinvenuto. Allo stesso modo, stabilire la corretta relazione di dipendenza che lega il pronome relativo che al suo antecedente permette di riconoscere che ciò che piangeva e rideva era proprio l’oggetto trovato. La LC ha spesso adottato come sua mascotte HAL 9000, il computer parlante del ﬁlm 2001: Odissea nello Spazio di Stanley Kubrick. HAL 9000 è la materializzazione del sogno (o forse dell’incubo) di costruire macchine capaci di comportamenti quasi umani da mettere al nostro servizio. La padronanza linguistica di HAL 9000 rappresenta una sorta di esempio limite della capacità del computer di comprendere e usare il linguaggio naturale. L’avvicinamento a tale limite sta impegnando la LC in un percorso lento e complesso, di fatto ben più lento di quanto i pionieri della disciplina potessero immaginare. Ci sono però due ordini di ragioni fondamentali che motivano il perseguimento di questo obiettivo. Una è di tipo pratico: dotare il computer di capacità sempre più avanzate di comprendere il contenuto dei testi apre la strada a prospettive applicative potenzialmente illimitate di grande impatto tecnologico, sociale, economico e culturale. Lo sviluppo di sistemi che possono comprendere e gestire in maniera intelligente informazione espressa nella nostra lingua è destinato a rivoluzionare il nostro rapporto con l’automazione. C’è però una seconda ragione, più di tipo teorico, ma non meno importante: non è possibile, infatti, immaginare un autentico progresso nelle capacità dei computer di comunicare nella nostra lingua, senza che ciò si accompagni a una maggiore conoscenza dei misteri che tuttora avvolgono il linguaggio umano e che riguardano la sua struttura, le sue dinamiche, i modi con cui viene appreso e si evolve, il suo rapporto con la capacità dell’uomo di conoscere il mondo e di agire in esso. I metodi e gli strumenti che abbiamo esaminato in questo libro non sono di per sé sufﬁcienti a raggiungere tali obiettivi più ambiziosi, ma rappresentano nondimeno lo strumentario di base per avviarsi su questa strada. Integrare tutte queste conoscenze all’interno di un modello computazionale soﬁsticato che sia in grado di gestire ed estendere aspetti non banali dell’uso linguistico rappresenta non solo una grande sﬁda tecnologica per i prossimi anni, ma un modo per affrontare i problemi di sempre in una prospettiva nuova e originale.

248

Bibliograﬁa

ABEILLÉ A.

(ed.) (2003), Treebanks. Building and Using Parsed Corpora, Kluwer Academic Publishers, Dordrecht. ANDOR J. (2004), The Master and its Performance. An Interview with Noam Chomsky, in “Intercultural Pragmatics”, n. 1 (1), pp. 93-111. ATKINS S., CLEAR J., OSTLER N. (1992), Corpus Design Criteria, in “Literary Linguistic Computing”, n. 7, pp. 1-16. BAAYEN R. H. (2001), Word Frequency Distributions, Kluwer Academic Publishers, Dordrecht. BIBER D. (1993), Using Register-Diversiﬁed Corpora for General Language Studies, in “Computational Linguistics”, n. 19 (2), pp. 219-41. ID. (1998), Corpus Linguistics. Investigating Language Structure and Use, Cambridge University Press, Cambridge. BROWN G., ANDERSON A., YULE G., SHILLCOCK R. (1984), Teaching Talk, Cambridge University Press, Cambridge. CHOMSKY N. (1965), Aspects of the Theory of Syntax, The MIT Press, Cambridge (MA) (trad. it. Aspetti della teoria della sintassi, a cura di A. Woolf De Benedetti, in N. Chomsky, Saggi linguistici, vol. II, Boringhieri, Torino 1970). CHURCH K. W., HANKS P. (1990), Word Association Norms, Mutual Information, and Lexicography, in “Computational Linguistics”, n. 16 (1), pp. 22-9. CIGNONI L. (a cura di) (2003), Computational Linguistics in Pisa – Linguistica Computazionale a Pisa, in “Linguistica Computazionale”, Special Issue, pp. XVI-XVII, IEPI, Pisa-Roma. DUNNING T. (1993), Accurate Methods for the Statistics of Surprise and Coincidence, in “Computational Linguistics”, n. 19 (1), pp. 61-74. HERDAN G. (1964), Quantitative Linguistics, Butterworths, London (trad. it. Linguistica quantitativa, a cura di G. Fanti, Il Mulino, Bologna 1971). IDE N., ROMARY L. (2002), Standards for Language Resources, in “Proceedings of the Third Language Resources and Evaluation Conference” (LREC), Las Palmas, Canary Islands, pp. 839-44. IDD. (2003), Encoding Syntactic Annotation, in Abeillé (2003) pp. 281-96. KARTTUNEN L., CHANOD J.-P., GREFENSTETTE G., SHILLER A. (1996) Regular Ex-

249

TESTO E COMPUTER

pressions for Language Engineering, in “Journal of Natural Language Engineering”, n. 2 (4), pp. 305-28. KILGARRIFF A. (2001), Comparing Corpora, in “Journal of Corpus Linguistics”, n. 6 (1), pp. 1-37. KILGARRIFF A., GREFENSTETTE G. (2003), Introduction to the Special Issue on the Web as Corpus, in “Computational Linguistics”, n. 23 (3), pp. 333-47. LAWRENCE S., LEE GILES C. (1999), Accessibility of Information on the Web, in “Nature”, n. 400, pp. 107-9. LEECH G. (1991), The State of the Art in Corpus Linguistics, in K. Aijmer, B. Altenberg (eds.), English Corpus Linguistics: Studies in Honour of Jan Svartvik, Longman, London, pp. 8-29. ID. (1993), Corpus Annotation Schemes, in “Literary and Linguistic Computing”, n. 8 (4), pp. 275-81. LEECH G., BARNETT R., KAHREL P. (1996), EAGLES Recommendations for the Syntactic Annotation of Corpora, http://www.ilc.cnr.it/EAGLES96/segsasg1/ segsasg1.html. LEECH G., WILSON A. (1996), EAGLES Recommendations for the Morphosyntactic Annotation of Corpora, http://www.ilc.cnr.it/EAGLES96/annotate/ annotate.html. MANNING C. D., SCHÜTZE H. (1999), Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge (MA). MARCUS M., KIM G., MARCINKIEWICZ M. A., MCINTYRE R., BIES R., FERGUSON A., KATZ M., SCHASBERGER K. (1994), The Penn Treebank: Annotating Predicate Argument Structure, in “Proceedings of the Human Language Technology Workshop”, March 1994, Morgan Kaufman Publishers Inc., San Francisco (CA). nd MCENERY T. E., WILSON A. (2001), Corpus Linguistics, 2 ed., Edinburgh University Press, Edinburgh. PORTER M. F. (1980), An Algorithm for Sufﬁx Stripping, in “Program”, n. 14 (3), pp. 130-7. ROLAND D., JURAFSKY D. (1998), How Verb Subcategorization Frequencies Are Affected by Corpus Choice, in Proceedings of COLING-ACL-98, pp. 1122-8. SINCLAIR J. (1991), Corpus, Concordance, Collocation, Oxford University Press, Oxford. THOMPSON H., MCKELVIE D. (1997), Hyperlink Semantics for Standoff Markup of Read-Only Documents, in Atti della Conferenza SGML Europe 97, Barcelona, http://www.ltg.ed.ac.uk/ ~ ht/sgmleu97.html. XU J. L. (2000), Multilingual Search on the World Wide Web, in “Proceedings of the Hawaii International Conference on System Science” (HICSS-33), Maui, Hawaii. ZIPF G. K. (1935), The Psycho-Biology of Language. An Introduction to Dynamic Philology, Houghton Mifﬂin, Boston. ID. (1949), Human Behavior and the Principle of the Least Effort. An Introduction to Human Ecology, Addison-Wesley, Cambridge (MA).

250