Storia e geografia dei geni umani 8845915883, 9788845915888

L'opera fondamentale per chi vuole cominciare a capire il rapporto fra il nostro patrimonio genetico e la storia de

247 27 32MB

Italian Pages 814 [855] Year 2000

Report DMCA / Copyright

DOWNLOAD PDF FILE

Recommend Papers

Storia e geografia dei geni umani
 8845915883, 9788845915888

  • Commentary
  • Versione migliorata
  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

gli Adelphi LUIGI LUCA CAVALLI-SFORZA PAOLO MENOZZI ALBERTO PIAZZA

Storia e geografia dei geni umani

\

gli Adelphi

I

L'opera fondamentale per chi vuole cominciare a capire il rapporto fra il nostro patrimonio genetico e la storia delle civiltà. «Questo è lo studio a tutt'oggi più completo delle variazioni genetiche umane, e getta le basi di ogni futura ricerca sull'antropologia genetica. Una straordinaria commistione di sintesi e analisi». «Science»

In copertina: M .C. Escher, Cavalieri, studio per la divisione del piano n. 67 (1946).

© 2000

C ORDON ART B .V. -BAARNHOLLAND . ALL RIGHTS RESERVED

L. 42.000

€ 21,69

ISBN 88-459-1588-3

li li lllllll

111111111111111 9 788845 915888

\

gli Adelphi 180

Luigi Luca Cavalli-Sforza è professore di Geneùca alla Stanford University, in California. Di lui Adelphi ha pubblicato Geni, popoli e lingue (1996). Paolo Menozzi è professore di Ecologia all'Università di Parma, Alberto Piazza di Geneùca umana all'Università di Torino.

LUIGI LUCA CAVALLI-SFORZA PAOLO MENOZZI ALBERTO PIAZZA

Storia e geografia dei geni umani

ADELPHI EDIZIONI

TITOLO ORIGINALE:

The History and Geowaphy of Human Genes

Traduzione di Rosaria Maria Griffo, Giuseppe Matullo, Sabina Rendine, Nazario Cappello

© 1994 PRINCETON UNIVERSITY PRESS Published by agreement with Princeton University Press All rights reserved. No part of this book may be reproduced or transmitted in any form or by any information storage and retrieval system, without permission in writing from the Publisher

© 1997 ADELPHI

EDIZIONI S.P.A. MILANO

I edizione gli Adelphi: novembre 2000 ISBN 88-459-158S-3

INDICE

Prefazione all'edizione italiana Ringraziamenti

1

INTRODUZIONE A CONCETTI, DATI E METODI

1.1 1.2 1.3 1.4 1.5 1.6 l. 7 1.8 1.9 1.1 O l. 11 1.12 1.12.a 1.12. b

Introduzione Definizioni genetiche Tecniche per identificare i marcatori polimorfici L'evoluzione delle frequenze geniche Tentativi classici di distinguere «razze» umane Fallimento scientifico del concetto di razza nell'uomo Identificazione delle unità di popolazione Classificazione linguistica Natura e fonti dei dati Metodi di analisi Distanze genetiche Analisi di alberi filogenetici Definizioni Metodi per ricostruire alberi filogenetici in base ai dati di frequenze geniche Il numero di alberi possibili La posizione della radice Sequenze di DNA, massima parsimonia e minima evoluzione Errore statistico nella costruzione degli alberi filogenetici La treeness e la scoperta delle deviazioni dal modello · più semplice di evoluzione Le ragioni delle scelte fatte

1.12.c 1.12.d 1.12.e 1.12.f 1.12.g 1.12.h

xv XXI

3 3 7 10 18 28 33 35 40 43 46 51 54 54 56 59 60 63 65 66 69

TITOLO ORIGINALE:

The History and Geography of Human Genes

Traduzione di Rosaria Maria Griffo, Giuseppe Matullo, Sabina Rendine, Nazario Cappello

© 1994 PRINCETON UNIVERSITY PRESS Published by agreement with Princeton University Press All rights reserved. No part of this book may be reproduced or transmitted in any form or by any information storage and retrieval system, without permission in writing from the Publisher © 1997 ADELPHI

EDIZIONI S.P.A. MILANO

I edizione gli Adelphi: novembre 2000 ISBN 88-459-158S-3

INDICE

Prefazione all'edizione italiana Ringraziamenti 1 I. 1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 I. IO I.Il I. 12 I. 12.a I. 12.b

INTRODUZIONE A CONCETTI, DATI E METODI

Introduzione Definizioni genetiche Tecniche per identificare i marcatori polimorfici L'evoluzione delle frequenze geniche Tentativi classici di distinguere «razze» umane Fallimento scientifico del concetto di razza nell'uomo Identificazione delle unità di popolazione Classificazione linguistica Natura e fonti dei dati Metodi di analisi Distanze genetiche Analisi di alberi filogenetici Definizioni Metodi per ricostruire alberi filogenetici in base ai dati di frequenze geniche I. 12.c Il numero di alberi possibili I. 12.d La posizione della radice 1.12.e Sequenze di DNA, massima parsimonia e minima evoluzione 1.12.f Errore statistico nella costruzione degli alberi filogenetici 1.12.g La treeness e la scoperta delle deviazioni dal modello · più semplice di evoluzione 1.12.h Le ragioni delle scelte fatte

xv XXI

3 3 7 1O 18 28 33 35 40 43 46 51 54 54 56 59 60 63 65 66 69

l.12.i 1.13 1.14 l.14.a 1.14.b

Conclusioni sull'utilità degli alberi filogenetici Analisi delle componenti principali (CP) e metodi derivati Mappe delle frequenze geniche Scelte da compiere Metodi per adattare le superfici geografiche a dati . di frequenze geniche l.14.c Il metodo adottato per calcolare le superfici delle frequenze geniche l.14.d Linee isogeniche (isoplete) l.14.e Le superfici delle frequenze geniche: implicazioni evolutive 1.15 Mappe geografiche sintetiche 1.16 Isolamento dovuto alla distanza geografica 1.17 Le mescolanze: come le si stima e quale effetto hanno sulla struttura ad albero

102

2

STORIA GENETICA DELLE POPOLAZIONI DEL MONDO

113

2.1 2.1.a 2.1.b 2.1.c 2.1.d 2.1.e 2.2 2.3

Quadro paleoantropologico Il genere HOJTW La specie Homo sapiens Sostituzione totale o sostituzione parziale? Inizio della produzione di cibo Dimensioni delle popolazioni: qualche numero I primi studi filogenetici quantitativi Analisi dei marcatori classici in quarantadue popolazioni selezionate Aspetti tecnici L'albero delle quarantadue popolazioni Analisi di nove raggruppamenti Analisi delle coordinate principali Differenze tra marcatori genetici Breve riassunto Analisi dei dati del DNA Caratterizzazione del DNA mitocondriale mediante l'analisi di restrizione Sequenziamento di mtDNA Il cromosoma Y Polimorfismi del DNA nei geni nucleari Confronto con i dati archeologici Confronto con classificazioni linguistiche

113

2.3.a 2.3.b 2.3.c 2.3.d 2.3.e 2.3.f 2.4 2.4.a 2.4.b 2.4.c 2.4.d 2.5 2.6

72 74 80 81 83 85 88 89 94 96

113 116

122 127 129 129 138 138 144 148 153 154 155 156 156 166 166 167 176 181

2.6.a Problemi delle classificazioni linguistiche 2.6.b Confronto tra albero genetico e albero linguistico 2.6.c Perché tra l'albero linguistico e quello genetico vi è una stretta somiglianza? 2.6.d Sostituzioni linguistiche 2.6.e Possibili tempi di origine delle famiglie linguistiche Importanza delle espansioni demografiche 2.7 nell'evoluzione umana 2.7.a Le espansioni potrebbero aver punteggiato la storia dell'uomo moderno 2.7.b Dalla raccolta del cibo alla sua.produzione 2.7.c Espansione demica o diffusione culturale? 2.7.d Il modello dell' « onda di avanzamento» 2.7.e Tipi di espansione 2.8 Misura della variabilità genetica mediante l'analisi del parametro Frr 2.8.a Alcune semplici proprietà del parametro Frr 2.8.b I valori di Frr dipendono dal livello di raggruppamento delle popolazioni La distribuzione teorica del parametro Frr e una sua 2.8.c applicazione ai polimorfismi del DNA 2.8.d Variazione del parametro Frr nei polimorfismi non DNA 2.8.e La media delle Frr di tutti i geni nel mondo e nelle regioni principali Possibili effetti della selezione naturale sulla costruzione 2.8.f degli alberi filogenetici 2.9 Variabilità genetica e distanza geografica 2.10 Mappe dei singoli geni 2.11 Mappe sintetiche del mondo 2.12 Omozigosità 2.13 Correlazioni con il clima 2.14 Aree e tempi di origine dei principali mutanti, con particolare attenzione alle emoglobine 2.15 Breve riassunto dell'evoluzione umana

181 186

3

AFRICA

293

3.1 3.2 3.2.a 3.2.b

Geografia e ambiente Preistoria e storia Il Paleolitico Il Neolitico nell'Africa settentrionale

293 295 295 298

191 193 195 199 199 200 204 205 208 213 213 214 216 222 225 229 230 237 250 258 264 270 286

3.2.c 3.2.d 3.2.e 3.2.f 3.2.g 3.3 3.3.a 3.3.b 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.ll 3.12

Sviluppo del Neolitico nel Sahara Sviluppo del Neolitico a sud del Sahara L'Età dei Metalli e l'espansione bantu I primi stati dell'Africa subsahariana e dell'Etiopia Dimensioni numeriche delle popolazioni Linguistica Classificazione generale Le lingue bantu Antropologia fisica degli africani moderni Analisi genetica del continente Gli Etiopi, alcuni dei loro vicini e i nordafricani 1 Khoisanidi I Pigmei Gli africani subsahariani Studio dei singoli geni Mappe sintetiche dell'Africa Riassunto della storia genetica dell'Africa

299 300 301 303 305 306 306 308 314 315 320 327 333 338 347 355 361

4

ASIA

367

4.1 4.2 4.3 4.3.a 4.3.b 4.4 4.4.a 4.4.b 4.4.c 4.4.d 4.5 4.5.a 4.5.b 4.5.c 4.5.d 4.5.e 4.6 4.6.a

Introduzione generale, geografia e ambiente Preistoria e storia dell'Asia settentrionale Preistoria e storia dell'Asia centrale e intermedia Il Neolitico nell'Asia centrale e nell'Iran settentrionale Il nomadismo pastorale nelle steppe dell'Asia Preistoria e storia dell'Asia orientale Giappone e Corea: archeologia e primordi della storia Cina: dal Paleolitico alla storia Dimensioni della popolazione in Cina Tibet Preistoria e storia dell'Asia sudorientale Paleoantropologia Fine del Paleolitico e inizio del Neolitico Tardo Neolitico ed Età del Bronzo Gli imperi delle foreste I gruppi tribali Preistoria e storia dell'Asia meridionale Il Neolitico e la civiltà indù 4.6.b India

367 370 373 373 374 379 379 382 386 387 387 387 388 390 390 391 391 392 395

4.6.c 4.6.d 4.7 4.7.a 4.7.b 4.7.c 4.7.d 4.7.e 4.7.f 4.7.g 4.8 4.9 4.10 4.11 4.12 4.13

397 398 402 402 405 407

4.15 4.16 4.17 4.18

Le caste I gruppi tribali Preistoria e storia dell'Asia occidentale L'origine dell'agricoltura nel Vicino Oriente L'irrigazione e lo sviluppo delle città L'Età del Bronzo nel Vicino Oriente L'Età del Ferro nel Levante Iran La penisola arabica Le espansioni arabe Linguisùca Antropologia fisica Quadro genetico generale dell'Asia Geneùca delle popolazioni artiche Genetica dell'Asia orientale e centrale Genetica dell'Asia sudorientale Geneùca dell'Asia meridionale (il subconùnente indiano) Genetica dell'Asia occidentale Mappe geografiche dei singoli geni Mappe sinteùche dell'Asia Riassunto della storia genetica dell'Asia

5

EUROPA

479

5.1 5.2 5.3 5.4 5.5 5.6 5.6.a 5.6.b 5.6.c 5.6.d 5.7 5.8 5.9 5.10 5.11

Geografia ed ecologia Preistoria e storia Linguistica Antropologia fisica Il quadro genetico Principali valori erraùci: Lapponi, Sardi, Baschi e Islandesi Lapponi e altre popolazioni di lingua uralica Sardegna Baschi Islanda

479 481 493 498 502 509 510 512 517 518 519 526 536 541 547

4.14

Italia

Francia Penisola iberica Mappe dei singoli geni Mappe sinteùche dell'Europa

408

410 411

413 414

419 423 426 431 439 447 453 458 464 472

5.12 5.13

Interazioni tra informazione genetica, archeologia e linguistica 557 Riassunto della storia genetica dell'Europa 564

6

AMERICA

569

6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14

Geografia e ambiente Preistoria: l'occupazione dell'America L'inizio dell'agricoltura Lo sviluppo nell'America settentrionale Lo sviluppo nell'America centrale Lo sviluppo nell'America meridionale Antropologia fisica Linguistica Analisi filogenetica dell'America Analisi.filogenetica delle singole tribù Genetica, linguistica e geografia Mappe geografiche dei singoli geni Mappe sintetiche dell'America Riassunto della storia genetica dell'America

569 572 580 585 589 591 596 598 603 614 621 625 633 641

7

AUSTRALIA, NUOVA GUINEA E ISOLE DEL PACIFICO

645

7.1 7.1.a 7.1.b 7.1.c 7.2 7.2.a

Geografia e ambiente Australia Nuova Guinea Isole del Pacifico Preistoria e storia L'allevamento di animali e la coltivazione di piante in Nuova Guinea 7.2.b L'occupazione del Pacifico Antropologia fisica 7.3 Linguistica 7.4 7.5 Struttura genetica delle popolazioni dell'Oceania 7.6 Genetica delle popolazioni del!' Australia e relative mappe sintetiche 7.7 Genetica delle popolazioni della Nuova Guinea e relative mappe sintetiche 7.8 Genetica delle popolazioni di Melanesia, Micronesia e Polinesia 7.9 Mappe dei singoli geni dell'Australia e della Nuova Guinea

645 645 646 647 648 650 651 654 656 659 663 669 679 687

7.10 7.11

Mappe dei singoli geni delle isole del Pacifico Riassunto della storia genetica del Pacifico

690 693

8

EPILOGO

8.1 8.2 8.3 8.4 8.5

L'approccio multidisciplinare Genetica e storia evolutiva dell'uomo Differenti metodi di analisi genetica a confronto Il futuro di questa ricerca Evoluzione genetica e linguistica

697 697 698 700 706 713

Aggiornamento per l'edizione italiana

717

Bibliografia

723

Indice analitico

765

Tavof.e e map-pe genetiche

793

1 INTRODUZIONE A CONCETTI, DATI E METODI

J.l

INTRODUZIONE

Da tempo ài genetisti era nota l'esistenza di una certa variabilità genetica tra gli individui appartenenti a una stessa specie, ma fino a circa venticinque anni fa l'entità di questa variazione non era stata valutata appieno. In molte popolazioni umane, caratteri evidenti quali il colore degli occhi e dei capelli variano da un individuo all'altro: sono differenze che anche i profani notano con facilità, come pure le variazioni di altezza, di peso, di costituzione corporea e dei tratti facciali, anch'esse in parte determinate geneticamente. La loro trasmissione ereditaria è tuttavia complessa, e questi caratteri contribuiscono ben poco a farci comprendere l'entità delle variazioni. Il primo esempio di variazione genetica ben caratterizzata, quella del gruppo sanguigno ABO, fu descritto agli inizi del secolo (Landsteiner, 1901). Le differenze tra individui, riguardanti variazioni del gruppo sanguigno ABO, sono dovuté a piccole differenze chimiche in molecole che si trovano sulla superficie dei globuli rossi. Questi studi furono presto estesi ad altri sistemi di gruppi sanguigni: si accumulò una gran quantità di dati che dimostravano come, in popolazioni umane diverse, i gruppi sanguigni fossero presenti in proporzioni diverse; tuttavia solo in seguito, a partire dagli anni Cinquanta ma soprattutto negli anni Sessanta, è stato possibile intravedere la sorprendente entità della variazione genetica, grazie allo studio sistematico delle differenze nelle proteine degli individui. Una proteina è una molecola complessa, costituita da una sequenza lineare di componenti chiamati amminoacidi; le varie proteine hanno composizione amminoacidica che cambia molto dall'una all'altra e assolvono funzioni assai diverse. Le relazioni tra struttura e funzione sono state descritte per molte proteine. Tra un individuo e un altro, la stessa proteina può presentare piccole differenze che si trasmettono per via ereditaria. Il primo esempio è stato osservato nella proteina emoglobina, nella quale si è visto ch_e la sostituzione di uno specifico amminoacido con un altro determina una malattia ereditaria conosciuta come anemia falciforme. Questo primo caso di « patologia molecolare» è stato

4

Storia e geografia dei geni umani

idenùficato sottoponendo la proteina a un campo elettrico con un metodo chiamato elettroforesi (Pauling e coli., 1949; Ingram, 1957). La sosùtuzione amminoacidica coinvolta nell'anemia falciforme provoca nella molecola emoglobinica un cambiamento di carica elettrica, che permette di separare l'emoglobina normale da quella falciforme. Ulteriori perfezionamenù della tecnica elettroforeùca hanno permesso di individuare un gran numero di varianù proteiche. Oggi si sa che la maggior parte delle decine di migliaia di proteine di un organismo può presentarsi sotto più di una forma, cosicché alcuni individui possono avere una variante della proteina, mentre altri possono averne un'altra. La variabilità delle proteine rappresenta solo la punta dell'iceberg. Le reali dimensioni della variabilità genetica tra gli individui hanno cominciato a emergere solo quando è stato possibile effettuare le analisi al livello dello stesso materiale ereditario, l'acido desossiribonucleico (DNA). Questa tecnica è divenuta accessibile a molù solo negli anni Ottanta; così, i confronù tra segmenù di DNA in individui diversi, per quanto ancora rari, stanno diventando sempre più comuni e bastano a convincerci che la variazione al livello del DNA è molto maggiore di quanto si sospettasse quando si potevano analizzare solo proteine e gruppi sanguigni. Le tecniche di analisi del DNA sono tuttora in corso di rapido sviluppo; in futuro, senza dubbio, si presterà sempre maggiore attenzione alla variabilità individuale al livello del DNA. Nel frattempo si va accumulando un'enorme quanùtà di informazioni sulla variabilità individuale studiata con tecniche immunologiche (come per i gruppi sanguigni) o con l'elettroforesi di proteine. Sapendo che esistono diversi ùpi geneùci di una specifica proteina, o di un altro carattere ereditario, è possibile contare gli individui portatori di un ùpo o dell'altro e così stabilire la proporzione di quella variante nella popolazione in esame. Queste proporzioni variano da una popolazione all'altra, in quanto in ciascuna popolazione mutano nel tempo in modo piuttosto imprevedibile. Il cambiamento delle proporzioni di queste varianù nel tempo è il processo evolutivo stesso, che avanza lentamente ma incessantemente, generazione dopo generazione. L'analisi di popolazioni che vivono oggi in luoghi diversi ci dà una visione sincronica di questo processo conùnuo, che è inevitabilmente diverso nelle varie parti della terra abitata. Comprendere questo meccanismo evoluùvo è il nostro interesse principale. Esso ci impone, come primo compito, quello di descrivere la variabilità esistente, uùlizzando diverse tecniche che permettano di valutare i modelli evoluùvi più importanù. Ci siamo limitaù a considerare le popolazioni aborigene, che definiamo come quelle già vivenù nell'area geografica studiata nel 1492 d.C. Dopo questa data, le scoperte geografiche stimolarono l'espansione e le migrazioni delle popolazioni economicamente più avanzate in tutto il pianeta. Già prima avevano avuto luogo alcuni movimenù, ma su scala assai più modesta. In genere, le popolazioni che migrarono dopo il 1492 si mescolarono solo parzialmente con quelle locali, ed è facile riconoscerle sulla base del loro aspetto fisico e di conoscenze storiche. Queste, e alcune altre popolazioni che sono molto isolate oppure hanno avuto

Introduzione a concetti, dati e metodi

5

una storia complessa (come Samaritani, Ebrei, Zingari e parecchie altre), richiedono studi speciali; in questo libro non vengono prese in considerazione. I Samaritani, come pure molte popolazioni ebraiche, sono stati oggetto di analisi da parte di Batsheva Bonné-Tamir (1980; Bonné-Tamir e coli., 1992). Agli Ebrei sono stati dedicati molti libri e articoli generali (per esempio Mourant, 1978; Cannelli e Cavalli-Sforza, 1979; Karlin e coli., 1979; Mortone coli., 1982; Livshits e coli., 1991). Un modo efficace per studiare le popolazioni viventi è analizzarne la distribuzione geografica dei dati. A questo scopo, consideriamo in primo luogo ciascun gene (un segmento di DNA dotato di una funzione specifica) singolarmente, e per ciascun gene analizziamo separatamente le diverse forme che si possono riconoscere: gli ali.e/i di quel gene. L'informazione grezza sulla quale si basa questo modo di analizzar~ i dati genetici è la proporzione di un dato allele in diverse popolazioni. E ben documentato che essa varia da luogo a luogo in modo considerevole; tuttavia la variazione maggiore si osserva a grandi distanze, mentre di solito è piccola la differenza tra popolazioni geograficamente contigue. Quando sia stato analizzato un numero sufficiente di popolazioni, si possono preparare mappe geografiche che rappresentino, per un particolare allele, queste proporzioni (chiamate anche frequenze ali.eliche, o semplicemente frequenze geniche). La procedura normalmente utilizzata consiste nel tracciare curve isogeniche, owero linee che uniscono i punti con frequenze geniche uguali. Le mappe geografiche di un solo allele sono utili per comprendere processi che riguardano in modo specifico quell'allele: ad esempio la sua storia evolutiva, o gli effetti diJattori evolutivi quali la mutazione e la selezione naturale. La distribuzione geografica di un particolare allele può fornire informazioni sul luogo di origine del cambiamento genetico ( mutazione) che lo ha generato. Le correlazioni a livello geografico tra distribuzioni di frequenze geniche e parametri ambientali sono state particolarmente utili nella scoperta di specifici adattamenti genetici. Il primo esempio di questo tipo è stato il gene responsabile dell'anemia falciforme, in quanto la sua distribuzione geografica ha mostrato una correlazione con quella della malaria (Haldane, 1949). In seguito, prove più dirette hanno confermato l'ipotesi che questo gene potesse conferire una resistenza alla malaria. Per molto tempo gli antropologi si sono sforzati di ricostruire la storia e le relazioni evolutive sulla base di un singolo carattere o gene. Uno dei preferiti, per più di cento anni, fu l'indice cefalico (il rapporto percentuale tra larghezza e lunghezza del cranio), introdotto poco prima della metà dell'Ottocento. Tuttavia, considerando un singolo carattere, due popolazioni di origini diverse potrebbero facilmente risultare più o meno identiche. Caratteri antropometrici di questo tipo presentano anche un altro inconveniente molto serio: non vi è alcuna garanzia che il carattere sia sotto completo controllo genetico, e le variazioni osservate potrebbero essere interpretate come «risposte» a breve termine a cambiamenti ambientali. Ciò è stato dimostrato da Boas (1940) già agli inizi del secolo, ma questa lezione è stata - ed è ancora - molto spesso dimenticata. Il vantaggio principale offerto da tali caratteri, e cioè la disponibilità di dati de-

6

Sto1ia e geografia dei geni umani

sunti da ossa fossili, è stato quindi ridimensionato dalla natura non chiara delle differenze osservate. Dopo la scoperta del primo sistema di gruppi sanguigni (ABO), le frequenze degli alleli A, B, e O divennero presto le più usate per classificare le popolazioni. Le informazioni così ottenute sono comunque inadeguate, anche se sono in buona misura esenti dalle limitazioni dovute a eventuali cambiamenti a breve termine provocati direttamente da effetti ambientali. Ciascuna frequenza genica varia nel tempo in modi che si possono ritenere, almeno in apparenza, pressoché casuali. Non meraviglia, quindi, che popolazioni con storie evolutive palesemente diverse possano mostrare frequenze geniche simili. Si può aggirare l'ostacolo cumulando le informazioni relative a più geni. Quando aumenta il numero di geni considerati simultaneamente, diventa sempre più bassa la probabilità che ambiguità di questo genere rimangano irrisolte. Nel 1963 è stato mostrato che è possibile tentare di ricostruire con successo l'evoluzione umana anche con solo venti alleli relativi a cinque polimorfismi genetici (CavalliSforza e Edwards, 1964). L'esperienza successiva ha dimostrato che sarebbe preferibile, o addirittura necessario, un numero maggiore di alleli. Per riassumere le informazioni relative a molti geni in indici statistici appropriati sono disponibili diversi metodi, di solito chiamati multiua1iati per distinguerli da quelli ( uniuariati) che impiegano caratteri o geni singoli. L'analisi multivariata è utile, in particolare, per capire le forze evolutive che tendono ad agire su tutti i geni in modo parallelo: la migrazione e la deriva genetica casuale (la fluttuazione casuale delle frequenze geniche nel tempo, che verrà descritta meglio più avanti). Questi e altri metodi vengono applicati ai dati esistenti in letteratura con lo scopo di ottenere informazioni di interesse genetico ed evoluzionistico. Considerando le fissioni, le migrazioni più importanti e il ruolo della mutazione, della deriva genetica e della selezione naturale, ricostruire l'evoluzione umana è impresa spesso difficile e incerta. Non si può sperare di applicare alla nostra specie un approccio sperimentale, che permetta di riprodurre e condizionare in modi noti il processo evolutivo. Questo fatto, assieme all'attuale quasi assoluta mancanza di dati fossili sulla variabilità genetica di popolazioni vissute in tempi passati, determina la necessità di prove esterne che possano confermare le conclusioni dell'analisi genetica. Fortunatamente, le informazioni tratte da altre fonti possono darci alcuni chiarimenti: infatti la validità delle nostre conclusioni viene di molto rafforzata se queste sono confermate nell'ambito di un'impostazione interdisciplinare. I risultati ottenuti dai dati genetici andranno paragonati con le conoscenze provenienti da altri campi: in particolare la paleoanu·opologia, la preistoria, la storia, il con testo geografico ed ecologico e le testimonianze culturali che derivano indirettamente da studi linguistici. Abbiamo considerato i riscontri ottenibili da discipline diverse che hanno per oggetto l'evoluzione dell'uomo come parte essenziale della nostra analisi, e abbiamo strutturato il libro in modo da soddisfare questa esigenza metodologica. La parte successiva del ·capitolo è dedicata a introdurre concetti specifici, dati, modelli e metodi.

1.2

DEFINIZIONI GENETICHE

In questo paragrafo si daranno alcune definizioni elementari per i lettori privi di conoscenze generali di genetica. L'informazione genetica è contenuta, in ciascuna cellula di un organismo, nei cromosomi: nella specie umana ne esistono 23 coppie per cellula. Ogni coppia è composta da un cromosoma di origine paterna e uno di origine materna, che sono indistinguibili dal punto di vista morfologico, ma che presentano sottili differenze rilevabili a livello chimico. Il principale costituente dei cromosomi, depositario dell'informazione genetica, è l'acido desossiribonucleico (DNA), una lunga catena che consiste di una sequenza lineare di molecole relativamente piccole chiamate nucleotidi, o semplicemente basi. Vi sono quattro nucleotidi diversi: adenina, citosina, guanina, timina (indicati dai simboli A, C, G, T). Un segmento di DNA è costituito da una sequenza di nucleotidi apparentemente casuale, per esempio TAACATGCCAT... L'ordine dei nucleotidi è in realtà responsabile del funzionamento specifico del DNA e viene copiato quasi senza errori al momento della riproduzione di cellule e individui. Così la progenie possiede un DNA che ha una sequenza essenzialmente identica a quella del genitore, e questo è il meccanismo che assicura il mantenimento delle proprietà biologiche degli organismi viventi da una generazione all'altra. La catena del DNA molto probabilmente è continua lungo tutto un cromosoma ed è estremamente lunga, dato che il numero medio di nucleotidi per cromosoma supera i cento milioni. Nonostante tale continuità, nel DNA si possono riconoscere segmenti più corti (i geni) che hanno funzioni specifiche. I geni più facili da riconoscere sono quelli che determinano la struttura e la forma (e quindi anche la funzione) delle proteine, molecole biologiche complesse che compiono uno spettro assai ampio di attività specifiche. Un cromosoma può contenere, in media, molte migliaia di geni, ciascuno costituito da migliaia di nucleotidi. Al momento della divisione cellulare, il DNA viene replicato in modo che ciascuna delle due cellule figlie, generate dalla divisione di una cellula, contenga un DNA praticamente identico a quello della cellula madre, con pochissimi errori di replicazione. Tali errori vengono trasmessi alla progenie, in quanto il nuovo DNA è lo stampo dal quale saranno prodotte tutte le copie future. Gli errori che awengono nella replicazione del DNA sono chiamati mutazioni: possono consistere nella sostituzione di un nucleotide da parte di un altro, o nella inserzione o delezione di nucleotidi. Le mutazioni possono avere conseguenze modeste o rilevanti per l'intero organismo, a seconda dell'alterazione awenuta nella funzione dello specifico gene che ha subito la mutazione. Le mutazioni che awengono nelle cellule in divisione di un organismo multicellulare (come l'uomo) possono determinare alterazioni di parte dell'organismo, ma non sono trasmesse ai discendenti, a meno che non si verifichino nelle cellule germinali (gameti). I gameti sono deputati alla creazione degli individui della generazione successiva, e le mutazioni che in essi avvengono possono essere trasmesse alla progenie e quindi avere conseguenze evolutive. I gameti maschili (spermi) e femminili (uova) conten-

8

Storia e geografia dei geni umani

gono solo 23 cromosomi. La riduzione del numero cromosomico awiene atu·averso un meccanismo molto preciso di assortimento casuale, in modo che ogni gamete riceva solo un elemento di ogni coppia di cromosomi. L'unione di uno spermio e di un uovo genera una nuova cellula (zigote) che ha ancora 46 cromosomi, e cioè 23 coppie, in ciascuna delle quali un elemento è di origine paterna e l'altro di origine materna (fig. 1.2.1). Il risultato di una mutazione è un nuovo gene che differisce di poco da quello precedente: i due tipi sono chiamati alleli di quel gene. Nella prima generazione dopo la mutazione c'è un solo individuo portatore del nuovo allele «mutante» in una data popolazione. Se il primo individuo che porta la mutazione raggiunge l'età adulta e ha molti figli, è maggiore la probabilità che il nuovo allele originato dalla mutazione si ritrovi nelle generazioni seguenti; tuttavia molte nuove mu~azioni vanno perdute nelle generazioni immediatamente successive. E anche possibile che, per l'influenza di forze evolutive che saranno descritte più avanti, un nuovo allele diventi, in media, sempre più frequente nelle generazioni successive; dopo molte generazioni, potrebbero non rimanere copie del vecchio allele in nessuno degli individui che formano la popolazione in esame. Questa sostituzione di un allele da parte di uno nuovo (la «fis-

MASCHI (2N)

FEMMINE (2N)

Q]

Q]

i

i

CD

Spermio (N)

Uovo (N)

ZIGOTE (2N)

Fig. 1.2.1 li meccanismo di riduzione dei cromosomi mediante il quale si formano i gameti. Dai gameti si sviluppa una cellula uovo fecondata (zigote). Per semplicità è rappresentata solo una coppia di cromosomi. Nell'uomo il numero di cromosomi per cellula (N) è 23.

Introduzione a concetti, dati e metodi

9

sazione» di un nuovo mutante) costituisce il processo elementare dell'evoluzione. Esso può richiedere, in media, un gran numero di generazioni: decine o centinaia di migliaia. Anche se le mutazioni sono rare, in ogni gamete - considerando tutti i diversi geni che contiene - ci saranno almeno alcune decine di mutazioni differenti. Il numero totale di nucleotidi in un gamete è molto alto (dell'ordine di 3 miliardi), e il tasso di mutazione per generazione può essere dell'ordine di 1 su 200 milioni di nucleotidi. La maggior parte delle mutazioni awiene in geni diversi, ma, nel tempo, lo stesso gene può essere di nuovo interessato da un'altra mutazione. In questo modo possono originarsi e coesistere, in una popolazione, molti alleli dello stesso gene. Quando in una popolazione si riscontra la presenza di due o più alleli di un gene, questo viene detto polimorfico. I geni polimorfici, o polimorfismi, costituiscono i marcatori usati in tutti i tipi di studi genetici, inclusi quelli riguardanti l'evoluzione: i tipi di polimorfismi normalmente analizzati sono esposti nel paragrafo seguente. Dato che, per ogni tipo di gene, le cellule di ciascun individuo possiedono un gene (lo stesso per tutte le cellule) di origine paterna e uno di origine materna, alcuni individui possono aver ricevuto dai genitori alleli differenti di un gene polimorfico. Questi individui sono chiamati eterozigot~ mentre individui che hanno ricevuto gli stessi alleli da entrambi i genitori sono chiamati omozigoti. La percentuale di individui che sono eterozigoti per un determinato gene si definisce come I' eterozigosità di quel gene, ed è la misura più semplice del grado di polimorfismo di un gene: se il gene non è polimorfico essa è uguale a zero, perché non esistono eterozigoti. Assumendo che vi siano solo due alleli - M e m - di un gene, un individuo può essere MM, mm (omozigote), o Mm (eterozigote): questi sono i tre possibili genotipi. Se è possibile distinguerli mediante osservazione diretta o analisi di laboratorio, diventa facile determinare la frequenza genica di M o m; a tale scopo è sufficiente contare gli alleli. Se ci sono, per esempio, 5 individui MM, 6individui Mm, 3 individui mm su un totale di 14 individui, ci saranno allora 2 x 5 = 10 geni M negli omozigoti MM e 6 negli eterozigoti, per un totale di 10 + 6 = 16 geni M. Ci sono anche 6 geni m negli eterozigoti e 2 x 3 = 6 geni m negli omozigoti mm, per un totale di 6 + 6 = 12 geni m. In complesso ci sono 16 + 12 = 28 geni, owero il doppio del numero degli individui contati. La frequenza genica di M è 16/28 = 0,57 (57%) e quella di m è 12/28 = 0,43 (43%). La somma delle frequenze di tutti gli alleli di un gene è 1 ( 100%). Contare i geni in modo diretto può essere impossibile: se gli individui MM sono indistinguibili da quelli Mm, ed entrambi sono diversi da mm, non si possono contare separatamente gli individui portatori di due o di un solo gene M. Questo fenomeno è conosciuto come dominanza e i tipi che si possono distinguere sono chiamati fenotipi ( che significa « distinguibili dall'aspetto»). Anche se la dominanza rende impossibile contare separatamente gli individui MM e Mm, in certe condizioni si possono ancora determinare le frequenze geniche. L'ipotesi principale è che i matrimoni siano casuali per quel particolare gene. Chiamiamo p la frequenza genica di M; sè ci sono solo due alleli, quella di m sarà (I - p). In

IO

Stmia e geografia dei geni umani

una popolazione dove i matrimoni sono casuali, ci aspettiamo che gli omozigoti per un dato allele abbiano una frequenza uguale al quadrato della frequenza genica di quell'allele, cioè Pi per MM e (I- p)z per mm. Gli eterozigoti avranno una frequenza pa1i a due volte il prodotto delle frequenze geniche dei due alleli che li compongono, in questo caso 2p (I - p). Così, i tre genotipi MM, Mm, mm dovrebbero avere rispettivamente frequenze uguali a p2, 2p (I- p), (I - pf. Questa è la legge di Hardy-Weinberg, così chiamata dal nome dei suoi scopritori: è facile estenderla a più di due alleli. Do,1·emo ricorrervi spes.so, ma la sua validità è limitata a popolazioni e geni per i quali i matrimoni siano casuali (come discusso nel par. 1.7). In questo libro non si danno frequenze di genotipi o di fenotipi, ma solo frequenze geniche calcolate direttamente a partire da questi, o mediante conta genica o tramite l'applicazione della legge di Hardy - Weinberg. Per caratteri visibili come l'altezza, il colore dei capelli, della pelle o degli occhi, i matrimoni generalmente non sono casuali e quindi la legge non sarebbe applicabile. In ogni caso la loro determinazione genetica è poco chiara o addirittura complessa (per ulteriori letture su questi argomenti si vedano Cavalli-Sforza e Bodmer, 1971 a; Bodmer e Cavalli-Sforza, 1976 a; Christiansen e Feldman, 1986). Oggi si pensa all'evoluzione soprattutto in termini di frequenze geniche e di cambiamenti di tali frequenze. A differenza dei fenotipi, i geni sono essenzialmente stabili, in quanto le mutazioni sono rare. Le loro frequenze sono stabili nel tempo, se non si considerano i fattori evolutivi (che esamineremo più avanti): mutazione, migrazione, selezione e deriva genetica casuale. Lo studio genetico dell'evoluzione è essenzialmente un'analisi della funzione di questi fattori nei cambiamenti osservati. Lo studio delle frequenze geniche restringe la nostra analisi al comportamento di singoli nucleotidi o di segmenti molto corti di DNA. Estendendo le nostre conoscenze, saremo in condizione di analizzare con sempre maggiore attenzione e frequenza la su·uttura di segmenti sempre più lunghi: più un segmento è lungo, maggiore è il numero di polimorfismi che può ospitare. Aumenterà la quantità di informazione, ma aumenterà anche la sua complessità. Nella loro evoluzione, le sequenze di DNA di una certa lunghezza non si comportano in modo rigido, ma possono scambiarsi segmenti. Di recente è divenuto facile «leggere" la sequenza nucleotidica del DNA, e ciò renderà sempre più accessibile lo studio diretto di lunghi segmenti; ma la maggior parte dei dati attuali consente poco più di un'analisi dei cambiamenti genetici awenuti in uno o pochi nucleotidi.

1.3

TECNICHE PER IDENTIFICARE I MARCATORI POLIMORFICI

Il termine polimurji.smo si riferisce alla presenza di più alleli di un gene in una popolazione. Di solito si considerano campioni relativamente piccoli,

Introduzione a concelli, dati e metodi

11

come numero di individui, e quindi si tende a definire polimorfico un gene se l'allele più raro non è troppo raro - per esempio non meno dell'l % - in modo che ci sia uqa buona probabilità di osservare un polimorfismo in un campione di 100 o più individui (l'ordine di grandezza della maggior parte dei campioni). Qua.si tutti i geni, se esaminati al massimo livello di risoluzione, owero al livello del DNA, sono molto polimorfici; ma questa affermazione è basata per il momento su pochi dati. È noto che alcune regioni del DNA sono molto più polimorfiche di altre: è perciò più difficile stimare la variazione media individuale al livello del DNA. In due cromosomi presi a caso da una popolazione, e quindi anche nei due membri di una coppia di cromosomi di un individuo qualunque, circa un nucleotide su 500 è, in media, diverso. Siccome i geni sono di solito composti da molte migliaia di nucleotidi, ogni gene probabilmente è polimorfico se analizzato in modo completo. Sappiamo, tuttavia, che nel corso dell'evoluzione alcuni segmenti di DNA (in particolare quelli che codificano le proteine) si sono conservati molto più di alu-i, e perciò possiamo prevedere che presentino una variazione individuale molto inferiore. I geni sono polimomci perché si trovano in uno stadio intermedio del processo che va dalla comparsa di una mutazione al suo probabile destino finale: la fissazione o l'estinzione. Questa ·transizione è molto lunga, e il più delle volte non si può identificare quale sia l'allele vecchio e quale l'allele nuovo, il «mutante" per definizione. Nella specie umana possiamo ottenere qualche informazione a questo riguardo osservando la presenza di uno o dell'alo-o allele nelle specie più vicine, scimpanzé o gorilla. In ogni caso, che si conosca o no la loro storia, i polimorfismi fungono da indicatori della variazione di specifici segmenti cromosomici: sono, cioè, marcatori genetici e quindi costituiscono la chiave per comprendere e misurare la variazione genetica. I marcatori che analizziamo sono classificati per comodità in base alla tecnica impiegata per identificarli e ai tessuti ai quali si riferiscono. Possiamo trovare polimorfismi in quasi tutti i tipi cellulari o liquidi biologici, ma il sangue è di gran lunga il preferito, perché si ottiene molto facilmente e perché si presta a numerose possibilità di analisi. La tabella 1.3.1 mostra l'elenco dei marcatori che abbiamo analizzato in un'area geografica sufficientemente ampia per i nostri scopi. Le categorie più importanti di marcatori genetici sono le seguenti. Gruppi sanguigni I gruppi sanguigni si identificano nei globuli rossi del sangue con tecniche immunologiche. Le sostanze presenti sulla superficie dei globuli rossi agiscono come antigeni: esse, cioè, inducono la produzione di anticorpi, se iniettate in altri individui della stessa specie o di una specie diversa. Gli anticorpi sono proteine (le immunoglobuline) che ogni individuo è potenzialmente in grado di produrre, ma che sono sintetizzate in grandi quantità solo quando l'organismo è stimolato con l'antigene corrispondente; essi reagiscono con gli antigeni in modo spe-

Tab. 1.3.1 Marcatori genetici analizzati in questo libro. La selezione è awenuta in base alla disponibilità delle frequenze geniche per molte popolazioni. Nome del locus

Simbolo

Gruppo sanguigno ABO Fosfatasi acida 1 Adenosin deaminasi Adenilato chinasi 1 Fosfatasi alcalina placentale a-1-antitripsina ~-lipoproteina, sislema Ag ~-lipoproteina, sistema Lp Ceruloplasmina Colinesterasi 1 Colinesterasi 2 Componente 3 del complemenlo Gruppo sanguigno Diego Gruppo sanguigno Duffy Esterasi D 6-glucoso-fosfato deidrogenasi Glutammico-piruvico transaminasi 13-glicoproteina ricca in glicina, fattore B Gliossilasi 1 Componente gruppospecifica Aptoglobina Emoglobina a Emoglobina 13 Emoglobina 6 Emoglobina y HLA-A, sistema di istocompatibilità

HLA-B, sistema di istocompatibilità

AB0 ACPI ADA AKI

Posizione sul cromosoma 9q34, 1+34,2 2p25 20q13,11 9q34, 1+34,2

A, B, O, Al, A2 A,B,C 1 1,2

ALPP PI

2q37 14q32, 1

S1, FI M,F

AG

Alleli analizzali

X

LPA CP CHE/ CHE2

6q26+27 3q23+25 3q26+qter 2q

+

C3

19p13,3+ 13,2

S,F

DI

Lp(a+) A

u

A

FY ESD

1q21+25 13q14,1+14,2

A, B, O 1

G6PD

Xq28

A-, B-, def

GPT

8q24,2+qter

1

BF GLOI

6p21,3 6p21,3+21, 1

S, F, FI, S0.7 1

GC HP HBA HBB HBD HBG

4q12+13 16q22,1 16p13,3 11p15,5 11p15,5 11p15,5

1, IF, 1S, 2 1, IF, 1S, 2

HLAA

6p21,3

1, 2, 3, 9, 10, 11, 28, 29, 30, 31, 32, 33

HL.AB

6p21,3

5, 7, 8, 12, 13, 14, 15, 16, 17, 18, 21, 22, 27, 35, 37, 40, 41

Immunoglobuline• GM1; GM3

Immunoglobulina KM (lnv) Gruppo sanguigno Kell Gruppo sanguigno Kidd Lattato deidrogenasi Gruppo sanguigno Lewis Gruppo sanguigno Lutheran Malato deidrogenasi Gruppo sanguigno MNS

p Peptidasi A Peptidasi B Peptidasi e Sensibilità alla feniltiocarbammide Fosfoglucomutasi 1 Fosfoglucomutasi 2 Fosfogluconico deidrogenasi Fosfoglicerato chinasi 1 Gruppo sanguigno Rhesus

Secretore Superossido dismutasi 1 Transferrina

IGHG1G3

14q32,33

za;g zax;g f;b0b 1b3b4b5 za;b0b 1b3b4b5 za;b0b1c3c5 za;b0b 1c3b4b5 za;b0stb3b5 fa;b0b 1b3b4b5 zx;g za;b0sb3b5

IGKC, KM KEL JK LDH LE

2p12

1&1,2 K, k, Kpa, Jsa A, B, O varianti A e B Le, le, Le(a+)

LU MDH1 MNS

19q12+13 2p23 4q28+31

P1 PEPA PEPB PEPC

22q11,2+qter 18q23 12q21 1q42 o 1q25

PTC PGM1 PGM2

1p22, 1 4p14+q12

PGD PGK1

1p36,2+36, 13 Xq13

A,C 1,2

RH

1p36,2+34

FUT2(SE) SOD1 TF

19q 21 q22, 1 3q21

O, C, E, C,,, O", CDE, CDe, CdE, Cde, cDE, cDe, cdE, cde, V Se 1

18q11+12 19

A M, N, S, s, SU, MS, Ms, NS, Ns, He 1 1 1 1 T 1

e.o

• t marcatori GM vengono descritti anche con un simbolo numerico. La corrispondenza Ira tale codifica e quella alfanumerica da noi utilizzata è descritta in Steinberg e Cook (1981 ).

Storia e geografia dei geni nmani

14

Gruppo sanguigno

Anti-A

Anti-B

o

A

.....

o ••••

B

.•• •• • • •.• ••• o

• ••• • • •••

AB

Fig. 1.3.1 Reazioni dei globuli rossi di individui di gruppo O, A, Be AB in presenza di anticorpi anù-A e anti-B.

cifico anche in provette da laboratorio e la reazione può essere facilmente resa visibile. Il primo sistema di « gruppi sanguigni» scoperto fu chiamato ABO: A e B sono gli antigeni presenti sulla superficie dei globuli rossi che vengono riconosciuti rispettivamente dagli anticorpi anti-A e anti-B. Un individuo può avere l'antigene A o l'antigene B, entrambi, o nessuno dei due; si definiscono così quattro gruppi di individui, che possono essere caratterizzati in modo preciso (fig. l.3.1). Gli individui con lo stesso gruppo sanguigno ABO presentano la stessa reazione se analizzati con gli stessi reagenti e, se sottoposti a trasfusione, possono scambiarsi i globuli rossi senza conseguenze nocive. La scoperta del sistema ABO e della sua trasmissione ereditaria precede la prima guerra mondiale; dopo l'ABO furono scoperti molti altri sistemi di gruppi sanguigni, ma solo pochi di essi (specialmente l'RH: Landsteiner e Wiener, 1940; Levine e Stetson, 1939) sono importanti nella pratica clinica. Il sistema RH (in precedenza chiamato Rh) ha un grande numero di alleli e probabilmente si tratta di una famiglia di geni adiacenti. Oltre ai gruppi sanguigni ABO e RH, solo il gruppo MN e pochi altri sono stati molto studiati. Elettrofuresi di proteine Le proteine; il prodotto principale dei geni, si muovono in un campo elettrico con una mobilità che dipende dalla loro carica elettrica di superficie, a sua volta dipendente dalla loro struttura chimica. Si studiano principalmente i polimorfismi delle proteine presenti

Introduzione a concetti, dati e metodi Quadro Fenotipo

Genotipo

Tipi di emogloblna presenti

e1enroloretico emogloblnlco origine

Normale

AA

Tratto

A5

talassemico (portatore eterozigole)

Anemia

falciforme

55

15

~

I

Il

I

+ A

5eA

5

Fig. 1.3.2 Elettroforesi di una proteina (emoglobina): le due varianti alleliche sono identificabili come bande che nel campo elettrico migrano a velocità diverse. Gli omozigoti (AA e SS) presentano una sola banda, l'eterozigote (AS) le presenta enLrambe.

nella parte liquida del sangue (siero o plasma) o nei globuli rossi. La prima scoperta del polimorfismo di una proteina del sangue fu quella relativa all'emoglobina (Pauling e coli., 1949), che mostrò la natura molecolare della mutazione responsabile dell'anemia falciforme; subito dopo si scoprì che molte proteine del siero (per esempio l'aptoglobina) sono polimorfiche. Le proteine che agiscono come catalizzatori specifici di particolari reazioni biochimiche (enzimi) sono presenti nel sangue a basse concentrazioni: quando si scoprì come evidenziarli attraverso reazioni colorimetriche molto sensibili e specifiche, gli enzimi fornirono la prima prova statistica che i polimorfismi sono molto più comuni di quanto si pensasse. Ciò è stato scoperto contemporaneamente nell'uomo e nella Drosophila, nel 1966 (Harris, 1966; Lewon tin e Hubby, 1966). La figura 1.3.2 mostra un esempio di due varianti alleliche individuate con l'elettroforesi. Antigeni umani linfocitari Gli antigeni umani linfocitari, HLA (conosciuti nei vertebrati come sistema MHC, complesso maggiore di istocompatibilità), hanno aperto nuove possibilità di studio dei polimorfismi genetici. Essi sono proteine situate sulla superficie dei globuli bianchi, che partecipano alla produzione di anticorpi e hanno un'importanza pratica nei trapianti d'organo. Lo studio di questa superfamiglia di geni, iniziato nei primi anni Sessanta, ha dimostrato che il suo livello di polimorfismo è quasi pari a quello di tutti gli altri marcatori non DNA noti, presi assieme: si tratta del sistema genetico più informativo oggi conosciuto. Immunoglobuline Le immunoglobuline sono i normali «anticorpi». Le varianti delle immunoglobuline ( CM, KM, AM, ecc., chiamate in precedenza Cm, Km, Am, ecc.) presenti nel plasma o nel siero si analizzano mediante tecniche immunologiche particolari e forniscono una ricca fonte di variabilità genetica. Con tecniche immunologiche simili si caratterizzano altre varianti proteiche.

Sto,ia I' geografia dl'i geni umani

16

Altri polìmo,jìsmi Vi sono alcuni allri polimorfismi il cui fenotipo è idenlificabile mediante tecniche specifiche, come l'immunodifTusione, spesso utilizzala per le lipoproteine, l'immunoelettroforesi, l'auloradiografia, ecc. Per uno di questi polimorfismi, che è stato molto studiato e viene analizzato facendo assaggiare una sostanza chiamata feniltiocarbammide (PTC), si è a lungo sospettato che avesse una trasmissione ereditaria in-egolare. Di recente questo polimorfismo è stato nuovamente analizzalo: Reddy e Rao ( 1989) hanno posto in evidenza che la penetranza dell'eterozigote è incompleta e che pott·ebbe esservi coinvolto più di un gene. Perciò le frequenze geniche di questo marcalore così comunemenle studiato potrebbero essere in parte inesatte, ma sarebbe stato troppo complicato escluderlo dall'analisi: pensiamo tuttavia che l'approssimazione che ne deriva sia trascurabile. Tutti i marcatori finora descritti rivelano variazioni al livello delle proteine o dei prodotti proteici; essi sono slati scoperti da diverso tempo e sono gli unici per i quali possediamo informazioni abbondanti. In genere, più tempo passa dalla scoperta di un marcatore, più sono disponibili dati a livello geografico (fig. 1.3.3), tranne che per alcuni geni la cui caratterizzazione presenta difficoltà pratiche.

10000 ABO AH

MNS

K

1000

100

~ Gruppi sanguigni 10

~ ::::I Plasmaproteine

[i].

Enzimi

D

Altri marcatori

1

1900.,..,,__...,.1.,.91.,..,0,---19...2_0__1.... 9._30_ _ 19..,40--1-9.._50--1-9'-60--1... 97-0--19.._8_0

Fig. 1.3.3 Anno della scoperta dei principali marcatori genetici (in ascissa) e numero di osservazioni presenti nella nostra banca dati.

Introduzione a concetti, dati e metodi

17

I polimorfismi del DNA Si può prevedere che in futuro ci sarà un netto aumento delle conoscenze relative alla variabilità genetica grazie ai polimorfismi evidenziabili tramite l'analisi diretta del DNA. In questo momento (1994), per molte popolazioni del mondo i dati sui marcatori del DNA sono assai pochi (essi sono riassunti brevemente nel cap. 2, par. 2.4). Un metodo usato per lo studio del DNA al livello delle popolazioni è l'analisi di restrizione: enzimi specifici, chiamati enzimi di restrizione, tagliano il DNA in siti specifici (siti di restrizione), definiti da sequenze di piccole dimensioni - quattro, sei o, meno comunemente, più di sei nucleotidi. Una mutazione in queste sequenze renderà impossibile il taglio mentre mutazioni che avvengono altrove possono generare nuovi siti di restrizione. I frammenti che derivano dal taglio del DNA di un individuo vengono quindi sottoposti a elettroforesi e separati in base alle loro dimensioni; quelli che appartengono alla regione di interesse vengono evidenziati grazie al loro legame specifico con «sonde» di DNA. Una sonda è un segmen-

3

4

7

8

9

Kb

--e•

11

·-·

-4,8



-3,3

••••

-2,2

-1,5

1 2 3 4 5 6

7 B 9

Fig. 1.3.4 Polimorfismi del DNA relativi al gene CDB, identificati mediante l'analisi della lunghezza dei frammenti di restrizione ottenuti con l'enzima DraI. Gli alleli di 3,3 e 2,2 kb (chilobasi) si comportano come caratteri mendeliani codominanti. Il DNA è stato digerito con l'enzima di restrizione Dral; i frammenti sono stati separati mediante elettroforesi su gel di agarosio, trasferiti su un supporto di nylon con il metodo di Southern (1975) e ibridati con una sonda di cDNA marcata radioattivamente, che riconosce il gene CDB.

18

S101ia e geografia dei geni umani

to di DNA umano prnveniente dalla regione cromosomica studiata, che viene moltiplicato in battei; e marcato con nucleotidi radioattivi o altre sostanze che ne permettano l'identificazione. Un polimorfismo si manifesta perciò come la variazione in lunghezza dei frammenti riconosciuti dalla sonda in individui diversi (fig. 1.3.4) e viene chiamato RFLP (dall'inglese Res11iclio11 Frag111e11/ Length Poly11101phism, « polimorfismo di lunghezza dei frammenti di resu·izione »). Con questa tecnica si possono evidenziare centinaia di migliaia o forse milioni di polimorfismi: al momento sono disponibili più di 2000 sonde in grado di identificare questo tipo di polimorfismo. Il metodo di analisi definitivo è lo studio della sequenza del DNA, ma le sequenze esistenti sono quasi sempre limitate a uno o pochi individui. Alcune tecniche particolarmente potenti, in particolare la PCR (Polymerase Cluiin Reac/io11, « reazione di polimerizzazione a catena»; Erlich, 1989), rendono molto più veloci e sensibili sia il sequenziamento di segmenti di DNA sia l'analisi di polimodìsmi noti dovuti a sostituzioni nucleotidiche. La tecnica della PCR sfrutta la capacità dell'enzima DNA polimerasi di moltiplicare il DNA teoricamente all'infinito. Una singola molecola di DNA può essere amplificata a piacere, in genere con un errore minimo. Una delle novità più interessanti rese possibili dalla PCR è l'analisi di campioni molto antichi nei quali sia rimasta ancora una piccola quantità di DNA (che non sia troppo danneggiato): a questo proposito sono stati descritti alcuni risultati incoraggianti (Paabo e coli., 1989). Più volte sono stati analizzati resti antichi per e\~denziare polimorfismi non DNA, in particolare l'AB0, ma i risultati sono poco soddisfacenti, soprattutto perché le reazioni sono incerte per molti individui. Sono disponibili diversi libri di testo riguardanti i polimorfismi dei gruppi sanguigni (Race e Sanger, 1975) e quelli di proteine e di enzimi (Giblett, 1969; Brock e Mayo, 1978; Harris, 1980): sono stati pubblicati alcuni anni fa, ma dopo di allora il lavoro su questi tipi di polimorfismi è diminuito rispetto al passato. I risultati degli studi sul sistema HLA sono riassunti negli atti di una serie di congressi e di corsi periodici, chiamati Hislocompatibility Tesling. Nelle pubblicazioni dei corsi che fanno il punto sulla mappatura del genoma umano (Human Gene Mapping) è riportato ogni anno l'elenco aggiornato di tutti i polimorfismi del DNA disponibili. 1.4

L'EVOLUZIONE DELLE FREQUENZE GENICHE

Per i lettori privi di conoscenze generali di genetica, daremo in questo paragrafo una semplice introduzione alla genetica di popolazioni: per descrizioni più complete si possono consultare altre fonti (Crow e Kimura, 1970; Cavalli-Sforza e Bodmer, 1971 a; Bodmer e Cavalli-Sforza, 1976 a; Christiansen e Feldman, 1986; Nei, 1987; Hartl e Clark, 1989; Weir, 1989). Le frequenze geniche cambiano nel tempo: le mutazioni forniscono il materiale grezzo generando nuovi alleli e anche nuovi geni (quando vengono duplicate intere regioni). La mutazione è perciò un elemento chiave dell'evoluzione, in quanto la sua assenza determinerebbe un arresto del processo evolutivo. Tuttavia è raro che una mutazione specifica si verifichi

Introduzione a concelli, dati e metodi

19

di nuovo in un individuo diverso da quello in cui è avvenuta la prima volta, e quindi il suo tasso di ricorrenza ha uno scarso effetto sul tasso generale di evoluzione di quella mutazione. Il suo destino dipende pillltosto dagli altri tre meccanismi evolutivi, la migrazione, la seln.ione naturale e la deriva genetica casuale, ciascuno dei quali può condizionare la frequenza genica di un allele presente in una popolazione. I primi due meccanismi evolutivi guidano le frequenze geniche in direzioni specifiche, in parte prevedibili. La selezione naturale è particolarmente importante nel determinare il futuro di una specie, in quanto è l'unico fattore evolutivo ad avere conseguenze adattative dirette; infatti essa è il processo automatico che vaglia e favorisce le mutazioni utili ed elimina quelle deleterie, rendendo così possibile il miglioramento funzionale degli organismi viventi. La deriva genetica non ha alcuna semplice conseguenza adattativa e non è un meccanismo direzionale, essendo il risultato del campionamento casuale di un gamete in ciascuna generazione. La mutazione, come la deriva genetica, è casuale, ma può avere differenti probabilità di verificarsi in diverse direzioni. La seln.ione naturale è il processo di scelta automatica dei tipi più « adatti", che può trasformare un carattere inizialmente molto raro - un singolo mutante - nel tipo più comune di una popolazione, se esso è vantaggioso per gli individui che lo portano. Gli adattamenti complessi che osserviamo negli organismi viventi non si sarebbero potuti diffondere in intere popolazioni e specie soltanto per azione del caso: la selezione naturale è responsabile di questi straordi!_1ari adattamenti funzionali e dei complessi meccanismi che li regolano. E perciò comprensibile che, prima di Darwin (e anche dopo di lui, agli occhi di quanti non hanno compreso il potere della selezione naturale), questi adattamenti potessero sembrare il risultato di un vero e proprio disegno e quindi di una creazione intelligente. A un esame più attento gli adattamenti biologici appaiono straordinari ma goffi, come se fossero il risultato di continui aggiustamenti (tinkering, secondo Jacob, 1977), ovvero l'accumularsi di meccanismi utili non secondo un disegno preciso, ma attraverso tentativi ed errori, in un processo storico dellato dall'occasionale verificarsi di mutazioni spontanee in momenti e luoghi particolari. Le mutazioni in grado di offrire soluzioni accettabili per le necessità degli organismi vengono adottate attraverso il meccanismo della selezione naturale, ma inevitabilmente sono destinate a porre vincoli al futuro processo evolutivo (si veda, per esempio, Crick, 1988). Dal punto di vista più elementare, la selezione nan1rale è semplicemente il meccanismo automatico che fa aumentare in una popolazione il numero di tipi genetici in grado di generare più figli, e fa diminuire quelli che si riproducono di meno. Si può prevedere il tasso di cambiamento dovuto alla selezione naturale sulla base del numero di discendenti di ciascun tipo genetico (più precisamente il numero di figli che raggiungono la maturità sessuale): esso è chiamato fitness daronniana e si basa su parametri demografici quali sopravvivenza e fecondità. Di norma viene espresso in termini relativi, confrontando due o più genotipi o fenotipi della stessa popolazione. Sulla base della fitness darwiniana di due tipi genetici si può prevedere quale dei due tipi prevarrà (se uno prevarrà) e calcolare il tasso del processo di cambiamento delle frequenze geniche, sempre che la fitness non cambi nel tempo.

20

S101ia e geografia dei geni umani

La selezione nalurale opera direttamente soltanto sui fenolipi, ma agisce in modo indiretto anche sui genotipi, a seconda di come il genotipo determina il fenotipo: perciò il suo effetto genetico dipende dalla corrispondenza Lra genotipo e fenotipo. La selezione naturale sceglie o scarta diversi fenotipi, ma i fenotipi sui quali agisce non sono necessariamente quelli che possono sembrarci a prima vista più «adatti»; inoltre in ambiemi differenti la selezione nalurale può cambiare. Consideriamo ad esempio i u·e fenotipi che corrispondono ai tre genotipi del gene per l'anemia falciforme, AA, AS, SS: l'individuo SS si ammala in modo grave e spesso muore, a causa di quesla malauia. Ci si aspetterebbe che il gene S venisse eliminato rapidamenle, ed è quello che in genere awiene, ma non in tutti i casi. La situazione è molto diversa se è presente la malaria, una delle più frequenti cause di morte nelle zone lropicali e subtropicali. Possiamo distinguere tutti e tre i genolipi dell'anemia falciforme attraverso l'elettroforesi dell'emoglobina o l'analisi del DNA, mentre esami di laboratorio più semplici permettono sollanto di separare il primo genotipo dagli altri due. Oltre a diminuire la soprawivenza del genotipo SS, la selezione naturale agisce a un altro livello: in alcuni ambienti malarici, gli individui AS soprawivono meglio degli individui AA, mentre in ambienti non malarici non si nota alcuna differenza seleltiva Lra i due genotipi. Queslo è un classico esempio di come la selezione naturale possa cambiare in ambienti diversi, e illustra anche un fenomeno evollllivo particolare: il vantaggio selettivo dell'elerozigole rispeuo a entrambi gli omozigoti in condizioni ambientali che favoriscano la diffusione di un certo tipo di parassita malarico (Plasmodium falcijmrum). Il risullalo della selezione naturale a favore dell'eterozigote consiste, in Lermini evolutivi, nello stabilizzarsi delle frequenze di entrambi gli alleli A e Sa un valore di equilibrio in genere vicino al 90% per A e al 10% per S; in queslo modo nessuno dei due alleli viene fissato, ma l'allele che allo slalo omozigote ha una fitness maggiore mantiene la frequenza più elevala. L'anemia falciforme osservata nell'omozigote SS è devastame ed è panicolarmente grave in presenza di malaria; in queste condizioni, il genotipo SS è circa 10 volte meno vitale del genotipo AA e, in presenza di malaria, le frequenze alleliche all'equilibrio di A e Stendono a essere vicine al rapporto 10 a 1. Il vantaggio_ dell'eterozigote determina perciò un polimorfismo bilanciato o stabile. E probabile tultavia che molti allri polimorfismi osservati non siano stabili, e che le loro frequenze cambino più o meno lentamente nel tempo. Senza il vantaggio dell'elerozigote, l'allele favorito dalla selezione naturale prevarrà, mentre l'altro o gli altri alleli saranno eliminati. Il lempo necessario per raggiungere questa condizione dipende dalla for,:a della selezione. Questa può essere calcolata dalle fitness darwiniane relative ai genotipi antagonisti, spesso espresse come coefficienti selettivi s, che sono differenze percentuali tra la fitness darwiniana di un dato genotipo (o fenotipo) e quella di un genotipo (o fenotipo) di riferimento. Nel caso in cui l'eterozigote abbia un valore di.fitness darwiniana esattamente intermedio Lra quelli dei due omozigoti, la formula per calcolare il tempo 1 (espresso in

Introduzione a concetti, dati e metodi

21

generazioni) necessario perché un gene vantaggioso passi da una frequenza genica % a (I-%) è particolarmente semplice:

dove log è il logaritmo naturale. In questa formula si assume che la selezione rimanga costante per tutto il tempo. Owiamente ci sono numerosi altri modelli nei quali la selezione varia nello spazio o nel tempo in molti modi diversi: questo è il modello più semplice. Per esempio, se poniamo %= 0,01 in modo che t sia il tempo necessario per passare da q = 1% a q =99%, la formula precedente permette di calcolare il tempo in anni (25 anni per generazione) che il gene vantaggioso impiegherà per diffondersi nella popolazione, dato il coefficiente di selezione s: per s = 0,1%, 115000 anni; per s = 0,3%, 38300 anni; per s = 1,0%, 11500 anni; per s = 3,0%, 3800 anni; per s = 10,0%, 1150 anni. Sfortunatamente, però, si sa molto poco sui coefficienti di selezione predominanti nel corso dell'evoluzione umana, in quanto è difficile misurarli: bisognerebbe osser,,are un numero di individui troppo grande, specialmente se s è piccolo. Un coefficiente di selezione del 10% è molto elevato: sono stati stimati valori di quest'ordine di grandezza nel caso del vantaggio dell'eterozigote per l'anemia falciforme rispetto all'omozigote normale in caso di malaria, e per altri casi simili di resistenza genetica alla malaria, come la talassemia. Un altro gene vantaggioso per il quale è stato possibile stimare il coefficiente di selezione è quello per la tolleranza al lattosio, ovvero la capacità di un adulto di digerire il lattosio, lo zucchero del latte (quasi tutti gli individui giovani digeriscono naturalmente il lattosio fino ai 3.;-4 anni di età). La frequenza cli questo tipo genetico è molto variabile da una popolazione all'altra: è bassa nelle popolazioni in cui gli adulti non fanno uso cli latte fresco e arriva fino al 50%.;.100% in quelle che ne consumano grandi quantità. Il coefficiente di selezione è stato stimato in base al tempo trascorso dall'addomesticamento dei bovini e degli ovini, da quando il latte fresco è divenuto disponibile. Uno studio precedente aveva stimato il coefficiente di selezione per la tolleranza al lattosio pari soltanto all'l,5%.;.3% (Bodmer e Cavalli-Sforza, 1976 a), senza tener conto delle interazioni fra trasmissione genetica e trasmissione culturale dell'abitudine di bere latte da adulti. Se si considera la trasmissione culturale del consumo cli latte, il coefficiente di selezione diventa pari almeno al 10% (Feldman e Cavalli-Sforza, 1989). Anche i geni che controllano i diversi tipi di immunoglobuline sono molto variabili da una popolazione all'altra, forse perché da essi dipende la resistenza alle malattie infettive, e queste hanno un 'incidenza che varia molto nelle diverse parti del mondo. Non vi sono stime dirette del coefficiente di selezione per questi geni, ma si può azzardare un'ipotesi, dal momento che sono fra i geni con le frequenze più variabili nelle popolazioni umane: con ogni probabilità tali differenze si sono sviluppate negli ultimi 50000.;.100000 anni, e quindi le forze selettive coinvolte potrebbero essere espresse da valori di s molto di rado maggiori de11'1%.

22

Storia e geografia. dei geni umani

Per quanto riguarda le popolazioni umane, quelli che abbiamo esemplificato sono probabilmente i coefficienti di selezione relativi a geni favorevoli con i valori più alti; c'è invece una selezione molto forte contro i geni che sono causa di malattie gravi e morti precoci (geni deleteri). La deriva genetica casuale (drijl) consiste nella fluttuazione delle frequenze geniche da una generazione all'altra, dovuta al campionamento casuale dei gameti (spenni e uova). Il passaggio da una generazione all'altra awiene per mezzo dei gameti: soltanto gli individui che hanno prole, e quindi i gameti che essi producono, determinano le frequenze geniche della generazione successiva (Cavalli-Sfona e Bodmer, 1971 a). Se una popolazione è esigua sarà esiguo anche il numero totale dei gameti che formano la generazione successiva, e nelle frequenze geniche potrebbe verificarsi una notevole deviazione dovuta al campionamento, dipendente dal numero totale dei genitori che contribuiscono alla nuova generazione. In termini qualitativi, le frequenze geniche possono fluttuare molto da una generazione all'altra, in una popolazione piccola, mentre saranno più stabili in una popolazione grande; la stabilità aumenterà con l'aumentare delle dimensioni della popolazione. Gli effetti della deriva genetica si accumulano nel tempo, in quanto le frequenze geniche di una generazione sono determinate interamente da quelle della generazione che la precede, senza alcuna memoria delle frequenze geniche delle generazioni antecedenti. Il risultato è che le deviazioni dovute al campionamento aumentano nel tempo e, in una popolazione, la frequenza genica di un allele potrebbe arrivare allo 0% (estinzione dell'allele) o al 100% (fissazione dell'allele). Se la deriva genetica agisce per un tempo abbastanza lungo, il destino di un allele è inevitabilmente la fissazione o l'estinzione, qualunque siano le dimensioni della popolazione, ma il processo è in media molto più lento per popolazioni numerose, essendo proponionale alle dimensioni della popolazione. La figura 1.4.1 mostra le simulazioni al calcolatore relative a tre frequenze geniche iniziali diverse e tre popolazioni con numeri diversi di individui: gli alleli più rari vengono persi dopo poche generazioni, in due casi nella popolazione meno numerosa e in un caso nella popolazione di dimensioni intermedie. Nel modello semplificato della figura 1.4.1, non si possono usare direttamente le dimensioni di censimento di una popolazione umana come stima del valore N che, come in pressoché tutte le trattazioni teoriche, si riferisce a una popolazione in grado di riprodursi in modo sincrono. In pratica è importante soltanto il numero dei genitori riproduttivamente attivi e, siccome in una popolazione reale solo un teno circa degli individui è in età riproduttiva, le « dimensioni effettive della popolazione» N,, corrispondenti a quelle di una popolazione che si riproduce in modo sincrono, sono circa un teno delle dimensioni censuarie. Si possono fare anc_he stime più accurate, ma di solito non sono necessarie. E interessante paragonare le conseguenze della deriva genetica con quelle degli altri fattori evolutivi e considerarne le interazioni. L'efficacia della deriva genetica dipende da fattori di tipo demografico: nella figura 1.4.1 vediamo l'importanza delle dimensioni della popolazione; anche la migrazione influisce molto sulla deriva genetica, e di solito ne riduce gli

N=20

a

0,8

.... -~e

"'•~ e •, i"

0,6 I-

ij

0,4

0,2 I-

~

o

o

50

100 Generazioni

150

N= 100

200

b

0,8

.... .~

&

•~ •,

"

~

0,6

0,4

u.

0,2

o

o

50

100 Generazioni

150

N=2500

200

e

0,8

.... ~ e

g

0,6

2

!

[

0,4

u.

0,2

o

o

50

100

150

200

Generazioni

Fig. 1.4.1 Effetti delle dimensioni della popolazione sulla deriva genetica: esperimenti di simulazione con tre diverse frequenze geniche ini2iali (90%, 50%, 10%) in tre popolazioni (a: N= 20 individui; b: N= 100 individui; c: N= 2500 individui).

24

Storia e geografia dei geni umani

effetù, ma la considereremo più avanli. È importante notare che la deriva genetica ha gli stessi effetti quantitativi su tulli i geni, benché agisca su ciascun gene in modo casuale e indipendente: infatti in una popolazione di dimensioni esigue ci saranno notevoli fluttuazioni dovute alla deriva genetica per tulli i geni, mentre in una popolazione numerosa la deriva genetica avrà scarso effetto, ma di nuovo su tulli i geni. La selezione naturale agisce invece in modo diverso su ciascun gene; possiamo comunque anticipare che molù dei geni da noi studiati sembrano non essere soggetti a selezione; sono, cioè, selettivamente neulri. Tutti i geni sono soggetti all'effetto della deriva genetica, che potrebbe persino determinare la perdita di una mutazione favorita dalla selezione naturale: questo può accadere con una probabilità leggermente più alta nelle prime generazioni dopo la comparsa della mutazione, quando essa è ancora rara e quindi esposta agli effetti del caso quasi quanLo un gene non soggetto a selezione. Tuttavia, dopo il periodo iniziale, appena l'allele vantaggioso raggiunge una frequenza più elevata, la deriva genetica avrà uno scarso effetto sul processo selettivo. Quando nasce una nuova mutazione, il suo destino dipenderà molto dagli effetti che essa determina sull'individuo che ne è portatore: se la mutazione è.sfavorevole verrà presto eliminata insieme ai suoi portatori; se è vantaggiosa, la sua frequenza aumenLerà e, nonostante l'incertezza iniziale sul suo destino dovuta alla deriva genetica (come visto in precedenza), potrebbe infine fissarsi. Se la mutazione è selellivamenle neutra, sarà determinante soltanto la deriva genetica, e il suo destino finale sarà la fissazione o l'estinzione; quest'ultima si verifica molto più di frequenLe, e vi è un'alta probabilità che una mutazione nuova scompaia in poche generazioni. Vi è però una piccola probabilità che la mutazione soprawiva e possa fissarsi per il solo effetto della deriva genetica, poiché per la fissazione è necessario in media un tempo molto lungo, che cresce linearmente con l'aumentare delle dimensioni della popolazione. Se ne potrebbe dedurre che il peso di nuove mutazioni abbia di per sé uno scarso effetto sul processo di cambiamento evolutivo, ma questa conclusione, che è stata condivisa da molti per qualche tempo, si è dimostrata sbagliata. Una popolazione è formata da più individui, tutti esposti a mutazioni, e questo controbilancia il fatto che le mutazioni siano rare; è stato infatti dimostrato, a livello teorico, che il tasso di evoluzione neutra - cioè dovuta solo a mutazione e deriva genetica, senza selezione - è uguale al tasso di mutazione (Kimura, 1968; 1983). Il numero relativo di differenze amminoacidiche nella stessa proteina in due specie diverse aumenta con il tempo di separazione evolutiva tra le due specie (calcolato in base a dati geologici). Da questi dati si può calcolare il tasso di evoluzione molecolare, che è approssimativamente costante per una data proteina, e si poss