238 92 1MB
Italian Pages 130 [139] Year 2019
Documento acquistato da () il 2023/04/27.
BRUNO DELLE DONNE MARCELLA DELLE DONNE LORENZA DI PENTIMA CAROLINA FACIONI MARY FRAIRE
Capire la statistica Metodi e Indici statistici in ambito sociale sanitario economico Introduzione di Rosaria Alvaro
LIGUORI EDITORE www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
Bruno Delle Donne Marcella Delle Donne Lorenza Di Pentima Carolina Facioni Mary Fraire
Capire la statistica Metodi e Indici statistici in ambito sociale sanitario economico Introduzione di Rosaria Alvaro
Liguori Editore
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
Questa opera è protetta dalla Legge sul diritto d’autore (http://www.liguori.it/areadownload/LeggeDirittoAutore.pdf). L’utilizzo del libro elettronico costituisce accettazione dei termini e delle condizioni stabilite nel Contratto di licenza consultabile sul sito dell’Editore all’indirizzo Internet http://www.liguori.it/ebook.asp/areadownload/eBookLicenza. Tutti i diritti, in particolare quelli relativi alla traduzione, alla citazione, alla riproduzione in qualsiasi forma, all’uso delle illustrazioni, delle tabelle e del materiale software a corredo, alla trasmissione radiofonica o televisiva, alla pubblicazione e diffusione attraverso la rete Internet sono riservati. La duplicazione digitale dell’opera, anche se parziale è vietata. Il regolamento per l’uso dei contenuti e dei servizi presenti sul sito della Casa Editrice Liguori è disponibile all’indirizzo Internet http://www.liguori.it/politiche_contatti/default.asp?c=contatta#Politiche Liguori Editore Via Posillipo 394 – I 80123 Napoli NA http://www.liguori.it/ © 2019 by Liguori Editore, S.r.l. Tutti i diritti sono riservati Prima edizione italiana Ottobre 2019 Delle Donne, Marcella : Capire la statistica. Metodi e Indici statistici in ambito sociale sanitario economico/ Bruno Delle Donne, Marcella Delle Donne, Lorenza Di Pentima, Carolina Facioni, Mary Fraire Napoli : Liguori, 2019 ISBN 978 – 88 – 207 – 6840 – 9 (a stampa) eISBN 978 – 88 – 207 – 6841 – 6 (eBook) 1. Statistica 2. Apprendimento I. Titolo II. Collana III. Serie Aggiornamenti: ————————————————————————————————————————— 2025 2024 2023 2022 2021 2020 2019 10 9 8 7 6 5 4 3 2 1 0
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indice
Documento acquistato da () il 2023/04/27.
1 Introduzione Rosaria Alvaro 5
Il contributo della psicologia nell’apprendimento della statistica Lorenza Di Pentima 1. Introduzione 2. Motivazione e apprendimento: il contributo degli studi psicologici 3. Le difficoltà inerenti l’apprendimento della statistica 4. Come superare le sfide nell’apprendimento della statistica 5. Considerazioni conclusive Riferimenti bibliografici
21
5 6 10 12 17 19
L’importanza della statistica Marcella Delle Donne 1. Introduzione 21 2. La statistica come “Deus ex Machina” delle rivoluzioni del XIX secolo 22 3. Nascita della statistica come scienza 26 Riferimenti bibliografici 28
29
La statistica nella società della data science Mary Fraire 1. Origini storiche e definizione di statistica 2. Le fonti dei dati e la loro attendibilità 3. Indagine o esperimento? Analisi esplorative e analisi confermative 4. Gli anni ’70: sviluppo dei pc, software e la nascita dell’analisi multidimensionale dei dati (AMD) 5. L’AMD come ‘sistema’: un approccio alla complessità 6. Gli anni ’90: diffusione dei Pc, informatica, software statistici anche ‘open source’ e l’evoluzione dell’AMD 7. Gli anni ’90: i big social data e la nascita dell’Analisi Automatica dei Dati Testuali (AADT) 8. Gli anni 2000: lo sviluppo del data mining e della data science 9. Ruolo e importanza della evoluzione scientifica della statistica per le nuove professioni: data science e data scientist 10. I percorsi di formazione per diventare data scientist, tra Università, MOOC e Bootcamp Riferimenti bibliografici
29 31 32 33 35 37 38 40 41 44 45
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
VI Indice
Documento acquistato da () il 2023/04/27.
47
Indici e metodi statistici Bruno Delle Donne I. Premessa A - Definizioni B - Nomenclatura C - Rappresentazioni II. Indici statistici A - Medie B - Variabilità C - Rapporti statistici D - Relazioni statistiche E - Esemplificazioni pratiche III. Metodi statistici A - Calcolo delle probabilità B - Il campionamento C - Inferenza statistica D - Esemplificazioni pratiche E - Tavole per l’inferenza statistica Riferimenti bibliografici
119
47 49 53 55 58 62 69 80 83 91 95 105 107 117
Le fonti dei dati e la statistica ufficiale Carolina Facioni 1. Contro la disinformazione diffusa 2. Qual è il valore aggiunto delle statistiche ufficiali? 3. Le fonti della statistica ufficiale in Italia 4. Il processo che porta ai dati e la loro accessibilità 5. Possiamo avere dati ufficiali su qualsiasi argomento? Riferimenti bibliografici
119 121 123 124 127 130
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Introduzione
Documento acquistato da () il 2023/04/27.
di Rosaria Alvaro
Come viene ricordato nel primo capitolo del testo per molti studenti la parola statistica evoca una materia ostica, un esame difficile da superare, un esame che crea ansia1. Nella letteratura internazionale relativa agli atteggiamenti cognitivi ed emotivi verso la statistica2, questa percezione è dovuta principalmente ad una “rapporto conflittuale” vissuto dallo studente durante il percorso scolastico con la matematica. La statistica quindi con le sue formule è vista dagli studenti quasi come una matematica avanzata di difficile comprensione con scarsa utilità pratica. Questo problema comune a tutti gli studenti dei vari indirizzi universitari è percepito maggiormente in quelli iscritti ai Corsi di Laurea in medicina e delle professioni sanitarie. Cos’è, allora, la statistica – e a cosa serve? I mezzi di comunicazione ci ricordano costantemente che viviamo nella società dell’informazione e ci vengono in continuazione fornite cifre sui molti ed eterogenei aspetti della vita e del sistema sociale: dati sull’andamento dei prezzi, dati sui processi migratori, dati relativi al gradimento di un programma o di un partito. Colpisce la quantità impressionante di sondaggi cui i cittadini vengono sottoposti. Ma come stabilire se le informazioni che ci vengono fornite siano correttamente e criticamente intese – e come scegliere i dati statistici e le fonti più adeguate nel contesto della ricerca, evitando, in caso di scelte errate, di dare (e darsi) interpretazioni poco rispondenti ai fenomeni oggetto di studio che si
1
Per maggiori approfondimenti sul tema vedi Mary Fraire, Serenella Stasi, 2014, La misurazione degli aspetti non cognitivi nell’apprendimento degli studenti tramite indici sintetici. Risultati di un’indagine svolta nell’Università Sapienza di Roma (Assessment of Students’ Non Cognitive Factors in Learning by Index) In “Sociologia e Ricerca Sociale” n.104 DOI: 10.3280/SR2014-104005 ISSN 1121-1148, ISSNe 1971-8446. 2 I. Gal, L. Ginsburg, 1994, The Role of Beliefs and Attitudes in Learning Statistics: Towards an Assessment Framework, in “Journal of Statistics Education” II, 2, http:// www.amstat.org/ publications/jse/v2n2/gal.html.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
2 Capire la statistica
vogliono rappresentare? Questo libro cerca, appunto, di introdurre il lettore alla statistica; se possibile, dandogli un nuovo modo di guardare alla disciplina ed ai dati che produce. Inizialmente, Lorenza Di Pentima pone l’accento sull’importanza di conoscere i motivi che sono alla base del successo o dell’insuccesso dell’apprendimento delle conoscenze, illustrando in modo efficace le teorie psicologiche relative al funzionamento della mente umana nel processo dell’apprendimento. Il saggio fornisce un prezioso aiuto per il superamento delle difficoltà che si generano nell’approccio a materie considerate ostiche, offrendo importanti suggerimenti non solo agli studenti, ma anche ai docenti di statistica, mettendo in luce la necessità di mostrare, sin dai corsi di base, il valore della disciplina applicata, in termini di esplorazione e conoscenza di un fenomeno e alla verifica dell’efficacia di metodiche messe a punto per la risoluzione di problemi concreti. Successivamente Marcella Delle Donne affronta la storia della statistica in un’ottica sociologica. Nel capitolo viene sottolineato come il mutamento delle condizioni sociali, storiche, demografiche e politiche abbia favorito e reso necessario lo sviluppo della disciplina. La Delle Donne introduce il lettore alla statistica mostrandone l’importanza per lo sviluppo della società moderna. Mary Fraire, nel terzo capitolo, delinea la storia della statistica e ne ipotizza il possibile sviluppo futuro, sottolineando l’importanza della nuova frontiera della data science, disciplina (ormai presente in molte università) a cavallo tra informatica e statistica. Una frontiera, tuttavia, a suo avviso non priva di rischi: ad esempio, quello di formare degli informatici specializzati nell’analisi dei big data che siano estremamente competenti da un punto di vista prettamente tecnico, ma che potrebbero, per un difetto di formazione “a tutto tondo”, non avere una altrettanto adeguata capacità di interpretazione dei dati. Il capitolo spiega inoltre come la statistica sia cambiata nel tempo, mostrando l’influenza dello sviluppo negli anni ’70 dei software statistici sullo sviluppo dell’analisi multidimensionale dei dati (AMD), fondamentale per affrontare l’analisi di fenomeni complessi. L’AMD viene qui analizzata e presentata come un sistema, i cui i vari passaggi sono esplicitati all’interno di una mappa concettuale, mappa che verrà poi ripresa anche per il contesto dell’analisi automatica dei dati testuali, come pure delle tecniche di analisi applicate a particolari dati testuali quali i big social data, per loro natura destrutturati e di difficile interpretazione. Proprio sulle nuove frontiere della ricerca legate al data
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
Introduzione 3
mining e ai big social data si chiude il capitolo, offrendo una preziosa lettura critica dei nuovi percorsi di formazione della data science. Il capitolo di Bruno Delle Donne raccoglie l’esperienza delle lezioni di statistica da lui svolte presso la Facoltà di Sociologia della Sapienza – Università di Roma. In questo contesto vengono forniti, in modo chiaro ed intuitivo, i fondamentali elementi della disciplina, consentendo al lettore la comprensione degli elementi spesso considerati difficili dagli studenti, ma a loro necessari per la creazione di un bagaglio di conoscenze indispensabile allo studio e quindi all’approfondimento della materia. Il testo si divide in tre parti. Nella prima vengono fornite le definizioni e la descrizione degli elementi fondanti della statistica. Nella seconda vengono illustrati i principali indici, mentre la terza parte è dedicata ai metodi statistici. Nel testo sono presenti applicazioni a casi di studio concreti che rendono chiaro quanto illustrato. L’ultimo capitolo, di Carolina Facioni, sposta l’accento sul fronte della fruizione dei dati, un altro aspetto sul quale occorre, a suo avviso, fare chiarezza per evitare gli errori che derivano non tanto da una carenza di informazione, quanto, paradossalmente, da un eccesso di informazione. Un aspetto, questo, che caratterizza in particolare questi ultimi anni, in cui la Rete, per la sua caratteristica peculiare di diffusione immediata di qualsiasi tipo di dato, può farsi veicolo di informazioni tanto veritiere quanto false, ponendole tutte sullo stesso piano. Si rende quindi necessario che gli utenti di dati – in Rete e non solo – sviluppino uno spirito critico, in cui il controllo della validità delle fonti di informazioni diventi il criterio basilare. In questo senso, illustra l’importanza delle fonti ufficiali come punto di partenza della conoscenza dei fenomeni – e fornisce suggerimenti pratici sull’accesso ai principali data warehouse sui siti ufficiali nazionali e non. In sintesi, un libro che vuol essere utile a liberare gli studenti dai timori e delle antipatie irrazionali nei confronti di una materia, la statistica, che invece, se approcciata in modo diverso e senza pregiudizi, può rivelarsi anche divertente e si rivelerà, in tal modo, uno strumento prezioso per meglio costruire le proprie conoscenze, qualsiasi sia la strada che vorranno percorrere. Rosaria Alvaro Professore Ordinario in Scienze Infermieristiche Università di Roma Tor Vergata
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Il contributo della psicologia nell’apprendimento della statistica Lorenza Di Pentima
Documento acquistato da () il 2023/04/27.
1. Introduzione Vi siete mai fermati a riflettere su quali fossero i motivi dei vostri successi nell’apprendimento di una specifica disciplina, oppure, al contrario, vi siete mai domandati per quali ragioni non siete riusciti a raggiungere un livello soddisfacente in una materia di studio? È di certo un’esperienza molto gratificante superare con un voto eccellente una prova d’esame, ma è altrettanto frustrante vedere vanificati i propri sforzi e finire per pensare di non aver proprio capito i fondamenti di un determinato campo del sapere. Magari dopo qualche tentativo non coronato da successo, avete semplicemente accantonato la faccenda convincendovi che non eravate portati per quella materia in particolare, oppure il docente non era all’altezza dell’insegnamento e avete desistito, rinunciando ad impegnarvi per raggiungere un buon livello di apprendimento. Questo accade frequentemente alle scuole superiori con materie quali la matematica o la fisica, oppure a livello di studi universitari quando ci si deve confrontare con materie come la statistica o la metodologia della ricerca scientifica. Ma cosa ci dicono le indagini empiriche nell’ambito della psicologia in merito al funzionamento della mente umana inerente l’apprendimento e, soprattutto, è possibile superare le difficoltà quando ci confrontiamo con materie ad alto carico cognitivo, come appunto la matematica o la statistica?
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
6 Capire la statistica
Documento acquistato da () il 2023/04/27.
2. Motivazione e apprendimento: il contributo degli studi psicologici Un ampio corpo di studi nell’ambito della psicologia ha individuato molteplici fattori che esercitano una influenza importante nel determinare l’entità dell’impegno e della perseveranza nell’apprendimento di specifiche discipline. Continuare con tenacia ad incrementare gli sforzi di studio quando ci troviamo di fronte ad una materia complessa può essere ricondotto ad un intreccio di variabili, talune delle quali dipendono dal contesto di apprendimento e dalle caratteristiche della disciplina, altre sono strettamente legate alle caratteristiche individuali1. Riveste una rilevanza non trascurabile la cultura di appartenenza, l’ambito accademico, la classe in termini di qualità della relazione con gli altri discenti (si pensi alle dinamiche di competizione che possono scattare all’interno di un gruppo-classe per l’affermazione del proprio valore personale) e con i docenti. Questi ultimi possono trasmettere l’importanza di raggiungere livelli elevati di apprendimento in specifici ambiti di conoscenza. Spesso gli studenti si impegnano in compiti accademici senza averne compreso il valore. I docenti possono influenzare la loro motivazione mostrando quanto l’acquisizione di determinate expertise sia indispensabile per il proprio percorso formativo e per la futura preparazione professionale. Secondo la teoria dell’aspettativa – valore la maggiore motivazione all’apprendimento è influenzata dall’aspettativa di raggiungere un successo rispetto un certo compito e dall’elevato valore che viene conferito a tale compito2. Difatti quanto più la probabilità di conseguire un successo è alta in relazione ad un ambito di apprendimento ritenuto importante per se stessi, tanto più si è spinti ad incrementare i propri sforzi. Le caratteristiche individuali, invece, sono inerenti al senso di competenza personale, sia generale (ad esempio quanto ci si sente competenti ad affrontare situazioni impegnative), sia specifico in relazione alla disciplina oggetto di studio (ad esempio quanto ci si
1
Alderman M. K., 2008, Motivation for achievement: Possibilities for teaching and learning (3rd ed.), New York, Routledge. 2 Wigfield A., Eccles J.S., Yoon K.S., Harold R.D., Arbreton A.J.A., Freedman-Doan C., &Blumenfeld P.C., 1997, Change in children’s competence beliefs and subjective task values across the elementary school years: A 3-year study, Journal of Educational Psychology, 89, 451–469.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
Il contributo della psicologia nell’apprendimento della statistica 7
sente capaci ad apprendere i costrutti propri di una certa materia). Alla base del senso di competenza personale sembrano esservi processi cognitivi, che riguardano il proprio modo costante di individuare le cause dei successi oppure dei fallimenti, ovvero quei processi cognitivi che vengono definiti stile attribuzionale. Nella vita quotidiana costantemente siamo indotti ad individuare le cause sottostanti gli eventi sociali e i comportamenti propri ed altrui. Molti modelli teorici sono stati proposti per spiegare come giungiamo a definire la connessione tra cause ed eventi. In particolare Weiner3 ha proposto un modello interpretativo, secondo il quale le cause degli eventi vengono classificate in base a tre dimensioni: il locus of control, la stabilità e la controllabilità. Il locus of control concerne ove si collocano le cause, ovvero se sono interne all’individuo (ad esempio l’impegno o l’abilità), oppure se sono esterne (ad esempio la difficoltà o la fortuna). La stabilità riguarda la possibilità di prevedere gli eventi futuri; più una causa è stabile più è prevedibile: ad esempio l’abilità per uno specifico compito è una causa interna altamente prevedibile, mentre l’umore è una causa interna molto variabile, quindi instabile e poco prevedibile. La controllabilità, infine, concerne le previsioni di controllo personale a cui si associano specifiche reazioni affettive. Ad esempio, l’impegno è una causa interna controllabile in quanto possiamo decidere noi quanta tenacia infondere nel risolvere un compito, mentre l’abilità è una causa interna percepita come incontrollabile, poiché rispetto ad una specifica disciplina riteniamo di avere le capacità di apprenderla o meno indipendentemente dalla nostra volontà. La difficoltà di un compito è una causa esterna e non controllabile, li dove l’aiuto che può pervenirci dagli altri è una causa esterna, ma controllabile (vedere Tabella 1). Le attribuzioni dei fallimenti a cause interne stabili e incontrollabili, come la mancanza di abilità, producono reazioni emotive come la depressione, la rassegnazione o l’apatia, al contrario, le attribuzioni a cause interne e controllabili (vedi l’impegno) in caso di successo danno luogo a senso di competenza e aumento della fiducia in se stessi.
3
Weiner B., 1985, An attributional theory of achievement motivation and emotion, Psychological Review, 92(4), 548-573; Weiner B, 1986, An attributional theory An attributional theory of motivation and emotion, New York, Springer-Verlag.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
8 Capire la statistica
Tabella 1 – Modello attribuzionale di Weiner Stabile Interno Instabile Locus of control Stabile Esterno Instabile
Controllabile Incontrollabile Controllabile Incontrollabile Controllabile Incontrollabile Controllabile Incontrollabile
Tenacia Abilità Impegno Tono dell’umore Pregiudizio Difficoltà del compito Aiuto degli altri Caso/fortuna
Documento acquistato da () il 2023/04/27.
Tratto da De Beni & Moè (1995)
La prestazione nei compiti cognitivi sembra strettamente legata a come individuiamo le cause dei nostri successi o insuccessi; in altri termini è fondamentale il nostro stile attribuzionale4. In particolare appare come alquanto rilevante nell’apprendimento la relazione tra controllo e impegno5. Quando vengono attribuiti eventuali fallimenti in un obiettivo di apprendimento (ad esempio una prova di esame) a cause interne, instabili, ma al contempo soggette al nostro controllo, come nel caso di uno scarso impegno, tale meccanismo cognitivo non pregiudica la prestazione futura, anzi ci induce ad aumentare lo sforzo poiché riteniamo di poter esercitare un controllo sull’esito delle nostre strategie di apprendimento. Peraltro il miglioramento nella prestazione contribuisce ad aumentare il senso di controllo personale e, quindi, anche l’impegno all’interno di un circolo virtuoso che incentiva la tenacia nel perseguimento dei propri obiettivi. Al contrario, quando si ritiene che i successi o i fallimenti siano imputabili a fattori al di fuori del proprio controllo, come ad esempio la mancanza di abilità per una materia e/o disciplina specifica, è poco probabile che si decida di incrementare gli sforzi in situazioni che richiedono un alto carico cognitivo. L’esperienza di insuccessi reiterati può indurre a ritenere che non sussista alcuna relazione tra l’impegno e il risultato finale; questo processo attribuzionale da un lato spinge l’individuo a desistere nel continuare a perseguire uno specifico obiettivo di
4 Borkowski J.G., &Muthukrishna N., 1994, Lo sviluppo della metacognizione nel bambino: Un modello utile per introdurre l’insegnamento metacognitivo in classe, Insegnare all’handicappato, 8(3), 229-251. 5 De Beni R., & Mazzoni G., 1991, L’attribuzione e la fiducia nelle proprie abilità mnestiche, Età Evolutiva, 38, 32-50.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
Il contributo della psicologia nell’apprendimento della statistica 9
apprendimento6 e, dall’altro, il considerare il fallimento come conseguenza di una mancanza di abilità ha, quale effetto, l’abbassamento del livello di autostima personale7. Ricondurre un fallimento ad una causa interna, stabile e per giunta non controllabile, come la mancanza di abilità, è associato al fenomeno dell’impotenza appresa, secondo il quale, a seguito di insuccessi ripetuti, l’individuo si convince che per lui non è possibile raggiungere un apprendimento adeguato e finisce per abbandonare il compito8. Al fine di evitare l’esperienza frustrante di un insuccesso, infatti, spesso decidiamo di cimentarci in ambiti in cui riteniamo di essere competenti così da avere una più elevata probabilità di raggiungere gli obiettivi prefissi, mentre evitiamo compiti che valutiamo troppo difficili per noi con una alta aspettativa di fallimento. Abbiamo cercato, attraverso i quesiti iniziali, di illustrare i fattori che contribuiscono a mantenere l’impegno nel conseguire un successo nell’apprendimento, oppure di descrivere i processi cognitivi che scattano quando diamo conto delle ragioni che hanno causato un insuccesso. Abbiamo visto che alcuni processi attribuzionali concorrono ad innescare circoli viziosi per cui si finisce per abbandonare un compito specifico. Come allora è possibile favorire l’impegno li dove sono stati sperimentati ripetuti fallimenti e incentivare la tenacia per raggiungere dei successi nell’apprendimento? In questo ambito sono stati messi a punto molti training metacognitivi e attribuzionali, che possiedono alcuni principi di base in comune. Ad esempio è molto importante insegnare agli studenti che i risultati conseguiti, siano essi positivi o negativi, devono essere attribuiti a cause interne controllabili, come l’impegno, e non a fattori interni non controllabili come la mancanza di abilità, oppure a cause esterne come l’aiuto che può essere fornito da altri9. È altrettanto importante insegnare a considerare il fallimento come un evento normale e indicativo della necessità di aumentare il proprio 6
Licht B.G., 1983, Cognitive-motivational factors that contribute to the achievement of learning-disabled children, Journal of Learning Disabilities, 16, 483-489. 7 Nicholls J.G., 1975, Causal attributions and other achievement related cognitions: Effects of task outcome, attainment value, and sex, Journal of Personality and Social Psychology, 31, 379-389. 8 Seligmann M.E.P., 1975, Helplessness, San Francisco, Freeman. 9 Ames C., & Archer, J., 1988, Achievement goals in the classroom: Student’s learning strategies and motivation processes, Journal of Educational Psychology, 80, 260-267; Cornoldi C., De Beni R., &Gruppo MT, 1993, Imparare a studiare, Trento, Erickson.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
10 Capire la statistica
impegno. In altri termini, si deve sostenere il mantenimento della tenacia nel perseguimento degli obiettivi di apprendimento. All’interno dei training, poi, è opportuno aiutare gli studenti a riflettere sulle possibili cause dei fallimenti ed anche sul proprio modo consueto di individuare le cause degli insuccessi, imparando a modificare lo stile attribuzionale li dove si riveli disfunzionale. Infine, è necessario insegnare strategie nuove di apprendimento, facendo esercitare gli studenti e fornendo feedback costanti, così da far acquisire la consapevolezza che i successi possono essere conseguiti attraverso un impegno continuo10.
Documento acquistato da () il 2023/04/27.
3. Le difficoltà inerenti l’apprendimento della statistica Le difficoltà inerenti l’apprendimento, come è stato illustrato nel paragrafo precedente, rispondono a molteplici cause, alcune delle quali riguardano le caratteristiche della persona e del contesto in cui avviene l’apprendimento, altre riguardano la natura specifica dell’oggetto della conoscenza. Per ciò che concerne la statistica non sono numerosi gli studi che hanno esplorato l’atteggiamento degli studenti e gli ostacoli nell’approccio a questa disciplina. Le difficoltà di apprendimento, che le ricerche hanno messo in luce, possono essere ricondotte principalmente alle seguenti aree: 1) la percezione della natura matematica della statistica induce gli studenti a ritenere che la comprensione di questa materia necessiti di capacità cognitive di ragionamento logico di tipo astratto, rispetto alle quali non tutti sono certi di avere sufficienti competenze11; 2) non sempre gli studenti riescono ad individuare l’importanza delle conoscenze statistiche all’interno del proprio percorso di studi accademici12; 3) non sempre gli studenti riescono a tradurre le conoscenze teoriche in competenze pratiche, individuando il contesto applicativo dei metodi e delle tecniche, che vengono presentate in aula13. 10 Borkowski J.G., Weyhing R.S., & Turner L.A., 1988, Attributional retraining and the teaching of strategies, Exceptional Children, 53(2), 130-137. 11 Snee R.D, 1993, What’s missing in statistical education? The American Statistician, 47, 149-154. 12 Snee, cit. 13 Barab S.A., Squire K.D., &Dueber W., 2000, A co-evolutionary model for supporting the emergence of authenticity, The Journal of Education Technology, Research, and Development, 48(2), 37-62.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
Il contributo della psicologia nell’apprendimento della statistica 11
In uno studio, che ha coinvolto 218 studenti universitari statunitensi, sono state esplorate le sfide sia nell’insegnamento per i docenti sia nell’apprendimento per gli alunni, che vengono dalle scienze statistiche a livello di un curriculum accademico14. Attraverso un questionario, creato all’uopo, gli autori hanno indagato le principali aree, che gli studenti ritengono significative per migliorare l’insegnamento e conseguentemente l’apprendimento della statistica. Per ciò che concerne gli insegnamenti, erogati dai corsi di studio, gli studenti individuano più livelli sensibili, sui quali ritengono necessario un cambiamento. Partendo da un livello più macro, emerge la necessità di una diversa organizzazione accademica, che implica il coinvolgimento del supporto amministrativo, in cui vengono introdotte modificazioni nell’ordinamento didattico in termini di collocamento degli insegnamenti statistici in anni diversi, che fanno seguito ad un corso propedeutico di matematica di base. Viene anche avvertita la necessità di garantire una consulenza agli studenti durante il loro percorso formativo. Criticità vengono evidenziate anche rispetto al curriculum e ai contenuti dei corsi: gli studenti sollevano osservazioni riguardo a ciò che viene insegnato, ritenendo che alcune aree tematiche dovrebbero essere sostituire a favore di una caratterizzazione più pragmatica e meno teorica. Ad un livello più micro, concernente l’insegnamento erogato in aula dai docenti, l’attenzione degli studenti viene posta in primo luogo sui metodi didattici, che dovrebbero maggiormente favorire la comprensione, la memorizzazione e soprattutto incentivare le capacità applicative delle tecniche e dei metodi di analisi. Rilevanza, poi, viene conferita alle strategie impiegate dai docenti per valutare l’apprendimento raggiunto dagli studenti, introducendo procedure valutative che affiancano i metodi più classici, come momenti di discussione, oppure elaborati scritti sotto forma di tesine. La gestione della classe, nei termini di un buon equilibrio tra i tempi dedicati agli aspetti teorici e a quelli pratici e applicativi, si evidenzia come un altro punto importante al fine di massimizzare l’apprendimento dei materiali e dei contenuti della disciplina. Infine anche le caratteristiche e gli atteggiamenti del docente vengono percepiti dagli studenti come aventi un impatto sulla loro motivazione allo studio della statistica; 14
Cherif A.H., Harris J.D., & Murphy M., 2017, Identifying and overcoming challenges in teaching and learning college level statistics: Faculty perspective, International Journal of Latest Research in Engineering and Technology, 3(12), 14-40.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
12 Capire la statistica
da questo punto di vista l’entusiasmo nell’insegnare, la spinta a voler creare un rapporto con gli studenti, all’interno del quale questi ultimi sentono accolte le loro difficoltà, sono aspetti che vengono segnalati come suggerimenti irrinunciabili per una docenza efficace. Per ciò che concerne le sfide che riguardano gli studenti, vengono segnalati aspetti più generali, quali l’atteggiamento verso lo studio complessivamente, oppure il tempo che viene dedicato all’apprendimento. Vi sono, poi, dimensioni più specifiche che riguardano la percezione dello studente in merito sia all’avere quelle competenze necessarie per un adeguato apprendimento della statistica, come le conoscenze matematiche, sia al possedere o meno attitudini per la comprensione della materia, ovvero le abilità interne secondo il modello di Weiner15. Emerge dalle interviste, difatti, una paura piuttosto condivisa di non possedere le abilità, ritenute indispensabili per comprendere i contenuti propri della disciplina e di riuscire a padroneggiare, peraltro, gli strumenti tecnologici e i software messi a punto per condurre l’elaborazione e l’analisi dei dati.
4. Come superare le sfide nell’apprendimento della statistica Le indagini empiriche, che hanno esplorato le difficoltà nell’apprendimento della statistica, non solo hanno messo in luce gli aspetti di criticità della disciplina e di come viene impartita in aula, ma hanno anche proposto approcci didattici nuovi, che fossero in grado di dare risposta concreta ai bisogni degli studenti. Cherif, Harris e Murphy16, ad esempio, sulla base di quanto segnalato dai partecipanti allo studio, che abbiamo illustrato nel paragrafo precedente, giungono a descrivere alcuni cambiamenti che potrebbero essere apportati nelle aree ritenute critiche (vedere Tabella 2). Gli studenti indicano tra le priorità la rilevanza di incentivare la loro motivazione allo studio della statistica mostrando quanto i costrutti di questa disciplina sono importanti sia nel loro percorso accademico, per una migliore comprensione delle altre materie, sia perché essi forniscono strumenti operativi per interpretare gli eventi e creare modelli di intervento per risolvere problemi nella realtà concreta. In altri termini le conoscenze statistiche rappre15 16
Weiner, cit. Cherif, Harris e Murphy, cit.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Il contributo della psicologia nell’apprendimento della statistica 13
Documento acquistato da () il 2023/04/27.
sentano uno strumento fondamentale per la futura vita professionale. A questo scopo gli studenti esprimono l’esigenza di frequentare corsi in cui oltre ai costrutti teorici siano presentate applicazioni metodologiche e di analisi a problemi concreti. Tali competenze possono essere acquisite attraverso esemplificazioni ed esercitazioni per la gestione dei dati in aula, oppure con l’assegnazione di progetti, che permettono agli studenti di applicare i modelli teorici. L’apprendimento cooperativo è sentito come un metodo molto efficace, così come l’ascolto degli studenti da parte dei docenti viene avvertito come una necessità irrinunciabile. Tabella 2 – Suggerimenti indicati dagli studenti per migliorare l’apprendimento della statistica Motivare gli studente a vedere la rilevanza dei contenuti presentati sia nella loro vita attuale sia nella futura carriera accademica Rendere i materiali interessanti Dimostrare l’efficacia degli apprendimenti nell’applicazione a problemi e attività nella realtà Fornire molti esempi, attività ed esercizi per la gestione dei dati Fornire le conoscenze base della matematica necessarie per l’apprendimento della statistica Assegnare progetti in cui gli studenti devono applicare la statica in modo da favorire la comprensione dei concetti teorici I docenti dovrebbero utilizzare differenti metodi di apprendimento cooperativo nell’insegnare la statistica I docenti dovrebbero ricorrere ad approcci basati sull’ascolto degli studenti Tratto da Cherif, Harris, & Murphy (2017)
L’applicazione dei costrutti teorici alla risoluzione di problemi concreti è stata enfatizzata come una strategia efficace per l’apprendimento anche da precedenti ricerche. Ad esempio Snee17 suggerisce di abbandonare l’approccio matematico e probabilistico e di incentrare i corsi sulla raccolta dei dati, la loro rappresentazione grafica, le indagini, i disegni di ricerca e il problem solving. In particolare la raccolta dei dati sembra promuovere l’apprendimento poiché getta un ponte tra il livello teorico e quello dell’applicazione concreta per la comprensione degli eventi sociali o per l’elaborazione di modelli di intervento18. 17
Snee, cit. Moore D.S., 1997, New pedagogy and new content: The case of statistics, International Statistical Review, 65(2), 123-137. 18
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
14 Capire la statistica
A dimostrazione dell’importanza di quanto stiamo affermando appare interessante citare lo studio condotto da Hans van Buuren19 presso la Open Universiteit Nederland. La ricerca ha messo a confronto il livello di apprendimento di 340 studenti, che avevano seguito i corsi tradizionali di statistica, con quello di 128 studenti, che avevano frequentato corsi integrati, finalizzati a fornire sin dall’inizio competenze di ricerche. I corsi più tradizionali (vedere Tabella 3), infatti, si caratterizzano per una organizzazione per livelli: nei primi vengono erogate conoscenze puramente teoriche, accompagnate da esemplificazioni inerenti l’applicazione di alcune tecniche di analisi. Le verifiche del livello di apprendimento raggiunto, specie dei corsi di base, sono per lo più incentrate su prove orali, che prevedono la discussione dei concetti teorici illustrati durante le lezioni. Le verifiche dei corsi avanzati comprendono una parte più pratica, in cui si richiede di presentare un progetto di ricerca sulla base dell’analisi della letteratura, oppure un report di indagine. La conclusione dell’intero percorso di studi è basata su una prova finale, in cui viene discussa una ricerca presentata sotto forma di paper, stilato in accordo alle norme APA. I corsi integrati (vedere Tabella 4), al contrario, hanno una configurazione modulare: sin dall’inizio ciascun modulo è incentrato su specifiche tecniche di analisi, relative al trattamento di dati differenti (ad esempio dati qualitativi versus quantitativi), associate a raccolta dati e alla loro elaborazione (analisi parametriche e non parametriche). Moduli intermedi comprendono la conduzione di survey con costruzione e somministrazione di questionari, oppure analisi di correlazione, regressione lineare, analisi log-lineare. I moduli avanzati prevedono di cimentarsi con disegni sperimentali e analisi della varianza Anova e Manova, oppure di applicare tecniche di osservazione ed interviste con analisi di dati qualitativi mediante tecniche non parametriche. La prova di esame finale consiste in un elaborato scritto, in cui vengono presentate e discusse tutte le procedure di analisi apprese nei singoli moduli.
19
van Buuren H., 2006, Teaching statistics and research methods: An integrated approach. International Association of Statistical Education, 7, https://iase-web.org/ Conference_Proceedings.php?p=ICOTS_7_2006
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Il contributo della psicologia nell’apprendimento della statistica 15
Documento acquistato da () il 2023/04/27.
Tabella 3 – Curriculum accademico tradizionale Corsi
Contenuti
Prova finale
1
Statistica 1 (120 ore)
Analisi descrittive (fino alle analisi bivariate con associazione, regressione e correlazione)
Scelta multipla: item indipendenti
2
Statistica 2 (120 ore)
Teoria della probabilità (fino all’Anova)
Scelta multipla: item indipendenti
3
Metodi della ricerca 1 (120 ore)
Concetti metodologici (survey) Questionario: costruzione e somministrazione di interviste
Scelta multipla: item indipendenti Protocolli di intervista
4
Metodi della ricerca 2 (120 ore)
Concetti metodologici (l’esperimento) L’osservazione
Scelta multipla: item indipendenti Protocolli di osservazione
5
Metodi della ricerca 3 (120 ore)
Concetti della ricerca qualitativa, studi Elaborazione di una ricerca per di caso uno studio di caso
6
Studio della letteratura (120 ore)
Analisi della letteratura recente in merito ad un oggetto di studio per identificare lo stato dell’arte
Elaborazione di una ricerca sulla base dell’analisi della letteratura
7
SPSS (120 ore)
Utilizzo del programma per l’elaborazione di dati (senza l’interpretazione dei risultati)
Report
8
Tesi finale (240 ore)
Costruzione di una ricerca con l’elaborazione di dati
Paper, report di ricerca secondo le norme APA
Tratto da Hans van Buuren (2006)
I risultati dello studio hanno dimostrato che gli studenti, che hanno seguito i corsi integrati nel confronto con coloro che hanno frequentato quelli più tradizionali, hanno raggiunto livelli di apprendimento più elevati con una maggiore capacità di applicare le competenze acquisite in diversi ambiti di indagine e di intervento. Le strategie, finora illustrate per favorire un apprendimento ottimale della statistica, sono incentrate per lo più su indicazioni inerenti i contenuti teorici e pratici che dovrebbero essere insegnati all’interno dei corsi universitari. La capacità dei docenti a fornire competenze applicative, che gli studenti possono riconoscere come un bagaglio indispensabile per la loro futura professione, costituisce un fattore motivante di grande importanza20. Analogamente la possibilità, fornita dai docenti, di svolgere esercitazioni, in cui lo studente può sperimen20 Albrecht J.R., &Karabenick S.A., 2018, Relevance for learning and motivation in education, The Journal of Experimental Education, 86(1), 1-10.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
16 Capire la statistica
tare che grazie all’impegno (la causa interna controllabile di Weiner) è possibile ottenere successi nell’apprendimento, rappresenta un ulteriore fattore che incentiva la motivazione nello studio della disciplina.
Documento acquistato da () il 2023/04/27.
Tabella 4 – Curriculum accademico integrato Ricerca pratica
Fase del problema
Fase dei metodi
Fase dei risultati
1
Analisi parametrica dei dati (120 ore)
4 casi
Metodi di raccolta dati forniti nei casi Analisi secondarie su dati esistenti
Confronto: Medie/deviazione standard Associazione: regressione lineare/ correlazione
2
Survey (120 ore)
4 casi
Costruzione di un questionario (survey) e somministrazione a più di 20 soggetti Scale likert e alfa di Crombach
Regressione lineare/ correlazione Moderazione / mediazione / interazione
3
Ricerca della letteratura (120 ore)
Problemi teorici con giustificazione delle ipotesi
Ricerca di articoli più recenti su un fenomeno specifico
4
Analisi non parametrica dei dati (120 ore)
4 casi
Analisi secondarie su dati esistenti
Confronto: tecniche non parametriche Associazione: tecniche non parametriche, regressione logistica, analisi log-lineare
5
Disegno sperimentale (120 ore)
4 casi con elaborazione delle relazioni causali
Disegni sperimentali
t-test / Anova Manova
6
Osservazione ed intervista (120 ore)
4 casi
Osservazione Analisi del contenuto Interviste in profondità Focus group
Statistiche parametriche Statistiche non parametriche Kappa di Cohen
7
Tesi finale (480 ore)
Giustificazione di un problema teorico
Tutti i metodi trattati
Tutte le misure trattate
Tratto da Hans van Buuren (2006)
Un differente filone di indagini empiriche ha verificato come la motivazione allo studio della statistica e, conseguentemente, il successo accademico nelle prove di verifica, possono essere aumentati anche grazie al metodo dell’apprendimento cooperativo tra studenti. Lavorare in gruppo favorisce i risultati accademici in vario modo:
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
Il contributo della psicologia nell’apprendimento della statistica 17
lo scambio e il confronto reciproco sembrano, infatti, incentivare le capacità critiche e di riflessione, aumentare le abilità comunicative21e incrementare la comprensione dei materiali insegnati in aula22all’interno di processi di lavoro caratterizzati dal supporto vicendevole. L’apprendimento cooperativo nasce all’interno della prospettiva del costruttivismo sociale23. Esso si basa sulla condivisione delle esperienze e permette la costruzione attiva delle conoscenze da parte degli studenti24, anziché promuovere la mera trasmissione passiva dei saperi da parte dei docenti25. La strategia dell’apprendimento cooperativo tra pari, peraltro, può essere impiegata con successo non solo attraverso un lavoro face to face, ma anche costituendo gruppi che si confrontano e si scambiano materiali nel mondo virtuale; stiamo parlando, in altri termini, di un apprendimento cooperativo online. Quest’ultimo sembra essere particolarmente efficace nell’incentivare la motivazione e nel facilitare la comprensione dei costrutti statistici anche negli studenti più giovani, che si approcciano per la prima volta a tale disciplina26.
5. Considerazioni conclusive Come è stato illustrato, vi sono molteplici correlati psicologici sottostanti la motivazione a infondere o meno impegno nell’apprendimento 21
Boud D., 2001, Introduction: Making the move to peer learning, in D. Boud, R. Cohen, & J. Sampson. Peer learning for higher education, (pp. 1–20), London, Kogan Page Limited; Thurston A. & Topping K.J., 2007, Peer tutoring in schools: Cognitive models and organizational typography, Journal of Cognitive Education and Psychology, 6(3), 356–372; Topping K. J., 2005, Trends in peer learning, Educational Psychology, 25(6), 631–645. (25th anniversary edition). 22 Cavallaro F., &Tan K., 2006, Computer-mediated peer-to-peer mentoring, AACE Journal, 14(2), 129–138, Chesapeake, VA: AACE. 23 Vygotsky L., 1978, Interaction between learning and development (pp. 79–91), Cambridge, MA, Harvard University Press. 24 Liaw S.-S., Chen G.-D., & Huang H.-M., 2008, Users’ attitudes toward Web-based collaborative learning systems for knowledge management, Computers & Education, 50(3), 950–961; Sinclaire M. P., 2005, Peer interactions in a computer lab: Reflections on results of a case study involving web-based dynamic geometry sketches, Journal of Mathematical Behavior, 24, 89–107. 25 Hong S. H., Lai, K. W. & Holton D., 2003, Students’ satisfaction and perceived learning with a web-based course, Educational Technology & Society, 6(1). 26 Razak R.A., & See Y.C., 2010, Improving academic achievement and motivation through online peer learning, Procedia - Social and Behavioral Sciences, 9, 358–362.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
18 Capire la statistica
di materie più complesse, che richiedono uno sforzo cognitivo maggiore e costante, caratterizzato da riflessione, confronto, esercitazione e applicazione dei costrutti teorici. Entrano in gioco fattori legati alla valutazione delle proprie capacità di comprensione, al modo in cui vengono interpretati i successi oppure i fallimenti, all’importanza e al valore conferito all’acquisizione di determinati saperi all’interno del proprio bagaglio formativo. Pertanto, al fine di favorire la motivazione all’apprendimento, è apparso necessario elaborare strategie che puntassero da un lato a supportare il senso di competenza degli studenti e a mostrare loro come attraverso l’impegno e l’esercizio fosse possibile raggiungere un adeguato livello di conoscenza, dall’altro sono stati proposti curricula formativi connotati da un buon equilibrio tra la dimensione teorica e quella applicativa. Tali riflessioni hanno riguardato anche l’insegnamento della statistica, ritenuta da molti studenti un campo di studio particolarmente impegnativo. Le indagini empiriche hanno messo in luce le maggiori difficoltà riscontrate nell’approccio a questa disciplina e, al contempo, hanno proposto strategie di insegnamento e curricula formativi a livello di percorso universitario volti ad incentivare negli studenti la loro motivazione allo studio. Un elemento comune, evidenziato dalle ricerche, concerne la necessità di mostrare sin dai corsi di base di statistica, il valore applicativo in termini di esplorazione e conoscenza di un fenomeno (pensiamo ad esempio alla ricerca di base), e di implementazione di metodi di intervento, ad esempio pensiamo alla ricerca evidenced based, incentrata sulla verifica dell’efficacia di metodiche messe a punto per la risoluzione di problemi concreti. Per favorire la ricerca atta a diffondere buone pratiche di insegnamento della statistica è stata fondata l’International Association for Statistical Education (IASE)27, la quale promuove l’educazione statistica in tutto il mondo. Essa organizza l’International Conference on Teaching Statistics (ICOTS) il cui obiettivo è facilitare lo scambio di idee, esperienze e strategie innovative nel campo dell’educazione statistica tra i professionisti di questa disciplina. I contributi empirici, difatti, riguardano strategie di insegnamento ove la statistica viene applicata a specifici ambiti del sapere e ne viene promossa la docenza in tutte le fasce di età.
27 Si invita il lettore a consultare il sito dell’International Association for Statistical Education: https://iase-web.org/
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Il contributo della psicologia nell’apprendimento della statistica 19
Documento acquistato da () il 2023/04/27.
Riferimenti bibliografici Albrecht J.R., & Karabenick S.A., 2018, Relevance for learning and motivation in education The Journal of Experimental Education, 86(1), 1-10. https://doi.org/10.1080/00220973.2017.1380593 Alderman M. K., 2008, Motivation for achievement: Possibilities for teaching and learning (3rd ed.), New York, Routledge. Ames C., & Archer J., 1988, Achievement goals in the classroom: Student’s learning strategies and motivation processes, Journal of Educational Psychology, 80, 260-267. Barab S.A., Squire K.D., & Dueber W., 2000, A co-evolutionary model for supporting the emergence of authenticity, The Journal of Education Technology, Research, and Development, 48(2), 37-62. Borkowski J.G., & Muthukrishna N., 1994, Lo sviluppo della metacognizione nel bambino: Un modello utile per l’introdurre l’insegnamento metacognitivo in classe, Insegnare all’handicappato, 8(3), 229-251. Borkowski J.G., Weyhing R.S., & Turner L.A., 1988, Attributional retraining and the teaching of strategies, Exceptional Children, 53(2), 130-137. Boud D., 2001, Introduction: Making the move to peer learning, in D. Boud, R. Cohen, & J. Sampson, Peer learning for higher education, (pp. 1-20), London, Kogan Page Limited. Cavallaro F., & Tan K., 2006, Computer-mediated peer-to-peer mentoring, AACE Journal, 14(2), 129–138. CherifA. H., Harris J.D., & Murphy M., 2017, Identifying and overcoming challenges in teaching and learning college level statistics: Faculty perspective, International Journal of Latest Research in Engineering and Technology, 3(12), 14-40. Cornoldi C., De Beni R., & Gruppo MT, 1993, Imparare a studiare, Trento, Erickson. De Beni R., & Mazzoni G., 1991, L’attribuzione e la fiducia nelle proprie abilità mnestiche, Età Evolutiva, 38, 32-50. De Beni R., & Moè A., 1995, Questionario di Attribuzione. Attribuzione delle cause di successo/fallimento in compiti cognitivi, Firenze, Organizzazioni Speciali (OS). Hong S. H., Lai K. W., & Holton, D., 2003, Students’ satisfaction and perceived learning with a web-based course, Educational Technology & Society, 6(1). http://www.ifets.info/journals/6_1/hong.pdf Liaw S.-S., Chen G.-D., & Huang H.-M., 2008, Users’ attitudes toward Webbased collaborative learning systems for knowledge management, Computers & Education, 50(3), 950-961.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
20 Capire la statistica
Licht B.G., 1983, Cognitive-motivational factors that contribute to the achievement of learning-disabled children, Journal of Learning Disabilities, 16, 483-489. Moore D.S., 1997, New pedagogy and new content: The case of statistics, International Statistical Review, 65(2), 123-137. Nicholls J.G., 1975, Causal attributions and other achievement related cognitions: Effects of task outcome, attainment value, and sex, Journal of Personality and Social Psychology, 31, 379-389. Razak R.A., & See, Y.C., 2010, Improving academic achievement and motivation through online peer learning, Procedia - Social and Behavioral Sciences, 9, 358–362. Seligmann M.E.P., 1975, Helplessness, San Francisco, Freeman. Sinclaire M. P., 2005, Peer interactions in a computer lab: Reflections on results of a case study involving web-based dynamic geometry sketches, Journal of Mathematical Behavior, 24, 89-107. Snee R.D., 1993, What’s missing in statistical education? The American Statistician, 47, 149-154. Thurston A. & Topping K.J., 2007, Peer tutoring in schools: Cognitive models and organizational typography, Journal of Cognitive Education and Psychology, 6(3), 356-372. Topping K. J., 2005, Trends in peer learning, Educational Psychology, 25(6), 631-645. (25th anniversary edition). Van Buuren H., 2006, Teaching statistics and research methods: An integrated approach, International Association of Statistical Education, 7, https:// iase-web.org/Conference_Proceedings.php?p=ICOTS_7_2006 Vygotsky L., 1978, Interaction between learning and development (pp. 79-91), Cambridge, MA, Harvard University Press. Weiner B., 1985, An attributional theory of achievement motivation and emotion, Psychological Review, 92(4), 548-573. Weiner B., 1986, An attributional theory An attributional theory of motivation and emotion, New York, Springer-Verlag. Wigfield A., Eccles J.S., Yoon K.S., Harold R.D., Arbreton A.J.A., FreedmanDoan C., &Blumenfeld P.C., 1997, Change in children’s competence beliefs and subjective task values across the elementary school years: A 3-year study, Journal of Educational Psychology, 89, 451-469.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
L’importanza della statistica Marcella Delle Donne
Documento acquistato da () il 2023/04/27.
1. Introduzione Per capire l’apporto fondamentale della Statistica alla conoscenza scientifica dei fenomeni sociali (e non solo), dobbiamo considerare la funzione strategica delle rilevazioni statistiche nelle città europee investite dalla industrializzazione, durante le rivoluzioni del 1848, a cominciare da Parigi. Dobbiamo ripercorrere le tappe dello sviluppo di questa disciplina a partire dal cambiamento epocale, prodotto dall’industrializzazione e dall’avvento del sistema capitalistico nell’economia, nella politica, nell’assetto territoriale, in particolare: a) nel sistema di produzione: dalla manifattura, tipica dell’economia mercantilistica, alla fabbrica, tipica dell’economia capitalistica, b) nel sistema politico con il passaggio del potere politico dalla aristocrazia, (basata sul possesso della terra, sul dominio del territorio e su un rapporto di sudditanza della popolazione), alla classe borghese, artefice dello sviluppo capitalistico-industriale; generatrice della trasformazione del suddito in cittadino e della conseguente struttura di classe della popolazione; c) nell’assetto urbanistico delle città e nella distribuzione della popolazione sul territorio. In queste trasformazioni, la Statistica (e la Sociologia) ha avuto un ruolo determinante nel XIX secolo come sistema di conoscenza, e si è affrancata come scienza. È il periodo dello spostamento di grandi masse di forza lavoro operaio, necessarie al sistema di fabbrica. È il periodo dell’inurbamento massiccio delle popolazioni rurali nei centri industriali in formazione e nelle città antiche, sottoposte ai processi di industrializzazione1. 1
Delle Donne M., 1979, Aspetto demografico in Teorie sulla città, Napoli, Liguori.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
22 Capire la statistica
Di fatto, il fenomeno più vistoso del cambiamento operato dall’industrializzazione, è stato il movimento della popolazione, sia nel senso dell’incremento di essa, sia nel senso della sua distribuzione sul territorio, sia nel senso di una presa di coscienza della propria condizione di classe operaia. La razionalizzazione dell’agricoltura, con l’avvento del sistema capitalistico nelle campagne (diffuso su larga scala in Inghilterra, intorno al 1760), se da una parte ha portato alle recinzioni dei pascoli comuni (le chiudende), gettando nella miseria la popolazione delle campagne, dall’altra ha aumentato le derrate alimentari che hanno inciso sull’incremento demografico. L’aumento demografico e le chiudende hanno prodotto una grande quantità di forza lavoro per l’industria nascente. La conseguenza è stato lo spostamento e la concentrazione della popolazione nelle città vecchie o nei centri urbani formatisi attorno alle concentrazioni industriali.2 Dall’Inghilterra lo stesso fenomeno, sviluppo demografico e concentrazione urbana, si è propagato progressivamente agli altri paesi europei, in proporzione diretta al loro grado e ritmo di sviluppo industriale-urbano.
2. La statistica come “Deus ex Machina” delle rivoluzioni del XIX secolo L’approccio statistico al fenomeno urbano caratterizza le prime ricerche del XIX secolo, sollecitate e stimolate dall’opinione pubblica, turbata dalla situazione di squilibrio socio-urbanistico in cui versavano le città per il massiccio afflusso della forza lavoro. La città antica, aristocratica, borghese, artigianale, il cui lento accrescimento era il risultato molto più delle nascite e dei decessi che non delle immigrazioni, in pochi decenni si trasforma in un grande agglomerato popolare che sconvolge la precedente stratificazione insediativa ed il rapporto utenza-servizi e provoca situazioni conflittuali che minacciano l’equilibrio stesso del sistema sociale.
2
Weber A.F., 1967, The Growth of Cities in the Ninenteenth Century, New York, Cornell University Press.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
L’importanza della statistica 23 un'organizzazione non controllata delle convivenze addensate. Milioni di abit. 5.000 Mondo
1.000 Città
500
Grafico dell’accrescimento della popolazione, dal 1800 al 1900, del mondo dell’accrescimento, e della popolazione delle città Grafico con 100.000 e più (da: dal 1800 al 1900,abitanti popolazione
Documento acquistato da () il 2023/04/27.
Amenagement du territoire. Cons. D’Europa.
1 0 100
1800
del mondo e della popolazione 1968, pag.11). come risulta dal grafico, delle città con 100.000 abitanti e più l’aumento della popolazione urbana è (da: Amenagement du territoire. superiore all’accrescimento, pure Cons. d’Europa. 1968, pag. 11). straordinario, della popolazione Come risulta dal grafico, l’aumento mondiale. della popolazione urbana è superiore all’accrescimento, pure straordinario, della popolazione mondiale.
1850 1900 5 affluiscono e s'installano alle porte della città e nell'immediata periferia; soprattutto essi Gli immigrati penetrano nel in tuguri ma anche in case d'abitazione in cui la borghesia 0 centro dellaincittà, Le condizioni cuiabitano le masse operaie sono costrette a vivere geneoccupa i piani inferiori e gli operai i piani superiori. In questo disordine gli operai minacciano i nuovi rano patogene a livello tensioni conflitricchi, situazioni che se li ritrovano sulle proprie teste oigienico-sanita nel centro urbano,rio un e centro con strutture viarie medievali, dove facilmente le massesociali. operaie possono creare barricate. Questa situazione aumenta il tuali a livello di rapporti La classe borghese imprenditoriale pericolo di insurrezioni, reso evidente dalle giornate del '48 e confermato dalla Comune di Parigi 3 .
avverte i pericoli immediati e latenti connessi allo squilibrio provocato L'immissione delle masse popolari nel ciclo produttivo le ha rese coscienti, sia di essere necessarie da convivenze addLa ensate. alla un’organizzazione struttura economica, sia non come controllata cittadini, della delle loro condizione di classe. situazione di sfruttamento trasforma gli operai, non più sudditi, ma cittadini, inalle proletariato impara città ad usaree la Gli immigrati affluiscono e s’installano portechedella città come luogo dello scontro di classe; una città, il cui tessuto, come spazio-tempo sociale nell’immediata periferia; soprattutto essi penetrano nel centro della globale, non è stato ancora smembrato attraverso lo zoning, cioè in zone diversificate a seconda della cit tà,funzione, abitano in tuguri ma anche in case in cui borghesia loro da un’urbanistica che separa lo spazio dellad’abitazione produzione industriale, dallalazona commerciale, da quella amministrativa, da quellae di operai, etc.. Vedi centro storico di Parigi, disordine il cui intervento occupa i piani inferiori gliquartieri operai i piani supileriori. In questo urbanistico, programmato da Haussman, nominato prefetto della Senna, è stato trasformato da una struttura gli operai minacciano i con nuovi che se li come ritrovano sulle proprie medievale a una struttura moderna grandiricchi, vie di comunicazione i boulevards, di cui oggi Parigi gode, ma che nelle intenzioni di Haussman dovevano consentire all’esercito di muoversi senza glidove ostacoli teste o nel centro urbano, un centro con strutture viarie medievali, delle barriere architettoniche che ne impedissero loro il passo e che, nel ’48, avevano offerto alle sommosse facilmente le masse operaie possono creare barricate. Questa situaziopopolari la possibilità di costruire barricate, mettendo a serio rischio il sistema politico-sociale. ne aumenta il pericolo di insurrezioni, reso evidente dalle giornate del Nella situazione di una convivenza indifferenziata della popolazione borghese capitalistica e operaia, ’48 e confsiermato dalla Comune di Parigi3.di fronte ad una città malsana e violenta, la borghesia sente minacciata, serpeggia l'inquietudine sprovvista soprattutto di strumenti conoscitivi per controllare misurare fino le a che L’immissione delle masse popolari nel cicloe produttivo hapunto rese la situazione conflittuale oltrepassa livelli tollerabili per il mantenimento dell'equilibrio del sistema coscienti, sia sociale. di essere necessarie alla struttura economica, sia come e per la sicurezza cittadini, loro condi zioneindiproletariato classe. La situazione di rende sfruttamento La miseria della delle masse, trasformatesi industriale inurbato, alla borghesia trasforma gli operai, non più sudditi, ma cittadini, in proletariato che 3Lefebre H., 1970, Il diritto alla città, Padova, Marsilio. impara ad usare la città come luogo dello scontro di classe; una città, 12
3
Lefebre H., 1970, Il diritto alla città, Padova, Marsilio.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
24 Capire la statistica
il cui tessuto, come spazio-tempo sociale globale, non è stato ancora smembrato attraverso lo zoning, cioè in zone diversificate a seconda della loro funzione, da un’urbanistica che separa lo spazio della produzione industriale dalla zona commerciale, da quella amministrativa, da quella di quartieri operai, etc.. Vedi il centro storico di Parigi, il cui intervento urbanistico, programmato da Haussman, nominato prefetto della Senna, è stato trasformato da una struttura medievale a una struttura moderna con grandi vie di comunicazione come i boulevards, di cui oggi Parigi gode, ma che nelle intenzioni di Haussman dovevano consentire all’esercito di muoversi senza gli ostacoli delle barriere architettoniche che ne impedissero loro il passo e che, nel ’48, avevano offerto alle sommosse popolari la possibilità di costruire barricate, mettendo a serio rischio il sistema politico-sociale. Nella situazione di una convivenza indifferenziata della popolazione borghese capitalistica e operaia, la borghesia si sente minacciata, serpeggia l’inquietudine di fronte ad una città malsana e violenta, sprovvista soprattutto di strumenti conoscitivi per controllare e misurare fino a che punto la situazione conflittuale oltrepassa livelli tollerabili per il mantenimento dell’equilibrio del sistema e per la sicurezza sociale. La miseria delle masse, trasformatesi in proletariato industriale inur bato, rende alla borghesia un’immagine minacciosa. La realtà urbana, vista come area indifferenziata dei rapporti sociali, viene spesso rappresentata come luogo del vizio e del crimine; ricettacolo di masse degradate in continuo fermento e sempre pronte alla rivoluzione. Secondo Bogardus4, la possibilità di costruire una democrazia funzionale agli interessi produttivi e insediativi della classe borghese imprenditoriale, in presenza di ampie concentrazioni urbane indifferenziate, appare improbabile. Qui, infatti, il singolo cittadino perde il contatto con la realtà e con il potere e, come affermerà poi il Mumford5, risulta sempre più alla mercé di sollevazione incontrollata delle masse operaie. A questo punto si fa impellente l’esigenza di conoscere, in una prospettiva la più ampia e capillare possibile, il contesto sociale urbano. Lo slancio ed il successo presso l’opinione pubblica del tempo delle ricerche statistiche (che si rinnova ogni volta che lo sviluppo della città avviene più rapidamente e nelle situazioni più drammatiche, come 4
Bogardus E.S., 1954, Sociology, in Guidicini P., 1969, Problemi di sociologia urbana, Brescia, La Scuola. 5 Mumford L., 1938, La cultura delle città, Torino, Einaudi.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
L’importanza della statistica 25
nella seconda metà del XIX secolo e all’indomani della crisi mondiale del 1929) testimoniano dell’angosciosa necessità, sia della classe borghese, sia della pubblica amministrazione di conoscere la struttura della popolazione. Considerando le condizioni del proletariato l’opinione pubblica, quella che sapeva leggere e comprava i giornali, coincideva automaticamente con l’opinione della classe borghese6. Prima della Rivoluzione del 1848, poco o nulla si sapeva del numero degli abitanti, della loro densità, della dislocazione sul territorio, della ripartizione per sesso e per età, della proporzione degli immigrati rispetto agli autoctoni, della dinamica della mortalità generale e della mortalità epidemica, della nuzialità, della fecondità e illegittimità del suicidio, ma anche della follia, del tasso di morbilità, della struttura occupazionale. Basta rileggere la stampa di quegli anni per osservare il posto accordato ai numerosi tomi delle Recherches statistiques sur la ville de Paris, pubblicati successivamente dai prefetti Chabrol, Bambuteau e Haussmann e ai dati statistici derivati da questi lavori. Nel Journal des Dèbats, come nel Globe le ricerche su Parigi sono presentate, salutate come una vera e propria rivelazione di quei fenomeni che si supponevano, ma che si conoscevano male e ai quali le rilevazioni statistiche arrecavano una nuova forma di esistenza e una gravità supplementare. Lo statistico, il demografo, viene promosso dall’opinione pubblica a una specie di magistratura del benessere generale.7 Lo studio di Durkheim sul Suicidio trae da queste ricerche la maggior parte del suo materiale quantitativo, e la totalità delle sue conclusioni; ma l’esempio più significativo dell’influenza dell’informazione statistica sull’opinione pubblica ci viene dalla letteratura. Statistiche criminali e giudiziarie, ma anche statistiche demografiche, occupano nella narrazione di Sue un posto privilegiato. Evidente in Balzac, che moltiplica le valutazioni, la cura della precisione statistica. Hugo non manca mai di citare le sue prove provenienti dall’indagine statistica. In tal senso, i grandi romanzi di quel tempo possono essere considerati come importanti documenti delle rilevazioni statistiche e delle ricerche sociologiche.
6
Chevalier L., 1967, Il problema della sociologia delle città, in Gurvitch L., Trattato di Sociologia, Milano, Einaudi. 7 Chevalier L., Ibidem.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
26 Capire la statistica
Documento acquistato da () il 2023/04/27.
3. Nascita della statistica come scienza* Nonostante le rilevazioni statistiche e le ricerche sociologiche, su quanto andava accadendo nelle città, l’informazione non era sufficiente a salvare la situazione. Le rivolte popolari precipitano nella rivoluzione del ’48 e mettono in crisi la politica del non intervento dello stato liberale, finora astenutasi da ogni forma di controllo pubblico sulla iniziativa imprenditoriale e sulla proprietà privata, nonché sulla formulazione di leggi e regolamenti di igiene in grado di prevenire e affrontare le condizioni patologiche endemiche e le situazioni minacciose che andavano sviluppandosi. Debellata con ferocia la rivoluzione e presa in mano la situazione, lo Stato diventa interventista. Di fatto, nella seconda metà dell’800, fallita la politica del non intervento, i pubblici poteri si muovono in direzione delle riforme sociali e promuovono ricerche in settori quali quelli dell’abitazione, dell’igiene, dei salari industriali e delle condizioni di lavoro, delle istituzioni penali, delle istituzioni di riabilitazione, delle istituzioni educative e sanitarie. Le ricerche demografiche e statistiche vengono affidate alle Università, al fine di identificare e descrivere i sistemi e gli aspetti della disorganizzazione e della conflittualità sociale. La collaborazione tra le Università e le amministrazioni cittadine, tra ricerca scientifica e intervento operativo, da l’avvio alla ricerca empirica dei fenomeni sociali e alla sperimentazione disciplinare, anche se ancora a livello embrionale. Le ricerche statistiche, i censimenti regolari sulla popolazione furono i primi strumenti ritenuti validi e politicamente neutrali per la conoscenza di situazioni di fatto, che consentivano di escludere giudizi di valore a livello politico. L’intervento dello Stato, nell’ambito di una politica di riforma che, in seguito agli avvenimenti del ’48 apparve necessaria, allarga la questione dalla conoscenza descrittiva all’intervento programmatore. Non è a caso che il termine demografia apparve per la prima volta nel suo senso attuale nel 1855, nell’opera di Achille Guillard8 quasi contemporaneamente al termine Sociologia. *
Sulla Storia della Statistica si veda il saggio di Mary Fraire, La statistica nella società della data science. 8 Guillard A., 1855, Eléments de stistique humaine ou démographie comparée, Parigi, Guillaumin et Cie Libraires.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
L’importanza della statistica 27
Dalla presa in carico dello Stato scaturiscono le leggi sanitarie approvate nel ’48 in Inghilterra e nel ’50 in Francia, i grandi lavori realizzati da Haussman a Parigi, come prefetto della Senna (1853-1869), da Vaisse prefetto a Lione (1853), dall’istituzione del Metropolitan Board of Works, a Londra (1855), dalla Pubblica amministrazione a Vienna (1858), dal Piano di Cerda a Barcellona, da Anspach a Bruxelles (1860), dal capo della polizia a Berlino (1862). Siamo di fronte all’avvento della Società civile sostanziata dalle teorie positivistiche e dall’Illuminismo, artefici del passaggio da una visione confessionale a una visione laica del mondo e della società. Illuministi e positivisti, (benché i primi diano più importanza all’individuo come soggetto di diritto, e i secondi all’importanza dello Stato) mettono in luce come i sistemi sociali e politici siano il risultato, non già di un ordine trascendente, dato una volta per tutte, ma dell’attività produttiva degli uomini e dallo sviluppo delle leggi naturali. Ne consegue, che spetta alla scienza, che si sostituisce ai vecchi dogmi sulla Verità, ricercare e definire le cause di tale organizzazione9. Come ha osservato Alain Girard10: «La Demografia, la Statistica, la Sociologia in quanto scienze (cioè sistemi di leggi), nella loro forma teorica o nelle loro forme applicate sono nate dalla volontà di conoscere i fenomeni sociali e di intervenire, con l’autorità delle scienze, sulla società per cambiarla».
9
Delle Donne M., 1993, Società civile e origine della ragione sociologica, Roma, ed. Lavoro. 10 Girard A., 1967, Demografia sociale, in Gurvitch G., Trattato di Sociologia, V.I., Torino, Einaudi.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
28 Capire la statistica
Documento acquistato da () il 2023/04/27.
Riferimenti biblografici Bogardus E. S., 1954 in Guidicuni P., 1969, Problemi di Sociologia Urbana, Brescia, La Scuola. Chevalier L., 1967, Il Problema della Sociologia della Città, in Gurvitch G., Trattato di Sociologia, V.I. Torino, Einaudi. Consiglio d’Europa, 1968, Aménagement du Territoire. Delle Donne M., 1967, Aspetto demografico in Teorie sulla Città, Napoli, Liguori. Delle Donne M., 1993, Società Civile e Origine della Ragione Sociologica, Roma, ed. Lavoro. Girard A., 1967, Demografia Sociale in Gurvitch G., Trattato di Sociologia V.I, Torino, Einaudi. Guillard A., 1855, Eléments de Statistique humaine ou démographie comparée, Parigi, Guillaumen et Libraires. Mumford L., 1938, La Cultura delle città, Trd. it, 1953 Milano, Mondadori. Weber A. F., 1967, The Grawth in the Nineteenth Century, New York, Cornell University Press.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
La statistica nella società della data science Mary Fraire
Documento acquistato da () il 2023/04/27.
1. Origini storiche e definizione di statistica 1.1 Origini storiche Il termine STATISTICA deriva etimologicamente da Status: Stato = nazione o stato = condizione statista (sost.)=[colui che si occupa dei fatti dello Stato] statistico (agg.) e infine Statistica (disciplina). Ma la statistica è molto più antica del suo nome: l’esigenza di ‘contare’ ed esprimere attraverso numeri una serie di fatti importanti per la vita sociale (ammontare della popolazione, nascite, morti, capi di bestiame o prodotti agricoli raccolti e scambiati, ecc. ecc.) è antichissima. Addirittura nei Nuraghi in Sardegna nella preistoria si trovano sulle pareti delle ‘tacche’ simili al nostro spoglio dei dati che forse potevano servire alla conta dei capi di bestiame o prodotti scambiati. Già nell’antico Egitto (3000-1200 a.C.) esisteva una dea dei conti ‘Shafkit’. Nell’Antico Testamento risulta che Mosè e David fecero fare censimenti regolari. In Cina (2238 a.C.) in un libro di Confucio si parla di statistica agraria! Nell’Antica Roma è poi noto che esisteva e si faceva periodicamente il census. Infine con il . Concilio di Trento (1545-63) la Chiesa introduce regolarmente le registrazioni dei matrimoni, nascite, morti “obbligatorie”. Il XVII sec. è l’epoca della rivoluzione scientifica in cui il metodo empirico induttivo come forma nuova di conoscenza fa il suo ingresso nelle scienze naturali (Galileo, Newton, Keplero) e con Graunt e altri nelle scienze sociali (demografiche, economiche e sociali in genere). La STATISTICA moderna – come disciplina – ha origine tra la fine del 1500 ed il 1600 con due scuole-indirizzi: ‘Statistica Universitaria’ (Germania) statistica descrittiva e con gli ‘Aritmetici Politici’ (Inghilterra) statistica investigativa.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
30 Capire la statistica
Nel precedente capitolo Marcella Delle Donne illustra approfonditamente la nascita della statistica come scienza di fronte al fenomeno dell’industrializzazione e urbanizzazione in Europa.
Documento acquistato da () il 2023/04/27.
1.2 Definizione di statistica La STATISTICA è una scienza che riguarda lo studio quantitativo dei fenomeni collettivi, naturali (biologici, fisici, ambientali ecc.) o sociali (economici, demografici, sanitari ecc.) mediante l’impiego di proprie metodologie e tecniche al fine di descrivere e investigare i fenomeni a scopo conoscitivo, previsivo, d’intervento. Studio quantitativo: per valutare la consistenza delle manifestazioni dei fenomeni (es. numero degli studenti presenti in quest’aula, malati di una data malattia ecc.), ma anche valutare se esiste e qual’ è la consistenza di eventuali ‘relazioni statistiche’ tra fenomeni (es. se esiste e quanto è forte la relazione tra la scelta di una data facoltà e il titolo di studio dei genitori). L’osservazione statistica si occupa dei fenomeni collettivi e non individuali: osservati su un insieme di individui o unità statistiche e non su singoli individui, si occupa di fatti sociali e non accadimenti della vita del singolo(es. nascita, matrimonio, morte, età, sodd.-insoddisf. ecc.). Nota:Alcuni fenomeni NON COLLETTIVI possono diventare tali.(es. ripetute rilevazioni in un dato luogo della temperatura atmosferica). Il collettivo statistico deve essere un COLLETTIVO RAPPRESENTATIVO: è un errore attribuire il risultato dell’osservazione di una parte al tutto salvo che questa ‘parte’ non sia costruita con dati criteri ‘ad arte’ ossia attraverso le tecniche di campionamento.
1.3 Statistica e matematica: quali le differenze? L’impossibilità di conoscere, prevedere, studiare completamente ed esaustivamente tutte le cause da cui i fatti dipendono è il presupposto del metodo statistico e ciò che sin dalle origini ha differenziato la statistica dalle altre scienze sperimentali: l’induzione statistica e le leggi statistiche enunciano un risultato globale, macroscopico (in termini di frequenza o di probabilità) relativo ad un gran numero di fenomeni analoghi non analizzabili con ‘traiettorie’ individuali, microscopiche, instabili ed in cui l’analisi e la ricerca delle cause avviene, come noto, per i fenomeni sociali soltanto ‘ex post’.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
La statistica nella società della data science 31
La matematica è invece una disciplina deduttiva, il valore del risultato è per il matematico dipendente esclusivamente dalle ipotesi di partenza. La statistica deve essere trattata ‘con la matematica’ e non ‘come la matematica’. L’induzione è il presupposto della statistica mentre la deduzione è il presupposto della matematica1.
Documento acquistato da () il 2023/04/27.
2. Le fonti dei dati e la loro attendibilità Le fonti di provenienza dei dati sono intese come qualsiasi tipo di documentazione che raccoglie dati riferiti ai fenomeni oggetto di studio. Le fonti possono essere: A) fonti orali (testimonianze, colloqui ecc.); B) fonti scritte o documenti espressivi (archivi storici, biografie, lettere personali ecc.); C) fonti statistiche (informazioni già sotto forma di dati statistici); D) fonti di dati rilevate in modo automatico (telerilevamenti via satellite, stazioni di rilevamento dei livelli di inquinamento, archivi elettronici di dati gestionali, amministrativi, contabili (Data Warehouse (DW), Data Base (DB)ecc.).Rispetto al loro diverso grado di attendibilità (comparabilità, ripetibilità) in ordine decrescente di attendibilità le fonti suddette sono: C)>B)>A) Per le fonti di tipo D) i criteri di attendibilità sono completamente cambiati perché legati alla difficoltà di gestione della grande massa di dati ottenibili anche con delle speciali tecniche di calcolo, trattamento (codifiche) dei dati (es. riconoscimento delle forme) per la loro trasformazione in dati statistici, ecc. Accanto all’evoluzione della metodologia statistica rilevante è per lo sviluppo della quantità e qualità dei dati statistici disponibili la costituzione nei vari paesi dei servizi statistici nazionali. (In Italia l’ISTAT) . Oggi sempre più importanti è anche lo sviluppo delle fonti statistiche internazionali (ONU, EUROSTAT, ecc.).La disponibilità di dati statistici ‘buoni’ ossia attendibili è la base indispensabile per com1
M. Fraire, 1997, Complessità, instabilità e caos: esplorazione statistica multidimensionale e fenomeni sociali, in B. Consarelli e N. Di Penta (a cura di), Il mondo delle passioni nell’immaginario utopico, ed. Giuffrè.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
32 Capire la statistica
piere qualsiasi analisi statistica. L’attendibilità riguarda i criteri con i quali sono raccolti i dati ossia una chiara definizione (= operativa) per: la loro individuazione, la loro comparabilità nel tempo e nello spazio (o evidenziare eventuali limiti di comparabilità) e la ripetibilità da chiunque nelle stesse condizioni. Si rinvia al capitolo 6 del presente volume di Carolina Facioni per una trattazione completa delle fonti dei dati e la statistica ufficiale.
Documento acquistato da () il 2023/04/27.
3. Indagine o esperimento? Analisi esplorative e analisi confermative È utile distinguere due diversi tipi di osservazione statistica: l’indagine e l’esperimento. Nell’indagine (inchiesta): l’osservatore ha un ruolo passivo, di minima interferenza con i fenomeni che vuole registrare. Le indagini sono su popolazioni totali (es. censimenti) o campionarie ed hanno lo scopo di fornire la consistenza di diverse caratteristiche della popolazione oggetto di studio e ipotesi di relazioni tra i caratteri. L’esperimento richiede invece un’interferenza pianificata sul corso naturale degli eventi e tale che i suoi effetti risultino osservabili. Esempio: in un esperimento clinico per il confronto di una terapia chirurgica e di una medica in soggetti affetti dalla stessa malattia: la domanda cruciale è come assegnare i trattamenti alle unità sperimentali disponibili. Una soluzione riconosciuta a questo problema fu, ad esempio, proposta da FISHER nel 1920: il processo di assegnazione dei trattamenti deve incorporare un dispositivo di randomizzazione: assegnazione a caso alle due terapie dei soggetti affetti dalla stessa malattia. Nel seguito l’attenzione sarà focalizzata sulle indagini non sugli esperimenti. Una importante distinzione nell’indagine statistica dei dati è quella tra analisi esplorative e analisi confermative e diversi sono gli strumenti metodologici per effettuare tali analisi. Nelle analisi esplorative (descrittive-riduttive.) principale scopo è quello “esplorativo” ossia descrivere e sintetizzare strutturalmente set di dati, anche complessi e di grandi dimensioni (big data) sia come unità che come variabili Le metodologie adatte a tale scopo sono ad esempio: la cluster analysis (analisi dei gruppi), analisi in componenti principali (ACP), analisi delle corrispondenze semplici e multiple (ACS e ACM) che non richiedono di fare assunzioni a priori sui dati e mirano invece ad individuare interdipendenze, tipologie di strutture
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
La statistica nella società della data science 33
(structure pattern), al fine di poter conoscere, trovare possibili relazioni tra unità statistiche e/o tra variabili, significati e strutture ‘latenti’. Nelle analisi confermative-(verificative-predittive) si tratta di fare inferenza da un campione ad una popolazione, studiare le relazioni, generalmente di tipo causale, di un insieme circoscritto di variabili statistiche , generalmente minore di 10-15, (mentre nelle suddette analisi esplorative si possono trattare i cosiddetti big data con migliaia di unità statistiche e di caratteri) e su tali variabili si avanzano a priori assunzioni sul tipo della distribuzione teorica e si vogliono verificare, confermare o meno, tali modelli (metodologie a tale scopo sono ad es. modello della regressione lineare, modello della regressione logistica; i modelli log-lineari ecc.). È interessante osservare che questi due approcci oggi dotati di tecniche di analisi dei dati molto evolute (basti pensare ai software statistici oggi disponibili anche ‘open source’) sono tuttavia quelli che hanno caratterizzato sin dalle origini la statistica e i suoi approcci anche se in termini più elementari.2 Nel Cap. 4 del presente volume Bruno Delle Donne espone approfonditamente i principali indici e metodi statistici con relative procedure e formule per il calcolo.
4. Gli anni ’70: lo sviluppo dei pc, software e la nascita dell’analisi multidimensionale dei dati (AMD) Ma anche l’induzione statistica alla fine degli anni’60inizia a presentare limiti nell’indagine statistica di fenomeni complessi di fronte all’evolvere della società: scarsa possibilità di esplicitazione di fenomeni complessi, di ‘concettualizzazione’ e formalizzazione dei dati nei modelli statistici-descrittivi, scarsa attendibilità delle assunzioni probabilistiche sulle distribuzioni di variabili multiple di tipo quantitativo, presunta interscambiabilità delle unità statistiche nei modelli statistico-probabilistici La complessità è un aspetto culturale: è possibile dare diverse definizioni di uno stesso fenomeno: es. salute, intelligenza, QdV ma anche occupati e disoccupati, PIL ecc. è possibile dare di essi diverse definizioni e ciò da un punto di vista operativo implica che diverse definizioni portano a misure e risultati diversi. È molto importante 2
M.Fraire, A.Rizzi, 2005, Statistica. Metodi esplorativi e inferenziali, Carocci ed.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
34 Capire la statistica
allora tenere presente che il linguaggio empirico non è indipendente o meglio esso è ‘intricato’ con la teoria. Esiste un ‘gap’ tra concetti e misure empiriche che non è colmabile con regole uniche e certe. Pertanto nell’indagine statistica è necessario rendere esplicita la definizione concettuale, la formalizzazione del problema da analizzare.3In passato l’applicazione di una tecnica statistica multivariata consisteva sinteticamente in:
Documento acquistato da () il 2023/04/27.
tabella dei dati → ipotesi di modello e tecnica statistica multivariata → output dei risultati non rendendo in tal modo esplicita la definizione concettuale del fenomeno in esame che portava alla tabella dei dati . Invece nell’approccio esplorativo dell’analisi multidimensionale dei dati (AMD) è necessario e possibile rendere esplicita la definizione concettuale, la formalizzazione del problema da analizzare, ad es. definire la ‘tabella o matrice dei dati iniziali” applicando poi ad essa uno dei metodi di AMD. L’AMD riguarda analisi statistiche di tipo complesso ossia costituite da più elaborazioni tra loro concatenate, al fine di poter esaminare sistematicamente, in modo unitario e articolato, tali aspetti è utile considerare l’AMD come un “sistema” composto di più fasi tutte ugualmente importanti ed interdipendenti ed aventi ciascuna aspetti statistici e informatici ed eseguibili solo tramite computer ed appositi software. È con la nascita negli anni ’70 del primo chip (microprocessore) commerciale, lo sviluppo di pc (hardware) e accessori (es. stampanti ecc.) e programmi (software) alla portata di tutti che anche le già esistenti analisi lineari dei dati ma scarsamente impiegate per le difficoltà di esecuzione senza il calcolo automatico diventano a tutti accessibili: Analisi della Correlazione Canonica (Hotelling, 1930), Analisi in Componenti Principali (Pearson, 1901), Analisi della Correlazione Canonica (Hotelling, 1930), Analisi delle Corrispondenze Semplice e Analisi delle Corrispondenze Multiple (Fisher, 1936; Benzecri, 1960) subiscono una profonda evoluzione oltre che diffusione fino ad allora riservata solo a pochi esperti. In Francia, alla fine degli anni ’70 (J.P. Benzecri, Cailles e Pages, ecc.) nasce l’indirizzo metodologico dell’analyse des donnée.4 3
M. Fraire, 1997, Complessità, instabilità e caos: esplorazione statistica multidimensionale e fenomeni sociali, op.cit. 4 Benzecri J.P., 1980, L’analyse des données, Paris, Dunod; Caillez F., Pages J.P., 1976, Introduction à ‘analyse des données, Paris, Smash.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
La statistica nella società della data science 35
5. L’AMD come ‘sistema’: un approccio alla complessità In passato, come già accennato, l’applicazione di una tecnica statistica multivariata consisteva sinteticamente in:
Documento acquistato da () il 2023/04/27.
tabella dei dati → ipotesi di modello e tecnica statistica multivariata → output dei risultati Non rendendo in tal modo esplicita la definizione concettuale che portava alla tabella dei dati, invece nell’approccio esplorativo dell’analisi multidimensionale dei dati (AMD)) è necessario rendere esplicita la definizione concettuale, la formalizzazione del problema da analizzare, ad es. definire gli aspetti costituitivi o dimensioni del fenomeno o concetto da rilevare ed i relativi indicatori empirici (variabili cardinali e/o categoriali) per ciascuno di essi in altri termini definire esplicitamente la ‘tabella o matrice dei dati iniziali” applicando poi ad essa uno dei metodi di AMD. L’AMD riguarda analisi statistiche di tipo complesso ossia costituite da più elaborazioni tra loro concatenate, al fine di poter esaminare sistematicamente, in modo unitario e articolato, tali aspetti è utile considerare l’AMD come un ‘sistema’ composto di più fasi tutte ugualmente importanti ed interdipendenti ed aventi ciascuna aspetti statistici e informatici ed eseguibili solo tramite computer ed appositi software. Molto schematicamente è possibile costruire una mappa concettuale delle 7 fasi principali, statistiche e informatiche, nelle quali si svolge un’AMD (Fraire, 1995; 2005, 2011, 2016)5 inclusi due feedback: sia un rinvio a modificare- scegliere la tabella-matrice dei dati da analizzare (3^ fase) che rivedere il questionario d’indagine (I^ fase). In Fig.1 si riporta la Mappa concettuale delle 7 fasi statistiche e informatiche di un’AMD.
5
Fraire M., 1994, Metodi di analisi multidimensionale dei dati’, ed. CISU; Fraire M., 1995, Multidimensional Data Analysis and its preliminary phases:statistical aspects, in Rizzi A. eds, Some Relations Between Matrices and Structures of Multidimensional Data Analysis, Applied Mathematics Monographs, n.8 GiardiniEditori e Stampatori, Pisa; Fraire M., Rizzi A, 2011, Analisi dei dati per il Data Mining, Carocci ed.2011pagg.73-120; Le fasi dell’analisi dei dati.; Fraire M., Spagnuolo S., Stasi S., 2016, L’utilizzo dei big social data per la ricerca sociale:il caso della cittadinanza attiva in difesa del territorio, Sociologia e ricerca sociale, n.109, 2016, anno XXXVII, FrancoAngeli pp.174-187.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
36 Capire la statistica
Documento acquistato da () il 2023/04/27.
Fig. 1 – Mappa concettuale delle 7 fasi statistiche e informatiche di un’AMD Documentaz. stat. di partenza
Feedback sui dati iniziali: es. sulla validità del questionario
Codifica a priori (matrice dati iniz.)
feedback
Codifica a post. (trasformaz. di variabili)
Scelta tabella/e dei dati (codifiche delle matrici dei dati)
Scelta misura: – rass/diss. tra unità (dist., simil.) – relazione tra caratteri (var. e cor., dev.-cod., correl.)
Scelta metodo e software di AMD (CA, ACP, ecc.)
Output dei risultati – numerico – grafico (dendrogramma, cerchio correl., ecc.)
In particolare tra le 7 fasi particolare importanza hanno per la definizione concettuale del fenomeno da analizzare le prime quattro fasi preliminari costituite dalle seguenti 1ª, 2ª, 3ª, 4ª fase riguardanti: 1ª: Documentazione statistica di partenza (piano della rilevazione; raccolta dei dati, ad es. il questionario di indagine.); 2ª: Codifica a priori o creazione della matrice dei dati iniziali (trasporre i dati rilevati in una matrice A(n, k) (esistono molti tipi di matrici)6; 3ª: Codifica a posteriori (come trasformazione di variabili della matrice dei dati iniziali); 4ª: Codifica a posteriori dell’intera matrice dei dati (es. codebook) per renderla compatibile con la tecnica statistica multidimensionale che si impiegherà. In un volume successivo a quello presente saranno affrontate specificatamente tali fasi: dal questionario di indagine alle distribuzioni statistiche semplici e doppie, all’analisi delle risposte aperte, agli aspetti psicologici dell’atteggiamento degli studenti nei confronti della statistica, all’applicazione dell’analisi multidimensionale dei dati, in particolare l’Analisi in Componenti Principali (ACP), applicate alle elaborazioni dei dati provenienti dall’indagine statistica su “Atteggiamenti 6
V. op. citate in nota 5.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
La statistica nella società della data science 37
Documento acquistato da () il 2023/04/27.
e Opinione degli Studenti nei confronti della statistica” svolta su un campione di n.263 studenti della Facoltà di Medicina, corso di laurea in infermieristica del Policlinico di Tor Vergata. I risultati dell’indagine sono stati inoltre esposti nel convegno tenutosi a dicembre del 2018 all’università di Tor Vegata su “L’infermiere e la statistica: storia di un rapporto contrastato”. In particolare nel capitolo curato da Serenella Stasi sarà riportata l’applicazione della mappa concettuale all’Analisi in Componenti Principali (ACP) dei dati tratti dall’indagine.
6. Gli anni ’90: diffusione dei Pc, informatica, software statistici anche ‘open source’ e l’evoluzione dell’AMD La comparsa dei personal computer all’inizio degli anni ottanta ha completamente rivoluzionato i rapporti tra utenti e produttori di software e sistemi informativi. La diffusione globale di internet ha poi mutato radicalmente la filosofia di approccio di problematiche computazionali7. Tra i software storici per l’AMD: SPSS (Statistical Package for Social Sciences), SAS (Statistical Analysis System), BMDP (Biomedical Package). Esistono poi i software ‘open source’ tra cui: SPAD (système portable pour l’analyse des donnéés), DTM-Vic di Lebart per l’analyse des donnèes textuelles) tutti scaricabili da internet dagi appositi siti. Negli anni ’90 l’impiego di software statistici e la possibilità di analizzare anche file di dati di grandi dimensioni consente l’evoluzione dell’AMD anche verso le analisi verificative-confermative in particolare, ad esempio: –– –– ––
l’introduzione di metodi computazionali per gli studi sulla stabilità dei risultati attraverso metodi di ricampionamento anche di tipo computazionale (jacknife; bootstrap; cross-validation); l’introduzione di ipotesi inferenziali e modelli probabilistici ad es. per il test per la verifica di ipotesi nella CA, ACP ecc.; il data mining, le reti neurali artificiali (ANN) e altri metodi a forte base computazionale e di intelligenza artificiale (machine learning) per il trattamento di dati complessi.
7 Pieri L., 2011, Software statistico, Appendice C in Fraire M., Rizzi A. - Analisi dei dati per il Data Mining , Carocci op.cit. pagg. 407-414.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
38 Capire la statistica
Documento acquistato da () il 2023/04/27.
Si ha un’evoluzione dell’AMD anche verso le analisi asimmetriche (diverso ruolo attribuito alle variabili): –– ad es. il diverso ruolo delle variabili attive e variabili supplementari nelle analisi fattoriali; –– analisi dei dati a più vie (multi-way data analysis e 3-way data analysis): diverso ruolo delle variabili-occasioni;8 –– l’analisi discriminante e la analisi di segmentazione; –– analisi dei gruppi ‘fuzzy’, analisi fuzzy. Si ha un’evoluzione dell’AMD anche verso le Analisi non lineari: trasformazioni non lineari dei dati (es. optimal scaling, trasformazioni ‘spline’ ma anche l’Analisi delle corrispondenze nell’ottica della correlazione canonica ecc.). Ma un’evoluzione particolarmente importante per la ricerca sociale (e non solo) è lo sviluppo dell’Analisi Automatica dei Dati Testuali.
7. Gli anni ’90, i big social data e l’Analisi Automatica dei Dati Testuali (AADT)9 L’aumento nell’uso delle nuove ICT nell’attuale società globale e i profondi cambiamenti nel modo di vivere e comunicare derivanti dall’uso per un numero crescente di persone, di smartphone, tablet, notebook, PC e dall’accessibilità a internet porta alla produzione e uso crescente dei nuovi dati in forma digitale denominati spesso a causa delle loro dimensioni big data. Come noto big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l’estrazione di valore, rappresenta anche l’interrelazione di dati provenenti da fonti eterogenee ‘strutturate’ (database) e non strutturate (immagini, email, dati GPS, social network). Informazione quindi caratterizzata non solo da grandi dimensioni, big, ma anche molto eterogenea e, elemento importante, dalla presenza di un utente “attivo”rispetto alle tradizionali indagini per 8 Fraire M., 2013, Analisi a tre-vie nelle risposte a domande aperte e indicatori empirici, Sociologia e Ricerca Sociale, XXI, 61, pp.87-101, doi:10.1400/69144. 9 Fraire M., Spagnuolo S., Stasi S., 2016, L’utilizzo dei big social data per la ricerca sociale:il caso della cittadinanza attiva in difesa del territorio, Sociologia e ricerca sociale, n.109, 2016, anno XXXVII, Franco Angeli pp.174-187.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
La statistica nella società della data science 39
questionario, che interagisce con il web realizzando “suoi” contenuti e collocandoli in rete intervenendo in tempo reale con opinioni, informazioni, proposte ecc.(cfr nota 12). Queste particolari caratteristiche richiedono strumenti adeguati e innovativi di analisi per strutturare e analizzare dati quali i big social data, destrutturati e di dimensione notevole. Tra i diversi strumenti di analisi che a tal fine rivestono un particolare interesse figurano le analisi statistiche che possono essere effettuate tramite la cosiddetta Analisi Automatica dei Dati Testuali (AADT)10 relativamente recente ed effettuabile tramite appositi software.11 In analogia a quanto esposto nel par. 5 sulla mappa concettuale per l’esecuzione di un’analisi multidimensionale dei dati è possibile sviluppare anche per i dati testuali una mappa concettuale delle fasi statistico-informatiche nella quali si possono svolgere le analisi statistiche specifiche per tali dati. A titolo di esempio si riporta n Fig. 2 la mappa concettuale delle 7 fasi statistico-informatiche di un AADT. Per una visione dell’applicazione dettagliata ai dati testuali di tale mappa si rinvia agli articoli citati in nota12
10
In passato, e a tutt’oggi, molteplici sono le applicazioni della statistica all’analisi linguistica. Molto impiegate inoltre le applicazioni della statistica all’analisi del contenuto. Le prime giornate internazionali di Analisi statistica dei dati testuali (JADT) risalgono al 1990. Da allora ad oggi si sono enormemente sviluppati gli incontri e le ricercq in questo campo. Software specifici per queste analisi sono: Taltac, Lexico, Spad-T, Dtm-Vic di Lebart (open source), Iramuteq (open source). 11 Rif. Bibliografici sull’AADT: Bolasco S., 2013, L’analisi automatica dei testi. Fare ricerca con il text mining, Roma, Carocci. 12 Per una visione dell’applicazione di tale mappa si rinvia agli articoli: a) Fraire M., Spagnuolo S., Stasi S., 2016, L’utilizzo dei big social data per la ricerca sociale:il caso della cittadinanza attiva in difesa del territorio, Sociologia e ricerca sociale, n.109, anno XXXVII, FrancoAngeli pp.174-187; b) Fraire M., Sessa F., Spagnuolo S., Stasi S., Marino S., 2015, Mobilitazioni dei cittadini per il territorio: analisi testuale dei social network e delle comunicazioni istituzionali, Cahier, 5, pp.135-153.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
40 Capire la statistica
Fig. 2 – Mappa concettuale delle 7 fasi statistico-informatiche di un’analisi automatica dei dati testuali AADT Scelta del ‘corpus’ TESTI-TESTI (saggi, biografie, discorsi parlamentari ecc.) TESTI-FRAMMENTI (testi corti, sms, tweet o chat, blog, ecc.)
Feed-back: il corpus strutturato
Documento acquistato da () il 2023/04/27.
Creazione (editing) del “corpus’ e eventuali meta-variabili associate
Scelta delle unità lessicometriche di analisi - forme grafiche - segmenti Prime analisi: (freq. forme attive, hapax, ecc. e il bilancio lessicale)
Scelta tabella/e dei dati - frammenti * forme - forme * parti - forma * forma
Scelta della metrica (es. χ2)
Metodi di AADT (es. Cluster Analysis, ACS, ACM, ecc.) Software (es. Dtm-Vic di Lebart, Iramuteq, Taltac, ecc.
Output risultati: - numerici e piani fattoriali; - g rafici particolari (grafo delle similitudini, wordcloud)
8. Gli anni 2000: lo sviluppo del data mining e della data science La nascita del data mining risale alla fine degli anni 1980 in ambito e per necessità aziendali quando iniziarono ad essere disponibili perché archiviati su computer notevoli insiemi di dati sotto forma di database (basi di dati) o data warehouse (magazzino, ‘deposito’ di dati) o altri tipi di ‘information depositories’ con continui miglioramenti nelle procedure di accesso ai dati. Per data mining (estrazione di dati da miniere di dati) si intende un processo non elementare di individuazione di relazioni, correlazioni, dipendenze, associazioni, modelli, strutture, classi derivanti dalla ‘navigazione’ attraverso grandi insiemi di dati generalmente strutturati in basi di dati (Fraire, Rizzi, 2011)13. Scopi principali del data mining sono estrarre informazioni importanti predittive e strutturali, nascoste, di andamenti, comportamenti, modelli latenti, correlazioni e relazioni sconosciute di importanza pratica, ad es. negli affari, da grandi basi di dati. 13
Fraire M., Rizzi A., 2011 - Analisi dei dati per il Data Mining , Carocci ed.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
La statistica nella società della data science 41
Si ‘potrebbero’ classificare i principali metodi e tecniche impiegati nel data mining ma che sono anche di natura statistica secondo il loro sviluppo temporale in tre grandi gruppi:
Documento acquistato da () il 2023/04/27.
1. Metodi della prima generazione sviluppati fino agli anni ’70: – Metodi fattoriali (ACP, ACS, ACM, Multidimensional Scaling, analisi della regressione) – Cluster analysis – Modelli di regressione e classificazione 2. Metodi della seconda generazione(sviluppati negli ultimi 40 anni): 1. Reti neurali 2. Algoritmi genetici 3. Alberi decisionali 4. Regole di associazione Molto importante rispetto al trattamento dei big data ai fini della loro interrogazione con mezzi informatici sono i due concetti di DB (Data Base) e DW (Data Warehouse)ed importante è la differenza tra i due: nel DB le interrogazioni avvengono su transazioni singole o tabelle legate da semplici relazioni. Le elaborazioni avvengono on line (OLTP: On-Line Transactional Processing). Nel DW l’interrogazione è caratterizzata da una analisi dinamica e multidimensionale che richiede la scansione di una enorme quantità di record per ottenere sintesi di interesse per l’utente. Nel DW l’interrogazione viene indicata con l’acronimo OLAP (On-Line Analitical Processing).
9. Ruolo e importanza della evoluzione scientifica della statistica per le nuove professioni: data science e data scientist Cosa si intende per data science: per data science si intende una disciplina interdisciplinare includente una varietà di discipline: statistica, informatica, matematica, comunicazione, abilità nell’uso di software. Scopo principale è insegnare ad imparare dai dati. Per data scientist si indica quindi colui che ha le competenze necessarie ed è qui l’aspetto più complesso e innovativo. Nella Fig. 3 si riporta il ciclo di base che caratterizza l’imparare dai dati la cui sequenza è abbastanza nota. Ciò che invece caratterizza il moderno data scientist è ben rappresentato dallo schema proposto nel 2016 dalla Gartner Inc e riportato in Fig. 4.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
42 Capire la statistica
Fig. 3 – Il ciclo base dell’imparare dai dati Getting the data Exploring the data Problem elicitation and formulation
Documento acquistato da () il 2023/04/27.
Analyzing the data Communicating the results
Nel 2016 la Gartner Inc14 presentò questo schema (v. Fig. 4) utile, di nuovo, a dimostrare la multidisciplinarietà della materia e soprattutto il fatto che la Data Science si colloca all’intersezione di tre discipline di business e che sarà ben difficile trovare una persona che le padroneggi tutte fin dall’inizio: molto più facile, osserva la Gartner Inc, partire con una competenza di base ad esempio in statistica o informatica per poi costruirsi le altre sul campo. Fig. 4 – La multidisciplinarietà della Data science Understand customers Ask good questions
Constraints (privacy, legal) Get the right data
Define metrics that matter
Substantive Expertise (Marketing)
Make it actionable
Data Engineer
Translate for nontechnical audience
Traditional Research
Data preparation Data governance SQL
Hacking and Coding
Machine Learning
Statistics
Statistical packages Advanced math Experimental design Model fitting
Scripting languages Predictive analytics
14
https://www.gartner.com/en
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
La statistica nella società della data science 43
In particolare in Italia recentemente (giugno 2018) il CUN ha richiesto i pareri di tutte le facoltà e enti scientifici e di ricerca circa la costituzione di una nuova laurea magistrale in ‘data science’.15 Interessante e significativo per comprendere l’evoluzione in corso delle scienze statistiche e la loro relazione con la Data Science è il parere della Società Italiana di Statistica (SIS)sull’opportunità di creare una nuova classe di laurea magistrale in DATA SCIENCE (Audizione CUN, Roma, 14 giugno 2018). “La Statistica è anche scienza dei dati in continua evoluzione. La Statistica è una disciplina scientifica che studia i metodi di raccolta, di organizzazione, di analisi, d’interpretazione e presentazione dei dati, e tutti le riconoscono un ruolo preminente nel progresso della conoscenza in qualsiasi campo del sapere. Già da oltre un secolo, ha sviluppato anche metodologie per gestire ed analizzare grandi mole di dati, come quelli rilevati in occasione dei Censimenti e di indagini campionarie su vasta scala o presenti in archivi amministrativi, definendo i principi che stabiliscono l’attendibilità dei dati raccolti (profilo di errore) e l’attendibilità dei risultati delle analisi. A tal fine è necessario distinguere il profilo di Data Analyst da quello di Data Engineer. Per il data analyst è fondamentale sviluppare abilità analitiche, quindi propensione per il ragionamento matematico e statistico e sensibilità alla validazione e alla qualità dei dati, competenze di programmazione e anche doti comunicative, utili per presentare i risultati dell’analisi di dati complessi in forma chiara e comprensibile. Nel secondo (data engineer) le abilità tecnico informatiche legate alla raccolta, sistemazione e mantenimento dei dati sono prevalenti, per garantire la disponibilità, la qualità e la fruibilità dei dati per l’analisi. Di non secondaria importanza è anche la competenza di Data Protection per la quale sono importanti, oltre alle competenze informatiche, anche quelle giuridiche, etiche e di statistical disclosure per il mantenimento e la tutela della privacy. Importante inoltre il parere espresso sempre in sede CUN nell’audizione del 14 giugno 2018 dal Gruppo di Informatica (SSD INF/01) che precisa la differenza tra data science e informatica (computer science). A prima vista la Data Science è molto più sperimentale. L’Infor15 Al sito web: https://www.cun.it/documentazione/audizione-data-science è possibile visionare tutte le relazioni degli enti invitati.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
44 Capire la statistica
Documento acquistato da () il 2023/04/27.
matica è incentrata sulla teoria della computabilità, e sviluppa in modo sistematico le tecniche di trattamento automatico dell’informazione e di risoluzione esatta/approssimata di problemi di natura computazionale .La Data Science accetta l’incertezza e l’approssimazione come nozioni fondative. Per entrambe usa modelli probabilistici, statistici o subsimbolici capaci però di supportare un ragionamento matematicoformale. L’Informatica è invecefortemente radicata nella Logica simbolica e su modelli componibili per livelli astrazione.16
10. I percorsi di formazione per diventare data scientist, tra Università, MOOC e Bootcamp In sintesi estrema, tre sono i percorsi più comuni per diventare Data Scientist. I. Il primo percorso è seguire un corso universitario ad hoc. Si parla di lauree specialistiche, da conseguire dopo la laurea triennale in informatica, matematica o statistica, così come di nuovi corsi che non certo a caso proprio negli ultimi due anni hanno cominciato a fiorire anche nel nostro Paese. II. Il secondo percorso è quello che passa attraverso i cosiddetti MOOC, i Massive Open Online Courses, vale a dire corsi di formazione a distanza. Ce ne sono molti e sulla Data Science sono operative realtà ben riconosciute, da Coursera a Udacity, da EdX (nata all’interno del MIT di Boston) a EMMA, nata invece in seno all’Unione Europea. III. La terza opzione passa invece dai bootcamp (addestramento intensivo sul campo), vale a dire attraverso una esperienza accelerata e tipicamente esperienziale, con connotazioni pratiche e di progetto.
16
Audizione CUN Roma, 14 giugno 2018 sul tema “Data Science” il 14 giugno 2018:Contributo del Gruppo di Informatica (SSD INF/01) reperibile al sito web indicato in nota 15.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
La statistica nella società della data science 45
Documento acquistato da () il 2023/04/27.
Riferimenti bibliografici Benzecri J.P., 1980, L’analyse des données, Paris, Dunod. Bolasco S., 2013, L’analisi automatica dei testi. Fare ricerca con il text mining, Roma, Carocci. Caillez F., Pages J.P., 1976, Introduction à ‘analyse des données, Paris, Smash. Fraire M. 1994, Metodi di analisi multidimensionale dei dati’, ed. CISU. Fraire M., 1995, Multidimensional Data Analysis and its preliminary phases: statistical aspects, in Rizzi A. eds, Some Relations Between Matrices and Structures of Multidimensional Data Analysis, Applied Mathematics Monographs, n.8, Pisa, Giardini Editori e Stampatori. Fraire M., 1997, Complessità, instabilità e caos: esplorazione statistica multidimensionale e fenomeni sociali, in Consarelli B.e N. Di Penta B. (a cura di), Il mondo delle passioni nell’immaginario utopico, ed. Giuffrè. Fraire M., Rizzi A., 2011, Analisi dei dati per il Data Mining, Carocci - pagg. 73-120: Le fasi dell’analisi dei dati. Fraire M., 2013, Analisi a tre-vie nelle risposte a domande aperte e indicatori empirici, Sociologia e Ricerca Sociale, XXI, 61, pp. 87-101, doi:10.1400/69144. Fraire M., Sessa F., Spagnuolo S., Stasi S., Marino S., 2015, Mobilitazioni dei cittadini per il territorio: analisi testuale dei social network e delle comunicazioni istituzionali, Cahier, 5, pp.135-153. Fraire M., Spagnuolo S., Stasi S., 2016, L’utilizzo dei big social data per la ricerca sociale:il caso della cittadinanza attiva in difesa del territorio, Sociologia e Ricerca Sociale, n.109, 2016, anno XXXVII, FrancoAngeli pp. 174-187. Pieri L., 2011, Software statistico, Appendice C in Fraire M., Rizzi A, Analisi dei dati per il Data Mining, Carocci ed. pagg. 407-414.
Siti web Unione Europea: https://europa.eu/european-union/index_it International Statistical Institute (ISI): https://isi-web.org/ International Association for Statistical Education (IASE): http://iase-web.org/ (SERJ-Statistical Education Research Journal): http://iase-web.org/Publications. php?p=SERJ Istituto Centrale di Statistica (ISTAT): https://www.istat.it
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
46 Capire la statistica
Siti web per software statistici (open source): http://www.dtmvic.com/05_SoftwareI.html (sito in italiano) https://www.sas.com/it_it/home.html https://www.r-project.org/ https://it.mathworks.com/downloads/web_downloads
Siti web per corsi on line:
Documento acquistato da () il 2023/04/27.
https://www.statistics.com/ https://jobs.gartner.com/
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici Bruno Delle Donne
Documento acquistato da () il 2023/04/27.
I. PREMESSA A - Definizioni La statistica riguarda lo studio quantitativo di fenomeni collettivi con l’impiego di proprie tecnologie al fine di descrivere ed investigare i fenomeni stessi. La rilevazione statistica del fenomeno si avvale di una serie di indici che consentono di sintetizzare un fenomeno (sociale, economico, finanziario, ecc.) in un unico valore (medie, scarti, rapporti statistici, relazioni tra due o più caratteri, ecc.) in modo da sintetizzare l’intero fenomeno in un dato più semplice e maneggevole. Nella analisi pratica dei fenomeni collettivi, vista l’impossibilità di sottoporre ad analisi l’intera collettività (autovetture soggette a specifici incidenti, malati di uno specifico morbo, andamento di titoli in borsa, ecc.), normalmente denominata popolazione, gli indici sintetici vengono riferiti alla porzione della popolazione sottoposta ad indagine (campione) e successivamente con specifici metodi di analisi i risultati desunti dal campione si riconducono all’intera popolazione di riferimento. Le fasi di una rilevazione statistica sono rappresentate da: 1) piano rilevazione; 2) raccolta dati; 3) classificazione e spoglio; 4) elaborazione; 5) interpretazione.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
48 Capire la statistica
Documento acquistato da () il 2023/04/27.
Piano rilevazione Il piano deve fissare: a) scelta campo indagine; b) metodo rilevazione: diretto (totale o parziale), indiretto (raccolta dati prodotti da altri), sperimentale (prove dirette sul collettivo quali test, analisi chimico cliniche, ecc.); c) epoca di rilevazione; d) personale e organizzazione collaterale per la raccolta; e) strumenti per la rilevazione (questionari, modelli, macchine per analisi, ecc.) e per elaborazione (PC e programmi); f) fonti in caso di rilevazione indiretta; g) tempi e costi; h) diffusione dei dati. Raccolta dati La raccolta è la documentazione statistica di partenza (questionari, moduli, tabulati, ecc.); a volte, a fronte di un fenomeno non noto in alcuni aspetti strutturali, si fanno pre-test per poter stabilire la validità della documentazione predisposta per la stessa rilevazione; il questionario, che riveste quindi particolare importanza, può risultare: • diretto (autocompilazione); • con tecnica dell’intervista (chiarimenti nella compilazione) • combinato con i due precedenti metodi (tecnica del giorno dopo) La sua validità è soggetta a molte cause di distorsione (domande poco chiare, reticenze, interazione con intervistatore, ecc.) quindi risulta essenziale la standardizzazione delle domande con: –– –– –– –– ––
linguaggio chiaro e semplice; ordine preordinato a fronte degli effetti che risposta può avere sulla risposta alla domanda successiva; numero che deve comunque essere limitato per evitare di scoraggiare l’intervistato a non rispondere; presentazione tipografica studiata per una immediata visione di tutte le domande correlate; tipo domanda che può essere: • aperta (1, 2, e altro), • libera (senza classificazioni a priori),
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 49
• chiusa (in cui se riferita a caratteri qualitativi vanno individuate tutte le possibili risposte e se riferita a caratteri quantitativi vanno rispettate le esaustività delle classi), • filtro (se risponde si a 1° domanda poi è chiesta precisazione), • gerarchizzata (quando si chiede ordine di preferenza specialmente su domande di opinione) • multireponse (quando sono ammissibili + risposte).
Documento acquistato da () il 2023/04/27.
Spoglio È rappresentato dal computo dei dati forniti dalla rilevazione e si concretizza nella compilazione di tabelle di frequenza o di intensità sia semplici (ad es. solo statura) sia doppie (ad es. età e sesso) Elaborazione È dato dall’insieme di operazioni necessarie ad ottenere indici sintetici che forniscano risposte sugli scopi iniziali della rilevazione Interpretazione In cui, attraverso l’analisi quantitativa e grafica, si tenta di comprendere gli aspetti che sottendono al fenomeno e le eventuali regolarità dello stesso .
B – Nomenclatura Caratteri statistici L’oggetto della statistica è lo studio di fenomeni collettivi attraverso l’analisi numerica di un insieme di unità statistiche di uno o più caratteri di cui si effettua la rilevazione attraverso una apposita indagine. L’unità statistica è quindi ogni elemento del collettivo oggetto dell’indagine statistica, mentre il carattere statistico è l’elemento prescelto per descrivere il fenomeno collettivo e si articola in modalità (modi di essere del carattere quali l’altezza, l’età, lo stato civile e professionale, ecc.). I caratteri statistici affinché possano essere sottoposti ad analisi statistica debbono essere misurati; si deve cioè assegnare al carattere un valore (sia esso numerico o letterale) affinché sia possibile trattare tali valori con algoritmi matematici utili a fornire una sintesi del fenomeno che si sta studiando.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
50 Capire la statistica
Documento acquistato da () il 2023/04/27.
I caratteri statistici, secondo il livello di misurazione, possono essere suddivisi in: 1. qualitativi (mutabili) le cui modalità sono espresse in termini nominali mediante attributi (es. giovane e vecchio, cattivo, medio e buono, ecc.) e si distinguono in: • sconnesse, quando le modalità del carattere non presentano alcun ordine, ne risulta possibile ordinarle se non utilizzando un criterio totalmente soggettivo (esempi sono rappresentati dal sesso, stato civile, professione, razza, ecc.); tali caratteri si definiscono scale nominali; • rettilinee e cicliche, quando le modalità dello stesso carattere presentano un ordine naturale e pertanto risulta senz’altro possibile ordinarle (esempi sono rappresentati dai gradi militari, dalle votazioni di un concorso, dai gradi qualitativi attribuiti ad un prodotto, dai giorni della settimana, dai mesi dell’anno, ecc.); tali caratteri si definiscono anche scale ordinali; 2. quantitativi (variabili) le cui modalità sono espresse in determinate unità di misura, quindi con unità ordinate, e si distinguono in: • scale ad intervalli qualora siano prive di uno zero assoluto (quali ad esempio il Q.I. di un certo collettivo, i punteggi di un test attitudinale, ecc.); per esse è possibile effettuare la differenza tra i valori ma non il loro rapporto; • scale di rapporti qualora abbiano uno zero assoluto (quali ad esempio l’età, l’altezza, il peso, ecc.) e consentono quindi il rapporto tra i valori delle modalità. Le variabili (caratteri quantitativi) si distinguono in: –– ––
discrete quando le modalità del carattere possono assumere solo alcuni dei valori di un intervallo (esempi sono rappresentati dalle nascite, dai decessi, dagli occupati, ecc.); continue quando le modalità del carattere possono assumere tutti i possibili valori reali di un intervallo (esempi sono rappresentati dall’età, dal peso, dall’altezza, ecc.). Altre classificazioni possono essere ottenute in base: • al tempo: invarianti nel tempo (es. luogo di nascita), di stato se rilevabili in un dato istante (es. età) e di flusso se rilevabili in un dato intervallo di tempo (es. decessi);
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 51
• alla trasferibilità del carattere: trasferibili se ogni unità statistica può assumere una qualsiasi delle modalità del carattere (es. reddito) e non trasferibili nel caso contrario (es. età).
Documento acquistato da () il 2023/04/27.
Distribuzioni statistiche La distribuzione statistica è la rappresentazione delle operazioni effettuate per la rilevazione del fenomeno oggetto di studio; esse possono essere classificate in relazione a: –– numero dei carattere rilevati: • semplici, quando le unità statistiche sono state classificate secondo un solo carattere (distribuzione degli stati europei per ampiezza geografica, famiglie italiane per livello di reddito, ecc.); • doppie o multiple, quando le unità statistiche sono state classificate secondo due o più caratteri (studenti di un liceo per età, religione e votazione di esame, dipendenti di un azienda per grado, stipendio, età e sesso, ecc.); –– oggetto cui si riferiscono: • serie quando si riferiscono a caratteri qualitativi; • seriazioni quando si riferiscono a caratteri quantitativi; –– modo in cui sono espresse le modalità dei caratteri: • di intensità quando al carattere è associato un valore che è il risultato di un operazione di misurazione (prodotto interno lordo di un paese, temperature di alcuni pazienti, aree di alcuni terreni, ecc.); • di frequenza quando al carattere è associato un numero che è il risultato di un operazione di conteggio (numero degli abitanti per km2, numero dei coscritti ad una visita di leva per altezza e peso, ecc.). Le distribuzioni dei caratteri quantitativi, essendo questi rappresentati da modalità di natura metrica possono essere espresse in: –– valori per unità quando la distribuzione è espressa dai singoli valori assunti dalle unità statistiche (possibile per tutte le variabili discrete e per quelle continue se la numerosità del collettivo è estremamente ridotta); –– valori in classi quando i singoli valori assunti dalle unità statistiche sono raggruppati in classi (per le variabili continue si dovrebbe quasi sempre parlare di distribuzioni in classi di valori essendo il
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
52 Capire la statistica
Documento acquistato da () il 2023/04/27.
carattere sempre compreso tra un estremo inferiore ed un estremo superiore anche se viene indicato come valore esatto). Le distribuzioni di intensità sono normalmente distribuzioni per unità statistiche, nel senso che, avendo rilevato N unità, la rappresentazione tabellare della distribuzione individua ogni singola unità; quindi si avranno N modalità del carattere X aventi ognuna un determinato ordine indicante il posto (i-esimo); x1 , x2, x3, ……., xi , ……xN oppure semplicemente xi con i=1, 2, 3, .. , N Le distribuzioni di frequenza sono invece costituite da k modalità a ciascuna delle quali viene attribuito un determinato numero che rappresenta quante volte quella modalità si è presentata nella rilevazione; pertanto a fronte di k modalità rilevate, ad ogni i-esima modalità del carattere statistico xi verrà associata una frequenza ni in modo che il totale delle frequenze assolute risulti pari a quello osservato N; ⎧⎪ x1 , x2 , x3 ,……, xi ,……xk ⎨ n , n , n ,……, ni ,……nk ⎩⎪ 1 2 3 oppure xi associato ad ni con i=1, 2, 3, … , k Nell’ambito delle distribuzioni di frequenza si avranno le frequenze assolute, ni (i numeri effettivamente ottenuti dall’operazione di conteggio) dalle quali è possibile individuare: • le frequenze assolute cumulate fino all’i-esima modalità del carattere (indicate con Ni), ottenute sommando in successione le frequenze assolute; la funzione di tali frequenze viene denominata funzione di ripartizione delle frequenze assolute. • evidenziare le frequenze relative di ogni i-esima modalità (indicate con fi) ottenute dal rapporto tra la frequenza assoluta ed il totale delle frequenze; • calcolare le frequenze relative cumulate (indicate con Fi), ottenute sommando in successione le frequenze relative; la funzione di tali frequenze viene denominata funzione di ripartizione delle frequenze relative. Pertanto le formulazioni saranno rappresentate da (il simbolo sigma greco si legge sommatoria con i che va da 1 a k per il primo e cosi via gli altri):
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 53
k
N = ∑ ni
i
;
i=1
N i = ∑ nj j=1
;
fi =
ni N
i
;
Fi = ∑ ffij j=1
Oltre alle frequenze cumulate (sia assolute che relative) è possibile determinare anche le corrispondenti frequenze retrocumulate, che risultano: • N-Ni frequenze assolute retrocumulate; • 1-Fi frequenze relative retrocumulate.
Documento acquistato da () il 2023/04/27.
C – Rappresentazioni La distribuzione statistica ha una rappresentazione sia tabellare che grafica; quella tabellare è data dal documento su cui si sintetizzano i risultati delle rilevazioni, mentre quella grafica illustra mediante figure (linee, aree, simboli, ecc) la distribuzione ottenuta. Le rappresentazioni possono riguardare sia le distribuzioni semplici che quelle doppie o multiple. Rappresentazioni tabellari Le tabelle su distribuzioni semplici sono: tabelle di frequenza e tabelle di intensità a secondo del modo in cui sono espresse le modalità dei caratteri. Le tabelle su distribuzioni doppie o multiple possono essere: tabelle derivate (quando si compila una tabella semplice per ciascun valore del secondo carattere (o di ciascuno degli altri caratteri) e tabelle a doppia o multipla entrata; queste ultime si suddividono in: • tabelle di correlazione quando i caratteri sono tutti quantitativi (variabili); • tabelle di contingenza quando almeno uno dei caratteri è qualitativo (mutabile). Rappresentazioni grafiche La rappresentazione grafica consente una più immediata visualizzazione dei dati statistici rispetto alla forma tabellare in cui le distribuzioni vengono inizialmente rappresentate. Il tipo di rappresentazione grafica è direttamente correlato alla distribuzione statistica da rappresentare; in relazione al livello di misurazione del carattere statistico, si può sinteticamente avere:
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
54 Capire la statistica
Documento acquistato da () il 2023/04/27.
––
––
grafici su distribuzioni semplici: • grafici a barre (ortogrammi) – serie sia sconnesse che rettilinee o cicliche; le barre possono essere a colonne (verticali) o a nastri (orizzontali); • diagrammi circolari (aerogrammi circolari) – serie sia sconnesse che rettilinee o cicliche; il diagramma può essere a spicchi variabili e proporzionali alla frequenza o intensità (torte) o a spicchi uguali e raggi proporzionali alla frequenza o intensità; • diagrammi in coordinate polari – serie cicliche (fenomeni demografici ed economici relativi a mesi, giorni, ecc.); • cartogrammi (mappe) - serie sconnesse riferite e stati, territori, luoghi, ecc.; • istogrammi – seriazioni continue o semicontinue divise in classi di valori (è possibile tracciare i segmenti che uniscono le ordinate dei valori centrali delle classi ottenendo il poligono di frequenza); • diagrammi in coordinate cartesiane a canne d’organo – fenomeni discreti e seriazioni discrete; • coordinate cartesiane (poligono e curve di frequenza) – fenomeni continui e seriazioni continue; • diagrammi in scala semilogaritmica – nelle ordinate viene inserita una scala logaritmica in luogo di quella naturale; servono ad evidenziare l’incremento o il decremento relativi (variazione percentuale) che un fenomeno subisce in tempi o luoghi diversi; sono ovviamente utilizzabili solo per seriazioni; • ogiva o poligono di frequenza cumulata – seriazioni continue e discrete divise in classi; • ideogrammi o pittogrammi – rappresentazioni tramite figure, disegni, simboli, ecc.. grafici su distribuzioni doppie: • stereogramma - seriazioni per entrambe i caratteri; sono a pali per variabili discrete ed a curve per variabili continue (tabelle di correlazione); per distribuzioni di frequenza; • nuvola dei punti – seriazioni per entrambi i caratteri sia discreti che continui (tabelle di correlazione); sono stereogrammi particolari validi solo per distribuzioni per unità; • diagrammi a barre verticali – almeno uno dei caratteri è qualitativo (tabella di contingenza) in cui le barre saranno parallelepipedi con volume pari alla frequenza o all’intensità;
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 55
• cartodiagrammi – come i diagrammi a barre verticali ma situati su una mappa in quanto uno dei caratteri qualitativi è la zona geografica; • piramide delle età – i caratteri sono età e sesso (tabella di contingenza) le cui frequenze per età sono rappresentate come lati di una piramide divisa in maschi e femmine.
II – INDICI STATISTICI
Documento acquistato da () il 2023/04/27.
A - Medie La media è essenzialmente un indice che fornisce una rappresentazione sintetica dell’intera distribuzione; la media nella definizione più generale (O. Chisini) è un valore non esterno all’intervallo definito tra la minore e la maggiore delle modalità assunte dal carattere statistico della distribuzione rilevata; pertanto la media deve comunque soddisfare la disequazione seguente: x1 ≤ M xN
intervallo di variazione delle medie
Rispetto ad una funzione delle modalità x1, x2, x3, ……., xi,……xN , la media x deve essere tale da soddisfare la seguente relazione: f ( x1 , x1 , x1 ,…, x1 ) = f ( x, x, x,…, x ) Le medie possono essere divise in: • analitiche quelle che forniscono un valore della stessa unità di misura delle modalità (il peso, l’altezza, le età, ecc.); • lasche o di posizione quelle che rappresentano un elemento qualitativo della distribuzione (il posto occupato o la sua attitudine a presentare una certa frequenza). Medie analitiche (applicabili solo a seriazioni) Media aritmetica indicata semplicemente con M – ma il simbolo corretto è M1 perché può essere interpretata come una media di potenza (vedi appresso) con indice 1 – la cui espressione è:
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
56 Capire la statistica
– distribuzioni per unità
– distribuzioni di frequenza
N
M=
N
∑x
i
i=1
N
M=
∑x ⋅n i
i
i=1
N
(si rammenta che la media viene di solito indicata con la variabile soprasegnata)
Documento acquistato da () il 2023/04/27.
Media geometrica indicata semplicemente con Mg – ma il simbolo corretto è M0 perché può essere interpretata come il limite di una media di potenza (vedi appresso) con indice 0 – la cui espressione è – distribuzioni per unità
– distribuzioni di frequenza N
N
Mg = N ∏ xi i=1
Mg = N ∏ xi ni i=1
Media di potenze indicata con Ms la cui espressione è: – distribuzioni per unità N
MS =
S
– distribuzioni di frequenza k
∑x
S i
S
∑x
S i
⋅ ni
MS = N N (particolare importanza per il suo frequente uso nel campo della variabilità (vedi appresso) riveste la media quadratica ottenuta nel caso in cui s=2) i=1
i=1
Proprietà 1. Le medie di potenza presentano la seguente proprietà:
( )
M0 Mg ≤ M1 ( M ) ≤ M2 ≤ M3 ≤ … 2. La media aritmetica, media per antonomasia, gode di alcune proprietà di notevole importanza rappresentate da: • la somma degli scarti dalla media (differenze tra le k modalità e la media) risulta pari a zero; • la somma dei quadrati degli scarti è un minimo rispetto al quadrato degli scarti da qualsiasi altro valore;
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 57
Documento acquistato da () il 2023/04/27.
• criterio associativo, nel senso che la media di un collettivo diviso in sottocollettivi è uguale alla media delle medie dei sottocollettivi (M(tot) = M(1°) + M(2°) + M(3°) + ……); • la media è invariante per trasformazioni affini, nel senso che data una distribuzione X di media M, se tutti i termini della distribuzione vengono moltiplicati per una costante a e sommati di una costante b, anche la media della distribuzione trasformata Y risulta moltiplicata per a e sommata di b; più precisamente a fronte di una trasformazione della distribuzione del tipo: yi = axi + b la media della distribuzione trasformata y è data da M y = aM x + b Medie lasche (sia per serie che seriazioni) Moda - modalità del carattere con la massima frequenza (applicabile a serie e seriazioni); viene indicata con Mo ; nel caso di seriazioni con modalità divise in classi per l’individuazione della moda occorre individuare la massima densità media di frequenza, determinata dividendo la frequenza per l’ampiezza delle classi. Mediana - modalità del carattere che presenta un uguale numero di elementi alla sua sinistra ed alla sua destra nella rappresentazione ordinata in modo crescente della distribuzione (applicabile a serie rettilinee e seriazioni); viene indicata con Me e per poterla determinare è sufficiente individuare N +1 • il termine che occupa il posto la cui frequenza è Fe = 2 se N è dispari; N N e Fe = + 1 se N è pari. 2 2 Qualora si abbiano distribuzioni divise in classi si potrà dapprima individuare la classe mediana (calcolando Fe come sopra indicato) e successivamente individuare l’esatto valore della mediano con la forx2 − x1 ⋅ ( Fe − N e−1 ) in cui, per la classe mediana, x1 ed x2 sono mula x1 + ne gli estremi inferiore e superiore, ne è la frequenza ed Ne-1 è la frequenza cumulata della classe precedente; nel caso di N pari è necessario calcolare due volte la formula sopra indicata con i due valori di Fe e • i termini che occupano i posti Fe =
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
58 Capire la statistica
successivamente fare la semisomma dei valori ottenuti (nel caso in cui i due valori di Fe cadano nella stessa classe mediana si può applicare la formula una sola volta con la semisomma dei due valori di Fe).
Documento acquistato da () il 2023/04/27.
Quantili - modalità del carattere che presenta N/q elementi alla sua sinistra e (1-N/q) elementi alla sua destra nella rappresentazione ordinata in modo crescente della distribuzione (i quantili si dicono quartili se q è 4, decili se q è 10, centili se q è 100, percentili qualora i centili siano espressi in %); i quantili sono applicabili a serie rettilinee e seriazioni. Funzione di danno - Una definizione più generale di media è quella che individua tale valore come quello che minimizza la funzione di danno, la funzione che di fatto rappresenta la perdita di informazioni nel passaggio dalla rappresentazione analitica dell’intera distribuzione a quella sintetica della media. La funzione di danno si rappresenta normalmente come una funzione della somma degli scarti dei singoli termini della distribuzione dal valore medio prescelto cioè l’espressioS ne D = ∑ xi − M (le due barre indicano che la differenza va presa comunque con il segno positivo) e la media che minimizza tale espressione, in base al valore di s, si dice centro di grado s. Si verifica che: la moda è un centro di grado 0, perché minimizza l’espressione: D = ∑ xi − M
0
la mediana è un centro di grado 1, perché minimizza l’espressione: D = ∑ xi − M
1
la media aritmetica è un centro di grado 2, perché minimizza l’espressione: D = ∑ xi − M
2
B - Variabilità La variabilità, intesa in senso lato, può essere indicata come l’attitudine di un fenomeno ad assumere diverse modalità; si indica con il termine
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 59
Documento acquistato da () il 2023/04/27.
variabilità quella riferita a caratteri quantitativi e mutabilità quella riferita a caratteri qualitativi. Gli indici, sia quelli di variabilità che quelli di mutabilità, possono essere: –– assoluti quando sono espressi nella stessa unità di misura delle modalità; –– relativi quando sono espressi in un numero puro (non riferito ad una unità di misura), utili per confronti tra distribuzioni diverse. Indici di variabilità Questi devono presentare i seguenti requisiti: • essere nulli se le modalità sono tutte uguali; • essere positivi se esiste variabilità; • essere espressi nella stessa unità di misura delle modalità della distribuzione. I principali indici assoluti sono espressi da (le formule riportate di seguito si riferiscono comunque ad una distribuzione di frequenza ordinata in senso crescente): 1) campo di variazione R=xN – x1 2) differenza interquartilica (q1 e q3 sono rispettivamente il 1° ed il 3° quartile) D=q3 – q1 3) scostamento semplice medio k
SM =
∑ x − M ⋅n i
i
i=1
N
4) scostamento quadratico medio k
σ=
∑( x − M ) i
2
⋅ ni
i=1
N
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
60 Capire la statistica
Altri indicatori Nell’ambito della variabilità, altri indicatori, che non si considerano indici di variabilità in quanto sono espressi nel quadrato dell’unità di misura delle modalità, sono rappresentati da: k
varianza σ = 2
∑( x − M ) i
2
⋅ ni
i=1
;
N k
devianza Dev ( X ) = ∑ ( xi − M ) ⋅ ni (numeratore della varianza); 2
Documento acquistato da () il 2023/04/27.
i=1
Proprietà Varianza e devianza godono delle seguenti proprietà: 1. σ 2 = M22 − M 2 2. data una distribuzione X di media M e varianza σ 2 , se tutti i termini della distribuzione vengono moltiplicati per una costante a e sommati di una costante b, la varianza della distribuzione tra2 ; pertanto lo scarto quadratico sformata Y è data da σ Y2 = a 2 ⋅ σ M medio della distribuzione trasformata viene semplicemente ottenuto moltiplicandolo per la costante a (assunto comunque con il segno positivo e senza aggiungere nulla) σ S = a ⋅σ M 3. in un collettivo suddiviso in gruppi la devianza totale (Dev T) è pari alla somma delle devianze dei singoli gruppi (Dev W) più la devianza tra le medie dei gruppi (Dev B); cioè Dev T = Dev W + Dev B Gli indici relativi di variabilità sono rappresentati da: 1) coefficiente di variazione CV = 2) escursione relativa δ =
σ M
R σ
Indici di mutabilità Questi devono presentare i seguenti requisiti: • essere nulli se il collettivo è omogeneo (quello in cui esiste una sola modalità con frequenza diversa da zero);
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 61
• deve crescere all’aumentare della mutabilità; • deve presentare un massimo in corrispondenza dell’uniforme distribuzione delle diverse modalità (tutte le frequenze uguali). Uno dei principali indici assoluti è espresso dall’indice di Gini k
2
k
⎛n⎞ S = 1 − ∑ ⎜ i ⎟ = 1 − ∑ fi 2 ⎝ ⎠ i=1 i=1 N L’indice relativo di Gini è rappresentato da
Documento acquistato da () il 2023/04/27.
S k ⋅S = max S k − 1 Intervallo di variazione degli indici L’intervallo di variazione (campo numerico entro cui può cadere il valore) degli indici sopra indicati, sia quelli di variabilità che di mutabilità, è rappresentato da: campo di variazione 0, max scarto quadratico medio 0, max coefficiente di variazione 0, max escursione relativa 0, min indice assoluto di Gini 0, 1-1/k indice relativo di Gini 0, 1 Variabili standardizzate La variabile standardizzata è definita come quella variabile che presenta media zero e varianza unitaria (quindi anche lo scarto quadratico è unitario); pertanto, data una distribuzione X con media M e scarto X −M s, la variabile standardizzata è data da Z = . σ Pertanto qualora si volesse trasformare una distribuzione effettiva in un’altra con varibili standardizzate, l’operazione indicata dovrebbe essere applicata a ciascuna modalità della distribuzione di base (modalità meno media e diviso per lo scarto). Le variabili standardizzate hanno di fatto come unità di misura lo stesso scarto quadratico medio e sono numeri puri (questo sta a significare che le modalità di distribuzioni statistiche diverse sono sempre confrontabili).
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
62 Capire la statistica
C – Rapporti statistici Un rapporto statistico è un quoziente tra due termini, tra i quali esiste un legame logico, di cui almeno uno è di natura statistica. I rapporti consentono il confronto tra intensità o frequenze nel tempo, nello spazio o in situazioni diverse.
Documento acquistato da () il 2023/04/27.
Classificazione I rapporti si classificano, in relazione al legame logico esistente tra il numeratore ed il denominatore, in: 1. rapporti che si semplificano: quelli il cui risultato ha un concetto analogo a quello espresso da uno dei termini del quoziente (ad esempio il reddito medio pro-capite); 2. rapporti che si risolvono: quelli il cui risultato ha un concetto diverso da quello espresso da ognuno dei termini del quoziente (ad esempio la giacenza media di un deposito bancario). 1. Rapporti che si semplificano Questi possono essere: –– rapporti medi = quoziente tra intensità o frequenza di un fenomeno e le unità di intensità o frequenza di un altro fenomeno (es. media aritmetica, reddito nazionale pro-capite, densità demografica, ecc.); –– numeri indici semplici = quoziente tra l’intensità di un fenomeno riferita ad un dato tempo, luogo o situazione e l’intensità dello stesso fenomeno riferita ad un tempo o situazione scelta come base; –– numeri indici complessi = medie (aritmetiche, geometriche, ecc.) semplici o ponderate degli indici semplici; si parla pertanto di medie di rapporti; –– rapporti di composizione = quoziente tra intensità o frequenze di due fenomeni in cui il numeratore può considerarsi una parte del denominatore; di fatto si può dire che è un quoziente di una parte al tutto; –– rapporti di derivazione = quoziente tra intensità o frequenze di uno fenomeno e quelle di un altro fenomeno che è il presupposto logico del primo (es. quoziente di fecondità=nati vivi/donne in età feconda; quoziente di nuzialità=matrimoni/popolazione; ecc.); –– rapporti di coesistenza = quoziente tra intensità o frequenze di uno stesso fenomeno in luoghi diversi o di due fenomeni in uno stesso
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 63
Documento acquistato da () il 2023/04/27.
luogo; di fatto in entrambi i casi le due intensità o frequenze poste al numeratore o denominatore coesistono nel senso che il numeratore non è una parte del tutto, né deriva logicamente dal denominatore (ad es. il rapporto tra ultra 65-enni e giovani fino a 14 anni). Numeri indici Semplici I numeri indici semplici possono essere: • a base fissa quando il denominatore è fisso e sempre uguale alla stessa intensità di base; pertanto se a0, a1, a2, … (con i=1, 2, 3, …) indicano le intensità del fenomeno da studiare, tali indici (bI0, bI1, bI2, …) riferiti ai vari termini della serie (di tempo, di luogo o di situazione) ed espressi in percentuale risultano (ab indica l’intensità scelta come base): a0 a a ⋅100, b I 1 = 1 ⋅100, b I 2 = 2 ⋅100,…, b I0 = ab ab ab tali indici mettono in evidenza la variazione del fenomeno rispetto all’intensità assunta come base; • a base mobile quando il denominatore varia e corrisponde all’intensità precedente (in termini di tempo, luogo o situazione) a quella dell’intensità posta al numeratore; pertanto con la stessa simbologia precedente: a1 a a ⋅100, 1 I 2 = 2 ⋅100, 2 I 3 = 3 ⋅100,…, 0 I1 = a0 a1 a2 tali indici mettono in evidenza la variazione del fenomeno rispetto all’intensità assunta nel tempo, luogo o situazione immediatamente precedente. I numeri indici semplici godono delle seguenti proprietà: • identità – se le situazioni poste a confronto sono uguali, il numero indice assume valore 1; cioè: se ai=aj allora jIi = 1; • reversibilità delle basi – per passare dagli indici a base fissa a quelli a base mobile basta dividere ciascun indice a base fissa per il suo precedente; cioè: • 0I1 = 0I1 ÷ 0I0, 1I2 = 0I2 = 0I1, 2I3 = 0I3 ÷ 0I2, …, • circolare – per passare dagli indici a base mobile a quelli a base fissa (corrispondente a quello iniziale della serie a base mobile) basta moltiplicare tutti gli indici a base mobile da quello iniziale fino a quello che si intende calcolare; cioè: • 0I1 = 0I0 · 0I1, 0I2 = 0I0 · 0I1 · 1I2, 0I3 = 0I0 · 0I1 · 1I2 · 2I3, …,
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
64 Capire la statistica
Numeri indici Complessi Questi numeri indici consentono di individuare la variazione di un insieme di fenomeni (elementi) anziché di uno soltanto; particolare importanza rivestono gli indici dei prezzi: prezzi al consumo e prezzi all’ingrosso. I principali aspetti che riguardano l’aspetto statistico sono: –– scelta degli elementi (numero e tipo); –– scelta della base; –– scelta della formula di sintesi. Indicando con pi, j il prezzo rilevato nel tempo i-esimo per la merce (o servizio) j-esimo e con qi, j le corrispondenti quantità scambiate di merci o servizi, sarà possibile determinare dapprima la serie dei numep1,2 p ri indici semplici dei prezzi per ciascuna merce (o servizio): 1,1 , , p0,1 p0,2 p1,3 , …, p1,m , essendo m il numero delle merci o servizio preso in conp0,m p0,3 siderazione; successivamente, per la scelta della formula che sintetizza i vari indici semplici si potrebbe: • effettuare una media semplice: che non consente di tener conto della diversa importanza dei beni e servizi nel complesso dei consumi; • effettuare una media ponderata con il valore delle quantità consumate al tempo base (detto indice di Laspeyres): 1 m p1, j I = ⋅∑ ⋅100 m j=1 p0, j tale indice può considerarsi una misura significativa delle variazioni di prezzo a fronte di una struttura dei consumi di beni e servizi sufficientemente stabile nel tempo o nello spazio; • effettuare una media ponderata con il valore delle quantità consumate al tempo 1 ma con il prezzo del tempo base (detto indice di Paasche): m
IP =
p1, j ∑ p0, j ⋅ p0, j ⋅q1, j j=1 m
∑p
0, j
j=1
⋅q1, j
m
=
∑ ⋅p
1, j
⋅q1, j
∑p
0, j
⋅q0, j
j=1 m
j=1
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 65
tale indice può considerarsi una misura significativa delle variazioni di prezzo anche quando la struttura dei consumi di beni e servizi varia sensibilmente nel tempo o nello spazio; • effettuare una media geometrica dei due indici sopra indicati (detto indice di Fisher):
Documento acquistato da () il 2023/04/27.
IF = IL ⋅ IP In ogni caso, a fronte di modifiche significative nella struttura dei consumi della collettività considerata, è necessario cambiare la base di riferimento degli indici modificando il paniere (insieme di beni e servizi utilizzati per il calcolo dell’indice) di riferimento; in questo caso dovranno essere forniti i coefficienti di raccordo tra gli indici nuovi e quelli vecchi (come usa l’Istat nella determinazione degli indici dei prezzi). Indici Istat Con riferimento agli indici dei prezzi, particolare importanza rivestono quelli al consumo calcolati dall’Istat: –– prezzi al consumo per le famiglie di operai ed impiegati (già costo della vita indicato con la sigla FOI) che misurano la variazione dei prezzi dei beni e servizi acquistati dai lavoratori dipendenti non agricoli (quindi operai ed impiegati esclusi i dirigenti); tali indici sono riferiti ad una struttura fissa di consumi (il numero e tipo di beni utilizzato per la ponderazione è sempre quello dell’anno scelto come base); –– prezzi al consumo per l’intera collettività nazionale (indicato con la sigla NIC) che si riferiscono alle vendite effettuate dal settore delle imprese al settore delle famiglie. –– prezzi al consumo armonizzati per i paesi dell’Unione Europea (indicato con la sigla IPCA) che si riferiscono ad una misura dell’inflazione comparabile tra i diversi paesi europei, attraverso l’adozione di un impianto concettuale, metodologico e tecnico condiviso da tutti i paesi (l’indice viene elaborato anche a tassazione costante). A fronte di modifiche che intervengono nella struttura dei consumi, gli indici vengono adeguati eliminando beni e servizi non più significativi ed aggiungendo quelli nuovi; l’Istat fornisce i cosiddetti coefficienti di raccordo tra gli indici con la nuova base e quelli utilizzati in precedenza.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
66 Capire la statistica
Indici di Borsa Una particolare importanza tra i rapporti statistici rivestono gli indici di borsa, sia per la possibilità di disporre delle opportune informazioni per operazioni finanziarie di investimento e disinvestimento, sia perché Consob e Covip hanno imposto l’uso di benchmarks per le gestioni patrimoniali ed i fondi di investimento (Consob) e per i fondi pensione (Covip); tali indici rappresentano una sintesi delle quotazione dei diversi titoli che sono quotati in una specifica borsa valori. Nella determinazione di un indice di borsa è necessario tener conto di: –– il paniere dei titoli; –– la base di partenza (di solito 100 o 1000); –– la data base (di solito il primo o l’ultimo giorno dell’anno solare); –– il tipo di espressione da utilizzare per la sintesi (media aritmetica o geometrica o altra espressione); –– il peso che i singoli titoli hanno all’interno del paniere. Normalmente il calcolo dell’indice avviene utilizzando la formula di Laspeyres opportunamente modificata a fronte di significative modifiche all’interno della borsa valori (entrata ed uscita di titoli dal listino, aumenti di capitale, assegnazione di azioni gratuite, ecc.); l’espressione dell’indice It, riferito all’istante t, è normalmente la seguente (in cui C0, i è la capitalizzazione di borsa alla data base del i-esimo titolo, pt, i è la quotazione all’istante t dell’i-esimo titolo e p0, i è la corrispondente quotazione alla data base): k
It =
∑C
0,i
⋅
i=1
pt ,i p0,i
k
∑C
0,i
i=1
I principali indici sono rappresentati dal MIB (Milano Indici di Borsa – 30 titoli più rappresentativi), Mibtel (l’indice telematico – tutti i titoli della borsa di Milano), S&P/Mib (Standard & Poor’s – borsa di Milano), DJIA (Dow Jones Industrial Average) e Nasdaq Composite (entrambi – borsa di Wall Street) , CAC 40 (borsa di Parigi) , FT-SE 100 (borsa di Londra) , DAX 30 (borsa di Francoforte), Nikkei 225 (borsa di Tokio). Il DJIA è il più antico degli indici ed è ancora il più importante del mondo, si riferisce alle 30 azioni più importanti del mercato di NY che rappresentano il 25% della capitalizzazione complessiva.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
Indici e metodi statistici 67
Rapporti di derivazione Particolare importanza tra i rapporti indicati precedentemente rivestono quelli di derivazione appartenendo a questi i cosiddetti quozienti demografici cioè rapporti ottenuti ragguagliando la frequenza di un fenomeno demografico (nascite, morti, matrimoni, ecc.) osservato in un certo intervallo di tempo alla popolazione media dell’intervallo. I rapporti di derivazione si dicono generici se il denominatore può considerarsi un presupposto generico (es. quoziente di mortalità=morti/ popolazione; ecc.) oppure specifici se il denominatore è il presupposto specifico del numeratore (es. il quoziente di fecondità sopra indicato=nati vivi/donne in età feconda; quoziente di mortalità infantile=morti nel 1° anno di vita/nati vivi all’inizio dell’anno, ecc.). I quozienti specifici consentono di approfondire l’analisi di un fenomeno demografico attraverso la ricerca delle effettive cause che generano un determinato andamento temporale dei quozienti generici. In effetti, studiando ad esempio la mortalità per età e sesso, indicando con mi la frequenza del fenomeno demografico da analizzare (numeratore del quoziente) della classe di età e sesso i-esima e con pi la popolazione che ha generato quel fenomeno demografico (denominatore del quoziente), il quoziente specifico può essere espresso dalla formula: m QSi = i con i= 1, 2, …, k classi d’età e sesso. Il quoziente generico pi di mortalità può essere espresso come media ponderata dei quozienti specifici con pesi pari alla popolazione che ha generato quel fenomeno demografico (denominatore del quoziente); infatti essendo m la somma dei morti e p la popolazione totale, risulta: Qg =
QS1 ⋅ p1 + QS2 ⋅ p2 +…+ QSk ⋅ pk p1 + p2 +…+ pk
=
m p
I pesi applicati possono anche essere espressi con la relazione seguente che rappresenta il coefficiente strutturale del fenomeno (nel nostro caso la popolazione per età): pi ∑QSi ⋅ pi quindi si può scrivere Qg = ∑ pi ∑ pi I coefficienti specifici presentano quindi una notevole potenzialità di analisi specialmente nel confronto del fenomeno in una stessa popo-
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
68 Capire la statistica
lazione ma in tempi diversi oppure in popolazioni diverse ma nello stesso tempo; tuttavia tale potenzialità è limitata dal fatto di dover calcolare un elevato numero di quozienti specifici. Vengono allora adottati i quozienti standardizzati che sono una sintesi dei quozienti di derivazione specifici. I quozienti standardizzati di fatto sono rappresentati dalla stessa espressione precedente che fornisce il quoziente generico dove è necessario sostituire la popolazione pi con una popolazione tipo (popolazione di comodo), denominata popolazione standard, che può essere una popolazione di cui si conosca la distribuzione secondo i caratteri oggetto dello studio (nel nostro caso età e sesso) o una delle due popolazioni in esame. L’espressione è rappresentata da: k
Qst =
∑Q i=1
si
k
⋅ pist
∑p
st i
i=1
Una volta che si dispone della popolazione tipo si applicheranno a questa i quozienti specifici delle due popolazioni in esame (ad esempio A e B) ottenendo dapprima i numeratori della formula (valori assoluti di morti, nascite, matrimoni, ecc.) e successivamente (dividendo per il totale della popolazione standard) due quozienti standardizzati, QstA e QstB , che possono essere confrontati. Rapporti statistici demografici I più usati rapporti statistici di natura demografica, relativi a tutti i rapporti statistici che si semplificano precedentemente considerati, sono: Composizione: frequenze relative ottenute tra la modalità di un fenomeno ed il totale della popolazione portatrice del fenomeno: indice di occupazione e disoccupazione; percentuale per sesso ed età; indici per condizione professionale e status civile; indici di scolarizzazione Coesistenza: vecchiaia = pop. con 65 e +/pop. con 0-14 dipend. anz. = pop. con 65 e +/pop. con 15-64 dipend. strutturale = pop. con 0-14 e con 65 e +/pop. con 15-64 mascolinità = nati maschi/nati femmine
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
Indici e metodi statistici 69
Derivazione mortalità = morti/pop. mortalità infantile = morti nel 1° anno di vita/nati nuzialità = matrimoni/pop. natalità = nati vivi/pop. fecondità = nati vivi/donne in età feconda rapporto tra promossi ed esaminandi rapporto tra aborti e donne in età feconda rapporto tra divorzi e coppie sposate Durata vita media = sopravviventi per ogni anno successivo ad una certa età /sopravviventi a quella età. 2. Rapporti che si risolvono Questi possono essere: –– rapporti di durata = quoziente tra la consistenza di un fenomeno ed il suo rinnovamento periodico, cioè la corrente di entrata relativa ad un certo tempo che genera la stessa consistenza (indica la durata del fenomeno con unità di misura pari a quella in cui è espresso il denominatore); ad es. rapporto tra consistenza dei depositi in banca ed i versamenti di un certo periodo, rapporto tra le pratiche burocratiche risultanti presso un ministero e quelle presentate allo stesso ministero nell’ultimo anno, ecc.); –– rapporti di ripetizione = reciproco del rapporto di durata (indica quante volte in un certo tempo – quella in cui è espresso il numeratore – si ripete il fenomeno). D - Relazioni statistiche A fronte di una distribuzione statistica doppia o multipla è utile studiare la relazione tra i diversi caratteri. Si può studiare la: –– connessione – se al variare di uno dei caratteri l’altro rimane costante o varia in modo unidirezionale o bidirezionale; –– concordanza – se al variare di uno dei caratteri l’altro varia nello stesso senso o in senso inverso. Limitando, inizialmente, lo studio a due caratteri è necessario analizzare la tabella a doppia entrata in cui sono rilevate le frequenze associate alle r (numero righe) modalità del carattere A (quello evidenziato nelle righe) ed alle s (numero colonne) modalità del carattere B (quello evidenziato nelle colonne). Tali frequenze sono indicate con
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
70 Capire la statistica
nij e sulle stesse è possibile effettuare le somme per riga e per colonna o entrambe ottenendo: s
r
s
r
j=1
i=1
j=1
i=1
r
s
nii = ∑ nij ni j = ∑ nij N = ∑ ni j N = ∑ nii N = ∑ ∑ nij i=1 j=1
Nella tabella a doppia entrata si parla di: distribuzioni parziali, per indicare le frequenze di ciascuna riga o colonna associate ad una modalità dell’altro carattere; pertanto vi sono r distribuzioni parziali del secondo carattere associate a ciascuna modalità del primo (le varie righe di frequenza) e s distribuzioni parziali del primo carattere associate a ciascuna modalità del secondo (le varie colonne di frequenza); –– distribuzioni marginali, per indicare le frequenze di ciascuno dei due caratteri indipendentemente dall’altro carattere (la colonna dei totali per il primo carattere e quella delle righe per il secondo). Il confronto tra le diverse distribuzioni marginali di un carattere condizionate da ciascuna modalità dell’altro carattere è possibile confrontare calcolando le frequenze relative per riga o per colonna ottenendo i:
Documento acquistato da () il 2023/04/27.
––
––
profili-riga quando si calcolano le frequenze relative per riga cioè s n n ni1 ni 2 ni 3 , , , … is con ∑ ij = 1 per poter confrontare le distrini• ni• ni• ni• j=1 ni• buzioni parziali del secondo carattere condizionate dalle modalità del primo; –– profili-colonna quando si calcolano le frequenze relative per r n n n n n colonna cioè 1 j , 2 j , 3 j , … rj con ∑ ij = 1 per poter confronni j ni j ni j ni j i=1 ni j tare le distribuzioni parziali del primo carattere condizionate dalle modalità del secondo. Risulta possibile anche ottenere le frequenze relative di tutn ta la tabella rapportandole al totale generale N; cioè fij = ij con s r s r N n n ∑ fij = fii = Nii , ∑ fij = fi j = Ni j , ∑ ∑ fij = 1 tali frequenze consentono j=1 i=1 i=1 j=1 di analizzare la diversa incidenza che le frequenze di associazione dei due caratteri hanno sul totale.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 71
Documento acquistato da () il 2023/04/27.
Indipendenza assoluta La variabile Y è indipendente dalla variabile X in senso matematico (indipendenza assoluta) quando rimane costante al variare della X. Nella tabella a doppia entrata si dice che c’è indipendenza se la frequenza assoluta di ogni cella è pari al totale della riga per il totale della nii ⋅ ni j colonna diviso per il totale generale, in formule: nij = N L’indipendenza assoluta è simmetrica nel senso che se Y è indipendente da X allora anche X è indipendente da Y; inoltre si parlerà ugualmente di indipendenza se al variare della modalità di un carattere i suo profili-riga e profili-colonna non variano. Indipendenza in media Possono essere utilizzate le medie di un carattere per studiare l’indipendenza (di solito si fa quando si ritiene che il valore della modalità sia effettivamente rappresentato da un valore costante – quello vero da individuare – e da una parte derivante da errori accidentali); in tal caso si dice che c’è indipendenza in media se le medie di un carattere quantitativo (l’altro carattere può essere anche qualitativo) sono tutte uguali al variare dell’altro carattere; cioè nell’ipotesi in cui il carattere quantitativo considerato sia Y, si avrà: s
∑y ⋅n j
y1 = y2 = y3 = …yr in cui yi =
ij
j=1
nii Qualora anche l’altro carattere sia quantitativo è possibile considerare anche l’indipendenza in media di quest’ultimo dall’altro. L’indipendenza in media non è simmetrica, nel senso che se X è indipendente in media da Y non è detto che Y sia indipendente in media da X. L’indipendenza assoluta implica quella in media ma non vale il viceversa. Dipendenza e interdipendenza Evidentemente se i due caratteri non sono indipendenti, saranno: dipendenti se uno dei due carattere è antecedente all’altro (ad es. i voti all’esame dipendono dalla preparazione, i risultati sportivi dipendono dal sesso, ecc.);
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
72 Capire la statistica
Documento acquistato da () il 2023/04/27.
oppure saranno interdipendenti nel caso in cui per i due caratteri non risulti possibile individuare un antecedente ed un conseguente (ad es. il numero di incidenti domestici con lo status professionale del capo-famiglia, la massa degli investimenti con le dimensioni aziendali, ecc.). Rappresentazione analitica La rappresentazione analitica mira a stimare l’espressione di una funzione matematica che rappresenti, nel modo migliore possibile, la distribuzione statistica empirica; di fatto significa che, scelta la funzione da utilizzare per rappresentare la distribuzione, dovranno essere calcolati i parametri che entrano nell’espressione della funzione prescelta. Il calcolo dei parametri può essere ottenuto imponendo che la funzione passi: –– per i punti rappresentativi dei valori empirici (variabili X ed Y); –– tra i punti rappresentativi dei valori empirici. L’individuazione della funzione che rappresenta i valori empirici consente di risolvere: • l’interpolazione, cioè l’individuazione dei nuovi valori intermedi a quelli disponibili; • l’estrapolazione, cioè l’individuazione di nuovi valori esterni all’intervallo della variabile indipendente; • la perequazione, cioè l’eliminazione di eventuali valori dovuti ad errori accidentali. Le fasi attraverso cui passa la rappresentazione analitica sono: 1. scelta del tipo di funzione; 2. calcolo dei parametri incogniti; 3. individuazione dei valori teorici derivanti dalla funzione interpolante; 4. verifica della bontà di adattamento della funzione. 1. Scelta del tipo di funzione Le espressioni della f(xi) di maggior funzione lineare (retta) ⇒ funzione parabolica ⇒ funzione di potenza ⇒ funzione esponenziale ⇒
utilizzo sono: y = ax + b y = ax2 + bx+c y = axb y = abx
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 73
2. Calcolo dei parametri incogniti Trascurando il caso in cui il calcolo dei parametri incogniti avvenga per punti, il metodo di maggiore utilizzo è il cosiddetto “metodo dei minimi quadrati”, cioè si rende minima la somma dei quadrati degli scarti tra il valore empirico della variabile Y (indicato con yi) ed il corrispondente valore teorico che scaturisce dalla funzione matematica (indicato con N
f(xi)); l’espressione sintetica è pertanto
∑ ⎡⎣ y − f ( x )⎤⎦ i
i
2
= min .
i=1
Il metodo dei minimi quadrati passa attraverso le seguenti fasi: a. si scrive la derivata dell’espressione sintetica sopra indicata pari a Documento acquistato da () il 2023/04/27.
N
b.
∑ 2 ⋅ ⎡⎣ y − f ( x )⎤⎦ ⋅ ( −Df ( x )) i
i
i
in cui Df(xi) indica la derivata della
i=1
funzione; c. si sostituisce alla f(xi) la sua espressione (ad esempio una di quelle sopra scritte) e si ripete questa formula tante volte quanti sono i parametri da calcolare (ad es. due per la 1°, 3° e 4° espressione indicata nella scelta del tipo di funzione e tre volte per la 2°) effettuando la derivata ancora da sviluppare; tale derivata si effettua rispetto ai due o tre parametri, considerando ogni volta tutte le altre espressioni e parametri diversi da quello in base al quale si fa la derivata come costanti (la cui derivata è nulla); d. si eguagliano a zero le due o tre espressioni trovate; e. si sostituisce a ciascuna sommatoria di yi e di xi (dei loro prodotti e delle loro eventuali potenze) il valore numerico calcolato dai dati empirici disponibili; f. si risolve il sistema delle due o tre equazioni risultanti calcolando i parametri incogniti. Di seguito si riportano tutti i passaggi nell’ipotesi che la funzione interpolatrice sia quella lineare (retta): –– si scrive il quadrato della differenza tra i valori empirici (yi) e quelli teorici (rappresentati dalla stessa funzione f(xi)) effettuando la somma per tutte le unità statistiche; cioè si scrive l’espressione N
N
∑ ⎡⎣ yi − f ( xi )⎤⎦ = ∑[ yi − mxi − q] ; ––
i=1
2
2
i=1
si calcola la derivata prima della espressione rispetto al parametro da calcolare, considerando tutti gli altri elementi come costanti; nella derivata prima si deve considerare che c’è un quadrato – quindi si moltiplica 2 per tutta la potenza diminuita di 1 – e poi che si deve
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
74 Capire la statistica
moltiplicare per la derivata della base della potenza (quindi visto che tutte le altre espressioni sono delle costanti si fa solo la derivata di mxi oppure di q); pertanto si ottengono le due espressioni seguenti: derivata rispetto ad m (la derivata di –mxi è –xi) N
2 ⋅ ∑ [ yi − mxi − q)] ⋅ ( −xi ) i=1
derivata rispetto ad q (la derivata di –q è –1) N
2 ⋅ ∑ [ yi − mxi − q)] ⋅ ( −1)
Documento acquistato da () il 2023/04/27.
i=1
visto che una espressione presenta un minimo o un massimo quando la sua derivata prima è pari a zero, annullando si ottiene il sistema N N N N ⎧ ⎧ ⎪ 2 ⋅ ∑ [ yi − mxi − q)] ⋅ ( −xi ) = 0 ⎪ m ⋅ ∑ xi2 + q ⋅ ∑ xi = ∑ yi ⋅ xi ⎪ ⎪ i=1 i=1 i=1 i=1 ⇒⎨ ⎨⎧ (1) NN N N N N N ⎧ ⎪⎪ 2 ⋅ ⎪⎪ m ⋅m ⋅ x 2 x+ q+⋅q ⋅ N 1)] ⋅ ( −1 = y yii − mxii − q) −x)i )==00 x = y ⋅ x [ ∑ ∑ ∑ ∑ ∑ ∑ i ii i i i ⎪⎪ ⎪⎪ i=1 i=1 i=1 i=1 i=1 i=1 i=1 ⎩⎨ ⎩⎨ ⇒ N N N ⎪ ⎪ 2 ⋅ y − mx − 1) ⋅ −1 = 0 m ⋅ x + q ⋅ N = yi ( ) (si che quest’ultimo [ i la sommatoria ] di q è pari⎪a N volte ∑q,i visto che∑ i ⎪ noti∑ i=1 i=1 i=1 è⎩indipendente dall’indice della sommatoria). ⎩ La formula (1) verrà quindi assunta direttamente quale espressione da utilizzare nella determinazione dei parametri di una retta senza dover passare attraverso tutti i passaggi precedenti. Basterà sostituire alle sommatorie i valori desunti dalla tabella di frequenza per risolvere il sistema rispetto alle due incognite.
3. Valori teorici della funzione interpolante Per ottenere i valori teorici si deve semplicemente calcolare il valore della Y* (sulla base della funzione che risulta dai calcoli precedenti) inserendo nella funzione stessa i valori empirici della X (y*=mx+q). 4. Verifica del grado di accostamento della funzione Per la stima della bontà dell’adattamento vengono adottati alcuni indici del grado di accostamento (della variabile Y); al fine di semplificare le corrispondenti espressioni, si indichi con: • Dev(T) la devianza totale dei valori effettivi, data da: N
Dev (T ) = ∑ ( yi − y ) ; 2
i=1
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 75
• Dev(R) la devianza dei valori teorici, detta devianza di regressione, data da: N
Dev ( R ) = ∑ ( yi* − y ) ; 2
i=1
• Dev(E) la devianza tra valori empirici e teorici, detta devianza dell’errore, data da: N
Dev ( E ) = ∑ ( yi − yi* ) . 2
i=1
Documento acquistato da () il 2023/04/27.
Gli indici che forniscono una misura dell’accostamento sono: • indice di accostamento N
assoluto ξ =
∑y −y
* i
i
i=1
relativo
N • indice quadratico di accostamento N
∑( y − y ) i
assoluto 2ξ =
* 2 i
i=1
N • indice di determinazione N
R2 = 1 −
∑( y − y )
* 2 i
i
i=1 N
∑( y − y )
2
= 1−
=
ξ y
2 ξ Dev(E) relativo y N
Dev(E) Dev(R) = Dev(T ) Dev(T )
i
i=1
Nel caso di più variabili indipendenti (variabili esplicative di distribuzioni multiple) si preferisce sostituire l’ultimo indice con il coefficiente di determinazione multipla corretto dato da: K R2 = R2 − ⋅ (1 − R 2 ) che tiene di K (numero delle variabili N − K −1 esplicative), ed N (numero delle osservazioni) Retta di regressione Nel caso in cui la funzione interpolatrice sia quella lineare (retta di equazione y = ax + b) i due parametri possono essere calcolati direttamente senza dover passare attraverso il metodo dei minimi quadrati. La retta, denominata retta di regressione, ha simbologia rappresentata da: y = B1x + B0
oppure
y = by/xx + B0
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
76 Capire la statistica
Documento acquistato da () il 2023/04/27.
ed i due coefficienti risultano: σ xy B1 = by/x = 2 detto coefficiente di regressione di Y ad X σx B0 = M y − by/x ⋅ M x = y − by/x ⋅ x
e
in cui il sxy è un particolare indice di relazione denominato covarianza la cui espressione è data dalla media del prodotto tra gli scarti rispetto alla media delle due variabili: - distribuzioni per unità - distribuzioni di frequenza s r N ⎡ ⎤ − x ⋅ x ∑ ⎢( i ) ∑ ( yi − y ) ⋅ nij ⎥ ∑ ( xi − x ) ⋅ ( yi − y ) j=1 i=1 ⎦ σ xy = i=1 σ xy = ⎣ N N La covarianza può essere calcolata anche con formula semplificata: - distribuzioni per unità - distribuzioni di frequenza s r N ⎡ ⎤ ⋅ yi ⋅ nij ⎥ x ⎢ ⋅ y ∑ ∑ x i ∑ i i j=1 i=1 ⎦ − x⋅y σ xy = i=1 − x⋅y σ xy = ⎣ N N È possibile ottenere anche la regressione della X rispetto alla Y (considerare cioè la Y come variabile indipendente e la X dipendente), ottenendo le formule x = B1 y+ B0 oppure x = bx/yy + B0 σ in cui B1 = bx/ y = xy2 detto coefficiente di regressione di X ad Y e σy B0 = M x − bx/ y ⋅ M y = x − bx/ y ⋅ y Per la covarianza si può affermare che: 1. ha unità di misura pari al prodotto delle unità di misura delle due variabili; 2. ha un intervallo di variazione pari a −σ x ⋅ σ y ≤ σ xy ≤ σ x ⋅ σ y infatti visto che il quadrato della somma di prodotti è minore o uguale del prodotto delle somme dei due quadrati, risulta 2
⎤ ⎡N 2 2 ⎢ ∑ ( xi − x ) ⋅ ( yi − y ) ⎥ ≤ ∑ ( xi − x ) ⋅ ∑ ( yi − y ) ⎣ i=1 ⎦ da cui, dividendo per N2 si ottiene ed estraendo radice si arriva alla disequazione rappresentante l’intervallo entro il quale può variare la covarianza; 3. i due coefficienti di regressione hanno lo stesso segno della covarianza (sono divisi per una quantità positiva, le varianze);
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 77
a. hanno come unità di misura quella di Y diviso quella di X (viceversa per il secondo coefficiente); b. dal punto di vista geometrico il coefficiente by/x è il coefficiente angolare della retta rispetto alle ascisse e bx/y è il coefficiente angolare della retta rispetto alle ordinare; c. possono assumere qualsiasi valore reale. Analisi dell’interdipendenza
Documento acquistato da () il 2023/04/27.
Nell’analisi dell’interdipendenza occorre ricercare un indice che prescinda dalla causalità tra le due variabili sia cioè tale che la misura della dipendenza di Y ad X risulti uguale a quella di X ad Y. Fenomeni quantitativi (Coefficiente di correlazione) L’indice che misura l’interdipendenza tra due variabili è il coefficiente di correlazione lineare di Bravais-Pearson e risulta pari a: σ xy r= σ x ⋅σ y Sul coefficiente di correlazione lineare è possibile indicare che: 1. varia tra –1 e +1 (è sufficiente ricordare l’intervallo di variazione della covarianza e dividerlo per sxsy); • se r=-1 vi è la massima correlazione negativa (massima discordanza); • se r=1 vi è la massima correlazione positiva (massima concordanza); • se r=0 non vi è correlazione lineare; tale affermazione non implica che le due variabili siano indipendenti, basta pensare ad una relazione funzionale non lineare (ad es. parabolica); pertanto mentre se le due variabili sono indipendenti sono anche incorrelate, non vale il viceversa; 2. è una misura simmetrica di correlazione (concordanza o discordanza) nel senso che il coefficiente tra X ed Y è uguale a quello tra Y ed X; quindi rY, X=rX, Y; 3. è la media geometrica dei due coefficienti di regressione (presa con il segno della covarianza); infatti r=
2 σ xy σ xy σ xy σ xy = = ⋅ = by/x ⋅bx/ y 2 2 σ x ⋅σ y σ x ⋅σ y σ x2 σ y2
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Documento acquistato da () il 2023/04/27.
78 Capire la statistica
σy σ 4. può essere anche espresso con le formule r = by/x ⋅ x = bx/ y ⋅ σy σx pertanto: • se r=+1 le due rette di regressione coincidono e sono ascendenti, • se r=–1 le due rette di regressione coincidono e sono discendenti, • se r=0 le due rette sono parallele agli assi e perpendicolari tra di loro. 5. è un numero puro cioè dimensionale; 6. è invariante per trasformazioni lineari; si può cioè scrivere (sgn(a, c) è il segno del prodotto tra a e c): rY, X = raX+b, cY+d sgn(a, c); 7. il quadrato di r coincide con l’indice di determinazione R2; 8. in tutti quei casi in cui non esiste tra i due caratteri X ed Y una causalità (tra di loro non esiste una relazione di causa ed effetto) e tuttavia il coefficiente r risulta molto elevato (tale cioè da far ritenere una correlazione molto forte) si parla di correlazione spuria o senza senso (ad esempio la forte correlazione esistente tra i risultati di due produzioni agricole dovuta invece alle condizioni meteorologiche, ecc.). Fenomeni qualitativi (Chi quadro) Data una tabella di contingenza si definisce tabella di indipendenza quella in cui frequenze sono pari al totale riga per il totale colonna, diviso il totale generale. Con nij* vengono indicate le frequenze assolute della tabella di indipendenza corrispondenti ad una tabella di contingenza le cui frequenze assolute sono nij; si definisce contingenza la differenza, con segno, tra la frequenza effettiva nij ed nij*; quindi nij* =
nii ⋅ ni j
N Cij = nij − nij* Un indice di associazione è tale se soddisfa almeno una delle seguenti condizioni: • risulta = 0 solo se tutte le contingenze sono nulle; • aumenta all’aumentare del valore assoluto (senza segno) delle contingenze.
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
Indici e metodi statistici 79
L’indice di associazione utilizzato è il Chi quadro di Pearson, pari a: r
s
χ 2 = ∑∑ i=1 j=1
Cij2 nij*
Documento acquistato da () il 2023/04/27.
Tale indice assume la dimensione di una frequenza assoluta e risulta quindi fortemente influenzato dal numero delle unità presenti nella distribuzione. Per poter eliminare l’influenza del numero delle unità (totale frequenze) si ricorre all’indice
φ2 =
χ2 , N
mentre per disporre di un indice relativo si divide quest’ultimo indice per il suo massimo ottenendo l’indice di Cramer, dato da C=
φ2 φ2 = max φ 2 min ( r, s ) − 1
L’indice C, proprio per come è stato ottenuto, varia tra 0 ed 1. Rapporto di correlazione Nel caso in cui si volesse misurare la dipendenza in media tra i due caratteri: cioè tra le medie di uno dei due caratteri (che deve ovviamente essere quantitativo) e l’altro carattere (che può essere sia qualitativo che quantitativo) si utilizza il rapporto di correlazione di Pearson, espresso dalla formula: r
ηy = x
∑( y − y )
2
i
i=1 s
∑( y − y ) i
j=1
2
⋅ nii ⋅ ni j
=
Dev (Y ) Dev (Y )
=
σy σy
Sul rapporto di correlazione è possibile indicare che: 1. hy/x varia tra 0 ed 1; • se hy/x = 1 vi è perfetta dipendenza in media e le varianze per riga sono tutte nulle (allora ad ogni valore di xi corrisponde un solo valore di yi che è uguale alla rispettiva media parziale quindi σ y = σ y );
www.torrossa.com - For non-commercial use by authorised users only. License restrictions apply.
80 Capire la statistica
• se hy/x = 0 vi è indipendenza in media, vuol dire che sy e quindi ogni media parziale è uguale alla media generale; 2. hy/x è un indice non simmetrico nel senso che se hy/x = 1 non è detto che hx/y =1 (ovviamente tale affermazione vale solo se anche l’altro carattere è quantitativo ed è possibile ottenere le medie di X); 3. η y2 ≥ r 2 cioè il quadrato del rapporto di Pearson è maggiore od x
uguale al coefficiente di Bravais; 4. se η y2 = r 2 allora la funzione lineare è la migliore interpolante x
delle medie parziali. Documento acquistato da () il 2023/04/27.
E – Esemplificazioni pratiche 1° esempio Due gruppi di pazienti di diversa età: il primo tra 25 e 34 anni ed il secondo tra 55 e 64 anni sono stati sottoposti al test del “colesterolo totale” ottenendo i seguenti risultati classe di età 25-34 55-64