193 3 158MB
Italian Pages 318 [418] Year 2015
ili
Education
Fulvia Mecatti
..
r'
f
a
d1 b
"'
o e perché
'
•
'
McGra
1·
Milano • New York • Bogoté lsbon _ Londo Madrid • Mexico City Montreal ew Delh1i oronto Santiago • Seoul • Singapore Sy'dney
•
'
'
•
•
Copyright © 2015, 2010 McGraw-Hill Education (ltaly) srl Via Ripamonti, 89 20141 Milano Mc Graw
•
Hill
Education
.
• .
.
.
I diritti di traduzione, di riproduzione, di memorizzazione elettronica e ·ru adattamento totale e parziale con qualsiasi mezzo (cdmpresi i microfilm e le copie fot ostatiche) sono riservati per tutti i P~esi. Le fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di
ciascun volume/fascicolo di periodico dietro pagamento alla SIAE del compenso previsto dall'an. 68, commi 4 e 5, della Legge 22· aprile 1941, n. 63.3 .
•
Le riproduzioni effettuate per finalità· di carattere professionale, economico o .o mmerciale
o comunque per. uso diverso da quello personale possono essere effettuate a seguito di specifica autorizzazione rilasciata da CL~ARedi,. Corso di Port~ Romana 108, Milano 20122, e-mail [email protected] e sito web www.clearedi.org. .. Nomi e marchi citati riel testo sono generalmente depositati o registrati dalle rispettive case • produttri.cL •
Eserciziario: a cura di Elena Siletti ed Emanuela Furfaro, Università degli Studi MilanoBicocca
Publisher: Paolo Roncoroni Acquisition Editor SEM & HSSL: Barbara Ferrarlo Produzione: Donatella Giuliani Realizzazione editoriale; Fotocompos S.r.l., Gussago (Brescia) Grafica di copertina: Feel Italia, Milano Immagine di copertina: Soflaworld Stampa; Ani Grafiche Battaia, Zibido San Giacomo (MI)
•
•
ISBN 978-88-386-6885-2 Printed in Italy 123456789AGBAGB098765
t ' '
t \: .l
) ).' . " i.
\ .• ,t '
I '. ·,
. '1 u! Il ' . '' t I
'li r';:; :\;,'t\' ·•. ',. • •'·'.\c:J.i!(·1:11 ·1 J·1",, O')\\~ I '
/
JI >'
,J, •.
f' \l."J :")·,..,\ •" e", x
li I
i
\• '
I
I I
)
ra come nell'esempio della temperatura; e altro ancora, come vedremo più avanti Dunque i fenomeni non sono tutti uguali e individuarne correttamente la natura è la premessa per selezionare gli strumenti statistici adatti all'analisi. Ecco perché nel prossimo capitolo impareremo (anche) a classificare i fenomeni statistici
i )
i
2.4 Analisi statistica di un fenomeno '
Una volta stabilito: .
'
• il fenomeno che interessa studiare, • la popolazione su cui interessa studiarlo, • le unità statistiche sulle. quali sono reperibili le sue diverse manifest azioni, .
trattare quantitativamente un fenomeno statistico significa condurre le seguenti fasL I. Osservarne le manifestazioni, c_ioè recarsi "fisicamente" presso le u nità statistiche per registrare le diverse manifestazioni del fenomeno. In quest o modo si creano i dati. Talvolta i dati sono già disponibili. (per esempio su Internet) oppure
provengono da fonti ufficiali (per ese_mpio il censimento decennale ISTAT della popolazione). Tecnicamente questa fase consiste nella rilevaziQne di X su U (Capitolo·3). 2. Organizzare il risultato della nleva~ione. Il risultato della rilevazione è in genere insieme confuso di N più o meno diverse manifestazioni x di X. Dunque, soprattutto quando la popolazione è numerosa, cioè quando N è grande, il risultato è piuttosto inutile se non lo si organizza attraverso tabelle e grafici in modo da renderlo più leggibile. In linguaggio statistico questa è la fase della strutturazione dei dati mediante la costruzione di variabili statistiche e di distribuzioni di frequenza (Capitolo 4). 3. Elaborare i dati strutturati. È qui che inizia l'analisi vera e propria del fenomeno una volta concluse le fasi preliminari di rilevazione e strutturazione dei dati. L'obiettivo è quello di far emergere più chiaramente dai dati le informazioni che interessano e di comprendere i meccanismi che determinano le diverse manifestazioni del fenorneno su quella popolazione, cioè il suo variare. Tee .. nicamente si tratta di sintetizzare i dati attraverso la costrr1zione di indici e v alori sintetici e di studiarne le eventuali relazioni (statistiche) con altri fenomeni. Faccio notare, e tornerò su questo punto anche più avanti, che ho aggiunto l'attributo statistiche al termine relazioni p er enfatizzare il fat t o che
un
•
I
\
Defin;zioni e notazione 4 ': 0lò it C' a p
-
-- �- ---� --'
I
j
•
'
•
I..
o
'
J
• '' •• , ' ,
• >':·
j O• •...
.. ,•
I
•
I
•
n i
•
I,
• •
a , , ca
1n1z1
l
t
-
-- --
-
• t
Il rtsultat della rilevazione (co111pleta) del fenomeno X sulla popolazione U è un in ·eme di osservazioni. Ciascuna osservazione coincide con una (e una sola) delle k di,,erse modalità x1 previste dalla scala utilizzata. Quando N è un numero gronde, diciamo > 5 (il che è di solito quello che accade) il risultato della rilevazio,ne è, � occhio"', un insieme confuso di N modalità x1 di X che non aiuta o aiuta pochis simo al raggiungimento del nostro scopo, cioè la descrizione del comportamento di su u. In uno studio sul C·Omponamento sessuale degli studenti e delle studentesse universitarie italiane, è stato chiesto a 60 soggetti di entrambi i generi di dichiarare il numero di partner sesruali degli ultimi 12 mesi, ottenendo le seguenti 60 risposte: •
3 1 6 7 4
6 2 7 5 O
O 2 7 6 6
8 7 2 1 4
5 8 O 6 5
2 1 4 6 2
O 3 2 O O
4 2 O 1 2
3 6 O 8 1
I 2 1 O I
6 3 3 1 4
1 O 3 2 O
Abbiamo .allora:
U: gruppo di studenti e studentesse universitarie italiane N == 60 X: p11mero di partner sessuali degli ultimi 1 2 mesi Il fenomeno X è q11an.titativo discreto, e infatti si rileva contando; le sue modalità · f sono i nume · interi O, 1, 2, ...; la scala delle modalità è quantitativa rappono. La tabella riporta il risultato della rilevazione di X su U e si presenta come un insieme di N = 60 numeri interi., ingestibili �a occhio». Semplicemente guardando la tab lla non i riesce a dire nulla di informativo circa X su U, cioè riguardo al comportamento se Sltale degli studenti e delle studentesse osservati. 1
Il risultato della rilevazione fornisce i cosiddet i d g zz . 'an t · . l statistica procede per sintesi successive: l'obie ivo è far emergere via vi dai dati, a ogni livello di sintesi, informazioni utili a desc ivere e spiegare 11 omportarnento di X su U. La pnma basilare sintesi consis e nel dar una scruccura i dati grezzi, organizzrndoli in tabelle e grafici in modo da renderli plù leggibili . I termini tabelle e grafici fanno parte del comune linguaggio della conver sazione. :1n linguaggio tecnico noi parleremo dt dls ribuz lone di frequenze e variabili st atisticlie.
l, �
-
-
.
ES E. M;P f01 4�1I_ :: :. ·: Sesso e universi à
26
Capitolo 4
4 . 1 D is tr i b u z io n e d i fre q u e n ze e v a ri a b ili _s ta ti st ic e h Effet tu an do la se n1 pl ice op er az ion e di co nt eg gi o de lle m od ali tà di x che si ripetono in U, i da ti gre zz i ve11go110 organ izz ati in un a tab ell a. ., .,� • •,� '-' .•:,,.,,,._._ � '. 'l'� .t',.-,-'"'••\\·' ��·,, » 'I¼ ' '·''\,,". '\·,,, ."--"\'.,-. . , _,..,--' ·, \' '11 J.,, ·"',' �',-,,�.,'_ '',..'. ''. ·',' � . '. . �,··�, � - .• ,. ,,-� .,..._ ,.·--·, Il ., �" , . · · ., ,, tK· "\ , � 1 ' l '\' .� -1.·�--I
,,,. ·.· ,: ES' EM' p· 10·· 4 · "·1 ·
1 ;,,.\' l.·11.-, ·,· t\ ' ' . �,;-�;-.... ��-, �t.:· 1 \,·1 · , .,, t \-· � ' ..., .."'� - ' l' ,'.., . , . . . l . ,.�,\ ' .., .. .' . . "' . '' , ' � , � : · .-.--: ·': -� � �'f ... .._ · · '.·1, · ,_' . · -, ..-- -..\.., '-\ \ · . � .' , ) ' � ' . ,\. ' .· \ .
Sesso e università (cont-ì nua)
U: gruppo di stttdenti e studentesse universitarie. Italiane N == 60 : numero di partner sessuali degli ultimi 1 2 mesi
I tr,.
Dati grezzi
3 6 O 8 5 2 O 4 3 1 6 1 1 2 2 7 8 I 3 2 6 2 3 O
6 7 7 2 O 4 2 O O 1 3 3 7 5 6 1 6 6 O 1 8 O I 2 4 O 6 4 5 2 O 2 1 1 4 O
con k = 9 differenti modalità x, Osserviamo che, nella V di interesse, X si manifesta ' coincidenti con i numeri interi da O a 8. Contando il numero di volte in cui ciascuna modalità X; si ripete in U, il risultato (confuso) della rilevazione, cioè i dati grezzi, si struttura,10 nella Tabella 4. 1. I dati sono ora più organizzati e meglio leggibili. La Tabella 4. 1 consta di k = 9 righe (più una �he riporta il total� dei soggetti osservati) e di 2 colqnne. Nella colonna di sinistra appaiono le modalità x, osservate in U. Nella colonna di destra è riportato il O\lmero di volte in cui la corrispondente modalità X; è stata rilevata in U, che si ,chiaima frequenza assoluta di x1 • La somma delle frequenze (assolute) riproduce la nur11erosità N di U. La colonna di destra costituisce la distribuzione di frequenze di X su U.. ,, L'intera tabella, cioè il complesso delle k coppie ltmodalità, frequenza prende il nome di variabile statistica. Tabella 4 . 1
o
11 10 10
I 2 3 4
.
5
6 7 8
•
•
' •
'
.
6 5 4 7 4 3
•
Totale 60
•
'
Definiz.i one •
,
Definizione •
I
•
Con l'aiuto .dell'Esempio 4. 1 ttSesso e università» abbiamo introdotto tre lmportanti concetti che ora riprendiamo for11..1almente (e ne impariamo anche la notazione).
•
•
Studenti/esse
N. di partner .
•
� distribuzione di frequenze (assolute) si costruisce per conteggio e consente di organizzare i . dati grezzi in una forma tabellare:
Distribuzioni dì frequenze, tabelle e g rafici '
•
27
.
Frequenze (assolute)
t
•
•
,i lr.i
f1
'1
: Distribuzio11e di frequenze (assol ute)
:
'"k fk
•
I
N f- Somtna delle frequenze (assolu·te) (riproduce la nu1nerosità N di U)
•.
f
[
!
I !
,
da a ue, secon dunq X e eno fenom il fare con che a ha c X lità moda delle nna colo La della natufa del fenomeno e della tipologia di scala utiliz zata, può contenere attri buti, categorie, numeri o intervalli. La colonna delle frequenze (assolute) f, ha invece nze freque Le U. zione popola la con e dunqu e iche statist le unità con fare che a (assolute) sono sempre numeri interi e � O e con somma pari a N,_ qualunque sia i (una categoria, un numero o un à x modalit ndente corrispo dalla assunta forma a l intervallo). Il complesso della tabella costituisce la variabile statistica (detta anche serie o seriazione statistica).
Definizione Le modalità (a questo punto dovremmo averlo capitai) possono avere natura varia mentre le corrispondenti frequenze (assolute) sono numeri interi positivi o nulli la cui somma riproduce la numerosità N di U. In formule: v.s.
=
(x;, {;) ,
i = l , . . . , k, .
k
E {; = N
i= l
Da questo punto in poi v.s. significherà per noi tvariabile statistica" ; con X indicheremo indifferentemen�e sia il fenomeno oggetto d'interesse (prima di essere rilevato) sia la corrispondente v.s. (dopo la rilevazione e la strutturazione dei dati grezzi) Attenzione: il passaggio dai dati grezz alla v.s. ci ha portato il vantaggio di rendere i dati più organizzati e più leggibili -a ci ha fatto perdere l'infor1r1azione circa l'ordine in cui i dati sono stati rilevati. Questo è· ciò che succede nell'analisi 1
statistica: a ogni livello di elaborazione da un lato si ottiene di far emergere dai dati più chiaramente un qualche aspetto del comport.amento di X su U, ma dall'altro ila sintesi necessaria a ottenere questo comporta una perdita di informazioni. Nell'Esem pio 4.. 1 -Sesso e università" possiamo permetterci questa perdita perché l'ordine di rilevazione è ininfluente rispetto al comportamento di X su U. Ci sono casi in cui l'ordine di rilevazione costituisce una fonte importante di informazioni sul fenome no d'interesse e pertanto la costruzione della distribuzione di frequenze ·e della v.s. non è opponuna o non ha senso: ne vedremo un esempio nel Capitolo 8. Le fr,equenze (assolu ) non sono l'unico tipo di frequenze costruibili.
4.2 Frequenze · elative e percentuali -
Lo studio sul componamento sessuale degli studenti e delle studentesse universitarie itali�ne (vedi Ese_mpio 4f 1 "Sesso e università•) aveva anche lo scopo di confrontare soggetti iscntti � laur�e diverse. La Tabella 4.2 si riferisce allo stesso fenomeno X: numero di partner sessuali degli ultimi 12 mesi., ma rilevato presso 40 soggetti ambosessi iscritti a Sociologia e presso 28 soggetti ambosessi iscritti ad Architettura.
ES'EMP O..�4,.. i_ 2, ·· . . .. ,,···"·
·1r· , .·,:-;�...,.-,...... .,.)·"'....·,., , i-Ì· , !t:,.l .-�. , \·t · r ·';" , ,-�.·l"''" �\. ..'',"-, tt-L
· 1 ,1 � - ,1 1·.. · ,'� . · \· , ,, '· ' ·. •··� ' • !. ,. ..., .. ":.) . ., t \• .· ',., , ! i. , :-i".· � 11 t•.,14,..•r .;,\\- :1,..,••,.,• .;.,,· !. f�,1....��,'·1 I .. . ' . 1 , . . ,,·,, .. . •,.,,_
., . ,,· 1·' 11.I
loro somma è pari a 100. A livello di analisi statistica è preferibile lavorare con le frequenze relative Ml.Ziché con le percentuali per semplificare i conti tttogliendo 2 zeri"; a livello di in terpretazione e comunicazione dei risultati è conveniente passare alle percentuali, generalmente più comprensibili anche ai non-statistici. La colonna delle frequenze relative p1 costituisce la distribuzione di fre quenze relative di X su U. Con la costruzione della distribuzione di frequenze relative abbiamo effettuato
un'ulteriore sintesi dei dati che ora sono maggiormente informativi riguardo al peso che ciascuna modalità x1 ha in U. Inoltre, la distribuzione di frequenze relative è confrontabile fra popolazioni con dimensioni diverse. L'informazione perduta con questa ulteriore sintesi è la dimensione N di U. Nell'Esempio 4.2 "Sesso e laurea" se sappiamo che i soggetti che dichiarano 8 partner negli ultimi 1 2 mesi sono il 2.5% a Sociologia e lo 0% ad Achitettura, sappiamo qual è la quota di soggetti ses ualmen te più attivi nelle due lauree, in particolare sappiamo che a Sociologia ce n. sono 2.s su I 00 mentre ad Architettura non ce ne sono; per contro, non sappiamo iù quanti sono gli individui intervistati a Sociologia e quanti ad Architettura. Frequenze assolute, frequenze relative e percentuali sono costruibili per qua lunque tipo di fenomeno X. Quando il fenomeno di interesse è almeno ordinale
30
v..,,,
Capitolo 4
7'
,
(cioè qualitativo ordi11ale oppure quantitativo) possiamo aumentare il livello di a11alisi e costruire u11 ulteriore tipo di distribuzione di frequenze.
f I,
�
.
!
4 . 3 Frequenze cumul ate •
•
è al111e110 ord inale è ttna buona pratica costruire la v.s. ordinando i11 se11s0 c1..esce11te le 1nodalità osservate, partendo dal minimo x 1 e arrivando al '
Quando
I
n1assin10 xk ctoè
Questo è ciò che d'ora in avanti supporremo (ed è anche quello che fa automatica1nente il computer). Ci capiterà anche di indicare x 1 con Xmin e xk con Xrrlax· La possibilità di stabilire un ordine oggettivo e universale fra le mòdalità di X è utile all'analisi statistica e consente di porsi domande come: quante sono le unità statistiche che, fr·a le N osservate, manifestano una modalità non più grande di (cioè al più pari a) una certa X;? E quante quelle che manifestano una modalità non più piccola di (cioè almeno pari a) una certa x1? Si tratta di sommare, tecnicamente Si dite cumùlare, le frequenze associate alle modalità inferiori (più piccole) di � costruendo le frequenze cumulate. Ovviamente possiamo cumulare le'frequen ze assolute ma anche le frequenze rèlative (o le percentuali). Indichererrto, con F1 le frequenze èumulate ass9lute e uSeremo la lettera greca �hi" maius�olo ( 4 = 1 - O . 75 = 0 . 25 (25 %) tò fra popofron tl con o he ton anc 1s�n ) co1 lute asso le n (no tive rela te ula cum e 112 · "eque Le 1r ..i f equ e �ze cum ulat e anc h e e l:.li zion ribu la dist o lam stru Co rse. dive ità �_ eros num dt _ Iazioni _ · . 5) 4. la el ,, ab a (T ur tt ite ch Ar ad ti rit isc 28 i per
\
I
I f
�
t
U1 : Arcl1itettura f,
�
10
o 1
7
2 3
I
4
7 8
0 . 357
17
0. 607
22 23
0.786 0. 822
0.250
25
0. 893
0.000
25
0. 893
1
o
0.036
0.07 1 0.036 0.000
27 28 28
0 . 964 1 . 000 1 .000
1 .000
Anche per U2 ci poniamo le due domap.de: quanti sono, fra i 28 osseivati, i soggetti che dichiarano non più di 1 parmer sessuale negli ultimi 1 2 . mesi? E quanti sono quelli che dichiarano almeno 4 partner sessuali negli ultimi 1 2 mesi? Rispondiamo usando la distribuzione di frequenze cumulate (assolute e �elative). P·er il prtino quesito: Freq. (X 5: 1)
Per il secondo quesito:
= F2 r= 1 7 e Freq. rel.(X � I) = '1l2 = 0. 607 (60.7%) = N - Freq. (X � 3) = N - F4 = 28 - 23 = 5
Freq. (X � 4)
Freq. rel. (X 2: 4) 1
10
0 . 07 1
28
1
. 0.357
2 •
'
I
0. 179
2
6
F,
5
o
5
P,
Tabella 4.5 Distribuzione di frequenze cumulate per g l i iscritti ad Architettura
= 1 - 4>4 = 1 - 0. 822 = 0. 178 ( 17.8%)
Infine, decidiamo di definire usessualmente moderato• chi dichiara non più di 1 parmer negli ultimi 12 mesi e •sessualmente scatenato" chi dichiara almeno 4 partner negli ultimi 12 mesi, e ci chiediamo in quale delle due popolazioni è maggiore la quota di individui » quelli \tsessualrnente scatenati . ·sessualmente moderatt• e in quale è maggiore la quota di Siccome dobbiamo confrontare, usiamo le frequenze cumulate relative: •
U1 Sociologia
Freq. rei. .X < - l'' 47.5%
Freq. re . .X � 4:
U2 Architettura
60,1%
1 0.7%
•
�
moderati
22.5%
scatenati
Concludiamo con un paio di osservazioni formali, Dagli esempi abbiamo capito come si calcolano le frequenze cumulate (assolute, relative o percentuali). Era la prima, ma probabilmente anche una ·delle ulti .e volte, in cui ci siamo trovati a costruire eta mano" distribuzioni di frequenze: s orchi lavori manuali come questo
•
• '
•
32
Capitolo 4
spettano oggi ai computer. Quello che distingue una persona prep�rata in Statistica e consapevole di ciò che fa e sa (noil) da chiunque smanetti al calcolatore, sono proprio osservazioni come quelle che ci accingiamo a fare. Per compilare le colonne del le F, e delle , negli esempi, bbiamo sommato le frequenze (assolute o relative) di tutte le righe precedenti. e lo scriviamo in formule otteniamo la defl11izione formale di frequenze cumulat
•
•
r
Defi n i z i o n e
Il trucco è fare molta attenzione agli indici delle sommatoriel Ecco due proprl�tà delle frequenze cumulate. •
Proprietà
I
II
l.'
t
'• •
.
•
t
•
•
•
• •
•
•
Queste ultime formule· hanno a che fare con il metodo usato dai computer per sommare serie di numeri, come è il caso delle frequenze cumulate: non conviene ripartire sempre dall'inizio (la definizione) ma si utilizza il risultato ottenuto al giro precedente (la proprietà 2): Tecnttarriente si tratta di formule ricorsive. Un discorso a parte va poi fatto per i fenomeni quantitativi continui . .
4.4 Densità di frequenza Limitiamo ora la nostra attenzione ai fenomeni quantitativi continui.. Se X è con tinuo le modalità x, sono intervalli. Questo ci costringe ad affrontare due aspetti strategici per l'analisi statistica di questq> tipo di fenomeni. La v.s. ci inforrna eh al generico intervallo X; : x1 � Xi appanengono f, unità statistiche. E questo tttt
-
-
.
'
Distribuzi oni di frequenze, tabelle e grafici
I !
•
ciò che sappia111ol Non sappiatno esat ta1ne11t 1,-1 q11ale fra gli t n fl n l t l pu nti che a p part engono all'intervallo si posiziona ciascuna d llr f, unità statist ich e che cadono in xi : x, 1- Xr. . In tern1tnt più t ente!: la dist ribuzione di fr quenze a l l 'lncerno degli intervalli è ign ota. - - -
t
t
33
-
-
--
La Tabella 4.6 riporta. 1·asp ttativa di vit a alla 11asc:ita (espressa in anni) del 1 8 2 f'aeSl ' . coin olti nell'HDR 20 1 -. r! Anni
4 l- 5 5
Paesi
13
55 I- 60 14
75
60
93
75 r- 80
80 l- 84
37
25
·I , , ; ., i":,\l :'E!s·.1_. E·, M
1 l '. · : tl·.ll·lI" ,,! Jf.-_';..:..'i:(1" i \:,. ' .,i.�,, ,,�(1' . ,>:,/·� � ,
·
f
l
. ' I� ' �, ' . F .·. . , ' . ,(41 ' ,
l 111/I;, ,, lj �!·. • . : ' , ,•.. . , , I).• .,•,,, I' 1 ' ' :11'·1 ','· , ' ' •, f 1 •O ,. , ,111 • • ' , ' I. . ' :, .l fo' . ' 1' , , ,1 ' ' , ,, ' . 1 ' ', •' 1,p ' l_f' ' I o, I '•,. •, . . ,, ..• ' ,· J, >',I 11' d ' : ' ., ' - •. , : • ' . ,, . , 1 � l, .'· �· 1,,,.l I, ;l.111 , · ·.l j
,··�l
•
I" '
Asp ettativa di
vita
Tabella 4.6
l\�ax: Giappone 83.5. Min: Sierra Leone 45.6. Italia: 82.3. Fonte: Hun1an Development Report, Programma. di Sviluppo delle Nazioni Unite, www..undp.org. • I
• t
•
U: paesi coinvolti nell'HDR 2014
N = 1 82
X: aspettativa di vita alla nascita (in anni)
k=S
, Anche senza chiederci se X sia discreto o continuo, le modalità si presentano come in tervalli, dunque va uattato come conti�ud. Prendiamo, per esempio, i 13 Paesi con un'a spettativa di vita compresa nell'intervallo 45 l- 55. Sappiamo che essi cadono in questo intervallo, ma i dati di cui disponiamo non ci dicono quale sia esattamente (puntualmente) l'.aspettativa di vita di ciascuno dei 13 Paesi. Questo vale per tutti i k = 5 intervalli. La disrribuzione di frequenze all'interno degli intervalli è ignota. Siamo di fronte a una mancanza di informazioni che può rappresentare un ostaco lo all'analisi statistica. Ogni volta che ci si trova in situazioni di questo tipo, per
superare l'ostacolo si ricorre all'emissione dj ipotesi in sostituzione delle inforrna zioni ignote. Nessuno e nessuna sofisticazione matematica ci può as�icurare che quello che decidiamo di ipotizzare, in mancanza di informazioni, sia vero o vicino alla realtà: le infor111azioni mancano in ogni casol Si può però richiedere che !�ipotesi adottata sia ragionevole, cioè argomentabile, sostenibile e convincente. Nel nostro caso adottare un'ipotesi significa proporre un modo per ripanire la ft fra gli infiniti valori dell'intervallo x1 : x1 r- xL . Due sono le ipotesi comunemente (e convenientemente) emesse. \,,
I. Ipotesi del valore centrale. L'obiettivo è qui di assegnare a ciascuna delle ft unità statistiche che cadono nell'intervallo x1 : x1 l- xL un unico punto, interno all'intervallo stesso. Il principio adottato è in medio star virtus (ma nei vari contesti applicativi vi sono anche altre ragioni statistico/matematiche). Il metodo consiste nell'associare tutte le f, al valore centrale dell'intervallo� Il valor.e centrale di un intervallo è la semisomma dei suoi estremi, Indicheremo il valore centrale di un intervallo con l'asterisco:
Riprendiamo i dati sull'aspettativa di vita degli N = 1 82 paesi coinvolti nell'HDR 20 14 e adottiamo l'ipotesi del valore cenuale (Tabella 4.7). Con l'ipotesi del valore centrale si ipotizza, per esempio, che 1 1 3 Paesi che cadono nell'intervallo x1 = 45 l- 55 abbiano tutti un'aspettativa di vita pari a xi = 50. Questa interpretazione vale per tutti gli intervalli. Adottando tale ipotesi cl siamo ricondotti a una v.s. discreta (le 2 colonne più a destra della Tabella 4.7).
i1··1·,.· ·1. ,.. ·,. ,:.. ·1 · • ,
"...:.· "1·.d�/A . �· - 1 ·' E S E' _,. ; , ·"·'3 · O · .·· . .- 1· . \I
• " I !
.,
H ,,:f, : , - � : t'' -� ·i· � /"-, , ..,�I :,_ • • ,�) j·\: �, ,! ,�• �� '•' i\,• , ' • >,. ' k '" ,. \ --:·• ·)\1 ,\·.. • 'I > 1 .., '\ \ ' t 'I ' ' \'. • \i •,· ,'... '1 \'• ;' \. ).:...\\ �1\.),.'., · , . . ·1 ·· · ·' o·}i �o'h, i.,' < . • \ · , 11.'l 1' • , .. · -,. ,,4.. 1 , ., ,. \ t· ', ,,, J' l.!i ;, , ,, .... ,' , , :-,,_ < • , f ' . , ,, �, .
,,
,
O" a itiv Pos • xy (Figura I 1.5a), poiché gli scarti positivi prevalgono su quelli negativi. I
Figura 11.5 Segno della covarianza (positivo o negativo).
.. li., •
i i
(a)
(b)
yh
Yh • •
• ••
I
Y1 ,
Y1 '
Y1
Y,
' •
••
'
..
x,
• • f
•
••
• • •
Dipendenza e correlazione
153
-.
• Negativa uxy < O, cioè i punti s0110 concen�rati in questa zona del diagramma (Figura l l .Sb), poiché gli scarti 11egattvt prevalgono su quelli positivi. • Nulla u y = O, cioè i pu11ti s0110 d isposti tn modo che gli scarti positivi e negativi si con1pe11si110. Ciò accade quando i punti sono sparpagliati sul dia gramma a dispersione se11za struttura a lcuna, cioè in caso di indipenden za statistica. Succede a11cl1e qua11do i punti sono strutturati secondo una ,. sa e lonta11a da quella l ineare� come qu�lla quadratica. dive, relazione ., •
'
- - �· · � ·.....
Il diagramma. a dispersione della Figura 1 1 . 1, mostra una struttura evidente: i punti sono ben concentrati in una particolare zo11a del grafico che indica una relazione di tipo lineare e decrescente. Ci aspettiamo pertanto una covarianza diversa da O e con segno negativo. In '
I • '
questo esempio i conti sono facilitati dal fatto che le frequenze (marginali e congiunte) sono tutte unitarie. Facciamoli: x=
l
I
I
Y
•
N
lO
3 8 .3 L x· == i=l
O"XY
10
I
1 IO
;/f/:','?·ltif.�r,JI, •. : , · 1l · ,f,1 ·'. 1 r i•li -'oJ�,-,(;,-, ·, :•,.,.r. ,,1·_,,_,,J., . .-J . . • .• r • .·.t 1 1J ' � -� �
,-1'
.,_. -1;
· -
,,..,.,., ...;· .}•,,,,,,.
�" ;,; ,.. t: ' '" f _., . ,, ,- •• r. •-j J-· • /'J I ' ,, --. 1• •,··'l7 , v ,1 f , . · 1 • • • . . /.J . ,. iT ' 4•, ;', · � ·•" • J � • 'i''; • ,. . , •. ., ,_ ,_ · � - .:.......:_ ;_ � � .-..'..'...�...!.; /_-�..,,._,.,,· e •.·•___. ,. �·· J • '! _ ,, ,.. ·
'l''- �r1 "' . ,. . ·- -�·· · ·1; ( . ,f·, ,. , �- ·'.' . , . ' , , ; "v,,.,.,, ' /'' rf
. ... I ,�•-'> ' 'f , , .., ,, -...
.p·,_.A_.:r -�'";!'(>''l I . . , . •• 't'''• ' / ,,. :,,, , ""- .
-
'
j · -. , I . "
'•1''-; 3· ·l"'lt' • •• r.,,·1·' . ,; , ,-�: h. f4J
f� � ...
i· ··� ,· -
�.l, ..,h ,.,�� *( ' "'
r.i!"''-d"'" -
Indi pendenza
statistica, cioè totale assenza di qual unque rel azione
Lap,1010 l L
�ella t�� ella .seguente, tutte le frequenze congiunte {;1 coincidono con le frequenze teoriche d1 1.s. fti = ft.f,/N. X
1
y
12 24 36
2 3
6 20 1 2 10
4
20
8 40 20 1 2 8 40 50 30 20 1 00
Verifichiamolo:
X 50 20 _ _ 20 X 30 fn = l 0 = 100 ' f1 2 - 6 1 00 ' '
.
"· '
•
8= = f 33
40 X 20 1 00
cioè X e Y sono statisticamente indipendenti. Se proviamo a calcolare l'indice di connessione 2 x otteniamo zero: 2
x
=
LL 3
3
i=l J=l
(t
f,*)
'IJ -. lj {;,
2
=
L L flj� 3
3
i=l /=1
=0
Se c'è i.s. allora non c'è nessun tipo di relazione fra X e Y:
r(y == �} = O e Pxy = O
Se non ci credete (o semplièemente per esercizio) provate a eseguire i conti. Sul diagramma a dispersione (Figura 12. 1), nel caso di i.s. i punti di coordinate (xt, y1 ) si presentano sparpagliati e privi di struttura {li rappresen�iamo con il sistema di bolle più grandi o più piccole a seconda che la frequenza congiunta sia alta o bassa). Le medie condizionate sono tutte uguali fra loro e sul diagramma a dispersione (rappresentate con i piccoli punti chiari) sono allineate orizzontalmente, a indicare il fatto che al variare di X le medie di Y non variano.
Agura 12.1 Diagramma a
dispersione nel caso d i indipendenza , statistica.
2 .5 YJ
2 1.5 1 0.5 o
•
o
10
20
30
40
50 ..
Abbiamo già dimostrato nel Paragrafo 1 1 .5 "Implicazione tra indipendenza statistica e indipendenza in media" che se X e Y sono statisticamente indipendenti (cioè se nella tabella osservata tutte le frequenze congiunte t,1 coincidono con le frequenze teoriche di indipendenza ftj ) allora le medie condizionate sono tutte uguali fra loro e uguali alla media marginale. Allora Y è indipendente in media da X · e anche è indipendente in media da Y.
I I
Dimostriamo or4 che se X e Y sono statist icamente indipendenti al lora la covarianza due n i cioè ,con , segu di enz e a fenome ni sono an che incorrelati. Pxy = lla O u è Partiamo dalla definizione di 11101nento mist o e ci pon iamo n el la situaz ione di i.s., cioè con tutte le frequenze con giu n te fii 9 he coin cido no co n le frequ enze za en nd pe di di in he ric eo fff• = ft.f1 /N: t . .
•
I
Notiamo che ci sono tern1i11i che hanno solo l'indice i, cioè che sono costanti rispetto alla somma per J, altri tern1i11i l1an110 solo l'indice j, cioè sono costanti rispetto alla somma, per i, e, infine> N è costante sia rispetto a i sia rispetto a /. Allora possiamo » ì)ortare fuori (raccogliere a fattor comune) dalla somma rispetto a J i termini "" che dipendono solo da i e ttportare fuori dalla somma rispetto a i i termini che dipendono solo da j. La costante 1/N possiamo metterla dove ci pare (e perciò la mettiamo in posizione strategica): k
I
h
l
= N L xift. · N L Y;f; f=l
.
-
.
/=1
Riscritto in questo modo riconosciamo le medie marginali: •
=X·Y
. è dato dal La conclusione è allora che se fra X e Y esiste i.s. allora il momento misto ' prodotto delle Ill-edie marginali (tecnicamente si dice fattorizza). Di conseguenza se calcoliamo lai covarianza, per eserp.pio, usando la formula al�ernativa, otteniamo zero: '
Sempre zero risulta anche il coeffic�ente di correlazione lineare che ha la covarianza al numeratore: PXY
=
•
cioè X e Y sono anche incorrelati. . . . , r, . !I , . ,· ., 'l I I . 't'"' "''')'' ,,, . llllllll.lllaJllll&BfBIJIUIIIDllBI ·1 ·�
"'!i
, 1t
-
,
1·
•., .
•
. ! !'"'-�( -- 1••
._ ., ,,.,
,•
,
• ,,
' ,
..
1 .• ' 1 ··' � ' ' 1
. ..-:. , ..... .
.--,l,�' � p- /J
,
� •, . , ,,
.I
Il viceversa di .queste implicazioni non è necessariamente vero, cioè se X e Y sono incorrelati non è detto .che l'uno sia indipendente in media dall'altro o che esista indipendenza statistica; potrebbe infatti esistere una relazione diversa e lontana dalla relazione lineare. Si a allora:
»
il simbolo =;fr è la negazione del simbolo => e si legge �non implica . - ·-
Nella tabella seguente, Pxr = o (provare per credere ... e per impararel), cioè X e Y sono incorrelari.
X 1 2 3
Y -1 2
5
20 1 0 1 0
40
1 0 30
40
O 20
O
O
20
30 60 10 1 00
•
•
Fenomeni connessi ma incorrelati
•
162
Capitolo 1 2 ,,
,,
Sempre facendo i conti si scopre anche che:
•
77}
•
Figura 12.2 Diagramma a dispersione nel caso di fenomeni connessi ma incorre f ati.
= 0. 12,
'f/� = 0 . 5 9
x2 (normallzzato) = 0 . 208
e
•
cioè esiste una relazione fra X e Y. Tale relazione è allora, oltre che di modesta intensità anche dive,..sa e lontana dalla relazf one lineare. Sul diagran1n1a a dispersione di Figura 1 2.2, l a nuvola di punti e, più eyidentemente le medie condizionate mostrano una struttura, ma non di tipo lineare.
) I
I
I
6 5
1 o
'
,I l
I I
x,
relazione perfetta di limite 12.2 Situazioni I • I
•
•
•
Passiamo ora �!l'altra situazione limite, opposta all'assenza di relazione, cioè la
relazione perfetta.
, I
t
•
Definizione l
Legam.e perfetto significa che un fenomeno determina, statisticamente, !,altro: fissata un� modalità x1, in U esiste un'unica, predeterminata, modalità y1 e/o viceversa. •
.
• Se la tabell.i � quadrata, cioè � = h ovvero stesso numero . di �ighe e di co lonne, la massima connessione è. biunivoca. In ogni riga e in ogni colonna c'è una sola frequenza congiunta diversa da O. La massima connessione biunivoca implica la perfetta dipendenza di ciascun fenomeno dall'altro. In formule: •
•
x 2 (normalizz�to) = ry} = 77} =
l
• Se la tabella è rettangolare la méJ:ssima connessione è univoca e si hanno· due casi. · 1 . Se la tabella ha più righe che colonne, c�oè_ k > h, allora in ogni riga c'è una sola frequenza congiunta diversa da O. La massima connessione univoca di riga implica che un solo fenomeno (quello che sta sulle colonne) dipende perfettamente dall'altro (quello che sta sulle righe). In formule: ·
x2 = r,} = I
e
o s 'f/�