264 124 171MB
Italian Pages 480 [397] Year 2010
Fulvia Mecatti ,
,
I I
r'
f
.•
come, quando e perché Seconda edizione '
•
I
McGraw-Hill Education Milano • New York • Bogoté • Llsbon • London Madrid • Mexico City • Montreal • New Delhi Santiago • Seoul • Singapore • Sydney • Toronto
•
'
'
•
•
Copyright © 2015, 2010 McGraw-Hill Education (ltaly) srl Via Ripamonti, 89 20141 Milano Mc Graw
•
Hill
Education
.
• .
.
.
I diritti di traduzione, di riproduzione, di memorizzazione elettronica e ·ru adattamento totale e parziale con qualsiasi mezzo (cdmpresi i microfilm e le copie fot ostatiche) sono riservati per tutti i P~esi. Le fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di
ciascun volume/fascicolo di periodico dietro pagamento alla SIAE del compenso previsto dall'an. 68, commi 4 e 5, della Legge 22· aprile 1941, n. 63.3 .
•
Le riproduzioni effettuate per finalità· di carattere professionale, economico o .o mmerciale
o comunque per. uso diverso da quello personale possono essere effettuate a seguito di specifica autorizzazione rilasciata da CL~ARedi,. Corso di Port~ Romana 108, Milano 20122, e-mail [email protected] e sito web www.clearedi.org. .. Nomi e marchi citati riel testo sono generalmente depositati o registrati dalle rispettive case • produttri.cL •
Eserciziario: a cura di Elena Siletti ed Emanuela Furfaro, Università degli Studi MilanoBicocca
Publisher: Paolo Roncoroni Acquisition Editor SEM & HSSL: Barbara Ferrarlo Produzione: Donatella Giuliani Realizzazione editoriale; Fotocompos S.r.l., Gussago (Brescia) Grafica di copertina: Feel Italia, Milano Immagine di copertina: Soflaworld Stampa; Ani Grafiche Battaia, Zibido San Giacomo (MI)
•
•
ISBN 978-88-386-6885-2 Printed in Italy 123456789AGBAGB098765
t ' '
t \: .l
) ).' . " i.
\ .• ,t '
I '. ·,
. '1 u! Il ' . '' t I
'li r';:; :\;,'t\' ·•. ',. • •'·'.\c:J.i!(·1:11 ·1 J·1",, O')\\~ I '
/
JI >'
,J, •.
f' \l."J :")·,..,\ •" e", x
li I
i
\• '
I
I I
)
ra come nell'esempio della temperatura; e altro ancora, come vedremo più avanti Dunque i fenomeni non sono tutti uguali e individuarne correttamente la natura è la premessa per selezionare gli strumenti statistici adatti all'analisi. Ecco perché nel prossimo capitolo impareremo (anche) a classificare i fenomeni statistici
i )
i
2.4 Analisi statistica di un fenomeno '
Una volta stabilito: .
'
• il fenomeno che interessa studiare, • la popolazione su cui interessa studiarlo, • le unità statistiche sulle. quali sono reperibili le sue diverse manifest azioni, .
trattare quantitativamente un fenomeno statistico significa condurre le seguenti fasL I. Osservarne le manifestazioni, c_ioè recarsi "fisicamente" presso le u nità statistiche per registrare le diverse manifestazioni del fenomeno. In quest o modo si creano i dati. Talvolta i dati sono già disponibili. (per esempio su Internet) oppure
provengono da fonti ufficiali (per ese_mpio il censimento decennale ISTAT della popolazione). Tecnicamente questa fase consiste nella rilevaziQne di X su U (Capitolo·3). 2. Organizzare il risultato della nleva~ione. Il risultato della rilevazione è in genere insieme confuso di N più o meno diverse manifestazioni x di X. Dunque, soprattutto quando la popolazione è numerosa, cioè quando N è grande, il risultato è piuttosto inutile se non lo si organizza attraverso tabelle e grafici in modo da renderlo più leggibile. In linguaggio statistico questa è la fase della strutturazione dei dati mediante la costruzione di variabili statistiche e di distribuzioni di frequenza (Capitolo 4). 3. Elaborare i dati strutturati. È qui che inizia l'analisi vera e propria del fenomeno una volta concluse le fasi preliminari di rilevazione e strutturazione dei dati. L'obiettivo è quello di far emergere più chiaramente dai dati le informazioni che interessano e di comprendere i meccanismi che determinano le diverse manifestazioni del fenorneno su quella popolazione, cioè il suo variare. Tee .. nicamente si tratta di sintetizzare i dati attraverso la costrr1zione di indici e v alori sintetici e di studiarne le eventuali relazioni (statistiche) con altri fenomeni. Faccio notare, e tornerò su questo punto anche più avanti, che ho aggiunto l'attributo statistiche al termine relazioni p er enfatizzare il fat t o che
un
•
I
\
Defin;zioni e notazione 4 ': 0lò it C' a p
-
-- �- ---� --'
I
j
•
'
•
I..
o
'
J
• '' •• , ' ,
• >':·
j O• •...
.. ,•
I
•
I
•
n i
•
I,
• •
a , , ca
1n1z1
l
t
-
-- --
-
• t
Il rtsultat della rilevazione (co111pleta) del fenomeno X sulla popolazione U è un in ·eme di osservazioni. Ciascuna osservazione coincide con una (e una sola) delle k di,,erse modalità x1 previste dalla scala utilizzata. Quando N è un numero gronde, diciamo > 5 (il che è di solito quello che accade) il risultato della rilevazio,ne è, � occhio"', un insieme confuso di N modalità x1 di X che non aiuta o aiuta pochis simo al raggiungimento del nostro scopo, cioè la descrizione del comportamento di su u. In uno studio sul C·Omponamento sessuale degli studenti e delle studentesse universitarie italiane, è stato chiesto a 60 soggetti di entrambi i generi di dichiarare il numero di partner sesruali degli ultimi 12 mesi, ottenendo le seguenti 60 risposte: •
3 1 6 7 4
6 2 7 5 O
O 2 7 6 6
8 7 2 1 4
5 8 O 6 5
2 1 4 6 2
O 3 2 O O
4 2 O 1 2
3 6 O 8 1
I 2 1 O I
6 3 3 1 4
1 O 3 2 O
Abbiamo .allora:
U: gruppo di studenti e studentesse universitarie italiane N == 60 X: p11mero di partner sessuali degli ultimi 1 2 mesi Il fenomeno X è q11an.titativo discreto, e infatti si rileva contando; le sue modalità · f sono i nume · interi O, 1, 2, ...; la scala delle modalità è quantitativa rappono. La tabella riporta il risultato della rilevazione di X su U e si presenta come un insieme di N = 60 numeri interi., ingestibili �a occhio». Semplicemente guardando la tab lla non i riesce a dire nulla di informativo circa X su U, cioè riguardo al comportamento se Sltale degli studenti e delle studentesse osservati. 1
Il risultato della rilevazione fornisce i cosiddet i d g zz . 'an t · . l statistica procede per sintesi successive: l'obie ivo è far emergere via vi dai dati, a ogni livello di sintesi, informazioni utili a desc ivere e spiegare 11 omportarnento di X su U. La pnma basilare sintesi consis e nel dar una scruccura i dati grezzi, organizzrndoli in tabelle e grafici in modo da renderli plù leggibili . I termini tabelle e grafici fanno parte del comune linguaggio della conver sazione. :1n linguaggio tecnico noi parleremo dt dls ribuz lone di frequenze e variabili st atisticlie.
l, �
-
-
.
ES E. M;P f01 4�1I_ :: :. ·: Sesso e universi à
26
Capitolo 4
4 . 1 D is tr i b u z io n e d i fre q u e n ze e v a ri a b ili _s ta ti st ic e h Effet tu an do la se n1 pl ice op er az ion e di co nt eg gi o de lle m od ali tà di x che si ripetono in U, i da ti gre zz i ve11go110 organ izz ati in un a tab ell a. ., .,� • •,� '-' .•:,,.,,,._._ � '. 'l'� .t',.-,-'"'••\\·' ��·,, » 'I¼ ' '·''\,,". '\·,,, ."--"\'.,-. . , _,..,--' ·, \' '11 J.,, ·"',' �',-,,�.,'_ '',..'. ''. ·',' � . '. . �,··�, � - .• ,. ,,-� .,..._ ,.·--·, Il ., �" , . · · ., ,, tK· "\ , � 1 ' l '\' .� -1.·�--I
,,,. ·.· ,: ES' EM' p· 10·· 4 · "·1 ·
1 ;,,.\' l.·11.-, ·,· t\ ' ' . �,;-�;-.... ��-, �t.:· 1 \,·1 · , .,, t \-· � ' ..., .."'� - ' l' ,'.., . , . . . l . ,.�,\ ' .., .. .' . . "' . '' , ' � , � : · .-.--: ·': -� � �'f ... .._ · · '.·1, · ,_' . · -, ..-- -..\.., '-\ \ · . � .' , ) ' � ' . ,\. ' .· \ .
Sesso e università (cont-ì nua)
U: gruppo di stttdenti e studentesse universitarie. Italiane N == 60 : numero di partner sessuali degli ultimi 1 2 mesi
I tr,.
Dati grezzi
3 6 O 8 5 2 O 4 3 1 6 1 1 2 2 7 8 I 3 2 6 2 3 O
6 7 7 2 O 4 2 O O 1 3 3 7 5 6 1 6 6 O 1 8 O I 2 4 O 6 4 5 2 O 2 1 1 4 O
con k = 9 differenti modalità x, Osserviamo che, nella V di interesse, X si manifesta ' coincidenti con i numeri interi da O a 8. Contando il numero di volte in cui ciascuna modalità X; si ripete in U, il risultato (confuso) della rilevazione, cioè i dati grezzi, si struttura,10 nella Tabella 4. 1. I dati sono ora più organizzati e meglio leggibili. La Tabella 4. 1 consta di k = 9 righe (più una �he riporta il total� dei soggetti osservati) e di 2 colqnne. Nella colonna di sinistra appaiono le modalità x, osservate in U. Nella colonna di destra è riportato il O\lmero di volte in cui la corrispondente modalità X; è stata rilevata in U, che si ,chiaima frequenza assoluta di x1 • La somma delle frequenze (assolute) riproduce la nur11erosità N di U. La colonna di destra costituisce la distribuzione di frequenze di X su U.. ,, L'intera tabella, cioè il complesso delle k coppie ltmodalità, frequenza prende il nome di variabile statistica. Tabella 4 . 1
o
11 10 10
I 2 3 4
.
5
6 7 8
•
•
' •
'
.
6 5 4 7 4 3
•
Totale 60
•
'
Definiz.i one •
,
Definizione •
I
•
Con l'aiuto .dell'Esempio 4. 1 ttSesso e università» abbiamo introdotto tre lmportanti concetti che ora riprendiamo for11..1almente (e ne impariamo anche la notazione).
•
•
Studenti/esse
N. di partner .
•
� distribuzione di frequenze (assolute) si costruisce per conteggio e consente di organizzare i . dati grezzi in una forma tabellare:
Distribuzioni dì frequenze, tabelle e g rafici '
•
27
.
Frequenze (assolute)
t
•
•
,i lr.i
f1
'1
: Distribuzio11e di frequenze (assol ute)
:
'"k fk
•
I
N f- Somtna delle frequenze (assolu·te) (riproduce la nu1nerosità N di U)
•.
f
[
!
I !
,
da a ue, secon dunq X e eno fenom il fare con che a ha c X lità moda delle nna colo La della natufa del fenomeno e della tipologia di scala utiliz zata, può contenere attri buti, categorie, numeri o intervalli. La colonna delle frequenze (assolute) f, ha invece nze freque Le U. zione popola la con e dunqu e iche statist le unità con fare che a (assolute) sono sempre numeri interi e � O e con somma pari a N,_ qualunque sia i (una categoria, un numero o un à x modalit ndente corrispo dalla assunta forma a l intervallo). Il complesso della tabella costituisce la variabile statistica (detta anche serie o seriazione statistica).
Definizione Le modalità (a questo punto dovremmo averlo capitai) possono avere natura varia mentre le corrispondenti frequenze (assolute) sono numeri interi positivi o nulli la cui somma riproduce la numerosità N di U. In formule: v.s.
=
(x;, {;) ,
i = l , . . . , k, .
k
E {; = N
i= l
Da questo punto in poi v.s. significherà per noi tvariabile statistica" ; con X indicheremo indifferentemen�e sia il fenomeno oggetto d'interesse (prima di essere rilevato) sia la corrispondente v.s. (dopo la rilevazione e la strutturazione dei dati grezzi) Attenzione: il passaggio dai dati grezz alla v.s. ci ha portato il vantaggio di rendere i dati più organizzati e più leggibili -a ci ha fatto perdere l'infor1r1azione circa l'ordine in cui i dati sono stati rilevati. Questo è· ciò che succede nell'analisi 1
statistica: a ogni livello di elaborazione da un lato si ottiene di far emergere dai dati più chiaramente un qualche aspetto del comport.amento di X su U, ma dall'altro ila sintesi necessaria a ottenere questo comporta una perdita di informazioni. Nell'Esem pio 4.. 1 -Sesso e università" possiamo permetterci questa perdita perché l'ordine di rilevazione è ininfluente rispetto al comportamento di X su U. Ci sono casi in cui l'ordine di rilevazione costituisce una fonte importante di informazioni sul fenome no d'interesse e pertanto la costruzione della distribuzione di frequenze ·e della v.s. non è opponuna o non ha senso: ne vedremo un esempio nel Capitolo 8. Le fr,equenze (assolu ) non sono l'unico tipo di frequenze costruibili.
4.2 Frequenze · elative e percentuali -
Lo studio sul componamento sessuale degli studenti e delle studentesse universitarie itali�ne (vedi Ese_mpio 4f 1 "Sesso e università•) aveva anche lo scopo di confrontare soggetti iscntti � laur�e diverse. La Tabella 4.2 si riferisce allo stesso fenomeno X: numero di partner sessuali degli ultimi 12 mesi., ma rilevato presso 40 soggetti ambosessi iscritti a Sociologia e presso 28 soggetti ambosessi iscritti ad Architettura.
ES'EMP O..�4,.. i_ 2, ·· . . .. ,,···"·
·1r· , .·,:-;�...,.-,...... .,.)·"'....·,., , i-Ì· , !t:,.l .-�. , \·t · r ·';" , ,-�.·l"''" �\. ..'',"-, tt-L
· 1 ,1 � - ,1 1·.. · ,'� . · \· , ,, '· ' ·. •··� ' • !. ,. ..., .. ":.) . ., t \• .· ',., , ! i. , :-i".· � 11 t•.,14,..•r .;,\\- :1,..,••,.,• .;.,,· !. f�,1....��,'·1 I .. . ' . 1 , . . ,,·,, .. . •,.,,_
., . ,,· 1·' 11.I
loro somma è pari a 100. A livello di analisi statistica è preferibile lavorare con le frequenze relative Ml.Ziché con le percentuali per semplificare i conti tttogliendo 2 zeri"; a livello di in terpretazione e comunicazione dei risultati è conveniente passare alle percentuali, generalmente più comprensibili anche ai non-statistici. La colonna delle frequenze relative p1 costituisce la distribuzione di fre quenze relative di X su U. Con la costruzione della distribuzione di frequenze relative abbiamo effettuato
un'ulteriore sintesi dei dati che ora sono maggiormente informativi riguardo al peso che ciascuna modalità x1 ha in U. Inoltre, la distribuzione di frequenze relative è confrontabile fra popolazioni con dimensioni diverse. L'informazione perduta con questa ulteriore sintesi è la dimensione N di U. Nell'Esempio 4.2 "Sesso e laurea" se sappiamo che i soggetti che dichiarano 8 partner negli ultimi 1 2 mesi sono il 2.5% a Sociologia e lo 0% ad Achitettura, sappiamo qual è la quota di soggetti ses ualmen te più attivi nelle due lauree, in particolare sappiamo che a Sociologia ce n. sono 2.s su I 00 mentre ad Architettura non ce ne sono; per contro, non sappiamo iù quanti sono gli individui intervistati a Sociologia e quanti ad Architettura. Frequenze assolute, frequenze relative e percentuali sono costruibili per qua lunque tipo di fenomeno X. Quando il fenomeno di interesse è almeno ordinale
30
v..,,,
Capitolo 4
7'
,
(cioè qualitativo ordi11ale oppure quantitativo) possiamo aumentare il livello di a11alisi e costruire u11 ulteriore tipo di distribuzione di frequenze.
f I,
�
.
!
4 . 3 Frequenze cumul ate •
•
è al111e110 ord inale è ttna buona pratica costruire la v.s. ordinando i11 se11s0 c1..esce11te le 1nodalità osservate, partendo dal minimo x 1 e arrivando al '
Quando
I
n1assin10 xk ctoè
Questo è ciò che d'ora in avanti supporremo (ed è anche quello che fa automatica1nente il computer). Ci capiterà anche di indicare x 1 con Xmin e xk con Xrrlax· La possibilità di stabilire un ordine oggettivo e universale fra le mòdalità di X è utile all'analisi statistica e consente di porsi domande come: quante sono le unità statistiche che, fr·a le N osservate, manifestano una modalità non più grande di (cioè al più pari a) una certa X;? E quante quelle che manifestano una modalità non più piccola di (cioè almeno pari a) una certa x1? Si tratta di sommare, tecnicamente Si dite cumùlare, le frequenze associate alle modalità inferiori (più piccole) di � costruendo le frequenze cumulate. Ovviamente possiamo cumulare le'frequen ze assolute ma anche le frequenze rèlative (o le percentuali). Indichererrto, con F1 le frequenze èumulate ass9lute e uSeremo la lettera greca �hi" maius�olo ( 4 = 1 - O . 75 = 0 . 25 (25 %) tò fra popofron tl con o he ton anc 1s�n ) co1 lute asso le n (no tive rela te ula cum e 112 · "eque Le 1r ..i f equ e �ze cum ulat e anc h e e l:.li zion ribu la dist o lam stru Co rse. dive ità �_ eros num dt _ Iazioni _ · . 5) 4. la el ,, ab a (T ur tt ite ch Ar ad ti rit isc 28 i per
\
I
I f
�
t
U1 : Arcl1itettura f,
�
10
o 1
7
2 3
I
4
7 8
0 . 357
17
0. 607
22 23
0.786 0. 822
0.250
25
0. 893
0.000
25
0. 893
1
o
0.036
0.07 1 0.036 0.000
27 28 28
0 . 964 1 . 000 1 .000
1 .000
Anche per U2 ci poniamo le due domap.de: quanti sono, fra i 28 osseivati, i soggetti che dichiarano non più di 1 parmer sessuale negli ultimi 1 2 . mesi? E quanti sono quelli che dichiarano almeno 4 partner sessuali negli ultimi 1 2 mesi? Rispondiamo usando la distribuzione di frequenze cumulate (assolute e �elative). P·er il prtino quesito: Freq. (X 5: 1)
Per il secondo quesito:
= F2 r= 1 7 e Freq. rel.(X � I) = '1l2 = 0. 607 (60.7%) = N - Freq. (X � 3) = N - F4 = 28 - 23 = 5
Freq. (X � 4)
Freq. rel. (X 2: 4) 1
10
0 . 07 1
28
1
. 0.357
2 •
'
I
0. 179
2
6
F,
5
o
5
P,
Tabella 4.5 Distribuzione di frequenze cumulate per g l i iscritti ad Architettura
= 1 - 4>4 = 1 - 0. 822 = 0. 178 ( 17.8%)
Infine, decidiamo di definire usessualmente moderato• chi dichiara non più di 1 parmer negli ultimi 12 mesi e •sessualmente scatenato" chi dichiara almeno 4 partner negli ultimi 12 mesi, e ci chiediamo in quale delle due popolazioni è maggiore la quota di individui » quelli \tsessualrnente scatenati . ·sessualmente moderatt• e in quale è maggiore la quota di Siccome dobbiamo confrontare, usiamo le frequenze cumulate relative: •
U1 Sociologia
Freq. rei. .X < - l'' 47.5%
Freq. re . .X � 4:
U2 Architettura
60,1%
1 0.7%
•
�
moderati
22.5%
scatenati
Concludiamo con un paio di osservazioni formali, Dagli esempi abbiamo capito come si calcolano le frequenze cumulate (assolute, relative o percentuali). Era la prima, ma probabilmente anche una ·delle ulti .e volte, in cui ci siamo trovati a costruire eta mano" distribuzioni di frequenze: s orchi lavori manuali come questo
•
• '
•
32
Capitolo 4
spettano oggi ai computer. Quello che distingue una persona prep�rata in Statistica e consapevole di ciò che fa e sa (noil) da chiunque smanetti al calcolatore, sono proprio osservazioni come quelle che ci accingiamo a fare. Per compilare le colonne del le F, e delle , negli esempi, bbiamo sommato le frequenze (assolute o relative) di tutte le righe precedenti. e lo scriviamo in formule otteniamo la defl11izione formale di frequenze cumulat
•
•
r
Defi n i z i o n e
Il trucco è fare molta attenzione agli indici delle sommatoriel Ecco due proprl�tà delle frequenze cumulate. •
Proprietà
I
II
l.'
t
'• •
.
•
t
•
•
•
• •
•
•
Queste ultime formule· hanno a che fare con il metodo usato dai computer per sommare serie di numeri, come è il caso delle frequenze cumulate: non conviene ripartire sempre dall'inizio (la definizione) ma si utilizza il risultato ottenuto al giro precedente (la proprietà 2): Tecnttarriente si tratta di formule ricorsive. Un discorso a parte va poi fatto per i fenomeni quantitativi continui . .
4.4 Densità di frequenza Limitiamo ora la nostra attenzione ai fenomeni quantitativi continui.. Se X è con tinuo le modalità x, sono intervalli. Questo ci costringe ad affrontare due aspetti strategici per l'analisi statistica di questq> tipo di fenomeni. La v.s. ci inforrna eh al generico intervallo X; : x1 � Xi appanengono f, unità statistiche. E questo tttt
-
-
.
'
Distribuzi oni di frequenze, tabelle e grafici
I !
•
ciò che sappia111ol Non sappiatno esat ta1ne11t 1,-1 q11ale fra gli t n fl n l t l pu nti che a p part engono all'intervallo si posiziona ciascuna d llr f, unità statist ich e che cadono in xi : x, 1- Xr. . In tern1tnt più t ente!: la dist ribuzione di fr quenze a l l 'lncerno degli intervalli è ign ota. - - -
t
t
33
-
-
--
La Tabella 4.6 riporta. 1·asp ttativa di vit a alla 11asc:ita (espressa in anni) del 1 8 2 f'aeSl ' . coin olti nell'HDR 20 1 -. r! Anni
4 l- 5 5
Paesi
13
55 I- 60 14
75
60
93
75 r- 80
80 l- 84
37
25
·I , , ; ., i":,\l :'E!s·.1_. E·, M
1 l '. · : tl·.ll·lI" ,,! Jf.-_';..:..'i:(1" i \:,. ' .,i.�,, ,,�(1' . ,>:,/·� � ,
·
f
l
. ' I� ' �, ' . F .·. . , ' . ,(41 ' ,
l 111/I;, ,, lj �!·. • . : ' , ,•.. . , , I).• .,•,,, I' 1 ' ' :11'·1 ','· , ' ' •, f 1 •O ,. , ,111 • • ' , ' I. . ' :, .l fo' . ' 1' , , ,1 ' ' , ,, ' . 1 ' ', •' 1,p ' l_f' ' I o, I '•,. •, . . ,, ..• ' ,· J, >',I 11' d ' : ' ., ' - •. , : • ' . ,, . , 1 � l, .'· �· 1,,,.l I, ;l.111 , · ·.l j
,··�l
•
I" '
Asp ettativa di
vita
Tabella 4.6
l\�ax: Giappone 83.5. Min: Sierra Leone 45.6. Italia: 82.3. Fonte: Hun1an Development Report, Programma. di Sviluppo delle Nazioni Unite, www..undp.org. • I
• t
•
U: paesi coinvolti nell'HDR 2014
N = 1 82
X: aspettativa di vita alla nascita (in anni)
k=S
, Anche senza chiederci se X sia discreto o continuo, le modalità si presentano come in tervalli, dunque va uattato come conti�ud. Prendiamo, per esempio, i 13 Paesi con un'a spettativa di vita compresa nell'intervallo 45 l- 55. Sappiamo che essi cadono in questo intervallo, ma i dati di cui disponiamo non ci dicono quale sia esattamente (puntualmente) l'.aspettativa di vita di ciascuno dei 13 Paesi. Questo vale per tutti i k = 5 intervalli. La disrribuzione di frequenze all'interno degli intervalli è ignota. Siamo di fronte a una mancanza di informazioni che può rappresentare un ostaco lo all'analisi statistica. Ogni volta che ci si trova in situazioni di questo tipo, per
superare l'ostacolo si ricorre all'emissione dj ipotesi in sostituzione delle inforrna zioni ignote. Nessuno e nessuna sofisticazione matematica ci può as�icurare che quello che decidiamo di ipotizzare, in mancanza di informazioni, sia vero o vicino alla realtà: le infor111azioni mancano in ogni casol Si può però richiedere che !�ipotesi adottata sia ragionevole, cioè argomentabile, sostenibile e convincente. Nel nostro caso adottare un'ipotesi significa proporre un modo per ripanire la ft fra gli infiniti valori dell'intervallo x1 : x1 r- xL . Due sono le ipotesi comunemente (e convenientemente) emesse. \,,
I. Ipotesi del valore centrale. L'obiettivo è qui di assegnare a ciascuna delle ft unità statistiche che cadono nell'intervallo x1 : x1 l- xL un unico punto, interno all'intervallo stesso. Il principio adottato è in medio star virtus (ma nei vari contesti applicativi vi sono anche altre ragioni statistico/matematiche). Il metodo consiste nell'associare tutte le f, al valore centrale dell'intervallo� Il valor.e centrale di un intervallo è la semisomma dei suoi estremi, Indicheremo il valore centrale di un intervallo con l'asterisco:
Riprendiamo i dati sull'aspettativa di vita degli N = 1 82 paesi coinvolti nell'HDR 20 14 e adottiamo l'ipotesi del valore cenuale (Tabella 4.7). Con l'ipotesi del valore centrale si ipotizza, per esempio, che 1 1 3 Paesi che cadono nell'intervallo x1 = 45 l- 55 abbiano tutti un'aspettativa di vita pari a xi = 50. Questa interpretazione vale per tutti gli intervalli. Adottando tale ipotesi cl siamo ricondotti a una v.s. discreta (le 2 colonne più a destra della Tabella 4.7).
i1··1·,.· ·1. ,.. ·,. ,:.. ·1 · • ,
"...:.· "1·.d�/A . �· - 1 ·' E S E' _,. ; , ·"·'3 · O · .·· . .- 1· . \I
• " I !
.,
H ,,:f, : , - � : t'' -� ·i· � /"-, , ..,�I :,_ • • ,�) j·\: �, ,! ,�• �� '•' i\,• , ' • >,. ' k '" ,. \ --:·• ·)\1 ,\·.. • 'I > 1 .., '\ \ ' t 'I ' ' \'. • \i •,· ,'... '1 \'• ;' \. ).:...\\ �1\.),.'., · , . . ·1 ·· · ·' o·}i �o'h, i.,' < . • \ · , 11.'l 1' • , .. · -,. ,,4.. 1 , ., ,. \ t· ', ,,, J' l.!i ;, , ,, .... ,' , , :-,,_ < • , f ' . , ,, �, .
,,
,
55 12
18
30
ft. 40 60
100
Tabella teorica di i.s·. X
F
r,
M
fS 34 40 X 1 5 1 00
9
15
=6
35 H 54 40 X 55
100 33 55
> 55 -
Coppie conviventi (continua)
{;,
-
= 22
12
18 30
40 60
1
100
1 La tabella osservata coinctde con la tabella teorica di indipendenza, come conseguenza del 1 fatto che la condizione di indipendenza statistica è verificata. St conclude, allora, che X
e Y sono statisticamente indipendenti: nella popolazione osservata, fra genere e età non si evidenzia alcuna relazione statistica.
La seguente tabella osserv ta ripona dati ufficiali (semplificati) da Repubblica del 3 1 ago sto 201 3 integrati con dati lmalaurea 2013, relativi alle 7058 scuole secondarie di Il grado italiane,. statali e non, classificate rispetto alla tipologia e zona geografica. Formalmente: U: collettivo delle scuole secondarie di II grado N = 7058 X: tipologia Y: zona geografica
··' ,\�. ·1·''o'.;r.·�·-•I·•,.i.•· -�.. E. .·se ( ' ; •' :M , . '•p."·1·0
,. - r -I ·· '·l ·�\. '· · .f· · , ... ,. .•. . •..\\, ,t"I· . . 1·· ·,: '-, ;, _.\ ,,-,11 , . . ··,·\..•; - ., .1· ·,·�T\ � · ' .. .,. ' ,. I . -� , � , _ 1· l;4 '. · ì�.l,·�·;,, .,, '''\' I.-, \q,,,1··,'...,n·: ' ' . . _ '.! •t . ' ,.,, '_ ;.,,,·t·, . . 1 _· ,...,1,,,:) . ,. , .: , �. :'1 ' ' _ , . . .. 'r1 l ·· j' . · - • •' · • - ti· •· .,; " ••'lr J . · . .I',JJ..' . I' , \ . J " , I·• ' \i., 1,1.i,h,,f,,,. fv.J�... ' , • ·t- • "' t , 1� ·- f1 •• . ,htr• _,(""" I' ' '; J•
I
.
j
l
I
\.
'.r
,
"
-
·r
\, '
I • '
• ' ! '' 1 .
I_ ;
�
.
'\ '
•!, :•
'
'
'
,
::-...
' • ,_., :--:" '� ) · , '·'' ' !\'•: i " 4 • ', ' :ti · 1
Scuole d'Italia
118
Capitolo 10
All'interno della tabella troviamo le frequenze congiunte osservate •
r,, ,
i = 1 , ... , k
j = 1 , ... , h
e la tabella è quadra ta perché ha lo stesso numero di righ e e colonne
k=h=3
l:3- tabe!la teorica di 1 .s. è invece ottenuta applicando la formul� delle frequenze teoriche d1 i.s. '" n1antenedo fisse le frequenze marginali ft. e
r,
Tabella osservata '
y Nord Centro Mezzogiorno
X
Licei Tecnici Professionali
r,
.
3444 22 1 1 1403 7058
1513
926
648 3087
,3444
I
Centro
Nord
X
Professionali
1257 674 909 376 508 246 2674 1 297
•
Tabella teorica di i.s.
. '·
Licei Tecnici
.
h.
X
2674
.
=
Mezzogiorno . IrI.
3444 X 1 297
1304 , 7 ---- = 632,. 9 7058 7058. 406, 4 837, 8 53 1 , 5 25 7, 8 2674, 0
1297, 0
1506, 3
967, 2
3444 22 1 1
� 1 3, 5
1403
3087, 0
705 8
Le due tabelle non coincidono, cioè le frequenze congiunte osseivate non sono tutte uguali alle freq1:1enze teoriche di indipendenza statistica. La condizione di indipendenza statistica
· non è verificata e dunque X e Y non sono statisticamente indipenden9. L'evidenza empi rica è allora che fra tipologia e zona geografica nelle scuole secondarie superiori italiane rilevabile.. c'è una qualche relazione statisticamente .
Concludiall1o sull'indipendenza statistic·a con un paio di osservazioni. I.
Proprietà •
'
Per stabilire se Xe y sono Statisticamente indipendenti si utilizzano solo freqizen ze (condizionate, marginali relative, congiunte osservate e teoriche). Ecco perché
questo tipo di analisi è possibile per fenomeni di qualunque natura, sia qualitati vi sia quantitativi (categoriali, ,ordinali, discreti o continui). Nei Capitoli 1 1 e 12 introdurremo, invece, strumenti di statistica descrittiva bivariata che, utilizzando anche le modalità x, e y1, devono essere numeriche: si tratterà quindi di metodi statistici non applicabili a coppie di fenomeni qll:alitativi. Se si conclude che X e Y sono statisticamente indipendenti, l'analisi statistica bivariata è terminata. Che senso avrebbe analizzare una relazione che non esiste?
Indipendenza, connessione e asso ciazio ne
-. . . "� .. . ' ..
.. ' .: ..
. • .... • \
119
..
.'
10.2 Connessione Se si conclude cl1e e Y no11 s0110 statistica1nente indipendenti (perché non è ve onate . la condizi a condizione di i11dipe11de11za le frequenze cat r.ur statistica t e stt ifi r oppure, equivalenten1ente) percl1é 11011 1.utte le (requenze congiunte �ono uguali alle frequenze teoriche di indipende11za e, dunqtte, la tabella osservata differisc e dalla tabella teorica di i11dipendenza.) al ora fra X e y 'esiste un·a qualche relazione statistica. Diremo che e Y sono conn ssi e indicheremo �on il termine connes sione una generica relazione statistica1 ente rilevabile in una coppia di fenomeni osservati sulla U d'interesse. Il passo successivo nelltanalisi statistica bivariata consiste nello stabilire se la re misurare cioè o debole, e è forte fra Y X la zione che è stata (statisticamente) rilevata 1 il grado di connessione. Può succedere, infatti, che una relazione statisticamente rilevabile possa essere però debole e; quindi, poco significativa nella pratica, non meritevole di essere approfondita. L'intensità della connessione è tanto più elevata quanto più la tabella osse�ata (che contiene i dati rilevati nella realtà) è lontana dalla tabella teorica di indipenden za. Il metodo più utilizzato (e più intuitivo) per misurare la connessione consiste, allora, nel considerare la differenza fra le frequenze congiunte (della tabella osser vata) e le frequen-z e teoriche di indipendenza statistica, cioè quelle che avrebbero dovuto osseroarsi se X e Y fossero statisticamente indipendenti. Partiamo allora dalla differenza:
tj - {;j
Se fra X e Y esiste indipendenza statistica, cioè quando tabella osservata e tabel la teorica di indipendenza coincidono, tutte queste differenze sono nulle. Quando non sono nulle� possono essere vicine o lontane da O. Se queste differenze sono vicine a O si conclude che la connessione è bassa, cioè esiste una relazione de bole fra X e Y e, quindi, i due fenomeni sono si connessi ma si influenzano po co l'un l'altro. All'aumentare del valore di tali differenze si ha connessione sem pre più alta, èioè una relazione forte fra X e Y, indicativa che i due fenomeni si influenzano sensibilmente e hanno, statisticamente mQlto a che fare l'uno con l'altro. In una tabella a .doppia entrata con k righe e h colonne sono calcolabili k x h differenze di questo tipo (tante quante sono le sue celle) e tali differenze possono ,essere positive o negative. Ai nostri fini, cioè per misurare la connessione, non interessa il segno (+ o -) di queste differenze ma solo quanto sono grandi. Servono allora due accorgimenti forinali: 1. ,e liminar,e il segno;
2. sint-etizzare in un unico indice tutte le k x h differenze. Sappiamo -che si può risolvere il problema I in due modi: con l'operazione di valo re assoluto 1 ft, - f,j I (che significa trascurare il segno) oppure elevando al quadrato 2 si pari -T"tengono potenza sempre valori positivi). a elevando (perché ftj) (ft, Matematicamente è più complesso trattare con il valore assoluto che con il qt1adrato e questa è la ragione per cui in Statistica si preferisce utilizzare l'elevamento a quadrato (e non solo in questo caso: ne abbiamo già parlato nel Capitolo 6 e ne parleremo ancora nel Capitolo 13). Al problema 2, statisticamente si risponde calcolando una media. Ora siamo pronti per introdurre la misura di connessione più nota e più utilizzata., che ha un simbolo standard: la lettera greca chi x elevata al quadrato per ricordare
120
Capitolo 10
che si utilizzano i quadrati per eliminare l'influenza dei segno. Coi:ne al �olito vedi.una _ pruna la for111ula (cioè la definizione) e poi spieghiamo da dove salta ftiori.
Defi n i zione
, .. •
Perché con questa form ula si misura la connessione? Guardiamola pezzo per pezz o. Se tu tte le differenz e fi/ - ftj (elevate al quadrato o meno) sono uguali a o, cioè quando X e Y sono statisticamente indipendenti, l'indice di connessione risulta X2 = O perché sommando tutti O, divisi per qualunque cosa, si ottiene sempre o. Quanto più grandi sono �e differenze fr, - t,* (ed elevandole al quadr to diventano 1 ancora più grandi) tanto più elevato sarà il valore dell'indice x2 • La ragione per cui si con siderano poi i rapporti ; 2 lJ . . (ftt�· - rr�)
;
• .
hj*
2
anziché semplicemente (fij - fij) è pura convenienza teorica, divent�rà più chiaro nel prossimo paragrafo e lo vedremo anche nel · Capitolo 19. Notiamo che nella definizione di x2 appaiOno le frequenze teoriche 'r,_f . Allora per calcolare. il x2 applicando la definizione è necessario costruire l'intera tabella teorica . di i.s. Esiste anche �a f�r1nula alternativa per il·calcqlo d�l x2 che non coinvolge. le frequenze teoriche ed è penante calcolabile a panire dalla sola tabella osservata. I I
Defi n i z i one
.
La formula alternativa è quindi più veloce quando si fanno i conti tta mano" anziché
e.o n il computer. �e due for1nule sono equ!valenti, cioè applicando la definizione (dalla quale si capisce be_ne che si sta misurando la connessione) oppure applicando la formula alternativa (che invece sembra più una formula magica) si ottiene lo stesso risultato. Lo vediamo con un esempio e poi lo dimostriamo. »
Sc�é d'Italia 10 •
o
14
14
16
> 60
I
10
o
16
14
35
o
5
21
,
i
Non c'è bisogno di fare grandi calcoli per co11cludere ché r,} "'= 1 . Su �gni riga (cioè , guardando le v..s. condizio11ate Ylx,) c'è u11a sola frequenza congiunta diversa da o. Al lora tutte le varianze condizionate cr?ix, (cioè le varianze calcolate sulle singole righe) sono nulle e la varianza NEI (che è la media delle varianze condizionate) è a sua volta pari a O. Allora. Y dipende perfettamente da X, cioè nel gruppo di soggetti osservati l,età spiega roralmenre la tendenza a twittare più o meno di 1 O volte in una settimana: ·se il soggetto ha meno di 25 an i ne invia di più altrimenti di meno. In questo senso «a ogni modalità del fenomeno con izionante corrisponde un'unica modalità del fenomeno con dizionato". Vi faccio notare he questa tabella, oltre che di perfetta dipendenza di Y da X, è anche di massima connessrone fra X e Y. Il che è. molto ragionevole e lo riprenderemo nel prossimo capitolo quando parleremo di implicazioni matematiche e statistiche fra le varie relazioni fra variabili che abbiamo imparato. Consiglio comunque di calcolare il x2 di questa tabella e verificare che coincide con il x2 massimo (eventualmente, rileggere il Capitolo 91)._ i•
•
Tutto quello che abbiamo detto a proposito della dipendenza di Y da X vale anche se si invene il verso della dipendenza. Si tratterà di fare gli opportuni adattamenti nella notazioµe e nell'interpretazione perché le due analisi di dipendenza (di Y da X e di X da Y) sono condotte separatamente. Quando anche X è quantitativo, l'indice di dipendenza di X da Y è definita comJ segue. . I
Defi nizione
•
A differenza della connessione che è un legame biunivoco fra 1 fenomeni (in accor do logico con l'osservazione che abbiamo fatto ·nel Capitolo 1 O circa la simmetria dell'i..s.) la dipendenza è invece una relazione statistica univoca (e infatti abbiamo il verso!). Se, per esempio, Y è i,m. da X, non è necessariamente vero che anche X è i.m. da Y. Anzi, in teoria sono costruibili tabelle in cui Y è indipendente in media da X e allo stesso tempo X è perfettamente dipendente da Y (o viceversa).
Un esempio di tabella di questo tipo è il seguente. - -
-
- -- - --�
� -� - -
Osserviamo la seguente tabella (dati inventatil) e proviamo a fare un pò' di conti.
X
30 40
r,
y
5 10
o
10
Indipendenza i n media
6
o
15
15
10
11
o
10
15
15
o
10
f,.
20 30 50
di un fenomeno dall'altro
Capitolo 11
146
Guardiamo prima le rigl1e, cioè le v.s. condizionate Ylx, con k
y_ 1 X l y_ 1X2
y
=
4 I:, �
/= 1
=
1 � I' ,r � Y11 1/ 1 1 . /= 1
=
6
YJf.J
X
15
5
=
+ 10 X
10 + 1 1 20
X
15
=
10 + 6
X
X
•
=8
=8
30
5
10
X
= 2:
1 5 + 10 X 15 + 1 1 X 10 =B 50 .
Med ie condizionate e media marginale sono tutte uguali; allora Y è indipendente in media da X e si ha: �RA
=
O � ifr =
F�
�
.
ay
=O
Adesso guardiamo le colonne, cioè le v.s. condizionate Xjy1 con h medie condizionate, le· varianze condizionate e la varianza NEI:
'°' 2
1 x,f,,1 L-.J r. 1 i=l
.
10 + 40
30
X
oi 1Y, = T; t:{ (x, - xly1)
f,
x_ 1 y .1
=
XIY2
=;= 4 0
=
.
X
lO
0
=
4 e calcoliamo le
= 3o
40 xly = 3 . xjy4 � 30 .
l
•
2
'°'
Allora: NE1 a2
•
_
1
=N
· 2
1
=O j=
1 , : . . , 4.
allora fra X e Y c'è una relazione di tipo
logaritmico.
I
X
esponenziale.
I
I
l
•
• •
•
• •
I
I •
X1
'•.
..'
X I
Se i punti sono concentrati in questa zona del diagramma, ali ra fra X e Y c'è relazione di tipo cubico. •
-
l1 ]Wtt•-· Jct�t\lft;i' JAe •••• IG]S...pU...A4.(Ci$·4C--h ""''"'lfh#ihhl IJit!d.W J i P
i
65
•••W#04f\\M fe.MlrtiìF#fffll\l_ _,._ ,...-.. . ___ , _ __--1-------pç tn:c., ._ _..
Quando Invee� X e Y sono statisticamente indipendenti, i punti· si presentano sparpagliati sul diagramma senza nessuna struttura evidente.
I
. .
•
•
o n e zi rrela c o endenza e Di p
151
In questa tabella (dati inventati!)
Y 1 12
2 3 4 8
10 6 20 1 2
24
36
I ndi p endenza stati st1ca 20 4 -0
20 1 2 8
,
4-0
••
5 0 30 20 1 00
I
..
tutte le frequenze congiunte {q coincidono con le frequenze teoriche di i.s. ,,,1. F /ll
= lO =
0 X 30 2 _ _ t 112 - 6 � 1 00 ,
20 X 50 1 00 ,
•••
.
'
{33
= ·B =
40
X
=
ft . fJ . : N
20
1 00
cioè X e Y, sono statisticamente indipendenti. Proviamo a rappresentare la tabella nel diagramm� a dispersione (Figura 1 1.3); costruiamo il grafico �a bolle" con i punti di coordinare (xi , yj ) � dimensione {q e, sullo stesso grafico, mettiamo anche la versione «ridotta" con le medie aondizionate, rappresentando i punti di coordinate (x,, ylx,) (sul grafico appaiono come piccoli punti chiari). Notiamo -che la nuvola di punti (bolle) non evidenzia nessuna struttura, i punti sono tutti sparpagliati senza tendenza a concentrarsi in panicolari zone del piano. Inoltre, le medie condizionate ylx, (puntini chiari) sono allineate (tutte uguali fra loro), non mostrano cioè tendenza a crescere o a diminuire al variare di X. I
y
•
r
•• :tftY«cr"t:
wa
Rll#J....
n:bdts •• enteu, '*erlJ.lftM111.,nu..J41111�-...i 1eJ1 a.JI:r-lJflate Y
3.5 2.5 YJ
2 1.5 1 0.5 o
10
o
20
I•
X·I
30
::_ ,,,,,_ ,v,•..�•R:i LMCatr:i
'---------------1 *'1 0Mo_ ,,nn. _ , ,_ ,_ ,, .-
• • �
..
•
• J
�• ,•
· -
•
•
.
40 : �--
••
50
,.,�,.,1.. -.�--�����nw wrn.-.tt� u:, :•••
-
La relazione più semplice, sia da trattare matematicamente sia da utilizzare e interpretAre statisti.camente (e pertanto è anche la più utilizzata), è quella lineare. Il valore e il segno della covarianza danno indicazioni sulla relazione lineare fra X e Y.
11.9 I nterpretazione geometrica della covarianza Paniamo dalla definizione di covarianza: h
� (x, - X) (y1 - Y) f,1 = NE li:::: 1 /= 1 l
Uxy
k
e diamole un'interpretazione geometrica utilizzando un generico diagramma a di
spersione.
Figura 11.3. Diagramma a dispersione nel caso di indipendenza statistica.
Capitolo 11
152
Figura 11.4
1D
I nterpretazione
geometrica della
covarianza.
... ,"' J6 tAutc�UIMJIIJP'PIIIN4 l*fl
fl99SHW'II�.MIJca u-.••c•••L c&z•"li 1aees••·, 11uH 1'"w,..._ ,_ r _ ...--t,1 w,-. uo ,,,...,4
(a)
(b)
yh
y•h
•
•
)'J"
-
__�� _. _ 10 a, ,...,,nm112•r: t a ,_.....,.rr"'CS_,.__
•
••
y
Y1
••
I
• I
Y,
Y1
...
X1
x,
X
•••
1
- . ,,
x,
• f •
(e)
yh • ••
Y1
y
• •
·Y
'
,
•
X1
·•·
•••
X1
•
•
1. Comi�ciamo a rappresentare sul diagramma anche le medie marginali x e y che appaiono n�lla formula di uXY (Figura 1 1.4a). 2. La covarianza è pasata sugli scarti (x1 -;- X) e (y1 - Y) presi con il loro segno (non elevati' al quadrato, nè presi in valore assoluto). • A seconda che le modalità x, e yj siano sopra o sotto-media, .questi scarti sono positivi o nega tivi, cioè corrispondono alle zone del diagramma a dispersione (Figura 1 1.4b). 3. o-XY è basata sui prodotti (x1 - X) (y1 - Y)- Allora, le quattro zone evidenziate sul diagramma contribuiscono al calc�lo di o-xy con i segni riponati in Figura 1 1.4c. •
I
•
•
stabilire i vari tipi di covar.ianza in funzione del tipo di grafico. o siam Ora pos • ma ram diag del a zon sta que in ati entr conc o son ti i pun O, cioè > O" a itiv Pos • xy (Figura I 1.5a), poiché gli scarti positivi prevalgono su quelli negativi. I
Figura 11.5 Segno della covarianza (positivo o negativo).
.. li., •
i i
(a)
(b)
yh
Yh • •
• ••
I
Y1 ,
Y1 '
Y1
Y,
' •
••
'
..
x,
• • f
•
••
• • •
Dipendenza e correlazione
153
-.
• Negativa uxy < O, cioè i punti s0110 concen�rati in questa zona del diagramma (Figura l l .Sb), poiché gli scarti 11egattvt prevalgono su quelli positivi. • Nulla u y = O, cioè i pu11ti s0110 d isposti tn modo che gli scarti positivi e negativi si con1pe11si110. Ciò accade quando i punti sono sparpagliati sul dia gramma a dispersione se11za struttura a lcuna, cioè in caso di indipenden za statistica. Succede a11cl1e qua11do i punti sono strutturati secondo una ,. sa e lonta11a da quella l ineare� come qu�lla quadratica. dive, relazione ., •
'
- - �· · � ·.....
Il diagramma. a dispersione della Figura 1 1 . 1, mostra una struttura evidente: i punti sono ben concentrati in una particolare zo11a del grafico che indica una relazione di tipo lineare e decrescente. Ci aspettiamo pertanto una covarianza diversa da O e con segno negativo. In '
I • '
questo esempio i conti sono facilitati dal fatto che le frequenze (marginali e congiunte) sono tutte unitarie. Facciamoli: x=
l
I
I
Y
•
N
lO
3 8 .3 L x· == i=l
O"XY
10
I
1 IO
;/f/:','?·ltif.�r,JI, •. : , · 1l · ,f,1 ·'. 1 r i•li -'oJ�,-,(;,-, ·, :•,.,.r. ,,1·_,,_,,J., . .-J . . • .• r • .·.t 1 1J ' � -� �
,-1'
.,_. -1;
· -
,,..,.,., ...;· .}•,,,,,,.
�" ;,; ,.. t: ' '" f _., . ,, ,- •• r. •-j J-· • /'J I ' ,, --. 1• •,··'l7 , v ,1 f , . · 1 • • • . . /.J . ,. iT ' 4•, ;', · � ·•" • J � • 'i''; • ,. . , •. ., ,_ ,_ · � - .:.......:_ ;_ � � .-..'..'...�...!.; /_-�..,,._,.,,· e •.·•___. ,. �·· J • '! _ ,, ,.. ·
'l''- �r1 "' . ,. . ·- -�·· · ·1; ( . ,f·, ,. , �- ·'.' . , . ' , , ; "v,,.,.,, ' /'' rf
. ... I ,�•-'> ' 'f , , .., ,, -...
.p·,_.A_.:r -�'";!'(>''l I . . , . •• 't'''• ' / ,,. :,,, , ""- .
-
'
j · -. , I . "
'•1''-; 3· ·l"'lt' • •• r.,,·1·' . ,; , ,-�: h. f4J
f� � ...
i· ··� ,· -
�.l, ..,h ,.,�� *( ' "'
r.i!"''-d"'" -
Indi pendenza
statistica, cioè totale assenza di qual unque rel azione
Lap,1010 l L
�ella t�� ella .seguente, tutte le frequenze congiunte {;1 coincidono con le frequenze teoriche d1 1.s. fti = ft.f,/N. X
1
y
12 24 36
2 3
6 20 1 2 10
4
20
8 40 20 1 2 8 40 50 30 20 1 00
Verifichiamolo:
X 50 20 _ _ 20 X 30 fn = l 0 = 100 ' f1 2 - 6 1 00 ' '
.
"· '
•
8= = f 33
40 X 20 1 00
cioè X e Y sono statisticamente indipendenti. Se proviamo a calcolare l'indice di connessione 2 x otteniamo zero: 2
x
=
LL 3
3
i=l J=l
(t
f,*)
'IJ -. lj {;,
2
=
L L flj� 3
3
i=l /=1
=0
Se c'è i.s. allora non c'è nessun tipo di relazione fra X e Y:
r(y == �} = O e Pxy = O
Se non ci credete (o semplièemente per esercizio) provate a eseguire i conti. Sul diagramma a dispersione (Figura 12. 1), nel caso di i.s. i punti di coordinate (xt, y1 ) si presentano sparpagliati e privi di struttura {li rappresen�iamo con il sistema di bolle più grandi o più piccole a seconda che la frequenza congiunta sia alta o bassa). Le medie condizionate sono tutte uguali fra loro e sul diagramma a dispersione (rappresentate con i piccoli punti chiari) sono allineate orizzontalmente, a indicare il fatto che al variare di X le medie di Y non variano.
Agura 12.1 Diagramma a
dispersione nel caso d i indipendenza , statistica.
2 .5 YJ
2 1.5 1 0.5 o
•
o
10
20
30
40
50 ..
Abbiamo già dimostrato nel Paragrafo 1 1 .5 "Implicazione tra indipendenza statistica e indipendenza in media" che se X e Y sono statisticamente indipendenti (cioè se nella tabella osservata tutte le frequenze congiunte t,1 coincidono con le frequenze teoriche di indipendenza ftj ) allora le medie condizionate sono tutte uguali fra loro e uguali alla media marginale. Allora Y è indipendente in media da X · e anche è indipendente in media da Y.
I I
Dimostriamo or4 che se X e Y sono statist icamente indipendenti al lora la covarianza due n i cioè ,con , segu di enz e a fenome ni sono an che incorrelati. Pxy = lla O u è Partiamo dalla definizione di 11101nento mist o e ci pon iamo n el la situaz ione di i.s., cioè con tutte le frequenze con giu n te fii 9 he coin cido no co n le frequ enze za en nd pe di di in he ric eo fff• = ft.f1 /N: t . .
•
I
Notiamo che ci sono tern1i11i che hanno solo l'indice i, cioè che sono costanti rispetto alla somma per J, altri tern1i11i l1an110 solo l'indice j, cioè sono costanti rispetto alla somma, per i, e, infine> N è costante sia rispetto a i sia rispetto a /. Allora possiamo » ì)ortare fuori (raccogliere a fattor comune) dalla somma rispetto a J i termini "" che dipendono solo da i e ttportare fuori dalla somma rispetto a i i termini che dipendono solo da j. La costante 1/N possiamo metterla dove ci pare (e perciò la mettiamo in posizione strategica): k
I
h
l
= N L xift. · N L Y;f; f=l
.
-
.
/=1
Riscritto in questo modo riconosciamo le medie marginali: •
=X·Y
. è dato dal La conclusione è allora che se fra X e Y esiste i.s. allora il momento misto ' prodotto delle Ill-edie marginali (tecnicamente si dice fattorizza). Di conseguenza se calcoliamo lai covarianza, per eserp.pio, usando la formula al�ernativa, otteniamo zero: '
Sempre zero risulta anche il coeffic�ente di correlazione lineare che ha la covarianza al numeratore: PXY
=
•
cioè X e Y sono anche incorrelati. . . . , r, . !I , . ,· ., 'l I I . 't'"' "''')'' ,,, . llllllll.lllaJllll&BfBIJIUIIIDllBI ·1 ·�
"'!i
, 1t
-
,
1·
•., .
•
. ! !'"'-�( -- 1••
._ ., ,,.,
,•
,
• ,,
' ,
..
1 .• ' 1 ··' � ' ' 1
. ..-:. , ..... .
.--,l,�' � p- /J
,
� •, . , ,,
.I
Il viceversa di .queste implicazioni non è necessariamente vero, cioè se X e Y sono incorrelati non è detto .che l'uno sia indipendente in media dall'altro o che esista indipendenza statistica; potrebbe infatti esistere una relazione diversa e lontana dalla relazione lineare. Si a allora:
»
il simbolo =;fr è la negazione del simbolo => e si legge �non implica . - ·-
Nella tabella seguente, Pxr = o (provare per credere ... e per impararel), cioè X e Y sono incorrelari.
X 1 2 3
Y -1 2
5
20 1 0 1 0
40
1 0 30
40
O 20
O
O
20
30 60 10 1 00
•
•
Fenomeni connessi ma incorrelati
•
162
Capitolo 1 2 ,,
,,
Sempre facendo i conti si scopre anche che:
•
77}
•
Figura 12.2 Diagramma a dispersione nel caso di fenomeni connessi ma incorre f ati.
= 0. 12,
'f/� = 0 . 5 9
x2 (normallzzato) = 0 . 208
e
•
cioè esiste una relazione fra X e Y. Tale relazione è allora, oltre che di modesta intensità anche dive,..sa e lontana dalla relazf one lineare. Sul diagran1n1a a dispersione di Figura 1 2.2, l a nuvola di punti e, più eyidentemente le medie condizionate mostrano una struttura, ma non di tipo lineare.
) I
I
I
6 5
1 o
'
,I l
I I
x,
relazione perfetta di limite 12.2 Situazioni I • I
•
•
•
Passiamo ora �!l'altra situazione limite, opposta all'assenza di relazione, cioè la
relazione perfetta.
, I
t
•
Definizione l
Legam.e perfetto significa che un fenomeno determina, statisticamente, !,altro: fissata un� modalità x1, in U esiste un'unica, predeterminata, modalità y1 e/o viceversa. •
.
• Se la tabell.i � quadrata, cioè � = h ovvero stesso numero . di �ighe e di co lonne, la massima connessione è. biunivoca. In ogni riga e in ogni colonna c'è una sola frequenza congiunta diversa da O. La massima connessione biunivoca implica la perfetta dipendenza di ciascun fenomeno dall'altro. In formule: •
•
x 2 (normalizz�to) = ry} = 77} =
l
• Se la tabella è rettangolare la méJ:ssima connessione è univoca e si hanno· due casi. · 1 . Se la tabella ha più righe che colonne, c�oè_ k > h, allora in ogni riga c'è una sola frequenza congiunta diversa da O. La massima connessione univoca di riga implica che un solo fenomeno (quello che sta sulle colonne) dipende perfettamente dall'altro (quello che sta sulle righe). In formule: ·
x2 = r,} = I
e
o s 'f/�