Statistica Di Base: Come, quando, perché (Italian Edition) 8838664102, 9788838664106


235 123 171MB

Italian Pages 480 [397] Year 2010

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
statBaseMecatti1
IMG_20210402_120601
IMG_20210402_120613
IMG_20210402_120624
IMG_20210402_120629
IMG_20210402_120642
IMG_20210402_120646
IMG_20210402_120651
IMG_20210402_120656
IMG_20210402_120707
IMG_20210402_120722
IMG_20210402_120728
IMG_20210402_120744
IMG_20210402_120801
IMG_20210402_120807
IMG_20210402_120821
IMG_20210402_120828
IMG_20210402_120835
IMG_20210402_120842
IMG_20210402_120856
IMG_20210402_120902
IMG_20210402_120910
IMG_20210402_120917
IMG_20210402_120926
statBaseMecatti2
IMG_20210402_123035
IMG_20210402_123043
IMG_20210402_123049
IMG_20210402_123103
IMG_20210402_123110
IMG_20210402_123118
IMG_20210402_123125
IMG_20210402_123138
IMG_20210402_123143
IMG_20210402_123151
IMG_20210402_123204
IMG_20210402_123212
IMG_20210402_123218
IMG_20210402_123231
IMG_20210402_123237
IMG_20210402_123246
IMG_20210402_123252
IMG_20210402_123308
IMG_20210402_123317
IMG_20210402_123333
IMG_20210402_123341
IMG_20210402_123356
IMG_20210402_123402
IMG_20210402_123409
IMG_20210402_123419
IMG_20210402_123429
IMG_20210402_123436
IMG_20210402_123443
IMG_20210402_123448
IMG_20210403_200008
IMG_20210403_200017
IMG_20210403_200024
IMG_20210403_200037
IMG_20210403_200046
IMG_20210403_200054
IMG_20210403_200102
IMG_20210403_200118
IMG_20210403_200127
IMG_20210403_200135
IMG_20210403_200143
IMG_20210403_200155
IMG_20210403_200204
IMG_20210403_200211
IMG_20210403_200222
IMG_20210403_200234
IMG_20210403_200245
IMG_20210403_200254
IMG_20210403_200302
IMG_20210403_200317
IMG_20210403_200326
IMG_20210403_200333
IMG_20210403_200351
IMG_20210403_200407
IMG_20210403_200416
IMG_20210403_200424
IMG_20210403_200443
IMG_20210403_200453
IMG_20210403_200502
IMG_20210403_200510
IMG_20210403_200524
IMG_20210403_200530
IMG_20210403_200538
IMG_20210403_200547
IMG_20210403_200600
IMG_20210403_200606
IMG_20210403_200612
IMG_20210403_200617
IMG_20210403_200633
IMG_20210403_200639
IMG_20210403_200646
IMG_20210403_200652
IMG_20210403_200708
IMG_20210403_200716
IMG_20210403_200722
IMG_20210403_200731
IMG_20210403_200742
IMG_20210403_200749
IMG_20210403_200754
IMG_20210403_200804
IMG_20210403_200819
IMG_20210403_200826
IMG_20210403_200835
IMG_20210403_200844
IMG_20210403_200858
IMG_20210403_200904
IMG_20210404_100026
IMG_20210404_100210
IMG_20210404_100217
IMG_20210404_100222
IMG_20210404_100235
IMG_20210404_100241
IMG_20210404_100246
IMG_20210404_100250
IMG_20210404_100310
IMG_20210404_100320
IMG_20210404_100327
IMG_20210404_100340
IMG_20210404_100347
IMG_20210404_100354
IMG_20210404_100358
IMG_20210404_100411
IMG_20210404_100417
IMG_20210404_100423
IMG_20210404_100430
IMG_20210404_100442
IMG_20210404_100448
IMG_20210404_100455
IMG_20210404_100502
IMG_20210404_100516
IMG_20210404_100523
IMG_20210404_100530
IMG_20210404_100542
IMG_20210404_100549
IMG_20210404_100557
IMG_20210404_100603
IMG_20210404_100614
IMG_20210404_100619
IMG_20210404_100627
IMG_20210404_100633
IMG_20210404_100647
IMG_20210404_100653
IMG_20210404_100659
IMG_20210404_100705
IMG_20210404_100718
IMG_20210404_100723
IMG_20210404_100732
IMG_20210404_100737
IMG_20210404_100800
IMG_20210404_100807
IMG_20210404_100815
IMG_20210404_100822
IMG_20210404_100842
IMG_20210404_100850
IMG_20210404_100857
IMG_20210404_100904
IMG_20210404_100916
IMG_20210404_100922
IMG_20210404_100932
IMG_20210404_100940
IMG_20210404_100957
IMG_20210404_101006
IMG_20210404_101014
IMG_20210404_101022
IMG_20210404_101041
IMG_20210404_101049
IMG_20210404_101055
IMG_20210404_101113
IMG_20210404_101124
IMG_20210404_101134
IMG_20210404_101144
IMG_20210404_101156
IMG_20210404_101205
IMG_20210404_101212
IMG_20210404_101221
IMG_20210404_101234
IMG_20210404_101241
IMG_20210404_101248
IMG_20210404_101259
IMG_20210404_101328
IMG_20210404_101336
IMG_20210404_101345
IMG_20210404_101352
IMG_20210404_101406
IMG_20210404_101412
IMG_20210404_101424
IMG_20210404_101438
IMG_20210404_101445
IMG_20210404_101450
IMG_20210404_101501
IMG_20210404_101507
IMG_20210404_101514
IMG_20210404_101526
IMG_20210404_101536
IMG_20210404_101547
IMG_20210404_101556
IMG_20210404_101613
IMG_20210404_101624
IMG_20210404_101632
IMG_20210404_101637
IMG_20210404_101649
IMG_20210404_101655
IMG_20210404_101700
IMG_20210404_101706
IMG_20210404_101721
IMG_20210404_101728
IMG_20210404_101734
IMG_20210404_101741
IMG_20210404_101809
IMG_20210404_101818
IMG_20210404_101826
IMG_20210404_101833
IMG_20210404_101845
IMG_20210404_101851
IMG_20210404_101857
IMG_20210404_101905
IMG_20210404_101920
IMG_20210404_101927
IMG_20210404_101934
IMG_20210404_101951
IMG_20210404_102007
IMG_20210404_102025
IMG_20210404_102032
IMG_20210404_102056
IMG_20210404_102105
IMG_20210404_102116
IMG_20210404_102126
IMG_20210404_102145
IMG_20210404_102155
IMG_20210404_102208
IMG_20210404_102219
IMG_20210404_102248
IMG_20210404_102255
IMG_20210404_102302
IMG_20210404_102307
IMG_20210404_102326
IMG_20210404_102334
IMG_20210404_102341
IMG_20210404_102349
IMG_20210404_102405
IMG_20210404_102412
IMG_20210404_102419
IMG_20210404_102426
IMG_20210404_102443
IMG_20210404_102450
IMG_20210404_102458
IMG_20210404_102503
IMG_20210404_102520
IMG_20210404_102528
IMG_20210404_102537
IMG_20210404_102550
IMG_20210404_102555
IMG_20210404_102603
IMG_20210404_102611
IMG_20210404_102628
IMG_20210404_102636
IMG_20210404_102642
IMG_20210404_102649
IMG_20210404_102704
IMG_20210404_102712
IMG_20210404_102719
IMG_20210404_102726
IMG_20210404_102742
IMG_20210404_102749
IMG_20210404_102756
IMG_20210404_102802
IMG_20210404_102816
IMG_20210404_102827
IMG_20210404_102905
IMG_20210404_102911
IMG_20210404_102921
IMG_20210404_102930
IMG_20210404_102938
IMG_20210404_102954
IMG_20210404_103000
IMG_20210404_103005
IMG_20210404_103010
IMG_20210404_103026
IMG_20210404_103033
IMG_20210404_103041
IMG_20210404_103049
IMG_20210404_103102
IMG_20210404_103109
IMG_20210404_103114
IMG_20210404_103119
IMG_20210404_103133
IMG_20210404_103141
IMG_20210404_103150
IMG_20210404_103200
IMG_20210404_103216
IMG_20210404_103223
IMG_20210404_103232
IMG_20210404_103239
IMG_20210404_103254
IMG_20210404_103302
IMG_20210404_103311
IMG_20210404_103321
IMG_20210404_103335
IMG_20210404_103343
IMG_20210404_103351
IMG_20210404_103359
IMG_20210404_103414
IMG_20210404_103420
IMG_20210404_103428
IMG_20210404_103443
IMG_20210404_103450
IMG_20210404_103458
IMG_20210404_103504
IMG_20210404_103519
IMG_20210404_103528
IMG_20210404_103536
IMG_20210404_103546
IMG_20210404_103557
IMG_20210404_103604
IMG_20210404_103613
IMG_20210404_103620
IMG_20210404_103634
IMG_20210404_103643
IMG_20210404_103651
IMG_20210404_103700
IMG_20210404_103716
IMG_20210404_103724
IMG_20210404_103738
IMG_20210404_103748
IMG_20210404_103817
IMG_20210404_103826
IMG_20210404_103836
IMG_20210404_103844
IMG_20210404_103909
IMG_20210404_103917
IMG_20210404_103925
IMG_20210404_103935
IMG_20210404_104011
IMG_20210404_104021
IMG_20210404_104029
IMG_20210404_104037
IMG_20210404_104054
IMG_20210404_104104
IMG_20210404_104115
IMG_20210404_104123
IMG_20210404_104142
IMG_20210404_104149
IMG_20210404_104156
IMG_20210404_104203
IMG_20210404_104218
IMG_20210404_104226
IMG_20210404_104235
IMG_20210404_104247
IMG_20210404_104302
IMG_20210404_104309
IMG_20210404_104316
IMG_20210404_104325
IMG_20210404_104342
IMG_20210404_104354
IMG_20210404_104405
IMG_20210404_104412
IMG_20210404_104428
IMG_20210404_104437
IMG_20210404_104454
IMG_20210404_104505
IMG_20210404_104518
IMG_20210404_104526
IMG_20210404_104534
IMG_20210404_104542
IMG_20210404_104635
IMG_20210404_104642
IMG_20210404_104653
IMG_20210404_104702
IMG_20210404_104718
IMG_20210404_104724
IMG_20210404_104733
IMG_20210404_104741
IMG_20210404_104753
IMG_20210404_104803
IMG_20210404_104812
IMG_20210404_104820
IMG_20210404_104831
IMG_20210404_104840
IMG_20210404_104848
IMG_20210404_104902
IMG_20210404_104920
IMG_20210404_104932
IMG_20210404_104944
IMG_20210404_104957
IMG_20210404_105010
IMG_20210404_105020
IMG_20210404_105031
IMG_20210404_105041
IMG_20210404_105110
IMG_20210404_105118
IMG_20210404_105128
IMG_20210404_105142
IMG_20210404_105207
Recommend Papers

Statistica Di Base: Come, quando, perché (Italian Edition)
 8838664102, 9788838664106

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Fulvia Mecatti ,

,

I I

r'

f

.•

come, quando e perché Seconda edizione '



I

McGraw-Hill Education Milano • New York • Bogoté • Llsbon • London Madrid • Mexico City • Montreal • New Delhi Santiago • Seoul • Singapore • Sydney • Toronto



'

'





Copyright © 2015, 2010 McGraw-Hill Education (ltaly) srl Via Ripamonti, 89 20141 Milano Mc Graw



Hill

Education

.

• .

.

.

I diritti di traduzione, di riproduzione, di memorizzazione elettronica e ·ru adattamento totale e parziale con qualsiasi mezzo (cdmpresi i microfilm e le copie fot ostatiche) sono riservati per tutti i P~esi. Le fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di

ciascun volume/fascicolo di periodico dietro pagamento alla SIAE del compenso previsto dall'an. 68, commi 4 e 5, della Legge 22· aprile 1941, n. 63.3 .



Le riproduzioni effettuate per finalità· di carattere professionale, economico o .o mmerciale

o comunque per. uso diverso da quello personale possono essere effettuate a seguito di specifica autorizzazione rilasciata da CL~ARedi,. Corso di Port~ Romana 108, Milano 20122, e-mail [email protected] e sito web www.clearedi.org. .. Nomi e marchi citati riel testo sono generalmente depositati o registrati dalle rispettive case • produttri.cL •

Eserciziario: a cura di Elena Siletti ed Emanuela Furfaro, Università degli Studi MilanoBicocca

Publisher: Paolo Roncoroni Acquisition Editor SEM & HSSL: Barbara Ferrarlo Produzione: Donatella Giuliani Realizzazione editoriale; Fotocompos S.r.l., Gussago (Brescia) Grafica di copertina: Feel Italia, Milano Immagine di copertina: Soflaworld Stampa; Ani Grafiche Battaia, Zibido San Giacomo (MI)





ISBN 978-88-386-6885-2 Printed in Italy 123456789AGBAGB098765

t ' '

t \: .l

) ).' . " i.

\ .• ,t '

I '. ·,

. '1 u! Il ' . '' t I

'li r';:; :\;,'t\' ·•. ',. • •'·'.\c:J.i!(·1:11 ·1 J·1",, O')\\~ I '

/

JI >'

,J, •.

f' \l."J :")·,..,\ •" e", x

li I

i

\• '

I

I I

)

ra come nell'esempio della temperatura; e altro ancora, come vedremo più avanti Dunque i fenomeni non sono tutti uguali e individuarne correttamente la natura è la premessa per selezionare gli strumenti statistici adatti all'analisi. Ecco perché nel prossimo capitolo impareremo (anche) a classificare i fenomeni statistici

i )

i

2.4 Analisi statistica di un fenomeno '

Una volta stabilito: .

'

• il fenomeno che interessa studiare, • la popolazione su cui interessa studiarlo, • le unità statistiche sulle. quali sono reperibili le sue diverse manifest azioni, .

trattare quantitativamente un fenomeno statistico significa condurre le seguenti fasL I. Osservarne le manifestazioni, c_ioè recarsi "fisicamente" presso le u nità statistiche per registrare le diverse manifestazioni del fenomeno. In quest o modo si creano i dati. Talvolta i dati sono già disponibili. (per esempio su Internet) oppure

provengono da fonti ufficiali (per ese_mpio il censimento decennale ISTAT della popolazione). Tecnicamente questa fase consiste nella rilevaziQne di X su U (Capitolo·3). 2. Organizzare il risultato della nleva~ione. Il risultato della rilevazione è in genere insieme confuso di N più o meno diverse manifestazioni x di X. Dunque, soprattutto quando la popolazione è numerosa, cioè quando N è grande, il risultato è piuttosto inutile se non lo si organizza attraverso tabelle e grafici in modo da renderlo più leggibile. In linguaggio statistico questa è la fase della strutturazione dei dati mediante la costruzione di variabili statistiche e di distribuzioni di frequenza (Capitolo 4). 3. Elaborare i dati strutturati. È qui che inizia l'analisi vera e propria del fenomeno una volta concluse le fasi preliminari di rilevazione e strutturazione dei dati. L'obiettivo è quello di far emergere più chiaramente dai dati le informazioni che interessano e di comprendere i meccanismi che determinano le diverse manifestazioni del fenorneno su quella popolazione, cioè il suo variare. Tee .. nicamente si tratta di sintetizzare i dati attraverso la costrr1zione di indici e v alori sintetici e di studiarne le eventuali relazioni (statistiche) con altri fenomeni. Faccio notare, e tornerò su questo punto anche più avanti, che ho aggiunto l'attributo statistiche al termine relazioni p er enfatizzare il fat t o che

un



I

\

Defin;zioni e notazione 4 ': 0lò it C' a p

-

-- �- ---� --'

I

j



'



I..

o

'

J

• '' •• , ' ,

• >':·

j O• •...

.. ,•

I



I



n i



I,

• •

a , , ca

1n1z1

l

t

-

-- --

-

• t

Il rtsultat della rilevazione (co111pleta) del fenomeno X sulla popolazione U è un in ·eme di osservazioni. Ciascuna osservazione coincide con una (e una sola) delle k di,,erse modalità x1 previste dalla scala utilizzata. Quando N è un numero gronde, diciamo > 5 (il che è di solito quello che accade) il risultato della rilevazio,ne è, � occhio"', un insieme confuso di N modalità x1 di X che non aiuta o aiuta pochis­ simo al raggiungimento del nostro scopo, cioè la descrizione del comportamento di su u. In uno studio sul C·Omponamento sessuale degli studenti e delle studentesse universitarie italiane, è stato chiesto a 60 soggetti di entrambi i generi di dichiarare il numero di partner sesruali degli ultimi 12 mesi, ottenendo le seguenti 60 risposte: •

3 1 6 7 4

6 2 7 5 O

O 2 7 6 6

8 7 2 1 4

5 8 O 6 5

2 1 4 6 2

O 3 2 O O

4 2 O 1 2

3 6 O 8 1

I 2 1 O I

6 3 3 1 4

1 O 3 2 O

Abbiamo .allora:

U: gruppo di studenti e studentesse universitarie italiane N == 60 X: p11mero di partner sessuali degli ultimi 1 2 mesi Il fenomeno X è q11an.titativo discreto, e infatti si rileva contando; le sue modalità · f sono i nume · interi O, 1, 2, ...; la scala delle modalità è quantitativa rappono. La tabella riporta il risultato della rilevazione di X su U e si presenta come un insieme di N = 60 numeri interi., ingestibili �a occhio». Semplicemente guardando la tab lla non i riesce a dire nulla di informativo circa X su U, cioè riguardo al comportamento se Sltale degli studenti e delle studentesse osservati. 1

Il risultato della rilevazione fornisce i cosiddet i d g zz . 'an t · . l statistica procede per sintesi successive: l'obie ivo è far emergere via vi dai dati, a ogni livello di sintesi, informazioni utili a desc ivere e spiegare 11 omportarnento di X su U. La pnma basilare sintesi consis e nel dar una scruccura i dati grezzi, organizzrndoli in tabelle e grafici in modo da renderli plù leggibili . I termini tabelle e grafici fanno parte del comune linguaggio della conver­ sazione. :1n linguaggio tecnico noi parleremo dt dls ribuz lone di frequenze e variabili st atisticlie.

l, �

-

-

.

ES E. M;P f01 4�1I_ :: :. ·: Sesso e universi à

26

Capitolo 4

4 . 1 D is tr i b u z io n e d i fre q u e n ze e v a ri a b ili _s ta ti st ic e h Effet tu an do la se n1 pl ice op er az ion e di co nt eg gi o de lle m od ali tà di x che si ripetono in U, i da ti gre zz i ve11go110 organ izz ati in un a tab ell a. ., .,� • •,� '-' .•:,,.,,,._._ � '. 'l'� .t',.-,-'"'••\\·' ��·,, » 'I¼ ' '·''\,,". '\·,,, ."--"\'.,-. . , _,..,--' ·, \' '11 J.,, ·"',' �',-,,�.,'_ '',..'. ''. ·',' � . '. . �,··�, � - .• ,. ,,-� .,..._ ,.·--·, Il ., �" , . · · ., ,, tK· "\ , � 1 ' l '\' .� -1.·�--I

,,,. ·.· ,: ES' EM' p· 10·· 4 · "·1 ·

1 ;,,.\' l.·11.-, ·,· t\ ' ' . �,;-�;-.... ��-, �t.:· 1 \,·1 · , .,, t \-· � ' ..., .."'� - ' l' ,'.., . , . . . l . ,.�,\ ' .., .. .' . . "' . '' , ' � , � : · .-.--: ·': -� � �'f ... .._ · · '.·1, · ,_' . · -, ..-- -..\.., '-\ \ · . � .' , ) ' � ' . ,\. ' .· \ .

Sesso e università (cont-ì nua)

U: gruppo di stttdenti e studentesse universitarie. Italiane N == 60 : numero di partner sessuali degli ultimi 1 2 mesi

I tr,.

Dati grezzi

3 6 O 8 5 2 O 4 3 1 6 1 1 2 2 7 8 I 3 2 6 2 3 O

6 7 7 2 O 4 2 O O 1 3 3 7 5 6 1 6 6 O 1 8 O I 2 4 O 6 4 5 2 O 2 1 1 4 O

con k = 9 differenti modalità x, Osserviamo che, nella V di interesse, X si manifesta ' coincidenti con i numeri interi da O a 8. Contando il numero di volte in cui ciascuna modalità X; si ripete in U, il risultato (confuso) della rilevazione, cioè i dati grezzi, si struttura,10 nella Tabella 4. 1. I dati sono ora più organizzati e meglio leggibili. La Tabella 4. 1 consta di k = 9 righe (più una �he riporta il total� dei soggetti osservati) e di 2 colqnne. Nella colonna di sinistra appaiono le modalità x, osservate in U. Nella colonna di destra è riportato il O\lmero di volte in cui la corrispondente modalità X; è stata rilevata in U, che si ,chiaima frequenza assoluta di x1 • La somma delle frequenze (assolute) riproduce la nur11erosità N di U. La colonna di destra costituisce la distribuzione di frequenze di X su U.. ,, L'intera tabella, cioè il complesso delle k coppie ltmodalità, frequenza prende il nome di variabile statistica. Tabella 4 . 1

o

11 10 10

I 2 3 4

.

5

6 7 8





' •

'

.

6 5 4 7 4 3



Totale 60



'

Definiz.i one •

,

Definizione •

I



Con l'aiuto .dell'Esempio 4. 1 ttSesso e università» abbiamo introdotto tre lmportanti concetti che ora riprendiamo for11..1almente (e ne impariamo anche la notazione).





Studenti/esse

N. di partner .



� distribuzione di frequenze (assolute) si costruisce per conteggio e consente di organizzare i . dati grezzi in una forma tabellare:

Distribuzioni dì frequenze, tabelle e g rafici '



27

.

Frequenze (assolute)

t





,i lr.i

f1

'1

: Distribuzio11e di frequenze (assol ute)

:

'"k fk



I

N f- Somtna delle frequenze (assolu·te) (riproduce la nu1nerosità N di U)

•.

f

[

!

I !

,

da a ue, secon dunq X e eno fenom il fare con che a ha c X lità moda delle nna colo La della natufa del fenomeno e della tipologia di scala utiliz zata, può contenere attri­ buti, categorie, numeri o intervalli. La colonna delle frequenze (assolute) f, ha invece nze freque Le U. zione popola la con e dunqu e iche statist le unità con fare che a (assolute) sono sempre numeri interi e � O e con somma pari a N,_ qualunque sia i (una categoria, un numero o un à x modalit ndente corrispo dalla assunta forma a l intervallo). Il complesso della tabella costituisce la variabile statistica (detta anche serie o seriazione statistica).

Definizione Le modalità (a questo punto dovremmo averlo capitai) possono avere natura varia mentre le corrispondenti frequenze (assolute) sono numeri interi positivi o nulli la cui somma riproduce la numerosità N di U. In formule: v.s.

=

(x;, {;) ,

i = l , . . . , k, .

k

E {; = N

i= l

Da questo punto in poi v.s. significherà per noi tvariabile statistica" ; con X indicheremo indifferentemen�e sia il fenomeno oggetto d'interesse (prima di essere rilevato) sia la corrispondente v.s. (dopo la rilevazione e la strutturazione dei dati grezzi) Attenzione: il passaggio dai dati grezz alla v.s. ci ha portato il vantaggio di rendere i dati più organizzati e più leggibili -a ci ha fatto perdere l'infor1r1azione circa l'ordine in cui i dati sono stati rilevati. Questo è· ciò che succede nell'analisi 1

statistica: a ogni livello di elaborazione da un lato si ottiene di far emergere dai dati più chiaramente un qualche aspetto del comport.amento di X su U, ma dall'altro ila sintesi necessaria a ottenere questo comporta una perdita di informazioni. Nell'Esem­ pio 4.. 1 -Sesso e università" possiamo permetterci questa perdita perché l'ordine di rilevazione è ininfluente rispetto al comportamento di X su U. Ci sono casi in cui l'ordine di rilevazione costituisce una fonte importante di informazioni sul fenome­ no d'interesse e pertanto la costruzione della distribuzione di frequenze ·e della v.s. non è opponuna o non ha senso: ne vedremo un esempio nel Capitolo 8. Le fr,equenze (assolu ) non sono l'unico tipo di frequenze costruibili.

4.2 Frequenze · elative e percentuali -

Lo studio sul componamento sessuale degli studenti e delle studentesse universitarie itali�ne (vedi Ese_mpio 4f 1 "Sesso e università•) aveva anche lo scopo di confrontare soggetti iscntti � laur�e diverse. La Tabella 4.2 si riferisce allo stesso fenomeno X: numero di partner sessuali degli ultimi 12 mesi., ma rilevato presso 40 soggetti ambosessi iscritti a Sociologia e presso 28 soggetti ambosessi iscritti ad Architettura.

ES'EMP O..�4,.. i_ 2, ·· . . .. ,,···"·

·1r· , .·,:-;�...,.-,...... .,.)·"'....·,., , i-Ì· , !t:,.l .-�. , \·t · r ·';" , ,-�.·l"''" �\. ..'',"-, tt-L

· 1 ,1 � - ,1 1·.. · ,'� . · \· , ,, '· ' ·. •··� ' • !. ,. ..., .. ":.) . ., t \• .· ',., , ! i. , :-i".· � 11 t•.,14,..•r .;,\\- :1,..,••,.,• .;.,,· !. f�,1....��,'·1 I .. . ' . 1 , . . ,,·,, .. . •,.,,_

., . ,,· 1·' 11.I

loro somma è pari a 100. A livello di analisi statistica è preferibile lavorare con le frequenze relative Ml.Ziché con le percentuali per semplificare i conti tttogliendo 2 zeri"; a livello di in­ terpretazione e comunicazione dei risultati è conveniente passare alle percentuali, generalmente più comprensibili anche ai non-statistici. La colonna delle frequenze relative p1 costituisce la distribuzione di fre­ quenze relative di X su U. Con la costruzione della distribuzione di frequenze relative abbiamo effettuato

un'ulteriore sintesi dei dati che ora sono maggiormente informativi riguardo al peso che ciascuna modalità x1 ha in U. Inoltre, la distribuzione di frequenze relative è confrontabile fra popolazioni con dimensioni diverse. L'informazione perduta con questa ulteriore sintesi è la dimensione N di U. Nell'Esempio 4.2 "Sesso e laurea" se sappiamo che i soggetti che dichiarano 8 partner negli ultimi 1 2 mesi sono il 2.5% a Sociologia e lo 0% ad Achitettura, sappiamo qual è la quota di soggetti ses ualmen te più attivi nelle due lauree, in particolare sappiamo che a Sociologia ce n. sono 2.s su I 00 mentre ad Architettura non ce ne sono; per contro, non sappiamo iù quanti sono gli individui intervistati a Sociologia e quanti ad Architettura. Frequenze assolute, frequenze relative e percentuali sono costruibili per qua­ lunque tipo di fenomeno X. Quando il fenomeno di interesse è almeno ordinale

30

v..,,,

Capitolo 4

7'

,

(cioè qualitativo ordi11ale oppure quantitativo) possiamo aumentare il livello di a11alisi e costruire u11 ulteriore tipo di distribuzione di frequenze.

f I,



.

!

4 . 3 Frequenze cumul ate •



è al111e110 ord inale è ttna buona pratica costruire la v.s. ordinando i11 se11s0 c1..esce11te le 1nodalità osservate, partendo dal minimo x 1 e arrivando al '

Quando

I

n1assin10 xk ctoè

Questo è ciò che d'ora in avanti supporremo (ed è anche quello che fa automatica1nente il computer). Ci capiterà anche di indicare x 1 con Xmin e xk con Xrrlax· La possibilità di stabilire un ordine oggettivo e universale fra le mòdalità di X è utile all'analisi statistica e consente di porsi domande come: quante sono le unità statistiche che, fr·a le N osservate, manifestano una modalità non più grande di (cioè al più pari a) una certa X;? E quante quelle che manifestano una modalità non più piccola di (cioè almeno pari a) una certa x1? Si tratta di sommare, tecnicamente Si dite cumùlare, le frequenze associate alle modalità inferiori (più piccole) di � costruendo le frequenze cumulate. Ovviamente possiamo cumulare le'frequen­ ze assolute ma anche le frequenze rèlative (o le percentuali). Indichererrto, con F1 le frequenze èumulate ass9lute e uSeremo la lettera greca �hi" maius�olo ( 4 = 1 - O . 75 = 0 . 25 (25 %) tò fra popofron tl con o he ton anc 1s�n ) co1 lute asso le n (no tive rela te ula cum e 112 · "eque Le 1r ..i f equ e �ze cum ulat e anc h e e l:.li zion ribu la dist o lam stru Co rse. dive ità �_ eros num dt _ Iazioni _ · . 5) 4. la el ,, ab a (T ur tt ite ch Ar ad ti rit isc 28 i per

\

I

I f



t

U1 : Arcl1itettura f,



10

o 1

7

2 3

I

4

7 8

0 . 357

17

0. 607

22 23

0.786 0. 822

0.250

25

0. 893

0.000

25

0. 893

1

o

0.036

0.07 1 0.036 0.000

27 28 28

0 . 964 1 . 000 1 .000

1 .000

Anche per U2 ci poniamo le due domap.de: quanti sono, fra i 28 osseivati, i soggetti che dichiarano non più di 1 parmer sessuale negli ultimi 1 2 . mesi? E quanti sono quelli che dichiarano almeno 4 partner sessuali negli ultimi 1 2 mesi? Rispondiamo usando la distribuzione di frequenze cumulate (assolute e �elative). P·er il prtino quesito: Freq. (X 5: 1)

Per il secondo quesito:

= F2 r= 1 7 e Freq. rel.(X � I) = '1l2 = 0. 607 (60.7%) = N - Freq. (X � 3) = N - F4 = 28 - 23 = 5

Freq. (X � 4)

Freq. rel. (X 2: 4) 1

10

0 . 07 1

28

1

. 0.357

2 •

'

I

0. 179

2

6

F,

5

o

5

P,

Tabella 4.5 Distribuzione di frequenze cumulate per g l i iscritti ad Architettura

= 1 - 4>4 = 1 - 0. 822 = 0. 178 ( 17.8%)

Infine, decidiamo di definire usessualmente moderato• chi dichiara non più di 1 parmer negli ultimi 12 mesi e •sessualmente scatenato" chi dichiara almeno 4 partner negli ultimi 12 mesi, e ci chiediamo in quale delle due popolazioni è maggiore la quota di individui » quelli \tsessualrnente scatenati . ·sessualmente moderatt• e in quale è maggiore la quota di Siccome dobbiamo confrontare, usiamo le frequenze cumulate relative: •

U1 Sociologia

Freq. rei. .X < - l'' 47.5%

Freq. re . .X � 4:

U2 Architettura

60,1%

1 0.7%





moderati

22.5%

scatenati

Concludiamo con un paio di osservazioni formali, Dagli esempi abbiamo capito come si calcolano le frequenze cumulate (assolute, relative o percentuali). Era la prima, ma probabilmente anche una ·delle ulti .e volte, in cui ci siamo trovati a costruire eta mano" distribuzioni di frequenze: s orchi lavori manuali come questo



• '



32

Capitolo 4

spettano oggi ai computer. Quello che distingue una persona prep�rata in Statistica e consapevole di ciò che fa e sa (noil) da chiunque smanetti al calcolatore, sono proprio osservazioni come quelle che ci accingiamo a fare. Per compilare le colonne del le F, e delle , negli esempi, bbiamo sommato le frequenze (assolute o relative) di tutte le righe precedenti. e lo scriviamo in formule otteniamo la defl11izione formale di frequenze cumulat





r

Defi n i z i o n e

Il trucco è fare molta attenzione agli indici delle sommatoriel Ecco due proprl�tà delle frequenze cumulate. •

Proprietà

I

II

l.'

t

'• •

.



t







• •





Queste ultime formule· hanno a che fare con il metodo usato dai computer per sommare serie di numeri, come è il caso delle frequenze cumulate: non conviene ripartire sempre dall'inizio (la definizione) ma si utilizza il risultato ottenuto al giro precedente (la proprietà 2): Tecnttarriente si tratta di formule ricorsive. Un discorso a parte va poi fatto per i fenomeni quantitativi continui . .

4.4 Densità di frequenza Limitiamo ora la nostra attenzione ai fenomeni quantitativi continui.. Se X è con­ tinuo le modalità x, sono intervalli. Questo ci costringe ad affrontare due aspetti strategici per l'analisi statistica di questq> tipo di fenomeni. La v.s. ci inforrna eh al generico intervallo X; : x1 � Xi appanengono f, unità statistiche. E questo tttt

-

-

.

'

Distribuzi oni di frequenze, tabelle e grafici

I !



ciò che sappia111ol Non sappiatno esat ta1ne11t 1,-1 q11ale fra gli t n fl n l t l pu nti che a p­ part engono all'intervallo si posiziona ciascuna d llr f, unità statist ich e che cadono in xi : x, 1- Xr. . In tern1tnt più t ente!: la dist ribuzione di fr quenze a l l 'lncerno degli intervalli è ign ota. - - -

t

t

33

-

-

--

La Tabella 4.6 riporta. 1·asp ttativa di vit a alla 11asc:ita (espressa in anni) del 1 8 2 f'aeSl ' . coin olti nell'HDR 20 1 -. r! Anni

4 l- 5 5

Paesi

13

55 I- 60 14

75

60

93

75 r- 80

80 l- 84

37

25

·I , , ; ., i":,\l :'E!s·.1_. E·, M

1 l '. · : tl·.ll·lI" ,,! Jf.-_';..:..'i:(1" i \:,. ' .,i.�,, ,,�(1' . ,>:,/·� � ,

·

f

l

. ' I� ' �, ' . F .·. . , ' . ,(41 ' ,

l 111/I;, ,, lj �!·. • . : ' , ,•.. . , , I).• .,•,,, I' 1 ' ' :11'·1 ','· , ' ' •, f 1 •O ,. , ,111 • • ' , ' I. . ' :, .l fo' . ' 1' , , ,1 ' ' , ,, ' . 1 ' ', •' 1,p ' l_f' ' I o, I '•,. •, . . ,, ..• ' ,· J, >',I 11' d ' : ' ., ' - •. , : • ' . ,, . , 1 � l, .'· �· 1,,,.l I, ;l.111 , · ·.l j

,··�l



I" '

Asp ettativa di

vita

Tabella 4.6

l\�ax: Giappone 83.5. Min: Sierra Leone 45.6. Italia: 82.3. Fonte: Hun1an Development Report, Programma. di Sviluppo delle Nazioni Unite, www..undp.org. • I

• t



U: paesi coinvolti nell'HDR 2014

N = 1 82

X: aspettativa di vita alla nascita (in anni)

k=S

, Anche senza chiederci se X sia discreto o continuo, le modalità si presentano come in­ tervalli, dunque va uattato come conti�ud. Prendiamo, per esempio, i 13 Paesi con un'a­ spettativa di vita compresa nell'intervallo 45 l- 55. Sappiamo che essi cadono in questo intervallo, ma i dati di cui disponiamo non ci dicono quale sia esattamente (puntualmente) l'.aspettativa di vita di ciascuno dei 13 Paesi. Questo vale per tutti i k = 5 intervalli. La disrribuzione di frequenze all'interno degli intervalli è ignota. Siamo di fronte a una mancanza di informazioni che può rappresentare un ostaco­ lo all'analisi statistica. Ogni volta che ci si trova in situazioni di questo tipo, per

superare l'ostacolo si ricorre all'emissione dj ipotesi in sostituzione delle inforrna­ zioni ignote. Nessuno e nessuna sofisticazione matematica ci può as�icurare che quello che decidiamo di ipotizzare, in mancanza di informazioni, sia vero o vicino alla realtà: le infor111azioni mancano in ogni casol Si può però richiedere che !�ipotesi adottata sia ragionevole, cioè argomentabile, sostenibile e convincente. Nel nostro caso adottare un'ipotesi significa proporre un modo per ripanire la ft fra gli infiniti valori dell'intervallo x1 : x1 r- xL . Due sono le ipotesi comunemente (e convenientemente) emesse. \,,

I. Ipotesi del valore centrale. L'obiettivo è qui di assegnare a ciascuna delle ft unità statistiche che cadono nell'intervallo x1 : x1 l- xL un unico punto, interno all'intervallo stesso. Il principio adottato è in medio star virtus (ma nei vari contesti applicativi vi sono anche altre ragioni statistico/matematiche). Il metodo consiste nell'associare tutte le f, al valore centrale dell'intervallo� Il valor.e centrale di un intervallo è la semisomma dei suoi estremi, Indicheremo il valore centrale di un intervallo con l'asterisco:

Riprendiamo i dati sull'aspettativa di vita degli N = 1 82 paesi coinvolti nell'HDR 20 14 e adottiamo l'ipotesi del valore cenuale (Tabella 4.7). Con l'ipotesi del valore centrale si ipotizza, per esempio, che 1 1 3 Paesi che cadono nell'intervallo x1 = 45 l- 55 abbiano tutti un'aspettativa di vita pari a xi = 50. Questa interpretazione vale per tutti gli intervalli. Adottando tale ipotesi cl siamo ricondotti a una v.s. discreta (le 2 colonne più a destra della Tabella 4.7).

i1··1·,.· ·1. ,.. ·,. ,:.. ·1 · • ,

"...:.· "1·.d�/A . �· - 1 ·' E S E' _,. ; , ·"·'3 · O · .·· . .- 1· . \I

• " I !

.,

H ,,:f, : , - � : t'' -� ·i· � /"-, , ..,�I :,_ • • ,�) j·\: �, ,! ,�• �� '•' i\,• , ' • >,. ' k '" ,. \ --:·• ·)\1 ,\·.. • 'I > 1 .., '\ \ ' t 'I ' ' \'. • \i •,· ,'... '1 \'• ;' \. ).:...\\ �1\.),.'., · , . . ·1 ·· · ·' o·}i �o'h, i.,' < . • \ · , 11.'l 1' • , .. · -,. ,,4.. 1 , ., ,. \ t· ', ,,, J' l.!i ;, , ,, .... ,' , , :-,,_ < • , f ' . , ,, �, .

,,

,


55 12

18

30

ft. 40 60

100

Tabella teorica di i.s·. X

F

r,

M

fS 34 40 X 1 5 1 00

9

15

=6

35 H 54 40 X 55

100 33 55

> 55 -

Coppie conviventi (continua)

{;,

-

= 22

12

18 30

40 60

1

100

1 La tabella osservata coinctde con la tabella teorica di indipendenza, come conseguenza del 1 fatto che la condizione di indipendenza statistica è verificata. St conclude, allora, che X

e Y sono statisticamente indipendenti: nella popolazione osservata, fra genere e età non si evidenzia alcuna relazione statistica.

La seguente tabella osserv ta ripona dati ufficiali (semplificati) da Repubblica del 3 1 ago­ sto 201 3 integrati con dati lmalaurea 2013, relativi alle 7058 scuole secondarie di Il grado italiane,. statali e non, classificate rispetto alla tipologia e zona geografica. Formalmente: U: collettivo delle scuole secondarie di II grado N = 7058 X: tipologia Y: zona geografica

··' ,\�. ·1·''o'.;r.·�·-•I·•,.i.•· -�.. E. .·se ( ' ; •' :M , . '•p."·1·0

,. - r -I ·· '·l ·�\. '· · .f· · , ... ,. .•. . •..\\, ,t"I· . . 1·· ·,: '-, ;, _.\ ,,-,11 , . . ··,·\..•; - ., .1· ·,·�T\ � · ' .. .,. ' ,. I . -� , � , _ 1· l;4 '. · ì�.l,·�·;,, .,, '''\' I.-, \q,,,1··,'...,n·: ' ' . . _ '.! •t . ' ,.,, '_ ;.,,,·t·, . . 1 _· ,...,1,,,:) . ,. , .: , �. :'1 ' ' _ , . . .. 'r1 l ·· j' . · - • •' · • - ti· •· .,; " ••'lr J . · . .I',JJ..' . I' , \ . J " , I·• ' \i., 1,1.i,h,,f,,,. fv.J�... ' , • ·t- • "' t , 1� ·- f1 •• . ,htr• _,(""" I' ' '; J•

I

.

j

l

I

\.

'.r

,

"

-

·r

\, '

I • '

• ' ! '' 1 .

I_ ;



.

'\ '

•!, :•

'

'

'

,

::-...

' • ,_., :--:" '� ) · , '·'' ' !\'•: i " 4 • ', ' :ti · 1

Scuole d'Italia

118

Capitolo 10

All'interno della tabella troviamo le frequenze congiunte osservate •

r,, ,

i = 1 , ... , k

j = 1 , ... , h

e la tabella è quadra ta perché ha lo stesso numero di righ e e colonne

k=h=3

l:3- tabe!la teorica di 1 .s. è invece ottenuta applicando la formul� delle frequenze teoriche d1 i.s. '" n1antenedo fisse le frequenze marginali ft. e

r,

Tabella osservata '

y Nord Centro Mezzogiorno

X

Licei Tecnici Professionali

r,

.

3444 22 1 1 1403 7058

1513

926

648 3087

,3444

I

Centro

Nord

X

Professionali

1257 674 909 376 508 246 2674 1 297



Tabella teorica di i.s.

. '·

Licei Tecnici

.

h.

X

2674

.

=

Mezzogiorno . IrI.

3444 X 1 297

1304 , 7 ---- = 632,. 9 7058 7058. 406, 4 837, 8 53 1 , 5 25 7, 8 2674, 0

1297, 0

1506, 3

967, 2

3444 22 1 1

� 1 3, 5

1403

3087, 0

705 8

Le due tabelle non coincidono, cioè le frequenze congiunte osseivate non sono tutte uguali alle freq1:1enze teoriche di indipendenza statistica. La condizione di indipendenza statistica

· non è verificata e dunque X e Y non sono statisticamente indipenden9. L'evidenza empi­ rica è allora che fra tipologia e zona geografica nelle scuole secondarie superiori italiane rilevabile.. c'è una qualche relazione statisticamente .

Concludiall1o sull'indipendenza statistic·a con un paio di osservazioni. I.

Proprietà •

'

Per stabilire se Xe y sono Statisticamente indipendenti si utilizzano solo freqizen­ ze (condizionate, marginali relative, congiunte osservate e teoriche). Ecco perché

questo tipo di analisi è possibile per fenomeni di qualunque natura, sia qualitati­ vi sia quantitativi (categoriali, ,ordinali, discreti o continui). Nei Capitoli 1 1 e 12 introdurremo, invece, strumenti di statistica descrittiva bivariata che, utilizzando anche le modalità x, e y1, devono essere numeriche: si tratterà quindi di metodi statistici non applicabili a coppie di fenomeni qll:alitativi. Se si conclude che X e Y sono statisticamente indipendenti, l'analisi statistica bivariata è terminata. Che senso avrebbe analizzare una relazione che non esiste?

Indipendenza, connessione e asso ciazio ne

-. . . "� .. . ' ..

.. ' .: ..

. • .... • \

119

..

.'

10.2 Connessione Se si conclude cl1e e Y no11 s0110 statistica1nente indipendenti (perché non è ve­ onate . la condizi a condizione di i11dipe11de11za le frequenze cat r.ur statistica t e stt ifi r oppure, equivalenten1ente) percl1é 11011 1.utte le (requenze congiunte �ono uguali alle frequenze teoriche di indipende11za e, dunqtte, la tabella osservata differisc e dalla tabella teorica di i11dipendenza.) al ora fra X e y 'esiste un·a qualche relazione statistica. Diremo che e Y sono conn ssi e indicheremo �on il termine connes­ sione una generica relazione statistica1 ente rilevabile in una coppia di fenomeni osservati sulla U d'interesse. Il passo successivo nelltanalisi statistica bivariata consiste nello stabilire se la re­ misurare cioè o debole, e è forte fra Y X la zione che è stata (statisticamente) rilevata 1 il grado di connessione. Può succedere, infatti, che una relazione statisticamente rilevabile possa essere però debole e; quindi, poco significativa nella pratica, non meritevole di essere approfondita. L'intensità della connessione è tanto più elevata quanto più la tabella osse�ata (che contiene i dati rilevati nella realtà) è lontana dalla tabella teorica di indipenden­ za. Il metodo più utilizzato (e più intuitivo) per misurare la connessione consiste, allora, nel considerare la differenza fra le frequenze congiunte (della tabella osser­ vata) e le frequen-z e teoriche di indipendenza statistica, cioè quelle che avrebbero dovuto osseroarsi se X e Y fossero statisticamente indipendenti. Partiamo allora dalla differenza:

tj - {;j

Se fra X e Y esiste indipendenza statistica, cioè quando tabella osservata e tabel­ la teorica di indipendenza coincidono, tutte queste differenze sono nulle. Quando non sono nulle� possono essere vicine o lontane da O. Se queste differenze sono vicine a O si conclude che la connessione è bassa, cioè esiste una relazione de­ bole fra X e Y e, quindi, i due fenomeni sono si connessi ma si influenzano po­ co l'un l'altro. All'aumentare del valore di tali differenze si ha connessione sem­ pre più alta, èioè una relazione forte fra X e Y, indicativa che i due fenomeni si influenzano sensibilmente e hanno, statisticamente mQlto a che fare l'uno con l'altro. In una tabella a .doppia entrata con k righe e h colonne sono calcolabili k x h differenze di questo tipo (tante quante sono le sue celle) e tali differenze possono ,essere positive o negative. Ai nostri fini, cioè per misurare la connessione, non interessa il segno (+ o -) di queste differenze ma solo quanto sono grandi. Servono allora due accorgimenti forinali: 1. ,e liminar,e il segno;

2. sint-etizzare in un unico indice tutte le k x h differenze. Sappiamo -che si può risolvere il problema I in due modi: con l'operazione di valo­ re assoluto 1 ft, - f,j I (che significa trascurare il segno) oppure elevando al quadrato 2 si pari -T"tengono potenza sempre valori positivi). a elevando (perché ftj) (ft, Matematicamente è più complesso trattare con il valore assoluto che con il qt1adrato e questa è la ragione per cui in Statistica si preferisce utilizzare l'elevamento a quadrato (e non solo in questo caso: ne abbiamo già parlato nel Capitolo 6 e ne parleremo ancora nel Capitolo 13). Al problema 2, statisticamente si risponde calcolando una media. Ora siamo pronti per introdurre la misura di connessione più nota e più utilizzata., che ha un simbolo standard: la lettera greca chi x elevata al quadrato per ricordare

120

Capitolo 10

che si utilizzano i quadrati per eliminare l'influenza dei segno. Coi:ne al �olito vedi.una _ pruna la for111ula (cioè la definizione) e poi spieghiamo da dove salta ftiori.

Defi n i zione

, .. •

Perché con questa form ula si misura la connessione? Guardiamola pezzo per pezz o. Se tu tte le differenz e fi/ - ftj (elevate al quadrato o meno) sono uguali a o, cioè quando X e Y sono statisticamente indipendenti, l'indice di connessione risulta X2 = O perché sommando tutti O, divisi per qualunque cosa, si ottiene sempre o. Quanto più grandi sono �e differenze fr, - t,* (ed elevandole al quadr to diventano 1 ancora più grandi) tanto più elevato sarà il valore dell'indice x2 • La ragione per cui si con siderano poi i rapporti ; 2 lJ . . (ftt�· - rr�)

;

• .

hj*

2

anziché semplicemente (fij - fij) è pura convenienza teorica, divent�rà più chiaro nel prossimo paragrafo e lo vedremo anche nel · Capitolo 19. Notiamo che nella definizione di x2 appaiOno le frequenze teoriche 'r,_f . Allora per calcolare. il x2 applicando la definizione è necessario costruire l'intera tabella teorica . di i.s. Esiste anche �a f�r1nula alternativa per il·calcqlo d�l x2 che non coinvolge. le frequenze teoriche ed è penante calcolabile a panire dalla sola tabella osservata. I I

Defi n i z i one

.

La formula alternativa è quindi più veloce quando si fanno i conti tta mano" anziché

e.o n il computer. �e due for1nule sono equ!valenti, cioè applicando la definizione (dalla quale si capisce be_ne che si sta misurando la connessione) oppure applicando la formula alternativa (che invece sembra più una formula magica) si ottiene lo stesso risultato. Lo vediamo con un esempio e poi lo dimostriamo. »

Sc�é d'Italia 10 •

o

14

14

16

> 60

I

10

o

16

14

35

o

5

21

,

i

Non c'è bisogno di fare grandi calcoli per co11cludere ché r,} "'= 1 . Su �gni riga (cioè , guardando le v..s. condizio11ate Ylx,) c'è u11a sola frequenza congiunta diversa da o. Al­ lora tutte le varianze condizionate cr?ix, (cioè le varianze calcolate sulle singole righe) sono nulle e la varianza NEI (che è la media delle varianze condizionate) è a sua volta pari a O. Allora. Y dipende perfettamente da X, cioè nel gruppo di soggetti osservati l,età spiega roralmenre la tendenza a twittare più o meno di 1 O volte in una settimana: ·se il soggetto ha meno di 25 an i ne invia di più altrimenti di meno. In questo senso «a ogni modalità del fenomeno con izionante corrisponde un'unica modalità del fenomeno con­ dizionato". Vi faccio notare he questa tabella, oltre che di perfetta dipendenza di Y da X, è anche di massima connessrone fra X e Y. Il che è. molto ragionevole e lo riprenderemo nel prossimo capitolo quando parleremo di implicazioni matematiche e statistiche fra le varie relazioni fra variabili che abbiamo imparato. Consiglio comunque di calcolare il x2 di questa tabella e verificare che coincide con il x2 massimo (eventualmente, rileggere il Capitolo 91)._ i•



Tutto quello che abbiamo detto a proposito della dipendenza di Y da X vale anche se si invene il verso della dipendenza. Si tratterà di fare gli opportuni adattamenti nella notazioµe e nell'interpretazione perché le due analisi di dipendenza (di Y da X e di X da Y) sono condotte separatamente. Quando anche X è quantitativo, l'indice di dipendenza di X da Y è definita comJ segue. . I

Defi nizione



A differenza della connessione che è un legame biunivoco fra 1 fenomeni (in accor­ do logico con l'osservazione che abbiamo fatto ·nel Capitolo 1 O circa la simmetria dell'i..s.) la dipendenza è invece una relazione statistica univoca (e infatti abbiamo il verso!). Se, per esempio, Y è i,m. da X, non è necessariamente vero che anche X è i.m. da Y. Anzi, in teoria sono costruibili tabelle in cui Y è indipendente in media da X e allo stesso tempo X è perfettamente dipendente da Y (o viceversa).

Un esempio di tabella di questo tipo è il seguente. - -

-

- -- - --�

� -� - -

Osserviamo la seguente tabella (dati inventatil) e proviamo a fare un pò' di conti.

X

30 40

r,

y

5 10

o

10

Indipendenza i n media

6

o

15

15

10

11

o

10

15

15

o

10

f,.

20 30 50

di un fenomeno dall'altro

Capitolo 11

146

Guardiamo prima le rigl1e, cioè le v.s. condizionate Ylx, con k

y_ 1 X l y_ 1X2

y

=

4 I:, �

/= 1

=

1 � I' ,r � Y11 1/ 1 1 . /= 1

=

6

YJf.J

X

15

5

=

+ 10 X

10 + 1 1 20

X

15

=

10 + 6

X

X



=8

=8

30

5

10

X

= 2:

1 5 + 10 X 15 + 1 1 X 10 =B 50 .

Med ie condizionate e media marginale sono tutte uguali; allora Y è indipendente in media da X e si ha: �RA

=

O � ifr =

F�



.

ay

=O

Adesso guardiamo le colonne, cioè le v.s. condizionate Xjy1 con h medie condizionate, le· varianze condizionate e la varianza NEI:

'°' 2

1 x,f,,1 L-.J r. 1 i=l

.

10 + 40

30

X

oi 1Y, = T; t:{ (x, - xly1)

f,

x_ 1 y .1

=

XIY2

=;= 4 0

=

.

X

lO

0

=

4 e calcoliamo le

= 3o

40 xly = 3 . xjy4 � 30 .

l



2

'°'

Allora: NE1 a2



_

1

=N

· 2

1

=O j=

1 , : . . , 4.

allora fra X e Y c'è una relazione di tipo

logaritmico.

I

X

esponenziale.

I

I

l



• •



• •

I

I •

X1

'•.

..'

X I

Se i punti sono concentrati in questa zona del diagramma, ali ra fra X e Y c'è relazione di tipo cubico. •

-

l1 ]Wtt•-· Jct�t\lft;i' JAe •••• IG]S...pU...A4.(Ci$·4C--h ""''"'lfh#ihhl IJit!d.W J i P

i

65

•••W#04f\\M fe.MlrtiìF#fffll\l_ _,._ ,...-.. . ___ , _ __--1-------pç tn:c., ._ _..

Quando Invee� X e Y sono statisticamente indipendenti, i punti· si presentano sparpagliati sul diagramma senza nessuna struttura evidente.

I

. .





o n e zi rrela c o endenza e Di p

151

In questa tabella (dati inventati!)

Y 1 12

2 3 4 8

10 6 20 1 2

24

36

I ndi p endenza stati st1ca 20 4 -0

20 1 2 8

,

4-0

••

5 0 30 20 1 00

I

..

tutte le frequenze congiunte {q coincidono con le frequenze teoriche di i.s. ,,,1. F /ll

= lO =

0 X 30 2 _ _ t 112 - 6 � 1 00 ,

20 X 50 1 00 ,

•••

.

'

{33

= ·B =

40

X

=

ft . fJ . : N

20

1 00

cioè X e Y, sono statisticamente indipendenti. Proviamo a rappresentare la tabella nel diagramm� a dispersione (Figura 1 1.3); costruiamo il grafico �a bolle" con i punti di coordinare (xi , yj ) � dimensione {q e, sullo stesso grafico, mettiamo anche la versione «ridotta" con le medie aondizionate, rappresentando i punti di coordinate (x,, ylx,) (sul grafico appaiono come piccoli punti chiari). Notiamo -che la nuvola di punti (bolle) non evidenzia nessuna struttura, i punti sono tutti sparpagliati senza tendenza a concentrarsi in panicolari zone del piano. Inoltre, le medie condizionate ylx, (puntini chiari) sono allineate (tutte uguali fra loro), non mostrano cioè tendenza a crescere o a diminuire al variare di X. I

y



r

•• :tftY«cr"t:

wa

Rll#J....

n:bdts •• enteu, '*erlJ.lftM111.,nu..J41111�-...i 1eJ1 a.JI:r-lJflate Y

3.5 2.5 YJ

2 1.5 1 0.5 o

10

o

20

I•

X·I

30

::_ ,,,,,_ ,v,•..�•R:i LMCatr:i

'---------------1 *'1 0Mo_ ,,nn. _ , ,_ ,_ ,, .-

• • �

..



• J

�• ,•

· -





.

40 : �--

••

50

,.,�,.,1.. -.�--�����nw wrn.-.tt� u:, :•••

-

La relazione più semplice, sia da trattare matematicamente sia da utilizzare e interpretAre statisti.camente (e pertanto è anche la più utilizzata), è quella lineare. Il valore e il segno della covarianza danno indicazioni sulla relazione lineare fra X e Y.

11.9 I nterpretazione geometrica della covarianza Paniamo dalla definizione di covarianza: h

� (x, - X) (y1 - Y) f,1 = NE li:::: 1 /= 1 l

Uxy

k

e diamole un'interpretazione geometrica utilizzando un generico diagramma a di­

spersione.

Figura 11.3. Diagramma a dispersione nel caso di indipendenza statistica.

Capitolo 11

152

Figura 11.4

1D

I nterpretazione

geometrica della

covarianza.

... ,"' J6 tAutc�UIMJIIJP'PIIIN4 l*fl

fl99SHW'II�.MIJca u-.••c•••L c&z•"li 1aees••·, 11uH 1'"w,..._ ,_ r _ ...--t,1 w,-. uo ,,,...,4

(a)

(b)

yh

y•h





)'J"

-

__�� _. _ 10 a, ,...,,nm112•r: t a ,_.....,.rr"'CS_,.__



••

y

Y1

••

I

• I

Y,

Y1

...

X1

x,

X

•••

1

- . ,,

x,

• f •

(e)

yh • ••

Y1

y

• •

·Y

'

,



X1

·•·

•••

X1





1. Comi�ciamo a rappresentare sul diagramma anche le medie marginali x e y che appaiono n�lla formula di uXY (Figura 1 1.4a). 2. La covarianza è pasata sugli scarti (x1 -;- X) e (y1 - Y) presi con il loro segno (non elevati' al quadrato, nè presi in valore assoluto). • A seconda che le modalità x, e yj siano sopra o sotto-media, .questi scarti sono positivi o nega tivi, cioè corrispondono alle zone del diagramma a dispersione (Figura 1 1.4b). 3. o-XY è basata sui prodotti (x1 - X) (y1 - Y)- Allora, le quattro zone evidenziate sul diagramma contribuiscono al calc�lo di o-xy con i segni riponati in Figura 1 1.4c. •

I





stabilire i vari tipi di covar.ianza in funzione del tipo di grafico. o siam Ora pos • ma ram diag del a zon sta que in ati entr conc o son ti i pun O, cioè > O" a itiv Pos • xy (Figura I 1.5a), poiché gli scarti positivi prevalgono su quelli negativi. I

Figura 11.5 Segno della covarianza (positivo o negativo).

.. li., •

i i

(a)

(b)

yh

Yh • •

• ••

I

Y1 ,

Y1 '

Y1

Y,

' •

••

'

..

x,

• • f



••

• • •

Dipendenza e correlazione

153

-.

• Negativa uxy < O, cioè i punti s0110 concen�rati in questa zona del diagramma (Figura l l .Sb), poiché gli scarti 11egattvt prevalgono su quelli positivi. • Nulla u y = O, cioè i pu11ti s0110 d isposti tn modo che gli scarti positivi e negativi si con1pe11si110. Ciò accade quando i punti sono sparpagliati sul dia­ gramma a dispersione se11za struttura a lcuna, cioè in caso di indipenden­ za statistica. Succede a11cl1e qua11do i punti sono strutturati secondo una ,. sa e lonta11a da quella l ineare� come qu�lla quadratica. dive, relazione ., •

'

- - �· · � ·.....

Il diagramma. a dispersione della Figura 1 1 . 1, mostra una struttura evidente: i punti sono ben concentrati in una particolare zo11a del grafico che indica una relazione di tipo lineare e decrescente. Ci aspettiamo pertanto una covarianza diversa da O e con segno negativo. In '

I • '

questo esempio i conti sono facilitati dal fatto che le frequenze (marginali e congiunte) sono tutte unitarie. Facciamoli: x=

l

I

I

Y



N

lO

3 8 .3 L x· == i=l

O"XY

10

I

1 IO

;/f/:','?·ltif.�r,JI, •. : , · 1l · ,f,1 ·'. 1 r i•li -'oJ�,-,(;,-, ·, :•,.,.r. ,,1·_,,_,,J., . .-J . . • .• r • .·.t 1 1J ' � -� �

,-1'

.,_. -1;

· -

,,..,.,., ...;· .}•,,,,,,.

�" ;,; ,.. t: ' '" f _., . ,, ,- •• r. •-j J-· • /'J I ' ,, --. 1• •,··'l7 , v ,1 f , . · 1 • • • . . /.J . ,. iT ' 4•, ;', · � ·•" • J � • 'i''; • ,. . , •. ., ,_ ,_ · � - .:.......:_ ;_ � � .-..'..'...�...!.; /_-�..,,._,.,,· e •.·•___. ,. �·· J • '! _ ,, ,.. ·

'l''- �r1 "' . ,. . ·- -�·· · ·1; ( . ,f·, ,. , �- ·'.' . , . ' , , ; "v,,.,.,, ' /'' rf

. ... I ,�•-'> ' 'f , , .., ,, -...

.p·,_.A_.:r -�'";!'(>''l I . . , . •• 't'''• ' / ,,. :,,, , ""- .

-

'

j · -. , I . "

'•1''-; 3· ·l"'lt' • •• r.,,·1·' . ,; , ,-�: h. f4J

f� � ...

i· ··� ,· -

�.l, ..,h ,.,�� *( ' "'

r.i!"''-d"'" -

Indi pendenza

statistica, cioè totale assenza di qual unque rel azione

Lap,1010 l L

�ella t�� ella .seguente, tutte le frequenze congiunte {;1 coincidono con le frequenze teoriche d1 1.s. fti = ft.f,/N. X

1

y

12 24 36

2 3

6 20 1 2 10

4

20

8 40 20 1 2 8 40 50 30 20 1 00

Verifichiamolo:

X 50 20 _ _ 20 X 30 fn = l 0 = 100 ' f1 2 - 6 1 00 ' '

.

"· '



8= = f 33

40 X 20 1 00

cioè X e Y sono statisticamente indipendenti. Se proviamo a calcolare l'indice di connessione 2 x otteniamo zero: 2

x

=

LL 3

3

i=l J=l

(t

f,*)

'IJ -. lj {;,

2

=

L L flj� 3

3

i=l /=1

=0

Se c'è i.s. allora non c'è nessun tipo di relazione fra X e Y:

r(y == �} = O e Pxy = O

Se non ci credete (o semplièemente per esercizio) provate a eseguire i conti. Sul diagramma a dispersione (Figura 12. 1), nel caso di i.s. i punti di coordinate (xt, y1 ) si presentano sparpagliati e privi di struttura {li rappresen�iamo con il sistema di bolle più grandi o più piccole a seconda che la frequenza congiunta sia alta o bassa). Le medie condizionate sono tutte uguali fra loro e sul diagramma a dispersione (rappresentate con i piccoli punti chiari) sono allineate orizzontalmente, a indicare il fatto che al variare di X le medie di Y non variano.

Agura 12.1 Diagramma a

dispersione nel caso d i indipendenza , statistica.

2 .5 YJ

2 1.5 1 0.5 o



o

10

20

30

40

50 ..

Abbiamo già dimostrato nel Paragrafo 1 1 .5 "Implicazione tra indipendenza statistica e indipendenza in media" che se X e Y sono statisticamente indipendenti (cioè se nella tabella osservata tutte le frequenze congiunte t,1 coincidono con le frequenze teoriche di indipendenza ftj ) allora le medie condizionate sono tutte uguali fra loro e uguali alla media marginale. Allora Y è indipendente in media da X · e anche è indipendente in media da Y.

I I

Dimostriamo or4 che se X e Y sono statist icamente indipendenti al lora la covarianza due n i cioè ,con , segu di enz e a fenome ni sono an che incorrelati. Pxy = lla O u è Partiamo dalla definizione di 11101nento mist o e ci pon iamo n el la situaz ione di i.s., cioè con tutte le frequenze con giu n te fii 9 he coin cido no co n le frequ enze za en nd pe di di in he ric eo fff• = ft.f1 /N: t . .



I

Notiamo che ci sono tern1i11i che hanno solo l'indice i, cioè che sono costanti rispetto alla somma per J, altri tern1i11i l1an110 solo l'indice j, cioè sono costanti rispetto alla somma, per i, e, infine> N è costante sia rispetto a i sia rispetto a /. Allora possiamo » ì)ortare fuori (raccogliere a fattor comune) dalla somma rispetto a J i termini "" che dipendono solo da i e ttportare fuori dalla somma rispetto a i i termini che dipendono solo da j. La costante 1/N possiamo metterla dove ci pare (e perciò la mettiamo in posizione strategica): k

I

h

l

= N L xift. · N L Y;f; f=l

.

-

.

/=1

Riscritto in questo modo riconosciamo le medie marginali: •

=X·Y

. è dato dal La conclusione è allora che se fra X e Y esiste i.s. allora il momento misto ' prodotto delle Ill-edie marginali (tecnicamente si dice fattorizza). Di conseguenza se calcoliamo lai covarianza, per eserp.pio, usando la formula al�ernativa, otteniamo zero: '

Sempre zero risulta anche il coeffic�ente di correlazione lineare che ha la covarianza al numeratore: PXY

=



cioè X e Y sono anche incorrelati. . . . , r, . !I , . ,· ., 'l I I . 't'"' "''')'' ,,, . llllllll.lllaJllll&BfBIJIUIIIDllBI ·1 ·�

"'!i

, 1t

-

,



•., .



. ! !'"'-�( -- 1••

._ ., ,,.,

,•

,

• ,,

' ,

..

1 .• ' 1 ··' � ' ' 1

. ..-:. , ..... .

.--,l,�' � p- /J

,

� •, . , ,,

.I

Il viceversa di .queste implicazioni non è necessariamente vero, cioè se X e Y sono incorrelati non è detto .che l'uno sia indipendente in media dall'altro o che esista indipendenza statistica; potrebbe infatti esistere una relazione diversa e lontana dalla relazione lineare. Si a allora:

»

il simbolo =;fr è la negazione del simbolo => e si legge �non implica . - ·-

Nella tabella seguente, Pxr = o (provare per credere ... e per impararel), cioè X e Y sono incorrelari.

X 1 2 3

Y -1 2

5

20 1 0 1 0

40

1 0 30

40

O 20

O

O

20

30 60 10 1 00





Fenomeni connessi ma incorrelati



162

Capitolo 1 2 ,,

,,

Sempre facendo i conti si scopre anche che:



77}



Figura 12.2 Diagramma a dispersione nel caso di fenomeni connessi ma incorre f ati.

= 0. 12,

'f/� = 0 . 5 9

x2 (normallzzato) = 0 . 208

e



cioè esiste una relazione fra X e Y. Tale relazione è allora, oltre che di modesta intensità anche dive,..sa e lontana dalla relazf one lineare. Sul diagran1n1a a dispersione di Figura 1 2.2, l a nuvola di punti e, più eyidentemente le medie condizionate mostrano una struttura, ma non di tipo lineare.

) I

I

I

6 5

1 o

'

,I l

I I

x,

relazione perfetta di limite 12.2 Situazioni I • I







Passiamo ora �!l'altra situazione limite, opposta all'assenza di relazione, cioè la

relazione perfetta.

, I

t



Definizione l

Legam.e perfetto significa che un fenomeno determina, statisticamente, !,altro: fissata un� modalità x1, in U esiste un'unica, predeterminata, modalità y1 e/o viceversa. •

.

• Se la tabell.i � quadrata, cioè � = h ovvero stesso numero . di �ighe e di co­ lonne, la massima connessione è. biunivoca. In ogni riga e in ogni colonna c'è una sola frequenza congiunta diversa da O. La massima connessione biunivoca implica la perfetta dipendenza di ciascun fenomeno dall'altro. In formule: •



x 2 (normalizz�to) = ry} = 77} =

l

• Se la tabella è rettangolare la méJ:ssima connessione è univoca e si hanno· due casi. · 1 . Se la tabella ha più righe che colonne, c�oè_ k > h, allora in ogni riga c'è una sola frequenza congiunta diversa da O. La massima connessione univoca di riga implica che un solo fenomeno (quello che sta sulle colonne) dipende perfettamente dall'altro (quello che sta sulle righe). In formule: ·

x2 = r,} = I

e

o s 'f/�