127 67 14MB
Romanian Pages 374 [373] Year 1971
MINISTERUL INvĂŢĂMINTULUJ
G. CIOCU
V. CRAIU
·� �
:
+
• ·: �
-
• •
-
:
•
INTRODUCERE
•
�
• •
�·
•
• ..
•
�
ÎN
TBDBl4 PBOB4BILIT4TILDI • .SI STATISTICA i4TBM4TICA
EDITURA DIDACTICĂ ŞI
PEDAGOGICĂ - BUCUREŞTI, .
1971
Referent ştiinţific:· A~ci. prof. G. MIHOC, Redactor: POP AVRAM Tehnoredactor: ANA ŢIMPĂU Coperta de: MĂNESCU MIHAI
PREFAŢĂ
1n zilele noastre se
observă un interes special pentru statistica matematică
şi legăturile ei cu diferite alte ştiinţe. Acest interes se materializează prin aceea că statistica este introdusă în programele de pregătire ale unui număr mare de specialişti. Apare, deci, necesitatea scrierii unei lucrări care pe baza unui aparat matematic minim să introducă cititorii în cercul ideilor statisticii, lucru pe care am încercat să-l facem în cele ce urmează. · Lucrarea de faţă este concepută în trei părţi distincte: Statistica descriptivă, Teoria probabilităţilor şi Statistica Matematică.
În statistica descriptivă se descriu proprietăţile numerice ale colectivităţilor. Statistica descriptivă constituie în anumite privinţe un dicţionar statistic. Materialul prezentat furnizează mijloacele de a descrie aceste colectivităţi, concentrează informaţiile culese de la elementele ce o compun, avînd drept scop să desprindă noţiuni şi să pregătească mijloace care să-şi găsească eficacitate în calculul probabilităţilor şi mai ales în· statistica matematică. În Calculul probabilităţilor se studiază teoretic mecanismele aleatoare, independent de suportul lor concret. Calculul Probabilităţilor care se dezvoltă pornind de la noţiunea de probabilitate şi de la axiomele probabilităţii, utilizează mijloacele statisticii descriptive, însă nu le aplică la noţiunea de frecvenţă: ,,proporţia de elemente ce posedă un anumit caracter" ci la aceea de probabilitate: probabilitatea ca mecanismul aleator studiat să conducă la apariţia unui anumit caracter. Ne vom ocupa de cîteva din cele mai importante capitole din această disciplină, cu aplicaţii frecvente, limitîndu-ne doar la prezentarea elementelor introductive, generale, ilustrate prin exemple. Faţă de lucrările clasice de Teoria Probabilităţilor, în cartea de faţă, nu se tratează funcţia caracteristică, ce permite demonstraţii elegante şi deosebit de utile, deoarece face apel la noţiuni delicate de matematică. Cu toate acestea, mai puţin estetic, însă mult mai simplu, am înlocuit demonstraţiile în care intervine cu raţionamente care permit s-o evităm. Ne-am mulţumit să introducem noţiunea de funcţie generatoare în cazul variabilelor discrete. 1n cazul în care cititorul posedă noţiuni de teoria funcţiilor complexe, poate să abordeze lucrări mai specializate. . În statistica matematică se studiază inducţia statistică. Statistica matematică are drept obiect studiul informaţiei limitate obţinută de la o populaţie cu ajutorul unui mecanism aleator. Ea realizează legătura dintre
4
PREFAŢĂ
statistica descriptivă şi calculul probabilităJil.'~ ...~~.,.,
":,:,::,..'.,.,,.,,.,:;'SJ
I
I
7
~~~.,,.::,..,.,,~., ~-'','--"·" ,ss..,~~~-~-,:.--. î
I
,_::,..,,-.;
,'.:-.'~',,,,,,.,,.::,.. ,,,:,. ~-''--'·"°•'-"·~ ~-~•".:\'~I ~
I
I
I
6DOQOQ
I
/(J(/000
200000
Hii cilălori
200000 .300000 Mii lone
1,00000
Fig. I, 10
Exemplul 10. 1960-1967.
1n tabelul 10 se
dă volumul comerţului exterior în anii Tabelul 10 milioane lei valută
I Total
]960
I
1961
I
1962
I
1963
I
1964
I
1965
I
1966
I
1967
comerţ
8189,3
9642,9
10554,4
11622,2 13009,2 13071,9
Export
4302,2
4754,8
4907,7
5490,2
6000,4
Import
3887,1
4888,1
5646,7
6132,0
7008,8
exterior
6609,2 6462,7
14396,2 17648,6
7116,9 7279,3
8372,1 9276,5
Anuarul Statistic al R. S.R. 1968
Grafic avem situaţia clin figura I, 11 sau figura I, 12. 3. Diagrame prin figuri geometrice plane ( de suprafaţă). In diagramele de suprafaţă se reprezintă mărimile cu ajutorul suprafeţei figurii geometrice. Aceste diagrame se împart, în funcţie de forma acestei figuri în: - diagrame dreptunghiulare; - diagrame pătrate ; - diagrame sub formă de cerc şi semicerc. Diagramele dreptunghiulare se caracterizează prin aceea că exprimă mă rimea numerelor şi raporturilor dintre ele cu ajutorul celor două dimensiuni ale suprafeţei. In cazul acestei diagrame indicatorii sînt reprezentaţi .prin dreptunghiuri ale căror suprafeţe sînt direct-proporţionale cu mlrimea.indi-caţorilor respectivi.
24
STATISTICA DESCRIPTIVA
1,:-:-:-:-:-:-:-:-;, t:-:•:•:•:•:•:•:•:•:-:-:-:-:-:-: 1:-:-:-::-:-:-:-:-:-:-:-:-:-:-:-:-:-:
t-:-:•:·:•:•:·:•:•:•:•:•:•:•:·:-:-:-:-:-·:·r·7•:':·:-:-:-:-:-:-:-:-:-:-:•:·:•:·:•:·:·:·:•
-. :.
~:·:·:·:•:·:•:·:·:•:·:•:•:·:·:·:•:•:•:•:•:
::.:•.•, ;i-:•:❖;•:•:•:•:•:•:•:•:-:,;,;,;.;-;.;.;.;-;.;.
1-:·:•:·:·:·:·:·:·:·:·:·:•:•:•:•:•:•:•:•:•:•:•:-:-:-:-:-:-:•:, , , , • .. Milioane 10.·'ll~U.=-=-'fJ--:=8~'00i~'O~liOi,!-,,o'00,,,......_4,-,!-0U.='0..........,.20.~'!J0.,,......_---:!0---'--:-2/J.~'00..,,...._4~flOi='O..........,.â0.~V.....,..'O._8~00.='0..._t._,,..._'IJOQO v:X:~ă lmp11r)
Exp:Jrt
Fig. I, 11
Fig. I, 12 ·
Diagramele se compun din mai multe dreptunghiuri, care caracterizează sucabaterilor de la indicii medii. · În cazul diagramelor pătrate, indicatorii sînt reprezentaţi prin. pătrate ale căror suprafeţe sînt _direct pro:e,orţionale cu mărimea ~dicat?rilor resp~ctivi. ·tn acest scop, lungimea laturilor pătratelor va trebw să fie proporţională cu rădăcinile pătrate pe care le reprezintă. Pătratele ·care caracterizează colectivităţile comparate. Aşezarea acestor dreptunghiuri este de obicei cesivă, sau _de o parte şi de alta a axei verticale, pentru caracteriza.rea
PREZENTAREA-DA'l'ELbR
25'
colectivităţile
pot fi aşezate alături -în mod succesiv sau se pot înscrie: pătrate mici în cele mari. Ultimul procedeu este folosit pentru reprezentarea dinamicii aceluiaşi fenomen.
Exemplul 11. în tabelul 11 se dă producţia de oţel în diferiţi ani (din ţara noastră)
Tabelul 11
mii tone 1938
284
I
I
1955
1950
1960
1967
I
· 1
555
. · 766.
I
4088,
. 1806 . I-
Grafic avem situaţia din figura I, 13. Am reprezentat producţia anului 1967 printr-un pătrat avînd latura ;.de aproximativ 63 mm, a anului 1960 printr-un pătrat avînd-Iatura dei 42 ,mrn, a anului 1955 printr-un pătrat de latură 27 mm, a anului 1950 printr-un pătrat de latură 23,5 mm şi a anului 1938 printr-un pătrat de latură 16,8 mm. În cazul diagramei în formă de cerc, pentru stabilirea lungimii razei cercului se extrage rădăcina pătrată din raportul dintre indicatorul respectiv şi TC,
r
=V!·
Diagramele sub formă de cerc pot două colectivităţi şi pot fi folosite la
servi pentru compararea dinamicii a fel ca şi- diagramele prin pătrate.
~-----_____,;,-
Fig. I, 13
---------- ,1_,.11111111 '1' 1111, 1I - - I I I I I I I I I 1. - - I IJ I I II -- .- I I I, 1 I - - 1 - - __, I II I I - - I II - - -
t--
~/#51
ITC]/.960
-l.9J.f ~1§§0
Diagramele sub formă de cerc sînt folosite mai frecvent decît cele pătrate pentru compararea structurii colectivităţilor. Pentru aceasta sînt folosite sectoare de cerc. În mod analog, se pot construi diagramele sub formă de semicerc.
26
STATISTJCA DESCRIPTIVA
Exemplul 12. în tabelul 12 este arătată structura salariaţilor din oraşul (în procente).
Braşov
Tabelul 1~ Total
salariaţi
I
Muncitori Ingineri şi tehnicieni
86,5 4,5 2,8 6,2
Funcţionari
Personal de serviciu,
pază şi
100
pompieri
86,5% corespunde unui unghi la centru de 311°24'; 4,5% unui unghi la centru de 16°12'; 2,8% unui unghi la centru de 11°4'48• şi 6,2% unui unghi la centru de 22°19'12 ". Grafic situaţia este prezentată în figura I, 14.
Exemplul 13. În tabelul 13 se dă structura fondurilor fixe productive la 100 ha teren agricol în unele cooperative agricole de producţie. Tabelul 1955 La 100 ba agricol (JeJ}
Total Clidiri, construcţii,
ln proc. de total
faţă
La 100 ha agricol (lei}
I
ln proc. de total
faţă
69236
100,0
182 690
100,0
26 596 11820
38,4 17,1
95100 7 990
52,1 4,3
10450
15,1
41100
22,5
14490 5 880
20,9 8,5
29 900 8 600
16,4 4,7
instalaţii,
plantaţii
Animale de muncă Animale de producţie, păsări, albiDe Maşini agricole, motoare, unelte mari Inventar
I
1963
gospodăresc
Fig. I, 14
ta
27
Raza semicercului corespunzătoare structurii fondurilor fixe productive la 100 ha teren în 1-955 (1963} este proporţională cu
_ .V
2 {697t236)
Avem
Q:!
205 ,
[V
2 (18! 690)
~ 341 ].
următoarele corespondenţe:
pentr'N a,11,l 1955
38,4% 17,1 % 15,1 % 20,9% 8,5%
corespunde corespunde corespunde corespunde corespunde
unui unui unui unui unui
sector sector sector sector sector
de de de de de
cerc cerc cerc cerc cerc
avînd avînd avînd avînd avînd
unghiul unghiul unghiul unghiul unghiul
la centru de 69°07'12" la centru de 30°46'48" la centru de 27°10'48" la centru de 37°37'12" la centru de 15°18'00"
pent,u anul 1963 52,1 % 4,8% 22,5% 16.4% 4, 7%
corespunde unui sector de cerc avînd unghiul la centru de 93°46'48" corespunde unui sector de cerc avînd unghiul la centru de 7°44'24" corespunde unui sector de cerc avînd unghiul la centru de 40°30'00" corespunde unui sector de cerc avînd unghiul la centru de 29°31'12" corespunde unui sector de cerc av!nd unghiul la centru de 8°27'36"
Din ta.belul 13 şi figura I, 15 rezultă o creştere rapidă, în special a fondurilor fixe care au rolul cel mai activ în sporirea producţiei, cum sînt animalele de producţie, construcţiile zootehnice şi plantaţiile. În perioada analizată, ca urmare a creşterii gradului de mecanizare a lucrărilor, scade ponderea valorii animalelor de muncă (de la 17,1% în 1955 la 4,3% înanul 1963), a maşinilor agricole, motoarelor, uneltelor mari, precum şi a inventarului gospodăresc.
Exemplul 14. Pentru datele din tabelul 11 avem situaţia grafică din figura I, 16. Pentru producţia. anului 1967 am folosit un cerc avînd raza de aproximativ 36 mm, a anului 1960 un cerc ~vînd raza 24 mm, a anului 1955 un cerc avînd raza de 15 mm, ~ anului 1950 13 mm şi a anului 1938, 9,5 mm.
Fig. I, 15
Fig. I, 16
28
~~~TISTICA, DcŞC~~TlfA
4. Diagramele prin ·puncte
.
_
Aceste diagrame utilizează punctul ca corespondent al unei unităţi sau al unui anumit număr de unităţi. Astfel sînt: - diagrame de corelaţie. (cap. IV) ; - diagrame triunghiulare, care sînt folosite pentru caracterizarea structurii unui fenomen influenţat de trei factori. . Diagrama triunghiulară poate fi executată numai dacă se îritrebtiinţează triunghiul echilateral, deoarece numai el are proprietatea că: suma distanţelor unui punct din interiorul triunghiului la cele trei laturi ale lui este o mărime constantă şi egală- cu înălţimea .triunghiului. Greutăţile specifice ale celor 3 variabile însumate trebuie să dea 100% totalitatea fenomenului. Se cunosc două procedee pentru stabilirea scărilor şi fixarea· în interiorul triunghiului a punctului unde se întîlnesc cele 3 drepte care reprezintă 'mă~ rimea (în procente) a celor 3 variabile,: Primul procedeu este acela în care scările sînt aşezate pe_înălţimile triunghiului. Aceste scări sînt gradate de la O la 100, pornind de la bază spre vîrful triunghiului, din 10 în 10 s3:u din· 20 în 20 după caz. La acest procedeu punctul stabilit în interiorul triunghiului se uneşte cu laturile triunghiului prin perpendiculare care sînt paralele cu înălţimile triunghiului, pe care sînt fixate scările. Pentru a arăta cum se construieşte gra~icul în acest caz să considerăm următorul exemplu: _ · Exemplul 15. Salariul brut, pentru o anumită categorie de salariaţi, are următoarea structură (în procente) · · · . ·· Salariul net 80%. · Impozitul pe salariu 16%. Alte reţineri 4%. · Valoarea celor trei elemente din care se compune salariul brut se citeşte pe ~aficul din figura ·1, 17 în felul următor: /(/Q
Fig. I, 17
------0~-----y~
~-
Impozitul pe ulariu
1) Ponderea de 80% care reprezintă salariul net este proporţională cu lungimea perpendicularei care uneşte punctul din interiorul triunghiului şi cu punctul x de pe latura numită salariul net.
.
PREZENTAREA DATELOR
29
2) Ponderea de 16% care reprezintă impozitul pe salariu este proporţională cu lungimea perpendicularei care uneşte punctul din interiorul triunghiului cu punctul y de pe latura numită impozitul pe salariu. . 3) ponderea de 4% care reprezintă alte reţineri este proporţională cu lungimea perpendicularei care uneşte punctul din interiorul triunghiului cu punctul z de pe latura numită alte reţineri.
Fig. I, 18
-----a...· Impozitul pe salariu .Deoaiecţ citirile po~derilor se fac pe scări interioare~ planul diagramei pe care trebuie aşezate punctele şi explicarea lol,", este încărcat. Pentru a înlătura acest neajuns: vom aşeza scările succesiv pe laturile triunghiului. Ele. sînt gradate tot de la O la 100, pornindu-se de la unul din vîrfţtrlle triun.ghiului, în aşa fel încît punctul O al une1 scări corespunde cu punctul 100 al ~ărif prece~ente._ În aces~ caz, _grafic avem situaţia din figura I, 18. Diagramele triunghiulare dau rezulta.te bu~e în: - stnJctura preţurilor în care se arată ponderea preţului de cost, a impo:Ziţului şi a beneficiului în preţul de desfacere a mai multor produse ; - analiza structurii stocurilor în care se arată ponderea materiei prime, produse în curs de fabricare şi: produse finite; · - analiza structurii populaţiei pe vîrste: tineri, adulţi şi bătrîni etc.
Capitolul II REPARTIŢJI
DE
FRECVENŢE
Există diferenţă între analiza seriilor dinamice şi problemele legate de gruparea şi analizarea materialelor pentru care factorul timp nu are importanţă. La cercetarea seriilor dinamice problema de bază o reprezintă analiza variabilei în timp. Astfel de exemplu, se poate cerceta modificarea desfacerilor într-o serie de ani, modificările nivelurilor generale ale preţurilor sau dinamica venitului naţional. Un caracter cu totul deosebit îl prezintă repartiţia veniturilor. În acest caz este de dorit să cunoaştem cîte persoane intră în fiecare grupă cu un anumit venit. În aceste cazuri problema principală la alcătuirea tabelelor va _fi de a arăta clar de cîte ori se repet! fiecare mărime a variabilei noastre şi cum sînt repartizate mărimile respective. Metodele de analiză folosite în aceste două cazuri se deosebesc sensibil. In cele ce urmează ne vom ocupa de problemele grupării şi analizei prealabile a datelor numerice pentru care ordinea de aşezare în timp nu are importanţă.
Datele statistice, sub forma lor brută, reprezintă o masă dezordonată de materiale. Ele pot fi obţinute, de exem~lu, din dările de seamă ale unor întreprinderi industriale sau comerciale. In cazul cînd datele sînt culese de la alte· instituţii, uneori ele au fost prelucrate şi centralizate sub formă-de tabele, însl forma acestora poate fi nepotrivită pentru munca pe care o urmăreşte cercetătorul. Prima problemă este aceea de a face o asemenea grupare a datelor cu ajutorul căreia să se poată aprecia valoarea lor în legătură cu problema propusă, să se poată înlesni comparaţia cu alte date de acelaşi gen şi să se poată obţine posibilitatea unei analize ulterioare. Înainte ca materialul statistic, adică rezultatul observării, să fie supus analizei ulterioare şi generalizărilor care vor permite să se facă anumite deducţii, el trebuie să capete o anumită formă şi o structură clară. Pentru simplificarea calculelor şi pentru o mai uşoară interpretare a rezul• tatelor se va trece la o grupare a observaţiilor (discrete sau continui) efectuate asupra unei singure caracteristici a unui număr mare de elemente. Vom împărţi intervalul de variaţie al acestor date într-un număr de intervale şi vom înregistra numărul de observaţii care cad în fiecare interval.
BEPARTIŢI[ bE FRECVENŢE
31
Acest număr poartă numele de frecvenţă absolută a intervalului sau a clasei. Un tabel care arată repartiţia frecvenţelor în diferite clase poartă numele de tabelă de frecvenţe. Totdeauna va trebui să alegem un astfel de număr de intervale incit, cu această ocazie, să nu se constate abateri sensibile de la repartiţia uniformă în interiorul fiecărui interval. Aceasta este necesar, deoarece, la interpretarea tabelei numerice şi la calculele ulterioare mărimea medie a fiecărui interval trebuie să dea imaginea mărimii tuturor cazurilor care fac parte din acest interval. Se poate obţine o exactitate absolută cu condiţia ca, pentru fiecare mărime care se întîlneşte într-o serie, să existe un interval deosebit. După cum vom vedea, dacă media aritmetică a tuturor termenilor intervalului coincide cu punctul mediu al intervalului, atunci se va obţine şi la calcule o exactitate deplină. Dacă abaterile mediilor aritmetice de interval de la punctele medii nu au un caracter sistematic, se va obţine o exactitate satisfăcătoare.
Există două cerinţe, de obicei contradictorii pe care trebuie să le satisfacă o grupare. Mai întîi gruparea trebuie să garanteze faptul că eroarea este redusă la minim, cerinţă ce duce la aceea că va exista un număr deosebit de mare de interval în tabel. În al doilea rînd, trebuie ales un astfel de număr de intervale incit curba de repartiţie să aibă construcţia regulată şi determinată. Dacă se ia o clasificare mult fracţionată, atunci această regularitate este puţin probabil să fie atinsă şi vom obţine un tabel cu variaţii bruşte de frecvenţă. O metodă adecvată pentru determinarea aproximativă a intervalului de grupare a fost dată de H. A. Sturges. Dacă avem o serie_ de n termeni şi se cunoaşte diferenţa dintre termenul maxim şi minim al seriei, atunci mărimea intervalului i poate fi determinată pe baza formulei: • Xmaz - Xm,n i= - - - - - ·
. 1
+ 3,322 lg n
(1)
Deoarece în majoritatea cazurilor i este un număr zecimal, vom lua ca a sa, numărul întreg cel mai apropiat de valoarea găsită. Tabelele de frecvenţă pot fi alcătuite mai uşor, atunci cînd limitele intervalelor sînt numere întregi, iar intervalul este de asemenea un număr întreg. In orice situaţie pentru alcătuirea tabelelor numerice este important ca intervalul să fie determinat atît de clar, înctt să nu rămînă nici o îndoială în ceea ce priveşte limitele lui şi să nu fie posibilă întrebarea: la ce grupă aparţine o anumită observaţie? Următoarele cifre care reprezintă salariile medii orare individuale a 115 muncitori ne vor ajuta sit înţelegem mai bine cele spuse anterior. mărime
32
ST~TISTICA DESCRJP.TIY.A:,
Tabelul 1
3,9
4,9
4,1
5,5
5,1
4,5
4,4
4,8
4,3
5,8
5,0
6,6 5,7
5,5
5,7
5,3 5,6 5,1
4,9
5,2
4,3
6,4
5,3 5,0 '4,6 4,5
4,8
5,2
6,2 5,1
6,8
6,0 5,8 5,6
5,9
4,9
5,7
4,0 · 5,4 · 4,7
4,3
5,9
5,2
5,3
4,8
5,5
5,8
5,8 5,8
5,9
5,9
5,5
6;9
3,9 5,6 4,0
4,7
6,5
5,6 4,7
4,2
6,2 4,9
4,2
6,6
5,4
5,3 5,4 6,2 6,3
4,4
6,6
5,6
5,3
6,5
~.2
5,9 6,2
4,5
4,1
5,2 4,4
4,5
6,0
5,5
5,4 5,0
5,5
4,7
5,9
5,4 5,0
6,7
6,4
6,1
5,1
4,8
4,1
5,8 4,8 4,3
4,6
6,2 5,6
5,0
5,3
4,4
6,5
5,2 6,8
5,7
5,6
6,3
6,0
5,1
Aceste date nu ne ajută să apreciem nivelul salariilor. Să ordonăm aceste date. . . .. Tabelul 2
3,9
4,3
4,7
5,0
5,2 5,4
5,6 5,8
6,2 . 6,6
3,9 4,4
4,7
5;0 5,2 ·5,4
5,6 5,9
6,2 „6,6
4,0 4,4
4,7
5,0
5;2
5,5
5,6
5,9
6,2 6,6
4,0
4,4
4,8
5,0
5,3
5,5
5,7
5,9
6,2
6,7
4,1
4,4
4,8
5,0 5,3
5,5
5,7
5,9
6,2
6,8
4,1
4,5
4,8
5,1
5,3
5,5
5,7
5,9
6,3
6,8
4,1
4,5
4,8
5,1
5,3
5,5
5,7
5,9
6,3
6,9
4,2
4,5
4,8· 5,1
5,3
5,5
5,8 6,0
6,4
5,6
4,2 4,5
4,9
5,1
5,3
5,8
6,0
6,4
4,6; 4,9
5,1
5,4 5,6 5,8
6,0
6,5
4,6
4,9
5,2
5,4
5,6 5,8 6,1
6,5
},3 4,7
4,9
5,2 5,4
5,8
6,5
4,3 • 4,3
5,6
6,2
· Cu toate că sub a~eastă formă put~m să spunem că 6 muncitori au un salariu orar de· 5,9 Iţi, ~ un salariu de 3,9 lei, unul de 6,9 -Iei etc. totuşi descrierea obţinută nu este ·prea clară. Dacă însă aceste date se grupe·ază, adică dacă toţi muncitorii ale căror cîştiguri se cuprind în anumite limite sînt reuniţi în grupe· generale se obţine o reprezentare simplă, intuitivă· a repartiţiei salariilor orare .. Tabelul 3. araţă rezultatele a~estei grupări.
REPARTIŢII
DE
FRECVENŢE
33 · Tabelul 3
Repartiţia
muncitorilor dupll salariul orar
_ _i_nt_erv_a_I_de_3_0_d_e..,...blam_·N-r.-11---In_terv_a1_d_e_4_o_de.,.b_a_ni_ _ ll---I-n_terv_al_d_e_so_b.,...anI _ __ Salariu orar
3.9-4,2 4,2-4,5 4,5-4,8 4,8-5,1 5,1-5,4 5,4-5,7 5,7-6,0 6,0-6,3 6,3-6,6 6,6-6,9 6,9-7,2
Salariu orar
Nr
3,9-4,3 4,3-4,7 4,7-5,1 5,1-5,5 5,5-5,9 5,9-6,3 6,3-6,7 6,7-7,1
7
10 10 14 16 18 16 10 7
Salariu orar
3,9-4,4 4,4-4,9 4,9-5,4 5,4-5,9 5,9-6,4 6,4-6,9 6,9-7,4
9
14 18 21 23 16 10 4
-115
6
, Nr. ·.
13 19:, 25 28 18 11 1
-115
1
-115
Se observă că dacă micşorăm dimensiunea intervalului amănuntele devin mai vizibile, însă, în cazul unei asemenea mărimi a numărului grupelor, vom obţine o tabelă mai voluminoasă. Cele trei coloane ale tabelului 3 reprezintă 3 grade diferite de simplificare şi de generalizare a aceloraşi date. Ele au aceleaşi trăsături caracteristice: număr redus de cazuri în intervalele extreme şi o creştere, mai mult sau mai puţin regulată a numărului lor, pe măsură ce ne apropiem de mijlocul (centrul) repartiţiei. Fiecare coloană arată date privind salariile orare în formă strînsă şi compactă, astfel că oricine cercetează aceste coloane poate vedea dimensiunile şi repartiţia salariilor orare, mai clar decît dacă în faţa lui ar fi o adunare haotică a cifrelor arătate mai sus. · Formula (1) ne arată că .i= 6,9-3,9 =-3-~040 1+3,322lg115
7,845
'
sau în cuvinte mărimea intervalelor de grupare este 40 de bani. Prin urmare întreaga repartiţie se împarte în 8 intervale. Coloana a 2-a a tabelului 3, în care este folosit acest interval, este cea mai potrivită pentru toate cerinţele expuse de noi. În termeni matematici, primul interval corespunde intervalului [3,9, 4,3) închis la stînga şi deschis la dreapta. Reprezentarea
grafică
a
repartiţiilor
de
frecvenţe
În statistică, repartiţiile de frecvenţe exprimă centralizări compacte de date pe care le pregătesc pentru prelucrarea ulterioară. Aceste repartiţii pot fi prezentate nu numai sub formă de tabele, ci şi sub formă de grafice. 1n acest mod multe trăsături caracteristice ale repartiţiei de frecvenţe devin mai clare. 3 - Introducere în teoria
probabilităţilor
- c. 1064
STATISTICA DESCRIPTIVA
34
Histograma se construieşte în felul următor: pe axa absciselor se trec intervalele de valori, respectîndu-se principiul că intervalele egale să fie reprezentate prin distanţe egale. Pe axa ordonatelor se construieşte scara frecvenţelor, respectîndu-se şi aici principiul proporţionalităţii între frecvenţe şi segmentele delimitate pe scara ordonatelor. Din limitele fiecărui interval de variaţie se ridică apoi cite o perpendiculară pe axa absciselor, ale cărei extremităţi se unesc printr-o linie, formînd astfel mai multe dreptunghiuri, ale căror suprafeţe sînt proporţionale cu frecvenţele corespunzătoare intervalului respectiv. Dacă histograma este construită astfel încît ariile sînt egale · cu frecvenţele relative corespunzătoare intervalului respectiv, atunci aria totală a histogramei este unu. În strînsă legătură cu mărimea intervalelor de variaţie se pot prezenta două cazuri: a) cînd repartiţiile au intervale de variaţie egale; b) cînd repartiţiile au intervale de variaţie neegale. Să presupunem că repartiţia unui grup de 49 de întreprinderi industriale, după viteza de rotaţie a mijloacelor circulante este dată în tabelul 4. Tabelul 4 Viteza de
rotaţie
ln :Lile
20-30 30-40 40-50 50-60 60-70
I
Nr. intreprinderilor
8
11
16 9
5
Pentru construirea graficului trebuie să stabilim unitatea de lungime atît pe scara de pe axa absciselor, cît şi pentru scara de pe axa ordonatelor. Histograma care reprezintă datele tabelului 4 are înfăţişarea din figura II, 1 şi figura II, 2, sub formă.de trepte.
•
.,....
20 JO 40 50 50 70 Yl'feza d@ rofa/ie 1i1 zile
Fig. II, 1
20
30
40
50
60
Ytfeza de rofatie ln zile
Fig. II, 2
70
REPARTIŢII
Un grup de 110 oameni se
DE
35
FRECVENŢE
repartizează după vîrstă
în ani ca în tabelul 5.
Tabelul 5 Teoria probabilităţilor şi statistică matematică Culegere de probleme. G. Ciucu, G. Stmboan
Sursă:
Grupe de oameni
Numărul
după vîrstă
oamenilor
15 18 25 30 12 10
20-25 25-30 30-40 40-50 50-60 60-80
Fiind vorba de o serie de repartiţie cu intervale neegale, înainte de a construi histograma, este necesar ca frecvenţele din coloana 2 a tabelului 5 să fie transformate în „frecvenţe reduse", ţinînd seama de intervalul cel mai mic. In cazul tabelului 5, grupele I şi II au intervale de cîte 5 ani, deci intervale egale, grupele III, IV şi V au intervale de cite 10 ani, adică un interval de două ori mai mare decît primele două grupe, iar grupa VI are un interval de 20 de ani, adică un interval de patru ori mai mare decît primele două grupe. Deoarece aria dreptunghiului prin care reprezentăm frecvenţa trebuie să fie direct proporţională cu mărimea indicatorului respectiv, iar pe de altă parte trebuie să respectăm regula ca mărimile de intervale egale să fie reprezentate pe axa absciselor prin distanţe egale, pentru grupele III, IV şi· V trebuie să luăm pe axa absciselor o distanţă de două ori mai mare decît pentru grupele I şi II, corespunzător celor două intervale de cite 5 ani cuprinse în intervalele de 10 ani. în schimb, va trebui să se reducă înălţimile dreptunghiurilor III_, IV şi V la 12,5, 15 şi respectiv 6. Pentru grupa VI, vom avea un dreptunghi avînd baza de 4 ori mai mare decit a dreptunghiurilor I şi II, însă o înălţime de 4 ori mai mică, adică 2,5. Cele spuse anterior se sintetizează în tabelul 6. Tabelul 6 Grupe de oameni după vlrstă
20-25 25-30 30-40 40-50 50-60 60-80
Mărimea
intervalului în ani
Raportul între mărimea intervalului grupei respective şi cel mai mic interval
1 1 2
5
5 10 10 10 20
2 2 4
Nr. oamenilor
Frecvente reduse col 4
15 18 25 30 12 10
'
Datele din acest tabel se
reprezintă
grafic ca în figura II. 3.
col 3
15 18 12,5 15 6
2,5
. STATISTICA DESCRIPTIVA·
36 20
20 25 .JO
50 Fig. II,
1,0
80 Ani
60 ~
Fig. II, 4
-Poligonul frecvenţelor se obţine unind printr-o linie frîntă extremităţile perpendicularelor ridicate din mijloacele intervalelor de variaţie, ale căror puncte extreme sînt situate la distanţe proporţionale cu frecvenţa. Deoarece curba continuă a poligonului frecvenţelor lasă în afara 'ei unele părţi ale ariei dreptunghiurilor (haşurate în negru) şi încorporează în aria poligonului părţi care nu sînt cuprinse ·în aria dreptunghiurilor (haşurate), urmează că aria poligonului frecvenţelor este aproximativ egală cu_·aria histogramei din care a fost construit (fig. II, 4). · · Poligonul frecvenţelor poate fi construit şi direct, fără ajutorul histogramei. 1n acest scop, pe axa absciselor se trece mărimea intervalelor grupelor seriei respective, iar pe axa ordonatelor se construieşte scara frecvenţelor. De pe axa absciselor, din mijloacele segmentelor prin care reprezentăm mărimea intervalelor, ridicăm perpendiculare, proporţionale cu frecvenţele respective. Unind extremităţile acestor perpendiculare cu o linie frîntă, obţinem poligonul frecvenţelor. Datele din acest tabel sînt reprezentate grafic în figura II, 5. Această curbă are forma unui „J" şi caracterizează mai ales fenomenele de structură. În această categorie intră anumite fenomene din economie şi demografie. . -·· !fii
Tabelul 7
70
Gruparea căsătoriilor în anul 1967 după vîrsta soţului
60 Virsta soţului, ln ani lmpliniţi ·
50
40 30
10
o
·.Im'. Fig. II, 5
20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60 şi peste
Nr.
căsătoriilor
64461 47 777 14 379 6334 3 504 1 790 1664 1 756 2976
REPARTIŢII
Cumularea
repartiţiei
de
DE
37
FRECVENŢE
frecvenţe
Din -~n~ite motive, este de preferat să se lucreze ·cu repartiţiile de frecvenţe cumulate, în locul grupelor separate despre care am vorbit mai înainte. Tabelul 8· arată o anumită superioritate a repartiţiei cumulate. Intr-o -·întreprindere industrială care are 239 de. muncitori, gruparea lor după procentul îndeplinirii normei într-o perioadă oarecare se face ca în tabelul 8Jcloanele (1) şi (2) ). Tabelul 8 Procentul de ln~eplinire a normei
Nr. muncitorilor
(1)
(2)
95-100% 100-105% 105-110% 110.:-115% 115-120% 120-125% 125-,-130% 13()-135% 135-140% 140-145% 145-150% l_S0-155%
4 30 38
Frecvenţele
A
%
(3)
4
34 26 21 15 12 6
34 72 119 153 179 200 215 227 233
4
237
2
239
47
I
(4)
1.7 14,3 30,3 50,0 64,2 75,2 84,0 90,2 95,3 97,8 99.5 100,0
absolut cumulate
I I
B (5)
239 235 205 167 120 86 60 39 24 12 6 2
I
% (6)
100,0 98,3 85,9 69,9 · · 50,2 36,0 25,1 16,3 10,0 5,0 2,5 0,9
Astfel coloanele (1) şi (2) ale tabelului ne arată că 4 muncitori îşi îndeplinesc norma în proporţie de 95 pînă la 100%, 30 de muncitori îşi îndeplinesc norma în proporţie de 100 pînă la 105% etc. Coloanele (1) şi (2) ale tabelului constituie o tabelă simplă de repartiţie a frecvenţelor. Dacă însă datele sînt cumulat~ (aşa cum s-a făcut în coloana (3) obţinem o imagine mai sugestivă pentru rţ.zolvarea unor probleme. · Trebuie să observăm că seriile de frec~ţnţe pot fi cumulate în două sensuri deosebite. Din coloana (3) se poate uşor determina numărul muncitorilor care nu- au atins un anumit procent de îndeplinire a normei„ In schimb, este deseori mai comod să se alcătuiască tabela în ordine inversă, astfel încît să· existe -posibilitatea să se determine direct cu ce este egal totalul care este deasupra ·mărimii date· a caracte~sticii. In cazul în care numărul muncitorilor · va fi cumulat în ordine descrescîndă se va obţine coloana (5) din tabelul 8. . . Ade~eori este necesar să se treacă de la frecvenţe la proce~te, ca în coloanele (4). şi (} ale tabelului 8. In special, procentele. cuml1,late sînt qtile cînd este ne.cesar .să· se compare repartiţii de ·frecvenţe. · . .
38
STATISTICA DESCRIPTIVA
Ogiva sau curba
cumulată
a
repartiţiilor
de
frecvenţe
Folosirea tabelelor cu frecvenţe cumulate este limitată de sistemul de grupare dat. În cazul cînd nu folosim interpolarea mat_ematică, sîntem obligaţi să ne limităm la acele puncte care sînt arătate în tabelul 8, coloanele (1), (3) şi (5). Din această cauză este de dorit 250 să obţinem o curbă cumulată generalizată în acelaşi fel în care se obţine curba continuă a frecvenţelor. Dacă mărimile din tabelul 8 coloanele (1), (3), (5) se reprezintă grafic (îndeplinirea normei se trece pe abscisă şi numărul muncitorilor pe ordonată)-şi prin punctele notate se trasează curbe continui, se obţine curba cumulată a frecvenţelor sau ogiva şi respectiv curba cumulată mai mare 155 % decît. /05 Grafic situaţia este prezentată în fiFig. II, 6 gura II, 6. . O asemenea curbă (ogiva) reprezintă una dintre cele mai clare şi utile reprezentări ale seriilor de repartiţii. În cazul în care se aplică această metodă, acele delimitări care apar din cauza grupării dispar în mare măsură. Forma curbei rămîne în general aceeaşi, chiar dacă intervalele şi numărul grupelor este diferit. Curbele obişnuite de frecvenţe sînt greu de comparat dacă intervalele nu sînt egale; această limitare nu se extinde însă asupra curbelor cumulate de frecvenţe; afară de aceasta, intervalele inegale nu denaturează curba cumulată aşa cum se întîmplă cu curbele de repartiţii obişnuite. Curba cumulată este deosebit de potrivită pentru interpolare. Astfel dacă trebuie să cunoaştem numărul muncitorilor care au o depăşire a normei mai mică decît 112%, atunci valoarea ordonatei curbei care corespunde abscisei d~ 112% poate fi determinată aproximativ din figura II, 6. Rezultă 98 de riluncitori. Importanţa acestei curbe va ieşi mai clar în evidenţă atunci cînd vom vorbi despre mediană, cuartile şi decile. Curba lui Lorenz este o formă specială de reprezentare grafică a frecvenţelor cumulate. Deoarece cu ajutorul acestei curbe sînt studiate fenomenele de concentrare sau de diferenţiere ea mai poartă numele de curbă de concentrare sau de diferenţiere. Pentru a construi această curbă trebuie să avem de comparat două sau mai multe serii. ln acest scop datele absolute ale seriilor sînt transformate în mărimi relative, exprimate în procente. Apoi mărimile relative sînt cumulate, formînd serii cumulative, al căror total este 100. Una dintre aceste serii cumulate se trece pe axa absciselor, iar cealaltă serie (sau celelalte serii) se trece pe axa ordonatelor. Pentru a construi curba de concentrare (fig. 7) ne vom servi de datele din coloanele (4) şi (7) ale tabelului 9. Procedeul este următorul: se construieşte un pătrat care se împarte în 100 de pătrăţele (ale căror laturi reprezintă 10% din latura pătratului), pe a cărui bază se trece numărul întreprin-
\
REPARTIŢII DE FRE~E
39
Tabelul 9 Gruparea intreprinderilor industriale şi a numărului muncitorilor din industria republicani. a Republicii Socialiste România, în anul 1965, după numărul muncitorilor. Anuar statistic R.S.R. 1966 Numărul
Grupe de intreprinderi
numărul
absolut
I
intreprinderilor
procente din total
Sub 50 muncitori S1- 100 muncitori 101- 200 muncitori 201- 500 muncitori 501- 1000 muncitori 1001-2000 muncitori 2001-3000 muncitori 3001-5000 muncitori peste S000 muncitori
2 26 90 290 272 238 78 46 23
0,2 2,4 8,5 27,2 25,5 22,4 7,3 4,3 2,2
Total
1065
100,0
I
Numărul
procente cumulate
0,2 2,6
11,1 38,3 63,8 86,2
93,5 97,8 100,0
numărul
absolut
58 1997 (13402 97916 198008 337073 186698 168297 2029S5 1206404
I
muncitorilor
procente din total
0,005 0,2 1,1 8,1 16,4 27,9 15,5 14,0 16,8
I
procente cumulate
0,005 0,2 1,3 9,4 25,8 53,7 59,2 83,2 100,0
100,0
derilor industriale ca frecvenţe cumulate în procente, iar pe verticală se trece muncitorilor tot ca frecvenţe cumulate în procente. Se uneşte punctul O cu punctul 100 printr-o linie dreaptă, care poartă numele de linia repartiţiei egale sau linia perfectei eganumărul
lităţi. •Această dreaptă uneşte
punctele cogo i---1--~-+--+--+--+--+--t--f respunzînd valorilor 10% din numărul 801--,i,---+---+--+--t--t---t-.., cumulat al întreprinderilor, care cuprind ~_70 1---+---+---+---+--t---t-.., 10% din numărul cumulat al muncito] 60 1---+---+---+---t-~.., rilor, valorilor 20% din numărul cumulat al întreprinderilor, care cuprind ·@ 50 1-+--+--+-+-'z' 20% din numărul cumulat al munci- ::it:. 1,0------,, torilor etc. ~ Cu ajutorul frecvenţelor cumulate în .;-;.JO 'ii:, 20 procente din coloanele (4) şi (7) ale ~ 10 tabelului 9 se obţine curba concentrării. Din graficul obţinut (fig. II, 7), O /O 20 30 40 50 60 70 80 UD 100% reiese, de exemplu faptul că 86,2% din Fig. II, 7 întreprinderile industriale republicane care au pînă la 2000 de muncitori concentrează 53,7% din totalul muncitorilor, 93,5% din întreprinderile care au pînă la 3 OOO de muncitori concentrează 69,2 % dii\ totalul muncitorilor etc. Dacă avem de comparat date pentru trei sau patru perioade, vor fi construite trei sau patru curbe de concentrare pe acelaşi grafic.
40
STATISTICA DESCRIPTIVA
C~ba lui I:orenz poate fi utilizată în diferite scopuri, ca de pildă, pentru analiza capacităţilor de producţie, a producţiei, a repartiţiei veniturilor între fa.milii. în mod. diferenţiat etc. . . . ~ruparea populaţiei pe cele două medii în cadrul unui judeţ, ilustrată pnntr-o curbă de concentraţie, ne poate arăta că procentul populaţiei urbane este cu atît mai ridicat cu cît judeţul este mai industrializat. Un procent
Fig. II, 8
Fig. II, 9
impunător al populaţiei din judeţele cu un înalt nivel de industrializare se concentrează pe un procent neînsemnat din teritoriul judeţului respectiv. Reprezentarea grafică a concentraţiei populaţiei în prezent, comparată cu situaţia ţării.
din trecut, ne ·poate ilustra succesele
obţinute
în industrializarea
Fenomene de concentraţie ridicată oferă şi frecvenţa lecturii volumelor într-o bibliotecă publică, deoarece, după cum se ştie, cererea cititorilor învederează densitatea cea mai mare de frecvenţă la volumele autorilor consacraţi, de mare autoritate în domeniul respectiv. · · Deosebit de interesant este studiul gradului de concentraţie a valorii creditelor pentru investiţii ale Băncii de Investiţii etc. · Vom încheia acest capitol cu cîteva noţiuni asupra indicelui de concentrare. Indicele de concentrare i este definit ca dublul ariei cuprinse între curba de concentrare şi prima bisectoare. Dacă i -+ Oînseamnă că curba de concentrare se apropie de prima bisectoaţ"e (fig. II, 8), adică avem o concentrare slabă, iar dacă i ➔ 1 curba de ·concentrare este apropiată de laturile pătratului (fig. II, 9) şi vom spune că gradul de concentrare este puternic. · . Aria suprafeţei haşurate se poate determina în mai multe moduri, însă cele mai multe se bazează pe calculul grafic, iar cel mai s~mplu este urmă torul: Se construieşte curba de concentrare pe hîrtie milimetrică, numărîndu-se apoi pătrăţelele cuprinse între curba de concentraţie şi prima bisectoare (fiecare pătrăţel reprezintă pe hţyie milimetrică 1%, dacă pe fiecare latură a pătratului sînt 10- pătrăţele identice).
Capitolul
CARACTERIZAREA
m
REPARTIŢilLOR
DE
FRECVENŢE
§ 1. Indicatori (parametri) de poziţie Dacă fiecare repartiţie de frecvenţe ar reprezenta o problemă cu totul nouă, cee se supune numai anumiţor legi proprii, atunci problema studiului şi descrierii repartiţiilor ar fi foarte dificilă. În realitate, datele (care se referă la diferite domenii ale cunoaşterii) o dată aranjate într-o repartiţie de frecvenţe, scot în evidenţă trăsăturile comune tuturor curbelor- de repartiţie şi care se supun unor legi generale. Acest lucru· ne permite ca experienţa făcutăîntr-un anumit domeniu al cunoaşterii să poată fi extinsă şi în alte domenii. Curbele care înfăţişează repartiţiile_ fenomenelor fizice prezintă simetrie şi regularitate. Unele din curbele din domeniu social-economic sînt asimetrice :şi se observă în ele o tendinţă determinată de a se alungi într-o anumită parte de la punctul cu cea mai mare frecvenţă. La toate curbele, însă, trebuie să.observăm variabilitatea mărimilor care se obţin ca rezultat al unor măsurători. Cu toate că există variabilitate, se observă o tendinţă a datelor de a se grupa strîns în centrµl curbei (tendinţa centrală). Dacă se măsoară mărimea abaterii de la punctul de concentrare maximă a frecvenţelor, se constată că sînt mai frecvente abaterile mici decît cele mari, că abaterile în ambele părţi faţă de punctul de concentrare maximă se echilibrează aproape complet şi că abaterile foarte mari sînt. foarte rare. Repartiţia de· frecvenţe se poate caracteriza ·printr-o valoare a scării şi anume aceea care este cea mai reprezentativă pentru toată repartiţia. Deoarece frecvenţele variază, vom alege acea mărime care se întîlneşte cel mai des, mărime care va fi măsura tendinţei -centrale a repartiţiei. Această mărime, ca şi alte mărimi asemănătoare se numesc indicatori (sau parametri), de poziţie deoarece arată poziţia elementelor principale ale repartiţiei pe axa absciselor. _Caracterul repr~zentativ al oricărui indicator: -(parametru) de poziţie depinde de faptul cît de strîns i se alătură celelalte- valori, sau cu alte cuvinte de gradul de concentrare a datelor î~ j~rul tencljnţei _centrale.
42
STATISTICA DESC'RIPTIVA
Definiţia 1. Dacă în urma unei selecţii apar valorile distincte x1 , x2, atunci media aritmetică este dată de formula:
z
=
+ •·· + xk
Xi+ X2
••• ,
x,:, (1)
•
k
Media aritmetică pentru date negrupate are următoarele proprietă-ţi: 1) Suma algebrică a abaterilor diferitelor valori de la medie, este egală cu zero. Într-adevăr k
k
E (x, -
x)
= E x,-kx =0,
1
1
ceea ce demonstrează afirmaţia făcută. 2) Suma abaterilor ridicate la pătrat, este mai culează abaterile faţă de z. Avem: k
E (x, -
atunci cînd se cal-
k
E [(x 1 -
a) 2 =
1
(a - z)]2 =
z) -
1
k
= E (x, -
k
z) 2 -
2 (a -
x)
E (x, -
1
şi
mică
x)
+ k(a -
x)2
1
cum k
E(x,- z) = O, 1
urmează că k
k
E (x, -
a)2 ~
E (x, -
1
.z)2
1
Observatie. Dacă se calculează suma abaterilor de Ia o valoare b care nu este media arihnetică, suma abaterilor va diferi de zero cu o cantitate care este de k ori mai mare decit diferenţa dintre valoarea b şi media aritmetică (deoarece. avem k valori). Avem; k
E (x, 1 şi
k
b)
=
E (x, -
.f
k
+ .f -
b)
=
L (x
1
1-
.f}
+ k(.f -
b)
1
cum k
E (x, -
x) = o,
1 urmează că
k
E (x, -
b)
= O + k(.f -
1
ceea ce
confirmă observaţia făcută.
b)
(2)
REPARTIŢIILOR
CA'RACI'ERIZABEA Ţinind
43
FRECVENŢE.
seama de (2) putem scrie
z=
1
b
+-
k
formulă
DE
care
uşurează
în mare
E (x, k
(3)
b)
1
măsură
calcularea mediei aritmetice.
Cînd se lucrează cu o repartiţie de frecvenţe, nu avem întotdeauna la datele originale din care a fost întocmită repartiţia de frecvenţe. În acest caz media aritmetică trebuie calculată din datele grupate. In acest scop se calculează valoarea mijlocie, sau cu alte cuvinte se determină centrul intervalului, ca reprezentînd intervalul respectiv, se multiplică diferitele valori mijlocii cu frecvenţele care le corespund, se însumează aceste produse şi se împarte suma astfel obţinută prin numărul total de observaţii, adică dispoziţie
(1 ')
unde n, este
frecvenţa relativă
a intervalului, centrul intervalului. Centrul unui interval se obţine prin adunarea limitelor superioară şi inferioară a intervalului şi împărţind prin 2. La determinarea valorilor mijlocii pentru o repartiţie de frecvenţe, este important să se cunoască modul în care au fost făcute rotunjirile. Cînd nu se indică nici o informaţie în legă tură cu repartiţia frecvenţelor este bine să se admită că cifrele au fost rotunjite pînă la cea mai apropiată unitate dată. Dacă variabila este continuă şi repartiţia este simetrică, media aritmetică calculată din datele grupate se va apropia foarte mult de media aritmetică calculată din datele negrupate. În cazul în care repartiţia este asimetrică sau dacă variabila are un caracter . discret, această apropiere va fi mai mică. Atunci cînd există o neconcordanţă între cele două valori ale lui ~, înseamnă că ipoteza asupra valorii mijlocii nu este corectă. Indiferent de precizia cu care se lucrează, nici una din valorile mijlocii nu va fi punctul de concentraţie real al intervalului daţ. Cu toate acestea, în cazul repartiţiilor simetrice, există tendinţa ca erorile făcute în aprecierea valorilor mijlocii să se compenseze reciproc. Reprezentînd grafic frecvenţele într-o diagramă, se observă că pentru intervalele din stînga intervalului cu frecvenţa maximă, valoarea mijlocie a unui interval este probabil mai mică decît media intervalului respectiv, iar pentru intervalele din partea dreaptă, valoarea mijlocie depăşeşte media intervalului respectiv. ·
x; -
Observa/ii. a) În cazul datelor grupate, media aritmetică _se ·poate. calcula formula
după
(3')
unde "' stnt :frecvenţele absolute corespunzătoare diferitelor intervale iar poate fi chiar valoarea ··mijlocie a unui anumit interval.
x•
-44
STATISTICA DESCRIPTIVA Dacă
:
intervalele sint egale, vom considera abaterile
valelor de grupare •a1, vale de grupare
şi
faţă
de :z. sub forma inter-
corecţia..!.. L n1•a1 fiind exprimată în n
trebuie
înmulţită
cu
z _= x• + {;
mărimea
acest caz in inter-
intervalului de grupare i,
E n,• a,} i.
adică
( 3")
Această formulă se aplică atunci ctnd repartiţia de frecvenţe conţine-un nu.Jftăi' mare de observaţii, care sînt grupate în multe. intervale. ·, b) Cînd repartiţia este asimetrică se folosesc intervale cu mărime variabilă. ln acest caz erorile făcute ln presupunerile asupra· valorilor mijlocii se compensează reciproc din ce în ce mai puţin. Acest lucru face ca· media -aritmetici calcu. _lată. din datele grupate să difere mult (în anumite cazuri)· de media: aritmetică calculată din datele negrupate. ln acest caz se va folosi fie formula (1'), fie formula (3'). Valoarea lui z calculată dintr-o repartiţie de frecvenţe cu asimetrie către dreapta (pozitivă) depăşeşte valoarea lui~ obţinută pornind de la datele negrupate. c) Cînd repartiţia de frecvenţe, are la unul sau la amindouă capetele un interval deschis (adică un interval a cărui mărime este nedeterminată) nu există nici o indicaţie asupra valorii care trebuie aleasă ca reprezenttnd întregul interval. Presupunlnd că aceste intervale au aceeaşi mărime cu cele ce se înYecinează valoarea mijlocie va fi prea mare sau prea mică, după cum ne referim la intervalul din sttnga sau la cel din dreapta. In acest mod se poate inversa chiar sensul erorii. d) tn cazul în care repartiţia este asimetrică, avînd intervale de grupare neegale şi prezintă unul sau amlndouă intervalele de la. capete deschise, media are numai un caracter aproximativ. e) ln cazul în care variabila este continuă, sau este discretă neprezentînd lipsuri şi repartiţia este aproape simetrică, media se poate calcula făctnd semisuma valorilor extreme. f) Cînd avem de determinat media aritmetică a unor date sezoniere, vom neglija datele care reprezintă valori extreme neobişnuite, deoarece acestea pot proveni dintr-o neatentă observare sau interpretare. Media se va calcula folosind numai valorile caracteristice. g) Dacă avem mai multe medii, fiecare referindu-se la o _anumită categorie, în determinarea mediei acestor medii care caracterizează totalul compus din aceste categorii, fiecare medie va fi ponderată în funcţie de impo~ţa categoriei sale. Adeseori, apar situaţii în care importanţa fiecărei categorii depinde de un anumit factor diferit de numărul elementelor cuprinse în acea ~teg~rie. Din cele prezentate pînă acum rezultă că media aritmetică est~ punctul de echilibru sau centrul de greutate astfel lncît En,x1 de o parte a mediei este egală cu :,En1x, de c~laltă parte a mediei. . · . Prezenţa unor valori „extrem de mici sau extrem de mari conduce la o medie · aritmetică ce nu este caracteristică pentru ştrul de date considerat. · ·
Definiţia 2. Dacă "toate elementele seriei sînt aranjate în. ordinea ~ărimii lor, atunci mediana este acel element care ar împărţi acest şir în două grupe -egale ca număr. ·
seria are 2n + 1 elemente, atunci mediana elementele fiind aranjate în ordinea mărimii. -este compusă din 2n elemente nu există un element .acest caz mediana este dată de media aritmetică a .şi n + 1. Dacă
·.n+ 1,
coincide cu elementul ln cazul în care seria care să fie central. In elementelor de rang n
CARACTERIZAREk
.
Definiţia
REPARTIŢIILOR:
DE
4&
FRECVENŢE
3. Interv.alul. ipedi~ este intervalul ~e.
conţine
elementul d~
rang !!._ ,. unde ~ .este numărul total de obseryaţii.· 2 .
··:·
'.
Mediana se poate determina din graficul frecvenţelor cumulate. Se deter-· mină pe axa verticală. punctul ·se ridică din acest punct o:-perpendiculară.
i.
pe axa verticală pînă întîlneşte curba.
Fig. III. 1
Din punctul astfel obţinut se coboară pe axa 0,-: '> perpendiculară. ,Picionu perpendicularei dă valoarea medianei. · Din asemănarea triunghiurilor ABC şi ADE (fig. 111,1) rezultă formula pentru determinarea medianei
M =
X
e
Me
+k-
2n:.1
2nM
d
. (4}•
Me,
e
unde este limita
inferioară
a intervalului median, intervalului anterior iritervalului median, frecvenţa absolută corespunzătoare intervalului median, nMe mărimea intervalului median. dMe Dacă o repartiţie este perfect simetrică, media şi mediana sînt identice,. iar în cazul în care repartiţia este asimetrică înspre stînga, media va fi mai mică decît mediana. Repartiţiile de frecvenţă avînd intervalele de grupare neegale, nu modifică. procedeul prezentat anterior pentru determinarea modulului, iar repartiţiile· avînd intervale deschise la unul sau la ambele capete nu complică metoda. de calcul. frecvenţa cumulată corespunzătoare
Definiţia 4. Există trei cuartile Q1 , Q2 şi Q8 care împart repartiţia părţi egale Q2 M 6 , Q1 şi Q3 purtînd numele de cuartila inferioară,
cuartila
=
în patru. respectiv·
superioară.
· Cuartilele unei (epartiţii se determină prin metode asemănătoare utilizate pentru mediană. Se stabileşte mai întîi, intervalul în care se
cu cele-
găseşte
46
STATISTICA DESCRIPTIVA
·observaţia de rang : ( 3: } pentru Q1 (Q3), iar apoi prin interpolare lineară se
determină
valorile
corespunzătoare.
Q'=
XQ
Cuartilele se
ik - 4n~1 d +---• ' 4nQ, ' Q
determină după
i = 1,3
formulele (5)
unde: xQ, este limita inferioară a intervalului cuartilic Q,, n~1 frecvenţa cumulată corespunzătoare intervalului anterior intervalului cuartilic Q1, nQ, frecvenţa absolută corespunzătoare intervalului cuartilic Q,, dQ, mărimea intervalului cuartilic Q,: Definiţia 5. Modulul venţa maximă.
este valoarea din
repartiţie
cireia îi corespunde frec-
În cazul datelor grupate există un interval modal, adică un interval căruia îi corespunde frecvenţa maximă. Concentrarea datelor se produce către _limita superioară (inferioară) a intervalului modal, după cum intervalul următor (anterior) intervalului modal are frecvenţa mai mare decît a intervalului anterior (următor) intervalului modal. Modulul se determină cu ajutorul formulelor M = l o
-
+ .6.1 + A2 •i
(6)
~l
sau llA' .lY..Lo
unde:
! l
şi
este limita - limita
i
-
 1 (Â2 )
-
A2 = l- - - - • 1,• A1 + Aa
(6')
inferioară
a intervalului modal, superioară a intervalului modal, mărimea intervalului modal, diferenţa dintre frecvenţa intervalului modal şi frecvenţe le intervalului anterior (următor) intervalului modal.
Exemplul 1. Pentru datele din tabelul 8, cap. II cuartila a treia. Solu/ie. Deoarece în acest exemplu n
= 239,
239
urmează că
+1=
să determinăm
mediana
locul medianei este dat de unitatea
120
2
Pe scara din dreapta diagramei, stabilim punctul corespunzător unităţii 120. Din acest punct ducem o perpendiculară punctată pe curba de repartiţie, iar din punctul unde perpendiculara trasă atinge curba coborîm o perpendiculară pe axa absciselor care este atinsă în punctul care reprezintă 115%. Aceasta înseamnă că muncitorul median şi-a lndeplinit norma tn proporţie de 115% adică a depăşit norma stabilită, cu 15%.
CARAC'l'ERIZAREA
REPARTIŢIILOR
Pentru a verifica rezultatul stabilit grafic Me
=
110
+
DE
să calculăm
239
2 72 . ·5 , 2 · 47
=
mediana cu ajutorul formulei (4) 115,5%,
Deci valoarea medianei stabilită grafic corespunde cu aceea Analog, folosind figura III, 2 sau formula % (5) obţinem
Qa
=
120
+ 3 · 239 -
Din definiţia mătoarele:
modulului
calculată.
100
4 • 153 4 · 26
=
125 %,
rezultă
ur-
---- --
250
~
L/
-
47
FRECVENŢE
~
/_
,..._
2[10 1--
N~
V- -,-· ·- -
,-
i5 ......
·c::
150 ~
I
I
2n
---
"i:i
§
100 ~ v, I coincide cu un element al repar. ~ tiţiei, fiind cea mai caracteristică va) I II 50 .~ I I I loare a ei; I I ~ I I - nu este influenţat de valorile o / ~ g5 /OQ • 110 120 I.JO 140 150 15f% · foarte mari, sau foarte mici. /f}(feplinirea normelor · În unele cazuri, problema determiFig. III. 2 nării modulului se complică prin aceea că repartiţia are două puncte de concentrare, două vîrfuri, în loc de unul singur. Repartiţiile de acest fel se numesc bimodale. Cauzele apariţiei unei astfel de repartiţii pot fi: - un număr mic de date supuse grupării; - folosirea unor intervale prea mici, în raport cu numărul termenilor din serie. În asemenea cazuri se poate determina valoarea aproximativă a modulului, modificînd limitele intervalului şi mărind intervalul. Acest proces va continua pînă va fi stabilit un singur interval modal. Dacă repartiţia rămîne bimodală, după modificarea mărimii şi limitelor intervalului, atunci datele reflectă influenţa unor factori cu totul deosebiţi. Modulul se poate determina aproximativ folosind relaţia dintre media aritmetică, mediană şi modul. ln repartiţiile perfect simetrice, media aritmetică, mediana şi modululcoincid. Dacă simetria este uşor perturbată, atunci aceste puncte se găsesc într-un raport aproape constant. Mediana se depărtează de medie la a treia parte a distanţei care desparte media de modul. Această metodă se aplică numai pentru determinarea modulului, media aritmetică şi mediana calculîndu-se mai uşor cu ajutorul altor metode. Pe raportul arătat este bazată următoarea formulă pentru determinarea modulului
-
--
(7) Definiţia
tor valori se
Dacă x 1 , x2 , ••• , X1c sînt k observaţii, media geometrică defineşte ca rădăcina de ordinul k a produsului acestor
6.
a aces. valori,
adică
(8)
STATISTICĂ.
'.48
DESCRIPTIVA
Se ·observă că ca!cuhtl se face mai uşor cu ajutorui logaritmului 1
k
E lg x, k
lg G = -
(8')
t
sau cînd x1 ,
••• ,
x.t sînt ponderate cu frecvenţele n 1 , n 2 , _ 1g G -
n1 lg X 1
+ 112
•••
Jg x 2 -f- • . . -f- n1c lg Xk
.
k
nk •
(8 "}
repartiţii de frecvenţe, se va folosi logaritmul valorii centrale int~rval. Dacă şirul este simetric din punct de vedere logaritmic şi termenii săi sînt repartizaţi uniform în interiorul intervalelor, din punct de vedere geometric (însă nu aritmetic), se vor folosi valorile centrale ale logaritmilor limitelor intervalului, în locul logaritmilor valorilor centrale ale intervalelor. Dacă dispunem de datele neprehţcrate, vom rearanja repartiţia de frecvenţe în scopul obţinerii unor intervale de grupare egale clin punct de vedere geometric. Deoarece
· 1n cazul unei a
fiecărui
Gk
urmează că orice şir de eaşi medie. geometrică.
= X1 • X2 ... xk, acelaşi.
şi acelaşi
produs va avea ace. Produsul rapoartelor dintre valorile situate de o parte a mediei geometrice şi media geometrică, este egal cu produsul rapoartelor dintre media geometrică şi valorile situate de cealaltă parte a mediei geometrice.
Exemplu,l 2. Media
numere avînd
geometrică
G
=
k
a numerelor 2, 4, 25
şi
50 este
f 2 · .4 • 25 • so = f 10 OOO = 1o.
Avem ~Xi=~X~ 10
10
25
50
ceea ce ilustrează afirmaţia făcută. Media geometrică se foloseşte atunci cînd relative.
prezintă importanţă variaţiile
Exemplul 3. Avem două modificări de preţuri, în primul caz preţul a crescut de 2 ori, de la 4 la 8, iar în cel de-al doilea caz a scăzut la 1/2 din mărimea iniţială, adică. de la 4 la 2. Media aritmetică este ~=2+8=5 2
iar media
geometrică
G
= 1'12
X8
= 4.
CARAC'I'ERIZABEA
REPARTIŢIILOR
DE
FRECVENŢE
49
Prin urmare media geometrică face parte din acea grupă a mediilor în care două schimbări relative se compensează una pe cealaltă, în timp ce media aritmetică (5) este nepotrivită ca măsură a variaţiei raportului mediu al preţurilor.
În cazul în care se întîlneşte o repartiţie de frecvenţe cu asimetrie accen-
tuată către dreapta şi dacă în locul graficului cu·valorile centrale ale grupelor se foloseşte un grafic cu logaritmii valorilor centrale, rezultînd o repartiţie simetrică, poate fi folositoare o medie geometrică. De asemenea media geometrică poate fi folosită pentru calculul mediei
unor rapoarte.
Exemplul 4. Se
I
consideră următoarele
Salariaţi cu Io• cuinţa in loca-
Colectivul
Şantierul
de
litatea în care se găseşte colectivul
Salariaţi
cu locuinţa ln alte localităţi (navetişti)
Raportul dintre numănll sala~ riaţilor cu locu• inţa ln localit. şi navetiştilor
Rap. dintre nr. navetişWor şi
nr. sal. cu ln loc.
locuinţa
(%}
(%)
20
500
500
20
construcţii şi
montaje
I Institutul de
date:
proiectări
1 OOO
5 OOO
2000
400
Media aritmetică a celor două rapoarte dintre salariaţii cu locuinţa în loca]itatea în care se găseşte colectivul şi salariaţii navetişti este de 260%, Analog media aritmetică a celor două rapoarte dintre salariaţii navetişti şi salariaţii cu locuinţa în localitatea în care se găseşte colectivul este tot 260%, Acest rezultat incompatibil nu apare dacă se utilizează media geometrică, deoarPce media geometrică a fiecăreia dintre cele două perechi de rapoarte este
V(0,20) (s,oo) =
1,0
sau 100%. · Cu toate acestea se poate calcula media salariaţilor cu locuinţa în localitate din cele două colective şi calcula media salariaţilor navetişti din cele două colective, obţinîndu-se astfel două rapoarte compatibile. Există 3 OOO de ·salariaţi cu· locuinţa în Jocalitatea în care se găsesc colectivele şi 5 400 salariaţi navetişti în cele două colective, sau în medie 1 500 de salariaţi c~ locuinţa în localitatea în care se găsesc colectivele şi 2 700 salariaţi navetişti. . Raportul dintre numărul salariaţilor cu locuinţa în localitatea. în care se găsesc colectivele şi numărul salariaţilor navetişti este 3 000 5 400 4 - Jntroducere in teoria
probabllitătfior
o/c = 55 55 o/ o
- c. 1064
'
,o
50
STATISTICA DESCRIPTIVA
sau în medie t soo
2 700
o/c = 55 5So/c o
iar raportul dintre salariaţii navetişti în care se găsesc colectivele
'
o
şi salariaţii
5 400 0/
3 OOO /o
=
cu
locuinţa
în localitatea
18Q0/ /o
sau în medie 2 700 1500
o/c = 180o/c. o
o
Produsul acestor două rapoarte este unu. Media o pondere egală celor două rapoarte.
aritmetică
nu atribuie
totuşi
Observa/ie. Media aritmetică implică raportul mediilor aritmetice (sau al totalurilor), în timp ce procedeul geometric implică media geometrică a rapoartelor. Sînt deci două noţiuni diferite. Cea care va fi folosită într-o situaţie dată, va depinde de scopul urmărit. Dacă se doreşte stabilirea unui raport caracteristic pentru o serie de colectivităţi şi se urmăreşte ca acest raport să fie independent de numărul salariaţilor cu locuinţa în localitatea în care se găsesc colectivele şi al celor navetişti, prezenţi in diferite locuri (adică se atribuie o pondere egală fiecărui raport), se poate folosi media geometrică a raporturilor. Dacă se va permite salariaţilor să exercite o influenţă, se poate determina raportul totalurilor, sau al mediilor aritmetice. Se pune problema dacă vom utiliza un raport bazat pe medii aritmetice (sau totaluri) sau o medie geometrică a rapoartelor şi nu problema ce medie a rapoartelor se va folosi: aritmetică sau geometrică ? Dacă se calculează media aritmetică a celor două rapoarte dintre salariaţii născuţi în localitate şi salariaţii navetişti însă se ponderează în raport cu salariaţii născuţi în localitate, rezultatul este 55,55%. Dacă se calculează media aritmetică a rapoartelor dintre salariaţii cu locuinţă în localitate şi salariaţii navetişti, însă se ponderează în raport cu salariaţii navetişti, se obţine un rezultat de 180%. Aceste cifre coincid cu cele obţinute calculînd rapoartele dintre sume. Aplicaţia cea mai frecvent utilizată a principiului geometric, se determinarea procentului mediu al modificării.
referă
la
Exemplul 5. Dacă un elev are o depunere la CEC, de 1 OOO lei, într-un anumit an şi 1 600 lei doisprezece ani mai tîrziu, să determinăm procentul mediu anual al creşterii. Pe întreaga perioadă modificarea sumei a fost de 60%, media aritmetică a sporului este egală cu 5%; însă această mărime nu este dobînda cu care creşte suma depusă. Dobînda reală (procentul mediu anual al creşterii) poate fi calculată cu ajutorul formulei (9) Pn = Po(1 + r)n unde: Po este suma depusă la începutul perioadei, Pn - suma existentă la sfîrşitul perioadei, r - creşterea (relativă) sau dobînda pe an, n - numărul anilor.
CARAC'rERIZAREA
REPARTIŢIILOR
DE
FRECVENŢE
51
În cazul de faţă:
VP"-1
r= Se observă că greşite.
Po
în astfel de
1
= 2/1,6-1 =0,04 sau 4%. situaţii
media
aritmetică
duce la rezultate
Formula (9) este uneori denumită formula de calcul a dobînzii compuse. Ea poate fi folosită pentru determinarea procentului mediu anual de creştere. Cunoscînd valorile oricăror trei dintre cele patru simboluri arătate, se poate determina a patra valoare necunoscută. Astfel se poate determina (pentru o populaţie):
-procentul mediu anual al schimbării: r, · un număr dat de ani: Pn, în ipoteza unei modificări relativ constante ; - numărul de ani n, pînă cînd a fost atinsă o cifră dată a populaţiei, din nou în ipoteza unei modificări relative constante, - populaţia înainte de un număr dat de ani, Po, în cazul în care modificarea procentuală este constantă. -populaţia după
Observa/ie. Ipoteza unei modificări relative constante a populaţiei nu este tn decursul unor perioade mari de timp, în nici o ţară.. ·
valabilă
Definiţia 7. Media armonică H este valoarea a valorilor inverse ale seriei, adică
H=
1 1
1
X1
Xz
inversă
= - k__
1
-+-+ ... +-
Xfc ·
k
1
l
Xf
a mediei aritmetice (ţO)
~-
k
Pentru
uşurarea
calculelor este mai
comodă
forma
k 1
~-
.!..= ~-.· H
k
(10')
Pentru o repartiţie de frecvenţe media armonică se determină rar. Se multiplică valorile inverse ale fiecărei valori centrale cu frecvenţa corespunză toare, se însumează aceste produse şi se împart la k, media armonică rezultînd în urina inversării rezultatului. Media armonică este un tip de medie ce se foloseşte numai într-un domeniu limitat. Se utilizează pentru deducerea normelor medii de timp, conducînd la rezultate foarte bune în cazul datelor ce privesc preţurile.
Exemplul 6. Să presupunem că un produs agro-alimentar (ardeiul gras) se vinde în trei sezoane diferite, cite 2 bucăţi la 1 leu, cîte 3 bucăţi la un-
52
STATISTICA. DESCRIPTIVA
1eu şi cîte 1O bucăţi la un leu. Să celor trei numere (2, 3 şi 1O) este
aflăm preţul
~ = 2+3
+ 10
mediu. Media
aritmetică
a
= 5,
3
ceea ce
reprezintă numărul
mediu. de
bucăţi
Preţul mediu pe bucată va fi: 1 leu : 5
ce se pot
= 20 bani.
obţine
cu un leu.
lnsă din calcule rezultă
că preţurile pe bucată sînt 50 de bani, 33 de bani şi 10 bani, media aritmetică a acestor preţuri fiind 33 de bani (aproximativ). Deosebirea dintre cele două cifre (20 de bani şi 33 de bani) este rezultatul folosirii incorecte a mediei aritmetice în stabilirea preţului produselor „atîtea bucăţi la leu". Această medie este în realitate o medie ponderată şi o pondere mai mare o au cazurile în care pentru acelaşi preţ se dau mai multe bucăţi. .
Rezultatul corect se
iniţiale:
obţine
considerînd media
armonică
..!. = ..!. (..!. + ..!. + .!.)=..!.. ~ == ~H
3
2
3
10
3 30
45 '
H
a celor trei date ·
= 3,21.
Deci numărul mediu al bucăţilor ce pot fi cumpărate cu un leu este 3,21, iar preţul mediu al unei bucăţi este egal cu 31 de bani (aproximatiy). ·se poate uşor arăta acest lucru. Să presupunem că în fiecare din cele trei sezoane s-au vîndut acelaşi număr de ardei, pe care îl notăm prin n. Deci în total, în cele trei sezoane, s-au vîndut 3n ardei. Fie x preţul mediu. Înseamnă că pe baza acestui preţ mediu s-ar fi încasat 3nx lei. In prima perioadă preţul unui ardei a fost ..!.. lei. Deci 2
pentru n ardei s-a încasat.!!. lei. 1n mod similar pentru perioada a doua s-a 2
încasat .! lei, iar pentru perioada a treia.!!. lei. Egalînd suma încasată din 3
10
vînzarea ardeilor cu suma avem
încasată
în cazul în care n
n
n
2
3
10
lucrăm
cu un
preţ
mediu,·
3nx=-+-+-
sau X
a~că
·1 + -13 + -101) = 3'21
= -31 ( -2
media geometrică. Media este şi mai corect calculată dacă se ţine seama de numărul ardeilor vînduţi în fiecare sezon. Astfel să presupunem că în primul sezon s-au vîndut n ardei, în al doilea sezon, 3 n ardei, iar în ultimul 20 n ardei. Pe întreaga perioadă s-au vîndut, deci, 24 n ardei. Egalînd suma :încasată din vînzarea;
REPARTIŢIILOR
cARAcrERIZAREA
DE
FRECVENŢE
ardeilor cu suma ipotetică încasată în cazul în care acelaşi pentru cele trei sezoane, avem . 24nx
sau X
preţul
53
ardeiului ar fi .
= .!!. + 3n + 20n 2
= 24 -t[t-2
3
10
+ -33+ 20] - = 0' 14. 10
Preţul mediu de 0,14 lei este mai apropiat de realitate deoarece în sezonul al treilea s-au vîndut mult mai mulţi ardei decît în celelalte două. Deci sezonul al ·treilea trebuie să aibă o pondere mai mare în stabilirea mediei. În mod natural am ajuns la I
Definiţia
7'. Media
armonică ponderată
_!_ H Observaţii.
t.
~
=
este
dată
de formula
~+~+ ... +nk. x9
X1
n1
X1c
(11)
+ n8 + ,;. + n1c
>G
Fie X şi X(n> cea mai miel, respectiv cea mai mare valoare a seriei de date a Fie - diferenţa dintre media aritmetică şi media geometrică a acestor valori, 2 . adică X(l)
+ X(n)
f X(l) 'X(n) = ~
2
2
sau
+ = y-- + -a • -----2 2 X(l)
X(n)
X(l)X(n)
,Urmead. el X(l)
+ X(n) = 2 VX(t)'X(n) + a.
de unde
a Deci - este fie pozitiv, fie nul 2 -"
(dacă
.
x,1,
= X(n))
+ X(n) :> V.#'(i) • X(n)•
şi
,
2
· t n continuare,
d--x -
x,1,
şi' X(n)
· s1n t lnlocu1'ţ'1 fiecare pnn
+
X(n) , va2 loarea mediei aritmetice a lntregii serii de date nu este (afectatl) schimbatl.
X(l)
STATISTICA DESCRIPTIVA
54
Valoarea mediei geometrice cînd
creşte
după
deoarece, X(i)
arătat
cum am
mai înainte.
+ X(n) > VX(i)' X(n) 2
şi
astfel
contribuţia lui (
2 X(i) :
X(n> )
la media geometrică depăşeşte contribuţia
iniţială
a lui X(i) • X(n)• ln continuare, repetind procedeul pentru cea mai mică
rămasă, obţinem
!f
> G.
şi
cea mai mare valoare
2. G~H Fie
X(l) şi X(n)
Observaţia
cea mai mică, respectiv cea mai mare valoare a seriei de date. 1, ne-a arătat că X(i) + X(n) --"----....;...-'> 1/r X(l) • X(n)•
2
Urmează că X(i)
şi multiplicînd ambii membri
+ X(n) > 2 VX(i) • X(n) ai inegalităţii prin Vx1 1 >• X(n)
sau 2x(1) • _.;__ • Y--- > ____ + X(n)
X(t)'X(n)
X(1)
X(n)
lnsă 2x(i) •Xtn) X(l)
=
2
+ Xcn)
X(l)
____2_ __
+ X(n)
X(i}0 X(n)
este media
_1_ +-1X(l)
X(n)
armonică
Dacă x,1 , şi X(n)
a valorilor X(l) şi X(n>• 2 sînt înlocuite prin media lor armonică - - - - - , valoarea
_1_+_1_ X(1)
mediei armonice H pentru întreaga serie de date este Valoarea mediei geometrice G
descreşte,
X(1)X(n) > V'
şi
astfel
decît
contribuţia
lui
------------X(1)
+ X(n)
contribuţia
mică şi
)2
deoarece cînd
X(i) ::/: X(n>
2X(l)' X(n) _.a:.;..---:.;,;.;.
X(1)
2X(t)X(n)
(
X(n)
neschimbată.
+ X(n)
la media
geometrică
va fi mai micii
lui X(i> • X(n)• Repetind procesul de mai înainte pentru cea mai cea mai mare valoare rămasă,. rezultă G > H. , .
,.
CARACTERIZAREA REPARTIŢIILOR DE FRECVENŢE
§ ·2. Indicatorii
55
variaţiei
În analiza. repartiţiilor statistice, variaţia valorilor caracteristicii cercetate în jurul mediei prezintă o importanţă deosebită. Cu cit valorile ,observate sînt mai puţin împrăştiate (dispersate), cu atît mediile vor fi mai semnificative. Lndicatorii utilizaţi pentru caracterizarea variaţiei sînt numeroşi, iar semnificaţia lor depinde de forma şi metodologia lor de calcul. În general, indicatorii folosiţi, se bazează pe calculul unor abateri. Definiţia 8. 1n cadrul repartiţiei empirice.,· amplitudinea se defineşte ca dintre cea mai mare şi cea mai mică valoare a caracteristicii.
diferenţa
Din această definiţie se observă că amplitudinea depinde numai de mărimea termenilor extremi ai seriei, astfel încît orice abatere. bruscă poate schimba esenţial mărimea ei. Pentru selecţii mici, mai ales cînd selecţia se repetă, sînt folosite rezultatele selecţiilor ulterioare, amplitudinea dă rezultate bune, ceea ce a dus la folosirea ei la verificările speciale ale calităţii producţiei. Pentru a înlătura interpretările aproximative ce provin clin cauza utilizării unor valori extreme, la caracterizarea variaţiei se utilizează diferenţa. dintre două valori ale variabilei, alese în aşa fel, încît numărul cazurilor observate să se repe.rtizeze proporţional pe intervale. În acest scop se utilizează cuartilele unei repartiţii. Cînd valorile cuartilelor se apropie de mediană, repartiţia empirică se caracterizează prin împrăştiere mică. Sîntem conduşi la următoarea definiţie. Definiţia 9. Numim variaţie intercuartilică„ o. notăm prin Q, raportul
Q=
Qa - Q1
= (Me -
Q1)
2
+ (Qa -
Me).
(12)
2
Acest indicator este avantajos pentru caracterizarea variaţiei la repartiţiile cu un număr redus de intervale de variaţie. Prezintă însă dezavantajul că se referă la variaţia corespunzătoare valorilor ce se grupează în jurul medianei, neglijînd 50% din valori. Pentru studiul comparativ al variaţiei se intercuartilic.
calculează
coeficientul de
Definiţia 10. Coeficientul de variaţie intercuartilic„ notat neşte ca raportul dintre variaţia intercuartilică şi mediană
q
variaţie
prin q se defi-
= g_
(13)
Me
sau aproximativ (13')
1 şi + 1. Se apropie de zero în cazul foarte mică. ·
q variază între -
cu
variaţie
repartiţiilor
simetrice,
STATISTICA DESCRIPTIVA
56
Definiţia 11. Abaterea medie absolută reprezintă media abaterilor faţă de media aritmetică, luate în valoare absolută. În practică pentru caracterizarea împrăştierii cu ajutorul abaterii medii, trebuie acordată preferinţă medianei, deoarece mărimea abaterii medii va fi mai mică dacă mărimea medie de la care se porneşte este mediana. Dacă în urma selecţiei obţinem datele x1 , x2 , ••• , X 8 (pe care le presupunem aranjate în ordine crescătoare) să găsim numărul x, x1 ~ x ~ X 8 , care minimizează suma: . · n
.Elx,-xl =E.. 1
Presup.unînd
că X1: ~
x
~ Xk+i,
1~k
A
~
n, avem
n
E(x-x,) +>'(x,-x} =E.
f:ri
1
şi
Derivînd pe E în raport cu x
egalînd cu zero,
k-(n-k)
obţinem:
=O
sau k=.!:, 2
ceea ce demonstrează afirmaţia făcută. În cazul unui număr mare de valori, determinarea abaterii mţdii absolute devine greoaie. Dacă datele sînt grupate într-o repartiţie de frecvenţe, abaterile pot fi măsurate de la media aritmetică sau de la mediană şi multiplicate cu frecvenţa absolută a intervalului. De asemenea, abaterile pot fi măsurate de la centrul intervalului care conţine media aritmetică sau mediana, însă în acest caz, rezultatul obţinut trebuie corectat, datorită erorii rezultate în urma folosirii mijlocului intervalului în locul medianei sau mediei reale. Acest indicator se foloseşte rar în cazul unui număr redus de date şi atunci cînd nu este necesară o analiză ulterioară. Cel mai expresiv indicator care caracterizează variaţia este dispersia de selecţie. Definiţia 12. Disperşia de selecţie, notată prin S2, este definită de expresia 1
n
E (x, n
s2 = -
~) 2 •
(t4) -
1
Vom nota dispersia populaţiei prin a1 • Atunci cînd se ticile colectivităţii generale (populaţiei) din care a fost titatea sa=
1 n --E (x,- ~)s n - 1 1
este
preferată
dispersiei de
selecţie.
apreciază caracterisfăcută selecţia, can-
(15)
CARAC'l'ERIZAREA
lUWARTIŢIILOR
DE
FRECVENŢE
57
Pe baza unei selecţii, noi facem o estimaţie asupra ca;racteristicilor generale. Media aritmetică a selecţiei reprezintă pentru noi mărimea aproximativă a mediei aritmetice a colectivităţii generale, iar dispersia de selecţie a dispersiei colectivităţii generale. Se pune problema determinării variaţiei ce predomină în colectivitate, a cărei medii şi dispersie sfnt necunoscute. Avînd o valoare individuală dispunem de o bază minimă pentru estimarea mediei, însă nu avem nici o informaţie asupra împrăştierii din colectivitatea generală. În cazul unei singure valori putem presupune că toţi termenii colectivităţii au aceeaşi mărime, iar atunci cînd avem două valori deja avem o bază pentru măsurarea variaţiei ce predomină în colectivitate, bază ce se măreşte o dată cu creşterea numărului de valori observate. Cu alte cuvinte, două valori observate dau un singur grad ·de libertate pentru estimarea variaţiei ce predomină în colectivitate, ... , n valori observate, n -1 grade de libertate pentru estimarea variaţiei (deoarece unul este folosit pentru calculul mediei aritmetice): In cazul datelor grupate, se consideră abaterile centrelor intervalelor de· la medie. Pentru simplificarea calculelor se consideră abaterile centrelor intervalelor· de la media ipotetică a intervalelor de grupare. In ac~t c.az S2 se calculează după ţormula
„ E (xt n 1
52 = -
~)2 n,,
(14')
1
unde: r este
x; -
n, -
numărul
de intervale, mijlocul intervalului,
frecvenţa absolută corespunzătoare
mula
St.
,
=E 1
.
n,(0t)' n
-lE, I
intervalului sau
după
. )2
n,a. •
for-
(14")
n
unde a; sînt abaterile faţă C;le media ipotetică. În vederea unei simplificări şi mai puternice a procedeului abaterilor· sînt considerate sub formă de grupe, de unde rezultă (14"')
unde:
a; este abaterea i -
centrului intervalului de la media valelor de grupare, intervalul de grupare.
Definiţia 12'. Rădăcina pătrată pătratică.
a dispersiei,
poartă
ipotetică
a inter-
numele de abatere
medie
Abaterea medie pătratică ~te măsura. cea. mai frecvent utilizată pentru· unei serii de date. Dacă ± kS se măsoară pornind de la media arit- ·
variaţia
STATISTICA DESCRIPTIVA
58
metică, atunci se poate arăta cu ajutorul valorilor aflate ·în intervalul
(x - kS,
inegalităţii
lui
Cebîşev, că proporţia
· ·
x + kS)
(unde k este mai mare decît unu) va fi mai mare decît 1 valorilor aflate în afara acestui inte~al va fi mai
..!.. , iar proporţia kz
mică decît ..!.. . kl
Cu cit este mai mare dispersia unui şir de valori cu atît este mai mare valoarea abaterilor medii pătratice. Ca o. măsură a uniformităţii caracteris-. ticii măsurate, cu cit este mai mică valoarea lui S, cu atît este mai mare uniformitatea. Pentru a se evita această relaţie inversă, se foloseşte uneori h2
= 1/2 S2,
măsură ce. este folosită des în lucrările statistice Măsurile dispersiei, exprimate sub forma unităţilor
din ştiinţele sociale. de măsură ale fenomenului cercetat, nu sînt întotdeauna utile atunci cînd se compară dispersiile a două sau mai multe serii. Compararea dispersiilor a două sau mai multe serii dă rezultate în urmă toarele trei situaţii : a) şirurile care se compară pot fi exprimate în aceleaşi unităţi, iar mediile pot fi aceleaşi sau au dimensiuni aproape egale ; b) şirurile care se compară pot fi exprimate în aceleaşi unităţi, însă mediile aritmetice diferă. Pentru o mai bună interpretare a rezultatelor se introduce următoarea definiţie. Definiţia
13. Numim coeficient de
variaţie şi-l
notăm
s
(16)
V=-
·exprimat sub
formă procentuală şi
care este o
prin v expresia
măsură
a :dispersiei relative.
ln cazul în care repartiţiile de frecvenţe nu au intervale de grupare exprimate în unităţile originale, ci sub formă de procente din medie, este uşor să se facă o comparaţie vizuală a dispersiilor relative a două repartiţii de acest fel; c) seriile de comparat pot fi exprimate în unităţi diferite. Într-un asemenea caz, abaterile medii pătratice nu mai pot fi comparate direct.
Exemplul 7. Un studiu efectuat asupra unui număr mare de muncitori din industria petrolieră a arătat că salariul mediu este de 1400 lei, cu o abatere medie pătratică de 18 lei. Măsurătorile de masă au arătat că media masei este de 72 kg cu o abatere medie pătratică de 1,5 kg. Se poate spune că muncitorii din industria petrolieră prezintă o mai mare variabilitate în ceea ce priveşte salariul, sau masa ? Deoarece cele două abateri medii
CARACI'ERJZAREA .REPARTIŢIILOR DE FRECVENŢE
pătratice sînt măsurate în unităţi diferite, coeficienţilor de variaţie dă pentru salariu
v
iar pentru
masă,
=
_!!._
1440
59
ele nu pot fi comparate. Calculul valoarea _
= O0125 sau 1,25% '
, v
=
15 • 72
= 0,0211 sau 2,11 %-
Se observă că pentru acest grup de muncitori, masa este supusă unei dispersii mai mari decît salariul. Înrudită cu măsurarea aceasta a dispersiei relative, este posibilitatea de exprimare a unei valori date, sub forma abaterii sale faţă de medie, precum şi sub forma dispersiei seriei. Acest procedeu prezintă utilitate dacă se compară două valori din serii diferite şi .cînd cele două serii: - diferă în ceea ce. priveşte x. sau S, sau amîndouă, - sînt exprimate în unităţi diferite. . Diferenţele mici în forma variaţiei se înregistrează cu ajutorul momentelor, ce stau la baza caracteristicilor descrise şi analizarea anterior şi a altor indicatori pe care-i vom analiza în studiul asimetriei. . Momentul este un termen folosit în mecanică pentru a. nota capacitatea forţei de a provoca o mişcare. Mărimea acestei capacităţi depinde de forţă şi de distanţa de la punctul de aplicaţie al forţei pînă la punctul ales. Dacă două forţe sînt aplicate de o parte şi ·alta a originii, atunci condiţia echilibrului constă în egalitatea produsului negativ cu cel p