ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ


162 56 2MB

Greek Pages [148] Year 2014

Report DMCA / Copyright

DOWNLOAD PDF FILE

ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΞΑΜΗΝΟ: A΄

ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

INFERENTIAL STATISTICS Δρ. Ευστάθιος Δημητριάδης Καβάλα, 2014

Τ.Ε.Ι ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΞΑΜΗΝΟ: A΄

ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Κανονική Κατανομή Normal Distribution

50%

  3

50%

μ

  3

INFERENTIAL STATISTICS Δρ. Ευστάθιος Δημητριάδης Ιανουάριος 2014 Καβάλα

Πρόλογος Η Στατιστική είναι μια σημαντική και χρήσιμη επιστήμη η οποία αποτελεί απαραίτητο εργαλείο για τις επιχειρήσεις, τις κυβερνήσεις αλλά και τις φυσικές και κοινωνικές επιστήμες. Για τον λόγο αυτό δεν πρέπει να θεωρείται, από τους φοιτητές, απλά ως απαίτηση η οποία πρέπει να ολοκληρωθεί. Η Στατιστική Συμπερασματολογία η οποία αποτελεί το δεύτερο μέρος της Στατιστικής (προηγείται η Περιγραφική Στατιστική), χρησιμοποιεί δείγματα με σκοπό να εκτιμήσει, να κάνει προβλέψεις και να πάρει αποφάσεις για ένα ευρύτερο πληθυσμό. Το παρόν εγχειρίδιο αποτελείται από τέσσερα κεφάλαια. Στο πρώτο κεφάλαιο αναφέρονται οι μέθοδοι διενέργειας έρευνας και περιγράφονται οι δειγματοληπτικές μέθοδοι οι οποίες χρησιμοποιούνται για την ολοκλήρωση των ερευνών. Στο δεύτερο κεφάλαιο γίνεται συνοπτική παρουσίαση της θεωρίας των πιθανοτήτων καθώς επίσης των σημαντικότερων κατανομών. Στο τρίτο κεφάλαιο περιγράφεται η διαδικασία της δημιουργίας διαστημάτων εμπιστοσύνης για τον αριθμητικό μέσο την αναλογία καθώς επίσης και για τη διαφορά των αριθμητικών μέσων και των αναλογιών δύο πληθυσμών. Περιγράφεται επίσης η διαδικασία της δημιουργίας ταυτόχρονων διαστημάτων εμπιστοσύνης και πολλαπλών συγκρίσεων. Τέλος στο τέταρτο κεφάλαιο παρουσιάζεται η διαδικασία ελέγχου υποθέσεων που αφορούν την μέση τιμή, την αναλογία, τις διαφορές μέσων τιμών και αναλογιών. Γίνεται επίσης αναφορά στην τεχνική ANOVA και στον χ2 έλεγχο.

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΚΕΦΑΛΑΙΟ 1Ο Ερευνητικές Μέθοδοι (Research Methods) 1 Μέθοδοι διενέργειας Στατιστικής έρευνας

Σελ. 1 2

1.1 Απογραφή-Census

2

1.2 Δειγματοληψία- Sampling

3

1.2.1 Τεχνικές δειγματοληψίας- Sampling Techniques

4

1.2.2 Επιλογή δειγματοληπτικής μεθόδου

13

1.2.3 Μέγεθος δείγματος- Sample Size

13

1.3 Συνεχής καταγραφή-Continuous Registration ΚΕΦΑΛΑΙΟ 2Ο Κατανομές (Distributions) 2 Εισαγωγή

15 17 18

2.1 Κατανομές Συχνοτήτων -Frequency Distribution

18

2.2 Κατανομές πιθανοτήτων -Probability Distribution

18

2.2.1 Πείραμα τύχης -Εxperimental

19

2.2.2 Δειγματικός χώρος πειράματος τύχης -Sample space

19

2.2.3 Βασική αρχή απαρίθμησης -Counting Roules

19

2.2.4 Τυχαία Μεταβλητή -Random Variable

19

2.2.4.1 Aσυνεχής τυχαία μεταβλητή -Discrete Random Variable

19

2.2.4.2 Συνεχής τυχαία μεταβλητή -Continous Random Variable

19

2.2.5 Συνάρτηση πιθανότητας -Probability Function

19

2.2.6 Κατανομή πιθανοτήτων ασυνεχούς τυχαίας μεταβλητής-

20

Probability Distribution of a Discrete Random Variable 2.2.6.1 Διωνυμική Κατανομή -Binomial Distribution

20

2.2.6.2 Προσαρμογή Εμπειρικής σε Διωνυμική κατανομή

24

2.2.6.3 Κατανομή Poisson

25

2.2.6.4 Η κατανομή Poisson ως προσέγγιση της Διωνυμικής

27

κατανομής 2.2.7 Κατανομή πιθανοτήτων συνεχούς τυχαίας μεταβλητής-

28

Distribution of a Continous Random Variable 2.2.7.1 Κανονική Κατανομή -Normal Distribution or Gauss

28

2.2.7.2 Τυπική κανονική κατανομή

30

2.3 Δειγματοληπτικές Κατανομές

37

2.3.1 Δειγματοληπτική κατανομή αριθμητικού μέσου x 2.3.1.1 Κεντρικό Οριακό Θεώρημα

37 38

2.3.2 Δειγματοληπτική κατανομή της αναλογίας p Ασκήσεις

40 42

ΚΕΦΑΛΑΙΟ 3Ο Διαστήματα Εμπιστοσύνης (Confidence Intervals) 3 Εισαγωγή

48 49

3.1 Εκτίμηση σε σημείο -Point estimation

49

3.2 Εκτίμηση σε διάστημα -Interval estimation

51

3.2.1 Διάστημα εμπιστοσύνης

για τη

μέση τιμή του

52

πληθυσμού- Confidence interval for the estimation of mean. 3.2.1.1 Μεγάλο δείγμα (n>30) και σ γνωστό.

52

3.2.1.2 Μεγάλο δείγμα (n>30) και σ άγνωστο.

55

3.2.1.3 Μικρό δείγμα, κανονικός πληθυσμός και σ γνωστό.

57

3.2.1.4 Μικρό δείγμα (n≤30), κανονικός πληθυσμός ή κατά

57

προσέγγιση κανονικός και σ άγνωστο. 3.2.1.5 Μη κανονικός πληθυσμός, σ γνωστό και δείγμα μικρό

59

(n≤30). 3.2.1.6 Μη κανονικός πληθυσμός, σ άγνωστο και δείγμα μικρό

59

(n≤30). 3.2.2 Διάστημα εμπιστοσύνης για την ποσοστιαία αναλογία.

61

3.2.3 Διάστημα εμπιστοσύνης για τη διαφορά των μέσων

64

τιμών δύο πληθυσμών. 3.2.3.1 Δείγματα εξαρτημένα ή «εξισωμένα κατά ζεύγη».

64

3.2.3.2 Δείγματα ανεξάρτητα.

69

3.2.4 Διάστημα εμπιστοσύνης για τη διαφορά ποσοστιαίων

74

αναλογιών. Περίπτωση δύο ανεξάρτητων δειγμάτων. 3.2.5 Ταυτόχρονα Διαστήματα Εμπιστοσύνης και Πολλαπλές

76

Συγκρίσεις 3.2.5.1 Μέθοδος Tukey

76

3.2.5.2 Μέθοδος Dunnett

79

Συνοπτικός πίνακας διαστημάτων εμπιστοσύνης

81

Ασκήσεις ΚΕΦΑΛΑΙΟ 4Ο Δοκιμασία υποθέσεων (Hypothesis Testing) 4 Εισαγωγή 4.1 Δοκιμασία υποθέσεων για τη μέση τιμή μ του

85 90 91 93

πληθυσμού 4.1.1 n>30 και γνωστό σ

93

4.1.2 n>30 και άγνωστο σ

95

4.1.3 n  30 και άγνωστο σ

95

4.2 Δοκιμασία υποθέσεων για την αναλογία p του

96

πληθυσμού 4.2.1 n>20, np>5 και nq>5 4.3 Δοκιμασία υποθέσεων για τη διαφορά των μέσων δύο

96 98

δειγμάτων. 4.3.1 Ανεξάρτητα μεγάλα δείγματα (n1>30 και n2>30)

98

4.3.2 Ανεξάρτητα μικρά δείγματα (n1  30 και /ή n2  >30)

101

4.3.3 Εξαρτημένα δείγματα

104

4.4 Δοκιμασία υποθέσεων για τη διαφορά των αναλογιών

107

δύο πληθυσμών 4.5 Ανάλυση Διακύμανσης -ANOVA

110

4.6 χ2 έλεγχος (Chi- square test)

114

4.6.1 Πίνακες Συνάφειας (Contingency Tables)

115

4.6.2 χ2 Έλεγχος Ανεξαρτησίας

116

2

4.6.3 x έλεγχος ισότητας περισσοτέρων των δύο αναλογιών

118

4.6.4 x2 έλεγχος ομοιογένειας πληθυσμών

121

4.6.5 χ2 Έλεγχος καλής προσαρμογής

122

4.6.5.1 Ποιότητα προσαρμογής για Ομοιόμορφη κατανομή

124

4.6.5.2 Ποιότητα προσαρμογής για την κατανομή Poisson

125

4.6.5.3 Ποιότητα προσαρμογής για την Κανονική Κατανομή

127

Συνοπτικός πίνακας τεστ σημαντικότητας

130

Ασκήσεις

134

Βιβλιογραφία

140

ΠΑΡΑΡΤΗΜΑ

141

ΚΕΦΑΛΑΙΟ 1Ο

Στατιστικές Μέθοδοι Έρευνας Research Methods

2

INFERENTIAL STATISTICS

1. Μέθοδοι Διενέργειας Στατιστικής Έρευνας Για τη διενέργεια μίας Στατιστικής έρευνας μπορεί να επιλεγεί μία από τις παρακάτω μεθόδους:  Απογραφή- Census  Δειγματοληψία-Sampling  Συνεχή Καταγραφή-Continuous registration Ο συνήθης τρόπος για τη συλλογή στοιχείων είτε με απογραφή είτε με δειγματοληψία είναι το ερωτηματολόγιο με προσωπική συνέντευξη ή με τηλεφωνική συνέντευξη ή ακόμη και με αποστολή αυτού με το ταχυδρομείο. Πολλές φορές βέβαια η συλλογή στοιχείων γίνεται και με απευθείας παρατήρηση. Τα τελευταία χρόνια, με την εξάπλωση των Η/Υ και την ευρεία χρήση του Διαδικτύου (Internet), είναι εύκολη η πρόσβαση και η άντληση πληροφοριών μέσω των διαφόρων μηχανών αναζήτησης (Yahoo, Lycos, Alta vista, Euroseek κ.λπ).

1.1 Απογραφή-Census Απογραφή είναι η συλλογή στοιχείων από όλα τα άτομα του πληθυσμού και προφανώς μπορεί να χρησιμοποιηθεί όταν ο πληθυσμός είναι πεπερασμένος. Υπάρχουν βέβαια και περιπτώσεις στις οποίες είναι πρακτικά αδύνατη ή και περιττή. Στην πράξη κάνουμε απογραφή όταν τα άτομα του πληθυσμού δεν είναι πάρα πολλά. Το βασικό πλεονέκτημα της απογραφής είναι η απόλυτη εγκυρότητα των αποτελεσμάτων μια και δεν υπάρχουν δειγματοληπτικά σφάλματα. Αντίθετα, η απογραφή παρουσιάζει τα παρακάτω μειονεκτήματα:  Τη μεγάλη χρονική διάρκεια που απαιτείται για τη συλλογή και την επεξεργασία των παρατηρήσεων ενός μεγάλου πληθυσμού.  Τα σφάλματα μέτρησης και επεξεργασίας συνήθως αυξάνουν με το πλήθος τους.  Την

αδυναμία

διεξαγωγής

απογραφής

όταν

η

παρατήρηση

συνεπάγεται και την καταστροφή των μονάδων και τέλος  Το κόστος της παρατήρησης των επιπλέον μονάδων είναι πολύ μεγάλο σε σχέση με τα διαθέσιμα μέσα ή τα αναμενόμενα αποτελέσματα.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

3

1.2 Δειγματοληψία- Sampling Δειγματοληψία είναι η συλλογή παρατηρήσεων από ένα δείγμα, δηλαδή ένα μέρος των ατόμων του πληθυσμού. Η δειγματοληπτική μέθοδος την οποία θα ακολουθήσουμε σε μία έρευνα αποτελεί την βάση της αξιοπιστίας την οποία θα παρουσιάσουν τα τελικά αποτελέσματα. Στην πράξη τα στατιστικά δεδομένα που χρησιμοποιούνται προέρχονται σχεδόν πάντα από δειγματοληψίες. Η δειγματοληψία μάς επιτρέπει τη συλλογή πληροφοριών με:  Μεγαλύτερη ταχύτητα  Μικρότερο κόστος  Μεγαλύτερη ακρίβεια και  Μεγαλύτερη ευχέρεια εφαρμογής Αρκεί το δείγμα να επιλεγεί με σωστό τρόπο έτσι ώστε να είναι:  Αντιπροσωπευτικό  Αξιόπιστο  Αντικειμενικό και  Συγκρίσιμο δηλαδή να αποτελεί μια μικρογραφία του πληθυσμού. Το σημαντικότερο μειονέκτημα της δειγματοληψίας έγκειται στο ότι δημιουργεί τα λεγόμενα δειγματοληπτικά σφάλματα (sampling errors), τα οποία είναι αριθμητικά σφάλματα και οφείλονται στις τυχαίες κυμάνσεις της δειγματοληψίας. Τα σφάλματα αυτά τείνουν να μηδενιστούν όσο το μέγεθος του δείγματος μεγαλώνει και φυσικά μηδενίζονται όταν η έρευνα γίνεται με απογραφή. Δειγματοληπτικό σφάλμα είναι η διαφορά μεταξύ μιας στατιστικής παραμέτρου που προκύπτει από ένα δείγμα και της αντίστοιχης παραμέτρου που προκύπτει με απογραφή. Έστω π.χ. ότι το μέσο ανάστημα 2.000 στρατιωτών, που προέκυψε με απογραφή είναι 178 εκατοστά. Από τους 2.000 στρατιώτες παίρνουμε δείγμα 50 στρατιωτών και προκύπτει μέσο ανάστημα 174 εκατοστά. Η διαφορά των 4 εκατοστών είναι δειγματοληπτική. Εξάλλου, τόσο η απογραφή όσο και η δειγματοληψία, υπόκεινται σε αριθμητικά σφάλματα που προέρχονται από λαθεμένες ή αναληθείς απαντήσεις, από λαθεμένες καταγραφές ή λόγω διαφοράς ορισμών.

Δρ. Ευστάθιος Δ Δημητριάδης

4

INFERENTIAL STATISTICS

Ορισμός είναι ο καθορισμός της στατιστικής μονάδας. Αν π.χ. ένας χρησιμοποιεί ως μονάδα το άτομο και άλλος την οικογένεια, τότε τα αποτελέσματα είναι λαθεμένα. Τα σφάλματα αυτά ονομάζονται μη δειγματοληπτικά σφάλματα (no sampling errors). 1.2.1 Τεχνικές δειγματοληψίας- Sampling Techniques Υπάρχουν διάφορες μέθοδοι κατασκευής δείγματος. Ανεξαρτήτως μεθόδου ο επιδιωκόμενος

αντικειμενικός

σκοπός

παραμένει

πάντα

ο

ίδιος:

«Η αντιπροσωπευτικότητα του δείγματος». Το πόσο καλά ένα δείγμα αντιπροσωπεύει τον πληθυσμό εξαρτάται από το δειγματολητπικό πλαίσιο (sample frame), το μέγεθος του δείγματος (sample size) και το σχεδιασμό της διαδικασίας συλλογής (selection procedure). Οι διαθέσιμες τεχνικές δειγματοληψίας μπορούν να διαιρεθούν σε δύο κατηγορίες: Ι. Την τυχαία δειγματοληψία (Random or probability sampling). Στην τυχαία δειγματοληψία όλα τα στοιχεία του πληθυσμού έχουν δεδομένη πιθανότητα να επιλεγούν στο δείγμα και συχνά με την ίδια πιθανότητα. Το δείγμα λοιπόν θα κατασκευαστεί σύμφωνα με τους νόμους των πιθανοτήτων. Αν ενεργήσουμε με τρόπο ώστε κάθε μονάδα του πληθυσμού να έχει την ίδια πιθανότητα να συμπεριλαμβάνεται στο δείγμα και να δώσουμε στο δείγμα το μέγιστο δυνατό μέγεθος, το οποίο καθορίσαμε, μπορούμε να είμαστε βέβαιοι ότι η εφαρμογή του νόμου των μεγάλων αριθμών θα δώσει, όποια και αν είναι η χρησιμοποιούμενη τεχνική, ένα αντιπροσωπευτικό δείγμα, με τη στατιστική έννοια του όρου. Επομένως, ένα δείγμα στατιστικά αντιπροσωπευτικό θα είναι πάντα ένα δείγμα πιθανοτήτων. Στην πρακτική, παρ’ όλα αυτά, συμβαίνει ενίοτε να μην ακολουθούνται εντελώς οι προϋποθέσεις εφαρμογής του νόμου των πιθανοτήτων. Οι γνώμες μεταξύ των διαφόρων συγγραφέων/ ερευνητών διίστανται αρκετά ως προς τις δειγματοληπτικές μεθόδους. Η καταγραφή αυτή λοιπόν θα είναι αρκετά αμφισβητήσιμη.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

5

Υπάρχουν πέντε βασικές τεχνικές για την επιλογή τυχαίου δείγματος: I.a Απλή Τυχαία Δειγματοληψία- Simple Random Sampling I.b Συστηματική δειγματοληψία -Systematic sampling I.c Δειγματοληψία κατά στρώματα-Stratified sampling I.d Δειγματοληψία κατά ομάδες- Cluster sampling και I.e Δειγματοληψία πολλαπλών φάσεων- Multi stage sampling. Στη συνέχεια θα περιγραφούν αναλυτικά οι παραπάνω τεχνικές. I.a.a Απλή Τυχαία Δειγματοληψία (πεπερασμένος πληθυσμός) Simple Random Sampling (finite population) Απλό τυχαίο δείγμα μεγέθους n από ένα πεπερασμένο πληθυσμό μεγέθους Ν είναι ένα δείγμα το οποίο επιλέχτηκε έτσι ώστε κάθε δυνατό δείγμα μεγέθους n να έχει την ίδια πιθανότητα να επιλεγεί. Τα n άτομα του δείγματος επιλέγονται, από τον πληθυσμό μεγέθους Ν, ένα προς ένα. Η επιλογή τους γίνεται στην τύχη (με τη στατιστική έννοια τον όρου) και πραγματοποιείται με μια μόνον ενέργεια. Είναι δυνατό να προβούμε σ’ αυτήν την επιλογή με επανατοποθέτηση ή και χωρίς επανατοποθέτηση. Βέβαια, αν το πλήθος των μονάδων του πληθυσμού είναι πολύ μεγάλο οι δύο τρόποι συμπίπτουν. Στην περίπτωση της επανατοποθέτησης είναι δυνατόν ένα στοιχείο να επιλεγεί περισσότερες από μία φορές. Η δειγματοληψία με επανατοποθέτηση είναι σωστή διαδικασία για τη δημιουργία ενός απλού τυχαίου δείγματος αλλά η διαδικασία χωρίς επανατοποθέτηση είναι αυτή που χρησιμοποιείται συχνότερα. Παράδειγμα: Έστω ένα δείγμα 50 ατόμων, τα οποία πρέπει να επιλεγούν από ένα πληθυσμού 2.000 ατόμων. Ο απλούστερος τρόπος για τη δημιουργία αυτού του δείγματος είναι η αναγραφή των ονομάτων όλων των ατόμων σε μία λίστα και η αρίθμηση αυτών από το 1 μέχρι το 2000. Στη συνέχεια δημιουργούμε 2000 κλήρους και αφού τους τοποθετήσουμε σε μία κληρωτίδα τραβάμε διαδοχικά 50 από αυτούς. Καθένας αντιστοιχεί σε ένα άτομο και το σύνολο των 50 κλήρων θα αποτελέσει το απλό τυχαίο δείγμα.

Δρ. Ευστάθιος Δ Δημητριάδης

6

INFERENTIAL STATISTICS

Η διαδικασία δημιουργίας του απλού τυχαίου δείγματος του προηγούμενου παραδείγματος, μπορεί να ολοκληρωθεί και με τη χρήση του πίνακα των τυχαίων αριθμών (random numbers). Ένα παράδειγμα πίνακα τυχαίων αριθμών, από τον οποίον παρατίθεται εδώ ένα μέρος, είναι ο επόμενος: 79409 67790 10133 36885 34317 44264 62994 23179 86523 40624 97378 15643 87183 08818 44776 41489 12313 88860 47740 49996 90997 40690 73062 99417 84362 36977 56369 26062 24841 77021 90894 16615 13830 51094 31691 97311 85552 39430 08275 29116 76237 94306 02098 86244 47511 78952 34598 74125 64585 41257 84123 56785 42113 21456 76542. Επιλέγουμε μία οποιαδήποτε γραμμή και δημιουργούμε τετραψήφια νούμερα, γιατί το πλήθος των ατόμων του πληθυσμού είναι τετραψήφιο (2.000 άτομα). Έστω για παράδειγμα ότι επιλέξαμε τη δεύτερη γραμμή. Οι αριθμοί που υπάρχουν σε αυτή είναι: 15643 87183 08818 44776 41489 12313 88860 47740 49996 90997 40690. Οι τετραψήφιοι οι οποίοι θα προκύψουν από αυτούς είναι οι επόμενοι: 1564 5643 6438 4387 3871 8718 7183 1830 8308 3088 0881 8818 8184 1844 κ.λ.π. Από αυτούς μέρος του δείγματος θα αποτελέσουν μόνο όσοι είναι μικρότεροι ή ίσοι του 2000. Στην προηγούμενη γραμμή βλέπουμε μόνο τρεις να ικανοποιούν τη συνθήκη. Συνεχίζουμε με τον ίδιο τρόπο τη διαδικασία μέχρι να ολοκληρωθεί το μέγεθος του δείγματος. I.a.b Απλή Τυχαία Δειγματοληψία (άπειρος πληθυσμός) Simple Random Sampling (infinite population) Συνήθως οι πληθυσμοί από τους οποίους παίρνουμε τα δείγματα είναι πεπερασμένοι. Σε κάποιες όμως περιπτώσεις οι πληθυσμοί είναι άπειροι ή τόσο μεγάλοι ώστε να θεωρούνται άπειροι. Στη δειγματοληψία από άπειρους πληθυσμούς πρέπει να χρησιμοποιήσουμε νέο ορισμό για τον απλό τυχαίο δείγμα. Επιπλέον επειδή τα στοιχεία του άπειρου πληθυσμού δεν μπορούν να αριθμηθούν θα πρέπει να ακολουθήσουμε και διαφορετική διαδικασία για την επιλογή των στοιχείων του δείγματος.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

7

!!! Απλό τυχαίο δείγμα από ένα άπειρο πληθυσμό είναι αυτό που επιλέγεται με τρόπο ώστε να ικανοποιούνται οι επόμενες συνθήκες:  Κάθε επιλεγμένο στοιχείο προέρχεται από τον ίδιο πληθυσμό και  Κάθε στοιχείο επιλέχθηκε ανεξάρτητα από οποιοδήποτε άλλο. I.b Συστηματική δειγματοληψία -Systematic sampling. Σε περιπτώσεις που ο πληθυσμός είναι μεγάλος θεωρείται χάσιμο χρόνου η επιλογή ενός απλού τυχαίου δείγματος με τη διαδικασία που αναπτύξαμε στην παράγραφο 1.a.a. Είναι προτιμότερο να χρησιμοποιήσουμε μία εναλλακτική διαδικασία, γνωστή ως συστηματική δειγματοληψία. Η συστηματική δειγματοληψία διαφέρει από την απλή τυχαία δειγματοληψία στο ότι κάθε στοιχείο έχει την ίδια πιθανότητα να επιλεγεί ενώ κάθε δείγμα δεν έχει την ίδια πιθανότητα να επιλεγεί. Στη συστηματική δειγματοληψία, τα στοιχεία επιλέγονται από τον πληθυσμό κατά ομοιόμορφα διαστήματα τα οποίο μετράνε χρόνο, σειρά ή απόσταση. Παράδειγμα: Έστω ότι θέλουμε να κατασκευάσουμε ένα δείγμα 50 φοιτητών από ένα σύνολο 2.000 φοιτητών. Τα στοιχεία -φοιτητές- μπορούν να ταξινομηθούν με αλφαβητική σειρά και να αριθμηθούν. Στη συνέχεια επιλέγουμε ένα φοιτητή κάθε 40 (2.000:50=40) του πληθυσμού, ξεκινώντας από έναν τυχαία επιλεγμένο. Παραδείγματος χάρη, τον 1ο, τον 41ο, τον

81ο

κ.λπ ή τον 5ο, τον 45ο κ.λπ. μέχρι

να συμπληρωθεί ο απαραίτητος αριθμός των 50 φοιτητών. I.c Δειγματοληψία κατά στρώματα-Stratified sampling. Πολλές φορές ο πληθυσμός, από τον οποίο θέλουμε να επιλέξουμε ένα δείγμα, δεν είναι πολύ ομοιογενής. Αν θεωρήσουμε πληθυσμό τους κατοίκους μίας πόλης , αντιλαμβανόμαστε εύκολα ότι αυτός παρουσιάζει μεγάλη ανομοιογένεια ως προς την ηλικία, τη μόρφωση, το επάγγελμα την οικονομική κατάσταση και πολλά άλλα χαρακτηριστικά. Στην περίπτωση αυτή χωρίζουμε τον πληθυσμό σε σχετικά ομοιογενή γκρούπ τα οποία ονομάζουμε στρώματα (strata). Επιλέγουμε κατόπιν ένα δείγμα από κάθε στρώμα σύμφωνα με μια μέθοδο εφαρμόσιμη στην περίπτωση της τυχαίας δειγματοληψίας. Τα δείγματα μπορεί να είναι ισομεγέθη και στη συνέχεια να σταθμιστούν τα αποτελέσματα με βάση την αναλογία του στρώματος στον πληθυσμό ή μπορεί από την αρχή να αποτελούν αναλογικό τμήμα του πληθυσμού. Και με τους

Δρ. Ευστάθιος Δ Δημητριάδης

8

INFERENTIAL STATISTICS

δύο τρόπους η δειγματοληψία κατά στρώματα εγγυάται ότι κάθε στοιχείο του πληθυσμού έχει πιθανότητα να επιλεγεί στο τελικό δείγμα. Η επιτυχία αυτής της μεθόδου εξαρτάται από την ομοιογένεια μεταξύ των στοιχείων του κάθε στρώματος. Αν τα στοιχεία του στρώματος είναι ομοιογενή τότε το στρώμα παρουσιάζει μικρή διακύμανση και μικρά σχετικά δείγματα μπορούν να μας δώσουν πολύ καλές εκτιμήσεις για τα υπό μελέτη χαρακτηριστικά του πληθυσμού. Παράδειγμα: Η κατανομή των ηλικιών μίας πόλης 100.000 κατοίκων είναι δεδομένο ότι παρουσιάζει μεγάλη ανομοιογένεια. Αν λοιπόν θέλουμε ένα δείγμα 2.000 κατοίκων για τη μελέτη κάποιων χαρακτηριστικών τα οποία θεωρούμε ότι επηρεάζονται έντονα από την ηλικία, η στρωματοποίηση των κατοίκων με βάση την ηλικία τους είναι ενδεδειγμένη. Με τον τρόπο αυτό δημιουργούμε γκρουπ τα στοιχεία των οποίων είναι περισσότερο ομοιογενή. Έστω λοιπόν ο πίνακας 1.1 στον οποίο εμφανίζονται, κατ’ αρχάς, τα στρώματα -ηλικίες- και ο αριθμός των κατοίκων ανά στρώμα. Πίνακας1.1 Στρώματα- Strata

Αριθμός κατοίκων

Αναλογία στρώματος

Στοιχεία στρώματος

έως 19

20.000

0.000/100.000=0,20

0,2*2.000=400

20-39

30.000

30.000/100.000=0,30

0,3*2.000=600

40-59

35.000

35.000/100.000=0,35

0,35*2.000=700

60 και άνω

15.000

15.000/100.000=0,15

0,15*2.000=300

Σύνολο

100.000

2.000

Από τα στοιχεία του πίνακα υπολογίζουμε την αναλογία του κάθε στρώματος στον πληθυσμό και στη συνέχεια το μέγεθος του δείγματος το οποίο θα ληφθεί από κάθε στρώμα. Σύμφωνα λοιπόν με τα αποτελέσματα θα πρέπει να επιλέξουμε με τρόπο τυχαίο 400, 600, 700 και 300 κατοίκους από κάθε ηλικιακή ομάδα (στρώμα). I.d Δειγματοληψία κατά ομάδες- Cluster sampling. Στη μέθοδο αυτή ο πληθυσμός διαιρείται σε ομάδες- Clusters έτσι ώστε κάθε στοιχείο του πληθυσμού να ανήκει σε μία και μόνο μία ομάδα. Από το σύνολο αυτών των ομάδων επιλέγουμε τυχαία ορισμένες και όλα τα στοιχεία αυτών αποτελούν το τελικό δείγμα. Το σύνολο των στοιχείων όλων των ομάδων αποτελούν τον πληθυσμό, ενώ το σύνολο των στοιχείων των ομάδων που επελέγησαν αποτελούν το δείγμα. Με

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

9

τη διαδικασία αυτή κερδίζουμε σε χρόνο και χρήμα καθώς αποφεύγονται οι άσκοπες μετακινήσεις, ενώ είναι χρήσιμη όταν, κυρίως, είναι γνωστή η λίστα των ομάδων, όχι όμως ο κατάλογος με τα άτομα του πληθυσμού. Η δειγματοληψία κατά ομάδες δίνει καλύτερα αποτελέσματα όταν τα στοιχεία μέσα σε κάθε ομάδα είναι ανόμοια. Στην ιδανική περίπτωση η κάθε ομάδα είναι μια φωτογραφία, σε σμίκρυνση, του πληθυσμού. Η εγκυρότητα της δειγματοληψίας κατά ομάδες εξαρτάται από το πόσο αντιπροσωπευτική είναι κάθε ομάδα. Αν όλες οι ομάδες είναι όμοιες από αυτή την άποψη, παίρνοντας ένα μικρό αριθμό από ομάδες θα έχουμε καλές εκτιμήσεις για τις παραμέτρους του πληθυσμού. Παράδειγμα: Σε μία πόλη 100.000 κατοίκων θέλουμε να κάνουμε μία έρευνα, με δειγματοληψία, σχετική με τις διατροφικές συνήθειες των κατοίκων της. Διαιρούμε την πόλη σε ένα πλήθος 100 ομάδων με βάση τη χωροταξική της κατανομή και στη συνέχεια επιλέγουμε από το πλήθος των ομάδων με τυχαίο τρόπο, έστω, 5 ομάδες. Όλοι οι κάτοικοι των ομάδων που επιλέχθηκαν αποτελούν πλέον το ζητούμενο δείγμα.

!!! Με τις δειγματοληπτικές μεθόδους κατά στρώματα και κατά ομάδες ο πληθυσμός διαιρείται

σε καλά καθορισμένα γκρουπ. Προτείνεται η χρήση

δειγματοληψίας κατά στρώματα όταν υπάρχει μικρή διακύμανση εντός των γκρουπ, ενώ υπάρχει σημαντική διακύμανση μεταξύ των γκρουπ. Η δειγματοληψία κατά ομάδες προτείνεται στην ακριβώς αντίθετη περίπτωση κατά την οποία υπάρχει μεγάλη διακύμανση εντός του κάθε γκρουπ, ενώ τα γκρουπ είναι σημαντικά όμοια το ένα στο άλλο.

Δρ. Ευστάθιος Δ Δημητριάδης

10

INFERENTIAL STATISTICS

Σχήμα 1.1: Δειγματοληψία κατά στρώματα- Stratified sampling. Πληθυσμός

      

Στρώμα 1

Στρώμα 2

     

    

Στρώμα 3

    

Δείγμα

   Το παραπάνω σχήμα δίνει παραστατικά την περίπτωση της δειγματοληψίας κατά στρώματα. Παρατηρούμε ότι ο πληθυσμός αποτελείται από άτομα με ανομοιογενή χαρακτηριστικά (,,). Τον χωρίζουμε λοιπόν σε τρία στρώματα (στρώμα 1-, στρώμα 2- και στρώμα 3-) καθένα από τα οποία αποτελείται από ομοιογενή στοιχεία. Στη συνέχεια θα επιλέξουμε από κάθε στρώμα με τρόπο τυχαίο ένα αριθμό στοιχείων το σύνολο των οποίων θα αποτελέσει το δείγμα.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 11

Σχήμα 1.2: Δειγματοληψία κατά ομάδες- Cluster sampling Πληθυσμός          Ομάδα 1

        

Ομάδα 5

        

Ομάδα 9

        

        

        

        

        

Ομάδα 2

        

        

        

        

        

        

        

Ομάδα 3

        

Ομάδα 6

Ομάδα 4

        

        

Ομάδα 7

        

Ομάδα 10

Ομάδα 8

        

        

Ομάδα 11

        

Ομάδα 12

        

        

Δείγμα                            Παρατηρούμε ότι ο πληθυσμός χωρίζεται σε περιοχές οι οποίες θα μπορούσε να είναι και ανισομεγέθεις. Οι περιοχές αυτές αποτελούν τις ομάδες τα στοιχεία των οποίων είναι ανομοιογενή σε αντίθεση με τις ομάδες οι οποίες είναι ομοιογενείς. Επιλέγουμε ένα πλήθος n ομάδων με τυχαίο τρόπο και στη συνέχεια το πλήθος όλων των στοιχείων των επιλεγέντων ομάδων αποτελεί το τελικό δείγμα.

Δρ. Ευστάθιος Δ Δημητριάδης

12

INFERENTIAL STATISTICS

I.e Δειγματοληψίες πολλών φάσεων (ή σταδίων) -Multi stage sampling. Η δειγματοληψία πολλών φάσεων χρησιμοποιείται πιο συχνά από τη δειγματοληψία κατά ομάδες, με την οποία έχει κοινά χαρακτηριστικά. Η απλή δειγματοληψία πολλών φάσεων, γνωστή σαν δειγματοληψία δύο φάσεων, συνεπάγεται την επιλογή, με τυχαίο τρόπο, των ομάδων στην πρώτη φάση και στη δεύτερη φάση την επιλογή ατόμων, επίσης με τον ίδιο τρόπο, από τις επιλεγείσες ομάδες. Πιο σύνθετες περιπτώσεις αποτελούνται από περισσότερες φάσεις οι οποίες οδηγούν στην τελική επιλογή των στοιχείων του δείγματος. Ενδείκνυται σε περιπτώσεις κατά τις οποίες δεν υπάρχει ολόκληρη ή ικανή λίστα με τα στοιχεία του πληθυσμού και δεν υπάρχει τρόπος για να φτάσουμε σε αυτόν απευθείας. Παράδειγμα: Το υπουργείο Παιδείας θέλοντας να διερευνήσει παράγοντες σχετικούς με τους αλλοδαπούς μαθητές Ελληνικών Γυμνασίων/ Λυκείων αποφάσισε να κάνει μία δειγματοληπτική έρευνα. Τα δεδομένα είναι: 30.000 μαθητές και 500 σχολεία. Το επιθυμητό μέγεθος δείγματος 3.000 μαθητές, δηλαδή το 1/10 του πληθυσμού. Η απόκτηση του δείγματος θα γίνει με τη μέθοδο της δειγματοληψίας πολλών φάσεων. Στην πρώτη φάση θα επιλεγούν με τυχαίο τρόπο τα σχολεία από τη λίστα η οποία είναι διαθέσιμη. Στη δεύτερη φάση από τα επιλεγέντα σχολεία, με τυχαίο τρόπο, θα επιλεγούν οι μαθητές. Αν όλα τα σχολεία έχουν τον ίδιο αριθμό μαθητών η δημιουργία του δείγματος με αυτή τη μέθοδο μπορεί να επιτευχθεί με τέσσερις διαφορετικούς τρόπους στους οποίους διαδοχικά ελαττώνεται ο αριθμός των σχολείων 1.

Επιλέγουμε όλα τα σχολεία και στη συνέχεια το 1/10 των μαθητών αυτών.

2.

Επιλέγουμε το 1/2 των σχολείων και στη συνέχεια το 1/5 των μαθητών

αυτών. 3.

Επιλέγουμε το 1/5 των σχολείων και στη συνέχεια το 1/2 των μαθητών

αυτών. 4.

Επιλέγουμε το 1/10 των σχολείων και στη συνέχεια όλους τους μαθητές

αυτών.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 13

II. Μη τυχαία δειγματοληψία (Nonrandom or judgment sampling) είναι αυτή κατά την οποία η προσωπική γνώση και κρίση του ερευνητή είναι αυτή που καθορίζει τα στοιχεία εκείνα του πληθυσμού που θα αποτελέσουν μέρος του δείγματος. Χρησιμοποιείται σε πολλά ερευνητικά σχέδια, άλλοτε γιατί είναι κατάλληλη και άλλοτε γιατί είναι η μόνη διαθέσιμη. Μολονότι όμως η αναγκαιότητα μη τυχαίας δειγματοληψίας είναι προφανής σε μερικές περιπτώσεις, η χρήση της αυξάνει την αβεβαιότητα ότι το δείγμα είναι αντιπροσωπευτικό του πληθυσμού. Υπάρχουν έξι βασικές τεχνικές για την επιλογή μη τυχαίου δείγματος: II.a Δειγματοληψία με άνεση- Conveniences samples II.b Δειγματοληψία τυπική-Typical case samples II.c Δειγματοληψία με κρίση-Critical case samples II.d Δειγματοληψία χιονοστιβάδα-Snowball samples II.e Δειγματοληψία ποσοστών-Quota samples 1.2.2 Επιλογή δειγματοληπτικής μεθόδου Η επιλογή μιας δειγματοληπτικής μεθόδου δεν πρέπει να επαφίεται στην προσωπική φαντασία του ερευνητή. Πρέπει να λαμβάνονται υπόψη κατά την επιλογή της μεθόδου διάφοροι παράγοντες, κυριότερος των οποίων είναι ο ζητούμενος βαθμός ακρίβειας των αποτελεσμάτων, ενώ σημαντικοί είναι οι επόμενοι:  Η φύση των διαθέσιμων δεδομένων του πληθυσμού.  Ο βαθμός ομοιογένειας του πληθυσμού.  Έκταση του πεδίου της έρευνας.  Τα υλικά μέσα τα οποία διατίθενται.  Το κόστος της έρευνας.  Ο χρόνος ολοκλήρωσης της έρευνας. 1.2.3 Μέγεθος δείγματος Το πλήθος των μονάδων του δείγματος λέγεται μέγεθος δείγματος (Sample Size). Η αξία μιας εκτίμησης επηρεάζεται σημαντικά από το μέγεθος του δείγματος. Είναι φανερό ότι όσο πιο μεγάλο είναι το μέγεθος του δείγματος, τόσο λιγότερο η εκτίμηση θα διαφέρει της πραγματικής τιμής. Βέβαια, το σφάλμα μηδενίζεται όταν το μέγεθος του δείγματος φτάσει το μέγεθος του πληθυσμού, δηλαδή όταν η

Δρ. Ευστάθιος Δ Δημητριάδης

14

INFERENTIAL STATISTICS

δειγματοληψία μετατρέπει σε απογραφή. Το ζητούμενο όμως δεν είναι φυσικά να μηδενιστεί το σφάλμα, αλλά να περιοριστεί μέσα σε επιθυμητά όρια, ώστε η μεγαλύτερη δυνατή απόκλιση να μην ξεπερνάει καμία κρίσιμη τιμή. Η επιλογή του μεγέθους γίνεται συνήθως λαμβάνοντας υπόψη τα εξής: 1.

Το διαθέσιμο χρηματικό ποσό.

Στην περίπτωση αυτό το μέγεθος δίνεται από την σχέση: C= P + n*c, όπου: C: Συνολικό ποσό P: Πάγια έξοδα C: Έξοδα ανά ερωτηματολόγιο n: Πλήθος μονάδων 2.

Το επίπεδο εμπιστοσύνης και το δειγματοληπτικό σφάλμα.

Στην περίπτωση αυτή χρησιμοποιούμε τον τύπο:

n

( Z a 2 )2  2 E2

όπου:

Ζα/2 : είναι η τιμή από την Κανονική κατανομή, α : είναι το επίπεδο σημαντικότητας, σ2 : η διακύμανση του πληθυσμού και E : το μέγεθος του δειγματοληπτικού σφάλματος, το οποίο είναι συνήθως προκαθορισμένο. Αν η έρευνα γίνεται για να εκτιμηθεί το ποσοστό του πληθυσμού που έχει μια ορισμένη ιδιότητα, τότε χρησιμοποιούμε τον τύπο: n

( Z a / 2 ) 2  P (1  P ) E2

, όπου

P: το ποσοστό του πληθυσμού το οποίο είναι συνήθως άγνωστο και για να έχουμε την πλέον συντηρητική εκτίμηση παίρνουμε Ρ = 0,5. Τα υπόλοιπα στοιχεία του τύπου είναι όπως και στον προηγούμενο. Από τις εταιρίες έρευνας αγοράς, συνηθίζεται η επιλογή μεγέθους ίσου με το 20/00 του πραγματικού πληθυσμού, το οποίο σταθμιζόμενο κατάλληλα δίνει πολύ αξιόπιστα αποτελέσματα.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 15

!!! Ο χρυσός κανόνας για τη σωστή επιλογή του μεγέθους του δείγματος πρέπει να είναι ο εξής: «Το μέγεθος του δείγματος πρέπει να είναι τόσο, ώστε να συνδυάζεται η μέγιστη δυνατή αξιοπιστία των αποτελεσμάτων με τη μέγιστη δυνατή οικονομία σε χρόνο και χρήμα». !!! Η απόκτηση από επιχειρήσεις και οργανισμούς στοιχείων περισσοτέρων από όσα

πραγματικά

χρειάζονται

και

τα

οποία

δεν

ξέρουν

πώς

να

τα

χρησιμοποιήσουν, θεωρείται άσκοπη.

1.3 Συνεχής καταγραφή-Continuous Registration Σε πολλές περιπτώσεις στατιστικά στοιχεία συλλέγονται κατά τη λειτουργία της κρατικής μηχανής και των διαφόρων υπηρεσιών, με συνεχή καταγραφή. Τέτοια στοιχεία μπορεί να είναι:  Δημογραφικά στοιχεία από τα ληξιαρχεία  Στοιχεία εξωτερικού εμπορίου από τα τελωνεία  Στοιχεία τουριστικής κίνησης από τον Ε.Ο.Τ  Στοιχεία Δημόσιων Οικονομικών από το Υπουργείο Οικονομικών  Στοιχεία παραγωγής και κατανάλωσης Ηλεκτρικής Ενέργειας  Στοιχεία σχετικά για την ανεργία από τον Ο.Α.Ε.Δ  Στοιχεία σχετικά με την τηλεφωνία (σταθερή-κινητή) από τον Ο.Τ.Ε και τις διάφορες εταιρείες κ.λπ.

!!! Όταν επιλέγουμε δείγμα για μία έρευνα είναι απαραίτητο να κατασκευάσουμε ένα δειγματοληπτικό πλαίσιο- Sampling Frame. Δειγματοληπτικό πλαίσιο είναι ένας κατάλογος ατόμων τα οποία ανήκουν στον πληθυσμό από τον οποίο θα σχεδιάσουμε το δείγμα. Αν θέλουμε για παράδειγμα να κάνουμε μία έρευνα για τους ελεύθερους επαγγελματίες πολιτικούς μηχανικούς, σαν πλαίσιο καθορίζεται ο κατάλογος των μηχανικών των οποίων τα ονόματα βρίσκονται στο Χρυσό Οδηγό και όχι ο κατάλογος των μηχανικών που μπορεί και να μην υπάρχει.

!!! Πολλές φορές, κατά τη διάρκεια της συλλογής στοιχείων, συναντάμε άρνηση συμπλήρωσης ερωτηματολογίων χωρίς συγκεκριμένη αιτιολογία. Άλλες πάλι φορές ορισμένα ερωτηματολόγια είναι ατελώς ή λάθος συμπληρωμένα με

Δρ. Ευστάθιος Δ Δημητριάδης

16

INFERENTIAL STATISTICS

αποτέλεσμα να μη λαμβάνονται υπόψη στο τελικό δείγμα. Με τον ένα ή άλλο τρόπο όμως το τελικό μέγεθος του δείγματος είναι μικρότερο από αυτό που σχεδιάσαμε με αποτέλεσμα οι εκτιμήσεις που θα κάνουμε να μην είναι βασισμένες σε δείγμα αντιπροσωπευτικό. Για το λόγο αυτό είναι χρήσιμο από την αρχή να καθορίζουμε, με βάση ανάλογες έρευνες και προηγούμενη εμπειρία, τον Βαθμό Ανταπόκρισης-Response Rate- έτσι ώστε να προσδιορίζουμε το Πραγματικό μέγεθος του δείγματος που πρέπει να επιλέξουμε για να πετύχουμε το ελάχιστο σχεδιασθέν μέγεθος δείγματος. Αν για παράδειγμα υπολογίζουμε τον βαθμό ανταπόκρισης σε 70% και το σχεδιασθέν δείγμα σε 500 στοιχεία, τότε το πραγματικό μέγεθος του δείγματος πρέπει να είναι: 500*100/70=714 στοιχεία.

Dr. Efstathios D Dimitriadis

ΚΕΦΑΛΑΙΟ 2Ο

Κατανομές Distributions

18 INFERENTIAL STATISTICS

2. Εισαγωγή Οι κατανομές διακρίνονται σε κατανομές συχνοτήτων, κατανομές πιθανοτήτων και σε δειγματοληπτικές κατανομές. Στη συνέχεια θα γίνει αναλυτική περιγραφή αυτών.

2.1 Κατανομές Συχνοτήτων (Frequency Distributions) Με τον όρο κατανομή συχνοτήτων αναφερόμαστε σε έναν πίνακα στον οποίο αναγράφονται όλες οι τιμές της μεταβλητής και οι αντίστοιχες συχνότητες. Πίνακας 2.1: Παράδειγμα κατανομής συχνοτήτων Αριθμός παιδιών ανά οικογένεια Χi

Πλήθος οικογενειών Fi

0

50

1

250

2

360

3

120

4

80

5

40

Σύνολο

900

2.2 Κατανομές πιθανοτήτων (Probability Distributions) Με τον όρο κατανομή πιθανοτήτων αναφερόμαστε σε έναν πίνακα στον οποίο αναγράφονται

όλες οι τιμές της μεταβλητής και οι αντίστοιχες πιθανότητες

εμφάνισης αυτών των τιμών. Οι κατανομές πιθανοτήτων σχετίζονται με τις κατανομές συχνοτήτων. Στην πραγματικότητα μπορούμε να δούμε μια κατανομή πιθανοτήτων σαν μια θεωρητική κατανομή συχνοτήτων. Τι σημαίνει αυτό; Η θεωρητική κατανομή συχνοτήτων είναι η κατανομή πιθανοτήτων η οποία περιγράφει τα αναμενόμενα αποτελέσματα. Πίνακας 2.2: Παράδειγμα κατανομής πιθανοτήτων Αριθμός παιδιών ανά οικογένεια Χi

Πιθανότητα Pi

0

0,056

1

0,278

2

0,400

3

0,133

4

0,089

5

0,044

Σύνολο

1,000

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

19

2.2.1 Πείραμα τύχης (Εxperiment) Πείραμα τύχης είναι κάθε διαδικασία η οποία παράγει καλώς καθορισμένα αποτελέσματα. Αυτό σημαίνει ότι σε κάθε απλή επανάληψη ένα και μόνο ένα πιθανό αποτέλεσμα θα εμφανιστεί. 2.2.2 Δειγματικός χώρος πειράματος τύχης (Sample space). Το σύνολο των δυνατών αποτελεσμάτων ενός πειράματος τύχης (Experimental outcomes) προσδιορίζει το Δειγματικό χώρο του πειράματος. 2.2.3 Βασική αρχή απαρίθμησης (Counting Roules) Αν ένα πείραμα τύχης μπορεί να περιγραφεί σαν μία διαδικασία k βημάτων για την οποία υπάρχουν n1 δυνατά αποτελέσματα στο 1ο βήμα, n2 δυνατά αποτελέσματα στο 2ο βήμα και nk στο τελευταίο βήμα, τότε ο συνολικός αριθμός των δυνατών αποτελεσμάτων δίνεται από το γινόμενο: (n1)·( n2)·.…….·(nk). 2.2.4 Τυχαία Μεταβλητή (Random Variable) Τυχαία Μεταβλητή είναι η αριθμητική περιγραφή των αποτελεσμάτων ενός πειράματος τύχης. 2.2.4.1 Aσυνεχής τυχαία μεταβλητή (Discrete Random Variable) Aσυνεχής τυχαία μεταβλητή είναι αυτή που παίρνει ένα πεπερασμένο πλήθος τιμών ή ένα άπειρο πλήθος τιμών από μία ακολουθία τιμών, όπως: 0,1,2,… 2.2.4.2 Συνεχής τυχαία μεταβλητή (Continous Random Variable) Συνεχής τυχαία μεταβλητή είναι αυτή που παίρνει οποιαδήποτε τιμή ενός διαστήματος ή ενός συνόλου διαστημάτων. 2.2.5 Συνάρτηση πιθανότητας (Probability Function) Για μία τυχαία μεταβλητή η κατανομή πιθανοτήτων προσδιορίζεται από μία συνάρτηση πιθανότητας P(x) για την οποία ισχύουν:  0  P( x )  1 

 P( x )  1

Δρ. Ευστάθιος Δ Δημητριάδης

20 INFERENTIAL STATISTICS

2.2.6 Κατανομές πιθανοτήτων ασυνεχούς τυχαίας μεταβλητής (Probability Distributions of a Discrete Random Variable) Η κατανομή πιθανοτήτων μιας διακριτής τυχαίας μεταβλητής είναι ένα γράφημα, ένας πίνακας ή ένας μαθηματικός τύπος ο οποίος καθορίζει την πιθανότητα την οποία κάθε δυνατή τιμή της τυχαίας μεταβλητής μπορεί να λάβει. Ορισμένες βασικές παράμετροι ασυνεχών κατανομών δίνονται στη συνέχεια. Μέση τιμή (Mean) ή αναμενόμενη τιμή (Expected value) ή Μαθηματική ελπίδα δίνεται από τη σχέση: E( x)     x  P( x ) (1), όπου P(x) η πιθανότητα εμφάνισης της τιμής χ.





Διακύμανση (Variance) δίνεται από τη σχέση: σ2=  x 2  P( x)   2 (2) και Τυπική απόκλιση (Std. Deviation) είναι ίση με:    2 (3). Μεταξύ των ασυνεχών κατανομών αυτές οι οποίες παρουσιάζουν μεγαλύτερο ενδιαφέρον

είναι

η

Διωνυμική

κατανομή,

η

κατανομή

Poisson

και

η

Υπεργεωμετρική κατανομή. Στη συνέχεια θα αναφερθούμε αναλυτικά στην Διωνυμική κατανομή και στην κατανομή Poisson. 2.2.6.1 Διωνυμική Κατανομή (Binomial Distribution) Η Διωνυμική κατανομή ή διαδικασία Bernoulli (Bernoulli prosess) είναι ασυνεχής κατανομή πιθανότητας η οποία έχει πολλές εφαρμογές σε πειράματα πολλών βημάτων. Τη συμβολίζουμε με Χ~Β(n,p) και διαβάζουμε, «η μεταβλητή Χ ακολουθεί την διωνυμική κατανομή με συντελεστές n και p». Ιδιότητες:  Το πείραμα αποτελείται από μια σειρά πανομοιότυπων δοκιμών.  Σε κάθε δοκιμή δύο μόνο αποτελέσματα μπορεί να υπάρχουν. Το ένα το αναφέρουμε σαν επιτυχία (success) και το άλλο σαν αποτυχία (failure).  Την πιθανότητα της επιτυχίας τη συμβολίζουμε με p και την πιθανότητα της αποτυχίας με q, είναι δε σταθερές σε όλη τη διάρκεια του πειράματος. Ισχύει p+q=1 (4).  Οι δοκιμές είναι ανεξάρτητες.  Η τυχαία μεταβλητή Χ μετράει τον αριθμό των επιτυχιών και μπορεί να παίρνει τιμές από 0 έως n.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

21

Συνάρτηση πιθανότητας: n P( X  x )     p x  q n  x (5) με χ = 0,1,2,3,…..,n. x Η συνάρτηση αυτή δίνει την πιθανότητα να έχουμε ακριβώς χ επιτυχίες σε n επαναλήψεις του πειράματος.  Το n εκφράζει τον αριθμό των επαναλήψεων του πειράματος  Το p εκφράζει την πιθανότητα επιτυχίας σε κάθε επανάληψη και το q την πιθανότητα αποτυχίας. n  Ο Διωνυμικός συντελεστής   δίνει τους συνδυασμούς των n ανά χ x n n! στοιχείων και είναι ίσος με:   = (6).  x  x! (n  x)! Σημείωση:  Αν θέλουμε το πολύ χ επιτυχίες, δηλαδή P(X  x ) τότε εργαζόμαστε ως εξής: P (X  x ) = P (X  0)  P(X  1)  .....  P(X  x )

 Αν θέλουμε λιγότερες από χ επιτυχίες, δηλαδή P(X  x ) τότε εργαζόμαστε ως εξής: P(X  x ) = P(X  0)  P(X  1)  .....  P(X  x  1)  Αν θέλουμε τουλάχιστον χ επιτυχίες, δηλαδή P(X  x ) τότε εργαζόμαστε ως εξής: P(X  x ) =1- P(X  x )  1- P(X  0)  P(X  1)  .....  P(X  x  1)  Αν θέλουμε περισσότερες από χ επιτυχίες, δηλαδή P(X  x ) τότε εργαζόμαστε ως εξής: P(X  x ) =1- P(X  x )  1- P(X  0)  P(X  1)  .....  P(X  x )

!!! Όλα τα ανωτέρω ισχύουν με την προϋπόθεση ότι η τιμή του χ είναι πλησιέστερα στο 0 παρά στο η. Σε διαφορετική περίπτωση ακολουθούμε τη διαδικασία που θεωρούμε συντομότερη.

Δρ. Ευστάθιος Δ Δημητριάδης

22 INFERENTIAL STATISTICS

Παράμετροι Διωνυμικής Κατανομής Μέση τιμή: E( x )    np (7).

Διακύμανση: Var(X)=σ2= npq (8). Τυπική απόκλιση:   npq (9). Συντελεστής Ασυμμετρίας: S k

2  q  p 

npq

(10).

 Αν p=q τότε Sk=0 (συμμετρική κατανομή).  Αν το n είναι πολύ μεγάλο (τείνει στο άπειρο) ο Sk τείνει στο 0 ανεξαρτήτως p και q.  Όσο μεγαλύτερη διαφορά υπάρχει μεταξύ p και q τόσο πιο ασύμμετρη είναι η κατανομή Συντελεστής Κυρτότητας:   3 

1  6pq (11). npq

1ο Παράδειγμα: Το πέντε τις εκατό (5%) των οδηγών φορτηγών αυτοκινήτων στην Αμερική είναι γυναίκες. Υποθέτουμε ότι θα επιλέξουμε τυχαία 10 οδηγούς φορτηγών με σκοπό να πληροφορηθούμε σχετικά με τις συνθήκες εργασίας τους. a. Είναι η επιλογή των 10 οδηγών ένα διωνυμικό πείραμα; b. Ποια είναι η πιθανότητα 2 από τους οδηγούς να είναι γυναίκες; c. Ποια είναι η πιθανότητα κανένας από τους οδηγούς να μην είναι γυναίκα; d. Ποια είναι η πιθανότητα τουλάχιστον ένας από τους οδηγούς να είναι γυναίκα; Λύση: a. Επειδή έχουμε δύο δυνατά αποτελέσματα (άνδρας- γυναίκα) με σταθερή πιθανότητα (5% και 95%) μπορούμε να πούμε ότι η μεταβλητή Χ η οποία μετράει αριθμό γυναικών οδηγών ακολουθεί την διωνυμική κατανομή. Χ~Β(10, 0,05). b. Ζητάμε P(X  2). Με δεδομένο ότι p=0,05 , q=0,95 και n=10 θα έχουμε από 10  2 

τον τύπο (5) : P(X  2)   0,05 2  0,958   45  0,0025  0,66342  7,46%

c. Ζητάμε P(X  0).

Dr. Efstathios D Dimitriadis

10! 0,0025  0,66342 = 2!(10  2)!

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

23

10  10! P(X  0)   0,05 0  0,9510  1  0,5987  1  1  0,5987  59,87% 0 0 ! ( 10  0)!  

d. Ζητάμε P(X  1). P(X  1)  1  P(X  1)  1  P(X  0)  1  0,5987  0,4013  40,13%.

2ο Παράδειγμα: Ένα τοπικό κρεοπωλείο κατέγραψε το πλήθος των πελατών οι οποίοι πληρώνουν τοις μετρητοίς για μια περίοδο 10 ημερών. Τα αποτελέσματα εμφανίζονται στον επόμενο πίνακα. Ημέρα

Πλήθος πελατών

Πληρωμή με μετρητά

1

58

28

2

64

38

3

150

82

4

120

75

5

210

84

6

84

51

7

90

63

8

124

92

9

218

165

10

102

54

Σύνολο

1220

732

Από τα παραπάνω δεδομένα να υπολογίσετε την πιθανότητα ένας τυχαία επιλεγμένος πελάτης να πληρώσει τοις μετρητοίς. Χρησιμοποιώντας την τιμή της πιθανότητας που υπολογίσατε προσδιορίστε την πιθανότητα: a.

Τουλάχιστον 5 πελάτες, σε ένα δείγμα 10 πελατών, να πληρώσουν τοις

μετρητοίς b.

Λιγότεροι από 17 πελάτες να πληρώσουν τοις μετρητοίς σε ένα δείγμα 20

πελατών και c.

Μεταξύ 30% και 60% των πελατών, σε ένα δείγμα 10 πελατών, να μην

πληρώσουν τοις μετρητοίς

Δρ. Ευστάθιος Δ Δημητριάδης

24 INFERENTIAL STATISTICS

2.2.6.2 Προσαρμογή εμπειρικής σε διωνυμική κατανομή Σε ένα τεστ, 2000 άτομα κλήθηκαν να απαντήσουν σε ένα σετ 4 ερωτήσεων. Η μεταβλητή χ μετράει επιτυχημένες απαντήσεις και τα αποτελέσματα παρουσιάζονται στον πίνακα 2.3. Πίνακας 2.3 xi

fi

0

396

0

1

790

790

2

592

1184

3

198

594

4

24

96

2000

2664

Σύνολο

fi xi

Από τον τύπο του αριθμητικού μέσου βρίσκουμε: x 

 fi x i 

=

2664  1,332 . 2000

Αυτό σημαίνει ότι κατά μέσο όρο σε κάθε σετ 4 ερωτήσεων απαντήθηκαν σωστά 1.332 ερωτήσεις. Στη συνέχεια από τον τύπο E ( x )    np με αντικατάσταση έχουμε: 1,332=4·p  p 

1,332  p  0,333 που δηλώνει ότι η πιθανότητα ένα τυχαία 4

επιλεγμένο άτομο να απαντήσει σωστά είναι 33,3%. Επομένως η πιθανότητα να απαντήσει λάθος θα είναι: q=1-0,333=0,667=66,7%. Με βάση λοιπόν τα p και q που υπολογίσαμε θα προσδιορίσουμε την πιθανότητα ο αριθμός των σωστών απαντήσεων να είναι 0, 1, 2, 3 και 4 αντίστοιχα, χρησιμοποιώντας τον τύπο της διωνυμικής κατανομής.  4 4! P (X  0)   0,3330 0,667 4   1  0,19793  0,19793  19,79% 0 0 ! ( 4  0)!    4 4! P (X  1)   0,3331 0,667 3   0,333  0,29674  4  0,333  0,29674  39,53% 1! (4  1)! 1   4 4! P (X  2)   0,333 2 0,667 2   0,110889  0,444889  6  0,110889  0,444889  29,59% 2! (4  2)!  2  4 4! P (X  3)   0,3333 0,6671   0,037  0,667  4  0,037  0,667  9,87% 3 3 ! ( 4  3)!    4 4! P (X  4)   0,333 4 0,667 0   0,0123 1  1 0,0123  1,23% 4! (4  4)!  4

Στη συνέχεια από τον αρχικό πίνακα 2.3 θα έχουμε τις θεωρητικές συχνότητες.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

25

Πίνακας 2.3.1 Θεωρητικές συχνότητες xi

fi

P(X=x)

0

396

0,1979

1

790

0,3953

2

592

0,2959

3

198

0,0986

4

24

0,0123

2000

1,0000

Σύνο

 f i  P ( X i )   f i 395,8 790,6 591,8 197,2 24,6 2000,0

λο

Από

τη

σύγκριση

μεταξύ

εμπειρικών

και

θεωρητικών

συχνοτήτων

διαπιστώνουμε καλή προσαρμογή της εμπειρικής από τη διωνυμική κατανομή.

2.2.6.3 Κατανομή Poisson Η κατανομή Poisson είναι μία ασυνεχής κατανομή εξίσου σημαντική με τη Διωνυμική, η οποία είναι χρήσιμη στο να εκτιμηθούν διάφορα συμβάντα που έχουν λάβει χώρα σε ένα συγκεκριμένο διάστημα χρόνου ή χώρου. Για παράδειγμα η τυχαία μεταβλητή που μας ενδιαφέρει μπορεί να είναι ο αριθμός των αυτοκινήτων που επισκέφθηκαν ένα πλυντήριο αυτοκινήτων μέσα σε ένα διάστημα μίας ώρας ή ο αριθμός των επισκευών που χρειάστηκαν τα αυτοκίνητα σε μία διαδρομή 1000 χιλιομέτρων. Τη συμβολίζουμε με Χ~Ρ(λ) και διαβάζουμε «η τυχαία μεταβλητή Χ ακολουθεί την κατανομή Poisson με συντελεστή λ». Ιδιότητες:  Η πιθανότητα του να συμβεί ένα γεγονός είναι ίδια για κάθε δύο διαστήματα ιδίου πλάτους.  Η πραγματοποίηση ή η μη πραγματοποίηση ενός γεγονότος σε ένα διάστημα είναι ανεξάρτητη από την πραγματοποίηση ή τη μη πραγματοποίηση σε κάθε άλλο διάστημα. Συνάρτηση πιθανότητας: P( X  x )  x 

e  x!

(12).

Η συνάρτηση αυτή δίνει την πιθανότητα να πραγματοποιηθούν ακριβώς χ γεγονότα σε ένα διάστημα.

Δρ. Ευστάθιος Δ Δημητριάδης

26 INFERENTIAL STATISTICS

 Το λ εκφράζει τον μέσο όρο των πραγματοποιηθέντων γεγονότων σε ένα διάστημα.  e=2,71828 Παράμετροι κατανομής Poisson: Μέση τιμή: E( x)    np (13) Διακύμανση: Var(X)=σ2=λ (14) Τυπική απόκλιση:    (15) Συντελεστής Ασυμμετρίας: S k 

1 

(16)

Συντελεστής Κυρτότητας:   3 

1 

(17)

Παράδειγμα: Ταξιδιώτες φθάνουν τυχαία και ανεξάρτητα στο σταθμό ελέγχου αποβιβάσεων ενός αεροδρομίου. Ο μέσος αριθμός αφίξεων είναι 10 ταξιδιώτες ανά λεπτό. a. Ποια η πιθανότητα στη διάρκεια ενός λεπτού να μη φθάσει κανείς ταξιδιώτης; b. Ποια η πιθανότητα να φθάσουν το πολύ 3 ταξιδιώτες στη διάρκεια ενός λεπτού; c. Ποια η πιθανότητα στη διάρκεια 15 δευτερολέπτων να μη φθάσει κανείς ταξιδιώτης; d. Ποια η πιθανότητα στη διάρκεια 15 δευτερολέπτων να φθάσει τουλάχιστον 1 ταξιδιώτης; Λύση: a.

Ζητάμε την πιθανότητα P(x=0). Με λ=10 και αντικατάσταση στον τύπο 12

θα έχουμε: P(X  0)  10 0

e 10  0,000045399  0,00454% 0!

b. Ζητάμε την πιθανότητα P(X≤3). P (X  3)  P(X  0)  P(X  1)  P(X  2)  P(X  3)

= 10 0

e 10 e 10 e 10 e 10  101  10 2  10 3  0,0000454+0,000454+0,00227+0,00757= 0! 1! 2! 3!

 0,0103394=1,03394%.

c. Πρέπει πρώτα να βρούμε τη νέα τιμή του λ. Γνωρίζοντας ότι στα 60΄ φθάνουν

10 ταξιδιώτες, είναι εύκολο να υπολογίσουμε ότι στα 15΄΄ αντιστοιχούν

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

27

(15*10)/60=2,5 ταξιδιώτες. Με λ=2,5 πλέον θέλουμε την πιθανότητα: P(X=0). P (X  0)  2,5 0

e 2,5  0,0821 0!

ή 8,21%.

d. Ζητάμε την πιθανότητα P(X≥1) με λ=2,5. Για τον υπολογισμό της πρέπει να

κάνουμε τον εξής μετασχηματισμό: P(X≥1)=1- P(X5. Ικανοποιούνται και οι δύο απαραίτητες συνθήκες (26) και συνεπώς μπορούμε να ισχυριστούμε ότι η δειγματοληπτική κατανομή της δειγματικής αναλογίας p μπορεί να προσεγγιστεί από την κανονική κατανομή.

Δρ. Ευστάθιος Δ Δημητριάδης

42 INFERENTIAL STATISTICS

ΑΣΚΗΣΕΙΣ 1. Ένας παίκτης του μπάσκετ έχει ποσοστό επιτυχίας από τη γραμμή των ελεύθερων βολών 80%. Ποια η πιθανότητα να χάσει από τη γραμμή των ελεύθερων βολών 3 από τις 5 διαδοχικές βολές τις οποίες θα επιχειρήσει; 2. Στην Καλιφόρνια το 30% των ανθρώπων έχουν συγκεκριμένη ομάδα αίματος. Ποια η πιθανότητα ακριβώς 5 άτομα, τυχαία επιλεγμένα, από ένα σύνολο 14 ατόμων να έχει την ίδια ομάδα αίματος; 3. Το 90% των ψηφοφόρων μιας περιοχής δεν ψήφισε συγκεκριμένο υποψήφιο στις εκλογές του 2000. Ποια η πιθανότητα σε ένα τυχαία επιλεγμένο δείγμα 12 ψηφοφόρων της περιοχής 2 να ψήφισαν τον συγκεκριμένο υποψήφιο; 4. Το 75% των εισαχθέντων αυτοκινήτων το 1984 στις Η.Π.Α έχουν αποσυρθεί. α. Να καθοριστεί η κατανομή πιθανοτήτων των αυτοκινήτων που έχουν αποσυρθεί σε ένα τυχαίο δείγμα 5 αυτοκινήτων. β. Να υπολογιστούν ο αριθμητικός μέσος και η τυπική απόκλιση αυτής της κατανομής. 5. Μία μηχανή παράγει εξαρτήματα, το 5% των οποίων είναι ελαττωματικά. Αν σε τυχαίο δείγμα 10 εξαρτημάτων τουλάχιστον 2 είναι ελαττωματικά η μηχανή αποσύρεται για διόρθωση. Να καθοριστεί η πιθανότητα, κάτω από αυτές τις συνθήκες, να αποσυρθεί. 6. Ο αριθμός των ακέφαλων σπίρτων σε κουτιά των 50 σπίρτων σε σύνολο 100 κουτιών δίνεται στον επόμενο πίνακα. Ακέφαλα σπίρτα

Αριθμός κουτιών

0

12

1

27

2

29

3

19

4

8

5

4

6

1

Σύνολο

Dr. Efstathios D Dimitriadis

100

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

43

α. Να γίνει προσαρμογή της εμπειρικής σε διωνυμική κατανομή. β. Να υπολογιστούν τα βασικά στατιστικά μέτρα. 7. Από ένα κουτί που περιέχει μπάλες, επιλέγουμε διαδοχικά και με επανατοποθέτηση 150 φορές από 5 μπάλες. Τα αποτελέσματα των επιλογών αυτών εμφανίζονται στον επόμενο πίνακα, με τη διευκρίνιση ότι το χ μετράει αριθμό γαλάζιων μπαλών. Γαλάζιες μπάλες

Συχνότ ητα

0

12

1

18

2

42

3

36

4

24

5

18

Σύνολο

150

α. Να γίνει προσαρμογή της εμπειρικής σε διωνυμική κατανομή. β. Να υπολογιστούν τα βασικά στατιστικά μέτρα. 8. Ένα προϊόν συσκευάζεται σε κιβώτια των 6 τεμαχίων. Παίρνουμε στην τύχη 500 κιβώτια και ελέγχουμε τον αριθμό των ελαττωματικών σε κάθε κιβώτιο. Τα αποτελέσματα εμφανίζονται στον επόμενο πίνακα. Αριθμός ελαττωματικών ανά κιβώτιο

Αριθμός κιβωτίων

0

65

1

145

2

160

3

90

4

25

5

10

6

5

Σύνολο

500

α. Να γίνει προσαρμογή της εμπειρικής σε διωνυμική κατανομή β. Να υπολογιστούν τα βασικά στατιστικά μέτρα.

Δρ. Ευστάθιος Δ Δημητριάδης

44 INFERENTIAL STATISTICS

9. Η τροχαία καταγράφοντας τον εβδομαδιαίο αριθμό ατυχημάτων στην περιοχή ευθύνης της διαπίστωσε ότι κατά μέσο όρο 4 ατυχήματα συμβαίνουν κάθε εβδομάδα. Ποια η πιθανότητα μία συγκεκριμένη εβδομάδα να συμβούν ακριβώς 3 ατυχήματα; Ποια η πιθανότητα να συμβούν τουλάχιστον 2 ατυχήματα; 10. Το κέντρο κράτησης θέσεων της αεροπορικής εταιρείας Regional Airways δέχεται 48 κλήσεις την ώρα. α. Ποια η πιθανότητα να δεχθεί ακριβώς 3 κλήσεις σε διάστημα 5 λεπτών; β. Ποια η πιθανότητα να δεχθεί ακριβώς 10 κλήσεις σε διάστημα 15 λεπτών; γ. Ποια η πιθανότητα ο υπάλληλος του κέντρου επί 5 λεπτά να μην έχει δουλειά; 11. Σε ένα σχολείο έγινε εμβολιασμός 2000 μαθητών. Η πιθανότητα να αρρωστήσει κάποιος μαθητής από την αντίδραση του εμβολίου είναι 0,001. Ποια η πιθανότητα από το σύνολο των 2000 μαθητών να ασθενήσουν: α. Ακριβώς 2 μαθητές β. Το πολύ 2 μαθητές γ. Περισσότεροι από 2 μαθητές. 12. Ο Δήμος Καβάλας τοποθέτησε για τη φωταγώγηση της πόλης 20.000 λάμπες την 1η Ιανουαρίου του 2003. Με δεδομένο ότι οι λάμπες παραμένουν αναμμένες 5 ώρες στη διάρκεια του εικοσιτετραώρου, η μέση διάρκεια ζωής αυτών υπολογίζεται σε 1500 ώρες με τυπική απόκλιση 100 ώρες, να υπολογισθούν a. Ο αριθμός των λαμπτήρων που θα αντικατασταθούν το πολύ σε 1600 ώρες. b. Ο αριθμός των λαμπτήρων που θα αντικατασταθούν μετά από 1750 ώρες. c. Ο αριθμός των λαμπτήρων που θα αντικατασταθούν μέχρι την 17η Οκτωβρίου (290 ημέρες). d. Ο αριθμός των λαμπτήρων που θα αντικατασταθούν σε περισσότερες από 280 ημέρες. e. Ο αριθμός των λαμπτήρων που θα διαρκέσουν από 1450 έως 1650 ώρες. f. Ο αριθμός των λαμπτήρων που θα διαρκέσουν από 1650 έως 1700 ώρες. g. Ο αριθμός των λαμπτήρων που θα διαρκέσουν από 1350 έως 1400 ώρες 13. Ο Δήμος Καβάλας τοποθέτησε για τη φωταγώγηση της πόλης 20.000 λάμπες την 1η Ιανουαρίου του 2003. Με δεδομένο ότι οι λάμπες παραμένουν αναμμένες 5 ώρες στη διάρκεια του εικοσιτετραώρου, αν γνωρίζουμε ότι ο αριθμός των λαμπών

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

45

οι οποίες θα αντικατασταθούν σε 320 ημέρες είναι 16.826, ενώ ο αριθμός αυτών που θα διαρκέσουν περισσότερο από 350 ημέρες είναι 124, να υπολογισθούν η μέση τιμή και η τυπική απόκλιση της κατανομής, με την προϋπόθεση ότι η διάρκεια ζωής των λαμπών ακολουθεί την κανονική κατανομή. 14. Έρευνα σε 20.000 λάμπες έδειξε ότι διαρκούν κατά μέσο όρο 1500 ώρες, με τυπική απόκλιση 100 ώρες. a. Αν υποθέσουμε ότι 1970 λάμπες, διήρκεσαν πολύ περισσότερες από τις αναμενόμενες ώρες, να προσδιορισθούν οι ώρες. b. Αν υποθέσουμε ότι 2984 λάμπες διαρκούν λιγότερο από τις υπόλοιπες να προσδιοριστεί ο αριθμός των ωρών. 15. Ένα ξενοδοχείο καταγράφει το πλήθος των κρατήσεων οι οποίες γίνονται απευθείας, τηλεφωνικά ή με άλλο τρόπο. Τα δεδομένα για 12 εβδομάδες εμφανίζονται στον επόμενο πίνακα. Εβδομάδα

Απευθείας

Τηλεφωνικά

Με άλλο τρόπο

Σύνολο

1

104

150

35

289

2

85

121

24

230

3

74

65

45

184

4

73

143

130

346

5

86

243

45

374

6

35

150

182

367

7

404

225

122

751

8

108

194

76

378

9

126

124

125

375

10

148

128

75

351

11

212

184

99

495

12

225

193

242

660

Σύνολο

1680

1920

1200

4800

Από τα παραπάνω δεδομένα να υπολογίσετε το ποσοστό αυτών που κάνουν κράτηση απευθείας, τηλεφωνικά και με άλλο τρόπο. Επίσης το ποσοστό αυτών που δεν κάνουν κράτηση απευθείας. Χρησιμοποιώντας τα παραπάνω ποσοστά να υπολογίσετε την πιθανότητα:

Δρ. Ευστάθιος Δ Δημητριάδης

46 INFERENTIAL STATISTICS

a.

Τουλάχιστον 18 πελάτες να έχουν κάνει κράτηση απευθείας, σε ένα δείγμα

20 πελατών. b.

Ακριβώς 5 πελάτες, σε ένα δείγμα 20 πελατών, να μην έχουν κάνει κράτηση

απευθείας. c.

Μεταξύ 40% και 70% των πελατών να έχουν κάνει τηλεφωνική κράτηση,

σε δείγμα 10 πελατών. 16. Μια επιχείρηση καταγράφει το πλήθος των υπαλλήλων που απουσιάζουν καθημερινά για μια περίοδο 80 ημερών. Τα αποτελέσματα παρουσιάζονται στον παρακάτω πίνακα. Απουσίες

0

1

2

3

4

5

6

7

8

9

10

Ημέρες

6

9

12

18

18

9

4

0

3

0

1

a. Υπολογίστε τον μέσο αριθμό απουσιών ανά ημέρα. b. Χρησιμοποιώντας τον μέσο που υπολογίσατε, βρείτε την πιθανότητα να υπάρχουν 0,1,2 απουσίες σε μία ημέρα. 17. Ένα μηχάνημα ανοίγει τρύπες σε ξύλα. Η διάμετρος των τρυπών κατανέμεται κανονικά με μέση τιμή 550mm και τυπική απόκλιση 1mm. Ποια είναι η πιθανότητα ένα τυχαία επιλεγμένο ξύλο να έχει τρύπα της οποίας η διάμετρος: a. Είναι μικρότερη από 550mm b. Μεταξύ 548 και 552 mm c. Υπολογίστε τα όρια μεταξύ των οποίων βρίσκεται το 99% των διαμέτρων των τρυπών. Ξύλα με τρύπες μικρής διαμέτρου μπορεί να ξανατρυπηθούν, ενώ ξύλα με τρύπες μεγάλης διαμέτρου θεωρούνται ελαττωματικά και απορρίπτονται. Αν ένας πελάτης θέλει ξύλα με τρύπες διαμέτρου μεταξύ 549 κι 551 mm να υπολογίσετε: a. Το ποσοστό των ξύλων που θα πρέπει να ξανατρυπηθούν και b. Το ποσοστό των ξύλων που θα πρέπει να πεταχτούνε. 18. Το μέσο βάρος ενήλικων σε έναν πληθυσμό ο οποίος κατανέμεται κανονικά είναι 69 κιλά και η τυπική απόκλιση 8,5 κιλά. a. Ποια είναι η πιθανότητα ένα γκρουπ 12 ενήλικων να ζυγίζει περισσότερα από 900 κιλά;

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ

47

b. Οι κανόνες υγιεινής και ασφάλειας απαιτούν το μέγιστο βάρος σε ορισμένα ασανσέρ να μην υπερβαίνουν τα 1.000 κιλά. Ποια είναι η πιθανότητα ένα γκρουπ 14 ατόμων να υπερβαίνει τα 1.000 κιλά; Ποιο είναι το μέγιστο βάρος για το 99% των γκρουπ των 14 ατόμων και των 12 ατόμων; 19. Ο μέσος όρος εβδομαδιαίων ωρών εργασίας για τις γυναίκες, σύμφωνα με έρευνα του Ινστιτούτου Εργασίας, είναι 32,4 ώρες με τυπική απόκλιση 3,84 ώρες. Υποθέτοντας ότι οι ώρες εργασίας ακολουθούν την κανονική κατανομή: a. Υπολογίστε το ποσοστό των γυναικών που δουλεύουν (i) περισσότερες από 40 ώρες, (ii) μεταξύ 35 και 40 ώρες και (iii) λιγότερες από 30 ώρες την εβδομάδα. b. Αν ένας ερευνητής επιλέξει τυχαία 300 γυναίκες, πόσες από αυτές δουλεύουν (i) λιγότερες από 40 ώρες, (ii) μεταξύ 35 και 40 ώρες και (iii) περισσότερες από 30 ώρες την εβδομάδα. 20. Βιομηχανία κατασκευής μπαταριών λιθίου ισχυρίζεται ότι η μέση διάρκεια ζωής είναι 3.600 ώρες με τυπική απόκλιση 250 ώρες. a. Τι ποσοστό μπαταριών θα διαρκέσουν περισσότερο από 3.500 ώρες; b. Τι ποσοστό μπαταριών θα διαρκέσουν περισσότερο από 4.000 ώρες; c. Τι ποσοστό μπαταριών θα διαρκέσουν μεταξύ 3.500 και 4.000 ωρών; d. Αν 800 πουληθούν μπαταρίες, πόσες από αυτές θα διαρκέσουν μεταξύ 3.400 και 3.800 ωρών; e. Αν το κόστος αντικατάστασης για κάθε μπαταρία με εγγύηση είναι 10 €, πόσες ώρες πρέπει ο κατασκευαστής να θέσει ως ελάχιστο όριο εγγύησης ζωής αν το ποσοστό των μπαταριών που πρέπει να αντικατασταθούν είναι 5% ή μικρότερο; f. Μεταξύ ποιών ορίων βρίσκεται η διάρκεια του 95% όλων των μπαταριών;

Δρ. Ευστάθιος Δ Δημητριάδης

ΚΕΦΑΛΑΙΟ 3Ο Διαστήματα Εμπιστοσύνης Confidence Intervals

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 49

3. Εισαγωγή Η Στατιστική Συμπερασματολογία βασίζεται στην «Εκτιμητική» και την «Δοκιμασία των Υποθέσεων». Και οι δύο μέθοδοι βγάζουν συμπεράσματα σχετικά με τα χαρακτηριστικά του πληθυσμού από πληροφορίες περιεχόμενες σε δείγματα. Στατιστική Εκτίμηση: Είναι η διαδικασία με τη βοήθεια της οποίας, από τις παραμέτρους μίας δειγματοληπτικής κατανομής, «εκτιμούμε» τις αντίστοιχες παραμέτρους του πληθυσμού. Η διαδικασία της εκτίμησης μπορεί να γίνει με διάφορες μεθόδους η επιλογή όμως της καταλληλότερης πρέπει να γίνει με βάση τα επόμενα τέσσερα κριτήρια: 1. Αμεροληψία- Unbiasedness: Αυτή είναι μία πολύ επιθυμητή ιδιότητα για μια καλή εκτίμηση. Ο όρος αμεροληψία αναφέρεται στο γεγονός ότι ο δειγματικός μέσος είναι ένας αμερόληπτος εκτιμητής του μέσου του πληθυσμού γιατί ο μέσος της δειγματοληπτικής κατανομής των αριθμητικών μέσων που προέρχεται από τον ίδιο πληθυσμό είναι ίδιος με τον μέσο του πληθυσμού. 2. Αποτελεσματικότητα- Efficiency: Μία άλλη επιθυμητή ιδιότητα για καλή εκτίμηση είναι αυτή της αποτελεσματικότητας. Η αποτελεσματικότητα αναφέρεται στο μέγεθος του τυπικού σφάλματος του στατιστικού μέτρου. Αν δηλαδή πάρουμε δύο δείγματα ιδίου μεγέθους και συγκρίνουμε τα στατιστικά μέτρα τους για να αποφασίσουμε ποιο είναι περισσότερο αποτελεσματικό, θα διαλέξουμε αυτό με το μικρότερο τυπικό σφάλμα. 3. Συνέπεια- Consistency: Ένα στατιστικό μέτρο είναι συνεπής εκτιμητής αν καθώς αυξάνει το μέγεθος του δείγματος αυτό γίνεται σχεδόν ίδιο με την τιμή του αντιστοίχου μέτρου του πληθυσμού. 4. Ικανότητα- Sufficiency: Ένας εκτιμητής είναι ικανός αν κάνει χρήση περισσότερων πληροφοριών από ένα δείγμα σε σύγκριση με κάποιον άλλο. Η Στατιστική εκτίμηση διακρίνεται σε:

3.1 Εκτίμηση σε σημείο (Point estimation) Εκτιμούμε την τιμή μίας αγνώστου παραμέτρου του πληθυσμού από μία μοναδική τιμή της αντιστοίχου παραμέτρου της δειγματοληπτικής κατανομής.

Δρ. Ευστάθιος Δ Δημητριάδης

50

INFERENTIAL STATISTICS

Παράδειγμα: Ο πίνακας 3.1 αποτελεί ένα τυχαίο δείγμα 30 managers με τους

ετήσιους

μισθούς τους (σε Euro) και το πρόγραμμα επιμόρφωσης που παρακολούθησαν ορισμένοι από αυτούς. Πίνακας 3.1 Ετήσιος μισθός 49094,3

Πρόγραμμα επιμόρφωσης Ναι

Ετήσιος μισθός 54766,0

Πρόγραμμα επιμόρφωσης Ναι

53263,9

Ναι

52541,3

Όχι

49643,5

Ναι

44980,0

Ναι

49894,9

Ναι

51932,6

Ναι

47621,6

Όχι

52973,0

Ναι

55924,0

Ναι

45120,9

Ναι

49092,3

Ναι

51753,0

Ναι

51404,4

Ναι

54391,8

Όχι

50957,7

Ναι

50164,2

Όχι

55109,7

Ναι

52973,6

Όχι

45922,6

Ναι

50241,3

Όχι

57268,4

Όχι

52793,9

Όχι

55688,8

Ναι

50979,4

Ναι

51654,7

Όχι

55860,9

Ναι

56188,2

Όχι

57309,1

Όχι

Από τον γνωστό τύπο του αριθμητικού μέσου θα έχουμε: X

X

i



n

1554420  51814 30

Euro.

Από τον τύπο της τυπικής απόκλισης δείγματος θα έχουμε: s

 (x

i

 x)

n 1



325009,260  3347,72 29

Euro.

Το ποσοστό των managers του δείγματος που παρακολούθησαν πρόγραμμα επιμόρφωσης είναι: p 

19  0,633 =63,3%. 30

Οι τιμές του αριθμητικού μέσου, της τυπικής απόκλισης και του ποσοστού, του δείγματος είναι σημειακοί εκτιμητές του αριθμητικού μέσου, της τυπικής απόκλισης και του ποσοστού, του πληθυσμού από τον οποίο προέρχεται το δείγμα. Με απλά λόγια λέμε ότι ο μέσος μισθός όλων των managers είναι περίπου 51814 Euro. Η

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 51

τυπική απόκλιση του μισθού είναι 3347,72 Euro, ενώ το ποσοστό

αυτών που

παρακολούθησαν προγράμματα επιμόρφωσης περίπου 63%. !!! Αν από τον πληθυσμό πάρουμε περισσότερα του ενός δείγματα, είναι προτιμότερο να υπολογίσουμε την παράμετρο που θέλουμε με συνδυασμό από όλα τα δείγματα. Με τον τρόπο αυτό πετυχαίνουμε μεγαλύτερη ακρίβεια στην εκτίμηση που κάνουμε. !!! Την ποσότητα x   την ονομάζουμε δειγματοληπτικό σφάλμα και είναι τόσο καλύτερη η εκτίμηση όσο μικρότερη είναι η τιμή του δειγματοληπτικού σφάλματος.

3.2 Εκτίμηση σε διάστημα (Interval estimation) Εκτιμούμε ότι η αληθινή τιμή μίας παραμέτρου του πληθυσμού αναμένεται να βρίσκεται μέσα σε ένα διάστημα τιμών το οποίο ονομάζουμε διάστημα εμπιστοσύνης (Confidence interval). Κάθε διάστημα εμπιστοσύνης συνοδεύεται από ένα επίπεδο εμπιστοσύνηςConfidence level (1-α) το οποίο υποδηλώνει την πιθανότητα το διάστημα να περιλαμβάνει την πραγματική τιμή της παραμέτρου του πληθυσμού. Η πιθανότητα σφάλματος σημειώνεται με α (00,05 από τον τύπο x  Za  2

 n



Nn N 1

(28), όπου: 

 Η ποσότητα x  Z a 

(29) ή

n

2

x  Za  2





n

Nn N 1

(30) ονομάζεται

κατώτερο όριο εμπιστοσύνης-Lower confidence limit (LCL) ενώ 

 Η ποσότητα x  Z a 

(31) ή x  Z a 

n

2

2

 n



Nn N 1

(32) ονομάζεται

ανώτερο όριο εμπιστοσύνης-Upper confidence limit (UCL)  Η ποσότητα

x 



(33) ονομάζεται τυπικό σφάλμα του μέσου

n

(standard error of the mean) και 

Η ποσότητα E  Z a 



2

(maximum error of estimate).

Dr. Efstathios D Dimitriadis

n

(34) ονομάζεται μέγιστο σφάλμα της εκτίμησης

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 53

Για τη δημιουργία διαστήματος εμπιστοσύνης μπορούμε να ακολουθούμε τα επόμενα πέντε βήματα: 1ο βήμα: Προσδιορισμός του προβλήματος. Περιγραφή της παραμέτρου του πληθυσμού που μας ενδιαφέρει. 2ο βήμα: Κριτήρια διαστήματος εμπιστοσύνης a. Έλεγχος των απαραίτητων προϋποθέσεων. b. Καθορισμός της κατανομής και του τύπου που θα χρησιμοποιηθεί. c. Καθορισμός του επιπέδου εμπιστοσύνης 1-α. 3ο βήμα: Μαρτυρία του δείγματος Συλλογή πληροφοριών για το δείγμα (μέγεθος, μέση τιμή). ο

4 βήμα: Το διάστημα εμπιστοσύνης a. Καθορισμός του συντελεστή εμπιστοσύνης από τους πίνακες της κανονικής κατανομής. b. Καθορισμός του μέγιστου σφάλματος της εκτίμησης. c. Καθορισμός του κατώτερου και του ανώτερου ορίου εμπιστοσύνης. 5ο βήμα: Τα αποτελέσματα Εξαγωγή αποτελεσμάτων-συμπερασμάτων. Παράδειγμα: Μεγάλο κατάστημα πώλησης αξεσουάρ αυτοκινήτων θέλει να εκτιμήσει τη μέση διάρκεια ζωής συγκεκριμένου τύπου υαλοκαθαριστήρων. Γνωρίζει ότι η τυπική απόκλιση του συνόλου (πληθυσμού) είναι 6 μήνες, ο πληθυσμός κατανέμεται κανονικά

και

είναι

άπειρος.

Επέλεξε

λοιπόν

ένα

τυχαίο

δείγμα

100

υαλοκαθαριστήρων και διαπίστωσε ότι η μέση διάρκεια ζωής αυτών είναι 21 μήνες. Ποιο είναι το διάστημα μέσα στο οποίο θα βρίσκεται ο αριθμητικός μέσος του πληθυσμού; (α=0,05). Λύση: 1ο βήμα: Προσδιορισμός του προβλήματος. Μας ενδιαφέρει να εκτιμήσουμε το διάστημα μέσα στο οποίο θα βρίσκεται η μέση τιμή του πληθυσμού. 2ο βήμα: Κριτήρια διαστήματος εμπιστοσύνης a. Το μέγεθος του δείγματος είναι μεγάλο (η=100) και η τυπική απόκλιση γνωστή (σ=6). Ο πληθυσμός ακολουθεί την Κανονική κατανομή και είναι άπειρος.

Δρ. Ευστάθιος Δ Δημητριάδης

INFERENTIAL STATISTICS

54

b. Θα χρησιμοποιηθεί ο τύπος 22. c. Για α=0.05 το επιπέδου εμπιστοσύνης θα είναι 1-α.=1-0,05=0,95. 3ο βήμα: Μαρτυρία του δείγματος Το δείγμα έχει μέγεθος η=100 και x  21 . ο

4 βήμα: Το διάστημα εμπιστοσύνης a. Χρησιμοποιώντας τον Πίνακα Α του παραρτήματος υπολογίζουμε ότι

Z a  Z 0, 025  1,96 . 2

b. Το μέγιστο σφάλμα της εκτίμησης, με βάση τον τύπο (34), είναι: E  1,96 

6 100

 1,96 

6  =1,176. 10

c. Το κατώτερο και το ανώτερο όριο εμπιστοσύνης, με βάση τους τύπους 

(29) και (31), είναι: x  Z a 

n

2

= 21  1,176  19,824 και x  Z a  2



=

n

21+1,176=22,176 5ο βήμα: Τα αποτελέσματα Με 95% σιγουριά μπορούμε να πούμε ότι η μέση διάρκεια ζωής των υαλοκαθαριστήρων θα βρίσκεται στο διάστημα από 19,824 έως 22,176 μήνες.

0,025

0,025

Επιφάνεια στην οποία βρίσκεται το 95% των x

19,824

Dr. Efstathios D Dimitriadis

21

22,176

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 55

3.2.1.2 Μεγάλο δείγμα (n>30) και σ άγνωστο Το διάστημα εμπιστοσύνης στην περίπτωση αυτή δίνεται: 

Αν ο πληθυσμός είναι άπειρος ή πεπερασμένος με n/N≤0,05 από τον τύπο:   x  Za  (35) 2 n 

Αν ο πληθυσμός είναι πεπερασμένος και n/N>0,05 από τον τύπο 

x  Za  2



n

Nn  N 1

 (36), όπου:   s 

 (x

i

 x)2

n 1

(37).

Επειδή δεν γνωρίζουμε την τυπική απόκλιση του πληθυσμού χρησιμοποιούμε την τυπική απόκλιση του δείγματος για να κάνουμε μία εκτίμηση της τυπικής απόκλισης του πληθυσμού. Για τον λόγο αυτό την ποσότητα

(37)

θα την ονομάζουμε

εκτιμώμενη τυπική απόκλιση. 

 Η ποσότητα x  Z a  2



n



(38) ή

x  Za  2



n



Nn N 1

(39) ονομάζεται

κατώτερο όριο εμπιστοσύνης-Lower confidence limit (LCL) ενώ     Nn   Η ποσότητα x  Z a  (40) ή x  Z a  (41) ονομάζεται N 1 2 2 n n ανώτερο όριο εμπιστοσύνης-Upper confidence limit (UCL)    Η ποσότητα  x  (42) ονομάζεται εκτιμώμενο τυπικό σφάλμα του n μέσου και 

 Η ποσότητα E  Z a  2



n

(43) ονομάζεται εκτιμώμενο μέγιστο σφάλμα.

Παράδειγμα: Ένας Δήμος, αποτελούμενος από 700 οικογένειες, προκειμένου να δώσει ένα βοηθητικό επίδομα σε άπορες οικογένειες πήρε ένα τυχαίο δείγμα 50 οικογενειών και κατέγραψε το ετήσιο εισόδημά τους. Γνωρίζοντας ότι ο πληθυσμός κατανέμεται κανονικά θέλει να κάνει μία εκτίμηση του μέσου ετησίου εισοδήματος των δημοτών του σε επίπεδο σημαντικότητας 90%. Το μέσο εισόδημα το οποίο προέκυψε από το δείγμα των 50 οικογενειών ανέρχεται στο ποσό των 11.800 Euro και η τυπική απόκλιση σε 950 Euro.

Δρ. Ευστάθιος Δ Δημητριάδης

56

INFERENTIAL STATISTICS

Λύση: 1ο βήμα: Προσδιορισμός του προβλήματος. Μας ενδιαφέρει να εκτιμήσουμε το διάστημα μέσα στο οποίο θα βρίσκεται η μέση τιμή του πληθυσμού. 2ο βήμα: Κριτήρια διαστήματος εμπιστοσύνης a. Το μέγεθος του δείγματος είναι μεγάλο (η=50) και η τυπική απόκλιση άγνωστη . Ο πληθυσμός ακολουθεί την Κανονική κατανομή και είναι πεπερασμένος (Ν=700) και η/Ν=50/700=0,071>0,05. b. Θα χρησιμοποιηθεί ο τύπος (36). c. Για 1-α.=0,9 το επιπέδου σημαντικότητας θα είναι α=0.1. ο

3 βήμα: Μαρτυρία του δείγματος Το δείγμα έχει μέγεθος η=50 , x  11.800 Euro και



 s

( x  x) n 1

2

=950 Euro.

4ο βήμα: Το διάστημα εμπιστοσύνης a. Χρησιμοποιώντας τους πίνακες υπολογίζουμε ότι Z a  Z 0, 05  1,64 . 2

b. Το μέγιστο εκτιμώμενο σφάλμα, βάση του τύπου 30, είναι:   950 950 E  Za  = 1,64   1,64   220,3. 2 7,072 n 50 c. Το κατώτερο και το ανώτερο όριο εμπιστοσύνης, με βάση τους τύπους  700  50  Nn  11800 (38) και (40), είναι: x  Z a  =11800-220,3  2 700  1 n N 1  700  50  Nn   220,3•0,9643= =11587,5 και x  Z a  =11800+220,3  N 1 2 700  1 n =11800+220,3•0,9643=12012,5. 5ο βήμα: Τα αποτελέσματα Με 90% σιγουριά μπορούμε να πούμε ότι το μέσο ετήσιο εισόδημα των οικογενειών του συγκεκριμένου Δήμου θα βρίσκεται στο διάστημα από 11.587,5 έως 12.012,5 Euro.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 57

3.2.1.3 Μικρό δείγμα, κανονικός πληθυσμός και σ γνωστό. Εφαρμόζουμε ότι ακριβώς και στην περίπτωση 3.2.1.1.

3.2.1.4 Μικρό δείγμα (n≤30), κανονικός πληθυσμός ή κατά προσέγγιση κανονικός και σ άγνωστο. Όταν το μέγεθος του δείγματος είναι μικρό και η τυπική απόκλιση του πληθυσμού άγνωστη χρησιμοποιούμε μία άλλη κατανομή, γνωστή ως Student’s t κατανομή. Πήρε το όνομά της από το ψευδώνυμο του Ιρλανδού W.S. Gosset ο οποίος το 1908 έκανε μία δημοσίευση με το όνομα «Student». Κατά την χρήση αυτής της κατανομής κάνουμε την υπόθεση ότι ο πληθυσμός είναι κανονικός ή κατά προσέγγιση κανονικός. Χαρακτηριστικά της Student’s t κατανομής.  Είναι συμμετρική όπως και η κανονική κατανομή.  Είναι διαφορετική για κάθε διαφορετικό μέγεθος δείγματος. Αυτό συμβαίνει γιατί διαφέρουν και οι βαθμοί ελευθερίας (degree of freedom, df).  Όσο μεγαλύτερο είναι το μέγεθος του δείγματος τόσο πιο ψηλόκορφη είναι η γραφική της παράσταση.  Σε σχέση με την κανονική κατανομή είναι χαμηλότερη αλλά περισσότερο πλατιά.  Προσεγγίζει την κανονική κατανομή όταν οι βαθμοί ελευθερίας αυξάνονται. Στα χαρακτηριστικά της κατανομής αναφέρθηκε ο όρος «βαθμοί ελευθερίας». Τι εννοούμε όμως με τον όρο «βαθμοί ελευθερίας»; Με απλά λόγια θα μπορούσαμε να πούμε ότι είναι το πλήθος των τιμών τις οποίες μπορούμε να επιλέξουμε ελεύθερα. Έστω ότι έχουμε ένα δείγμα τριών τιμών a, b, c (η=3) και γνωρίζουμε ότι ο αριθμητικός μέσος αυτών είναι 6. Δηλαδή οι τρεις τιμές μέσο τον αριθμό 6 θα πρέπει:

abc  6 . Αν a=5 τότε για να έχουν 3 5b c  6  b  c  3 6  5  3

 b  c  13 . Οι τιμές δηλαδή των b και c μπορούν να επιλεγούν ελεύθερα αρκεί να

δίνουν άθροισμα 13, έτσι ώστε η τιμή του μέσου να είναι πάντοτε 6. Για την πρακτικότερη κατανόηση του όρου θα αναφέρω ένα άλλο παράδειγμα. Ένα γάντι έχει θέση για τα πέντε δάκτυλα. Αν λοιπόν βάλουμε τα τέσσερα δάκτυλα σε

Δρ. Ευστάθιος Δ Δημητριάδης

58

INFERENTIAL STATISTICS

κάποιες από τις πέντε θέσεις το τελευταίο δάκτυλο δεν έχει δυνατότητες επιλογής. Θα μπει στη θέση που έχει απομείνει κενή. Την κατανομή Student’s t θα την χρησιμοποιούμε πάντοτε με n-1 βαθμούς ελευθερίας και τις τιμές της θα τις παίρνουμε από τον Πίνακα Β του παραρτήματος. Το διάστημα εμπιστοσύνης στην περίπτωση αυτή δίνεται από τον τύπο 

x  ta 



n

2

 με df=n-1 (44), όπου   s 

( x  x)

2

n 1

.

Και στην περίπτωση αυτή για τη δημιουργία διαστήματος εμπιστοσύνης μπορούμε να ακολουθούμε τα πέντε βήματα που αναφέρθηκαν στις προηγούμενες παραγράφους. Παράδειγμα: Ένα δείγμα 20 νεογέννητων από μία κλινική, το 2001, έδωσε μέσο βάρος 3.100 γρ., με τυπική απόκλιση 600 γρ. Να εκτιμηθεί σε επίπεδο σημαντικότητας 95% το μέσο βάρος όλων των νεογέννητων στην κλινική το 2000. Λύση: 1ο βήμα: Προσδιορισμός του προβλήματος. Μας ενδιαφέρει να εκτιμήσουμε το διάστημα μέσα στο οποίο θα βρίσκεται το μέσο βάρος του συνόλου των νεογέννητων της κλινικής το 2000. 2ο βήμα: Κριτήρια διαστήματος εμπιστοσύνης a. Το μέγεθος του δείγματος είναι μικρό (η=20) και η τυπική απόκλιση άγνωστη. b. Θα χρησιμοποιηθεί ο τύπος 31. c. Για 1-α.=0,95 το επιπέδου σημαντικότητας θα είναι α=0.05. 3ο βήμα: Μαρτυρία του δείγματος  Το δείγμα έχει μέγεθος η=20 , x  3.100 γρ. και   s  600 γρ.

4ο βήμα: Το διάστημα εμπιστοσύνης a. Χρησιμοποιώντας τους πίνακες υπολογίζουμε την τιμή του t a  t 0 ,025 2

με df=20-1=19. t 0, 025 =2,09. b. Το μέγιστο εκτιμώμενο σφάλμα, βάση του τύπου 30, όπου αντί Ζ   600 600 έχουμε t, είναι: E  t a  = 2,09  2,09   280,54. 2 4,47 n 20

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 59

c. Το κατώτερο και το ανώτερο όριο εμπιστοσύνης, με βάση τον τύπο 31,     είναι: x  t a  =3.100-280,54=2819,46 και x  t a  =3100+280,54= 2 2 n n =3380,54. 5ο βήμα: Τα αποτελέσματα Με 95% σιγουριά μπορούμε να πούμε ότι το μέσο βάρος των νεογέννητων της κλινικής το έτος 2000 βρίσκεται στο διάστημα από 2.819,46 έως 3.380,54 γρ. 3.2.1.5 Μη κανονικός πληθυσμός, σ γνωστό και δείγμα μικρό (n≤30). Στην περίπτωση αυτή αυξάνουμε το μέγεθος του δείγματος και εφαρμόζουμε ότι και στην περίπτωση 3.2.1.1 ή εφαρμόζουμε μη παραμετρικές τεχνικές. 3.2.1.6 Μη κανονικός πληθυσμός, σ άγνωστο και δείγμα μικρό (n≤30). Και στην περίπτωση αυτή αυξάνουμε το μέγεθος του δείγματος και εφαρμόζουμε ότι και στην περίπτωση 3.2.1.2 ή εφαρμόζουμε μη παραμετρικές τεχνικές.

!!! Το μέγεθος του δείγματος το οποίο πρέπει να επιλέξουμε για να έχουμε το επιθυμητό μέγιστο σφάλμα της εκτίμησης Ε (maximum error of estimate), με δεδομένο α και γνωστή την τυπική απόκλιση του πληθυσμού δίνεται από τον (Z a ) 2   2

τύπο: n 

2

E2

(45).

!!! Στην περίπτωση που δεν είναι γνωστή η τυπική απόκλιση του πληθυσμού συνήθως χρησιμοποιούμε τον τύπο (45) αν έχουμε μία προκαταρκτική ή σχεδιασμένη τιμή για την τυπική απόκλιση. Άλλες πάλι φορές χρησιμοποιούμε την τυπική απόκλιση προηγούμενων δειγμάτων. !!! Το εύρος των διαστημάτων εμπιστοσύνης, σε όλες τις περιπτώσεις που αναφέρθηκαν, εξαρτάται: 

Από το μέγεθος του δείγματος



Την διασπορά του πληθυσμού και

 Τον συντελεστή εμπιστοσύνης.

Δρ. Ευστάθιος Δ Δημητριάδης

60

INFERENTIAL STATISTICS

Συγκεκριμένα γίνεται μικρότερο όσο: 1. Μεγαλύτερο είναι το μέγεθος του δείγματος 2. Όσο μικρότερη είναι η διασπορά και 3. Όσο μικρότερος είναι ο συντελεστής εμπιστοσύνης. Συνοπτική Παρουσίαση Δημιουργίας Διαστήματος Εμπιστοσύνης Επιλογή τυχαίου δείγματος n Προέρχεται το δείγμα από Κανονικό Πληθυσμό και το σ γνωστό;

Όχι Είναι το n  30 ;

Είναι το σ γνωστό; Ναι Υπολογίστε  x και   s

Υπολογίστε   Sx  n

Ναι

Υπολογίστε x

Υπολογίστε Sx 

 n

Βρείτε από τους πίνακες τις κριτικές τιμές Ζ για α/2

Διάστημα Εμπιστοσύνης x  Za Sx 2

Dr. Efstathios D Dimitriadis

Μικρό δείγμα και σ άγνωστο t- test

Διάστημα Εμπιστοσύνης   x  ta  2 n

Ναι

Όχι

Όχι

Διάστημα Εμπιστοσύνης x  Za  x 2

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 61

Διάστημα εμπιστοσύνης για την ποσοστιαία αναλογία. Στην παράγραφο 2.2 αναφερθήκαμε στην Διωνυμική κατανομή τονίζοντας ότι είναι κατάλληλη να μας δώσει την πιθανότητα της επιτυχίας ενός γεγονότος. Οι τύποι οι οποίοι μας δίνουν την μέση τιμή και την τυπική απόκλιση είναι   np και   npq αντίστοιχα.

Το p συμβολίζει την επιτυχία και το q την αποτυχία. Το n εκφράζει τον αριθμό των επαναλήψεων του πειράματος. Στην περίπτωση όμως που έχουμε ένα δείγμα από το p του οποίου θέλουμε να εκτιμήσουμε την τιμή του p του πληθυσμού τότε:  p

Την τιμή p του δείγματος τη συμβολίζουμε με p , ισχύει:  p  p (46) με

x (47) όπου χ ο αριθμός των επιτυχιών. n

pq (48). n



Το τυπικό σφάλμα θα είναι ίσο με:  p 



Το διάστημα εμπιστοσύνης για το p του πληθυσμού θα δίνεται από τον

τύπο: p  Z a  p (49), όπου η ποσότητα E  Z a  2

2

pq (50) είναι το μέγιστο όριο n

του σφάλματος. Στην περίπτωση κατά την οποία δεν είναι γνωστό το p του πληθυσμού, κάτι πολύ συνηθισμένο, χρησιμοποιούμε το p του δείγματος με αποτέλεσμα: 

 Το εκτιμώμενο τυπικό σφάλμα να είναι ίσο με:  p 



Το διάστημα εμπιστοσύνης για το p του πληθυσμού να δίνεται από τον τύπο:

pq (51). n

pq  p  Z a  p (52) όπου η ποσότητα E  Z a  (53) είναι το εκτιμώμενο μέγιστο 2 2 n όριο του σφάλματος. Για την εξασφάλιση καλύτερων αποτελεσμάτων είναι απαραίτητο να λάβουμε υπόψη μας τις παρακάτω συνθήκες:  Το μέγεθος του δείγματος να είναι μεγαλύτερο των 20 μονάδων.  Τα γινόμενα np και nq να είναι μεγαλύτερα του 5 και  Το δείγμα να είναι λιγότερο από το 10% του πληθυσμού.

Δρ. Ευστάθιος Δ Δημητριάδης

INFERENTIAL STATISTICS

62

Το μέγεθος του δείγματος το οποίο πρέπει να επιλεγεί έτσι ώστε να έχουμε ως μέγιστο δειγματοληπτικό σφάλμα Ε δίνεται από τον τύπο: ( Z a )2  p  q n

2

(54). Στην περίπτωση κατά την οποία είναι τα p και q άγνωστα,

E2

χρησιμοποιούμε τα p και q . Παράδειγμα: Θέλοντας να εκτιμήσουμε το ποσοστό των φοιτητών που οδηγούν ανοικτά αυτοκίνητα, επιλέξαμε από το φοιτητικό πάρκινγκ ενός κολεγίου, τυχαίο δείγμα 200 αυτοκινήτων. Διαπιστώθηκε ότι 17 από αυτά είναι ανοικτά. Να κατασκευαστεί ένα διάστημα εμπιστοσύνης για το ποσοστό των ανοικτών αυτοκινήτων στο σύνολο των φοιτητών σε επίπεδο σημαντικότητας α=0,1. Λύση: Βήμα 1ο : Το μέτρο που μας ενδιαφέρει είναι το p, το ποσοστό των ανοικτών αυτοκινήτων των φοιτητών. Βήμα 2ο:

a. Το δείγμα επιλέγει τυχαία και κάθε μονάδα του δείγματος είναι

ανεξάρτητη από οποιαδήποτε άλλη. b. Μπορεί να χρησιμοποιηθεί η τυπική κανονική κατανομή ως μέτρο στατιστικού ελέγχου, καθώς το δείγμα είναι η=200>20 και με p 

17  0,085 200

έχουμε np =200•0,085=17>5 και nq  200  0,915  183 >5. c. α=0,1 και συνεπώς 1-0,1=0,9 το επίπεδο εμπιστοσύνης. 17  0,085 . 200

Βήμα 3ο : η=200 και p 

Βήμα 4ο : a. Η τιμή του Z a  Z 0,1  Z 0 ,05  1,65. 2

b. E  Z a  2

2

pq 0,085  0,915  0,033 . = 1,65  n 200

c. Το κατώτερο όριο του διαστήματος είναι 0,085-0,033=0,052 και το ανώτερο 0,085+0,033=0,118. Βήμα 5ο : Το ποσοστό των φοιτητών που οδηγεί ανοικτό αυτοκίνητο κυμαίνεται από 5,2% έως 11,8% με 90% πιθανότητα.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 63

!!! Τα διαστήματα εμπιστοσύνης που έχουν περιγραφεί στις προηγούμενες παραγράφους έχουν όλα ανώτερο και κατώτερο όριο και χαρακτηρίζονται ως δικατάληκτα. Έτσι το επίπεδο σημαντικότητας α μοιράζεται στα δυο άκρα της κατανομής με τιμή α/2. Είναι δυνατόν να υπολογίσουμε και μονοκατάληκτα διαστήματα εμπιστοσύνης με τον ίδιο τρόπο. Σε αυτά θα έχουμε μόνο το ένα όριο του διαστήματος (ανώτερο ή κατώτερο) και το α θα βρίσκεται ολόκληρο στο ένα άκρο της κατανομής (δεξιό ή αριστερό). Κατώτερο όριο: x  Z a  Ανώτερο όριο:

x  Za 

 n

 n

Δρ. Ευστάθιος Δ Δημητριάδης

64

INFERENTIAL STATISTICS

3.2.3

Διάστημα εμπιστοσύνης για τη διαφορά των μέσων τιμών δύο πληθυσμών.

3.2.3.1 Δείγματα εξαρτημένα ή «εξισωμένα κατά ζεύγη». Εξαρτημένα ή «εξισωμένα κατά ζεύγη» είναι δύο δείγματα αν μόνο στο ένα δείγμα τα υποκείμενα έχουν ληφθεί με την τυχαία δειγματοληψία. Στο άλλο δείγμα τα υποκείμενα έχουν επιλεγεί κατά τέτοιο τρόπο, ώστε να είναι, ως προς ορισμένα χαρακτηριστικά, ισότιμα με τα υποκείμενα στο πρώτο δείγμα. Παράδειγμα: Επιλέγονται τυχαία 10 μαθητές ενός σχολείου και εξετάζεται η επίδοσή τους στο μάθημα της Στατιστικής. Καταγράφονται όμως συγχρόνως και ο αριθμός των απουσιών τους, η επίδοσή τους στο τεστ ΙQ και η μόρφωση του πατέρα τους. Ο επόμενος πίνακας δίνει τα αποτελέσματα του πρώτου δείγματος. Πίνακας 3.1: 1ο Δείγμα Μαθητής Βαθμός Στατιστικής Νικοπολίδης 5

Αριθμός Απουσιών 30

Τεστ IQ 100

Μόρφωση πατέρα Κ

Σεϊταρίδης

7

15

120

Α

Φύσσας

8

25

98

Μ

Γκούμας

9

9

110

Α

Κυργιάκος

10

15

145

Α

Μπασινάς

5

21

120

Α

Καραγκούνης

8

30

100

Κ

Λυμπερόπουλος

7

21

95

Μ

Κωνσταντίνου

6

14

92

Μ

Βαζέχα

5

17

85

Α

Στη συνέχεια για να δημιουργηθεί το δεύτερο δείγμα ο πρώτος μαθητής που θα αναζητηθεί θα πρέπει να έχει 30 απουσίες, τεστ IQ 100 και μόρφωση πατέρα Κ, όπως ακριβώς συμβαίνει με τον Νικοπολίδη. Ο δεύτερος θα πρέπει να έχει 15 απουσίες, τεστ IQ 120 και μόρφωση πατέρα Α, ότι ακριβώς και ο Σεϊταρίδης. Με τον τρόπο αυτό θα συμπληρωθεί η δεκάδα του δεύτερου δείγματος. Μόνο οι βαθμοί

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 65

στο μάθημα της Στατιστικής μπορούν να διαφέρουν στα ζεύγη τα οποία κατ’ αυτό τον τρόπο δημιουργούνται. Στον επόμενο πίνακα 3.2 εμφανίζονται τα “εξισωμένα κατά ζεύγη” δείγματα. Πίνακας 3.2: 1ο Δείγμα Μαθητής

2ο Δείγμα

Βαθμός Στατιστικής 5

Αριθμός Απουσιών 30

Τεστ IQ 100

Μόρφωση πατέρα Κ

Βαθμός Στατιστικής 6

Σεϊταρίδης

7

15

120

Α

6

Σάριτς

Φύσσας

8

25

98

Μ

7

Πίτσος

Γκούμας

9

9

110

Α

8

Χένρικσεν

Κυργιάκος

10

15

145

Α

9

Βόκολος

Μπασινάς

5

21

120

Α

6

Μπόατεγκ

Καραγκούνης

8

30

100

Κ

8

Βλάοβιτς

Λυμπερόπουλος

7

21

95

Μ

6

Κόλκα

Κωνσταντίνου

6

14

92

Μ

7

Μίκαελσεν

Βαζέχα

5

17

85

Α

8

Ολιζατέμπε

Νικοπολίδης

Μαθητής Κοτσόλης

Εξαρτημένα δείγματα μπορεί να προκύψουν κάτω από τρεις διαφορετικές ερευνητικές συνθήκες: 1. Από δύο διαφορετικά δείγματα, εξισωμένα ένα προς ένα, στα οποία έχει μετρηθεί μια μεταβλητή με την ίδια κλίμακα από μία φορά την ίδια χρονική περίοδο (κλασική μορφή δειγμάτων εξισωμένων κατά ζεύγη). 2. Από ένα μόνο δείγμα, στο οποίο σε κάθε υποκείμενο έχει μετρηθεί μία μεταβλητή με την ίδια κλίμακα δύο φορές σε δυο διαφορετικές χρονικές περιόδους (ερευνητικό σχέδιο «πριν και μετά»). 3. Από ένα μόνο δείγμα, στο οποίο σε κάθε υποκείμενο έχουν μετρηθεί δύο μεταβλητές με ομοειδείς κλίμακες μία φορά την ίδια χρονική περίοδο (ερευνητικό σχέδιο αξιολόγησης ενδοατομικών διαφορών). Η διαδικασία για τη σύγκριση των μέσων δύο πληθυσμών βασίζεται στη σχέση μεταξύ δύο σετ δειγματικών δεδομένων, ένα από κάθε πληθυσμό. Όταν τα δείγματα είναι εξαρτημένα τα δεδομένα αναφέρονται ως «ζευγαρωτά δεδομένα». Τα ζεύγη των δεδομένων συγκρίνονται απευθείας το ένα με το άλλο χρησιμοποιώντας την

Δρ. Ευστάθιος Δ Δημητριάδης

66

INFERENTIAL STATISTICS

διαφορά των αριθμητικών τους τιμών. Το αποτέλεσμα της διαφοράς ονομάζεται ζευγαρωτή διαφορά (Paired difference) και συμβολίζεται: d i  x1 i  x 2 i (55), όπου χ1i είναι οι τιμές από το πρώτο δείγμα και χ2i οι αντίστοιχες τιμές από το δεύτερο δείγμα. Ο αριθμητικός μέσος των διαφορών δίνεται από τη σχέση: d 

d n

i

(56) και

η τυπική απόκλιση των δειγματικών διαφορών από τη σχέση:

 ( d i ) 2  d   n    (57). n 1 2 i

sd 

Το διάστημα εμπιστοσύνης τέλος της διαφοράς των μέσων υπολογίζεται χρησιμοποιώντας τη σχέση: d  t a 

sd

2

E  ta  2

sd n

n

(58) με df=n-1, όπου η ποσότητα

(59) είναι το μέγιστο εκτιμώμενο τυπικό σφάλμα.

Η διαφορά μεταξύ των μέσων δύο πληθυσμών, όταν χρησιμοποιούνται εξαρτημένα δείγματα, είναι ισοδύναμη με τη τον μέσο των ζευγαρωτών διαφορών. Όταν ζευγαρωτές παρατηρήσεις είναι τυχαία επιλεγμένες από κανονικούς πληθυσμούς η ζευγαρωτή διαφορά d i  x1 i  x 2 i θα είναι κανονικά κατανεμημένη γύρω από τον μέσο μd με τυπική απόκλιση  d . Βασική προϋπόθεση για συμπεράσματα σχετικά με τον μέσο των ζευγαρωτών διαφορών μd είναι, τα ζευγαρωτά δεδομένα να είναι τυχαία επιλεγμένα από πληθυσμούς που κατανέμονται κανονικά. Παράδειγμα: Ένα δείγμα από 6 αυτοκίνητα επιλέχθηκε τυχαία και σε κάθε ένα από αυτά τοποθετήθηκε βενζίνη τύπου Α και μετρήθηκε η απόσταση την οποία διήνυσαν. Στη συνέχεια στα ίδια αυτοκίνητα τοποθετήθηκε ίδια ποσότητα βενζίνης τύπου Β και

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 67

μετρήθηκε πάλι η απόσταση την οποία διήνυσαν. Αν υποθέσουμε ότι οι δοκιμές έγιναν κάτω από τις ίδιες τυπικά συνθήκες, τα αποτελέσματα δίνονται στον πίνακα 3.3 (σε Km). Πίνακας 3.3 Αυτοκίνητο Τύπος Α

1 125

2 64

3 94

4 38

5 90

6 106

Τύπος Β

133

65

103

37

102

115

d  B A

8

1

9

-1

12

9

Να κατασκευαστεί ένα 95% διάστημα εμπιστοσύνης για τη μέση διαφορά των ζευγαρωτών δεδομένων ως προς την κατανάλωση βενζίνης. Λύση: 1ο βήμα: Προσδιορισμός του προβλήματος. Ζητάμε το διάστημα εμπιστοσύνης για τη μέση διαφορά στην κατανάλωση βενζίνης τύπου Α και Β. 2ο βήμα: Κριτήρια διαστήματος εμπιστοσύνης a. Και οι δύο δειγματικοί πληθυσμοί είναι προσεγγιστικά κανονικοί. b. Θα χρησιμοποιηθεί η t κατανομή με 6-1=5 βαθμούς ελευθερίας και ο τύπος 45. c. Για 1-α.=0,95 το επιπέδου σημαντικότητας θα είναι α=0.05. 3ο βήμα: Μαρτυρία του δείγματος

d  B A

8

1

9

-1

12

9

Σύνολο=38

d2

64

1

81

1

144

81

Σύνολο=372

η=6, d 

d n

i



38  6,3 και s d  6

 ( d i ) 2  2 2 d   i  n  372  38   6  5,1 = n 1 61

Δρ. Ευστάθιος Δ Δημητριάδης

68

INFERENTIAL STATISTICS

4ο βήμα: Το διάστημα εμπιστοσύνης a. Με α=0,05 και df=6-1=5 από τον Πίνακα Β του παραρτήματος θα πάρουμε t a  t 0, 05  t 0 ,025 =2,57. 2

2

b. Το μέγιστο εκτιμώμενο σφάλμα, βάση του τύπου (59) είναι:

E  ta  2

sd n

= 2,57

5,1

 5,4.

6

c. Το κατώτερο και το ανώτερο όριο εμπιστοσύνης, με βάση τον τύπο (58), είναι: d  t a  2

sd n

=6,3-5,4=0,9 και d  t a  2

sd

=6,3+5,4=11,7.

n

5ο βήμα: Τα αποτελέσματα Με

95% σιγουριά μπορούμε να πούμε ότι η μέση διαφορά στην

κατανάλωση βενζίνης τύπου Α και Β θα κυμαίνεται από 0,9 έως 11,7 Κm.

3.2.3.2 Δείγματα ανεξάρτητα. Δύο δείγματα είναι ανεξάρτητα αν τα υποκείμενα και στα δύο δείγματα έχουν ληφθεί με την τυχαία δειγματοληψία. Έτσι ανάμεσα στις δύο ομάδες μετρήσεων δεν υπάρχει καμία συνάφεια. Παράδειγμα: Έστω ότι θέλω να διαλέξω 100 μαθητές από ένα Σχολείο. Επιλέγω στην τύχη (με κλήρωση) τους 100 μαθητές και στη συνέχεια τους χωρίζω σε Αγόρια και Κορίτσια. Με τον τρόπο αυτό δημιούργησα δύο ανεξάρτητα δείγματα. Όταν θέλουμε να συγκρίνουμε τους μέσους δύο πληθυσμών, στην ουσία συγκρίνουμε τη διαφορά μεταξύ των μέσων αυτών των πληθυσμών. Τα συμπεράσματα σχετικά με τη διαφορά 1   2 βασίζονται στη διαφορά μεταξύ των δειγματικών μέσων x1  x 2 . Αυτή η παρατηρημένη διαφορά ανήκει σε μία δειγματοληπτική κατανομή τα χαρακτηριστικά της οποίας περιγράφονται στη συνέχεια.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 69

Αν ανεξάρτητα δείγματα μεγέθους η1 και η2 επιλεγούν τυχαία από μεγάλους πληθυσμούς με μέσους μ1, μ2 και διακυμάνσεις  12 ,  22

αντίστοιχα η

δειγματοληπτική κατανομή των x1  x 2 έχει: Μέσο,  x1  x2 = 1   2 (60).



Τυπικό σφάλμα,  x1  x2 =



 12 n1



 22 n2

(61).

Αν και οι δύο πληθυσμοί είναι κανονικοί η δειγματοληπτική κατανομή των

x1  x 2 θα είναι επίσης κανονική. Η υποθέσεις τις οποίες κάνουμε για συμπεράσματα σχετικά με τη διαφορά, μεταξύ των μέσων δύο πληθυσμών είναι ότι τα δείγματα είναι τυχαία επιλεγμένα από τους αντίστοιχους πληθυσμούς και επίσης τα δείγματα είναι επιλεγμένα έτσι ώστε να είναι ανεξάρτητα. Για

τον

υπολογισμό

του

διαστήματος

εμπιστοσύνης

της

διαφοράς

1   2 διακρίνουμε τις περιπτώσεις: 1. Μεγάλα δείγματα (η1>30 και η2>30) και διακυμάνσεις πληθυσμού  12 και  22 γνωστές. Στην περίπτωση αυτή χρησιμοποιούμε την κανονική κατανομή και το διάστημα εμπιστοσύνης δίνεται από τον τύπο: ( x1  x 2 )  Z a  2

Ε= Z a  2

 12 n1



 22 n2

 12 n1



 22 n2

(62), με

(63).

Στην περίπτωση των μεγάλων δειγμάτων η κατανομή των δειγματικών μέσων

x1  x 2 μπορεί να θεωρηθεί κατά προσέγγιση κανονική.

Δρ. Ευστάθιος Δ Δημητριάδης

70

INFERENTIAL STATISTICS

2. Μεγάλα δείγματα (η1>30 και η2>30) και διακυμάνσεις πληθυσμού  12 και  22 άγνωστες. Στην περίπτωση κατά την οποία δεν γνωρίζουμε τις διακυμάνσεις  12 και  22 του πληθυσμού, υπολογίζουμε το εκτιμώμενο τυπικό σφάλμα, χρησιμοποιώντας τις διακυμάνσεις και των δειγμάτων, από τον τύπο:   x 1  x 2  s x1  x 2 

s 12 s 22  (64). n1 n 2

Και στην περίπτωση αυτή χρησιμοποιούμε την κανονική κατανομή και το διάστημα εμπιστοσύνης δίνεται από τον τύπο: ( x 1  x 2 )  Z a

Ε= Z a

2

s 12 s 22  (66). n1 n 2

Dr. Efstathios D Dimitriadis

2

s 12 s 22  (65), με n1 n 2

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 69

3.2.3.2 Δείγματα ανεξάρτητα. Δύο δείγματα είναι ανεξάρτητα αν τα υποκείμενα και στα δύο δείγματα έχουν ληφθεί με την τυχαία δειγματοληψία. Έτσι ανάμεσα στις δύο ομάδες μετρήσεων δεν υπάρχει καμία συνάφεια. Παράδειγμα: Έστω ότι θέλω να διαλέξω 100 μαθητές από ένα Σχολείο. Επιλέγω στην τύχη (με κλήρωση) τους 100 μαθητές και στη συνέχεια τους χωρίζω σε Αγόρια και Κορίτσια. Με τον τρόπο αυτό δημιούργησα δύο ανεξάρτητα δείγματα. Όταν θέλουμε να συγκρίνουμε τους μέσους δύο πληθυσμών, στην ουσία συγκρίνουμε τη διαφορά μεταξύ των μέσων αυτών των πληθυσμών. Τα συμπεράσματα σχετικά με τη διαφορά 1   2 βασίζονται στη διαφορά μεταξύ των δειγματικών μέσων x1  x 2 . Αυτή η παρατηρημένη διαφορά ανήκει σε μία δειγματοληπτική κατανομή τα χαρακτηριστικά της οποίας περιγράφονται στη συνέχεια. Αν ανεξάρτητα δείγματα μεγέθους η1 και η2 επιλεγούν τυχαία από μεγάλους πληθυσμούς με μέσους μ1, μ2 και διακυμάνσεις  12 ,  22

αντίστοιχα η

δειγματοληπτική κατανομή των x1  x 2 έχει:  

Μέσο,  x1  x2 = 1   2 (60). Τυπικό σφάλμα,  x1  x2 =

 12 n1



 22 n2

(61).

Αν και οι δύο πληθυσμοί είναι κανονικοί η δειγματοληπτική κατανομή των

x1  x 2 θα είναι επίσης κανονική. Η υποθέσεις τις οποίες κάνουμε για συμπεράσματα σχετικά με τη διαφορά, μεταξύ των μέσων δύο πληθυσμών είναι ότι τα δείγματα είναι τυχαία επιλεγμένα από τους αντίστοιχους πληθυσμούς και επίσης τα δείγματα είναι επιλεγμένα έτσι ώστε να είναι ανεξάρτητα.

Δρ. Ευστάθιος Δ Δημητριάδης

70 INFERENTIAL STATISTICS

Για

τον

υπολογισμό

του

διαστήματος

εμπιστοσύνης

της

διαφοράς

1   2 διακρίνουμε τις περιπτώσεις: 1. Μεγάλα δείγματα (η1>30 και η2>30) και διακυμάνσεις πληθυσμού  12 και  22 γνωστές. Στην περίπτωση αυτή χρησιμοποιούμε την κανονική κατανομή και το διάστημα εμπιστοσύνης δίνεται από τον τύπο: ( x1  x 2 )  Z a 

 12

2

Ε= Z a  2

 12 n1



 22 n2

n1



 22 n2

(62), με

(63).

Στην περίπτωση των μεγάλων δειγμάτων η κατανομή των δειγματικών μέσων

x1  x 2 μπορεί να θεωρηθεί κατά προσέγγιση κανονική. 2. Μεγάλα δείγματα (η1>30 και η2>30) και διακυμάνσεις πληθυσμού  12 και  22 άγνωστες. Στην περίπτωση κατά την οποία δεν γνωρίζουμε τις διακυμάνσεις  12 και  22 του πληθυσμού, υπολογίζουμε το εκτιμώμενο τυπικό σφάλμα, χρησιμοποιώντας τις διακυμάνσεις και των δειγμάτων, από τον τύπο:   x 1  x 2  s x1  x 2 

s 12 s 22  (64). n1 n 2

Και στην περίπτωση αυτή χρησιμοποιούμε την κανονική κατανομή και το διάστημα εμπιστοσύνης δίνεται από τον τύπο: ( x 1  x 2 )  Z a

Ε= Z a

2

s 12 s 22  (66). n1 n 2

Dr. Efstathios D Dimitriadis

2

s 12 s 22  (65), με n1 n 2

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 71

3. Ένα ή και τα δύο δείγματα είναι μικρά (η1≤30 και/ή η2≤30). Στην περίπτωση αυτή για τη δημιουργία του διαστήματος εμπιστοσύνης πρέπει να κάνουμε δύο υποθέσεις σχετικά με τους πληθυσμούς από τους οποίους έχουν επιλεγεί τα δείγματα. 1η Υπόθεση: Και οι δύο πληθυσμοί ακολουθούν την κανονική κατανομή. 2η Υπόθεση: Οι διακυμάνσεις των πληθυσμών είναι ίσες (  12   22  σ2). Σε αυτή την περίπτωση το τυπικό σφάλμα θα είναι:

 x x = 1

2

 12 n1



 22 n2

=

2 n1



2 n2

  2(

1 1  ) (67). n1 n2

Επειδή όμως στις περισσότερες περιπτώσεις δεν είναι γνωστή η τιμή του σ2 χρησιμοποιούμε τις διακυμάνσεις των δειγμάτων s12 και s 22 για τον υπολογισμό του. Ο υπολογισμός του τύπου 67 βασίζεται στην υπόθεση ότι  12   22  σ2 και για το λόγο αυτό δεν υπάρχει ανάγκη ξεχωριστής εκτίμησης των  12 και  22 . Στην πραγματικότητα μπορούμε να συνδυάσουμε τα δεδομένα από τα δύο δείγματα για να εξασφαλίσουμε την καλύτερη απλή εκτίμηση για το σ2. Την εκτίμηση του σ2 θα τη συμβολίζουμε με s2, είναι η σταθμισμένη μέση διακύμανση των δειγματικών διακυμάνσεων s12 και s 22 και υπολογίζεται από τον τύπο:

( n1  1) s12  ( n2  1) s 22 s  (68). n1  n2  2 2

Η τιμή λοιπόν του εκτιμώμενου τυπικού σφάλματος θα είναι πλέον:   x 1  x 2  s x1  x 2 

s2(

1 1  ) (69). n1 n2

Δρ. Ευστάθιος Δ Δημητριάδης

72 INFERENTIAL STATISTICS

To διάστημα εμπιστοσύνης δίνεται από τον τύπο:

(x1  x 2 )  t a

s2( 2

1 1  ) (70). Γίνεται αντιληπτό ότι πλέον χρησιμοποιούμε n1 n2

την t κατανομή με n1  n2  2 βαθμούς ελευθερίας και 1-α επίπεδο εμπιστοσύνης. Το μέγιστο εκτιμώμενο σφάλμα είναι: Ε= t a

s2( 2

1 1  ) (71). n1 n2

Παράδειγμα: Το ύψος 20 τυχαία επιλεγέντων γυναικών και 30 τυχαία επιλεγέντων ανδρών ελήφθη ανεξαρτήτως από το σύνολο των φοιτητών ενός πανεπιστημίου με σκοπό να εκτιμηθεί η διαφορά στο μέσο ύψος ανδρών και γυναικών. Οι πληροφορίες από αυτά τα δείγματα δίνονται στον επόμενο πίνακα. Δείγμα

Πλήθος

Μέσο ύψος

Τυπική απόκλιση

Άνδρες

30

172 cm

4

Γυναίκες

20

160 cm

5

Αν υποθέσουμε ότι και οι δύο πληθυσμοί είναι κανονικοί και οι διακυμάνσεις των πληθυσμών είναι ίσες, να καθοριστεί ένα 95% διάστημα εμπιστοσύνης για τη διαφορά μεταξύ των μέσων υψών,      . Λύση: 1ο βήμα: Προσδιορισμός του προβλήματος. Ζητάμε το διάστημα εμπιστοσύνης για τη διαφορά του μέσου ύψους, ανδρών και γυναικών του πανεπιστημίου. 2ο βήμα: Κριτήρια διαστήματος εμπιστοσύνης a. Και οι δύο δειγματικοί πληθυσμοί είναι κανονικοί, οι διακυμάνσεις τους είναι ίσες και τα δείγματα μικρά. b. Θα χρησιμοποιηθεί η t κατανομή με 30+20-2=48 βαθμούς ελευθερίας και ο τύπος 57. c. Για 1-α.=0,95 το επιπέδου σημαντικότητας θα είναι α=0.05.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 73

3ο βήμα: Μαρτυρία του δείγματος. Από τον επόμενο πίνακα έχουμε τα στοιχεία του δείγματος. ηα=30

x =172 cm

s =4

ηγ=20

x =160 cm

s =5

Από τον τύπο 55 εκτιμούμε την τιμή του σ2 :

( n1  1) s12  ( n2  1) s 22 (30  1)  16  ( 20  1)  25 s  = =19,56. 30  20  2 n1  n2  2 2

Και στη συνέχεια από τον τύπο (69) υπολογίζουμε το εκτιμώμενο τυπικό σφάλμα:   x 1  x 2  s x1  x 2 

s2(

1 1 1 1  ) = 19,56(  ) = 1,28. 30 20 n1 n2

4ο βήμα: Το διάστημα εμπιστοσύνης a. Με α=0,05 και df=48 από τους πίνακες θα πάρουμε t 0,025=2,0126. b. Το μέγιστο εκτιμώμενο σφάλμα, βάση του τύπου (71) είναι: Ε= t a

s2 ( 2

1 1  ) =2,0126·1,28=2,576. n1 n2

c. Το κατώτερο και το ανώτερο όριο εμπιστοσύνης, με βάση τον τύπο (70), είναι: (172-160)-2,576=9,424 και (172-160)+2,576=14,576. 5ο βήμα: Τα αποτελέσματα Με 95% σιγουριά μπορούμε να πούμε ότι η διαφορά στο μέσο ύψος μεταξύ ανδρών και γυναικών του πανεπιστημίου κυμαίνεται από 9,424 έως 14,576 cm.

Δρ. Ευστάθιος Δ Δημητριάδης

74

INFERENTIAL STATISTICS

3.2.4 Διάστημα εμπιστοσύνης για τη διαφορά ποσοστιαίων αναλογιών. Περίπτωση δύο ανεξάρτητων δειγμάτων. Πολύ συχνά ενδιαφερόμαστε για στατιστικούς ελέγχους μεταξύ των αναλογιών, των ποσοστών ή των πιθανοτήτων που σχετίζονται με δύο πληθυσμούς. Ο έλεγχος αυτός μπορεί να γίνει με σημειακή εκτίμηση της διαφοράς των αναλογιών των δύο πληθυσμών ή με την εκτίμηση ενός διαστήματος εμπιστοσύνης για τη διαφορά των δύο αναλογιών. Σε κάθε περίπτωση θα συμβολίζουμε με: 

p1 την πιθανότητα επιτυχίας στον πληθυσμό 1.



p2 την πιθανότητα επιτυχίας στον πληθυσμό 2.



p1 την πιθανότητα επιτυχίας στο δείγμα από τον πρώτο πληθυσμό.



p2 την πιθανότητα επιτυχίας στο δείγμα από τον δεύτερο πληθυσμό.

Η δειγματοληπτική κατανομή των p1 - p2 έχει τις επόμενες ιδιότητες:  Αριθμητικό μέσο:  p1  p2  p1  p2  Τυπική απόκλιση:  p1  p2 

p1q1 p 2 q 2  (72) n1 n2

 Μία προσεγγιστικά κανονική κατανομή, αν οι τιμές των η1 και η2 είναι αρκετά μεγάλες. Στην πράξη για να πετύχουμε κανονικότητα στην κατανομή των p1 - p2 θα πρέπει:  Το μέγεθος και των δύο δειγμάτων να είναι μεγαλύτερο του 20.  Τα γινόμενα n1 p1 , n1q1 , n2 p2 , n2 q 2 να είναι όλα μεγαλύτερα του 5. Συνήθως δεν γνωρίζουμε τα p1 και p2 οπότε χρησιμοποιούμε αντί αυτών τα p1 και

p2 αντίστοιχα.  Το κάθε δείγμα να είναι μικρότερο του 10% του πληθυσμού από τον οποίο προέρχεται. Η υπόθεση την οποία κάνουμε για συμπεράσματα σχετικά με τη διαφορά μεταξύ δύο αναλογιών (ποσοστών- πιθανοτήτων) είναι ότι οι η1 και η2 τυχαίες παρατηρήσεις οι οποίες αποτελούν τα δείγματα, έχουν επιλεγεί κατά τρόπο ανεξάρτητο από δύο πληθυσμούς οι οποίοι δεν μεταβλήθηκαν κατά τη διάρκεια της δειγματοληψίας. Το διάστημα εμπιστοσύνης της διαφοράς των αναλογιών δίνεται από τον τύπο:

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 75

( p1  p2 )  Z a  2

p1q1 p 2 q 2  (73). n1 n2

Αν, όπως συνήθως συμβαίνει, δεν γνωρίζουμε τα p1 και p2 χρησιμοποιούμε αντί αυτών τα p1 και p2 αντίστοιχα. Παράδειγμα: Δύο γραφεία τα οποία ελέγχουν φορολογικές δηλώσεις κάνουν κατά τη διάρκεια του ελέγχου διάφορα λάθη. Πήραμε τυχαία επιλεγμένα δείγματα, εκκαθαρισθέντων φορολογικών δηλώσεων, από τα δύο γραφεία. Τα δείγματα αυτά μας δίνουν τις επόμενες πληροφορίες. 1o Γραφείο

2ο Γραφείο

n1 =250 δηλώσεις

n2 =300 δηλώσεις

Αριθμός δηλώσεων με λάθη=35

Αριθμός δηλώσεων με λάθη=27

p1 =35/250=0,14=14%

p2 =27/300=0,09=9%.

Θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης για τη διαφορά των ποσοστιαίων αναλογιών των λαθών μεταξύ των δύο γραφείων, σε επίπεδο σημαντικότητας 0,1. Λύση: Βήμα 1ο : Το Στατιστικό μέτρο που μας ενδιαφέρει είναι η διαφορά των ποσοστιαίων αναλογιών p1 και p2 των λαθών στις εκκαθαρίσεις των δηλώσεων των δύο γραφείων. Βήμα 2ο: a. Τα δείγματα επιλέχθηκαν τυχαία και κάθε μονάδα των δειγμάτων είναι ανεξάρτητη από οποιαδήποτε άλλη. b. Μπορεί να χρησιμοποιηθεί η τυπική κανονική κατανομή ως μέτρο στατιστικού ελέγχου, καθώς τα δείγματα είναι η1=250>20 και η2=300>20 με τα γινόμενα n1 p1 , n1q1 , n2 p2 , n2 q 2 >5. c. α=0,1 και συνεπώς 1-0,1=0,9 το επίπεδο εμπιστοσύνης. Βήμα 3ο : η1=250 και η2=300

p1 =0,14 και q1 =1-0,14=0,86 p2 =0,09 και q 2 =1-0,09=0,91

Δρ. Ευστάθιος Δ Δημητριάδης

76

INFERENTIAL STATISTICS

Βήμα 4ο : a. Η τιμή του Z a  Z 0, 01  Z 0,005  2,575. 2

b. E  Z a  2

2

p1 q1 p 2 q 2 0,14  0,86 0,09  0,91    0,02747 . = 1,65  n1 n2 250 300

c. Το κατώτερο όριο του διαστήματος είναι: (0,14-0,09)-0,002747=0,047253 και το ανώτερο: (0,14-0,09)+ 0,002747=0,052747. Βήμα 5ο : Το 90% διάστημα εμπιστοσύνης για τη διαφορά των ποσοστιαίων αναλογιών των λαθών των δύο γραφείων είναι από 0,47% έως 0,53%. 3.2.5

Ταυτόχρονα Διαστήματα Εμπιστοσύνης και Πολλαπλές Συγκρίσεις

Πολλές φορές είναι απαραίτητη η δημιουργία διαστημάτων εμπιστοσύνης για τη διαφορά των μέσων τιμών περισσοτέρων των δύο δειγμάτων με ταυτόχρονο επίπεδο εμπιστοσύνης 100(1-α)%. Για τη δημιουργία αυτών των διαστημάτων και την πολλαπλή σύγκριση χρησιμοποιούνται κατά περίπτωση οι μέθοδοι των Tukey και Dunnett. 3.2.5.1 Μέθοδος Tukey Με τη μέθοδο Tukey βρίσκουμε τα διαστήματα εμπιστοσύνης για όλες τις k(k-1)/2 διαφορές  j   j ' με ταυτόχρονο επίπεδο εμπιστοσύνης ίσο προς 100(1-α)% και βασίζεται στην κατανομή της στατιστικής συνάρτησης

q

x max  x min sp / n

(74), όπου x max και x min είναι ο μέγιστος και ο ελάχιστος

δειγματικός μέσος μεταξύ των k δειγμάτων κοινού μεγέθους και s 2p είναι η σταθμισμένη δειγματική διασπορά η οποία δίνεται από τον τύπο s 2p 

s12  s 22  ....  s k2 (75), όπου s12 , s 22 ,...., s k2 οι δειγματικές διασπορές των k k

δειγμάτων. Ο τύπος τον οποίο χρησιμοποιούμε για την δημιουργία καθενός από τα k(k-1)/2 διαστήματα εμπιστοσύνης των διαφορών των μέσων τιμών είναι ο επόμενος:

x j  x j '  q a ( k , )  s p

1 (76). n

Χρησιμοποιούμε τις τιμές της κατανομής q από τον Πίνακα Γ του παραρτήματος με α επίπεδο σημαντικότητας, k δείγματα και ν=N-k βαθμούς ελευθερίας.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 77

Παράδειγμα: Έστω ότι A, B, C και D αντιπροσωπεύουν 4 διαφορετικούς τύπους κεντρικών μονάδων (ΚΜ) ηλεκτρονικών υπολογιστών. Ο χρόνος επισκευής σε λεπτά παρουσιάζεται στον παρακάτω πίνακα.

α) Χρησιμοποιήστε

A

B

C

D

62

45

66

68

48

57

53

52

49

44

47

70

50

40

49

55

63

39

59

65

69

54

60

53

57

50

67

59

τη μέθοδο πολλαπλών συγκρίσεων του Tukey, για να

βρείτε τα διαστήματα εμπιστοσύνης για τις διαφορές των μέσων χρόνων επισκευής των κεντρικών μονάδων που αντιστοιχούν στους 4 διαφορετικούς τύπους παίρνοντας ως ταυτόχρονο επίπεδο εμπιστοσύνης 95%. β) Βρείτε το επιμέρους 95% διάστημα εμπιστοσύνης για τη διαφορά μΑ-μC και κάντε σύγκριση με το αντίστοιχο της προηγούμενης ερώτησης. Λύση: Σε πρώτη φάση είναι απαραίτητο να υπολογιστούν οι μέσοι χρόνοι επισκευής των τεσσάρων τύπων κεντρικών μονάδων (ΚΜ) ηλεκτρονικών υπολογιστών καθώς και η σταθμισμένη δειγματική διακύμανση. Έτσι θα έχουμε:

Δρ. Ευστάθιος Δ Δημητριάδης

78

INFERENTIAL STATISTICS A

B

C

D

62

45

66

68

48

57

53

52

49

44

47

70

50

40

49

55

63

39

59

65

69

54

60

53

57

50

67

59

398

329

401

422

xj

56,86

47,00

57,29

60,29

s 2j

66,47

47,33

62,23

54,57

6

 x ij i 1

s 2p = 57,65

α) Έχουμε a=0,05, k=4, n1=n2=n3=n4=7, s 2p = 57,65 και ν=28-4=24 β.ε. Από τον Πίνακα Γ για a=0,05, k=4 και ν=24 β.ε θα έχουμε: q0,05(4,24)=3,90. Από τον τύπο (76) τα διαστήματα ταυτόχρονης 95% εμπιστοσύνης θα είναι της μορφής:

x j  x j'  3,90

57,65 = x j  x j'  11,19 . 7

Χρησιμοποιώντας τις μέσες τιμές που βρήκαμε θα έχουμε αναλυτικά : Για τη διαφορά μΑ-μΒ: 56,86-47,00  11,19=(-1,33, 21,05) Για τη διαφορά μΑ-μC: 56,86-57,29  11,19=(-11,62, 10,76) Για τη διαφορά μΑ-μD: 56,86-60,29  11,19=(-14,62, 7,76) Για τη διαφορά μB-μC: 47,00-57,29  11,19=(-21,48, 0,9) Για τη διαφορά μB-μD: 47,00-60,29  11,19=(-24,48, -2,1) Για τη διαφορά μC-μD: 57,29-60,29  11,19=(-14,19, 8,19) β) Το επιμέρους 95% διάστημα εμπιστοσύνης για τη διαφορά μΑ-μC δίνεται από τον τύπο (70) (ανεξάρτητα και μικρά δείγματα) και είναι:

x A  x C  t 0 , 025 , 12  s p 

2 = 56,86-57,29  2,179 ּ◌8,0218 ּ◌0,534=(-9,764, 8,904) 7

Παρατηρούμε ότι το διάστημα που υπολογίσαμε είναι στενότερο από το αντίστοιχο διάστημα που βρήκαμε στην προηγούμενη ερώτηση.

!!! Το διάστημα με τη μέθοδο του Tukey είναι πλατύτερο, γιατί στην εύρεσή του καθορίσαμε ταυτόχρονο επίπεδο εμπιστοσύνης 95% (για όλα τα

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 79

διαστήματα) με αποτέλεσμα η εκτίμηση της διαφοράς μΑ-μC

να είναι πιο

επιφυλακτική. Με άλλα λόγια με τη μέθοδο του Tukey καθορίστηκε, έμμεσα, ένα επιμέρους επίπεδο εμπιστοσύνης για τη διαφορά μΑ-μC μεγαλύτερο του 95%. 3.2.5.2 Μέθοδος του Dunnett Πολλές φορές η μέση τιμή ενός δείγματος είναι καθιερωμένη ή δοκιμασμένη και θέλουμε να συγκρίνουμε τις μέσες τιμές των υπολοίπων k-1 δειγμάτων με αυτήν. Στις περιπτώσεις αυτές δεν ενδιαφερόμαστε για όλες τις k(k-1)/2 συγκρίσεις των μέσων τιμών ανά δύο, αλλά μόνο για k-1 συγκρίσεις. Συμβολίζοντας με μ1 την δοκιμασμένη μέση τιμή, θέλουμε να κατασκευάσουμε διαστήματα εμπιστοσύνης για τις διαφορές μj-μ1 με ταυτόχρονο επίπεδο εμπιστοσύνης 100(1-α)%. Υποθέτοντας ότι n2=n3=……=nk=m ο Dunnett βρήκε ότι τα διαστήματα αυτά δίνονται από τον τύπο: x j  x 1  d a (k  1, v )s p

1 1  n1 m

(77), (j=2,3,…..k) με da(k-1, ν) κάποιες σταθερές οι

οποίες εξαρτώνται από το ρυθμό σφάλματος πειραματικής εμβέλειας α, τον αριθμό των k-1 δειγμάτων, τους βαθμούς ελευθερίας ν=Ν-k και την τιμή του λόγου n1/m. Στον Πίνακα Δ του παραρτήματος δίνονται οι σταθερές da(k-1, ν) στην περίπτωση ίσων δειγματικών μεγεθών n1=m, για α=0,05 και α=0,01 και για διάφορες τιμές των παραμέτρων k-1 και ν. Παράδειγμα: Χρησιμοποιώντας τα δεδομένα του προηγούμενου παραδείγματος υπολογίστε με τη μέθοδο πολλαπλών συγκρίσεων του Dunnett, τα διαστήματα εμπιστοσύνης για τις διαφορές των μέσων χρόνων επισκευής των κεντρικών μονάδων που αντιστοιχούν στους 4 διαφορετικούς τύπους, παίρνοντας ως δοκιμασία ελέγχου τον τύπο Β και ως ταυτόχρονο επίπεδο εμπιστοσύνης 95%. Λύση: Η τιμή της σταθεράς da(k-1, ν) για α=0,05 , k-1=4-1=3 και ν=Ν-k=28-4=24 από τον Πίνακα Δ είναι 2,51. Με αντικατάσταση στον τύπο (77) θα έχουμε: Για τη διαφορά μΑ-μΒ: 56,86  47,00  2,51  7,593

1 1   (0,317 20,037) 7 7

Δρ. Ευστάθιος Δ Δημητριάδης

80

INFERENTIAL STATISTICS

Για τη διαφορά μC-μΒ: 57,29  47,00  2,51  7,593

1 1   (0,103 20,477) 7 7

Για τη διαφορά μD-μΒ: 60,29  47,00  2,51  7,593

1 1   (3,103 23,477) 7 7

!!! Παρατηρούμε ότι τα τρία διαστήματα που προέκυψαν με τη μέθοδο του Dunnett έχουν μικρότερο πλάτος από τα αντίστοιχα διαστήματα που βρήκαμε με τη μέθοδο του Tukey.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 81

ΣΥΝΟΠΤΙΚΟΣ ΠΙΝΑΚΑΣ ΔΙΑΣΤΗΜΑΤΩΝ ΕΜΠΙΣΤΟΣΥΝΗΣ 1. Διάστημα εμπιστοσύνης για τη μέση τιμή μ του πληθυσμού 1.1. Μεγάλο δείγμα , σ γνωστό και πληθυσμός άπειρος ή n/N≤0,05 Διάστημα εμπιστοσύνης:



x  Za 

n

2

Τυπικό σφάλμα:

x 

Μέγιστο σφάλμα:

 n

E  Za 

 n

2

1.2. Μεγάλο δείγμα , σ γνωστό και πληθυσμός πεπερασμένος και n/N>0,05 Διάστημα εμπιστοσύνης:

x  Za 



Τυπικό σφάλμα:

x 

Μέγιστο σφάλμα:



n

2

Nn N 1

 n

E  Za 



2

n

1.3. Μεγάλο δείγμα , σ άγνωστο και πληθυσμός άπειρος ή n/N≤0,05



Διάστημα εμπιστοσύνης:



x  Za 

n

2

( x  x)



με   s 

2

n 1



Τυπικό σφάλμα:

x 



n 

Μέγιστο σφάλμα:

E  Za 



n

2

1.4. Μεγάλο δείγμα , σ άγνωστο και πληθυσμός πεπερασμένος και n/N>0,05



Διάστημα εμπιστοσύνης:



x  Za 

n

2

Nn  N 1



με   s 

( x  x)

2

n 1



Τυπικό σφάλμα:

x 



n 

Μέγιστο σφάλμα:

E  Za 



n

2

1.5 Μικρό δείγμα κανονικός ή κατά προσέγγιση κανονικός πληθυσμός και σ άγνωστο



Διάστημα εμπιστοσύνης:

x  ta  2



n

με df=n-1 και



 s

( x  x)

2

n 1



Τυπικό σφάλμα:

x 



n

Δρ. Ευστάθιος Δ Δημητριάδης

82

INFERENTIAL STATISTICS



Μέγιστο σφάλμα:



E  ta 

n

2

2. Διάστημα εμπιστοσύνης για την αναλογία p του πληθυσμού 2.1. p και q γνωστά

p  Za p

Διάστημα εμπιστοσύνης:

με

p

x , όπου χ ο αριθμός των επιτυχιών. n

με

p

x , όπου χ ο αριθμός των επιτυχιών. n

2

Τυπικό σφάλμα:

pq n

p 

Μέγιστο σφάλμα:

pq n

E  Za  2

2.2. p και q άγνωστα

 p  Za p

Διάστημα εμπιστοσύνης:

2

Τυπικό σφάλμα:

 p 

Μέγιστο σφάλμα:

pq n pq n

E  Za  2

3. Διάστημα εμπιστοσύνης για τη διαφορά των μέσων τιμών δύο πληθυσμών 3.1. Δείγματα εξαρτημένα

d  ta 

Διάστημα εμπιστοσύνης:

2

sd

με df=n-1,

n

sd 

d i  x1 i  x 2 i Τυπικό σφάλμα:

sd

d 

Μέγιστο σφάλμα:

n

E  ta  2

sd n

3.2 Δείγματα ανεξάρτητα, μεγάλα με σ1 και σ2 γνωστά

( x1  x 2 )  Z a 

Διάστημα εμπιστοσύνης:

2

Τυπικό σφάλμα:

 x x = 1

2

 12 n1

Dr. Efstathios D Dimitriadis



 22 n2

 ( d i ) 2  d   n    , d  n 1 2 i

 12 n1



 22 n2

d n

i

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 83

Μέγιστο σφάλμα:

 12

Ε= Z a 

n1

2

3.3

Τυπικό σφάλμα:

(x1  x 2 )  Z a

  x 1  x 2  s x1  x 2 

Μέγιστο σφάλμα:

Ε= Z a

s 12 s 22  n1 n 2

2

με

n1  n2  2 βαθμούς ελευθερίας

s 12 s 22  n1 n 2

s 12 s 22  n1 n 2

2

Δείγματα ανεξάρτητα με ένα ή και τα δύο μικρά και σ1 =σ2 άγνωστα

(x1  x 2 )  t a

Διάστημα εμπιστοσύνης:

Τυπικό σφάλμα:

  x 1  x 2  s x1  x 2 

Μέγιστο σφάλμα:

4.

n2

Δείγματα ανεξάρτητα, μεγάλα με σ1 και σ2 άγνωστα

Διάστημα εμπιστοσύνης:

3.4



 22

Ε= t a

s2( 2

s2( 2

1 1  ) n1 n2

1 1 s (  ) n1 n2 2

με

( n1  1) s12  ( n2  1) s 22 s  n1  n2  2 2

1 1  ) n1 n2

Διάστημα εμπιστοσύνης για τη διαφορά των αναλογιών δύο πληθυσμών

4.1. p και q γνωστά

( p1  p2 )  Z a 

Διάστημα εμπιστοσύνης:

2

Τυπικό σφάλμα:

Μέγιστο σφάλμα:

p1q1 p 2 q 2  n1 n2

 p p  1

2

Ε=  Z a

p1q1 p 2 q 2  n1 n2

2

p1 q1 p2 q 2  n1 n2

4.2. p και q άγνωστα

Διάστημα εμπιστοσύνης:

( p1  p2 )  Z a  2



Τυπικό σφάλμα:

 p p 

p1 q1 p2 q 2  n1 n2

Μέγιστο σφάλμα:

Ε= Z a

p1 q1 p2 q 2  n1 n2

1

2

2

p1 q1 p2 q 2  n1 n2

Δρ. Ευστάθιος Δ Δημητριάδης

84

INFERENTIAL STATISTICS

5. Ταυτόχρονα Διαστήματα Εμπιστοσύνης 5.1 Μέθοδος Tukey

Διάστημα εμπιστοσύνης:

x j  x j '  q a ( k , )  s p

Σταθμισμένη δειγματική διασπορά:

s 2p

1 n

s12  s 22  ....  s k2  k

5.2 Μέθοδος Dunnett Διάστημα εμπιστοσύνης:

x j  x 1  d a (k  1, v )s p

Σταθμισμένη δειγματική διασπορά:

Dr. Efstathios D Dimitriadis

s 2p 

1 1  n1 m

s12  s 22  ....  s k2 k

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 85

Ασκήσεις 1. Από πληθυσμό 4.000 νοικοκυριών μίας περιοχής επιλέγεται τυχαίο δείγμα 250 νοικοκυριών με σκοπό να εκτιμηθεί το μέσο μηνιαίο εισόδημα των νοικοκυριών της περιοχής. Το δείγμα έδωσε μέσο εισόδημα 940 Euro. Αν είναι γνωστό ότι η τυπική απόκλιση του πληθυσμού είναι 21 Euro, να κατασκευάσετε ένα 95% διάστημα εμπιστοσύνης για το μέσο εισόδημα των νοικοκυριών. 2. Στη βάση των δεδομένων του προηγούμενου προβλήματος οι ερευνητές θέλουν στις εκτιμήσεις τους το μέγιστο σφάλμα να είναι δύο μονάδες, σε επίπεδο σημαντικότητας 0,01. Σε αυτή την περίπτωση πόσο πρέπει να είναι το μέγεθος του δείγματος; 3. Μια ερευνητική ομάδα διεξάγει έρευνα για να εκτιμήσει την αποτελεσματικότητα ενός καινούργιου λιπάσματος στην παραγωγή πορτοκαλιών. Η αποτελεσματικότητα της παραγωγής εξαρτάται από το βάρος των παραγόμενων πορτοκαλιών. Ένα δείγμα 120 πορτοκαλιών που προέρχονται από πορτοκαλιές που καλλιεργήθηκαν με το καινούργιο λίπασμα, εξετάστηκε και βρέθηκε ότι έχουν μέσο βάρος 50 γραμμάρια με διακύμανση 25 γραμμάρια. Ένα άλλο ανεξάρτητο δείγμα μεγέθους 130 πορτοκαλιών, που προερχόταν από δένδρα τα οποία καλλιεργήθηκαν με το συνηθισμένο λίπασμα έδωσε μέσο βάρος 40 γραμμάρια με διακύμανση 4 γραμμάρια. Ζητείται να κατασκευάσετε ένα 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων τιμών των δύο πληθυσμών παραγωγής πορτοκαλιών. 4. Για να συγκρίνουμε δύο μηχανές που κατασκευάζουν νήματα, παίρνουμε ένα δείγμα 10 μονάδων από κάθε μηχανή, ελέγχουμε την αντοχή τους, σε κιλά και βρίσκουμε τα παρακάτω στοιχεία. Μηχανή Α

80

82

62

82

64

92

60

58

25

82

Μηχανή Β

98

40

96

28

20

46

20

20

10

90

Αν υποθέσουμε ότι η κατανομή της αντοχής των νημάτων είναι κανονική με διακυμάνσεις πληθυσμών ίσες αλλά άγνωστες, να υπολογισθεί το διάστημα εμπιστοσύνης της διαφοράς των δύο μέσων σε επίπεδο εμπιστοσύνης 90%. 5. Τυχαίο δείγμα από 40 ηλεκτρικούς λαμπτήρες, που έχουν παραχθεί με μία συγκεκριμένη τεχνική μέθοδο, έχουν μέση διάρκεια ζωής 1832 ώρες και τυπική απόκλιση 497 ώρες. Άλλο τυχαίο δείγμα 60 ηλεκτρικών λαμπτήρων που έχουν

Δρ. Ευστάθιος Δ Δημητριάδης

86

INFERENTIAL STATISTICS

παραχθεί με άλλη τεχνική μέθοδο, έδωσε μέση διάρκεια 1261 ώρες με τυπική απόκλιση 501 ώρες. Ζητείται το διάστημα εμπιστοσύνης της διαφοράς των δύο μέσων σε επίπεδο σημαντικότητας 5%, δοθέντος ότι οι πληθυσμοί είναι κανονικοί. 6.

Μια έρευνα γίνεται για να εκτιμηθούν δύο νέες μέθοδοι διδασκαλίας Α

και Β. Για το σκοπό αυτό επιλέγεται μία ομάδα 12 μαθητών στην οποία εφαρμόζεται η μέθοδος Α και μετράται η απόδοσή τους. Στη συνέχεια στην ίδια ομάδα εφαρμόζεται η μέθοδος Β και μετράται εκ νέου η απόδοσή τους. Τα αποτελέσματα εμφανίζονται στον επόμενο πίνακα. Μέθοδος

Μέση επίδοση

Τυπική απόκλιση

Α

70

12

Β

90

16

Να κατασκευασθεί ένα 99% διάστημα εμπιστοσύνης για τη διαφορά των μέσων τιμών των επιδόσεων. 7. Θέλοντας να εκτιμήσουμε το μέσο μηνιαίο εισόδημα των υπαλλήλων μίας επιχείρησης, πήραμε δείγμα 36 υπαλλήλων. Το μέσο μηνιαίο εισόδημα αυτών είναι 800 Euro, ενώ είναι γνωστό ότι η τυπική απόκλιση του πληθυσμού είναι 81 Euro. α. Να κατασκευαστεί ένα διάστημα εμπιστοσύνης για το μέσο μηνιαίο εισόδημα του συνόλου των υπαλλήλων σε επίπεδο σημαντικότητας 3%, αν είναι γνωστό ότι ο πληθυσμός κατανέμεται κανονικά. β. Να προσδιοριστεί το κατάλληλο μέγεθος δείγματος αν θέλουμε, για περισσότερη ακρίβεια στην εκτίμηση, το εύρος του διαστήματος εμπιστοσύνης να είναι 40 Euro. 8. Ένα τυχαίο δείγμα 10 φυλακισμένων στην ερώτηση πόσες ώρες εβδομαδιαίως βλέπετε τηλεόραση απάντησε ως εξής: 82 66 90 84 75 88 80 94 110 91. Να καθορίσετε ένα 90% διάστημα εμπιστοσύνης για τον μέσο όρο των ορών που βλέπει τηλεόραση το σύνολο των φυλακισμένων. Υποθέστε ότι ο αριθμός των ωρών ακολουθεί την κανονική κατανομή. 9.

Η

επιχείρηση

Greystone

Department

Stores

Inc.,

διαθέτει

δύο

καταστήματα στη Νέα Υόρκη. Το ένα στο κέντρο και το άλλο σε συνοικία της πόλης. Ο διευθυντής της επιχείρησης διαπίστωσε ότι προϊόντα τα οποία καταναλώνονται πολύ στο ένα κατάστημα δεν είναι το ίδιο αποδεκτά και στο άλλο.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 87

Πιστεύοντας ότι αυτό οφείλεται σε παράγοντες όπως η ηλικία, η μόρφωση το εισόδημα κ.λ.π έκανε μία έρευνα παίρνοντας δείγματα πελατών από τα δύο καταστήματα και καταγράφοντας τα παραπάνω χαρακτηριστικά. Τα αποτελέσματα της έρευνας ως προς την ηλικία παρουσιάζονται στον επόμενο πίνακα. Κατάστημα

Αρ. πελατών

Μέση ηλικία

Τυπική απόκλιση

Κέντρο

36

40

9

Συνοικία

49

35

10

Να κατασκευαστεί ένα 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων ηλικιών των πελατών των δύο καταστημάτων. 10. Πιστεύεται ότι οι εργάτες μέλη των εργατικών συνδικάτων παίρνουν περισσότερα χρήματα. Για το λόγο αυτό πάρθηκε ένα δείγμα 15 εργατών μελών εργατικών συνδικάτων και ένα δείγμα 20 εργατών μη μελών εργατικών συνδικάτων. Η ωριαία αντιμισθία των εργατών των δύο δειγμάτων εμφανίζεται στον επόμενο πίνακα: Μέλη 22,40 18,90 16,70 14,05 16,20 20,00 16,10 16,30 19,10 16,50 18,50 19,80 17,00 14,30 17,20 Μη μέλη 17,60 14,40 16,60 15,00 17,65 15,00 17,55 13,30 11,20 15,90 19,20 11,85 16,65 15,20 15,30 17,00 15,10 14,30 13,90 14,50

Να κατασκευαστεί διάστημα εμπιστοσύνης για τη διαφορά της αμοιβής μεταξύ μελών και μη μελών εργατικών συνδικάτων σε επίπεδο εμπιστοσύνης 98%. 11. Μια επιχείρηση προκειμένου να εφαρμόσει ένα πλάνο παροχής κινήτρων στους πωλητές της πήρε ένα τυχαίο δείγμα πέντε από αυτούς και αφού κατέγραψε τις πωλήσεις τους για μία συγκεκριμένη περίοδο στη συνέχεια τους ανακοίνωσε το πλάνο και κατέγραψε εκ νέου τις πωλήσεις για μία ίδια χρονική περίοδο. Τα αποτελέσματα εμφανίζονται στον επόμενο πίνακα. Πωλητής

1

2

3

4

5

Πριν

15

12

18

15

16

Μετά

18

14

19

18

18

Να δημιουργήσετε ένα 90% διάστημα εμπιστοσύνης για τη διαφορά στις πωλήσεις πριν και μετά την εφαρμογή των κινήτρων.

Δρ. Ευστάθιος Δ Δημητριάδης

88

INFERENTIAL STATISTICS

12. Τα δεδομένα του επόμενου πίνακα παριστάνουν τις αντοχές θραύσης (σε psi) 21 δοκιμίων σκυροδέματος που παρασκευάστηκαν με επτά διαφορετικούς συνδυασμούς νερού και τσιμέντου. Α

Β

Γ

Δ

Ε

Ζ

Η

5659

5093

3395

3820

2971

2124

2051

6225

4386

3820

3829

3678

1372

2631

5376

4103

3112

2122

3325

1160

2490

Εφαρμόστε τις μεθόδους πολλαπλών συγκρίσεων των Tukey και Dunnett για να βρείτε τα διαστήματα εμπιστοσύνης για τις διαφορές των μέσων αντοχών θραύσης των διαφόρων τύπων σκυροδέματος. Σε κάθε μέθοδο καθορίστε ταυτόχρονο επίπεδο εμπιστοσύνης 99% και στη μέθοδο του Dunnett θεωρείστε ως δοκιμασία ελέγχου τον τύπο Α του σκυροδέματος. 13. Η εσωτερική διάμετρος ενός ρουλεμάν το οποίο χρησιμοποιείται στους τροχούς προσγείωσης ενός αεροπλάνου είναι γνωστό ότι έχει τυπική απόκλιση σ=0,002 cm. Ένα τυχαίο δείγμα από 15 ρουλεμάν έδειξε μέση εσωτερική διάμετρο 8,2535 cm. 1. Να ελεγχθεί η υπόθεση ότι η μέση εσωτερική διάμετρος του ρουλεμάν είναι 8,25 cm. Χρησιμοποιείστε αμφίπλευρη εναλλακτική υπόθεση και α=0,05. 2. Βρείτε την p-τιμή γι’ αυτό τον έλεγχο 3. Κατασκευάστε ένα 95% αμφίπλευρο διάστημα εμπιστοσύνης για την διάμετρο του ρουλεμάν. 14. Η διάρκεια ζωής μιας μπαταρίας η οποία χρησιμοποιείται σε έναν βηματοδότη υποτίθεται ότι ακολουθεί την κανονική κατανομή. Δοκιμάστηκε ένα τυχαίο δείγμα από 10 μπαταρίες και τα αποτελέσματα δίνονται στη συνέχεια (σε ώρες).

25,5 26,8 24,2 25,0 27,3 26,1 23,2 28,4 27,8 25,7

a. Ο βιομήχανος θέλει να είναι σίγουρος ότι η μέση διάρκεια ζωής των μπαταριών υπερβαίνει τις 25 ώρες. Τι συμπέρασμα μπορούμε να βγάλουμε από αυτά τα δεδομένα; (α=0,05). b. Κατασκευάστε ένα 95% αμφίπλευρο διάστημα εμπιστοσύνης για την μέση διάρκεια ζωής.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 89

15. Δύο μηχανές χρησιμοποιούνται για το γέμισμα υάλινων φιαλών για μη αλκοολούχα ποτά. Η διαδικασία γεμίσματος έχει γνωστή τυπική απόκλιση σ1=0,010 λίτρα και σ2=0,015 λίτρα αντίστοιχα. Ένα τυχαίο δείγμα από 25 φιάλες από την μηχανή 1 και ένα τυχαίο δείγμα από 20 φιάλες από τη μηχανή 2 έδωσαν ένα μέσο όρο καθαρού περιεχομένου x1 =2,04 λίτρα και x 2 =2,07 λίτρα. a. Να ελεγχθεί η υπόθεση ότι κι οι δυο μηχανές γεμίζουν το ίδιο καθαρό περιεχόμενο, χρησιμοποιώντας α=0,05. Ποια είναι τα συμπεράσματά σας; b. Να βρεθεί η p- τιμή αυτού του ελέγχου. c. Να κατασκευάσετε ένα 95% διάστημα εμπιστοσύνης για τη διαφορά των μέσων τιμών γεμίσματος των δυο μηχανών. 16. Από δείγμα εργαζομένων σε βιομηχανία Χημικών Προϊόντων, μεγέθους n (n>30), το οποίο πήραμε από το σύνολο των 1500 εργαζομένων (n/N  0,05) προέκυψε μέσος μηνιαίος μισθός 1200 Euro ( x =1200). Σε επίπεδο σημαντικότητας 5%, το ανώτερο όριο του διαστήματος εμπιστοσύνης είναι 1249 Euro και η τυπική απόκλιση του πληθυσμού 200 Euro. Να υπολογισθεί το μέγεθος του δείγματος. 17. Ο χρόνος ο οποίος απαιτείται για να πάει κάποιος στην εργασία του και να επιστρέψει είναι ένας παράγοντας τον οποίο λαμβάνουν σοβαρά υπόψη τους οι επιχειρήσεις. Έτσι σε ένα δείγμα 84 υποψήφιων για πρόσληψη σε μια επιχείρηση ο μέσος χρόνος βρέθηκε 2,44 ώρες και η τυπική απόκλιση 2,12 ώρες. a. Να υπολογιστεί ένα (i) 95% και (ii) 99,8% διάστημα εμπιστοσύνης για τον μέσο χρόνο ο οποίος απαιτείται. b. Είναι πιθανό ο πραγματικός χρόνος να είναι μεγαλύτερος από 3 ώρες;

Δρ. Ευστάθιος Δ Δημητριάδης

ΚΕΦΑΛΑΙΟ 4Ο

Δοκιμασία Υποθέσεων Hypotheses Testing

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 91

4. Εισαγωγή Στην καθημερινή μας ζωή όλοι παίρνουμε αποφάσεις, μερικές από τις οποίες είναι πολύ σημαντικές ενώ άλλες φαινομενικά ασήμαντες. Σε κάθε περίπτωση η λήψη των αποφάσεων ακολουθεί το ίδιο πρότυπο. Σταθμίζουμε τις εναλλακτικές λύσεις και στη συνέχεια με βάση τις προτιμήσεις και τις πεποιθήσεις μας αλλά και τα μέσα τα οποία διαθέτουμε καταλήγουμε στην απόφαση την οποία για να υλοποιήσουμε ακολουθούμε την απαραίτητη διαδικασία. Η Στατιστική Υπόθεση ακολουθεί την ίδια τακτική, μόνο που χρειάζεται στατιστικές πληροφορίες. Παράδειγμα: Ένας φίλος διοργανώνει ένα πάρτι και με έχει προσκαλέσει. Εγώ πρέπει να πάρω μία απόφαση: Να αποδεχτώ ή όχι την πρόσκληση. Απλή απόφαση; Ίσως, εκτός αν θέλω να πάω μόνο εάν μπορέσω να πειστώ ότι το πάρτι πρόκειται να είναι περισσότερη διασκεδαστικό από τα συνηθισμένα πάρτι φίλων. Επιπλέον, σίγουρα δεν θέλω να πάω εάν αυτό είναι ένα ακόμη αποτυχημένο πάρτι. Έχω πάρει την θέση ότι το πάρτι θα είναι αποτυχημένο και δεν θα πάω εκτός αν πεισθώ για το αντίθετο. Ο Φίλος μου βεβαιώνει, εγγυημένα, ότι το πάρτι θα είναι φανταστικό. Τελικά θα πάω ή όχι; Η διαδικασία λήψης της απόφασης ξεκινάει καθορίζοντας κάτι ενδιαφέρον και στη συνέχεια διατυπώνοντας δύο υποθέσεις σχετικά με αυτό. Υπόθεση: Ένας ισχυρισμός ότι κάτι είναι σωστό. Τεστ Στατιστικής Υπόθεσης: Η διαδικασία με την οποία μία απόφαση παίρνεται μεταξύ δύο αντίθετων υποθέσεων. Οι δύο αντίθετες υποθέσεις είναι διατυπωμένες έτσι ώστε η μία να είναι η αρνητική της άλλης. Οι δύο αυτές υποθέσεις οι οποίες γίνονται κατά τη διαδικασία λήψης αποφάσεων είναι γνωστές σαν Μηδενική Υπόθεση (Null Hypothesis) και Εναλλακτική Υπόθεση (Alternative Hypothesis). Μηδενική Υπόθεση (Null Hypothesis) Η0: Είναι η υπόθεση την οποία θα δοκιμάσουμε. Γενικά είναι η αποδοχή ότι η παράμετρος του πληθυσμού έχει μια συγκεκριμένη τιμή. Ονομάζεται έτσι γιατί είναι το σημείο εκκίνησης της όλης διαδικασίας. Εναλλακτική Υπόθεση (Alternative Hypothesis) Η1: Είναι η άλλη υπόθεση ως προς την οποία θα δοκιμάσουμε τη μηδενική υπόθεση. Γενικά η εναλλακτική

Δρ. Ευστάθιος Δ Δημητριάδης

92

INFERENTIAL STATISTICS

υπόθεση μας δηλώνει ότι η παράμετρος του πληθυσμού έχει διαφορετική τιμή από αυτή της μηδενικής υπόθεσης. Στο παραπάνω παράδειγμα θα μπορούσαμε να αναφέρουμε ως: Μηδενική υπόθεση Η0: Το πάρτι θα είναι αποτυχημένο Εναλλακτική υπόθεση Η1: Το πάρτι θα είναι φανταστικό. Αφού καθοριστούν οι δύο υποθέσεις, ακολουθώντας την κατάλληλη διαδικασία, πρέπει να πάρουμε την απόφαση για το αν θα δεχτούμε ή θα απορρίψουμε τη μηδενική υπόθεση.

Στην περίπτωση απόρριψης της μηδενικής

υπόθεσης

ενδεχομένως να κάνουμε λάθος Τύπου Ι, δηλαδή να απορρίψουμε τη μηδενική ενώ είναι σωστή. Στην αντίθετη περίπτωση της αποδοχής της μηδενικής υπόθεσης ενδεχομένως να κάνουμε λάθος Τύπου ΙΙ, δηλαδή να δεχτούμε τη μηδενική ενώ είναι λάθος. Οποιαδήποτε απόφαση και να πάρουμε διατρέχουμε τον κίνδυνο να κάνουμε λάθος. Το σημαντικό είναι να μπορούμε να υπολογίζουμε την πιθανότητα αυτού του λάθους. Έτσι θα συμβολίζουμε με α την πιθανότητα λάθους τύπου Ι και με β την πιθανότητα λάθους τύπου ΙΙ. Για να ελέγχουμε αυτά τα λάθη είναι καλό η τιμές των α και β να είναι μικρές. Οι συχνότερα χρησιμοποιούμενες είναι 0,01 και 0,05. Θα μπορούσαμε γενικά να πούμε ότι 1-α είναι η πιθανότητα σωστής απόφασης όταν η μηδενική υπόθεση είναι αληθινή και 1-β είναι η πιθανότητα σωστής απόφασης όταν η μηδενική υπόθεση είναι λάθος. Την τιμή 1-β την ονομάζουμε ισχύ του τεστ γιατί αυτή μετράει την ικανότητα του τεστ να απορρίψει μία λανθασμένη μηδενική υπόθεση. Την πιθανότητα λάθους τύπου Ι την ονομάζουμε και επίπεδο σημαντικότητας. Στον πίνακα 4.1 φαίνεται η σχέση μεταξύ στατιστικής απόφασης (απόρριψης ή αποδοχής της Η0) και πραγματικής κατάστασης της Η0 (αληθής ή ψευδής). Πίνακας 4.1 Πραγματική Κατάσταση της Η0

Αληθής η Η0

Ψευδής η Η0

Σφάλμα τύπου Ι

Σωστή απόφαση

με πιθανότητα α.

με πιθανότητα 1-β

Σωστή απόφαση

Σφάλμα τύπου ΙΙ

με πιθανότητα 1-α

με πιθανότητα β

Στατιστική απόφαση

Απορρίπτουμε την Η0 Δεχόμαστε την Η0

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 93

Μεταξύ των τιμών α, β και του μεγέθους του δείγματος n υπάρχει άμεση σχέση. Αν το α ελαττωθεί τότε το β και το n αυξάνουν. Αν το β ελαττωθεί τότε το α και το n αυξάνουν και τέλος αν το n ελαττωθεί τότε το α και το β αυξάνουν. Δοκιμασία υποθέσεων ή τεστ σημαντικότητας μπορούμε να κάνουμε για διάφορα στατιστικά μέτρα, όπως ο αριθμητικός μέσος μ, η διακύμανση σ2, το p της διωνυμικής κατανομής. Επίσης για τη διαφορά μέσων τιμών, τη διαφορά διακυμάνσεων κ.λ.π. Στη συνέχεια θα δούμε τα σημαντικότερα και πλέον χρησιμοποιούμενα τεστ σημαντικότητας.

4.1 Δοκιμασία υποθέσεων για τη μέση τιμή μ του πληθυσμού 4.1.1 n>30 και γνωστό σ Η προϋπόθεση για τη διενέργεια τεστ σημαντικότητας για τη μέση τιμή μ, είναι η δειγματική κατανομή των μέσων x να είναι κανονική. Η διαδικασία για την σωστή ολοκλήρωση ενός τεστ και τη λήψη σωστών αποφάσεων είναι μια διαδικασία πέντε βημάτων τα οποία πρέπει να ακολουθούνται πιστά. 1ο βήμα: α. Περιγραφή της παραμέτρου του πληθυσμού η οποία μας ενδιαφέρει. β. Καθορισμός της μηδενικής (Η0) και της εναλλακτικής υπόθεσης (Η1). Μηδενική υπόθεση

Η0: μ=μ0

Εναλλακτική υπόθεση Η1: μ> μ0 (μονόπλευρο τεστ) ή Η1: μ< μ0 (μονόπλευρο τεστ) ή Η1: μ  μ0 (δίπλευρο τεστ). 2ο βήμα: α. Έλεγχος των προϋποθέσεων. β. Αναγνώριση της κατανομής πιθανότητας και του στατιστικού τεστ το οποίο θα χρησιμοποιηθεί. Στην περίπτωση αυτή: Z 

(x  0 ) n



(78)

γ. Καθορισμός του επιπέδου σημαντικότητας α. 3ο βήμα: α. Συλλογή πληροφοριών από το δείγμα. β. Υπολογισμός της τιμής του στατιστικού τεστ.

Δρ. Ευστάθιος Δ Δημητριάδης

94

INFERENTIAL STATISTICS

4ο βήμα: α. Υπολογισμός της κριτικής τιμής για δεδομένο α από τους πίνακες της κανονικής κατανομής. β. Σύγκριση της τιμής Ζ με την κριτική τιμή. 5ο βήμα: α. Λήψη απόφασης σχετικά με την Η0. Απορρίπτουμε την Η0 αν Ζ>Ζα ή Ζtα ή t20, np>5 και nq>5. Η διωνυμική είναι η θεωρητικά σωστή κατανομή όταν αναφερόμαστε σε αναλογίες γιατί τα δεδομένα είναι ασυνεχή, όχι συνεχή. Όσο το μέγεθος του δείγματος μεγαλώνει η διωνυμική κατανομή προσεγγίζει την κανονική κατανομή και τα χαρακτηριστικά της και μπορούμε να την χρησιμοποιήσουμε ως προσέγγιση της δειγματικής κατανομής. Είναι απαραίτητο όμως τα γινόμενα np και nq να είναι μεγαλύτερα του 5 για να είμαστε σε θέση να αντικαταστήσουμε τη διωνυμική με την κανονική κατανομή. Για την ολοκλήρωση του τεστ θα ακολουθήσουμε τα πέντε γνωστά βήματα: 1ο βήμα: α. Περιγραφή της παραμέτρου του πληθυσμού η οποία μας ενδιαφέρει. β. Καθορισμός της μηδενικής (Η0) και της εναλλακτικής υπόθεσης (Η1). Μηδενική υπόθεση

Η0: p=p0

Εναλλακτική υπόθεση Η1: p> p0 (μονόπλευρο τεστ) ή Η1: p< p0 (μονόπλευρο τεστ) ή Η1: p  p0 (δίπλευρο τεστ). 2ο βήμα: α. Έλεγχος των προϋποθέσεων. β. Αναγνώριση της κατανομής πιθανότητας και του στατιστικού τεστ το οποίο θα χρησιμοποιηθεί. Στην περίπτωση αυτή: Z 

( p  p0 )

p

(81) με p 

x (82) n

όπου χ ο αριθμός των επιτυχιών και n το μέγεθος του δείγματος, ενώ

 p=

p0 (1  p0 ) (83) n γ. Καθορισμός του επιπέδου σημαντικότητας α.

3ο βήμα: α. Συλλογή πληροφοριών από το δείγμα. β. Υπολογισμός της τιμής του στατιστικού τεστ. 4ο βήμα: α. Υπολογισμός της κριτικής τιμής για δεδομένο α από τους πίνακες της κανονικής κατανομής.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 97

β. Σύγκριση της τιμής Ζ με την κριτική τιμή. 5ο βήμα: α. Λήψη απόφασης σχετικά με την Η0. Απορρίπτουμε την Η0 αν Ζ>Ζα ή Ζ 0,2 (μονόπλευρο τεστ) 2ο βήμα: α. Το n=400 και np=400*0.2=80>5 και nq=400*0.8=320>5. Δηλαδή οι απαραίτητες προϋποθέσεις πληρούνται. β. Το στατιστικό τεστ το οποίο θα χρησιμοποιήσουμε είναι : Z 

με

 p=

p

x n

( p  p0 )

p

όπου χ ο αριθμός των γυναικών παικτριών και n=400, ενώ

p0 (1  p 0 ) n γ. Επίπεδο σημαντικότητας α=0,05.

Δρ. Ευστάθιος Δ Δημητριάδης

INFERENTIAL STATISTICS

98

3ο βήμα: α. Από το δείγμα θα έχουμε: p  β.  p = Z

( p  p0 )

p

=

x 100  0,25. = n 400

p0 (1  p 0 ) 0,2(1  0,2) = =0,02 και n 400

0,25  0,2 =2,5 0,02

4ο βήμα: α. Η κριτική τιμή για α=0,05 από τους πίνακες είναι: Ζ0,05=1,645 β. Ζ=2,5>1,645= Ζ0,05. 5ο βήμα: α. Απορρίπτουμε την Η0 επειδή ισχύει η προηγούμενη ανίσωση. β. Δεχόμαστε επομένως την εναλλακτική υπόθεση και κατά συνέπεια μπορούμε να ισχυριστούμε ότι το ποσοστό των γυναικών παικτριών αυξήθηκε. !!! Δεν θα παρουσιάσουμε τη διαδικασία κατά την οποία το μέγεθος του δείγματος είναι μικρό. Στην περίπτωση μικρού δείγματος η δειγματική κατανομή του p ακολουθεί την διωνυμική κατανομή και ως εκ τούτου η κανονική προσέγγιση δεν είναι εφαρμόσιμη. Στην πράξη μικρά δείγματα δεν συνηθίζεται να ελέγχονται για την αναλογία του πληθυσμού.

4.3 Δοκιμασία υποθέσεων για τη διαφορά των μέσων δύο δειγμάτων. 4.3.1 Ανεξάρτητα μεγάλα δείγματα (n1>30 και n2>30) Στην περίπτωση που και τα δύο δείγματα είναι μεγάλα η δοκιμασία της υπόθεσης σχετικά με τη διαφορά των μέσων τιμών των πληθυσμών ολοκληρώνεται με τον συνήθη τρόπο των πέντε βημάτων. 1ο βήμα: α. Περιγραφή των παραμέτρων μ1 και μ2 των πληθυσμών. β. Καθορισμός της μηδενικής (Η0) και της εναλλακτικής υπόθεσης (Η1). Μηδενική υπόθεση

Η0: μ1=μ2 ή μ1-μ2=0

Εναλλακτική υπόθεση Η1: μ1> μ2 ή μ1-μ2 >0 (μονόπλευρο τεστ) Η1: μ1< μ2 ή μ1-μ2 Ζα ή Ζ1,96= Ζ0,025

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 101

5ο βήμα: α. Απορρίπτουμε τη μηδενική υπόθεση επειδή Z  Z a . 2

β. Αποδεχόμαστε την εναλλακτική υπόθεση η οποία δηλώνει ότι υπάρχει διαφορά στη μέση επίδοση των μαθητών των δύο φροντιστηρίων. 4.3.2 Ανεξάρτητα μικρά δείγματα (n1  30 και / ή n2  >30) Στην περίπτωση που το ένα τουλάχιστον από τα δύο δείγματα είναι μικρό χρησιμοποιούμε την t-κατανομή με n1+n2-2 βαθμούς ελευθερίας και με την υπόθεση ότι οι διακυμάνσεις των πληθυσμών από τους οποίους προέρχονται είναι ίσες. Με τη διαδικασία των πέντε βημάτων θα έχουμε: 1ο βήμα: α. Περιγραφή των παραμέτρων μ1 και μ2 των πληθυσμών. β. Καθορισμός της μηδενικής (Η0) και της εναλλακτικής υπόθεσης (Η1). Μηδενική υπόθεση

Η0: μ1=μ2 ή μ1-μ2=0

Εναλλακτική υπόθεση Η1: μ1> μ2 ή μ1-μ2 >0 (μονόπλευρο τεστ) Η1: μ1< μ2 ή μ1-μ2 tα ή t μ2 ή μ1-μ2 >0

2ο βήμα: α. Και τα δύο δείγματα είναι μικρά, ενώ οι διακυμάνσεις των πληθυσμών είναι ίσες.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 103

β. Θα χρησιμοποιήσουμε την t κατανομή με τον τύπο

t

( x1  x2 )  ( 1   2 ) 1 1 s (  ) n1 n2

και n1+n2-2 βαθμούς ελευθερίας, όπου

2

(n1  1) s12  (n2  1) s 22 s  n1  n2  2 2

γ. Επίπεδο σημαντικότητας α=0,05. 3ο βήμα: α. Το πρώτο δείγμα της τρέχουσας τεχνολογίας έδωσε x1  325 ώρες με

s1 =40 ώρες ενώ το δεύτερο δείγμα της νέας τεχνολογίας έδωσε x 2  288 ώρες με s 2 =44 ώρες. Και τα δύο δείγματα έχουν το ίδιο πλήθος ατόμων n1=n2=12. (n1  1) s12  (n2  1) s 22 (12  1)40 2  (12  1)44 2 β. s  = =1768 n1  n2  2 12  12  2 2

t

( x1  x2 )  ( 1   2 ) 1 1 s (  ) n1 n2

=

(325  288)  0

2

1 1 1768(  ) 12 12

 2,16

4ο βήμα: α. Από τους πίνακες της t κατανομής για α=0,05 και για 12+12-2=22 βαθμούς ελευθερίας έχουμε : t0,05=1,717 β. t =2.16>t0,05=1,717 5ο βήμα: α. Απορρίπτουμε τη μηδενική υπόθεση επειδή t>tα. β. Αποδεχόμαστε την εναλλακτική υπόθεση, δηλαδή ότι ο χρόνος που απαιτείται για την εκτέλεση συγκεκριμένης εργασίας με την παλαιά τεχνολογία είναι μεγαλύτερος από τον απαιτούμενο χρόνο για την εκτέλεση της ίδιας εργασίας με τη νέα τεχνολογία.

Δρ. Ευστάθιος Δ Δημητριάδης

INFERENTIAL STATISTICS

104

4.3.3 Εξαρτημένα δείγματα Ο ορισμός και ο τρόπος δημιουργίας εξαρτημένων δειγμάτων έχει περιγραφεί αναλυτικά στην παράγραφο 3.2.3.1. Συχνά η χρήση εξαρτημένων δειγμάτων μας επιτρέπει να κάνουμε πιο λεπτομερή και ακριβή ανάλυση γιατί αυτά μας επιτρέπουν να ελέγξουμε και άλλους εξωγενείς παράγοντες. Για την ολοκλήρωση της διαδικασίας του ελέγχου της υπόθεσης θα ακολουθήσουμε τα γνωστά πέντε βήματα, αφού πρώτα υπολογίσουμε τις διαφορές d i  x1 i  x 2 i , όπου χ1i είναι οι τιμές από το πρώτο δείγμα και χ2i οι αντίστοιχες τιμές από το δεύτερο δείγμα και στη συνέχεια τον αριθμητικό μέσο των διαφορών που δίνεται από τη σχέση: d 

d

i

n

και την

τυπική απόκλιση των δειγματικών διαφορών από τη σχέση:

 ( d i ) 2  d   n    (88). n 1 2 i

sd 

1ο βήμα: α. Περιγραφή των παραμέτρων μ1 και μ2 των πληθυσμών. β. Καθορισμός της μηδενικής (Η0) και της εναλλακτικής υπόθεσης (Η1). Μηδενική υπόθεση

Η0: μd=0 ή μ1-μ2=0

Εναλλακτική υπόθεση Η1: μd> 0 ή μ1-μ2 >0 (μονόπλευρο τεστ) Η1: μd< 0 ή μ1-μ2 tα ή t 17 ή μ1-μ2 >17 (μονόπλευρο τεστ)

ο

2 βήμα: α. Εφόσον τα δεδομένα και στα δύο γκρουπ είναι κανονικά φαίνεται λογικό να υποθέσουμε ότι οι δύο πληθυσμοί κατανέμονται κανονικά. β. Θα χρησιμοποιήσουμε την t κατανομή με n-1 βαθμούς ελευθερίας. t

(d   d ) n sd

γ. Επίπεδο σημαντικότητας α=0,05. 3ο βήμα: α. Από το δείγμα προέκυψαν: n=10, d =19,7 και s d =4,4. β. Η τιμή του στατιστικού τεστ: t 

(d   d ) n (19,7  17) 10 = =1,94 sd 4,4

4ο βήμα: α. Για α=0,05 και n-1=10-1=9 βαθμούς ελευθερίας από τους πίνακες της

t- κατανομής έχουμε: t0,05=1,833. β. t =1,94> t0,05=1,833. 5ο βήμα: α. t>tα όπως διαπιστώσαμε στο προηγούμενο βήμα και επομένως απορρίπτουμε τη μηδενική υπόθεση. β. Δεχόμαστε ως αληθινό τον ισχυρισμό ότι κατά μέσο όρο οι πελάτες του ινστιτούτου χάνουν περισσότερα από 17 κιλά με το πρόγραμμα αδυνατίσματος το οποίο εφαρμόζουν.

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 107

4.4

Δοκιμασία υποθέσεων για τη διαφορά των αναλογιών δύο

πληθυσμών Με την υπόθεση ότι δεν υπάρχει διαφορά μεταξύ των αναλογιών p1 και p2 των δύο πληθυσμών και ότι οι δειγματικές κατανομής είναι κανονικές ή κατά προσέγγιση κανονικές το στατιστικό τεστ το οποίο μπορούμε να χρησιμοποιήσουμε είναι το:

Z

( p1  p2 )  ( p1  p2 )

p

1

(90) με  p1  p2 

 p2

p1 (1  p1 ) p2 (1  p2 )  (91). n1 n2

Επειδή όμως συνήθως δεν γνωρίζουμε την τιμή των p1 και p2 προκειμένου να υπολογίσουμε το τυπικό σφάλμα των διαφορών μεταξύ των αναλογιών, υπολογίζουμε, με τη χρήση των αναλογιών p1 και p2 των δύο δειγμάτων, την κοινή αναλογία p ως εξής:

p

n1 p1  n2 p2 (92). Με αυτό τον τρόπο έχουμε μία εκτίμηση του τυπικού n1  n2

σφάλματος η οποία προκύπτει από τον τύπο: s p1  p2 

p(1  p)(

1 1  ) (93) και n1 n2

κατά συνέπεια το στατιστικό τεστ το οποίο χρησιμοποιούμε παίρνει τη μορφή:

Z

( p1  p2 )  ( p1  p2 ) (94). sp p 1

2

Για την ολοκλήρωση του τεστ θα ακολουθήσουμε τα πέντε γνωστά βήματα: ο

1 βήμα: α. Περιγραφή της παραμέτρου του πληθυσμού η οποία μας ενδιαφέρει. β. Καθορισμός της μηδενικής (Η0) και της εναλλακτικής υπόθεσης (Η1). Μηδενική υπόθεση

Η0: p1=p2 ή p1-p2=0

Εναλλακτική υπόθεση Η1: p1>p2 ή p1-p2>0 (μονόπλευρο τεστ) ή Η1: p15,9915 και συνεπώς η μηδενική υπόθεση απορρίπτεται σε επίπεδο σημαντικότητας 5%. Δηλαδή, οι αναλογίες των επιτυχόντων στα τρία εξεταστικά κέντρα δεν είναι ίσες.

4.6.4

x2 έλεγχος ομοιογένειας πληθυσμών

Οι πληθυσμοί χαρακτηρίζονται ομοιογενείς αν αποτελούνται από υποομάδες με το ίδιο ποσοστό του πληθυσμού σε κάθε υποομάδα. Αν για παράδειγμα έχουμε άνδρες φοιτητές σε τρεις διαφορετικές πανεπιστημιακές σχολές με ποσοστό 50% στην πρώτη, 25% στη δεύτερη και 25% στην τρίτη σχολή και γυναίκες φοιτήτριες με το ίδιο ποσοστό στις αντίστοιχες σχολές τότε η κατανομή των φοιτητών και των φοιτητριών στις τρεις σχολές περιγράφεται ως ομοιογενής. Στον πίνακα 4.12 παρουσιάζονται οι σχολές και οι φοιτητές/τριες που φοιτούν σε αυτές. Ο έλεγχος ο οποίος θα πραγματοποιηθεί αφορά την ομοιογένεια των πληθυσμών ή εναλλακτικά την ύπαρξη σχέσης μεταξύ φύλου και σχολής. Πίνακας 4.12: Κατανομή φοιτητών σε σχολές Σχολή Πολυτεχνείο Ιατρική

Φιλοσοφική

Φοιτητής

37

41

44

122

Φοιτήτρια

35

72

71

178

Σύνολο

72

113

115

300

Σύνολο

Με τη βοήθεια του παραπάνω πίνακα υπολογίζονται οι αναμενόμενες τιμές, κατά τον γνωστό τρόπο και έχουμε τον πίνακα 4.12. Πίνακας 4.13: Αναμενόμενες τιμές Πολυτεχνείο

Σχολή Ιατρική

Φιλοσοφική

Σύνολο

(72*122)/300=29 (113*122)/300=46 (115*122)/300=47

122

Φοιτήτρια (72*178)/300=43 (113*178)/300=67 (115*178)/300=68

178

Σύνολο

300

Φοιτητής

72

113

115

Δρ. Ευστάθιος Δ Δημητριάδης

122

INFERENTIAL STATISTICS

Στη συνέχεια υπολογίζεται η τιμή του χ2 με τις απαιτούμενες πράξεις οι οποίες παρουσιάζονται στον πίνακα 4.14. Πίνακας 4.14: Υπολογισμός χ2 fij

eij

fij- eij

(fij- eij)2

(fij- eij)2/ eij

Φοιτητής

Πολυτεχνείο

37

29

8

64

2,21

Φοιτητής

Ιατρική

41

46

-5

25

0,54

Φοιτητής

Φιλοσοφική

44

47

-3

9

0,19

Φοιτήτρια

Πολυτεχνείο

35

43

-8

64

1,49

Φοιτήτρια

Ιατρική

72

67

5

25

0,37

Φοιτήτρια

Φιλοσοφική

71

68

3

9

0,13

300

300

Σύνολο

4,94

Η ζητούμενη τιμή είναι χ2= 4,94 και θα πρέπει να συγκριθεί με την κριτική τιμή της κατανομής χ2 με (ν-1)*(μ-1) βαθμούς ελευθερίας και συγκεκριμένο επίπεδο σημαντικότητας α. Στη συγκεκριμένη περίπτωση έχουμε (2-1)*(3-1)= 2 βαθμούς ελευθερίας και έστω α=10%. Η κριτική τιμή από τους πίνακες της χ2 κατανομής είναι 4,605. Έτσι 4,94>4,605 και συνεπώς η μηδενική υπόθεση απορρίπτεται σε επίπεδο σημαντικότητας 10%. Δηλαδή, οι πληθυσμοί δεν είναι ομοιογενείς ή δεν υπάρχει σχέση μεταξύ φύλου και σχολής. Αν το επίπεδο σημαντικότητας είναι 5%, τότε η κριτική τιμή από τους πίνακες της χ2 κατανομής είναι 5,991 και πλέον 4,945,991 και συνεπώς η μηδενική

Δρ. Ευστάθιος Δ Δημητριάδης

124

INFERENTIAL STATISTICS

υπόθεση απορρίπτεται. Δηλαδή η κατανομή δεν είναι ίδια με αυτήν που αναφέρεται στην μηδενική υπόθεση και συνεπώς δεν υπάρχει καλή προσαρμογή των δεδομένων.

4.6.5.1 Ποιότητα προσαρμογής για Ομοιόμορφη κατανομή Σε μία διακριτή ομοιόμορφη πιθανοτική κατανομή όλα τα ενδεχόμενα συμβαίνουν με την ίδια πιθανότητα. Η κάθε έδρα ενός ζαριού έχει την ίδια πιθανότητα εμφάνισης. Για να διαπιστωθεί αν ένα ζάρι είναι «τίμιο» ρίχνεται 180 φορές και τα αποτελέσματα καταγράφονται στον επόμενο πίνακα. Πίνακας 4.16: Συχνότητα εμφάνισης εδρών 1 2 3 Έδρα 28 36 36 Ρίψεις

4 30

5 27

6 23

Από τα δεδομένα του παραπάνω πίνακα προκύπτει ότι το ζάρι είναι «τίμιο»; Αν το ζάρι είναι «τίμιο», η κατανομή θα είναι ομοιόμορφη. Δηλαδή το πλήθος εμφάνισης όλων των εδρών θα είναι ίδιο. Με δεδομένο ότι το ζάρι έχει 6 έδρες αναμένονται 180/6=30 εμφανίσεις της κάθε έδρας. Πίνακας 4.16: Υπολογισμός χ2 Σύνολο fij

28

36

36

30

27

23

180

eij

30

30

30

30

30

30

180

fij- eij

-2

6

6

0

-3

-7

(fij- eij)2

4

36

36

0

9

49

0,13

1,20

1,2

0,00

0,30

1,63

(fij- eij)2/ eij

4,47

Η τιμή του χ2 είναι 4,47 και η κριτική τιμή της κατανομής χ2 για δεδομένο επίπεδο σημαντικότητας (έστω 5%) και d.f= 6-1-0=5 βαθμούς ελευθερίας, από τους πίνακες είναι 11,07. Γίνεται άμεσα αντιληπτό ότι 4,4711,0705. Δηλαδή η μηδενική υπόθεση της προσαρμογής των δεδομένων στην κατανομή Poisson απορρίπτεται.

4.6.5.3 Ποιότητα προσαρμογής για την Κανονική Κατανομή Ο έλεγχος για την ποιότητα προσαρμογής για μια κανονική κατανομή βασίζεται στην χρήση της χ2 κατανομής. Η διαδικασία είναι παρόμοια με αυτήν που αναπτύχθηκε για την κατανομή Poisson. Ειδικότερα, οι πραγματικές συχνότητες για τις διάφορες κατηγορίες των δεδομένων του δείγματος συγκρίνονται με τις αναμενόμενες συχνότητες κάτω από την προϋπόθεση ότι ο πληθυσμός ακολουθεί την κανονική κατανομή. Επειδή η κανονική κατανομή είναι συνεχής θα πρέπει να τροποποιηθεί η διαδικασία καθορισμού των κατηγοριών και υπολογισμού των αναμενόμενων τιμών. Η επιχείρηση ΠΟΛΛΑΣ GLASS A.E αξιολογεί κάθε χρόνο τους υπαλλήλους της με ένα τεστ στο οποίο η άριστη απόδοση βαθμολογείται με 100 μονάδες. Ο Διευθυντής προσωπικού αναρωτιέται αν η κατανομή της απόδοσης του συνόλου των υπαλλήλων είναι κανονική. Τα αποτελέσματα από το τεστ σε τυχαίο δείγμα 50 υπαλλήλων παρουσιάζονται στον επόμενο πίνακα

Δρ. Ευστάθιος Δ Δημητριάδης

INFERENTIAL STATISTICS

128

Πίνακας 4.21: Βαθμολογία Υπαλλήλων 71 65 86 54 56

63

61

73

65

58

60

77

63

56

76

65

69

76

56

64

55

61

79

84

56

70

74

53

93

79

82

79

80

61

90

62

80

61

73

65

85

66

62

70

64

68

54

76

54

71

Από τον παραπάνω πίνακα υπολογίζεται η μέση τιμή και η τυπική απόκλιση για να χρησιμοποιηθούν ως σημειακοί εκτιμητές της κανονικής κατανομής.

x x n

i

3421   68 ,42 50

s

( x

i

 x )2

n1



5310 ,0369  10 ,41 49

Χρησιμοποιώντας αυτές τις τιμές καθορίζονται οι παρακάτω υποθέσεις σχετικά με την κατανομή της βαθμολογίας. Η0: Ο πληθυσμός των βαθμολογιών ακολουθεί την κανονική κατανομή με μέση τιμή 68,42 και τυπική απόκλιση 10,41. Η1: Ο πληθυσμός των βαθμολογιών δεν ακολουθεί την κανονική κατανομή με μέση τιμή 68,42 και τυπική απόκλιση 10,41. Στη συνέχεια ορίζονται οι κατηγορίες σε κάθε μία από τις οποίες θα πρέπει να περιέχονται τουλάχιστον 5 παρατηρήσεις. Έτσι, σε σύνολο 50 παρατηρήσεων μπορούν να οριστούν 10 ίσα διαστήματα με 5 παρατηρήσεις. Τα διαστήματα αυτά ορίζονται με τη χρήση το πίνακα της κανονικής κατανομής, όπως αυτή έχει περιγραφεί στην παράγραφο 2.2.7.1. Τα όρια των διαστημάτων θα είναι τα επόμενα: Χαμηλότερο 10%

68,42-1,28(10,41)=55,10

Χαμηλότερο 20%

68,42-0,84(10,41)=59,68

Χαμηλότερο 30%

68,42-0,52(10,41)=63,01

Χαμηλότερο 40%

68,42-0,25(10,41)=65,82

Μέση σκόρ 50%

68,42+0 (10,41)=68,42

Υψηλότερο 40%

68,42+0,25(10,41)=71,02

Υψηλότερο 30%

68,42+0,52(10,41)=73,83

Υψηλότερο 20%

68,42+0,84(10,41)=77,16

Υψηλότερο 10%

68,42+1,28(10,41)=81,74

Dr. Efstathios D Dimitriadis

ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ 129

Στον επόμενο πίνακα παρουσιάζονται τα διαστήματα με τις πραγματικές και τις αναμενόμενες τιμές. Πίνακας 4.22: Αναμενόμενες Συχνότητες Σκόρ Πραγματικές

Αναμενόμενες

Συχνότητες

Συχνότητες

5 5 9 6 2 5 2 5 5 6 50

5 5 5 5 5 5 5 5 5 5 50

Μικρότερο από 55,10 55,10 -59,68 59,68 - 63,01 63,01 - 65,82 65,82 – 68,42 68,42 – 71,02 71,02 -73,83 73,83- 77,16 77,16-81,74 Μεγαλύτερο από 81,74 Σύνολο

Στη συνέχεια υπολογίζεται η τιμή της κατανομής χ2 όπως και στις προηγούμενες περιπτώσεις. Πίνακας 4.23: Υπολογισμός χ2

fi

ei

fi-ei

(fi-ei)2

(fi-ei)2/ ei

5 5 9 6 2 5 2 5 5 6 50

5 5 5 5 5 5 5 5 5 5 50

0 0 4 1 -3 0 -3 0 0 1

0 0 16 1 9 0 9 0 0 1

0 0 3,2 0,2 1,8 0 1,8 0 0 0,2 7,2

Σκόρ Μικρότερο από 55,10 55,10 -59,68 59,68 - 63,01 63,01 - 65,82 65,82 – 68,42 68,42 – 71,02 71,02 -73,83 73,83- 77,16 77,16-81,74 Μεγαλύτερο από 81,74 Σύνολο

Η τιμή της κατανομής χ2 είναι 7,2 και η κριτική τιμή από τους πίνακες για α=10% και d.f = c-k-1 =10-2-1=7 είναι 12,017. Όπου c το πλήθος των κατηγοριών και k το πλήθος των παραμέτρων που υπολογίστηκαν από τα δεδομένα του δείγματος (μέση τιμή και τυπική απόκλιση).

Δρ. Ευστάθιος Δ Δημητριάδης

130

INFERENTIAL STATISTICS

ΣΥΝΟΠΤΙΚΟΣ ΠΙΝΑΚΑΣ ΤΕΣΤ ΣΗΜΑΝΤΙΚΟΤΗΤΑΣ 1. Τεστ σημαντικότητας για τη μέση τιμή μ του πληθυσμού 1.1. Μεγάλο δείγμα (n>30) και σ γνωστό. Στατιστικό τεστ:

Z

i. Μηδενική υπόθεση

(x  ) n

 Η0: μ=μ0

Εναλλακτική υπόθεση Η1: μ> μ0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: Ζ>Ζα ii. Μηδενική υπόθεση

Η0: μ=μ0

Εναλλακτική υπόθεση Η1: μ< μ0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: Ζ30) και σ άγνωστο Στατιστικό τεστ:

Z

i. Μηδενική υπόθεση

(x  ) n s Η0: μ=μ0

Εναλλακτική υπόθεση Η1: μ> μ0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: Ζ>Ζα ii. Μηδενική υπόθεση

Η0: μ=μ0

Εναλλακτική υπόθεση Η1: μ< μ0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: Ζ30) και σ άγνωστο. Στατιστικό τεστ:

t

i. Μηδενική υπόθεση

(x  ) n s Η0: μ=μ0

Εναλλακτική υπόθεση Η1: μ> μ0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: t>tα ii. Μηδενική υπόθεση

Η0: μ=μ0

Εναλλακτική υπόθεση Η1: μ< μ0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: t5 και nq>5 Στατιστικό τεστ:

 p=

Z

( p  p0 )

p

με

p

x n

όπου χ ο αριθμός των επιτυχιών και n το μέγεθος του δείγματος, ενώ

p0 (1  p0 ) n

i. Μηδενική υπόθεση

Η0: p=p0

Εναλλακτική υπόθεση Η1: p> p0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: Ζ>Ζα ii. Μηδενική υπόθεση

Η0: p=p0

Εναλλακτική υπόθεση Η1: p< p0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: Ζ μ2 ή μ1-μ2 >0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: Ζ>Ζα ii. Μηδενική υπόθεση

Η0: μ1=μ2 ή μ1-μ2=0

Εναλλακτική υπόθεση Η1: μ1< μ2 ή μ1-μ2 0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: t>tα ii. Μηδενική υπόθεση

Η0: μ1=μ2 ή μ1-μ2=0

Εναλλακτική υπόθεση Η1: μ1< μ2 ή μ1-μ2 0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: t>tα

ii. Μηδενική υπόθεση

Η0: μd=0 ή μ1-μ2=0

Εναλλακτική υπόθεση Η1: μd< 0 ή μ1-μ2 0 (μονόπλευρο τεστ) Απορρίπτω την Η0 αν: ii. Μηδενική υπόθεση

Ζ>Ζα

Η0: p1=p2 ή p1-p2=0

Εναλλακτική υπόθεση Η1: p1