166 80 49MB
German Pages 584 [580] Year 2002
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Bisher erschienene Werke: Böhning, Allgemeine Epidemiologie Caspary • Wichmann, Lineare Modelle Chatterjee • Price (Übers. Lorenzen), Praxis der Regressionsanalyse, 2. Auflage Degen • Lorscheid, Statistik-Lehrbuch Degen • Lorscheid, Statistik-Aufgabensammlung, 4. Auflage Härtung, Modellkatalog Varianzanalyse Harvey (Übers. Untiedt), Ökonometrische Analyse von Zeitreihen, 2. Auflage Harvey (Übers. Untiedt), Zeitreihenmodelle, 2. Auflage Heiler • Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden Miller (Übers. Schlittgen), Grundlagen der Angewandten Statistik Naeve, Stochastik für Informatik Oerthel • Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pßaumer • Heine • Härtung, Statistik für Wirtschaft- und Sozialwissenschaften: Deskriptive Statistik, 2. Auflage Pßaumer • Heine • Härtung, Statistik für Wirtschafts- und Sozialwissen-schaften: Induktive Statistik
Fachgebiet
Pokropp, Lineare Regression und Varianzanalyse Rasch • Herrendörfer u. a., Verfahrensbibliothek, Band I und Band 2 Riedwyl • Ambühl, Statistische Auswertungen mit Regressionsprogrammen Rinne, Wirtschafts- und Bevölkerungsstatistik, 2. Auflage Rinne, Statistische Analyse multivariater Daten - Einführung Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, Band I: Grundlagen Rüger, Test- und Schätztheorie, Band II: Statistische Tests Schlittgen, Statistik, 9. Auflage Schlittgen, Statistik-Trainer Schlittgen, Statistische Inferenz Schlittgen, GAUSS für statistische Berechnungen Schlittgen, Angewandte Zeitreihenanalyse Schlittgen • Streitberg, Zeitreihenanalyse, 9. Auflage Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten
Biometrie
Herausgegeben von Dr. Rolf Lorenz Bisher erschienene Werke: Bock, Bestimmung des Stichprobenumfangs
Brunner • Langer, Nichtparametrische Analyse longitudinaler Daten
Test- und Schätztheorie Band II: Statistische Tests Von Universitätsprofessor
Dr. Bernhard Rüger
R.Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Rüger, Bernhard: Test- und Schätztheorie / von Bernhard Rüger. - München ; Wien : Oldenbourg (Lehr- und Handbücher der Statistik) Bd. 2. Statistische Tests. - 2002 ISBN 3-486-25130-9
© 2002 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 3-486-25130-9
Vorwort zum zweiten Band Der vorliegende zweite Band meines Lehrbuches 'Test- und Schätztheorie' ist der klassischen Theorie statistischer Tests gewidmet. Diese Theorie steht auf der Grundlage des klassischen Inferenzkonzeptes, ihre Charakteristika lauten: Statistische Tests sollen objektivistischen Grundsätzen gehorchen, kognitivistische Zwecke erfüllen und frequentistischen Gütebeurteilungen unterliegen. Diese Charakteristika bilden die Diskriminante zu anderen, 'nichtklassischen' Testtheorien, die auf dem Likelihood-Konzept, der Bayes-Inferenz oder der statistischen Entscheidungstheorie aufbauen, mit denen die klassische Theorie auch wichtige Bausteine und Methoden gemeinsam hat. (Wir verweisen dazu auf Kapitel 2 des ersten Bandes.) Die Neyman-Pearson-Theorie stellt das Zentrum der klassischen Testtheorie dar. Auch dieser zweite Band ist aus meinen Vorlesungen zur Test- und Schätztheorie hervorgegangen, die ich in regelmäßigen Abständen an der Universität München für Studenten der Fächer Statistik, Mathematik oder Informatik gehalten habe. Der Leserkreis, ein den sich das Buch wendet, und die erforderlichen Vorkenntnisse aus Mathematik und Wahrscheinlichkeitsrechnung werden im Vorwort zum ersten Band umschrieben. Das dort gezeichnete Bild über Niveau und Anspruch meines Lehrbuches soll für den zweiten Band gültig bleiben. Das betrifft auch die Darstellungsform des Stoffes, mit der ich versucht habe, zwei Zielen gerecht zu werden: einer möglichst exakten (auch mathematisch korrekten) Formulierung der theoretischen Zusammenhänge und einer Beschreibung der inhaltlichen Bedeutung der theoretischen Ergebnisse für die Lösung konkreter Testprobleme. (Das Vorwort zum ersten Band wird anschließend noch einmal zur Kenntnis gegeben, das Inhaltsverzeichnis von Band I ist am Ende dieses Buches beigefügt, die Numerierung der Kapitel wird im zweiten Band fortgeführt.) Das vorliegende Buch besteht aus zwei Kapiteln (Kapitel 3 und 4), die ihrem Umfang nach das Gewicht von Buchteilen haben, Kapitel 3 ist eine Einführung in die klassische Testtheorie und Kapitel 4 eine Theorie optimaler Tests. Beide Kapitel enthalten zahlreiche, detailliert ausgearbeitete Beispiele (auch mit numerischen Teilen) und relativ aufwendige Abbildungen. Diese insgesamt 100 Beispiele und 61 Abbildungen sind ebenso wichtig wie die theoretischen Betrachtungen, die Ausarbeitung der Beispiele beansprucht naturgemäß mehr Raum als die Theorie. Die Beispiele und Abbildungen sollen in erster Linie die theoretischen Zusammenhänge erläutern, interpretieren und veranschaulichen, in zweiter Linie aber auch Probleme, Defizite und Grenzen
VI
der theoretischen Konzepte aufdecken. Eine Theorie muß sich an Beispielen bewähren, Beispiele müssen auf einer theoretischen Grundlage abgehandelt werden. Auf diese Weise sollen die Stärken und Schwächen der verschiedenen (klassischen) Testkonzepte deutlich werden. Abschnitt 3.1 enthält die erforderlichen Grundbegriffe und das Konstruktionsprinzip und Gütekriterium der Neyman-Pearson-Theorie. Ein besonderes Gewicht wird auf die Beschreibung einer Hypothesenprüfung in mehreren, aufeinander aufbauenden Schritten (auch an Hand eines 'Musterbeispiels') gelegt einschließlich einer im letzten Schritt durchzuführenden Robustheitsuntersuchung. Anschließend werden theoretisch etwas anspruchsvollere Themen behandelt: Abstandsmaße und Konvergenzarten für Verteilungen, stetige Parametrisierungen von Verteilungsannahmen und verschiedene Umgebungstypen von Verteilungen. (Der Absatz 3.1.7 über die Umgebungsbegriffe kann zunächst auch übergangen werden, sein Inhalt wird erst wieder in Abschnitt 4.4 relevant.) Abschnitt 3.2 hat die bekannten Prüfsituationen mit ihren adäquaten Tests zum Inhalt: Bernoulli-Experimente, ein- und mehrdimensionale Gauß-Experimente, das Modell der einfaktoriellen Varianzanalyse, Tests auf Verteilungen und Tests auf Unabhängigkeit (und Assoziationsmaße). Für fast «die Tests werden auch Untersuchungen auf ihre Asymptotik und Robustheit durchgeführt, für die meisten unter ihnen die Gütefunktionen bestimmt oder (falls nicht möglich) wenigstens ihr Powerverhalten beschrieben. Eine besondere Aufmerksamkeit wird dem Behrens-Fisher-Problem mit seinen approximativen Lösungen gewidmet, den verschiedenen Schätzmethoden innerhalb des Chi-Quadrat-Anpassungstests (bei zusammengesetzter Nullhypothese) und den Unabhängigkeitstests und Assoziationsmaßen in Vier- und Mehrfeldertafeln. Abschnitt 3.3 ist den Erweiterungen des (relativ engen) Neyman-Pearson'schen Testkonzeptes gewidmet, die unter sehr unterschiedlichen Gesichtspunkten vorgenommen werden können: eine (hier erstmals vorgelegte) Theorie der Alternativtests (auch mit mehr als zwei Testergebnissen), die Theorie mehrstufiger und sequentieller Test, die Entwicklung von Mehrentscheidungsverfahren und eine (relativ breite) Einführung in multiple Testverfahren mit Anwendungen in der Varianzanalyse. Abschnitt 4.1 behandelt das Thema 'einfaches Alternativproblem' mit einer sehr ausführlichen Untersuchung des Risikobereiches und der verschiedenen Testklassen (zulässige Tests, Bayes-Tests, Likelihood-Quotienten-Tests, Beste Tests und Minimax-Tests), des einfachen und verallgemeinerten Fundamentallemmas und der Konsistenz des Likelihood-Quotienten-Tests. Abschnitte 4.2 und 4.3 enthalten die bekannte Theorie gleichmäßig bester bzw. gleichmäßig bester unverfälschter (ähnlicher) Tests für ein- und zweiseitige Fragestellungen in ein- oder mehrparametrigen Verteilungsannahmen
VII
(Exponentialfamilien). Dabei werden unter den zweiseitigen Fragestellungen auch Äquivalenztests berücksichtigt. Abschnitt 4.4 schließlich stellt eine (ziemlich vollständige) Theorie zur Reduktion zusammengesetzter auf einfache Hypothesen dar. Nach einer Einführung der verschiedenen Reduktionsmethoden und einer Behandlung von Maximin-, Bayes- und Minimax-Tests stehen hier im Mittelpunkt: Die Reduktion auf ungünstigste Verteilungspaare, die Robustifizierung von Tests bezüglich bestimmter Umgebungshypothesen, die Reduktion durch ungünstigste a priori Verteilungen und (hier erstmals vorgestellte) Verallgemeinerungen der genannten Reduktionsmethoden. Der Autor eines Buches hat während des Schreibens stets den idealen Leser vor Augen, der sein Buch Zeile für Zeile von Anfang bis Ende durcharbeitet. Die Erfahrung lehrt, daß dies nicht immer oder sogar nicht oft der Fall ist, Idealvorstellungen werden eben in der Realität eher selten verwirklicht. Es gibt viele (in diesem strengen Sinne) nichtideale und gleichwohl sehr wißbegierige und gründliche Leser. Für diese könnten die folgenden Hinweise nützlich sein: Die reine Neyman-Pearson-Theorie ist in den folgenden elf Absätzen enthalten: 3.1.1 bis 3.1.3, 4.1.2, 4.1.5, 4.2.1, 4.2.3 und 4.3.1 bis 4.3.4. Diese können auch für sich allein gelesen und verstanden werden. Alle Beispiele (vor allem die in dem umfangreichen Abschnitt 3.2) können für einen Leser mit elementaren Kenntnissen der Testtheorie auch selbständig für sich studiert werden. Dazu bietet das Verzeichnis der Beispiele (S. 515ff) einen Wegweiser. Die Absätze 3.1.5 bis 3.1.7 stellen einen Ausflug in topologische Betrachtungen über die Menge aller Verteilungen auf einem Stichprobenraum dar. Diese theoretischen Untersuchungen, die thematisch zu den Grundbegriffen (und damit in den Abschnitt 3.1) gehören, werden in vollem Umfang erst wieder in Abschnitt 4.4 benötigt, mit einer Ausnahme: Die beiden verschiedenen Typen einer stetigen Parametrisierung von Verteilungsannahmen. Das gesamte Kapitel 3 mit seiner umfassenden Einführung in die klassische Testtheorie ist in erster Linie methodisch auf die einzelnen Testverfahren ausgerichtet: Nach Klärung der Grundbegriffe werden für eine ganze Fülle verschiedener Prüfsituationen die geeigneten Tests konstruiert und ihre finiten und asymptotischen (Güte-)Eigenschaften beschrieben (oft auch nachgewiesen), aber keine eigentlichen Optimalitätsbeweise geführt. Das Kapitel 4 ist dagegen vornehmlich theoretisch orientiert: Hier werden bei festem (finiten) Stichprobenumfang die Testprobleme als Optimierungsaufgaben betrachtet und die Theorie und Methoden zum Nachweis finit optimaler Tests entwickelt. Diese Theorie wird dann, soweit wie möglich, auf die Test-
VIII verfahren aus Kapitel 3 eingewandt, so daß auf diese Weise die dort fehlenden Optimalitätsbeweise nachgetragen werden. Die geplante Aufnahme eines weiteren, theoretisch ausgerichteten Kapitels über asymptotisch optimale Testverfahren konnte in dem zur Verfügung stehenden Zeitrahmen nicht mehr verwirklicht werden und hätte den Umfang des zweiten Bandes wohl auch gesprengt. Zur asymptotischen Statistik können die ausgezeichneten Lehrbücher von Sen und Singer [1993] sowie Witting und Müller-Funk [1995] empfohlen werden. Abschließend möchte ich allen danken, die mir bei der Entstehung des Buches geholfen haben. An erster Stelle ist hier wieder meine Mitarbeiterin Frau Dr. Andrea Schopp zu nennen: Sie hat mir nicht nur in vielen Fragen mit sachdienlichen Ratschlägen zur Seite gestanden, sondern auch das gesamte Manuskript mit dem Textverarbeitungssystem LATEX in eine druckfertige Vorlage gebracht, die Abbildungen (oft mit Hilfe eigener numerischer Verfahren) angefertigt und in den Text einbezogen und alle erforderlichen Korrekturen durchgeführt. In vielen schwierigen Situationen und Problemen bewies sie ein ungewöhnliches Maß an Geschick, Ausdauer und Geduld (auch mit dem Autor). Ohne ihre Kompetenz, ihren Einsatz und ihre stete Zuverlässigkeit wäre dieses Buch nicht zustandgekommen. An dieser Stelle sei ihr dafür sehr herzlich gedankt. Herr Dr. Anton Wallner, Frau Christina Bindl und Frau Kathrin Dallmeier haben sehr sorgfaltige Korrekturlesungen vorgenommen, von Herrn Dr. Thomas Augustin und Herrn Dr. Anton Wallner wurden wertvolle Hinweise zu den Umgebungsbegriffen in Absatz 3.1.7 gegeben, ihnen allen dafür großen Dank. Ein weiterer Dank richtet sich an den OldenbourgVerlag, insbesondere an Herrn Diplom-Volkswirt Martin Weigert für seine anhaltend gute und tolerante Zusammenarbeit und an Herrn Professor Dr. Rainer Schlittgen für die Aufnahme des Buches in die von ihm herausgegebene Reihe 'Lehr- und Handbücher der Statistik'. München
Bernhard Rüger
Vorwort zum ersten Band Dieses Buch ist aus Vorlesungen zur Test- und Schätztheorie entstanden, die der Autor seit nunmehr zehn Jahren an der Universität München vor allem für Studenten höherer Semester der Studienrichtungen Statistik, Mathematik und Informatik regelmäßig durchführt. Entsprechend wendet sich das Buch an solche Leser, die neben gewissen Vorkenntnissen im Umgang mit elementaxen Test- und Schätzverfahren vor edlem über eine umfassende
IX
Grundausbildung in der Analysis (Differential- und Integralrechnung), linearen Algebra und insbesondere Wahrscheinlichkeitsrechnung verfügen. Ohne diese Grundkenntnisse ist eine allgemeine und anspruchsvolle Einführung in die Test- und Schätztheorie, wie sie dem Niveau eines Universitätsstudiums entspricht, undenkbar. Die vorausgesetzten Kenntnisse aus der Wahrscheinlichkeitsrechnung erstrecken sich ungefähr auf die Kapitel I, II, III und VI in dem Lehrbuch von Bauer [1991]. Dazu erforderlich sind auch elementare Kenntnisse aus der Maß- und Integrationstheorie, höchstens im Umfang der ersten drei Kapitel bei Bauer [1990]. Dieser Teil der Maß- und Integrationstheorie wird oft in Lehrbücher zur Wahrscheinlichkeitsrechnung einbezogen, so etwa bei den empfehlenswerten Monographien von Gänßler und Stute [1977], Loéve [1977] und Billingsley [1995]. In dem vorliegenden Buch zur Test- und Schätztheorie wird die Maß- und Integrationstheorie so sparsam wie möglich verwendet. Auf Meßbarkeitsfragen wird überhaupt nicht eingegangen, auf Maße nur in soweit, als sie unumgänglicher Bestandteil der Wahrscheinlichkeitsrechnung sind und auf allgemeine Integrale bezüglich eines Maßes (MaßIntegrale) nur zur geschlossenen Behandlung von Integralen über beliebige (Radon-Nikodym-)Dichten. Das allgemeine Maß-Integral ist oft schon Gegenstand moderner Analysisvorlesungen. Daher genügen zum Verständnis des Buches die Kenntnis der Differential- und Integralrechnung einschließlich des Maß-Integrals und vor allem eine gründliche Kenntnis der Wahrscheinlichkeitsrechnung bis hin zu bedingten Verteilungen und allgemeinen Radon-Nikodym-Dichten. Über weite Strecken des Buches ist nur die Kenntnis der elementaren Wahrscheinlichkeitsrechnung erforderlich, wie sie etwa in den sehr empfehlenswerten Monographien von Pfanzagl [1988], Casella und Berger [1990], Kapitel 1-5, oder Stirzaker [1994] vorliegt. Ursprünglich war geplant, ein Lehrbuch zur Test- und Schätztheorie in einem geschlossenen Band erscheinen zu lassen. Dieses Vorhaben hat sich wegen des ungeheuer großen Stoffumfanges dieses zentralen Gebietes der modernen Statistik als undurchführbar erwiesen. Geplant ist nun ein zwei- oder dreibändiges Werk 'Test- und Schätztheorie', von dem der vorliegende Band I 'Grundlagen' die beiden ersten Kapitel enthält. Das Gesamtwerk verfolgt ein großes Ziel. Das Verstehen Statistischer Methoden, hier der Test- und Schätzverfahren, die Durchdringung ihrer theoretischen Grundlagen, die Beurteilung ihrer Sicherheit und Genauigkeit und die Entscheidung über ihre Anwendbarkeit. Der vorliegende Band ist den Grundlagen statistischer Inferenz gewidmet. Das erste Kapitel enthält die Begriffe und Annahmen, die zur modellmäßigen Beschreibung von Beobachtungen als Realisationen zufälliger Größen (Stichproben) erforderlich sind: Verteilungsannahmen, Verteilungsfamilien, SufEzienz, Vollständigkeit, Ancillarity, Invarianz und die beiden zentralen Informationsbegriffe, die Information einer Verteilung nach Shannon und die In-
X
formation einer Stichprobe nach Fisher. Inhalt des zweiten Kapitels sind die eigentlichen inferenztheoretischen Grundlagen. Neben allgemeinen (auch philosophischen) Fragen und Prinzipien, die mit dem Inferenzproblem verbunden sind, stehen hier die wichtigsten verschiedenen Inferenzkonzepte der Statistik im Mittelpunkt: Klassische Inferenz, Likelihood-Inferenz, Bayes-Inferenz und Entscheidungstheoretische Inferenz. Dabei wird die klassische Inferenz im Vergleich zu den drei anderen Inferenzkonzepten wesentlich verkürzt dargestellt, da sie die zentrale Rolle im zweiten (und dritten) Band spielen wird. Eine besondere Aufmerksamkeit wird auch den nichtinformativen a priori Verteilungen und den mit ihnen verbundenen Problemen ('Paradoxa') geschenkt. In dem zweiten Kapitel soll, vor allem auch mit der Charakterisierung der Inferenzkonzepte, herausgestellt werden, daß die Statistik ihre eigenen 'innerstatistischen' Grundlagen besitzt, die nicht in der Mathematik beheimatet sind. Die Mathematik stellt zwar der Statistik unentbehrliche Hilfeinstrumente zur Verfügung, vor allem das Instrument der Wahrscheinlichkeitsrechnung, sie bietet aber keineswegs die Grundlage der Statistik. Das Verhältnis zwischen Statistik und Mathematik entspricht demjenigen zwischen Physik und Mathematik: Die Mathematik ist eine Hilfswissenschaft für die Physik, aber nicht Grundlage der Physik. Der Autor war darum bemüht, die zentralen Begriffe, Annahmen (Axiome oder Voraussetzungen) und Sätze, auf denen die Statistische Inferenz beruht, nicht nur (möglichst) exakt zu formulieren, sondern auch ihre intuitiven und inhaltlichen Bedeutungen und Interpretationen zu beschreiben. Dazu dienen vor allem auch die 74 ausfuhrlich ausgearbeiteten Beispiele mit 34 Abbildungen. Oft besitzen die Beispiele eine über die Theorie hinausgehende Bedeutung, oft decken sie auch eine besondere Problematik oder sogar Widersprüchlichkeit eines statistischen Verfahrens auf. Die angeführten Sätze werden in der Regel auch bewiesen, insbesondere dann, wenn die Beweise zum Verständnis des Satzes beitragen. Ein wesentliches Anliegen des Autors war auch das Aufspüren und Aufdecken von Grenzen der verschiedenen Theorien oder Konzepte über Statistische Inferenz. Man kann eben nicht erwarten, in einer einzigen Theorie alle Arten zufälliger Beobachtungen (Stichproben) adäquat erfassen und auswerten zu können. Dalier ist es besonders wichtig, die Stärken und Schwächen der verschiedenen Inferenzkonzepte herauszustellen und auf diese Weise die Konzepte voneinander abzugrenzen. Auch die klassische (Kolmogoroffsche) Wahrscheinlichkeitstheorie selbst, die in allen vorgestellten Inferenzkonzepten verwendet wird, stößt in ihrer Anwendung zur Beschreibung partiellen oder unsicheren Wissens auf typische Grenzen. Diese werden besonders deutlich, wenn man die verschiedenen Ansätze studiert, nach denen die Situation von Nichtwissen (Unkenntnis) durch Wahrscheinlichkeitsverteilungen charakterisiert werden soll, eine Aufgabe, der die nichtinformativen a priori Verteilungen verpflichtet sind. Nur wer die Grenzen einer Theorie erfährt, kennt die Theorie wirklich. Die Idealisierung einer Theorie als omnipotentes Machtin-
XI
strument führt zwangsläufig zu einem Mißbrauch ihrer Anwendung mit teilweise verheerenden, mindestens aber unkontrollierbaren Folgen in der Praxis. Zu völlig unübersehbaren Auswirkungen mit unter Umständen schweren Fehlern in der empirischen Forschungspraxis führt die naive 'theoriefreie' Anwendung statistischer Verfahren auf Beobachtungsdaten, eine Vorgangsweise, die durch die Verfügbarkeit statistischer Programmpakete am PC verführerisch nahegelegt wird und entsprechend weit verbreitet ist. Oft läßt man sich hier von dem völlig unwissenschaftlichen Effizienzkriterium leiten, aus der vorliegenden Stichprobe, deren Erhebung teuer und aufwendig war, möglichst viele 'statistisch signifikante' Ergebnisse herauszupressen. Meistens wird dabei nicht nur übersehen, daß die statistischen Verfahren, welche die signifikanten Ergebnisse liefern sollen, an jeweils verschiedene Voraussetzungen gebunden sind, die kaum alle von ein und derselben Stichprobe erfüllt sein dürften, sondern auch außer acht gelassen, daß die Anwendung mehrerer Verfahren auf eine einzige Stichprobe die Fehlerwahrscheinlichkeit deutlich erhöht, so daß die erreichten Signifikanzaussagen stark abgeschwächt werden müssen und oft sogar keine Signifikanzen mehr enthalten. Mißbräuchliche Anwendungen statistischer Verfahren und Fehlinterpretationen ihrer Ergebnisse werden durch die Beachtung ihrer theoretischen Grundlagen vermieden. Nur eine theoriebezogene Darstellung der Statistik, ihrer Methoden und vor allem auch ihrer Inferenzkonzepte, auf denen die Methoden beruhen, läßt die Voraussetzungen und Grenzen statistischer Verfahren erkennen. Daher haben die theoretischen Grundlagen statistischer Inferenz, denen dieser Band gewidmet ist, eine ganz entscheidende Bedeutung. Das Buch richtet sich an alle Leser, die sich mit diesen Grundlagen auseinandersetzen wollen. Abschließend möchte ich meinen Dank an alle aussprechen, die mir direkt oder indirekt bei der Fertigstellung des Buches geholfen haben. An erster Stelle ist hier meine Mitarbeiterin Frau Dr. Andrea Schopp zu nennen, der ich zu ganz besonderem Dank verpflichtet bin. Sie ist mir nicht nur bei der Abfassung des Manuskriptes mit Rat und Tat zur Seite gestanden, sondern hat vor allem die druckfertige Vorlage mit dem LATEX-Textverarbeitungssystem hergestellt und auf Fehler kontrolliert, die Abbildungen mit Hilfe eigener numerischer Bestimmungen angefertigt und einbezogen und alle später notwendig gewordenen Korrekturen eingearbeitet. Dabei bewies sie im Umgang mit LATEX, PC und Autor ein gleichermaßen großes Geschick und beeindruckende Geduld. Für ihr großes Engagement und ihren unermüdlichen Einsatz möchte ich mich an dieser Stelle ganz herzlich bedanken. Ein ganz großer, herzlicher Dank gilt meiner Sekretärin Frau Brigitte Moxa, die mich während der Zeit, in der ich ein dem Buch arbeitete, auf sehr rücksichtsvolle Weise besonders stark von Verwaltungsaufgaben am Institut ent-
XII
lastet hat. Außerdem wurde von ihr eine sehr sorgfältige Fehlerkontrolle des textlichen Manuskriptteils vorgenommen. Ein weiterer Dank richtet sich an den Oldenbourg-Verlag, insbesondere an Herrn Martin Weigert, für eine reibungslose und tolerante Zusammenarbeit, und ein Herrn Professor Dr. Rainer Sehlingen für die Aufnahme des Buches in die von ihm herausgegebene Reihe 'Lehr- und Handbücher der Statistik'. Schließlich gilt ein besonderer Dank Herrn Professor Dr. Kurt Weichselberger, dessen Schüler ich lange Zeit gewesen bin. Viele wesentliche Erkenntnisse vor allem über die Grundlagen der Statistik und Grenzen der klassischen Wahrscheinlichkeitsrechnung verdanke ich seinen Vorlesungen, Seminiiren und jüngsten Vorträgen und Diskussionen. Zu guter Letzt möchte ich einen sehr herzlichen Dank an Frau Dipl.-Psych. Renate Brauch richten, die in mir den Wunsch lebendig hielt, das Buch mit einem annehmbaren, 'endlichen' Zeitaufwand fertigzustellen. München
Bernhard Rüger
Inhaltsverzeichnis 3 Einführung in die klassische Testtheorie 3.1 Grundbegriffe und Testkonzept
5 5
3.1.1
Verteilungsannahme, Hypothesen, Tests
3.1.2
Fehlerwahrscheinlichkeiten und Gütefunktion
11
3.1.3
Konstruktionsprinzip und Gütekriterium
20
3.1.4
Durchführung einer Hypothesenprüfung
28
3.1.5
Abstandsmaße und Konvergenzarten für Verteilungen
41
3.1.6
Stetige Parametrisierungen
53
3.1.7
Umgebungsbegriffe für Verteilungen
66
3.2 Spezielle Prüfsituationen und Tests
6
79
3.2.1
Tests auf Wahrscheinlichkeiten
79
3.2.2
Tests auf Parameter einer Normalverteilung
100
3.2.3
Tests auf Parameter zweier Normalverteilungen . . . .
118
3.2.4
Tests auf Parameter einer zweidimensionalen Normalverteilung
145
3.2.5
Tests in der einfaktoriellen Varianzanalyse
161
3.2.6
Tests auf Verteilungen
189
3.2.7
TestsaufUnabhängigkeit
220
3.2.8
Assoziationsmaße
235
2
3.3 Erweiterungen des Testkonzeptes
247
3.3.1
Alternativtests
248
3.3.2
Mehrstufige Tests
264
3.3.3
Sequentielle Tests
272
3.3.4
Alternativtests mit mehr als zwei Ergebnissen
283
3.3.5
Alternativtests mit drei Ergebnissen
296
3.3.6
Mehrentscheidungsverfahren
306
3.3.7
Multiple Testverfahren
323
4 Optimale parametrische Tests
361
4.1 Einfaches Alternativproblem
362
4.1.1
Risikobereich, Zulässigkeit, Optimalität
362
4.1.2
Fundamentallemma von Neyman und Pearson
370
4.1.3
Beispiele
380
4.1.4
Konsistenz des Likelihood-Quotienten-Tests
391
4.1.5
Verallgemeinertes Fundamentallemma
394
4.2 Einparametrige Verteilungsannahmen
400
4.2.1
Beste einseitige Tests
400
4.2.2
Lokal beste einseitige Tests
407
4.2.3
Beste unverfälschte zweiseitige Tests
410
4.2.4
Lokal beste unverfälschte zweiseitige Tests
425
4.3 Mehrparametrige Verteilungsannahmen
426
4.3.1
Ähnliche Tests
427
4.3.2
Bedingte Tests
432
4.3.3
Beste ähnliche einseitige Tests
435
4.3.4
Beste unverfälschte (ähnliche) zweiseitige Tests . . . .
438
4.3.5
Beispiele
440
3 4.4 Reduktion zusammengesetzter Hypothesen
461
4.4.1
Einführung, Reduktionsmethoden
461
4.4.2
Maximin-, Bayes- und Minimax-Tests
465
4.4.3
Reduktion auf ungünstigste Verteilungspaare
472
4.4.4
Robustifizierte Tests
484
4.4.5
Reduktion durch ungünstigste a priori Verteilungen
4.4.6
Verallgemeinerungen
501
4.4.7
Beispiele
508
. 491
Verzeichnis der Beipiele
515
Verzeichnis der Abbildungen
520
Inhaltsverzeichnis Band I
525
Literaturverzeichnis
520
Namenverzeichnis
547
Sachverzeichnis
551
Kapitel 3
Einführung in die klassische Testtheorie 3.1
Grundbegriffe und Testkonzept
Ein statistischer Test dient der Überprüfung von Hypothesen durch die Beobachtung von Stichproben. Zur Konstruktion von Tests gibt es sehr verschiedene Ansätze und Methoden. Diese unterscheiden sich in erster Linie nach dem ihnen zugrundeliegenden Inferenzkonzept. Wird das Konzept der klassischen Inferenz als verbindliche Grundlage eingeführt, so spricht man (in einem sehr allgemeinen Sinn) von der klassischen Testtheorie. Ihre Charakteristika lauten: Bei der Konstruktion von Tests wird ein objektivistischer Standpunkt eingenommen, ein kognitivistischer Zweck verfolgt und eine frequentistische Gütebeurteilung vorgenommen. Wesentlichen Einfluß auf die Entwicklung der klassischen Testtheorie haben K. Pearson (1857-1936), R. A. Fisher (1890-1962), J. Neyman (1894-1981), E. S. Pearson (1895-1980) und A. Wald (1902-1950) genommen. Vor allem die Arbeiten von Neyman und Pearson [1928, 1933a, 1933b, 1936a, 1936b, 1938] sowie Neyman [1929a, 1929b, 1935a, 1935b, 1942] haben die Theorie ganz entscheidend geprägt. Die nach ihnen benannte Neyman-Pearson-Theorie, die in sehr schöner Form bereits bei Neyman [1950] zusammengefaßt wird, stellt das Kernstück der klassischen Testtheorie dar. Ihre Grundlagen haben wir schon in Band I, Abschnitt 2.2.1 kennengelernt. Dort hatten wir uns auf die Behandlung nichtrandomisierter Tests beschränkt. Die wichtigsten Grundbegriffe sollen hier noch einmal wiederholt und auf beliebige (randomisierte oder nichtrandomisierte) Tests verallgemeinert werden.
6
KAPITEL
3.1.1
3. EINFÜHRUNG IN DIE KLASSISCHE
TESTTHEORIE
Verteilungsannahme, Hypothesen, Tests
Basis der klassischen Testtheorie ist das Grundmodell der induktiven Statistik: Die Beobachtung x wird als Realisation einer Zufallsgröße, der Stichprobe X , aufgefaßt, über die eine Verteilungsannahme vorliegt, für die (ohne Einschränkung der Allgemeinheit) eine (formal) parametrische Darstellung ip = {Pß : 6 G 0 } mit einem Parameterraum 0 C Kr angenommen wird. Der Tatbestand 'die Verteilung von X gehört zu stellt das unbezweifelte Vorwissen über das Stichprobenexperiment dar. Uber die Verteilung von X (d.h. über den Parameter ff) sollen an Hand der Beobachtung x verschiedene, mehr oder weniger stark bezweifelte Hypothesen überprüft werden. Statistische Verfahren, die diesem Zweck dienen, heißen Tests. Die gegebene Verteilungsannahme und die zu überprüfenden Hypothesen stellen die Prüfsituation dar. Die Aufgabe, in einer Prüfsituation einen geeigneten oder sogar möglichst guten Test zu konstruieren, wird Testproblem genannt. Die Lösung von Testproblemen ist Gegenstand der Testtheorie. Im Mittelpunkt stehen dabei Prüfsituationen mit nur zwei Hypothesen, einer Nullhypothese Ho und einer Gegenhypothese oder Alternative H\, kurz: Prüfungen von Ho gegen Hi. Man spricht dann von Tests für Ho gegen H\. Die Bezeichnung 'Null'hypothese hat vor allem historische Wurzeln. In den Anfängen der Testtheorie, vor der Zeit von J. Neyman und E. S. Pearson, betrachtete man nur eine einzige Hypothese, die aus der Behauptung bestand, daß die Verteilung der Stichprobe (der unbekannte Parameter 9) von einer hypothetischen Verteilung (einem hypothetischen Parameterwert Qo) nicht abweicht (Nullhypothese) und ordnete einem Test nur die Aufgabe zu, nachzuprüfen, ob die beobachtete Stichprobe eine statistisch gesicherte (signifikante) Abweichung anzeigt oder nicht. Eine vergleichbare Prüfsituation werden wir in der sogenannten zweiseitigen Fragestellung wiederfinden. Die Rolle und Bedeutung einer eigens formulierten Gegenhypothese für die Konstruktion eines Tests wurde erst von Neyman und Pearson erkannt und als zentraler Grundpfeiler in die Testtheorie eingebaut. Eine Hypothese H ist eine Aussage (Behauptung) über die unbekannte Verteilung von X bzw. über den unbekannten Parameter 9. Die Teilmenge des Parameterraumes 0 , für die H erfüllt ist, soll ebenfalls mit H bezeichnet werden (Identifizierung einer Hypothese mit einer Teilmenge von 0 ) . Die Teilmenge von für die H erfüllt ist, erhält die Bezeichnung . Eine Hypothese H heißt einfach, wenn sie die Verteilung von X exakt spezifiziert, d.h. wenn H bzw. Vßn einelementig sind. Eine Hypothese, die nicht einfach ist, heißt zusammengesetzt. Die beiden zu überprüfenden Hypothesen Ho und Hi sollen stets zwei disjunkte und nichtleere Teilmengen von 0 darstellen. In den meisten Prüfsituationen liegt der Fall H0 U H\ — 0 vor. Die Behandlung und Lösbarkeit eines Testproblems hängt ganz wesentlich von der Komplexität der beiden Hypothesen ab. Entscheidend ist hier vor
3.1. GRUNDBEGRIFFE
UND
TESTKONZEPT
7
allem die Frage, wie gut sich Ho und H\ trennen lassen. Die folgenden Prüfsituationen sind einer Lösung des Testproblems besonders gut zugänglich. Es handelt sich dabei um Standardsituationen der Testtheorie, die auch in der Praxis regelmäßig auftreten. Einfaches Alternativproblem: Die Hypothesen Ho und H\ sind beide einfach: H0 = {ö 0 } und Hi = {0i} mit bekannten 90 und 9\ aus 0 ; übliche Sprechweise: Man testet Ho : 9 = 9o gegen H\ : 9 = 9i. Zweiseitige Fragestellung: Bei einparametriger Verteilungsannahme ( 0 C M) lauten hier die Hypothesen H0 = {0O} und Hi = 0 \ {#o} mit bekanntem 6q aus 0 ; übliche Sprechweise: Man testet Ho : 9 = 9o gegen H\ : 6 ^ 6q. Die Nullhypothese ist einfach, die Alternative zusammengesetzt. Bei mehrparametriger Verteilungsannahme ( 0 C K,. mit r > 2) wird der Parameter 9 zur Formulierung der Hypothesen in 9 = (77, Q zerlegt mit einem eindimensionalen Parameter 77, der überprüft werden soll, und einem (r — l)-dimensionalen Parameter der nicht zur Überprüfung ansteht. Man nennt 77 den interessierenden Parameter und £ einen nuisance Parameter (Störparameter). Die Nullhypothese lautet Ho = {(vo,C) € © : C beliebig} und die Alternative hat die Form H\ = {(j],Q e 0 : T) ^ t)o , C beliebig} mit bekanntem rjo; übliche Sprechweise: Man testet Ho : r] = t]o gegen H\ : rj % bei jeweils beliebigem (. Im Gegensatz zum einparametrigen Fall ist hier auch Ho eine zusammengesetzte Hypothese. Einseitige Fragestellung: Bei einparametriger Verteilungsannahme lauten hier die Hypothesen H0 = {0 € 0 : 6 < 60} und Hx = {9 € 0 : 9 > 0O} mit bekanntem 9o € 0 ; übliche Sprechweise: Man testet Hq : 8 < 6q gegen Hi : 9 > Oo- (Natürlich wird hier und im folgenden auch die umgekehrte einseitige Fragestellung Ho : 6 > 9q gegen Hi : 9 < 6o mit eingeschlossen.) Beide Hypothesen sind zusammengesetzt. Bei mehrparametriger Verteilungsannahme wird der Parameter 9 wie oben zerlegt in 9 = (77, ( ) mit eindimensionalem interessierenden Parameter r] und nuisance Parameter ( . Damit lauten dann die Hypothesen Ho = {(?/, C) € ® : V 5: WoX beliebig} und Hi = {(rj, ( ) £ 0 : 77 > 77o,C beliebig} mit bekanntem 770 (das in der Projektion von 0 auf die 77-Achse enthalten sein soll); übliche Sprechweise: Man testet Ho : 77 < 770 gegen Hi : 77 > 770. Natürlich sind auch hier beide Hypothesen zusammengesetzt. Einseitige Fragestellung mit Indifferenzzone: Bei einparametriger Verteilungsannahme lauten hier die Hypothesen Hq = {9 £ 0 : 6 < 9o) und H\ = {9 G 0 : 9 > 9i} bei bekannten 9q und aus 0 mit 9q < 9i\ übliche Sprechweise: Man testet Ho : 9 < 9o gegen H\ : 9 > 9i. Beide Hypothesen sind zusammengesetzt. Das zwischen ihnen liegende offene Intervall (ö 0 ;fli) heißt Indifferenzzone', die darin befindlichen Parameterwerte werden weder der Nullhypothese noch der Alternative zugerechnet. Die Verallgemeinerung auf mehrparametrige Verteilungsannahmen wird auf analoge Weise wie oben vorgenommen.
8
KAPITEL
3. EINFÜHRUNG
IN DIE KLASSISCHE
TESTTHEORIE
Hypothesen mit positivem Abstand: Zur Beschreibung der hier angesprochenen Prüfsituation braucht man einen Abstandsbegriff für Verteilungen. Dieser wird durch eine Metrik d auf der Menge 971 aller Verteilungen über ( K ^ , e i n g e f ü h r t . (Wir erinnern daran, daß der Stichprobenraum X, auf dem die Verteilungen P$ erklärt sind, eine Teilmenge des ¿-dimensionalen reellen Zahlenraumes K^ versehen mit der er-Algebra der Boreischen Mengen im R{ ist, so daß für jede Verteilungsannahme gilt: ^J C 9Jt.) Es gibt verschiedene geeignete Metriken auf ÜJt, die wichtigsten unter ihnen werden wir in Abschnitt 3.1.5 kennenlernen. Wird eine Metrik d auf OJl zugrundegelegt, so stellt definitionsgemäß d(P;Q) den Abstand zweier Verteilungen P und Q in 9Jt dar. Darüberhinaus wird mit d auch der Abstand zweier Teilmengen £DT0 und 9Jlj in SOI festgelegt; er lautet: d(m0-, Mi) = i n f { d ( P ; Q ) : P e Wl0, Q € ©ti}. Damit schließlich können wir erklären: Zwei Hypothesen Ho und H\ haben einen positiven Abstand, wenn d(?\3#0, Vßni) positiv (also nicht Null) ist. Liegt eine bezüglich der Metrik d stetig parametrisierte Verteilungsannahme vor, so haben zwei Hypothesen H0 und Hi genau dann positiven Abstand, wenn sie als Teilmengen von 0 C B,. einen positiven euklidischen Abstand besitzen. Weiterhin gilt bei stetig parametrisierter Verteilungsannahme: Die Hypothesen in der zweiseitigen Fragestellung und diejenigen in der einseitigen Fragestellung (ohne Indifferenzzone) haben den Abstand Null, die Hypothesen in der einseitigen Fragestellung mit Indifferenzzone haben einen positiven Abstand. Natürlich besitzen die Hypothesen des einfachen Alternativproblems stets einen positiven Abstand. Umgebungshypothesen: Hypothesen in Form von Umgebungen spielen bei der Untersuchung der Robustheit von Tests eine entscheidende Rolle. Robustheitsfragen treten auf, wenn die zugrundeliegende Verteilungsannahme nicht unbezweifelt bleibt, sondern der Verdacht besteht, daß zu scharf formuliert wurde und zur Beschreibung des Stichprobenexperimentes auch noch solche Verteilungen in Betracht gezogen werden müssen, die nicht zu gehören, aber noch in der Nähe (in der Umgebung) einer Verteilung aus ip liegen. Ein dazu erforderlicher Umgebungsbegriff, der auf der Menge 2Jt aller Verteilungen über (Mf, 03*) einzuführen ist, legt fest, was man unter einer Umgebung U(P) einer Verteilung P zu verstehen hat. Die wichtigsten Umgebungsbegriffe dieser Art werden wir in Abschnitt 3.1.7 vorstellen. Mit Hilfe von U (P) wird dann die als zu scharf empfundene Verteilungsannahme ^3 abgeschwächt (erweitert) auf ihre Umgebungsmenge = {Q e ffl : Q e U{P) für ein P € ^3}. Entsprechend verfährt man mit den beiden Hypothesen Ho und H\, genauer: mit den dazugehörigen Teilmengen 93H0 und ^3Hi - Zu überprüfen sind dann die Umgebungshypothesen U{^hq) und UCVH! ) an Stelle der ursprünglichen Hypothesen und ^ 3 ^ . Robustheitsuntersuchungen von Tests betreffen die Frage, wie gut ein Test, der für die Hypothesen und VßHi als ein möglichst guter Test konstruiert wurde, seine Aufgabe auch dann erfüllt, wenn er zur Uberprüfung der Umgebungs-
3.1.
GRUNDBEGRIFFE
UND
TESTKONZEPT
9
hypothesen U{^H0) und U^H^) eingesetzt wird. Bleiben die Prüfqualitäten eines Tests beim Ubergang von den ursprünglichen Hypothesen auf deren Umgebunsghypothesen näherungsweise erhalten, so nennt man den Test robust gegenüber Abweichungen von der Verteilungsannahme. Natürlich muß dieser Robustheitsbegriff, der von den zugrundegelegten Umgebungen auf 971 abhängt, noch präzisiert werden. Wir wenden uns nun dem Testbegriff selbst zu. Ein Test für H0 gegen Hi soll zu einer der beiden folgenden Aussagen ('Testentscheidungen') Ao oder A\ führen. A0: H0 wird nicht abgelehnt, ('Ho ist mit der Beobachtung verträglich und wird beibehalten.') Ai: Ho wird abgelehnt, H\ ist signifikant, ('iio ist mit der Beobachtung nicht verträglich, H\ wird durch die Beobachtung statistisch nachgewiesen.') Die beiden Aussagen sind nicht symmetrisch in Ho und H\, Aussage A0 ist wesentlich schwächer als Aussage A\. Diese Unsymmetrie hat ihren Grund in einer entsprechenden Unsymmetrie im Konstruktionsprinzip von Tests, das in der klassischen Testtheorie vorherrscht. Wir verweisen dazu auf Abschnitt 3.1.3. Prinzipiell muß eine Hypothese, die durch einen Test statistisch gesichert werden soll, als Alternative H\ formuliert werden. Nur in besonders 'günstigen' Prüfsituationen, die sich vor allem dadurch auszeichnen, daß H0 und Hi einen positiven Abstand haben, können Tests konstruiert werden, mit denen auch Ho statistisch nachgewiesen werden kann. Für solche sogenannten Alternativtests kann die Aussage Ao verschärft werden auf die zu Ai symmetrische Formulierung AQ : LH\ wird abgelehnt, HO ist signifikant'. Ein Test ordnet jeder möglichen Beobachtung x der Stichprobe X eine der beiden Aussagen Ao oder A\ als Testergebnis zu. Bei einem üblichen, nichtrandomisierten Test erfolgt diese Zuordnung unmittelbar: Der Stichprobenraum X wird in einen kritischen Bereich (Ablehnbereich) K und sein Komplement (Annahmebereich) K zerlegt mit der Entscheidungsregel, daß eine Beobachtung x € K zu der Aussage A\ und eine Beobachtung x 6 K zu der Aussage Ao führt. Zur formalen Darstellung wird die Aussage Ao mit der Zahl 0 und die Aussage Ai mit der Zahl 1 codiert. Ein nichtrandomisierter Test iß hat die Gestalt (3.1) Natürlich soll K eine Boreische Teilmenge von X und damit tp eine meßbare Funktion auf X sein. Die beiden Werte von tp lassen sich auch als Wahrscheinlichkeiten für die Ablehnung von Ho interpretieren: Für eine Beobachtung x £ K wird Ho mit Wahrscheinlichkeit 1, für eine Beobachtung x € K mit Wahrscheinlichkeit 0 abgelehnt.
10
KAPITEL 3. EINFÜHRUNG IN DIE KLASSISCHE
TESTTHEORIE
Bei einem randomisierten (verallgemeinerten) Test
Gv (6) Also ist p0 aus Beispiel 3.1:
{
1
falls
>
c
7 falls Xj = c 0 falls £ > i < c . Es wurde bereits gezeigt, daß dieser Test die Beziehung a(tp*) + ß(f*) = 1 erfüllt. Also ist tp* (für jede Wahl von c und 7) unverfälscht. Wegen der nachgewiesenen Monotonie und Stetigkeit der Gütefunktion G ( p ) hat die Niveau-a-Bedingung für tp* die Form a
( f * ) = c) + 7Ppo (Z = c) < a
(3.23)
mit Z = Xi. Darin sollte, damit ß( c) < a zu bestimmen und anschließend mit diesem c die Randomisierungswahrscheinlichkeit
7
a-PP0(Z>c) PP0(Z = c)
zu setzen. Der dazughörige Test ist sogar, wie wir in Abschnitt 4.2.1 zeigen werden, der eindeutig bestimmte UMP-Test zum Niveau a . Wir vergleichen diesen Test mit dem nichtrandomisierten Test . . _ J 1 falls ~ 1 0 falls
> c
der das vorgegebene a so weit wie möglich ausschöpft. Die Differenz der Gütefunktionen von tp* und
3) = 0.1209 > a ;
daher ist c = 4 und 7 = (0.05 - 0.0328)/0.0881 = 0.195; der Test lautet also: C 1 ip*{x) = l 0.195 { 0
falls falls falls
> 4 D a r i < 4.
Dafür gilt nach Konstruktion: a( > 4
ergibt sich der Gütegewinn Gv.(p)
- Gv(p) = jPp(Z
= c) = 0 . 1 9 5 ( ^ / ( l - P)6
mit dem maximalen Wert O-Wö^ 0 ) (0.4) 4 (0.6) 6 = 0.049.
•
Gegen Ende dieses Abschnittes wird noch der Begriff der Prüfgröße eines Tests eingeführt: Eine Stichprobenfunktion oder -transformation T(x) bzw. die entsprechende Zufallsgröße T — T(X) heißt Prüfgröße (oder Teststatistik) des Tests ip, wenn der Test nur von den Werten von T abhängt, d.h. wenn ip(x) = ip(T(x)) gilt. Solche Tests haben oft die Form f 1 falls T(x) > c 0 für alle p> po sowie G'v(po) = 0. Also ist Gv(p) links von po streng monoton fallend und rechts von po streng monoton wachsend, an der Stelle po besitzt Gv(p) ein eindeutig bestimmtes Minimum. Daraus ergibt sich die Unverfälschtheit von (p. (Vergleiche dazu auch Abbildung 3.5.) Aus den genannten MonotonieEigenschaften und der Stetigkeit von G ^ p ) ergibt sich weiterhin: a( p'. Im zweiseitigen Gauß-Test (Beispiel 3.3) ist die Prüfgröße | T | = | X - ßo I \fn/o unter /J" stochastisch größer als unter ß', falls | ß" — ßo \ > \ y! — ßo 6. Schritt: Bestimmung eines geeigneten Tests Nach der Festlegung einer Prüfgröße T wird der Test
c ip(x) = c) + jP0o (T(X) — c) = a
für alle 6 € H0
(3.30)
gebracht werden, nämlich immer dann, wenn ein 60 6 Hq existiert, für das die linke Seite in (3.29) maximal wird, also nach (3.5) den Wert a(tp) annimmt. Dieses 60 legt in der Regel die oben erwähnte ungünstigste Verteilung von T unter H0 fest. Durch die Bedingung (3.30) sind c und 7 bereits eindeutig bestimmt (wenn im Fall Pg0(T(X) — c) — 0, in dem 7 frei wählbar ist, ohne daß sich die Qualität, d.h. die Gütefunktion des Tests ändert, die Vereinbarung 7 = 0 getroffen wird). Damit wird durch die Form (3.28) die Bedeutung einer Prüfgröße T mit Monotonie-Eigenschaft für einen Test besonders deutlich: Überschreitet für eine Beobachtung x der Wert T(x) eine kritische Zahl c, die durch das vorgegebene a eindeutig bestimmt ist, so ist die Beobachtung signifikant für H\ zum Niveau a . Interpretation: Die Prüfgröße mißt die in der Beobachtung vorhandene Abweichung von H0 in Richtung auf Ht. Zusammengefaßt findet im fünften und sechsten Schritt die eigentliche Konstruktion oder auch nur Auswahl des Tests statt, mit dem die Hypothesen überprüft werden sollen. Dabei läßt man sich neben der Niveau-a-Bedingung (als Konstruktionsprinzip) von dem Gütekriterium der klassischen Testtheorie leiten: Die Prüfgröße T und der darauf aufbauende Test