175 8 25MB
German Pages 304 Year 1982
de Gruyter Lehrbuch Eberl/Moeschlin: Mathematische Statistik
Walther Eberl • Otto Moeschlin
Mathematische Statistik
w DE
G
Walter de Gruyter Berlin-NewYork 1982
Priv.-Doz. Dr. Walther Eberl, Fachbereich Mathematik und Informatik, FernUniversität Hagen Prof. Dr. Otto Moeschlin, Fachbereich Mathematik und Informatik, FernUniversität Hagen
CIP-Kurztitelaufnahme
der Deutschen Bibliothek
Eberl, Walther: Mathematische Statistik / Walther Eberl ; Otto Moeschlin. - Berlin ; New York : de Gruyter, 1982(De-Gruyter-Lehrbuch) ISBN 3-11-008136-9 NE: Moeschlin, Otto:
© Copyright 1982 by Walter de Gruyter & Co., vormals G. J. Göschen'sche Verlagshandlung, J. Guttentag, Verlagsbuchhandlung, Georg Reimer, Karl J.Tübner, Veit & Comp., Berlin 30. Alle Rechte, insbesondere das Recht der Vervielfältigung und Verbreitung sowie der Übersetzung, vorbehalten. Kein Teil des Werkes darf in irgendeiner Form (durch Photokopie, Mikrofilm oder ein anderes Verfahren) ohne schriftliche Genehmigung des Verlages reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden. Printed in Germany. Satz und Druck: Tutte Druckerei GmbH, Salzweg-Passau. Bindearbeiten: Lüderitz & Bauer Buchgewerbe GmbH, Berlin.
Vorwort Die Entwicklung der Mathematischen Statistik ist heute soweit vorangeschritten, daß es kaum möglich ist, in einem Buch, das dem Studierenden als Wegführer in die Mathematische Statistik dienen soll, alle Ideen, Begriffsbildungen und Sachverhalte zu vermitteln, die von Bedeutung sind, auch dann nicht, wenn von vornherein auf die Nichtparametrische Statistik wie auch auf die Darstellung asymptotischer Verfahren verzichtet werden soll. Das vorliegende Buch will den Leser mit typischen Ideen und Methoden sowie den wichtigsten Resultaten, wie man sie im Rahmen einer Einführung erwarten kann, vertraut machen. Die von uns vollzogene Stoffauswahl enthält wichtige Teile der Schätz- und der Testtheorie sowie eng mit der letzten verbunden einen Paragraphen über Bereichsschätzfunktionen. Schätz- und Testtheorie werden sowohl von einem „nicht-Bayesschen" wie auch von einem Bayesschen Standpunkt aus dargestellt. In einem vorausgehenden Paragraphen über statistische Räume werden für die Statistik zentrale Begriffe wie z. B. der der suffizienten Statistik eingeführt. Das Buch richtet sich an Mathematiker sowie an Studierende anderer Fachrichtungen, die an der mathematischen Grundlegung der Statistik interessiert sind. Kenntnisse der Maß- und Wahrscheinlichkeitstheorie werden vorausgesetzt. In Anhang A wird eine Zusammenstellung der benötigten Definitionen und Sachverhalte über bedingte Erwartungswerte und bedingte Verteilungen gegeben. In Anhang B sind einige Sachverhalte über Korrespondenzen aufgeführt. (Definitionen und Sachverhalte aus Anhang A bzw. Anhang B sind mit Nummern wie etwa A 2.7 bzw. B (2) gekennzeichnet.) Bei der Niederschrift des Manuskriptes waren wir um Studienfreundlichkeit bemüht. Explizität in der Darstellung von Sachverhalten wie auch Vollständigkeit der Argumente bei der Abfassung von Beweisen waren uns ein Anliegen. Bei einer Disziplin wie der Mathematischen Statistik, die stark von Anwendungen und außermathematischen Fragestellungen geprägt ist, spielt die Erläuterung, wie eine bestimmte Fragestellung einer mathematischen Behandlung zugänglich gemacht wird, eine nicht unwesentliche Rolle, so daß wir auch solchen Erörterungen große Aufmerksamkeit geschenkt haben. Das vorliegende Buch über Mathematische Statistik ist aus Kursen, die die beiden Autoren zum selben Thema für die Fernuniversität verfaßt haben, erwachsen. Vieles ist dabei neu dazugekommen, anderes wiederum ist entfallen.
Vorwort
VI
Darüber hinaus sind fast alle Teile neu gefaßt worden; auch was den mathematischen Zugang betrifft. Zweifelsohne sind uns von Kollegen wertvolle Ratschläge zugute gekommen, die sich bei der Abfassung des Buches als nützlich erwiesen. Verschiedene Anregungen und Hinweise haben wir von Frau G. Meister und Herrn H. Meister sowie von Herrn W. Wübbels erhalten. Die Genannten sowie Herr U. Böhm haben bei der Durchsicht des Manuskriptes sowie beim Lesen der Korrekturen geholfen. Ihnen wie auch Frau G. Soentgen, die uns in verschiedener Hinsicht unterstützt hat, gilt unser Dank. Hagen, im Juni 1982
W.E.
O.M.
Inhaltsverzeichnis § 1 Die statistische Problemstellung § 2 Statistische Räume und suffiziente Statistiken 2.1 Statistische Räume 2.2 Dominierte statistische Räume 2.3 Suffiziente Statistiken 2.4 Statistische Räume mit isotonen Dichtequotienten 2.5 Statistische Exponentialräume
1 4 4 11 19 36 45
§ 3 Schätzen von Parametern 3.1 Schätzexperimente 3.2 Optimalitätskonzepte für Schätzer 3.3 Schätzexperimente und suffiziente Statistiken 3.4 Erwartungstreue Schätzer 3.5 Erwartungstreue Minimalschätzer 3.6 Vollständigkeit; der Satz von Lehmann-Scheffe 3.7 Reguläre Schätzexperimente 3.8 Effiziente Schätzer
56 56 60 64 69 73 85 96 118
§ 4 Bayessche Schätzverfahren 4.1 Bayessche Schätzexperimente 4.2 Bayes-Schätzer bei symmetrisch-konvexen Verlustfunktionen . . . .
126 126 135
§ 5 Minimax-Schätzer und Zulässigkeit 5.1 Minimax-Schätzer 5.2 Zulässige Schätzer
156 156 168
§ 6 Testen von Hypothesen 175 6.1 Das Testproblem 175 6.2 Gütekriterien für Tests 180 6.3 Testexperimente und suffiziente Statistiken 184 6.4 Fraktilefunktionen 186 6.5 Das Fundamentallemma 197 6.6 Einseitige Testexperimente bei isotonen Dichtequotienten 203 6.7 Zweiseitige Testexperimente bei Exponentialräumen 213 6.8 Die Existenz von a-Minimax-Tests und trennscharfer a-Tests . . . . 228
VIII
Inhaltsverzeichnis
§ 7 Bayessche Testverfahren 7.1 Bayessche Testexperimente 7.2 Bayes-Tests 7.3 a-Minimax- und a-Bayes-Tests
235 235 239 245
§ 8 Bereichsschätzfunktionen 8.1 Das Bereichsschätzproblem 8.2 Bereichsschätzfunktionen und Familien von Tests 8.3 Das Konzept der minimalen mittleren Längen
253 253 255 266
Anhang A: Bedingte Erwartungswerte und bedingte Verteilungen A 1 Bedingte Erwartungswerte A 2 Faktorisierte bedingte Erwartungswerte A 3 Bedingte Verteilungen A 4 Faktorisierte bedingte Verteilungen A 5 Bedingte Dichten
270 270 274 275 276 278
Anhang B: Korrespondenzen
280
Literaturverzeichnis
281
Verzeichnis der verwendeten Symbole
285
(a) Allgemeine mathematische Symbole und Abkürzungen (b) Allgemeine Symbole, Schreibweisen und Abkürzungen aus der Maß- und Wahrscheinlichkeitstheorie (c) Im Text (incl. Anhang A und B) eingeführte Symbole Sachverzeichnis
285 287 288 291
§ 1 Die statistische Problemstellung Der allgemeine Rahmen der statistischen Problemstellung kann zunächst etwas vage folgendermaßen beschrieben werden 1 ': Als Modell für einen als zufallsabhängig unterstellten Vorgang in der Natur wird ein (abstrakter, i.a. recht komplexer und aus bald einleuchtenden Gründen nicht näher zu spezifizierender) JF-Raum (ß, Ä, P) zugrundegelegt. Während die Elemente coe Q einer direkten Beobachtung bzw. quantitativen Erfassung nicht (notwendig) zugänglich sind, sei X: (ß, Ä) —> (IH, ,#") eine ZV (X: Stichprobe; (IH, ,?f): Stichprobenraum), deren Funktionswerte (Realisationen) beobachtet werden können. Die statistische Problemstellung besteht dann darin, bei „zufälliger" (d. h. in Übereinstimmung mit dem unbekannten W-Maß P) Wahl von ojeü aufgrund des gleichzeitig realisierten, einer unmittelbaren Beobachtung zugänglichen Funktionswertes x = X{ü) (x: Beobachtungsmaterial) eine Aussage über die unbekannte Verteilung Px von X unter P (Px: Stichprobenverteilung) zu machen. Eine solche Aussage heißt eine statistische Entscheidung. Zur formalen Beschreibung einer konkreten statistischen Problemstellung hat man das „Vorwissen" bez. der Stichprobe bzw. ihrer Verteilung in Form spezieller Modellannahmen einzubringen. Unter dem Vorwissen sind alle für die Modellbildung relevanten Kenntnisse über den als zufallsabhängig unterstellten Vorgang zusammengefaßt, die sich aus dem realen Hintergrund, der Versuchsplanung sowie heuristischen (Plausibilitäts-)Überlegungen ergeben. Gleichzeitig ist zu präzisieren, welcher Art die statistischen Entscheidungen sein sollen. Dabei erweist es sich als notwendig, der Art der jeweiligen Problemstellung entsprechend weitere Größen vorzugeben. Die Lösung eines statistischen Problems erfolgt mit (statistischen) Entscheidungsverjahren, das sind Vorschriften, die jeder möglichen Realisation x = X (m) (bzw. jedem Element einer Obermenge des Bildbereiches von X) eine statistische Entscheidung zuordnen. Es liegt in der Natur der Sache, daß statistische Entscheidungen i.a. fehlerhaft (Fehlentscheidungen) sind, d.h. nicht den tatsächlichen Gegebenheiten entsprechen. Die Aufgabe der Mathematischen Statistik besteht darin, die bei Verwendung eines Entscheidungsverfahrens möglichen Fehlentscheidungen quantitativ zu fassen, darauf aufbauend Optimalitätskonzepte für Entscheidungsverfahren zu entwickeln und schließlich
l)Wir beschränken uns hier auf die Beschreibung „nicht-Bayesscher" statistischer Problemstellungen; bez. der Beschreibung Bayesscher Problemstellungen vgl. 4.1 sowie 7.1.
2
§ 1 Die statistische Problemstellung
entsprechende optimale Entscheidungsverfahren zu bestimmen. Die PF-Theorie erweist sich dabei als wesentliches Hilfsmittel. In diesem einführenden Paragraphen gehen wir allgemein auf die Umsetzung des Vorwissens in spezielle Modellannahmen ein, womit eine Motivation und Hinführung zum Begriff des statistischen Raumes geschaffen werden soll, der im nächsten Paragraphen einzuführen sein wird und dem für das Weitere fundamentale Bedeutung zukommt. Spezielle Arten von statistischen Entscheidungen sowie damit verbunden von geeigneten Konzepten für Entscheidungsverfahren erörtern wir jeweils in den einleitenden Abschnitten zur Schätztheorie (vgl. 3.1 bzw. 5.1), zur Testtheorie (vgl. 6.1) sowie zur Theorie der Bereichsschätzfunktionen (vgl. 8.1). Bei der formalen Fassung des Vorwissens in Form spezieller Modellannahmen ist das folgende Vorgehen grundlegend: Man legt eine Menge (Klasse) W von W-Maßen auf zugrunde, zu welcher die Stichprobenverteilung Px gehören muß; iV stellt die Menge der (von der Problemstellung her) möglichen Stichprobenverteilungen dar. Tatsächlich läßt sich für die hier beschriebenen statistischen Problemstellungen durch die Festlegung einer geeigneten Klasse W (von W-Maßen auf J f ) das gesamte für die Modellbildung relevante Vorwissen berücksichtigen. Besteht kein Anlaß zu speziellen Annahmen, so wird W die Menge aller PF-Maße auf J f sein. Wir erläutern die formale Fassung des Vorwissens durch die Festlegung einer (geeigneten) Klasse iV an zwei typischen Beispielen, nämlich an der Modellbildung zu Problemstellungen, bei denen das Beobachtungsmaterial als n-Tupel x — (jcj , . . . , x j von Realisationen unabhängig bzw. unabhängig identisch verteilter ZKen aufgefaßt wird. Eine Stichprobe X = (A^,..., X„): (ü, Ä) n
()( IH;, 1
(JjJ J f j ) heißt eine unabhängige bzw. einfache Stichprobe vom (Stichproben-) i Umfang n, falls die ZFen Xf (Q, Ä) (IH,, JT,) ( j e N„) unter dem (unbekannten) W-Maß P unabhängig bzw. unabhängig identisch verteilt sind (dabei wird im zweiten Fall (IH0, j f 0 ) : = ( I H p j^J) ( j e N J vorausgesetzt). Ist dann für Xj{Xj-. j-te Stichprobenvariable) jeweils iij eine Menge von (aufgrund der Problemstellung) möglichen Verteilungen von X} (je !MJ, so erhält man als Menge der möglichen Stichprobenverteilungen im Falle einer unabhängin
gen Stichprobe W = {($ PjlPjeWj (/elKI„)} und im Falle einer einfachen i Stichprobe t T = {g) P 0 \Po e Wo} mit W 0 ••= ^ ( j e N„).
§ 1 Die statistische Problemstellung
3
Hat man die (speziellen) Modellannahmen durch die Angabe einer geeigneten Klasse W von ff-Maßen auf J f präzisiert, so benötigt man zur formalen Beschreibung der Problemstellung lediglich (IH, j f ) und W , nicht mehr dagegen (ü, Ä, P) und die Stichprobe X. Dementsprechend geht man bei den in Rede stehenden Problemstellungen also nur von einem Tripel (IH, j f , iV) (statisti scher Raum) aus, wobei sich die Bedeutung von (IH, j f ) und if aus den obigen Ausführungen ergibt. Verschiedentlich werden dann an (IH, j f , i f ) noch technisch bedingte Forderungen gestellt, die die Entwicklung einer mathematisch sinnvollen und für die Anwendungen relevanten Theorie für optimale Entscheidungsverfahren ermöglichen.
§ 2 Statistische Räume und suffiziente Statistiken 2.1 Statistische Räume In Paragraph 1 haben wir erörtert, daß man sich bei den dort beschriebenen Problemstellungen der Mathematischen Statistik vom zugrundeliegenden WRaum (ß, Ä, P) und der Stichprobe X loslöst und nur von einem Meßraum (IH, MJ) und einer Menge W von W-Maßen auf ^"ausgeht, mit der sich aus dem ursprünglichen Modell ergebenden Bedeutung von (IH, j f ) als Stichprobenraum und von i f als Menge der (möglichen) Stichprobenverteilungen. Das Tripel (IH, iV) besitzt dann in der Mathematischen Statistik eine analoge Bedeutung wie der PF-Raum in der (^-Theorie. Dieser Abschnitt dient der Einführung von für das Weitere fundamentalen Begriffen, die in Analogie stehen zu aus der ff-Theorie wohlbekannten - auf dem Konzept des ^ - R a u m e s aufbauenden - Begriffen.
Für das Folgende wird es sich als nützlich erweisen, die zugrundegelegte Menge W von W-Maßen durch Parameter ye T zu indizieren, wobei r eine (nicht-leere) Menge ist, die mit W in bijektivem Zusammenhang steht. 2.1.1 Definition: Ein statistischer Raum ist ein Tripel (IH, J f , W), wobei (IH, j f ) ein Meßraum und IV eine nicht-leere Menge von W-Maßen auf JC ist. Ist (: r W eine Bijektion einer (nicht-leeren) Menge i auf 'W, so heißt T ein Parameterraum von W und die Elemente y e F heißen Parameter; wir setzen dann Py ••= £(y) und schreiben W = |-y £ T}. Für 0 4= T' ) ein Meßraum. Eine meßbare Abbildung S: (IH, jtif) —> (D, &) heißt eine Statistik. Die Menge aller Statistiken S: (IH, J>f)—>(D, S>) bezeichnen wir mit ,.M%)); speziell setzen wir J t : = Jt(ßte, IR+ c\, Ws) mit Ws ••= {Py>s|y e T} ein statistischer Raum gegeben, wo wiederum f Parameterraum ist. 2.1.5 Definition: Sei (IH, jt, W) ein statistischer Raum und S e Sì) eine Statistik derart, daß Py S ^ P,/ s (y, y' e r : y =f= y') gilt. Dann heißt der statistische Raum (D, Q>, #" s ) (mit Parameterraum r j der Bildraum von (IH, J f , W) unter (der Statistik) S.
7
2.1 Statistische Räume
Statistisch gesehen bedeutet der Übergang zum Bildraum die Überführung des ursprünglichen Modells in ein neues. Dabei wird man bestrebt sein, Statistiken zu bestimmen, bei denen man durch eine solche Überführung zu einem möglichst einfachen Modell gelangt. In diesem Zusammenhang wird zu klären sein, welche Statistiken den Übergang zum Bildraum gestatten, ohne daß dabei die Rückschlußmöglichkeit bez. der Verteilungen aus iV reduziert wird. Die in 2.1.5 gestellte Forderung der paarweisen Verschiedenheit der Bildmaße ist dabei sicher notwendig. Als nützlich wird sich jedoch eine stärkere Forderung, nämlich die in 2.3 einzuführende Suffizienz, erweisen. Bevor wir zu Beispielen für die bislang in diesem Abschnitt eingeführten Begriffe kommen, werden noch gewisse Begriffe und Symbole aus der Maß- und Integrationstheorie auf statistische Räume übertragen. 2.1.6 Definition: Sei (IH, Jf, if ) ein statistischer Raum. 2.1.6.1: Eine Menge NeJf heißt eine TT-Nullmenge, falls Py{N) = 0 (y e T) gilt. Die Menge aller iV-Nullmengen bezeichnen wir mit ••= \N e .W P7(N) = 0 (yer)}. 2.1.6.2: Sei A (x) eine für alle x e IH außerhalb einer iV-Nullmenge erklärte Aussage. Wir sagen „A gilt W-fast überall" oder „A (x) gilt fiir iV-fast alle x e IH" (kurz: „A iV-f. ü." oder „A (x) iT-f. ü"), falls gilt : 3Ne jV{iT): A{x)
gilt für alle
xeIH - N .
2.1.6.3: Eine Statistik S e J t f f l ) heißt iV-(quasi-)integrabel, falls S für jedes yeT P -(quasi-)integrabel ist. Wir setzen ^¡q){iry.=
^»„(IH, j f , TT)== {Se Jt(3f)\Se
Entsprechend werden ({O, 1}), TT0) mit TT0 = {P0>JJ = 5(1, p) \p e r ) ist, nennen wir einen Bernoulli-Raum. Vielfach wird der Parameterraum r = [0, 1] sein; da für die Anwendungen die Parameterwerte p = 0 und p = 1 meist uninteressant sind, werden wir verschiedentlich stattdessen den Parameterraum r = (0, 1) zugrundelegen. Ist dann die Statistik S = £ X}: ({0, 1}", £?({0, 1}")) -> (N°, 0>(IM°)) gegeben (bez. der Bedeutung von X j vgl. 2.1(1)), so gilt Pp,s
= {Pp)s = B { n ,
P
(p6fc[0,l]).
)
Damit ist (tN°, ^(IM°), # s ) mit W = [B(n, p ) \ p s T ) der Bildraum von ({0, 1}", 0>({O, 1}"), W) unter S = £ X ¡. Ein Bernoulli-Raum ist ein Modell für die Menge der Stichprobenverteilungen einer Stichprobe (vom Umfang n) mit unabhängig identisch 5(1, /^-verteilten Stichprobenvariablen, wobei p unbekannt ist. s
2.1.7.2 (Normalverteilung): Im Zusammenhang mit der Normalverteilung wird oft einer der folgenden statistischen Räume zugrundegelegt: == $ N (a, a2) | (a, a2) e IR x (|R + - {0})};
IT) mit nr =
(a)
(IR",
(b)
(IR", ¿0", iT) mit
I
n 1V
= { P
a
: =
$ N(a,
a 2 ) \a e
IR},
I
wobei o 2 > 0 fest ist; (c)
(lR",^ n , # " ) m i t ^ = {Pff2==
n $ N { a , a
I
2
) \ o
2
> 0 } ,
wobei a e IR fest ist. Die Parameterräume dieser statistischen Räume sind aus der jeweiligen Definition von W direkt abzulesen. Bei den angeführten statistischen Räumen handelt es sich um Modelle für die Verteilungen von Stichproben mit unab-
9
2.1 Statistische Räume
hängig identisch normalverteilten Stichprobenvariablen. Während dabei die Stichprobenvariablen im Fall (a) für verschiedene Stichprobenverteilungen sowohl verschiedene Erwartungswerte als auch verschiedene Varianzen aufweisen können, entspricht (b) der Situation, wo sich die Stichprobenvariablen für verschiedene Stichprobenverteilungen im Erwartungswert unterscheiden können, während die Varianzen übereinstimmen müssen. Dabei kann die für die vorliegende statistische Fragestellung nicht relevante - gemeinsame Varianz bekannt oder auch unbekannt sein. Entsprechendes gilt im Fall (c). Sowohl in der Schätztheorie wie auch in der Testtheorie wird für die unter (b) angegebenen statistischen Räume die Statistik S = X = — YX:: (IR", 38") —* n
([R, Sß) (das (arithmetische) Stichprobenmittel) bei der Bestimmung optimaler n
Entscheidungsverfahren Verwendung finden. Wegen (^J N(a, 0) ist dabei der Bildraum unter S für a2 > 0 jeweils gegeben durch ( I R , 3 ä , i V s ) mit 1V = {N{a, a jn)\a e IR}. Diese Bildräume erweisen sich in dem Sinne von einfacherer Gestalt als die ursprünglichen, daß es sich bei W s jeweils um eine Menge von PF-Maßen auf 08 handelt, während W eine Menge von Produktverteilungen auf 0S" darstellt. Entsprechend erweisen sich für die statistischen Räume von (c) die Statistiken £ (Xj — a ) 2 und £ (Xj — X)2 als nützlich, je nachdem ob a bekannt ist oder nicht. S
2
Während bei den obigen Beispielen konkrete statistische R ä u m e angegeben wurden, werden in 2.1.8 zwei Typen statistischer Räume eingeführt, die dann als Modell für die Menge der Stichprobenverteilungen herangezogen werden können, wenn man weiß, daß sich alle möglichen Verteilungen der einzelnen Komponenten der Stichprobe durch Verschiebung (Translation) oder durch Streckung (Homothetie) aus einem W-Maß ergeben. 2.1.8 Beispiele 2.1.8.1 (Translationsräume): Seien P ein W- M a ß auf CM und n e IM; für y e IR sei Ty: (IR", ® n ) -»• (IR", äS") die Translation mit Ty(x) = + y, ..., x„ + y) (x = (x!,..., x„)elR"). Der statistische R a u m (IR", J"", iV) mit W = {Py = n =
((^J
P)T/\ye
IR} heißt dann der (n-dimensionale) Translationsraum zu
P,
W
selbst die (n-dimensionale) Translationsklasse zu P. Da Py ^ Py, (y, y' e IR : y # y ) gilt, ist dabei stets IR ein Parameterraum von "W. D a außerdem die verschobenen Potenzmaße gleich den Potenzen der entsprechend verschobenen Maße
10
§ 2 Statistische Räume und suffiziente Statistiken
auf S& sind, ist ein n-dimensionaler Translationsraum die n-te Potenz des entsprechenden eindimensionalen. Für a 2 > 0 ist der statistische R a u m (IR", gg", IV) von 2.1.7.2(b) jeweils der ndimensionale Translationsraum zu N(0, er2), der entsprechende Bildraum unter X ist der eindimensionale Translationsraum zu N ( 0 , a 2 / n ) . Ist P eine Einpunktverteilung, so besteht die entsprechende n-dimensionale Translationsklasse aus allen Einpunktverteilungen in den Punkten auf der Diagonalen A = {(x,..., x) \ x e (R) im [R". 2.1.8.2 (Skalenräume): Seien wieder P ein W-Maß auf M und n e M; für y > 0 sei5" y : ( V n , ? l n ) ( I R d i e Streckung (Homothetie) mit S y ( x ) = (y.x, , . . . , 7 X „ ) (x = (jc1; ..., xn) e IR"). Der statistische R a u m ([R", SS", i f ) mit iV = {Py = n
=
(§) P)s y | y > 0} heißt dann der (n-dimensionale) Skalenraum zu P, iP" selbst
die (n-dimensionale) Skalenklasse zu P. Abgesehen von dem pathologischen, für die Anwendungen uninteressanten Fall, wo P die Einpunktverteilung in 0 ist und i f lediglich aus der Einpunktverteilung im Ursprung des [R" besteht, gilt Py ^ Py. (y, y' > 0; y 4= y'), so daß [R+ — {0} ein Parameterraum von iV ist. Jeder n-dimensionale Skalenraum ist offenbar die rc-te Potenz des entsprechenden eindimensionalen Raumes. Für ae IR ist der statistische R a u m von 2.1.7.2(c) jeweils der n-dimensionale Skalenraum zu N(a, 1).
Im letzten Beispiel schließlich führen wir statistische Räume ein, die sich durch eine Permutationsinvarianz der einzelnen IF-Maße auszeichnen und auf die wir speziell in der Schätztheorie zurückgreifen werden. 2.1.9 Beispiel (Permutationsinvariante statistische Räume): Für n e (M sei ._/„ die Gruppe der Permutationen von {1,..., n}. Weiter sei für i e «/„jeweils U,: ([R", SS") - + ([R", 38") die durch U l ( x 1 , . . . , x „ ) = ( x t ( 1 ) , . . . , x l ( J ( ( x l t ..., x j e IR") gegebene Permutations-Statistik (zur Permutation i ) . (Der Leser möge sich die Meßbarkeit von Ut selbst überlegen.) Ein statistischer R a u m ([R", 88n, 'W) heißt permutationsinvariant (./„-invariant, symmetrisch), falls gilt: P
y,
V l
= Py
(7 e r - ,
i e J
n
) .
2.1(2)
2.2 Dominierte statistische Räume
11
Beispiele für permutationsinvariante statistische Räume sind die Potenzen statistischer Räume (IR, 9t, i f 0 ) (vgl. 2.1.2.2). Ist nämlich (IR", ,aJn, W) eine solche Potenz, so gilt für y e r und i~Ui,..., i„)e ./„ PytVl{Bx
x ... xBH)={^P0,y){Ul~1{Bi i = (®P0.y)(Bllx i = n PoJBj)=($ i=i = P1(B1 x ... xBn)
x
x B„)) =
... xBJ
i
= H P0,y(B,) j=I
P0J(Bl (Bje
=
X ... xBn) = C/eNJ),
womit bereits 2.1(2) folgt. Insbesondere sind daher n-dimensionale Translationsräume und Skalenräume permutationsinvariant.
2.2 Dominierte statistische Räume Für große Teile der Mathematischen Statistik, insbesondere der Testtheorie, benötigt man für den zugrundegelegten statistischen Raum (IH, j f , iV) eine Voraussetzung, die es ermöglicht, statt mit den auf ¿tf definierten Mengenfunktionen Py mit auf IH erklärten „Punktfunktionen" zu arbeiten. Die diesbezüglich in der folgenden Definition formulierte Annahme ist für statistische Räume, die als Modell für praktische Anwendungen auftreten, meist erfüllt. 2.2.1 Definition: Sei (IH, J f , i f ) ein statistischer Raum und ¡x ein a-endliches Maß auf ¿f. Dann heißen (IH, J f , W) ein (^-)dominierter Raum und W eine (/i-)dominierte Klasse (von W-Maßen auf Jtf), in Zeichen iV ¡1, falls eine der beiden folgenden (äquivalenten) Bedingungen erfüllt ist: (I)
Py = fy/i, d.h., Py besitzt eine ¡x-Dichte fy
(II)
Py ist n-stetig
(y e F);
{y e f ), d. h., es gilt JV{p) c y T ^ T ) .
Wir sagen in diesem Falle auch, daß W von dem (a-endlichen) Maß /i dominiert werde.
12
§ 2 Statistische Räume und suffiziente Statistiken
Während in obiger Definition die Implikation (I) => (II) auch dann Gültigkeit hat, wenn fi nicht notwendig 0 existiert. Dann ist (IH, W) nicht dominiert. Denn für ein iW dominierendes W-Maß Q (vgl. 2.2.2.2) müßte Q {x} > 0 (xeA0) gelten, was wegen der Überabzählbarkeit von A0 nicht der Fall sein kann. Insbesondere ist also jede Klasse von überabzählbar vielen Einpunktverteilungen im IR" nicht dominiert. (Für die Menge der Einpunktverteilungen in den Punkten der Diagonale des IR" wird sich dies übrigens auch als Spezialfall von 2.2.7 ergeben.) In 2.1 wurden das Produkt bzw. die Potenz von statistischen Räumen sowie der statistische Bildraum eingeführt. Die beiden nächsten Sätze besagen, daß die Dominiertheit bei diesen Operationen erhalten bleibt. In den Beispielen 2.2.3.1 und 2.2.3.2 ist für n e N das dort betrachtete dominierende fr-endliche Maß jeweils die n-te Potenz des entsprechenden 0). Zusätzlich hat man sich zu überlegen, daß im Falle W ,(IH - {0}) = c • [1 - (1 - y)2~\
y
=
(y e (0,1))
kann jedoch ein solches c nicht existieren und daher S in diesem Falle nicht #"-suffizient sein. Sei jetzt 'S 4= • Nach dem zuvor Gezeigten existiert außer S0 = 0 keine Statistik S e 2 ( i r ) c \ M { < S ) mit Ey{S0) = 0 (ye(0,1)). Wäre S iT-sufñzient, so müßte daher 0
x
25
2.3 Suffiziente Statistiken
(i)
J IdMdPy = J E?(IdM)dPy = 0 G
(Ge3;ye(0,1))
G
gelten. Da für G e ^ — jedoch kein c e [R mit 1G IdM = c • WIH existiert, stellt (i) einen Widerspruch zum obigen dar, weswegen S auch in diesem Falle nicht iT-suffizient sein kann. Mit 2.3.4.1 und 2.3.2.2 folgt daher, daß genau dann T^-suffizient ist, wenn S~1 (2>) = J f gilt. Im nächsten Satz werden für permutationsinvariante statistische Räume (vgl. 2.1.9) allgemein zwei suffiziente Statistiken bestimmt, auf die wir später zurückgreifen werden. Vorbereitend führen wir zusätzlich zu 2.1.9 folgende Bezeichnungen ein:
" R 5 ' = { ( i xJt t J=1 j=l
t x J ")|(x 1 ,...,x„)eiR"}, .7=1
••={Beää"\U;HB) = B (i e «/„)} ( = a-Algebra der permutationsinvarianten (symmetrischen, «/„-invarianten) Mengen aus 38"). Die Komponenten jedes Punktes ( x l 5 . . . , x„)e [Rn lassen sich nach aufsteigender Größe ordnen; der dadurch eindeutig bestimmte Punkt aus [R< werde mit (x(1),..., x(nj) bezeichnet. 2.3.6 Definition: Für n e INI bezeichnen wir die Statistik ([R", -»([R", 3$n) mit 0(x1,...,x„)
= (x{U,...,x{n))
6 = (&l,...,
&n):
((*,,..., xJelR")
als die Ordnungsstatistik (auf IR"). Die erste und die letzte Komponente entsprechen dabei dem Minimum bzw. dem Maximum: (9, = min X 1„ 0„= max X¡. läjä» lijSn 1 Die Meßbarkeit von (9 ergibt sich aus der Stetigkeit, die ihrerseits leicht einzusehen ist. 2.3.7 Satz: Sei (IR", 3Sn, "W) ein permutationsinvarianter statistischer Raum und S = (]T X j , £ Xj,..., £ X"). Dann sind die Ordnungsstatistik (9 undS 'W-sujfizient. Dabei gilt & ~1 (J"1) = S~l (ßn) = Pl^ sowie
26
§ 2 Statistische Räume und suffiziente Statistiken
£®(A) = ££(A) = — n!
X -in
h
°
u
,
^-f-ü
[ R | c [ R " definiert. Diese Abbildung U ist (in den auf IRJ bzw. [R< induzierten Topologien) stetig. Denn, ist (sw);eiN eine Folge aus [RJ mit lim
i~* 00
= se IRJ, so ist die Folge ( x ( i ) ) i e N mit x ( i ) = U(s{i))
beschränkt. Damit besitzt (x (l) ) ielN] mindestens einen Häufungspunkt; da andererseits jeder Häufungspunkt dieser Folge offenbar in [R< liegt und Lösung von (i) ist, besitzt (x (,) ) i6ll i wegen der Eindeutigkeit dieser Lösung genau einen Häufungspunkt in IR< U(i(0) — und es gilt lim OO
il) = lim i~* 00x = U(s), d. h., U ist stetig.
Aufgrund der eben bewiesenen Stetigkeit ist U iRJn J f — .^"-meßbar. Mit Hilfe von U °S = & und der bereits bewiesenen Beziehung (0~1 (JT) = ^
er-
gibt sich daraus
= S~1 (U ~1 () (y e Í ) und g e Jt + ( J f ) derart existieren, daß gilt: Py = (y e T) derart existieren, daß gilt: 2.3.9 Satz (von Halmos-Savage):
Py=(Jy°S)Q
(y er).
2.3(9)
Der Beweis ergibt sich unmittelbar aus dem vorhergehenden Satz bzw. dessen Beweis. Die folgenden Beispiele illustrieren die Nützlichkeit der beiden letzten Sätze für den Nachweis der Suffizienz einer Statistik in konkreten Fällen. 2.3.10 Beispiele (Normalverteilung) 2.3.10.1: Sei (IR", áT, tT) der statistische Raum mit i T =
„ i
N(a, a2)\(a,
2
z) e IR x (IR + — {0})).
Somit folgt die W-Suffizienz von S mit dem Faktorisierungssatz 2.3.8. 2.3.10.2: Sei jetzt o2 e IR + - {0} fest und sei (IR",
n
iV) der statistische Raum
mit iV = {g) N(a, a2)\a e IR}. Dann ist die Statistik S ^ X i
n
iT-suffizient. Hier
läßt sich nämlich für a e IR eine ¿"-Dichte fa von Pa = ^ N(a, a2) in der Form i
30
§ 2 Statistische Räume und suffiziente Statistiken
Ja = (Ja °
)g schreiben, w e n n / a : IR —> IR+ u n d g : iR" —iR + gegeben sind durch
J a (>>):=exp j ™
g(x)
- f)}
(y e IR; a e IR),
, exp i - ~2 ( 7 (aylny l
(x = ( x 1 , . . . , x „ ) e R n ) .
J
2.3.10.3: Ist jetzt a e IR fest und (IR", ) die beiden folgenden Aussagen äquivalent: (I)
S ist
W-suffizient;
(II)
S ist paarweise ^-suffizient, d.h., S ist {Py, Py,}-suffizient zweielementige Teilmenge {Py, Py.} von i f .
für jede
B e w e i s : Die Implikation (I) => (II) ist klar, vgl. 2.3.2.6. Zum Nachweis von (II) => (I) sei Q = £ a.jP 1 ein mit iW äquivalentes W-Maß gemäß 2.2.13. Sei jeJ außerdem Py=fyQ (y e T).Wir werden zeigen, daß dann für jedes Be gilt: (i)
£®(1b)c£?(1b)
(yer).
Da EQ( 1b)=|=0 nicht von y abhängt, folgt dann nach 2.3.3 die ^-Suffizienz von S. Aufgrund der Eindeutigkeitsaussagen A 1.2 und A 1.3 für bedingte Erwartungswerte und der Äquivalenz von Q mit W ist der Nachweis von (i) erbracht, wenn für jedes .ß e und jedes y e r die Existenz einer Funktion g B ; J e £ | ( 1 B ) n Ey (1B) gezeigt ist. Seien dazu B e j f und y e r fest. Aufgrund der paarweisen W-Suffizienz von S existieren Funktionen g(£y e JK+ (S~1 (S>)) mit (ii)
g«yG^'(lB)n^.(lB)
(jel).
Seien außerdem hU) e EQ(jy.) (Je J). Da wegen der Gestalt von Q (Hi)
X «jfy, = 1 jeJ
ö-f-ü.
gilt, ist (nach A 1.10, A 1.11 und A 1.2) auch (iv)
X>j,AW=1 jeJ
Q- f-ü.
Wir setzen (V)
I
jeJ
OtjW&iy
33
2.3 Suffiziente Statistiken
Da die Funktionen g $ y ( j e J ) wegen (ii) außerhalb einer /^-Nullmenge übereinstimmen, folgt mit (iv) gB y = g$y (je J) Py- f.ü. und daher (vi)
gB,ye£*(iB).
Mit Hilfe von A 1.21 erhält man wegen Gültigkeit von hUg$yeEsQ(iBfyj)
(1B)
und
h(j} e EsQ(Jy.) die
(jeJ).
Aufgrund der Linearität des bedingten Erwartungswertes folgt daher bei Beachtung von (iii) und (v) (vii)
gBtyeE^(iB).
Nach dem eingangs Gesagten liefern (vi) und (vii) die W-Suffizienz von S.
-1
Haimos und Savage haben für einen nicht-dominierten statistischen Raum ein Beispiel einer paarweise suffizienten, jedoch nicht suffizienten Statistik angegeben, vgl. Halmos-Savage 1949. Zum Abschluß dieses Abschnittes kommen wir zu einer Aussage, die in das Teilgebiet „Charakterisierungsprobleme" in der Mathematischen Statistik einzuordnen ist. In diesem ist man im wesentlichen damit befaßt, spezielle Verteilungstypen, wie etwa die Normalverteilung oder die Gammaverteilung, durch gewisse in der Mathematischen Statistik interessierende Eigenschaften zu kennzeichnen. Neben der eigenständigen, mehr theoretischen Bedeutung diesbezüglicher Aussagen ermöglichen diese verschiedentlich eine Überführung statistischer Problemstellungen in einfachere. Zum anderen erweist sich die Charakterisierung spezieller Verteilungstypen gelegentlich auch durch die negative Einsicht als nützlich, daß andere Verteilungstypen eine bestimmte Eigenschaft nicht aufweisen. Der angesprochene Problemkreis wird nicht (wesentlicher) Inhalt der weiteren Ausführungen sein, der nächste Satz sowie die später folgenden Sätze 3.6.13 und 3.7.17 sind als Beispiele für Charakterisierungsaussagen anzusehen. Dem an diesem Gebiet näher interessierten Leser wird das Buch von Kagan-Linnik-Rao 1973 empfohlen. Bei dem in 2.3.10.2 betrachteten statistischen Raum, wo W eine n-dimensionale Translationsklasse von Normalverteilungen ist, hat sich die Statistik X als suffizient erwiesen. Der nächste Satz besagt, daß sich die Normalverteilung innerhalb der Translationsräume, abgesehen von dem im folgenden Beispiel be-
34
§ 2 Statistische Räume und suffiziente Statistiken
handelten Raum mit Einpunktverteilungen, durch diese Eigenschaft charakterisieren läßt. Dieses Resultat wurde ursprünglich von A. M. Kagan 1968 (vgl. auch Kagan-Linnik-Rao 1973) für vom Lebesgue-Maß dominierte und damit nach 2.2.7 für beliebige dominierte Translationsräume erzielt. Bartfai 1980 ist es gelungen, den Satz von der Voraussetzung der Dominiertheit zu befreien, vgl. auch Eberl 1982. 2.3.14 Beispiel: Sei (IR", i f ) der n-dimensionale Translationsraum zu einer Einpunktverteilung P. Dann ist S = X 'W-suffizient. Dies zeigen wir durch den Nachweis von 2.3(6), wobei wir o.B.d.A. P = ö0, d.h. /"{0} = 1, annehmen. x
2
Sei B e @ n fest. Ist A : IR —• IR" die ® - ^"-meßbare Abbildung mit h(y) = = (y, ..., y) ( j e l R ) , so gilt (h o S)~1 (B) = S~1 (h~1 (B)) e S~1 somit ist £ J t { S ~ l O f f e n b a r gilt (i)
j
l
B
d P ,
=
1
B
( ?
y)
• l
5
- i ( D ) ( y , - . y )
( D e ä S - y e R )
S - ' ( D )
sowie ( " )
| S -
l(AoS)-(Ä)
d
P
y =
l ( A " S ) " ' ( B ) ( y , y )
" 1
S
- ' ( 1 »
• • • ' 7 )
HD) (Dem-,ye
IR).
Da ( y , . . . , y)e B genau dann gilt, wenn (y, y)e (h r, S)~' (B) ist, erhält man die Gleichheit der rechten und damit auch der linken Seiten von (i) und (ii). Somit folgt l (AoS) --i (Ä) 6 ££-(l B ), womit die #'-Suffizienz von S = X nachgewiesen ist.
35
2.3 Suffiziente Statistiken
2.3.15 Satz: Sei ([Rn, i f ) mit n^.2 der n-dimensionale Translationsraum zu einem W-Maß P (auf 3$). Dann sind die folgenden Aussagen äquivalent: (I)
P ist eine Normalverteilung oder Einpunktverteilung;
(II)
S=X
ist ~W-suffizient.
B e w e i s : Die Implikation (I) => (II) folgt aus 2.3.10.2 und 2.3.14. Für den umgekehrten Schluß zeigen wir die Gültigkeit von (i)
P0{S(IM°), {B(n,p)\pe T}) mit n e N sowie Dies 0 4= r c (0,1) ist ein Raum mit strikt isotonen Dichtequotienten in n
ergibt sich wegen
ß(l,/>)) s =B{n,p)
i
und 2.4.7.2.
mit S = £ Xj aufgrund von 2.4.5.1
2.4.8.2: In 2.4.5.2 hat sich der n-dimensionale Translationsraum ([R", äS", iV) zu N(0, a 2 ) mit a 2 > 0 als ein Raum mit strikt isotonen Dichtequotienten in n
N(a, =Ey(T) = | T• exp{C(y)5'— C0(y)}dv
(yet)
eine (stetig) differenzierbare Funktion ßT : f —> [R gegeben. Es gilt ST e «271 (/4r) und ß'Ayo) = ^
Eyo(T) = C'(y0)Kovyo(S,
T)
(y0 e f ) .
2.5(5)
2.5.7.3: Es ist Sk e 0 o } dargestellt werden. 2.5.11 Beispiele 2.5.11.1: Sei (IH, j f , iT) ein Bernoulli-Raum mit f = (0, 1). Wegen
54
§ 2 Statistische Räume und suffiziente Statistiken
fp(x) = plxJ( 1 -p)'-**J
= exp
• S(jc) + « I n f i - p ) ( x e { 0 , l }";/>£((), 1))
ist (IH, j f , IV) ein Exponentialraum in C und S = £ Xj mit C(p) = In
—
(/>e(0,1)). Der Bildraum (IM°, Ws) mit 1TS = {B(n, p)\pe(0, 1)} unter S ist ein Exponentialraum in Cund IdH° (vgl. 2.5.6). Ein Bernoulli-Raum mit r = [0, 1] ist kein Exponentialraum; denn die WMaße aus iV sind dann nicht paarweise äquivalent (vgl. 2.5.3.5). Der Leser mag sich selbst überlegen, daß ein solcher Bernoulli-Raum isotone, jedoch nicht strikt isotone Dichtequotienten in S = £ Xj aufweist. 2.5.11.2: Sei (IRn, 3än, W) der w-dimensionale Translationsraum zu JV(0, a2) mit er2 e IR+ - {0}. Da sich für ae [R eine ¿"-Dichte fa von Pa in der Form
darstellen läßt, ist (IR",
W) ein Exponentialraum in C = n IdR/a2 und S = X.
Der Bildraum (IR, SS, IVmit IV Y = {N(a, a2/n)\ae Exponentialraum in C und IdK dar.
IR} stellt nach 2.5.6 einen
2.5.11.3: Sei (IR", SS", i f ) der w-dimensionale Skalenraum zu N(a, 1) mit a e IR. IstSwie in 2.4.5.3 gegeben, d.h. ist 5 = £ (Xj - d)2, so läßt sich für a2 e IR+ - {0} eine ¿"-Dichte fa2 von Pa2 in der Form
(i)
55
2.5 Statistische Exponentialräume
darstellen. Somit ist (IR", ätn, W) ein Exponentialraum in C und S mit C(o2) = -(2(t2)"1 (, T r ) = ( N ° ,
{B(n,p)\pe(0,
F u n k t i o n e n ^ m i t ^ ( p ) =np jedem W-Maß
1)}) beispielsweise ordnen die
(pe(0, l ) ) b z w . ^ 2 m i t ^ 2 ( p ) = np{l—p)
(/>e(0,1))
B(n, p) aus W seinen Erwartungswert bzw. seine Varianz zu.
Zur Schätzung des Erwartungswertes bzw. der Varianz werden dann nach dem eben Gesagten als Schätzfunktionen Statistiken
also be-
liebige reellwertige Funktionen, zugelassen. Freilich hat man es in der Schätztheorie auch vielfach mit Problemen zu tun, die die eben erläuterte formale Beschreibung mit Hilfe einer Funktion^ : f — • IRm nicht gestatten. (Etwa dann, wenn es um das Schätzen von Dichten geht.) Solche Probleme fallen in das Gebiet der nichtparametrischen
Schätztheorie.
W i r be-
schränken uns hier auf Probleme der parametrischen Statistik, d. h. auf solche, bei denen die oben gegebene formale Beschreibung (mit Hilfe einer Funktion £:r
[Rm) möglich ist.
Als Grundlage für die Entwicklung von Gütevorstellungen und die Bestimmung „guter" Schätzfunktionen benötigt man eine Bewertung bzw. Gewichtung von Fehlschätzungen. Ist nämlich y der wahre Parameterwert und wird eine Statistik TeJÍ{#?,
á?m) zur Schätzung von £(y) herangezogen, so ist die
Wahrscheinlichkeit P¿ {x e IH | T (x) 4= £ (y)} positiv, wenn nicht T = £(y) P, - f.ü. gilt. D a jedoch £ (y) nicht bekannt ist - diese Größe soll ja gerade geschätzt werden - , schließt sich eine solche Wahl von T von vornherein aus (von pathologischen und vom schätztheoretischen Standpunkt her uninteressanten Sonderfallen abgesehen). Das bedeutet, daß i.a. mit positiver Wahrscheinlichkeit Fehlschätzungen in Kauf zu nehmen sind. Eine Fehlschätzung kann in der Praxis die vielfaltigsten Konsequenzen nach sich ziehen. Ist z. B. m = 1 und wird x e IH beobachtet, so kann eine Fehlschätzung in dem finanziellen Verlust von |£(y) — r ( x ) | Einheiten einer bestimmten Währung resultieren. Für jeden hypothetisch als wahr angenommenen Parameterwert y e r und jeden (Schätz-) Wert z e [R (der sich aufgrund einer Realisation x e IH bei Verwendung einer bestimmten Schätzfunktion T ergibt) läßt sich dann der (finanzielle) Verlust
58
§ 3 Schätzen von Parametern
durch die (nichtnegative) reelle Zahl u(y, z) ••= | £ (y) - z \ wiedergeben. Dadurch wird eine Funktion v: r x [R —• [R + definiert, deren Funktionswerte die beschriebene Bedeutung haben. Die eben gemachten Annahmen und die damit verbundene Darstellung des Verlustes durch eine lineare Funktion der Differenz zwischen zu schätzendem Wert und Schätzwert sind jedoch reichlich speziell. Beispielsweise ist dabei nicht einmal ein Verlust berücksichtigt, der sich evtl. schon allein aus der Notwendigkeit einer statistischen Prüfung (Stichprobenerhebungskosten) ergibt - unabhängig davon, wie „gut" der resultierende Schätzwert ist. Stellt man allgemein für £ : r —• IRm den Verlust durch eine Funktion v: r x Rm IR + dar, so tritt neben dem Problem der Wahl einer adäquaten Funktion zur Darstellung des Verlustes noch eine grundsätzliche Frage auf: Ist es überhaupt möglich, den „Verlust", der aus einer Fehlschätzung resultiert, in Form einer reellen Zahl (oder auch allgemeiner durch ein /c-Tupel reeller Zahlen) anzugeben? Vielfach wird tatsächlich eine Bewertung von Fehlschätzungen zumindest mit einfließen, welche die Angabe des Verlustes in der beschriebenen Form unmöglich macht. Diese Problematik klammern wir aus und postulieren, daß der Verlust mit Hilfe einer Funktion v. r x Rm —> IR+ angegeben werden kann. Bei den im folgenden behandelten Schätzproblemen tritt dann die Funktion v als weiteres bestimmendes Objekt an die Seite des zugrundegelegten statistischen Raumes (IH, j f , W ) und der zuvor eingeführten Funktion g. Insgesamt sind wir damit zu folgenden Definitionen geführt. 3.1.1 Definition: Seien (IH, J f , ~W) ein statistischer Raum und £ = r iRm.
£m):
3.1.1.1: Jede Abbildung u i i x T - t IR+ derart, daß die Abbildungen [Rm —• IR+ (y e r ) meßbar sind, heißt eine Verlustfunktion (zu £).
v(y,.):
3.1.1.2: Ist v eine Verlustjünktion (zu so heißt das Quintupel (IH, ein (m-dimensionales) Schätzexperiment. 3.1.1.3: Jede Statistik T = ( 7 \ , ..., TJe (bzw. zu (IH, j f , r)).
if,
v)
Jt (JV, Mm) heißt ein Schätzer für f
Die Begriffe des Produktes statistischer Räume, der Potenz eines statistischen Raumes sowie der Dominiertheit eines solchen Raumes (vgl. 2.1.2 und 2.2.1) werden sinngemäß für Schätzexperimente übernommen. So heißt z.B. ein Schätzexperiment (IH, J f , W, v) dominiert, falls der statistische Raum (IH, J f , W) dominiert ist. Die Bedeutung der in obiger Definition auftretenden Objekte ist nach dem zuvor Gesagten klar. Obwohl der Begriff der Verlust-
59
3.1 Schätzexperimente
funktion zu £ lediglich vom Parameterraum F und der Dimension m des Bildraumes von ¿ - und nicht von (IH, j f , W) sowie von £ selbst - abhängt, wurden (IH, J f , iV) und g bei der Definition mit zugrundegelegt. Entsprechendes gilt für den Begriff des Schätzers, der definitorisch lediglich von (IH, j f ) und der Dimension m abhängt. Besondere Bedeutung kommt Verlustfunktionen zu, die sich bei festgehaltenem y als (strikt) konvex erweisen. Diese Konvexitätsforderung ist zwar recht restriktiv, sie ermöglicht jedoch einerseits eine mathematisch abgerundete Theorie und ist andererseits für die meisten Anwendungen doch allgemein genug. Die größtenteils verwendeten Verlustfunktionen, wo der Verlust durch eine Potenz des Euklidischen Abstandes zwischen Schätzwert und zu schätzendem Wert gegeben ist, bilden die wichtigste Klasse von Verlustfunktionen, die die genannte Konvexitätsforderung erfüllen. 3.1.2 Definition: Ein Schätzexperiment (IH, j f , W, v) und die zugrundeliegende Verlustfunktion v : r x IRm —> |R+ heißen (strikt) konvex, falls für jedes y e T die Funktion t>(y,.): IRm —» IR + nicht-konstant und (strikt) konvex ist. Existieren g die partiellen Ableitungen v(y,.) (ie IM m)für jedes y e r, so heißt die VerlustÖZJ'unktion v differenzierbar. ' 3.1.3 Beispiel: Sei (IH, j f , W) ein statistischer Raum und £ : r —• IRm. Für k e (R mit k ^ 1 sei vk: r x IRm ->• IR+ durch vk(y,z):=vkt((y,z):=\\z-!;(y)\\k
{(y, z ) e T x r » )
3.1(1)
erklärt, wobei \\z — E,{y)\\ die Euklidische Norm im IRm sei. Dann ist jede Verlustfunktion i;: r x [Rm —• IR+ mit v(y,z) = b(y)vk(y,z)
((y, z ) g T x IRm),
3.1(2)
wo k e IR mit fc ^ 1 und b : r —* IR+ - {0} ist, konvex. Im Falle k = 1, wo wir von linearen Verlustfunktionen (oder auch Laplaceschen Verlustjunktionen) sprechen, handelt es sich dabei um nicht strikt konvexe, für k > 1 um strikt konvexe Verlustfunktionen. Die häufigste Verwendung finden die quadratischen Verlustfunktionen, das sind jene durch 3.1(1) bzw. 3.1(2) mit k = 2 gegebenen. Mit Blick auf die häufige Zugrundelegung der quadratischen Verlustfunktion v2 führen wir folgende „Kurzschreibweise" ein.
60
§ 3 Schätzen von Parametern
3.1.4 Festsetzung: Ist (IH, J f , W, v) ein m-dimensionales Schätzexperiment mit v = v2,so schreiben wir (IH, J f , W, £) anstelle von (IH, j f , W, v2). Inhalt der weiteren Abschnitte dieses Paragraphen werden Optimalitätskonzepte für Schätzer und Methoden zur Bestimmung von optimalen Schätzern sein.
3.2 Optimalitätskonzepte für Schätzer In der Schätztheorie ist man damit befaßt, für ein gegebenes Schätzexperiment (IH, j f , W, v) unter den möglichen Schätzern für £ die „besten" herauszusuchen. Dieser Abschnitt ist der Einführung verschiedener Optimalitätskonzepte für Schätzer gewidmet. Gehen wir zunächst von einem statistischen R a u m (IH, j f , W) und einer Funktion £ : r —> IR aus, so entspräche es - ohne Vorgabe einer speziellen Verlustfunktion - sicher der Idealvorstellung, wenn man einen Schätzer T für £ derart hätte, d a ß jeder andere Schätzer T für £ die Ungleichungen Py{\T-Z(y)\ IR. Seien weiter T, Te MW) mit
Py{\T-i(y)\ 0 und yef
Ey[\T-¿Ky)!*]
(yer).
3.2(3)
beliebig und fest. Sind F bzw. / ' d i e Verteilungs-
61
3.2 Optimalitätskonzepte für Schätzer
funktionell der Verteilungen von \T — , 71)]: Ey
7")] =
min Ey [uk(y, T]\
(y 6 f ; ^ l ) .
Dabei ist Ey[yk(y, T)] = j \T-f(y)| kdPy jeweils der mittlere (erwartete) Verlust unter der Verlustfunktion vk, falls Py zugrundeliegt und der Schätzer T verwendet wird. T weist also unter allen Schätzern den gleichmäßig (d. h. für alle y e T) kleinsten mittleren Verlust auf. Für festes y e r erreicht man durch die Wahl des konstanten Schätzers T = £ (y), daß der mittlere Verlust (für alle k ^ 1) lokal, d. h. für dieses eine y, verschwindet. Da für y e f und k 2; 1 außerdem Ey[vk(y, T)] = 0 genau dann gilt, wenn T=£(y) P- f.ü. ist, müßte ein im Sinne von 3.2(1) optimaler Schätzer f T=t;{y)
Py-iü.
(yer)
3.2(4)
erfüllen. Die Bedingung 3.2(4) ist (für alle y e T simultan) jedoch nur in Sonderfällen erfüllbar; das folgende Beispiel stellt einen solchen (typischen) Sonderfall dar. 3.2.2 Beispiel: Sei (IH, j f , W) ein statistischer Raum, wobei if = {Pj\je N} eine Menge paarweise orthogonaler W-Maße ist, d.h., es existieren paarweise disjunkte Mengen A}e mit P/Aß = 1 (je N). Sei weiter £ : N —> [R. Dann erfüllt der Schätzer T=
t
wnAj
7=1 offenbar 3.2(4) und ist optimal im Sinne von 3.2(1). CO
1) Ist (ß, st, P) ein W-Raum und XeJ(+
(.s/), so gilt bekanntlich E(X) = j (1 - ,F x )fiü,wenn
Fx die Verteilungsfunktion von X (unter P) ist.
°
§ 3 Schätzen von Parametern
62
Existieren im Gegensatz zum letzten Beispiel y^, y 2 e i mit ^ ( y j 4= £(y 2 ) sowie Aejf
mit Py. (A) > 0 ( j = 1, 2), so ist die Existenz eines Schätzers T mit
3.2(4) bereits nicht mehr möglich. Bevor wir nun auf gegenüber der obigen Optimalitätsvorstellung abgeschwächte Optimalitätskonzepte eingehen, führen wir den Begriff des Risikos ein, dem dabei eine fundamentale Rolle zukommt. 3 . 2 . 3 Definition: Sei (IH, J f , W, v) ein Schätzexperiment. ein Schätzer für so heißt die durch Q(y,T):=Ey[_v(y,T)]
Ist Te
(yeT)
definierte Abbildung Q(.,T): T —> (R+ das Risiko oder die Risikofunktion von T (bez. (IH, W, u)). Zwei Schätzer mit derselben Risikofunktion heißen äquivalent (bez. (IH, tf, W , & v)). Die große Bedeutung der quadratischen Verlustfunktion v 2 insbesondere für eindimensionale Schätzexperimente beruht zu einem wesentlichen Teil darauf, daß das Risiko eines Schätzers T bez. dieser Verlustfunktion gegeben ist durch e(V,r)
= ^[(r-^(};))2]
(yeT);
d. h., das Risiko von Tist für y e f jeweils die Streuung von T u m den zu schätzenden Funktionswert - unter der Verteilung Py. Die gleichmäßige Minimierung des Risikos bedeutet dann, daß sich für jedes y e r die Funktionswerte des betreffenden Schätzers möglichst eng um den unbekannten, zu schätzenden Funktionswert £ (y) zusammenballen. Bei Zugrundeliegen einer (beliebigen) Verlustfunktion v : r x IRm —• IR+ kann die Nicht-Existenz eines Schätzers, der das Risiko gleichmäßig (d.h. für alle y e T ) minimiert, folgendermaßen beschrieben werden: Durch den Begriff des Risikos eines Schätzers T läßt sich auf der Menge aller Schätzer in naheliegender Weise eine Relation einführen; sind T, T Schätzer, so heißt T (gleichmäßig) besser als T, falls die Risikofunktion von T gleichmäßig nicht größer ist als diejenige von T: T^T
o
Q(y,T)^Q(y,T)
(yeT).
3.2(5)
Auf diese Weise erhält man eine Halbordnung über der Menge aller Schätzer, die i.a. jedoch keine Ordnung ist und bez. welcher i.a. auch kein Minimum existiert. Ein solches wäre gerade ein Schätzer, der das Risiko gleichmäßig
63
3.2 Optimalitätskonzepte für Schätzer
minimiert. In diesem Fall bieten sich zwei Auswege an. Der erste besteht darin, sich bei der gleichmäßigen Minimierung der Risikofunktion auf eine geeignete Klasse von Schätzern zurückzuziehen. Die Entwicklung anderer Optimalitätskonzepte, wo man dann nicht die gleichmäßige Minimierung der Risikofunktion anstrebt und evtl. zusätzlich die Auswahl an Schätzern einschränkt, ist ein zweiter Ausweg. Im Sinne des ersten eben genannten Ausweges geben wir folgende 3.2.4Defmition:SW(H,jf, W, v) ein Schätzexperiment und sei 0 + ST cz J{ (,J>f, 28m). Dann heißt Te 2T ein .r-Minimalschätzer (für £) (bzw. zu IH, J f , tT, v), falls gilt: Q{y,T)SQ{y,T)
{y er-, T s f ) .
Die Abschnitte 3.4 bis 3.8 sind dem Studium von ^"-Minimalschätzern gewidmet, wenn als Menge 2T der zur Konkurrenz zugelassenen Schätzer im wesentlichen die Menge der Schätzer T mit Ey(T) = ¿j(y) (y e T) (erwartungstreue Schätzer) zugrundegelegt wird. Was den zweiten oben angesprochenen Ausweg betrifft, bietet sich zunächst als eine - freilich recht bescheidene - Gütevorstellung für einen Schätzer die Forderung an,daß kein im Sinne von 3.2(5) (echt) besserer existiert. 3.2.5 Definition: Sei (IH, j f , •W, v) ein Schätzexperiment und sei 0 + -T c Dann heißt ein Schätzer Te 9~ (für £,) -zulässig (bez. (IH, j f , W, v)),falls für jeden Schätzer Te.T gilt: Q(y,T)^Q(y,T) Im Falle
(yeT)
=>
Q{y,T) = Q(y, T)
(yeT).
= Ji(.#?, ?JSm) nennt man T zulässig (ohne das Präfix
„M(,?f,
Ein -Minimalschätzcr ist offenbar ^"-zulässig. Ist ein Schätzer T «^"-zulässig und existiert ein -Minimalschätzer, so ist T ein ^"-Minimalschätzer. Aus der Existenz eines ^"-zulässigen Schätzers folgt jedoch nicht die Existenz eines ^"-Minimalschätzers. Die 3T-Zulässigkeit eines Schätzers T bedeutet lediglich, daß kein gleichmäßig nicht schlechterer Schätzer in ST existiert, dessen Risiko auch nur in einem yeT echt kleiner als jenes von T ist. Dagegen können durchaus Schätzer in 2T existieren, deren Risikofunktion jeweils in einem oder auch mehreren Punkten kleiner ist als jene von T, wenn sie zumindest in einem Punkt größer ist als die Risikofunktion von T. Mit aufgrund
64
§ 3 Schätzen von Parametern
dieser Tatsache ist die Zulässigkeit eines Schätzers als Optimalitätskonzept für sich allein weniger bedeutungsvoll. Sie stellt jedoch eine naheliegende Minimalforderung für einen „guten" Schätzer dar und spielt einerseits beweistechnisch und andererseits als zusätzliche wünschenswerte Eigenschaft guter Schätzer eine nicht unerhebliche Rolle. Dies gilt insbesondere im Zusammenhang mit Schätzern, die das größtmögliche Risiko minimieren, den MinimaxSchätzern. 3.2.6 Definition: Sei (IH, J f , W, v) ein Schätzexperiment und sei 0 + -T 1 ist (also z.B. eine quadratische).
3.4 Erwartungstreue Schätzer Im vorigen Abschnitt haben wir erläutert, daß es sich beim Aufbau einer Theorie für Schätzer mit möglichst (gleichmäßig) kleinem Risiko als notwendig erweist, sich auf die Minimierung des Risikos innerhalb einer bestimmten Klasse von Schätzern zu beschränken. Dieser Abschnitt dient der Einführung einer solchen Klasse. Hält man sich die Bedeutung der Erwartungswertbildung als eine Mittelwertbildung vor Augen, so erscheint es durchaus plausibel, von einem guten Schätzer zu verlangen, daß sein Erwartungswert unter jedem jeweils hypothetisch als wahr angenommenen W-Maß Py mit y e r gerade der zu schätzende Funktionswert £(y) ist. Solche Schätzer werden wir erwartungstreu nennen und bei der Herleitung von Bedingungen für Minimalschätzer zugrundelegen. Dabei ist jedoch zu beachten, daß die Forderung der Erwartungstreue zwar plausibel, aber durchaus nicht selbstverständlich ist. So werden wir an Beispielen sehen, daß i.a. kein erwartungstreuer Schätzer zu existieren braucht. An Beispielen erkennt man auch, daß im Falle der Existenz eines erwartungstreuen Schätzers nicht-erwartungstreue Schätzer existieren können, deren
70
§ 3 Schätzen von Parametern
Risiko (gleichmäßig) kleiner ist als das Risiko jedes erwartungstreuen Schätzers. Neben ihrer Plausibilität erweist sich die Forderung der Erwartungstreue für eine Theorie (von Minimalschätzern) als geeignet, mit deren Hilfe sich Minimalschätzer in konkreten Situationen bestimmen lassen. 3.4.1 Definition: Sei (IH, J f ,
v) ein
Schätzexperiment.
3.4.1.1: Ein Schätzer T für £ heißt erwartungstreu (unverzerrt, biasfrei), falls Ey(T) = l(y)
(yeT)
gilt. (Dabei ist der Erwartungswert eines mehrdimensionalen Schätzers als der Vektor der Erwartungswerte der einzelnen Komponenten definiert.) Die Menge aller erwartungstreuen Schätzer für (a, b) + 0 folgt aus (ii) mit dem Identitätssatz für Polynome le tM„. Setzt m a n 0 — {p/( 1 — p)\p e r}, so geht (ii) über in (iii)
X
0J' = 0 ' ( 1 + 0)""'
(9e&).
Da dabei 0=3 (a/( 1 — a), b/( 1 — b)) =t=0 ist, liefert (iii) durch Koeffizientenvergleich, daß T der durch (i) gegebene Schätzer Tsein muß. Durch Einsetzen
73
3.5 Erwartungstreue Minimalschätzer
von Tm(j) für T(j) (je in (ii) überzeugt man sich schließlich davon, daß m T auch tatsächlich ein erwartungstreuer Schätzer für ist. Da für / e (Kln genau ein erwartungstreuer Schätzer für existiert, ist dieser ein ^(¿j'j-Minimalschätzer - unabhängig von der speziell zugrundegelegten Verlustfunktion. In den für die Schätzung der ersten beiden Momente von B(n,p) interessanten Fällen 1=1 bzw. 1 = 2 erhält man aus (i) (iv)
T^ = - I d n
K
T{2)=
,
1
n(n — 1)
Id^ (IdM)2] = i [_(2p)2(l-p) = Q(p,Idi
0>1) )
= i Ep[iid{0tl,
- 2p)2] =
+ (1 - 2p)2p-] = £ ) W-suffizient. 3.5.3.1: Ist Te
so ist auch E^(T)
1) Vgl. die Fußnote zu 3.3.1.1.
u
e .rvE(£) und es gilt
3.5 Erwartungstreue Minimalschätzer
Q{y,EUT))^Q{y,T)
75
(yeT).
3.5(2)
Ist v strikt konvex, so tritt in 3 . 5 ( 2 ) genau dann für alle yeT die Gleich heit ein, wenn gilt: 3.5.3.2:
T=E^(T)
W-i.ü.
3.5(3)
Auf diesem Satz beruht ein Großteil der Bedeutung der suffizienten Statistiken für die Theorie bzw. die Bestimmung von Minimalschätzern. Wie das folgende Korollar zeigt, kann man sich bei der Suche von Minimalschätzern im wesentlichen auf solche von der Form g ° S beschränken, wenn S suffizient ist. 3.5.4 Korollar: Sei (IH, J^f, iV, SeJ?{jT, 2) TT-suffizient. 3.5.4.1: Ist .Tu g£jt(3),0&m).
(£) * 0,
r)
ein konvexes Schätzexperiment und sei
so existiert teST^ (£) von der Form T = g° S mit
Ist v strikt konvex und Te .^T^ (£_), so existiert ge Ji(@), 1 einen entsprechenden Satz in Schmetterer 1957 sowie einen Satz von Linnik und Ruhin 1971 für eine bestimmte Klasse (zweimal differenzierbarer) konvexer Verlustfunktionen. Schließlich seien noch die Arbeiten von Kozek, u.a. 1977 und 1980, erwähnt, in denen erwartungstreue Schätzer in allgemeinerem Rahmen behandelt werden. Aus dem angekündigten Satz wird sich im nächsten Abschnitt der Satz von Lehmann-Scheffö (3.6.5) für beliebige konvexe Verlustfunktionen als unmittelbare Folgerung ergeben. Wir formulieren und beweisen zunächst ein (technisches) Lemma, welches dazu dient, den Begriff der Richtungsableitung im Rahmen eines Schätzexperiments zu etablieren.
3.5 Erwartungstreue Minimalschätzer
77
3.5.6 Lemma: Sei (IH, j f , W, u) ein konvexes Schätzexperiment und seien v Te :T e(£) sowie T0 e (f) mit T+T0e (£). Für yeT ist dann durch Dv(y,T;T0)(x):=lim-[v(y,T(x) uo
+ sT0(x))-v{y,T(x))]
g
eine 7V Dv(y, T\ T0) e
(x e IH)
3.5(4)
(Py) gegeben.
(Dv{y, T; T0): „Richtungsableitung von v (y,.) in T bez. T0U.) Beweis: Sei y e r fest und sei u : [R x IH —• [R+ gegeben durch (i)
u{c, x):=v(y,T(x)
+ cT0(x))
((c, x)e IR x IH).
Wegen der Konvexität von v ist für jedes xe IH die Funktion «(. ,x): IR —• IR + konvex. Damit besitzt u für jedes x e IH insbesondere in c = 0 eine endliche rechtsseitige Ableitung; wegen (i) folgt daraus die Existenz und Endlichkeit des in 3.5(4) stehenden Grenzwertes. Die dadurch gegebene Abbildung Dv{y, T; T0): IH —» IR liegt offenbar in Jf ( j f ) . Aus der Konvexität von v erhält man ferner
(Ü)
- [v(y,T+ eT0) - v(y, T)] = i [v(y, s(T+T0) 8 8
+ (1 - e ) r ) -
- v(y, T)] ^ v(y,T+ T0) - v(y, T)
woraus wegen T, T+ T0 e folgt.
(e e (0, 1]),
die ^-Quasi-Integrabilität von Dv(y, T\ T0) J
Nun sind wir in der Lage, die angekündigte notwendige und hinreichende Bedingung für Minimalschätzer zu formulieren. Mit Blick auf spätere Anwendungen des Satzes und bei Berücksichtigung von 3.5.4 legen wir dabei gleich eine suffiziente Statistik S zugrunde. 3.5.7 Satz: Sei (IH, J f , W, v) ein konvexes Schätzexperiment und sei SeJi ( J f , 3>) Wsujfizient. Dann sindfür einen Schätzer T = g ° Se 3~°(£)mitge Jt{3>,@m) die beiden folgenden Aussagen äquivalent: (I)
Te
(II)
ist T0 = g0 o S e .T0 so gilt Ey[_Dv(y,f;T0)-]^
mit g^eJl 0
(yeT).
(%
und mit f + T0e
(£), 3.5(5)
78
§ 3 Schätzen von Parametern
B e w e i s : (I) => (II): Sei T0 = g 0 « SeP,a ist dann durch (i)
y(y, c) == e{y, T+cT0)
(£) mit T + T 0 e ^ { 0 - Nach 3.4.2.3
((7, c) e r x [0, 1])
eine Abbildung y : r x [0,1] —• IR+ gegeben. Aus 3.5.6 und (ii) des Beweises von 3.5.6 folgt wegen der Monotonie der dort auftretenden Differenzenquotienten mit dem Satz von der monotonen Konvergenz, daß y für jedes ye T in c = 0 eine (evtl. unendliche) rechtsseitige partielle Ableitung yR(y, 0) nach c besitzt und (ii)
yR(y,0) = Ey[Dv(y, f ; T 0 )]
(yeT)
gilt. Wegen Te (£) besitzt für jedes y e T die durch (i) auf [0, 1] erklärte und wegen der Konvexität von v konvexe Funktion y(y,.) in c = 0 ein Minimum. Somit müssen die rechtsseitigen Ableitungen (yeT) nichtnegativ sein, was wegen (ii) die Gültigkeit von 3.5(5) bedeutet. (II) => (I):Istg e M(®,^m)mitT:=goSe3TvE so folgt aus (ii) des Beweises von 3.5.6
(£)undistr 0 .= T - T = (g - g) ° S,
v{y, T) - v{y, T) = v(y, T + T 0 ) - v{y, T) ^ Dv(y, T; T0)
(y e T) ;
da T0 die Voraussetzungen von (II) erfüllt, gilt daher wegen 3.5(5) q(>', T) ^ ß{y, T) (yeT). Da T = g-S e .rEv(0 beliebig war, folgt somit nach 3.5.4.3 f e ^ t f ) , also(I). J Die Bedingung (II) im obigen Satz leuchtet unmittelbar ein und läßt sich folgendermaßen beschreiben: Ist so kann die Menge (£) der bei der Minimierung zur Konkurrenz zugelassenen Schätzer in der Form (£) = {T+T0\T0e : T+ T0e dargestellt werden. Somit besagt die Bedingung (II) von 3.5.7, daß für alle y e T die mittleren Richtungsableitungen von v (>•,.) in T bez. aller im eben angegebenen Sinn zugelassenen Richtungen T0 nichtnegativ sind. 3.5.8 Bemerkungen 3.5.8.1: Da die Identität auf IH nach 2.3.4.2 stets H -suffizient ist, gilt 3.5.7 insbesondere für 5"= IdIH. Das heißt, ein (beliebiger) Schätzer Te .TE(£,) ist m genau dann Minimalschätzer, falls 3.5(5) für alle T0 e it f+T0e gilt. 3.5.8.2: Gilt in obigem Satz für ein g0sJt(3i,
3Sm) mit T0 = g0 °
Se^0({)
79
3.5 Erwartungstreue Minimalschätzer
sowohl f+T0e.T£ (£) als auch f + cT0e,T£ (£) für ein c > 0, so gilt wegen Dv(y, t\ cT0) = c • Dv (y, T; T0) (y e F) 3.5(5) entweder sowohl für T0 als auch für cT0 oder weder für T0 noch für cT0. 3.5.8.3: Ist T0 ein „trivialer" Nullschätzer, d.h., ist T0 = 0 W — f.ü., so gilt f+T0=T t T - f.ü. und daher T+ T0 e ^ / ( f ) ; da dann offenbar Dv(y, T; T0) = 0 i r - f.ü. (>• € r ) und damit Ey [Dv(y, T; r 0 ) ] = 0 (ye r) gilt, ist für einen solchen Nullschätzer 3.5(5) stets (sogar mit Gleichheit) erfüllt. U m in konkreten Fällen die Optimalität eines Schätzers durch die Verifikation von Bedingung (II) aus obigem Satz nachzuweisen, kann man sich also auf „nichttriviale" Nullschätzer beschränken. Wegen der besonderen Bedeutung der Verlustfunktionen vk geben wir diesbezügliche Spezialisierungen von 3.5.7 in einem Korollar wieder, wobei 3.5.8 sinngemäß auch hier gilt. Der in 3.5.9.2 angesprochene Spezialfall geht auf Schmetterer 1957 zurück, 3.5.9.3 auf Rao 1952 bzw. Lehmann-Scheffe 1950. 3.5.9 Korollar: Sei (IH, J f , W, SeJi{J?, S>) W-suffizient. 3.5.9.1: Für T=g sagen äquivalent: (I) (II)
° Se
vk) mit k> 1 ein Schätzexperiment
mit g e Jt ( ß
und sei
sind die beiden folgenden
Aus-
Ter'»®; für alle T0=g0°Se3~k0
Mm) gilt
(£) mit g0 e = 0
(Dabei bezeichnet