207 115 60MB
German Pages 258 [260] Year 2022
W. HARTMANN Geometrische Modelle zur Analyse empirischer Daten
Geometrische Modelle zur Analyse empirischer Daten von Dr. rer. nat. WOLFGANG HARTMANN Institut für Soziologie der Akademie der Wissenschaften der DDR
Mit 17 Abbildungen
AKADEMIE-VERLAG • BERLIN 1979
Erschienen im Akademie-Verlag, DDR — 108 Berlin, Leipziger Str. 3—4 Lektor: Dr. Bernhard Höppner © Akademie-Verlag Berlin 1979 Lizenznummer: 202 • 100/412/79 Cesamtherstellung: IV/2/14 VEB Druckerei »Gottfried Wilhelm Leibniz«, 445 Gräfenhainichen • 5240 Umschlag: Rolf Kunze Bestellnummer: 762 625 4 (6511) • LSV 1064 Printed in GDR DDR 3 8 , - M
Pictorial form is the possibility that things are related to one another in the same way as the elements of the picture. LUDWIG
WITTGENSTEIN
Vorwort
Der Erforschung von Inhalt und Bedeutung latent Vorhandener Wahrnehmungs-, Beurteilungs-, Einstellungs- und Verhaltensdimensionen, die die Reaktion ausgewählter Individuen oder Individuengruppen bei bestimmten soziologischen, psychologischen und anderen Stimuli, Objekten und Merkmalen wesentlich beeinflussen, wird in letzter Zeit immer stärkere Aufmerksamkeit in allen empirisch forschenden Wissenschaften gewidmet. In diesem Buch wird eine Auswahl solcher Modelle vorgestellt, die von einer umfangreichen Menge lediglieh ordinal skalierter Reaktionen von Individuen über Präferenz, Dominanz, Ähnlichkeit oder Ausmaß bestimmter Stimuli ausgehend Konfigurationen von Punkten und Vektoren in metrischen Räumen ermitteln. Dabei wird angestrebt, daß die Dimensionen der Räume zu den wesentlichen individuellen Urteilsdimensionen korrespondieren und die metrischen Distanzen zwischen Punkten bzw. die Projektionen von Punkten auf Vektoren die grundlegenden Strukturen (Gemeinsamkeiten und Unterschiede) in den empirisch er faßten Daten in einer übersichtlichen und leicht interpretierbaren Form darstellen. Der hier angesprochene Leserkreis sind besonders methodisch-mathematisch tätige Wissenschaftler in den Verhaltenswissenschaften wie Psychologie, Soziologie, Pädagogik, Medizin, Biologie und Marktforschung. In jüngerer Vergangenheit sind jedoch auch vereinzelte Publikationen in peripherer erscheinenden Anwendungsgebieten wie Kunst, Archäologie, Astronomie und Geologie erschienen. Beim Leser werden im wesentlichen grundlegende mathematische Kenntnisse in der Euklidischen Geometrie und der Differentialrechnung vorausgesetzt. Vorkenntnisse auf den Gebieten der multidimensionalen Skalierung und der Faktorenanalyse erleichtern zusätzlich die Lektüre des Buches. Die vorgestellten Modelle und Methoden haben derzeit noch rein numerischen Charakter und berücksichtigen nicht die Verteilungsform und den Zufallscharakter der Daten, da einige Versuche der probabilistischen Behandlung dieser Modelle noch nicht reif genug zur praktischen Nutzung erscheinen. E s wurde auch darauf verzichtet, die mit den vorgestellten Mo-
6
Vorwort
dellen und Methoden verbundenen methodologischen Probleme, wie das der Angemessenheit der Modellansätze bez. der verschiedenen Datenerhebungsarten (z. B . die subjektiv dimensionale Widerspiegelung der zu beurteilenden Sachverhalte) oder das der Axiomatisierbarkeit der Modelle oder das der Interpretationsmöglichkeiten der Resultate, eingehend zu behandeln. Der Verfasser hofft, mit der Vorlage dieses Buches eine eingehendere Erforschung der vorhandenen und die Entwicklung weiterer spezifischer Modellvarianten besonders im Bereich der marxistisch-leninistischen Soziologie und Psychologie anzuregen und durch die Bereitstellung verwendbarer Methoden und Rechenprogramme zielgerichtet zukünftig geplante Forschungsprojekte in den empirischen Wissenschaften zu ermöglichen. Herrn Dr. sc. V . NOLLAXT verdanke ich wertvolle Hinweise bei der Überarbeitung des Manuskriptes und Herrn Dr. A . HAHNEWALD-BTTSCH bei der Erstellung der Rechenprogramme. Dresden, November 1977
W . HARTMANN
Inhalt
0.
Einleitung
1.
Einige Arten und Eigenschaften empirischer Daten
1.1. 1.2. 1.3. 1.4. 1.5.
Distanzen und metrische R ä u m e Proximitätsdaten Präferenzdaten Profildaten Dominanzdaten
2.
Nonmetrische multidimensionale Skalierung
2.1. 2.2. 2.3. 2.4. 2.4.1. 2.4.2. 2.5. 2.5.1. 2.5.2. 2.6. 2.6.1. 2.6.2.
2.6.3. 2.6.4. 2.6.5. 2.7.
Anliegen und Modell Bestimmtheit und Normalisierung der Lösung Überblick über Lösungsmethoden Fitkriterien Fitkriterien des Transformationsprinzips Fitkriterien des Absolutwertprinzips . Partielle Ableitungen der Fitkriterien Ableitungen der Fitkriterien des Transformationsprinzips . . . . Ableitungen der Fitkriterien des Absolutwertprinzips Strategien der Fitverbesserung Methode des steilsten Abstiegs Verschiedene Strategien von G U T T M A N und L I N G O E S Methoden der Schrittweitensteuerung Methoden zur Bestimmung von Anfangskonfigurationen . . . . Methoden zur Schätzung der Dimensionalität Anwendungen und Beispiele
3.
Nonmetrische nondimensionale Skalierung
3.1. 3.2. 3.3. 3.4. 3.5.
Anliegen und Modell Überblick über Lösungsmethoden Konstruktion von Fitkriterien Partielle Ableitungen der Fitkriterien Wahl der Anfangslösung
19 27 30 30 32
34 40 41 46 46 55 58 58 66 66 66 74
82 85 90 92
97 102 104 106 108
8
Inhaltsverzeichnis
4.
Nonmetrische Faktorenanalyse von Profildaten
4.1. 4.2. 4.3. 4.4. 4.4.1. 4.4.2. 4.5. 4.5.1. 4.5.2. 4.6. 4.7. 4.8.
Anliegen und Modell Normalisierung der Lösung Überblick über Lösungsmethoden Fitkriterien Fitkriterien des Transformationsprinzips Fitkriterien des Absolutwertprinzips Partielle Ableitungen der Fitkriterien Ableitungen der Fitkriterien des Transformationsprinzips Ableitungen der Fitkriterien des Absolutwertprinzips Befriedigung der Normalisierungszwänge Wahl der Startkonfiguration und der Dimensionalität Anwendungen und Beispiele
5. 5.1. 5.2. 5.3. 5.4.
Nonmetrische multidimensionale Entfaltung Anliegen und Modell Methoden zur Lösung des internen Problems Methoden zur Lösung des externen Problems Anwendungen und Beispiele
139 151 156 157
6. 6.1.
Nonmetrische multidimensionale Skalierung individueller Differenzen Anliegen und Modell
162
6.2. 6.3.
M o d e l l e v o n KBTJSKAL M o d e l l e v o n MOGEE
165 167
6.4.
M o d e l l e v o n CARROLL u n d CHAITG
169
6.5.
Anwendungen und Beispiele
174
7. 7.1. 7.2. 7.3. 7.4. 7.4.1. 7.4.2. 7.4.3. 7.4.4. 7.4.5.
Allgemeiner nonmetrischer Algorithmus Formulierung eines allgemeinen nonmetrischen Modells Methoden zur Behandlung des allgemeinen Modells Methode der isotonen Regression Algorithmen monotoner Transformationen Übersicht Rangabbildungsalgorithmen Algorithmen isotoner Regression Algorithmus gewichteten Durchschnitts Algorithmus laufenden Durchschnitts
8. 8.1. 8.1.1.
Ausgewählte metrische Methoden Parametrische Abbildung Anliegen und Modell
213 213
8.1.2.
M e t h o d e v o n S H E P A B D & CABBOLL
216
8.1.3.
M e t h o d e v o n KBTTSKAL & CABBOLL
218
8.2. 8.2.1.
Metrische MDS-Prozedur von TOBGEBSON Distanzmodell
222 222
. . .
. . . .
109 118 121 122 122 128 129 129 132 133 136 137
177 186 198 203 203 204 207 210 211
.
Inhaltsverzeichnis 8.2.2. 8.3.
&
Raummodell Metrische M D S individueller Differenzen v o n (INDSCAL)
226CARROLL & CHANG
227
Literaturverzeichnis methodischer Arbeiten
233
Literaturverzeichnis ausgewählter A n w e n d u n g e n
242
E r k l ä r u n g einiger Begriffe
245
Verzeichnis der A b k ü r z u n g e n
'
248
Namenverzeichnis
249
Sachverzeichnis
252
0.
Einleitung
In diesem Buch wird eine im wesentlichen allgemein verwendbare Methodenfamilie zur Behandlung verschiedener geometrischer Modelle für Beschreibung und Reduktion empirisch ermittelter Datenmengen (Vektoren, Matrizen oder Mehrwegtabellen von Meßwerten) vorgestellt. Sie ist besonders dadurch charakterisiert, daß sie nach Konstruktion eines zu optimierenden Kriteriums kleinster Fehlerquadrate (Least-Squares-Fitkriterium) eine numerische Optimierungsprozedur zur Schätzung der Lösungsparameter verwendet. Die in den Kapiteln 2 bis 6 beschriebenen geometrischen Modelle verwenden bei ihren Lösungsmethoden lediglich die ordinale (im folgenden auch als nonmetrisch bezeichnete) Information der Eingangsdaten in Form einer oder mehrerer Rangreihen der Meßwerte, und bestimmen daraus metrische Resultate in Form von Punkten, Vektoren und Punktprojektionen auf Vektoren in dimensionalen oder nondimensionalen metrischen Räumen. Das hat den Vorteil, daß die mit solchen Methoden ermittelten Resultate invariant bez. monotoner Transformationen der Eingangsdaten sind. Besonders im Bereich der empirisch orientierten Wissenschaften ist die Erhebung von Daten auf höherem als ordinalem Niveau häufig nicht nur kompliziert, sondern auch methodologisch anfechtbar. Ein wesentlicher Nachteil dieser Modelle und Methoden besteht darin, daß neben der Validität des Modells bez. der gegebenen Daten eine im Vergleich zum Umfang der Menge metrischer Resultate überwiegende Anzahl ordinaler Eingangsdaten erforderlich ist, um die Lösung hinreichend festzulegen. Im Rahmen dieses Buches wird darauf verzichtet, die mit der metrischen Bestimmtheit der Resultate bei den verschiedenen Modellen verbundenen Probleme zu erörtern. Dazu wird hier besonders auf SHEPABD (1966), POOR & WHEBBY (1976) und YOUNG (1970) verwiesen. Während die hier beschriebenen Methoden auf Grund der Ermittlung metrischer Informationen aus gegebener nonmetrischer Information in der Literatur als nonmetrische Methoden bezeichnet werden, existieren zu fast allen hier aufgeführten Modellen zwei weitere alternative Methodenfamilien:
12
0. Einleitung
(a) die klassischen metrischen Methoden, die metrische Eingangsdaten (Verhältnis- oder intervallskalierte Daten) in metrische Resultatsinformationen überführen und (b) die besonders von C . H. C O O M B S und seinen Mitarbeitern entwickelten völlig-nonmetrischen Methoden, die nonmetrische Eingangsdaten in nonmetrische Resultatsinformationen überführen. Die bisher entwickelten völlig-nonmetrischen Methoden fanden noch wenig praktische Verwendung, weil sie einige algorithmische Besonderheiten besitzen wie z. B . die überhohe Sensibilität bez. gering fehlerbehafteter Eingangsdaten, d. h. Eingangsdaten, die die Restriktionen des speziellen Modelles nicht perfekt befriedigen. Außerdem liegt darüber mit C O O M B S ( 1 9 6 4 ) ein umfangreicher Bericht vor, so daß zur Zeit auf eine umfassende Darstellung dieser Methoden verzichtet werden kann. Andererseits existiert zu den klassischen metrischen Methoden relativ viel (und auch deutschsprachige) Literatur, besonders zu den beiden Säulen der multidimensionalen Skalierung und der (linearen oder polynomialen) Faktorenanalyse, daß auf ihre detaillierte Darstellung hier verzichtet werden kann. Zur metrischen multidimensionalen Skalierung werden besonders T O R G E R S O N ( 1 9 5 8 ) , S I X T L ( 1 9 6 7 ) und A H R E N S ( 1 9 7 4 ) , und zur metrischen Faktorenanalyse H A R M A N ( 1 9 6 7 ) , Ü B E R L A ( 1 9 6 8 ) und W E B E R ( 1 9 7 4 ) empfohlen. Das i. a. weniger bekannte Modell der parametrischen Abbildung, das weitgehend mit den Methoden der hier beschriebenen nonmetrischen Modelle verwandt ist, sowie die klassische Skalierungsprozedur von T O R G E R S O N und die Prozedur zur Skalierung individueller Differenzen von C A R R O L L & C H A N « werden als ausgewählte metrische Methoden zum Zwecke des Vergleiches im Kapitel 8 kurz beschrieben. Die derzeit verfügbare Literatur zu den hier beschriebenen nonmetrischen Methoden ist mit geringen Ausnahmen auf eine Anzahl von Zeitschriftenartikeln beschränkt. Ein umfangreicherer englischsprachiger Bericht über verschiedene dieser Methoden liegt mit S H E P A R D , R O M N E Y & N E R L O V E ( 1 9 7 2 ) vor, und an deutschsprachigen Arbeiten besonders ein Kapitel zur nonmetrischen multidimensionalen Skalierung von A H R E N S ( 1 9 7 4 ) und einige Arbeiten v o n H . C. MICKO, K . W E N D E R u n d W .
FISCHER.1
Anliegen dieses Buches ist es, einige der in der Literatur weit verstreuten Modell- und Methodenvarianten des nonmetrischen Typs zusammenfassend so darzustellen, daß sie sowohl zu einer rechentechnischen Realisierung in 1
Nach Abgabe dieses Manuskriptes im Verlag erschien im Dezember 1977 ein dem gleichen Gegenstand gewidmetes aber wesentlich umfangreicheres Werk herausgegeben von J . C. LINGOES: Geometrie Representations of Relational Data; Mathesis Press, Ann Arbor; mit Beiträgen von B O B G , D E L E B Ü W , GTJTTMAN, H E I S E R , LINGOES, LISSITZ, ROSKAM u n d
SCHÖNEMANN.
0. Einleitung
13
Form eines Programmpaketes verwendet werden können, als auch zu einer Erweiterung der Modell-Methoden-Charakteristika auf weitere verwandte Problemstellungen. Die klassischen metrischen und die hier behandelten nonmetrischen Methoden sind insofern eng verwandt, als die bei den metrischen Least-SquaresAnsätzen verwendete lineare oder polynomiale Regression zwischen Eingangsdaten und Resultatsparametern bei den entsprechenden nonmetrischen Least-Squares-Ansätzen durch „isotone" Regression (auch monotone oder ordinale Regression genannt) ersetzt wird. Gewisse Verzerrungseigenschaften der isotonen Regression veranlaßten die Entwicklung einiger Methodenvarianten, die lediglich Approximationen der isotonen Least-Squares-Regression darstellen (z. B . GTTTTMAN und sein Mitarbeiter verwenden sogenannte R a n g a b b i l d u n g s t r a n s f o r m a t i o n e n , u n d JOHNSON, DE LEEUW U. a . v e r w e n d e n ein Absolutwertprinzip und YOUNG eine Transformation laufenden Durch-
schnitts, um stetigere Resultate zu erzielen). Da der theoretische Hintergrund und die Least-Squares-Eigenschaften der isotonen Regression in der zusammenfassenden Schrift von BABLOW u. a. (1972) ausführlich behandelt werden, werden in diesem Rahmen neben einer kurzen Einführung in Prinzip und Methode der isotonen Regression lediglich einige Algorithmen der verschiedenen Transformationsprinzipien angegeben. SHEPABD (1962) hat in einem ersten Versuch zur Behandlung dieses nonmetrischen Ansatzes bei der multidimensionalen Skalierung wahrscheinlich die stürmische Entwicklung der hier in Ausschnitten beschriebenen ModellMethoden-Familie eingeleitet. KRUSKAL (1964) ist es zu verdanken, daß er als erster eine arbeitsfähige Methode zur Behandlung der Probleme dieser Methodenfamilie vorgestellt hat, indem er die noch heute am weitesten gebrauchte und anscheinend theoretisch auch am meisten gerechtfertigte zweistufige Prozedur der Optimierung eines Least-Squares-Fitkriteriums mit Gradientenmethode und isotoner Regression entwickelte. Dieser KBTJSKALSHEPAED-Ansatz wurde bisher in zwei Richtungen verallgemeinert. Hinsichtlich des Modells wurde ausgehend von der multidimensionalen Skalierung das Herangehen auf die Behandlung von Eitkriterien anderer Modelle übertragen, wie z. B. der Faktorenanalyse, der multidimensionalen Entfaltung, der multidimensionalen Skalierung individueller Differenzen, der kanonischen Korrelationsanalyse, der Varianz- und Regressionsanalyse. In der Literatur werden die Modelle meist unter dem Begriff der „polynomial conjoint analysis" (s. z. B. YOUNG, 1972) zusammengefaßt. Hinsichtlich der verwendeten Methode wurden Varianten beider Schritte der Optimierungsprozedur entwickelt, indem sowohl die Gradientenmethode als auch die Transformation isotoner Regression durch andere, nicht wesentlich abweichende Methoden modifiziert wurden.
14
0. Einleitung
Das Buch will die behandelten Verfahren so aufbereiten, das es als Grundlage bei der Erstellung von Programmpaketen dienen kann. Darum mußten auch methodologisch nicht so interessante Schritte zur algorithmischen Realisierung angegeben werden. Das betrifft z. B. Methoden zur Bestimmung von Anfangslösungen oder zur optimalen Schätzung der den Daten innewohnenden Dimensionalität, Methoden zur Bestimmung monotoner Transformationen, Optimierungsmethoden, Schrittweitensteuerungsprozeduren für das Gradientenverfahren. Um den praktisch interessierten Leser nicht zu sehr in mathematisch-technischen Details zu verstricken, wurde auf ein einführendes Kapitel verzichtet, daß das allgemeine mathematische Modell und die zur numerischen Realisierung benötigten technischen Teilschritte enthält. Da das allgemeine mathematische Modell der „polynomial conjoint analysis" leicht aus den in den Kapiteln 2 bis 6 beschriebenen spezifischen Modellen ableitbar ist, wurde es im wesentlichen erst im siebenten Kapitel formuliert. Für einen in der Lektüre mathematischer Texte geübteren Leser empfiehlt es sich vielleicht, das siebente Kapitel vor den Kapiteln 2 bis 6 zu lesen. Einige der zur mathematischen bzw. rechentechnischen Realisierung benötigten technischen Details speziell für den Fall der multidimensionalen Skalierung wurden im zweiten Kapitel behandelt. Wo sie nicht direkt verallgemeinerbar waren, wie im Fall der partiellen Ableitungen der Fitkriterien, der Lösungsnormalisierung oder der Konstruktion von Anfangslösungen, wurden solche Details in den Kapiteln der entsprechenden Modelle behandelt. Außer der verbalen Beschreibung des jeweiligen Modells in den ersten Abschnitten jedes Kapitels sollte der lediglich an den Modelleigenschaften interessierte Leser auch den Abschnitt über die Konstruktion von Fitkriterien in den einzelnen Kapiteln beachten, da mit der Definition des Fitkriteriums die wesentliche mathematische Beschreibung des Modells festgelegt wird. Zur Interpretation von Resultaten müssen zusätzlich die Abschnitte über Bestimmtheit und Normalisierung der Lösung in den Kapiteln beachtet werden. Neben einigen Eigenschaften mathematisch definierter Distanzen und metrischer Räume werden in einem einführenden ersten Kapitel einige in der empirischen Forschung besonders häufig auftretenden Datenarten wie Proximitäts-, Präferenz-, Profil- und Dominanzdaten kurz vom Gesichtspunkt der diesen Daten innewohnenden Zwänge beschrieben. Weiterführende Informationen über Distanzen und metrische Räume findet der interessierte Leser in Standardwerken der Funktionalanalysis (s. z. B . LJTJSTEENIK & SOBOLEW, 1 9 6 8 ; KANTOBOWITSCH & A K I L O w , 1 9 6 4 ; COLLATZ, 1 9 6 4 ) und über empirische Daten z. B . bei COOMBS ( 1 9 6 4 ) , COOMBS, D A W E S & TVEKSKY ( 1 9 7 0 ) . I m zweiten Kapitel werden besonders umfassend Modell und Methodenvarianten der nonmetrischen multidimensionalen Skalierung beschrieben.
0. Einleitung
15
Um sich nicht in technischen Details der hier eingehend beschriebenen Eigenschaften und partiellen Ableitungen der Fitkriterien zu verlieren, sollte sich der Leser zunächst nur mit den ersten drei Abschnitten dieses Kapitels u n d anschließend mit den ersten Abschnitten der nächsten Kapitel beschäftigen. Viele der hier notierten Modell- u n d Methodendetails, wie z. B. Normalisierung der Lösung und Ermittlung von Anfangskonfigurationen, können ohne Schwierigkeit auf die Modelle der multidimensionalen Entfaltung und der Skalierung individueller Differenzen übertragen werden. Im dritten Kapitel folgt die Beschreibung eines von CTTNNINGHAM & SHEPARD ( 1 9 7 4 ) vorgeschlagenen Modells zur nonmetrischen nondimensionalen Skalierung maximaler Varianz, das auf die Schätzung der P u n k t koordinaten verzichtet und sich mit der Schätzung einer Menge von Distanzen (die lediglich die metrischen Axiome befriedigen) und der Approximation der funktionalen Beziehung zwischen gegebenen Proximitäten und geschätzten Distanzen begnügt. Eine nonmetrische Variante der Faktorenanalyse von Profildaten wird im vierten Kapitel vorgestellt. Im Gegensatz zu einer von LINGOES & GTTTTMAN (1967) vorgeschlagenen quasinonmetrischen Methode zur Faktorenanalyse von Proximitätsdaten wird hier die von KRUSKAX, & SHEPABD ( 1 9 7 4 ) publizierte nonmetrische Methode des Vektormodells beschrieben, das sowohl die Faktorenladungen wie auch die Faktorenwerte simultan durch Minimierung eines Fitkriteriums ermittelt. Die Faktorenwerte werden dabei als Koordinaten von zu den .Objekten korrespondierenden Punkten eines r-dimensionalen metrischen Raumes und die Faktorenladungen als Koordinaten von zu den Variablen korrespondierenden Einheitsvektoren betrachtet, und beide Parametermengen werden so geschätzt, daß die Projektionen der Punkte auf die Vektoren die gegebenen Profildaten möglichst gut approximieren. Das von COOMBS ( 1 9 6 4 ) eingehend beschriebene Modell der multidimensionalen Entfaltung wird im fünften Kapitel vorgestellt. Dabei werden zwei Punktmengen in einem gemeinsamen metrischen Raum geschätzt, wobei die Punkte d.er einen Menge den Objekten entsprechen und die Punkte der anderen Menge den Idealpunkten des individuellen Vorzugs der die Objekte präferenzbeurteilenden Subjekte. In der wiedergegebenen Zwei-Punktmengen-Konfiguration wird angestrebt, daß die Distanzen der Objektpunkte zu einem individuellen Idealpunkt möglichst gut die angegebenen Präferenzdaten approximieren. I m sechsten Kapitel wird eine nonmetrische Methode zu einem von BLOXOM, H O E A N und CARBOLL vorgestellten Modell der multidimensionalen Skalierung individueller Differenzen beschrieben, das bisher noch nicht in der verfügbaren Literatur aufgeführt würde, das aber eine einfache Erweiterung der bisher hier angebotenen nonmetrischen Strategien auf das sonst
16
0. Einleitung
metrisch behandelte Modell darstellt. Dabei werden die Koordinaten zweier Punktmengen in zwei verschiedenen metrischen Räumen, dem sogenannten gemeinsamen Objektraum und dem individuellen Gewichtsraum geschätzt, wobei angestrebt wird, daß die individuell gewichteten Objektdistanzen möglichst gut die gegebenen individuellen Proximitäten approximieren. Die in den Kapiteln 2 bis 6 vorgeschlagenen geometrischen Modelle sind Submodelle eines sehr allgemein formulierbaren nonmetrischen Modells zur Analyse ordinalskalierter empirisch ermittelter Daten, das im siebenten Kapitel angegeben wird. Die Spezifizierung des allgemeinen Modells wird dabei sowohl für die in den Kapiteln 2 bis 6 beschriebenen Submodelle, wie auch für die nicht unmittelbar geometrisch interpretierbaren ordinalen Modelle (a) der linearen Modellfamilie (Varianz-, Regressions- und Kovarianzanalyse), (b) der Faktorenanalyse von Proximitätsdaten, (c) psychologischer und ökonomischer Anwendungen (Modell der subjektiv erwarteten Nützlichkeit, Leistungsmodelle von H t t l l und Spence und das BEADLEY-TEEEY-LucE-Wahlmodell) vorgenommen. Außerdem werden im siebenten Kapitel ein Überblick über die methodische Behandlung des allgemeinen Modells, eine kurze Beschreibung der Theorie der isotonen Regression und eine Darstellung ausgewählter Algorithmen zur monotonen Transformation gegeben. Mit Modell und Methode der parametrischen Abbildung wird im achten Kapitel ein metrisches Verfahren zur Analyse empirischer Daten, in diesem Falle von Profildaten, vorgestellt. Dieses Modell dient besonders der Reduzierung großer Datenmengen durch Transformation der Objektpunkte von einem hochdimensionalen in einen niedrigdimensionalen Raum, wobei an die auszuführende Transformation nur solche schwachen Forderungen gestellt werden, wie die einer gewissen „diskreten Stetigkeit" und die einer approximativen Ähnlichkeitstransformation (bei der sich die Punktdistanzen nur um einen konstanten Faktor ändern dürfen). Dieses Modell scheint darum im Vergleich zu den übrigen nonmetrischen Modellen die allgemeineren Resultate zu liefern. Auf Grund ihrer weiten Veiwendung werden im achten Kapitel außerdem die metrische Skalierungsprozedur von T o r g e r s o n ( 1 9 5 8 ) und die metrische Prozedur zur Skalierung individueller Differenzen mittels kanonischer Dekomposition von C a r k o l l & Chang (1970) dargestellt. Auf die Darstellung einiger weiterer nonmetrischer Modell-MethodenVarianten in den Ausdrücken des hier behandelten Typs wurde aus verschiedenen und hier nicht näher zu notierenden Gründen verzichtet. E s handelt sich hierbei besonders um das Modell der kanonischen Korrelationsanalyse, Modelle der Skalogrammanalyse von Guttman und Lingoes und verschiedene weitere Modelle der „polynomial conjoint analysis".
0. Einleitung
17
Am Schluß des Buches findet der Leser in alphabetischer Reihenfolge die Erklärung einiger wichtiger Begriffe (Seite 245) sowie ein Verzeichnis der verwendeten Abkürzungen (Seite 248). Die Formeln wurden abschnittsweise durchnumeriert. Lediglich bei einem Verweis über einen Abschnitt hinaus wird vor der Formelnummer die Nummer des Abschnittes mit angegeben, d. h., Formel (2.3,14) bedeutet Formel (14) in Abschnitt 2.3.
2 Hartmann, Modelle
1.
Einige Arten und Eigenschaften empirischer Daten
1.1.
Distanzen and metrische Bäume
Dieser Abschnitt enthält einige grundlegende Bezeichnungen, Definitionen und mathematische Eigenschaften über Distanzen und metrische Räume, wie sie in ähnlicher Weise und vollständiger der Standardliteratur der Funktionalanalysis (einem Teilgebiet der Mathematik) entnommen werden können, s . z . B . COLLATZ ( 1 9 6 4 ) , K A N T O R O W I T S C H SOBOLEW (1968).
& AKILOW (1964), LJUSTERNIK
Die folgenden Ausführungen lehnen sich eng an
&
COLLATZ
(1964) an.
Definitionen: 1. Ein Raum ist eine nichtleere Menge von Elementen Xlt X2, . . . beliebiger Natur. Die Elemente von 3£ werden auch Punkte des Raumes genannt. 2. Ein Raum 3£ heißt metrisch, wenn man zwei Punkten Xit Xj€£ eine reelle Zahl dij = d{Xi, Xj) als Abstand zuordnen kann, für den für beliebige Punkte X¿, X p X t ddi gelten d[XpX}) d{Xit X})
=
Ool^I,.; d(X(, Xt) +d{Xp
(1)
Xt).
(„Dreiecksungleichung")
(2)
3. Alle Punkte Z e X mit d(Xp X)^r (bzw. d(Xp X)^r), r^O, bilden eine offene (bzw. abgeschlossene) Kugel vom Radius r mit Mittelpunkt Xt. 4. Mit (3) definiert man den Abstand zweier Teilmengen Raumes X-
3Ei und X2 eines metrischen
Folgerungen: 1. Der Abstand d(Xi, Xj) • ist symmetrisch, d{Xit Xj)=d(Xj, Xi), denn aus (1) und (2) folgt mit X^Xf
2*
d{Xif Xj)^d(Xi,
Xi)+d(Xj,
d(X,, X.)^d(Xp
X^diX,,
Xi)=d(Xj, X^.
Xi),
d. h., es gilt
1. Arten und Eigenschaften empirischer Daten
20
2. Der Abstand d(Xit Xj) ist positiv definit, d. h., es gelten d(Xit X 4 ) = 0 und d(Xi, Xj) 0 für 'X^Xp aus der Dreiecksungleichung folgt mit Xj = Xi nämlich 0 sä 2d{Xp Xt). Bemerkungen: 1. Sei £ der Raum der reellen Zahlen. Für zwei Punkte definiert. Dabei sei