207 44 8MB
German Pages [208] Year 1977
de Gruyter Lehrbuch Steinhausen/Langer · Clusteranalyse
Detlef Steinhausen · Klaus Langer
Clusteranalyse Einführung in Methoden und Verfahren der automatischen Klassifikation
Mit zahlreichen Algorithmen, FORTRAN-Programmen, Anwendungsbeispielen und einer Kurzdarstellung der multivariaten statistischen Verfahren
w DE
G Walter de Gruyter · Berlin · New York 1977
Dr. rer. nat., Dipl. math. Detlef
Steinhausen,
Akademischer Oberrat am R e c h e n z e n t r u m der Westfälischen Wilhelms-Universität Münster
Klaus
Langer,
Dipl. p s y c h . , Dipl. päd. am P s y c h o l o g i s c h e n Institut, A b t . Klinische P s y c h o l o g i e , der Westfälischen Wilhelms-Universität Münster
Mit 6 3 Abbildungen und 4 Tabellen
CIP-Kurztitelaufnahme
der Deutschen
Bibliothek
Steinhausen, Detlef Clusteranalyse: Einf. in Methoden u. Verfahren d. automatischen Klassifikation; mit zahlr. Algorithmen, FORTRAN-Programmen, Anwendungsbeispielen u. e. Kurzdarst. d. multivariaten statist. Verfahren / Detlef Steinhausen; Klaus Langer. - 1. Aufl. - Berlin, New York: de Gruyter, 1977. (de Gruyter Lehrbuch) ISBN 3-11-007054-5 NE: Langer, Klaus
© Copyright 1977 by Walter de Gruyter & Co., vormals G. J. Göschen'sehe Verlagshandlung, J. Guttentag, Verlagsbuchhandlung Georg Reimer, Karl J. Trübner, Veit & Comp., Berlin 30. Alle Rechte, insbesondere das Recht der Vervielfältigung und Verbreitung sowie der Übersetzung, vorbehalten. Kein Teil des Werkes darf in irgendeiner Form (durch Photokopie, Mikrofilm oder ein anderes Verfahren) ohne schriftliche Genehmigung des Verlages reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden. Printed in Germany. Satz: IBM-Composer, Walter de Gruyter, Berlin. Druck: Color-Druck, Berlin. Bindearbeiten: Dieter Mikolai, Berlin.
Vorwort
Clusteranalysen werden mit Erfolg in nahezu allen Bereichen und Disziplinen angewandt, in denen größere Datenmengen auf wenige und überschaubare Interpretationseinheiten zu reduzieren sind. Bedingt durch die Transparenz und vielseitige Verwendbarkeit clusteranalytischer Verfahren im Vergleich zu den klassischen Methoden der Multivariaten Statistik hat in den letzten Jahren auf dem Hintergrund der zunehmenden Verbreitung mittlerer und größerer EDV-Anlagen eine immer rascher werdende Entwicklung eingesetzt, die einen ordnenden Überblick der diesem Problemkreis zuzurechnenden Ansätze, Methoden, Verfahren und Entwicklungstendenzen erforderlich macht. Pro Jahr dürften mehrere hundert einschlägige Arbeiten erscheinen, die entsprechend der weiten und o f t unterschiedlichen Anwendung von Clusteranalysen auch unter Bezeichnungen wie Automatische Klassifikation, Numerische Taxonomie, Q-Analyse oder Unsupervised Learning zu finden sind. Das vorliegende Buch stellt sich die Aufgabe einer einführenden Darstellung in die Grundlagen und Prinzipien der Clusteranalyse. Die wichtigsten clusteranalytischen Konzepte, Methoden und Verfahren werden ausführlich beschrieben. Für fast alle Verfahren werden Algorithmen und FORTRAN-IV Programme angegeben. Darüber hinaus werden zentrale Probleme der praktischen Durchführung einer Clusteranalyse sowie der Beurteilung und Interpretation der erreichten Ergebnisse diskutiert. Das Buch wendet sich an Studierende der Wirtschafts- und Sozialwissenschaften, aber auch der Geographie, Biologie oder Medizin. Es dürfte ebenso für Studierende der Mathematik und Informatik, jedoch auch für den Praktiker von Interesse sein. Elementare statistische Kenntnisse sind nützlich. Die gebrauchten, allerdings wohl meist bekannten mathematischen Grundbegriffe werden im Anhang erläutert. Kenntnisse der Programmiersprache F O R T R A N sind zum besseren Verständnis der Verfahren vorteilhaft, jedoch nicht notwendige Voraussetzung zum Studium des Textes. Da Einsatz und Interpretation der Clusteranalyse nicht zuletzt von der zugrunde liegenden inhaltlichen Fragestellung und damit vom speziellen Gegenstandsbereich abhängig sind, zielt dieses Buch auf eine Integration mathematisch-statistischer und anwendungsorientierter Grundlagen und Aspekte. Für den Leser soll dadurch zumindest ansatzweise jene künstliche Trennung aufgehoben werden, die zwischen den auf diesem Gebiet veröffentlichten mathematischen Arbeiten und rein pragmatisch angelegten Algorithmensammlungen einerseits sowie den ausgesprochen einführenden und stark disziplinspezifischen Beiträgen andererseits besteht.
6
Vorwort
Die hier verfolgte Konzeption einer möglichst systematischen Vermittlung theoretischer und anwendungsbezogener Momente führte zu folgendem Aufbau: Im ersten Kapitel werden nach der Präzisierung der Problemstellung die relevanten Voraussetzungen und Begriffe geklärt. Das zweite Kapitel enthält eine Übersicht über die bekanntesten multivariaten statistischen Verfahren und dient zur Einordnung der Clusteranalyse in diesen Kontext. Die verschiedenen Vorgehensweisen, Ähnlichkeiten und Unähnlichkeiten zwischen Elementen und Elementgruppen zu definieren, werden im dritten Kapitel aufgegriffen. Die dort erörterten Distanz- und Ähnlichkeitsfunktionen werden im vierten Kapitel, das einen wesentlichen Teil dieses Buches ausmacht, benötigt. Hier werden die einzelnen clusteranalytischen Verfahren eingehender beschrieben. Spezielle Probleme der praktischen Durchführung oder der Beurteilung und Interpretation werden im fünften Kapitel diskutiert. Kapitel sechs enthält einen zusammenfassenden Überblick, während das siebte Kapitel den Anhang bildet, in dem Grundbegriffe der Mengenlehre und Linearen Algebra erläutert sind. Die am Ende des zweiten, dritten und vierten Kapitels zusammengestellten Übungen und Ergänzungen sollen zum einen zur Vertiefung des Stoffes beitragen. Zum anderen enthalten sie Herleitungen und weitere Überlegungen, auf die im laufenden Text aus Gründen der besseren Lesbarkeit verzichtet worden ist. Die Verfasser sind zahlreichen Benutzern des Rechenzentrums der Westfälischen Wilhelms-Universität Münster und Studierenden zu Dank verpflichtet, die uns im Rahmen ihrer speziellen Anwendungsprobleme zur grundsätzlicheren Auseinandersetzung mit der Problematik der Clusteranalyse anregten. Die in diesen Projekten, Forschungsbereichen, Untersuchungsreihen und empirischen Arbeiten auftauchenden Fragen und Probleme führten zu instruktiven Hinweisen. Wir hoffen, die daraus gewonnenen Erfahrungen und Kenntnisse hier einem größeren Leser- und Benutzerkreis zugänglich machen zu können. Das Manuskript korrigierten in dankenswerter Weise unsere Kollegen Dr. M. Bestehorn, Dr. Hörmann, Dipl. Päd. M. Groth, Dr. H. Kamp und Dr. H. Pudlatz. Neben wertvollen Anmerkungen steuerte Herr Dr. H. Pudlatz das Programm zur Erstellung der geographischen Karten bei. Insbesondere ist an dieser Stelle Herrn Prof. Dr. W. Oberwittler von der Medizinischen Universitätsklinik Münster für das medizinische Anwendungsbeispiel zu danken. Herrn H. Mecke danken wir für die sorgfältige Anfertigung der graphischen Abbildungen und Herrn W. Herden für die Hilfe bei der Implementierung einiger Programme. Davon unabhängig
Vorwort
7
liegt die Verantwortung für die Darstellung und deren Mängel bei den Verfassern, die Kritik, Anregungen und Hinweise aus dem Kreis der Leser gerne entgegennehmen. Münster, im Juni 1977
Detlef Steinhausen Klaus Langer
Inhalt
1. Einleitung 1.1 Problemstellung 1.2 Zum Begriff „Clusteranalyse" 1.3 Ziel und Funktion 1.4 Das Clusteranalyseproblem 1.5 Ablaufschema
11 11 13 14 16 19
2. Grundzüge multivariater Verfahren 2.1 Vorbemerkung 2.2 Allgemeine Voraussetzungen 2.2.1 Grundbegriffe und Bezeichnungen 2.2.2 Skalierung einer Variablen 2.3 Regressionsanalyse 2.4 Varianz- und Kovarianzanalyse 2.5 Kanonische Analyse 2.6 Diskriminanzanalyse 2.7 Faktoren- und Hauptkomponentenanalyse 2.8 Multidimensional Skalierung 2.9 Zusammenfassung 2.10 Übungen und Ergänzungen
25 25 26 26 28 30 32 37 39 42 46 47 49
3. Ähnlichkeits- und Distanzfunktionen 3.1 Definition einer Ähnlichkeits-und Distanzfunktion 3.2 Ähnlichkeits- und Distanzfunktionen bei qualitativen Variablen . . . 3.2.1 Nominale Variablen 3.2.2 Ordinale Variablen 3.3 Ähnlichkeits- und Distanzfunktionen bei quantitativen Variablen . . 3.3.1 Euklidische Distanz 3.3.2 Mahalanobis-Distanz 3.3.3 L r -Distanzen 3.3.4 Q-Korrelationskoeffizient 3.4 Ähnlichkeits- und Distanzfunktionen bei gemischten Variablen . . . . 3.5 Ähnlichkeits- und Distanzfunktionen bei Elementgruppen 3.6 Übungen und Ergänzungen
51 51 53 53 56 58 58 59 61 62 63 64 66
4. Clusteranalysealgorithmen 4.1 Vorbemerkung 4.1.1 Kriterien zur Systematisierung 4.1.2 Datenstruktur und Gruppierung
69 69 69 70
10
Inhalt
4.1.3 Programmstandards 71 4.2 Hierarchische Verfahren 73 4.2.1 Agglomerative Verfahren 75 4.2.2 Ein graphentheoretisches Verfahren 94 4.2.3 Divisive Verfahren 98 4.3 Verfahren zur Verbesserung einer Anfangspartition 100 4.3.1 Zielfunktionen 100 4.3.1.1 Varianzkriterium 101 4.3.1.2 Determinantenkriterium 103 4.3.1.3 Spur(W~ 1 B)-Kriterium 104 4.3.1.4 Varianzkriterium bei transformierten Daten 105 4.3.1.5 Zielfunktion für die L r -Clusterung 106 4.3.2 Sift-and-Shift Verfahren 106 4.3.2.1 Iteriertes Minimaldistanzverfahren 107 4.3.2.2 Austauschverfahren 118 4.3.2.3 Minimaldistanzverfahren und Austauschverfahren fur andere Zielfunktionen 127 4.3.2.4 Austauschverfahren für beliebige Distanzmatrizen . . . 135 4.3.2.5 Anfangspartitionen 137 4.3.2.6 Überwindung lokaler Extrema 138 4.4 Andere Verfahren 138 4.4.1 Q-Analyse 138 4.4.2 Konfigurationsfrequenzanalyse 148 4.4.3 Clusterung unter Verwendung der Punktdichte 156 4.5 Übungen und Ergänzungen 158 5. Spezielle Probleme 5.1 Clusteranalyse bei Variablen 5.2 Probleme der Beurteilung von Cluster-Lösungen 5.2.1 Beurteilungskriterien 5.2.2 Bestimmung der Clusteranzahl 5.2.3 Vergleich mehrerer Lösungen 5.3 Probleme der praktischen Durchführung 5.3.1 Große Elementanzahl 5.3.2 Große Variablenanzahl 5.3.3 Fehlende Daten
161 161 169 169 170 172 175 175 176 176
6. Zusammenfassender Überblick
179
7. Anhang: Grundbegriffe aus der Mengenlehre und Linearen Algebra . . . . 7.1 Grundbegriffe aus der Mengenlehre 7.2 Grundbegriffe aus der Linearen Algebra
185 185 187
Literatur
197
Autoren- und Sachregister
201
1. Einleitung
1.1 Problemstellung In diesem Buch werden Ansätze, Verfahren und Algorithmen zur multivariaten Datenanalyse beschrieben und diskutiert, die zum Teil recht unterschiedlich bezeichnet werden {Cluster-Analysis, Automatic Classification, Grouping or Clumping Strategies, Numerical Taxonomy, Q-Analysis usw.). Ihre Gemeinsamkeit besteht jedoch in dem Ziel, Objekte nach bestimmten Prinzipien möglichst zweckmäßig oder optimal in Klassen, Gruppen oder Teilgesamtheiten aufzuteilen. Dies Problem der möglichst sinnvollen oder nützlichen Gruppierung von Objekten stellt sich sowohl in alltäglichen Situationen als auch im Rahmen wissenschaftlicher Untersuchungen. Man versuche etwa, seine Schallplatten zu ordnen, was sicherlich geringe Schwierigkeiten bereitet, wenn man sich nach einem einzigen oder nur nach wenigen Kriterien richtet. Sollen allerdings Musikform, Epoche, Dirigent, Komponist, Orchester, Instrumentenart, Beliebtheitsgrad oder andere Aspekte gleichzeitig berücksichtigt werden, wird man nicht ohne weiteres eine angemessene Gruppierung finden und unter Umständen nach einer geeigneten Kombination der Merkmale (Musikform, Komponist, Orchester o. ä.) vorgehen. Während man selbst bei vielen Schallplatten noch relativ leicht Gruppen bilden kann, entstehen nicht unerhebliche Schwierigkeiten bei dem Versuch, ζ. B. die Gesamtheit aller Patienten einer größeren Klinik anhand zahlreicher Meßwerte, die Labortests, Krankheitsbefunde, anamnestische und diagnostische Informationen einschließen, in jeweils ähnliche Teilgesamtheiten aufzugliedern, um gezielte Behandlungsmethoden, Symptombereiche oder effiziente Therapieprogramme entwickeln zu können. Analoge Schwierigkeiten tauchen auf, wenn man etwa die durch eine Vielzahl von Einzeldaten beschriebenen wirtschaftlichen Perioden so ordnen will, daß ähnliche Zeitabläufe jeweils einer bestimmten Gruppe zugewiesen werden. Formal gesehen, besteht das Problem in all diesen Situationen darin, meist sehr viele Objekte, Einheiten oder Elemente in kleinere und homogene Gruppen, Klassen oder Cluster (engl. = Haufen, Traube) aufzuteilen. Die zu gruppierenden Elemente werden in der Regel durch zahlreiche Eigenschaften, Merkmale oder Variablen charakterisiert. Die auf diese Problemstellung bezogenen mathematischstatistischen und heuristischen Verfahren der multivariaten Datenanalyse werden im folgenden zusammenfassend als Clusteranalyse bezeichnet. Da Clusteranalysen in nahezu allen Disziplinen, in denen größere Datensätze auf wenige und überschaubare Interpretationseinheiten reduziert werden sollen, Ver-
12
1. Einleitung
wendung finden, kann ihr Gegenstand sehr verschieden sein. So kann es sich bei den Elementen ζ. B. um Personen, soziale Gruppen, Firmen, Produkte, Handschriften, Dokumente, Radarsignale, Rohstoffe, Aktien, Bakterien oder Insekten handeln. Entsprechend verschieden sind die zur Gruppierung benutzten Variablen, deren Auswahl ebenso wie die der Elemente von dem betreffenden Untersuchungsziel abhängt. Durch die (empirisch ermittelten) Ausprägungen auf diesen meist sehr zahlreichen Variablen werden die Elemente näher gekennzeichnet (multivariate Information). Diese Daten sind der Ausgangspunkt des Gruppierungs- bzw. Klassifikationsprozesses. Die Aufgabe, Elemente nach angemessenen mathematisch-statistischen und heuristischen Kriterien zu ordnen, ist klar von dem Problem zu unterscheiden, bereits vorgegebene Gruppen in einem noch näher zu definierenden Sinne optimal zu diskriminieren. Der erste Fall wird hier Klassifikationsproblem, der zweite Diskriminationsproblem genannt, obwohl beide Begriffe mitunter synonym gebraucht werden. a) Beim Diskriminationsproblem geht es darum, schon vorgegebene (a priori) Gruppen oder Klassen möglichst optimal zu diskriminieren bzw. die Gruppenzugehörigkeit noch nicht eingeordneter Elemente mit möglichst hoher Wahrscheinlichkeit anzugeben. Die Definition und Existenz bestimmter Gruppen, die mit Hilfe eines Außenkriteriums, der sogenannten Gruppierungsvariablen erfolgt, wird dabei kennzeichnenderweise vorausgesetzt. b) In Erweiterung der diskriminanzanalytischen Fragestellung werden beim Klassifikationsproblem die Klassen oder Gruppen erst gesucht. Weder Anzahl, Homogenität oder Lokalisation der Gruppen sind bekannt, noch besitzt man Informationen über die Zuordnung einzelner Elemente zu den Gruppen. Üblicherweise sind ,Klassen' elementfremde (disjunkte), Gruppen hingegen nicht notwendig disjunkte Teilmengen. Da die gesuchten Teilmengen disjunkt oder nicht disjunkt sein können, kann man auch allgemeiner vom, Gruppierungsproblem' sprechen. Diskriminanzanalytische Verfahren sind insbesondere in der medizinischen Diagnostik verbreitet und werden ausführlicher in der Literatur behandelt [Cacoullos 1973], Auf die Kombination der statistischen Verfahren der Diskriminanzanalyse und der Clusteranalyse wird im weiteren Verlauf noch Bezug genommen. In diesem Buch wird von verschiedenen Aspekten aus das KJassifikations- oder Gruppierungsproblem diskutiert. Voraussetzung dazu ist zunächst eine einführende Klärung des Begriffs Clusteranalyse.
1.2 Zum Begriff .Clusteranalyse'
13
1.2 Zum Begriff „Clusteranalyse" Die bei clusteranalytischen Verfahren benutzten Prinzipien lassen sich, wenn auch zum Teil in modifizierter Form, bereits im Anfangsstadium wissenschaftlicher Arbeit nachweisen, zumal die Bildung von Gruppen, Klassen oder Teilmengen sehr oft ein notwendiges und gleichzeitig ökonomisches Mittel zur Informationsreduktion ist. Im Jahr 1939 wurde der Begriff Clusteranalyse ausdrücklich von Tyron verwandt, diente allerdings zur Kennzeichnung eines speziellen Verfahrens zur Gruppierung von Variablen, das in enger Anlehnung an das faktorenanalytische Modell konzipiert worden war [Tyron 1939, Tyron & Bailey 1970], Während dieser Terminus, der sich im weiteren Verlauf primär auf Verfahren zur Gruppierung von Objekten bezog, nur vereinzelt in der Literatur vorkommt, ist seit Anfang der 70er Jahre ein verstärktes Interesse festzustellen, das sich auch im raschen Anwachsen der einschlägigen Literatur bemerkbar macht (als Übersicht [Duran & Odell 1974]). So erschienen umfangreichere Arbeiten mit Titeln wie ,Clu st er-Analysis for Applications',,Clustering Algorithms' bzw. ,Cluster-Analyse-Algorithmen' [Anderberg 1973, Hartigan 1975, Späth 1975], was nicht nur die Aktualität des Themas, sondern zugleich den Schwerpunkt der meisten Publikationen auf diesem Gebiet zum Ausdruck bringt, in denen praktikable Algorithmen und nicht etwa .highly sophisticated' mathematisch-statistische Konzepte dargestellt werden. Sucht man umfassende und theoretisch ausgerichtete Analysen des Gruppierungsproblems, wird man auf Arbeiten zur Automatischen Klassifikation' und Computer Klassifikation' verwiesen, die für den deutschen Sprachraum präzis und ausführlicher von [Bock 1974] behandelt worden sind. Methoden und Techniken der Clusteranalyse sind vor allem in biologischen Wissenschaften, zum geringeren Teil in der Psychologie entwickelt worden. Daher finden sich im Rahmen der biologischen Typenkonstruktion und -interpretation wesentliche Ansätze und Verfahren der Clusteranalyse. Weil bei einer Typenkonstruktion disziplinspezifische Aspekte eine große Rolle spielen, spricht man in diesem Kontext von (biologischer) Taxonomie, bzw. unter Betonung methodischer Aspekte von Numerischer Taxonomie und Mathematischer Taxonomie oder kurz von Taxonometrie (vgl. die Standardwerke von [Sokal & Sneath 1963], [Jardine &Sibson 1971]). Bezogen auf die biologische Klassifikationseinheit Taxon, wird Taxonomie als das theoretische Studium der Klassifikation, einschließlich ihrer Voraussetzungen, Prinzipien, Prozeduren und Regeln, bestimmt. Die Begriffe Taxonomie und Taxonometrie werden inzwischen auch in anderen Wissenschaften benutzt [Cattell & Coulter 1966, Goronzy 1969],
14
1. Einleitung
Die Unterschiedlichkeit der bestehenden Konzepte zur Datengruppierung ist mit ein Grund dafür, daß die zugehörigen statistischen Verfahren nicht einheitlich abgegrenzt werden und eine stringent abgeleitete, exakte Definition von Clusteranalyse, wie dies mittlerweise für andere multivariate Verfahren gelungen ist, noch aussteht. Insofern ist die hier vorgeschlagene Begriffsbestimmung vorläufig. Clusteranalyse wird verstanden als ein zusammenfassender Terminus für eine Reihe unterschiedlicher mathematisch-statistischer und heuristischer Verfahren, deren Ziel darin besteht, eine meist umfangreiche Menge von Elementen durch Konstruktion homogener Klassen, Gruppen oder Cluster optimal zu strukturieren. Die gesuchten Cluster sollen jeweils nur ähnliche Elemente enthalten, während Elemente verschiedener Gruppen möglichst unähnlich sein sollen. Bei dieser Aufteilung der Elemente wird davon ausgegangen, daß die Ähnlichkeit der Elemente untereinander quantifizierbar ist und sich durch (reelle) Zahlenwerte ausdrücken läßt. Diese allein bilden die Grundlage der Gruppierung, die somit ausschließlich nach mathematisch-statistischen und heuristischen Prinzipien, nicht jedoch auf Grund intuitiver, substanzwissenschaftlicher oder anderer Kriterien erfolgt. Wie bereits oben durch die Adjektive mathematisch, numerisch bzw. automatisch erkennbar, handelt es sich bei der Clusteranalyse um .objektive' Gruppierungen im Unterschied zu .subjektiven' Gruppierungen.
1.3 Ziel und Funktion Ziel und Funktion von Clusteranalysen können sehr unterschiedlich sein. Generell besteht das Ziel clusteranalytischer Verfahren in einer vereinfachenden Darstellung der Struktur der vorgegebenen Menge von Elementen. Das Prinzip systematischer Informationsverdichtung wird angewandt, um aus einer Fülle von Einzeldaten wesentliche Charakteristika der Struktur der Objektmenge erkennen zu können. Die Identifizierung der Struktur einer vorgegebenen Menge erlaubt jedoch keine Aussagen über die Beziehung der erstellten Lösung zu einer bestimmten Grundgesamtheit. Clusteranalysen haben die Funktion der Datenstrukturierung, nicht jedoch die der Schätzung spezieller Parameter einer Population. In Abgrenzung zu entsprechenden inferenzstatistischen Verfahren kann man Clusteranalysen als deskriptive Verfahren betrachten, obgleich die Organisation der Daten auf einem vergleichsweise höheren Niveau erfolgt als die Berechnung normaler statistischer Kenngrößen. Von dort werden Clusteranalysen auch oft zum faktorenanalytischen Modell in Beziehung gesetzt, dessen Prinzip bekanntlich in der Reduzierung einer Variablenvielfalt auf wenige, als Faktoren oder Dimensionen bezeichnete, hypothetische
1.3 Ziel und Funktion
15
Größen besteht. Da Faktorenanalyse und Clusteranalyse gewisse Gemeinsamkeiten besitzen, auf die im zweiten Kapitel spezieller eingegangen wird, könnte man etwas ungenau Clusteranalysen auch zu den dimensionsstatistischen Verfahren rechnen. Man vernachlässigt hierbei jedoch, daß Clusteranalysen nicht zur Grundkomponenten-, sondern zur Grundmusterzerlegung fuhren, was noch ausführlich dargestellt wird. Clusteranalysen befinden sich stärker auf der Ebene der Beobachtungsdaten. Damit ist verbunden, daß Clusteranalysen sehr oft geringere Anforderungen an die Datenqualität stellen und in vielen Situationen angemessener sein dürften als das häufig benutzte multivariate Standardmodell der Faktorenanalyse. Die konkrete Funktion von Clusteranalysen wird einsichtig, wenn man die praktischen Anwendungen analysiert, von denen wesentliche ohne Anspruch auf eine geschlossene Systematik kurz skizziert werden sollen: — Verhaltensweisen, Einstellungen, Testergebnisse, Organisationen, soziale Einheiten, Sprachen, soziale Prozesse usw. sind Gegenstand von Clusteranalysen in den Sozialwissenschaften. Die Anwendungen in der Soziologie, Psychologie, Kriminologie, Pädagogik, Publizistik, Politikwissenschaft usw. sind ausgesprochen zahlreich und vielfaltig. Mittels clusteranalytischer Verfahren werden ζ. B. gruppenspezifische Urteilstendenzen bei Lehrern (Lehrertypen) gesucht, Erziehungsstile nachgewiesen, Studenten nach ihren gesellschaftlich-politischen Attitüden gruppiert, Kommunikationsformen in sozialen Gruppen klassifiziert oder psychologische Testprofile strukturiert. Im schulischen Sektor interessiert man sich etwa für homogene Gruppen von .leistungsschwachen' Schülern, um differenzierte Förderungsmaßnahmen einleiten zu können. Ebenso lassen sich mittels clusteranalytischer Verfahren informelle soziale Subgruppen in der Schulklasse oder in anderen sozialen Verbänden und Kollektiven aufdecken. Zur Identifizierung dieser Interaktionsstrukturen würde man auf der Basis soziometrischer Daten die Schüler schrittweise danach zu Clustern zusammenfassen, inwieweit sie ähnliche Präferenzen abgeben. Ein anderes Gruppierungskriterium wäre etwa die Ähnlichkeit der Schüler hinsichtlich der erhaltenen positiven Wahlen. Zieht man die verschiedenen Konzepte der Clusteranalyse in Betracht, dürfte man in Zukunft bei derartigen Untersuchungen in einem weit größeren Maße als bisher zu pädagogisch, psychologisch oder soziologisch relevanten Ergebnissen kommen. — In den biologischen und medizinischen Wissenschaften sollen ζ. B. Pflanzen, Tiere, Mikroorganismen oder Patienten, Krankheiten, Symptome, Laborergebnisse usw. gruppiert werden. Analysiert wird die Strukturierung zellulärer Einheiten, die anhand ihrer Stoffwechselfunktion, Größe, Färbbarkeit und ihres Proteingehalts o. ä. bestimmten Clustern zugeteilt werden. Gerade aus der Biologie ist die Problematik einer adäquaten Systematisierung der Lebewesen geläufig. Umfassende taxonometrische Systeme werden entworfen, die
1. Einleitung
16
man mit Hilfe von Clusteranalysen konstruiert. Vorläufer derartiger Klassifikationen sind die bekannten Systeme von Linne (1735) und Adanson (1757). In der Medizin werden Symptomklassen gebildet, um Diagnose, Therapie und Prognose zu verbessern. - Ebenso vielfältig sind die Anwendungen in den Wirtschaftswissenschaften. Gegenstand sind hier Firmen, Produkte, Konsumenten, Verkaufsprogramme oder Aufträge. Relativ verbreitet ist die Strategie der Marktsegmentierung mittels clusteranaly tischer Verfahren, um möglichst homogene Absatzmärkte (Segmente) herauszufinden. — Mathematisch-naturwissenschaftliche und technische Anwendungen sind gleich verstreut wie unterschiedlich. Speziell werden Clusteranalysen im Rahmen der Mustererkennung (Pattern Recognition), Künstlichen Intelligenz, Informationswiedergewinnung oder allgemeiner der angewandten Systemtheorie eingesetzt. Sehr differenziert sind Verfahren und Methoden zur Klassifikation von Handschriften, Sprachsignalen, Fingerabdrücken oder etwa Radarsignalen. Allen Beispielen ist gemeinsam, daß Einsatz und Interpretation der Clusteranalyse entscheidend vom Untersuchungsziel determiniert werden. WesenÜiche Fragen und Schwierigkeiten entstehen jedoch nicht nur auf dem mathematischen und statistischen Gebiet, sondern — wie noch deutlich wird — im Bereich der Anwendung der Algorithmen.
1.4 Das Clusteranalyseproblem Das breite Spektrum der Anwendungsmöglichkeiten sollte dennoch nicht darüber hinwegtäuschen, daß die mittels clusteranaly tischer Verfahren erzielten Lösungen meist keine eindeutigen Lösungen sind und nur zu lokalen Extrema führen. Man vergegenwärtige sich zunächst, wieviele Gruppierungen einer Menge existieren. Sei E = {ej,..., e„ } die nichtleere, endliche Menge der zu gruppierenden η Elemente und G eine Gruppierung (Zerlegung) von E in k elementfremde Teilmengen oder Gruppen g,·, deren Vereinigung E ergibt, also fc E = U g,· 1=1
und
g,ng/=0
(/,/ = ; , . . . , k - , ί Φ ί )
17
1.4 Das Clusteranalyseproblem
Die Anzahl S(n, k) der bei k Gruppen möglichen disjunkten Zerlegungen (Partitionen) G von E läßt sich über die Formel berechnen
S(n,k) = ±κ ·
Σ (-1)1 •&·(*1 i= 0
i)n
bzw. im Anwendungsfall einfacher rekursiv über S(n + l,k) = S(n,k-l)
+ k- S(n,k)
mit
S(n, 1) = S{n, ή) = 1 S(n,k) = 0 für
n x / ) . Zulässig sind alle Transformationen, die die Rangordnung nicht verändern (monotone Transformationen). Beispiele ordinal skalierter Variablen sind die Bildungsskala mit ihren 5 Bildungsgraden (kein Abschluß, Hauptschulabschluß, Mittlere Reife, Abitur, Hochschulabschluß) oder etwa Einstellungsskalen (ζ. B. der gesellschaftlichpolitischen Attitüden), die meist 5- oder 7-stufig sind, m. a. W. all jene Fragen, deren Antworten sich in eine geordnete Folge bringen lassen wie insbesondere Ergebnisse von Wettbewerben (1., 2.... η-ter Rangplatz).
-
Auf einer Intervall-Skala lassen sich die Elemente so anordnen, daß sinnvolle Aussagen über Differenzen möglich sind. In der Skala ist nicht nur die Information über die relative Position (größer, kleiner, gleich-Relation) enthalten, sondern man kann angeben, um welchen Betrag sich e,· von e;- unterscheidet (Xf — Xj). Die Skala ist invariant gegenüber Transformationen der Form y = a + bx mit b > 0 (lineare Transformationen). Bekanntestes Beispiel ist die Temperaturskala in Celsius (C°). In der Psychologie werden oft Ergebnisse standardisierter Tests als Intervalldaten angesehen wie ζ. B. der Intelligenz-Quotient (IQ) und entsprechend verrechnet.
30
2. Grundzüge multivariater Verfahren
- Auf einer Ratio-Skala (Verhältnis- oder Absolut-Skala) werden die Elemente so angeordnet, daß in Erweiterung der Intervallskala die Position der Elemente relativ zum absoluten Nullpunkt der Skala zahlenmäßig angegeben werden kann. Unter einer Ratio-Skala versteht man also eine Skala, die den gleichen Anforderungen wie die der Intervall-Skala genügt (Additivität und Gleichheit der Meßeinheiten), nur daß hier zusätzlich ein Nullpunkt existiert, der empirische Bedeutung besitzt. Man wird daher informiert über das Verhältnis der Elemente, d. h. falls Ζ. B. x¡>x¡, ist e,· JC,·/^· mal größer als Erlaubt sind hier lediglich Proportionaltransformationen der Form y = bx mit b>0. Beispiele hierzu sind insbesondere physikalische Skalen (Zeit, Länge, Gewicht). Je höher das Skalenniveau ist, desto höher ist also der Informationsgehalt der Skala. Die Transformation von Daten einer höheren Skala auf eine niedrigere Skala ist unproblematisch (Niveau-Regression), allerdings wird hierbei auf einen Teil der Information verzichtet. Der umgekehrte Fall hingegen, Daten eines niedrigeren Niveaus auf ein höheres Niveau zu transformieren (Niveau-Progression), ist nur unter Zuhilfenahme zusätzlicher Information gerechtfertigt. Diese Skaleneinteilung, die auf [Stevens 1946] zurückgeht, ist nicht unumstritten, zumal es sich eingebürgert hat, statistische Verfahren und Modelle in Hinblick auf das Skalenniveau der gegebenen Daten auszuwählen (parametrische vers, nicht-parametrische Verfahren). Auf der einen Seite gibt es alternative und methodisch differenzierte Modelle des Messens [Suppes & Zinnes 1963], die auch Verfahren der Multidimensionalen Skalierung einschließen (Abschn. 2.8). Auf der anderen Seite finden sich recht pragmatische Vorschläge, etwa Ordinaldaten wie Intervall daten zu behandeln, da die entstehenden Meßfehler vernachlässigbar klein seien [Labovitz 1970], Ebenso wird hervorgehoben, daß bei Anwendung eines statistischen Verfahrens nicht das Skalenniveau, sondern das Zutreffen statistischer Annahmen, insbesondere über die Verteilungsform, ausschlaggebend seien [Lord 1953, Anderson 1961]. Ohne hier auf die bereits ältere Kontroverse zwischen den .Puristen' und ,Pragmatisten' („it works") Bezug nehmen zu können, wird diese Einteilung in vier Skalenniveaus im folgenden als grobes Raster verwandt. Im übrigen ist das Skalenniveau jeweils im konkreten Anwendungsfall zu bestimmen und ist — wie [Labovitz 1970] zutreffend bemerkt - oft dadurch zu erhöhen, daß man den Meßvorgang selbst rekonzeptualisiert.
2.3 Regressionsanalyse Das Problem, unter Kenntnis einer oder mehrerer unabhängiger Variablen χ ¡ 0 = 7, ...,m) eine abhängige Variable y optimal vorherzusagen, läßt sich mittels der Regressionsanalyse lösen. Es wird sowohl für die Prädiktorvariablen x ¡ als auch für die Kriteriumsvariable y Intervallskalenniveau vorausgesetzt.
31
2.3 Regressionsanalyse
Innerhalb eines pädagogischen Forschungsprojekts zur Entwicklung neuer Curricula wird im Sektor .Mathematik und Informatik' analysiert, durch welche Variablen x j sich die Studienleistungen y in einem ausgewählten Fach der vorgeschriebenen Zwischenprüfung am besten vorhersagen lassen. Jene Studenten, deren Prüfungsergebnisse vorliegen, werden befragt nach der,Stundenzahl der belegten/besuchten Vorlesungen' (x. ;),,Stundenzahl der belegten/besuchten Seminare' (x 2 ),,Stundenzahl der besuchten Übungsgruppen' ( x j ) , .Erreichte Punktzahl im Kurs A/B/C (x 4 , x 5 , x 6 ) usw. Die Ergebnisse sollen dazu dienen, bestehende Lehr- und Lernformen zu verbessern. Ausgangspunkt der multiplen Regressionsanalyse bildet somit die (n,m + 1)Datenmatrix:
jyi y2
X
11 x12 -xlm\ x x x l2 22— 2m
\yn
x
nl xn2 -
x
nJ
Die Werte der Variablen y sollen optimal durch eine Linearkombination
y = b0+
m Σ b,x, i=i
(2.3.1)
der unabhängigen Variablen
,..., x_m geschätzt werden (b 0 := (bg,...,
bo)').
Die Schätzung wird dann als optimal angesehen, wenn die tatsächlichen Werte y von den geschätzten Werten y insgesamt im Sinne der Fehlerquadratsumme möglichst wenig abweichen, wenn also gilt
q(b0,bj,...,bm)=
η Σ {y¡ —y i)2 ~ Min .
(2.3.2)
1=7
Theoretisch läßt sich der Vektor y durch zahlreiche Funktionen der χ ¡ schätzen. Man spricht dann auch von nichtlinearer Regression. Zudem sind anderer Optimalitätskriterien als die oben benutzte Fehlerquadratsumme denkbar. Eine notwendige Bedingung dafür, daß in (2.3.2) ein Minimum angenommen wird, ist, wie aus der Differentialrechnung bekannt ist, das Verschwinden der partiellen Ableitungen der Funktion q nach ihrem m + 1 Argumenten bo,b¡,..., bm.
32
2. Grundzüge multivaiiater Verfahren
Man erhält also durch partielle Differentiation àie Normalgleichungen: aq TT- = - 2 db
o
dq
m
" Σ iyi-(b
0
+
t=i
1
b,x„))
= 0
/ =7 m
"
~ = - 2
Σ
Σ 0 i - ( b i=l
0
+
Σ b,xti))xa j=l
= 0.
(2.3.3)
Hieraus ergibt sich für die m + 1 unbekannten Regressionskoeffizienten b0, b],..., bm das lineare Gleichungssystem m nb0+
η ( Σ xa)b0+ ί= 1
Σ i=l
η
η
bj( Σ χ i f ) = i=l
m
η
Σ yi i=l
(2.3.4)
η
Σ bj{ Σ x¡j χ ¡i) = Σ y^Xn , ί= 1 (=7 ϊ=7
1 = 1,...,
m.
Die (multiple) Regression wird nach der folgenden Rechenvorschrift durchgeführt η
η
η
1. Berechne die Summen Σ x¡j, Σ Xi/Xu, Σ Xy y¡ und somit die Koeffìzieni'=7 i'=7 1=7 ten des linearen Gleichungssystems (2.3.4). 2. Löse das lineare Gleichungssystem (2.3.4).
2.4 Varianz- und Kovarianzanalyse Wie die Bezeichnung nahelegt, besteht das Grundprinzip der Varianzanalyse in der Zerlegung der mittleren Abweichungsquadratsummen (Varianzen) in voneinander unabhängige Komponenten. Dies geschieht mit dem Ziel, Unterschiede zwischen den Mittelwertsvektoren der vorgegebenen Gruppen zu erkennen, die auf Effekte bestimmter unabhängiger Größen oder Faktoren zurückzuführen sind. Den abhängigen Variablen, die intervallskaliert sind und auch Kriteriumsvariablen genannt werden, stehen also eine oder mehrere unabhängige, mehrkategoriale nominale Variablen gegenüber. Bei der Varianzanalyse wird eine solche kategoriale Variable als Faktor ( F p ,p = 1,..., r) bezeichnet, die einzelnen Kategorien nennt man Faktorstufen (Fpq ; q = 1,..., kr). Ist man am Effekt nur eines Faktors interessiert (p = 7), wendet man die einfache oder fine-way' Varianzanalyse an. Soll
2.4 Varianz- und Kovarianzanalyse
33
der simultane Effekt von r Faktoren kontrolliert werden, handelt es sich um die Mehrwegs- oder ,r-wayk Varianzanalyse. Sind die Faktoren intervallskaliert, gleicht die Problemstellung der Varianzanalyse derjenigen der Regressionsanalyse (Abschn. 2.3). Sollen die Effekte sowohl der metrischen als auch der nicht-metrischen Faktoren untersucht werden, dient zur Beantwortung dieser Frage die Kovarianzanalyse. Im Rahmen einer pharmakologischen Studie werden verschieden synthetisierte Substanzen untersucht. Getrennt nach den Faktoren ,Art des Präparats' (F¡ ), einem Quotienten aus,Dosierungsmenge/Zeiteinheit' (F 2 ) und dem Faktor,Anteil der Substratkomponente AB' {F3) wird der pH-Wert des Magensaftes von Ratten gemessen. Diese Daten werden mit dem Ziel ausgewertet, den Einfluß der einzelnen Faktoren bzw. Faktorstufen sowie den Einfluß möglicher Wechselwirkungen zwischen den Faktoren bzw. Faktorstufen auf das salzsaure Milieu des Magensaftes und damit auf den funktionellen Zustand der Belegzellen der Magenschleimhaut angeben zu können. Obwohl hier ein Design mit drei Faktoren und eventuell mit Wechselwirkungen — also solchen Einflüssen, die allein durch das gemeinsame Auftreten von bestimmten Kategoriekombinationen in den Faktoren hervorgerufen werden — zugrunde liegt, werden wir zur vereinfachten Darstellung des Prinzips der Varianzanalyse die im Kontext der Clusteranalyse bedeutsame Zerlegung in einen Faktor mit k Stufen betrachten. In Anlehnung an die Verwendung der Varianzanalyse im Rahmen der Clusteranalyse bezeichnen wir die k Stufen auch als Gruppen. Der Modellansatz der Varianzanalyse läßt sich durch einfache Zusammenfassung der verschiedenen Mittelwertanteile in der Identität x , = x + ( x g / - x ) + (x,-xgz)
(2.4.1)
ausdrücken. Hierbei wird der Mittelwertvektor oder Gruppencentroid\g¡ Gruppe g, gemäß *g/ = ~
2 .x,·, ' i^ei
n,= lg/1
definiert und der Gesamtmittelwertvektor 1 x=- Σ n i=i = 1
Σ η, χ, il •
1=1
gemäß
der
34
2. Grundzüge multivariater Verfahren
Durch Subtraktion von χ auf beiden Seiten von (2.4.1) ergibt sich χ,· - χ = (x g ; - χ ) + (χ,· - x g / ) .
(2.4.2)
Hieran wird deutlich, daß der erste Term (x g ; — χ ) den eigentlichen Effekt der Faktoren angibt (Differenz der Gruppenmittelwerte vom Gesamtmittelwert). Der zweite Term (χ,· — x g / ) enthält die Abweichung des Elementes von seinen Gruppenmittelwerten und wird als Fehleranteil aufgefaßt. Multipliziert man (2.4.2) von rechts mit (x,· — x)' und summiert über alle η Elemente, so erhält man nach kurzer Rechnung
Σ (χ,· - χ ) (χ,· - χ )' = Σ Σ (χ,· - x g / ) (χ,· - \ g ¡ ) ' i=l 1 = 1 ieg; + Σ
K;(xg/-x)(xg/-x)'
1=1
Diese Gleichung ist unschwer als das bereits aus der univariaten Varianzanalyse bekannte Fundamentaltheorem zu erkennen, nach dem sich die Gesamtvarianz in zwei unabhängige Komponenten zerlegen läßt, von denen die eine die Gruppenunterschiede (= Varianz zwischen den Gruppen) und die andere die Fehleranteile (= Varianz innerhalb der Gruppen) betrifft. Bildet man die Streuungsmatrizen
(engl, scatter matrices)
Τ := Σ (χ(· — χ ) (χ,· — χ ) ' i=l
W:=
(Τ = , total scatter matrix1') ,
Σ Σ (x,.-xg;)(x,.-xg;)' 1=1 /eg/
(2.4.4)
(2.4.5) (W = ,within groups scatter
matrix'),
k B:=
Σ «,(xg/-x)(x 1=1
-χ)'
(2.4.6)
'
(Β = , between groups scatter matrix ') , kann (2.4.3) kuiz geschrieben werden als T = W + Β.
(2.4.7)
2.4 Varianz- und Kovarianzanalyse
35
Diese Gleichung wird bei anderen multivariaten Verfahren dieses Kapitels sowie bei speziellen Clusteranalysealgorithmen (Abschn. 4.3) noch von Bedeutung sein. Außerdem sind die folgenden statistischen Begriffe im weiteren Verlauf wichtig: Unter der Varianz s¡ der Variablen χ verstehen wir die Zahl
Σ (xij-x.j)2
und nennen s¡ die Standardabweichung
oder Streuung von x ,·.
Aus der Gesamtstreuungsmatrix Τ bilden wir Κ := — Τ η 1
=-
n Σ
" i=l
(*/-*)(*/-*)'·
Diese Matrix nennt man auch Varianz-Kovarianzmatrix oder empirische Kovarianzmatrix. Sie ist symmetrisch und positiv semidefinit (Kap. 7). Ihre Elemente k¡j sind - 1 kij -
n
" Σ (Xjj i—l
x j ) (Xj,
Xj) ;
in der Diagonalen stehen also Varianzen. Die Elemente außerhalb der Diagonalen nennt man dann auch Kovarianz terme. Als Kovarianzmatrix einer Gruppe gj definiert man die Matrix
K / : = — Σ (x, - x g , ) ( x , - x g , ) , ' iSg, bei der also nur über die Elemente aus g¡ summiert wird. Bildet man aus der Datenmatrix X durch die z-Transformation z
ij ~ sj
(xij
x
.j)
die Matrix Ζ und deren Kovarianzmatrix, so ergibt sich die Matrix R:=-Z'Z η
36
2. Grundzüge multivariater Verfahren
die man auch Korrelationsmatrix
r
ij
=
(si sj)
1
-
1 " Σ i=l
der Variablen Xj,...,
xm
nennt. Ihre Elemente
(xij-x.j)(xi,-x.i)
heißen (Produktmoment-) Korrelationskoeffizienten und stellen ein Maß für die Abhängigkeiten der Variablen χ ¡ und χ ¡ dar, wie aus der elementaren Statistik wohlbekannt ist. Für die Varianzanalyse läßt sich folgendes Prüfverfahren verwenden: Unter der Voraussetzung, daß die Variablen χ ;· multivariat normalverteilt sind und die Varianz-Kovarianz-Matrizen der Gruppen g¡(1 = 1,... k) annähernd gleich sind, wird als Teststatistik für die Hypothese, daß alle Mittelwertvektoren x g ; gleich sind, von [Wilks] die Größe Λ = d e t C r ' W)
(2.4.8)
(Wilks'schesLambda)vorgeschlagen. Mit (2.4.7) läßt sich diese Größe auch durch die Eigenwerte \¡ (j = 1,..., m) von Β ausdrücken
Λ = Π (7 +λ,·)-ι i=i
(2.4.9)
wenn man beachtet, daß die Determinante jeder Matrix sich als das Produkt ihrer Eigenwerte schreiben läßt. Für den kritischen Wert von Λ werden im allgemeinen Approximationen durch Quantile der F-Verteilung oder x 2 -Verteilung verwendet. Kleine Werte von Λ (fast 0) bedeuten deutlich unterscheidbare Gruppen, wohingegen große Werte von Λ (fast 1) geringe Unterscheidbarkeit der Gruppen anzeigen. Dies spielt noch bei der Diskriminanzanalyse und bei dem Determinantenkriterium in Abschn. 4.3.1.2 eine Rolle. Die verschiedenen anderen Designs von r Faktoren F p (ρ = 1,..., r) mit jeweils kp Stufen mit oder ohne Wechselwirkung mit regelmäßiger oder unregelmäßiger Zellbesetzung und zugehörige Teststatistiken können hier im Rahmen dieser Zusammenfassung nicht ausführlich diskutiert werden. Wir verweisen hierzu auf die einschlägige Literatur [Anderson 1958], Grundsätzlich besteht in allen Fällen die Gemeinsamkeit darin, daß durch geeignete additive Zerlegung der Gesamtvarianz (genauer der Gesamtstreuungsmatrix T) statistische Entscheidungskriterien gewonnen werden.
37
2.5 Kanonische Analyse
Die Varianzanalyse mit dem hier betrachteten Design eines Faktors mit k Stufen läßt sich folgendermaßen rechnerisch durchführen: 1. Berechne T , B , W 2. Berechne A = det ( T _ i W ) und damit Signifikanztest (siehe hierzu auch (2.6.5)) Die Kovarianzanalyse läßt sich inhaltlich zwischen der Varianzanalyse und der Regressionsanalyse einordnen. Hier wird eine abhängige Variable y wie bei der Regressionsanalyse durch einen linearen Ansatz ausgedrückt (b0 := (b 0 ,..., b0)'):
Y = t>o + bi
x
.i + ~. + bqxq
+bq+1\q
+ 1
+ ... + bmxm
+ f.
Die ersten q Variablen haben dabei die Bedeutung von qualitativen Variablen mit den Werten 0 oder 1, die also entsprechend der Varianzanalyse besagen, ob eine bestimmte Stufe eines Faktors vorliegt oder nicht. Die Variablen x.q + i bis xm werden als Kovariaten bezeichnet und entsprechen den unabhängigen Variablen bei der Regressionsanalyse. In der Kovarianzanalyse interessieren vor allem die varianzanalytischen Fragestellungen, d. h. man möchte den Einfluß der Faktoren auf die abhängige Variable ermitteln. Meist wird dann so verfahren, daß durch Regressionsschätzung y von y der Einfluß der Kovariaten auf y eliminiert und auf y — y eine Varianzanalyse angewandt wird.
2.5 Kanonische Analyse Die kanonische Korrelation zielt auf die Analyse von Zusammenhängen zwischen Gruppen von Variablen. Insofern in der,normalen' Korrelationsanalyse lediglich einzelne Variablen betrachtet werden, kann die kanonische Korrelation als Erweiterung des korrelationsstatistischen Ansatzes aufgefaßt werden. Von Interesse ist also, ob bzw. in welchem Maße zwei Variablengruppen (xj,..., x.m), (y.i> - . y . m O korrelieren. Die Berechnung der kanonischen Korrelation ist etwa bei folgender Fragestellung angezeigt. Im Rahmen eines psychologischen Forschungsprojekts zum Verhalten älterer Verkehrsteilnehmer werden einmal mittels verschiedener Tests zahlreiche Persönlichkeitsmerkmale (x ¡ , . . . , χ m ) erhoben; andererseits werden die Versuchspersonen mit unterschiedlichen Verkehrssituationen konfrontiert. Die jeweiligen Reaktionen werden über mehrere psychophysiologische Indikatoren quantifiziert, die schließlich zu einem weiteren Variablensatz (y ; , . . . . y m ' ) zusammengefaßt werden. Es wird u. a. gefragt, inwieweit zwischen diesen beiden Variablengruppen Beziehungen nachweisbar sind. Zu erwarten ist, daß bedeutsame kanonische Korrelationen resultieren, m. a. W. etwa sehr nervöse Versuchspersonen einen hohen,
38
2. Grundzüge multivariater Verfahren
und deutlich extrovertierte Versuchspersonen einen mittleren Grad an psychophysiologischer Aktiviertheit besitzen. Ausgangspunkt der kanonischen Korrelation bildet die folgende Datenmatrix. Die intervallskalierten Variablen wurden zwecks Vereinfachung der Rechnung durch z-Transformation zuvor normiert. X
11
x
•••
X
21
—
Xnj
...
lm
y il
2m
y 21
xnm
y ni -
x
- y i m \ ···
y 2m ynm'/
Die kanonische Analyse erfolgt schrittweise. Zuerst bildet man aus den Variablen der beiden Gruppen zwei standardisierte Linearkombinationen a; = c
] ]
t>; =dll
x
+...
1
Y.1
+
c
l m
+
x
m
y.m
und zwar unter der Bedingung, daß diese möglichst hoch korrelieren f b ]
Max .
Im zweiten Schritt wird ein weiteres Paar standardisierter Linearkombinationen »2 = c2i b2
\ i
+ -
+ c2m
\m
= d21 y.1 + ... + d2m·
y.rn
gebildet, für welches ebenso gilt r a 2 b 2 -*Max, das jedoch zusätzlich unabhängig von dem vorhergehenden ist raia2
= 0,
r
b l b 2
= 0 ,
r
a j b 2
= 0
und
r
b i a 2
= 0 .
Analog werden weitere Paare von standardisierten Linearkombinationen a p , b p (p = 1,..., q) gebildet, die jeweils möglichst hoch korrelieren, jedoch unabhängig von den vorhergehenden sind. Dies wird solange iteriert, bis keine bedeutsamen Korrelationen mehr zu erzielen sind. Man bezeichnet die Linearkombinationen ap, bp als kanonische Variablen und die zwischen ihnen vorhandene maximale K o r r e l a t i o n als kanonische
Korrelation.
2.6
39
Diskriminanzanalyse
Sei Κ ; ; die m-reihige Kovarianzmatrix der Variablen χ und Κ 2 2 die m'-reihige Kovarianzmatrix der y , K ¡ 2 = K21 sei die (m, m')-Kovarianzmatrix der χ u n d y. Ohne auf die weiteren mathematischen Herleitungen im einzelnen einzugehen, sei notiert, daß sich die Größen c und d aus den Eigenwertgleichungen K21 K 7 / K J 2 d = A K 2 2 d , Κ12 K
2 2
(2.5.1)
Κ21 c = λ Κ ; ; C .
ergeben. Die Eigenwerte \ ¡ > ... > \ q > 0 stimmen bei beiden Problemen überein u n d für die Eigenvektoren c ¡ , . . . , cq und d ; , . . . , gilt c, = XJ 1 ' 2 Κ]1] K i 2 d , ,
(2.5.2)
so daß nur eines der Eigenwertprobleme numerisch zu berechnen ist. Für die kanonische Analyse benutzt man folgendes Rechenschema: (1) Berechne K i 7 , K ; 2 , K 2 2 , Κ ] } und K ^ . (2) Löse das Eigenwertproblem (2.5.1) (3) Berechne die c gemäß (2.5.2). Die Bedeutung der einzelnen Variablen für die kanonischen Variablen erkennt man an den .Ladungen' c und d. Auf weitere Einzelheiten wie Bestimmung der signifikanten Zahl von kanonischen Variablen wollen wir hier nicht weiter eingehen. Auch hierfür läßt sich das Wilks'sche Lambda benutzen.
2.6 Diskriminanzanalyse Die Diskriminanzanalyse zielt darauf, vorgegebene Gruppen von Elementen in einem noch näher zu definierenden Sinne ,optimal' zu trennen (zu .diskriminieren'). Von Interesse ist hierbei sowohl der Beitrag, den einzelne Variablen zur Trennung der a priori Gruppen liefern, als auch mit welcher Wahrscheinlichkeit neue Elemente den bereits existierenden Gruppen richtig zugeordnet werden können. Die intervallskalierten Meßwerte der Elemente sind nach ihrer Zugehörigkeit zu einer der k Gruppen in einer (η, w)-Datenmatrix zusammengestellt. Als Gruppierungsvariable wird diejenige mehrkategoriale nominale Variable bezeichnet, welche die Gruppenzugehörigkeit der Elemente angibt. Bei einer Warentest- und Verkaufsstudie über Stereolautsprecherboxen in der Leistungsklasse 6 0 bis 100 Watt werden neben technischen Merkmalen, die etwa Nenn- u n d Musikleistung, Impedanz oder Frequenzgang betreffen, die wesentli-
40
2. Grundzüge multitfariater Verfahren
chen elektro-akustischen Eigenschaften gemessen. Zudem wird die Klangqualität hinsichtlich der Natürlichkeit der Wiedergabe von Sprache, Einzelinstrumenten und Orchestermusik durch eine unabhängige Jury von Fachleuten und Musikinteressierten beurteilt und mit einem speziell konstruierten Index bewertet. Diese Variablen (x ¡ , . . . , χ m ) werden für die Boxen der führenden in- und ausländischen Hersteller erhoben. Indem jeweils jene Boxen zu einer Gruppe zusammengefaßt werden, die einem festgesetzten Preisniveau angehören, ergeben sich k Gruppen (g^,..., g fc ). Von Interesse ist, ob und inwieweit sich diese Gruppen verschiedenen Preisniveaus in der technischen Leistung und Haltbarkeit, in den elektroakustischen Eigenschaften und in der Klangqualität unterscheiden. Nicht zuletzt stellt sich der Käufer die Frage, ob die teure Box zugleich die bessere ist, und in welcher Preisklasse eine Box gewünschter Leistung voraussichtlich ist. Zur einfacheren Beschreibung des Modellansatzes der Diskriminanzanalyse seien die Spalten der Matrix X durch z-Transformation normiert und mit z j , . . . , z_m bezeichnet. Diese sollen mit einer Transformation Η auf einen r-dimensionalen Unterraum ( . D i s k r i m i n a n z r a u m ) , der durch die Variablen y ¡ , . . . , y mit r < m aufgespannt wird, abgebildet werden (in Matrixschreibweise) r
Y = ZH
(2.6.1)
und zwar so, daß die k Gruppen dort möglichst gut getrennt erscheinen. Man fordert also, daß für die Variablen y ;· das Verhältnis der Abweichungsquadratsummen zwischen den Gruppen zu denen innerhalb der Gruppen maximal wird, und daß die Variablen paarweise verschwindende Kovarianzterme besitzen. Die Streuungsmatrizen T, B, W der y berechnen sich aus T, B, W (2.4.4)-(2.4.6) gemäß Τ = H'TH , Β = Η ΒΗ , W = H'WH . Ihre Elemente werden mit 7¡j, b¡j, vv,y bezeichnet. Die obige Forderung bedeutet dann, daß H so zu wählen ist, daß ~
h'.Bh,
b j j l w ü
"
"
=
~
—
-
hyWh,
maximal wird und außerdem gilt
y ' . y y . i y . i
= \ i
( j
=
l )
2.6 Diskriminanzanalyse
41
Diese Bedingungen werden nach bekannten Sätzen der Linearen Algebra gerade durch die Eigenvektoren hy des allgemeinen Eigenwertproblems Bh = XWh
(2.6.2)
erfüllt. Für den Rang r von Β gilt r < min(m, k — 1), so daß es maximal r nichttriviale Eigenvektoren h;· (J = 1,..., r) gibt. Die linearen Funktionen y., = Z h ,
(l =
(2.6.3)
l,...,r)
heißen Diskriminanzfunktionell und die neuen Variablen y ¡ nennt man kanonische Variablen oder auch (engl.) discriminant scores. Sie sind in der Weise definiert, daß große Schwankungen ihrer Werte vor allem auf Änderungen der Gruppenzugehörigkeit zurückzufuhren sind. Werden sie nach absteigenden Eigenwerten λ; > ... > λ,. > 0 numeriert, besitzen sie diese Eigenschaft in absteigendem Maße. Die Komponenten der Eigenvektoren h, dienen zur Beschreibung des Einflusses der Variablen auf die /-te Diskriminanzfunktion. Wir setzen nun voraus, daß die Variablen χ ¡ in den Gruppen g, (/ = 1,..., k) einer w-dimensionalen Normalverteilung N(x%¡, Κ/) mit Mittelwertvektoren x g ; und Kovarianzmatrizen K ; genügen. Dann kann man eine Schätzung angeben, welche es gestattet, Elemente mit unbekannter Gruppenzugehörigkeit in die Gruppe mit größter Wahrscheinlichkeit einzuordnen. Die Wahrscheinlichkeit eines Elementes x, zu der Gruppe g¡ zu gehören, ergibt sich mit Hilfe der Dichtefunktionen
fiOO = ((2π)"" det(K ; ))-^ 2 exp(- j ( x ~ x
g /
) ' K^(x-xg;))
aus der Beziehung
"(8'·Χ)=/ΤΓ^λ·
λ,. > 0 die positiven Eigenwerte der positiv semidefìniten Matrix R (mit dem Rang r) und U;,..., u,. die zugehörigen orthonormalen Eigenvektoren, welche die Matrix U bilden: RU = UA mit Λ = diag(X,). Sei A 1 ' 2 := diag(X/ /2 )· Dann ist wegen U'U = I R = UAU' = U A i / 2 A 7 / 2 U ' = (UA ; / 2 ) ( U A 7 / 2 ) ' .
(2.7.5)
Mit A = U A ; / 2 hat man also eine Lösung der Gleichung (2.7.4) gefunden. Eingesetzt in (2.7.1) lassen sich dann daraus die Faktorenwerte (Hauptkomponentenwerte) gemäß F = ZA(A'A)~ i
(2.7.6)
oder ausgehend von U A / / 2 F = ZUA"i/2
(2.7.7)
berechnen. Die Darstellung (2.7.4) ist nicht eindeutig. Mit orthogonaler (r, /-)-Matrix V, für die also gilt V'V = I, gilt Gleichung (2.7.4) ebenso für A = AV, denn R = AA' = (AV') (ÄV')' = ÀV'VÀ =
AA'.
45
2.7 Faktoren- und Hauptkomponentenanalyse
Man wählt die Matrix V nun so aus, daß die Matrix A der Faktorenladungen eine besonders einfache Gestalt erhält (Rotation zur Einfachstruktur). Hierzu existieren eine Reihe von Ansätzen wie etwa die Varimax-, Quartimaxoder Equimax-Rotation, die auf verschiedene Art eine solche Transformation erzeugen, daß die Ladungen möglichst nahe bei ± 1 oder 0 liegen. Fordert man nicht wie in (2.7.3), daß die Faktoren orthogonal sind, kann die Matrix V auch beliebig nichtsingulär sein {Schiefwinklige Rotation). Die durch Rotation gewonnene Einfachstruktur erleichtert die inhaltliche Identifizierung der Faktoren, die entsprechend den Ladungen der Variablen auf dem betreffenden Faktor erfolgt. Die Anzahl der Faktoren ist begrenzt durch den Rang r der Matrix R und somit durch die Anzahl nicht verschwindender Eigenwerte. Andererseits wird man die Faktorenanzahl möglichst gering halten wollen. Numeriert man die Eigenvektoren nach absteigender Größe der zugehörigen Eigenwerte λ,·, so haben die gemäß (2.7.4) und (2.7.7) konstruierten Faktoren die Eigenschaft, daß jeweils die ersten s < r und die Linearkombination (2.7.1) aus ihnen im Sinne der Fehlerquadratsumme die ursprünglichen Meßwerte am besten approximieren. Daher ist vertretbar, nur solche Faktoren zu verwenden, deren zugehörige Eigenwerte noch groß genug sind (ζ. Β. λ > 1) oder dann aufzuhören, wenn die Eigenwerte zu weiteren Faktoren nicht mehr deutlich voneinander verschieden sind oder nur noch linear abfallen (sog. ,Scree-Test'). Bisher haben wir die Faktorenanalyse rein linear algebraisch abgeleitet. Bei Zutreffen geeigneter Verteilungsannahmen (Normalverteilung) kann man nun die Eigenwerte als Varianzen auffassen und sagen, daß die gebildeten Faktoren f; gerade so konstruiert sind, daß f, und f ; - ( / Φ l') unkorreliert sind und f¡ jene Achse darstellt, welche den jeweils größten Anteil an der Varianz erklärt. Auch diese Interpretation legt es nahe, weniger als r (= Rang(R)) Faktoren zu extrahieren. Nimmt man daher nur s < r Faktoren, bei den Matrizen A, F, U also nur die ersten s Spalten, so sind die Beziehungen (2.7.1)—(2.7.7) nicht als Gleichungen sondern als Approximationen im obigen Sinne zu verstehen. Ein anderer Ansatz der .eigentlichen' Faktorenanalyse geht von der Annahme aus, daß in der Linearkombination noch Fehleranteile enthalten sind (vgl. 2.7.1) r
Zij = Σ a,;fii + Cjbjj 1=1 mit sog. Einzelrestfaktoren b ;·, die zueinander und zu den übrigen Faktoren unkorreliert sind. In analoger Schreibweise lautet das Fundamentaltheorem mit C := diag(cy) R = AA' + CC'
(2.7.4')
46
2. Grundzüge multivariater Verfahren
Die Diagonalmatrix CC' enthält als /-tes Diagonalelement denjenigen Varianzanteil 1 — hj der /-ten Variable, der sich durch die Faktoren nicht erklären läßt. Bildet man R h = R — CC', so gilt für R h analog (2.7.4) R h = AA'. Die weiteren Schritte erfolgen dann in entsprechender Weise. Die Diagonalelemente von R h sind in diesem Fall nicht gleich 1, sondern stellen die sog. Kommunalitäten hf < 1 dar, die den Anteil der erklärten Varianz der /-ten Variablen repräsentieren. Da diese zu Beginn nicht bekannt sind, müssen sie geeignet geschätzt werden (Kommunalitätenproblem). Die Ergebnisse der hier skizzierten Ansätze der Hauptkomponentenanalyse und der .eigentlichen' Faktorenanalyse unterscheiden sich insbesondere bei großen Variablen- und Elementanzahlen nur geringfügig. Es sei darauf hingewiesen, daß es noch eine Reihe anderer Lösungsansätze gibt, die der Spezialliteratur zu entnehmen sind. Für die Hauptkomponentenmethode läßt sich folgender Algorithmus formulieren: (1) Berechne R. (2) Löse das Eigenwertproblem Ru = Xu mit positiven Eigenwerten λ;,..., \ r (r = Rang(R)) und zugehörigen Eigenvektoren Uι,..., ur
(2') Bestimme die Anzahl interpretierbarer Faktoren. (3) Bilde die Faktorenladungen A = UA i / 2 . (4) Rotiere zur Einfachstruktur: A -»· Α. (5) Berechne die Faktorenwerte F = ZA(A'A) _ i . Die eigentliche Hauptkomponentenanalyse zielt lediglich auf die Berechnung der Hauptkomponentenwerte (2.7.7): (1) Berechne R. (2) wie oben (3) Büde F = ZUA" i / 2 Die Ansätze der Hauptkomponentenanalyse sind nicht einheitlich. Bisweilen wird die empirische Kovarianzmatrix Κ anstelle von R fur die Berechnung genommen. Dann entsprechen die Hauptkomponentenwerte gerade den durch die Transformation nach Mahalanobis (Abschn. 3.3.2/3.5) gewonnenen Daten.
2.8 Multidimensionale Skalierung Im Unterschied zu den bisher beschriebenen multivariaten Verfahren führte die Entwicklung der multidimensionalen Skalierung (MDS) zu einer relativ heterogenen Verfahrensgruppe. Vereinfachend lassen sich drei Schwerpunkte unter-
2.9 Zusammenfassung
47
scheiden, der Ansatz der,Klassischen MDS\ der ,Nichtmetrischen MDS' und derjenige der ,Unfolding' Verfahren. Da diese Ansätze recht verschieden sind, wollen wir hier nur das ihnen Gemeinsame kurz skizzieren. Nähere Angaben entnehme man den Arbeiten von [Shepard et al. 1972] oder im deutschen Sprachraum etwa [Ahrens 1974] oder [Scheuch & Zehnpfennig 1974, 146ff.]. Anhand eines Beispiels sei das allen Konzepten gemeinsame Vorgehen erläutert. Eine Reihe von Versuchspersonen soll vorgegebene m Politiker hinsichtlich ihres Sympathiegrades einstufen. Dies geschieht etwa durch paarweise Gegenüberstellung der Politiker und Angabe eines Wertes, der auf einer geeignet konstruierten Skala abgetragen wird. In diesem Fall sind also m(m —1)/2 Paarvergleiche durchzuführen. Danach läßt sich ein Ähnlichkeitsmaß zwischen den Politikern definieren wie z. B. die mittlere Ähnlichkeitseinstufung jedes Politikerpaars über alle Versuchspersonen. Ausgangspunkt der MDS sind also vergleichende Einstufungen der Variablenausprägungen über alle Elemente und Bildung einer Ähnlichkeitsmatrix der Variablen (in diesem Beispiel .Sympathie' zu Politikern). Das Ziel der MDS besteht dann darin, einen möglichst überschaubaren Raum zur Darstellung der Ähnlichkeitsbeziehungen zwischen den verschiedenen Variablen zu konstruieren. Zum einen gilt hierbei die Monotoniebedingung, nach der die Beziehung der Variablen im Ursprungsraum auch im reduzierten Raum erhalten bleiben soll. Zum anderen soll zugleich die Dimensionalität des konstruierten Raumes möglichst gering sein (Minimabedingung). An letzterer Forderung erkennt man übrigens die Verwandtschaft der MDS zur Faktorenanalyse. In unserem Beispiel wird daher eine Projektion in einen Raum niederer Dimensionalität gesucht, in dem unter Entsprechung der Monotoniebedingung die Ähnlichkeitsbeziehungen dargestellt und möglichst auch Skalenwerte hierfür in diesem Raum ermittelt werden können, die z. B. angeben, ob die Politiker A und Β sich ähnlicher sind als die Politiker C und D und in welcher Nähe A zu D steht. Insbesondere sollen sich die Achsen des konstruierten Raumes inhaltlich interpretieren lassen, so daß etwa dem Beispiel noch zu entnehmen wäre, welcher Politiker mehr .rechts' und welcher mehr,links' gesehen wird usw. Die Verfahren zur Durchführung der MDS sind nicht einheitlich dargestellt, so daß wir hier keines als Rechenvorschrift vorschlagen möchten, vielmehr sei auf die eingangs zitierte Literatur verwiesen.
2.9 Zusammenfassung Wie jeder Systematisierungsversuch ist auch die folgende graphische Zusammenstellung der multivariaten Verfahren nicht unproblematisch. Zum einen sind in ihr zwar die wesentlichen, allerdings nicht alle multivariaten Verfahren und An-
2.10 Übungen und Ergänzungen
49
sätze enthalten. Zum anderen werden im Anwendungsfall noch weitere Kriterien zur Auswahl eines multivariaten Verfahrens herangezogen werden. Das hier vorgeschlagene Flußdiagramm ist u. E. dennoch dazu geeignet, die bisher beschriebenen Verfahren in einen Zusammenhang zu stellen als auch auf die zahlreichen Einsatzmöglichkeiten clusteranalytischer Verfahren hinzuweisen. Multivariate Verfahren haben sich grundsatzlich dadurch unterscheiden lassen, ob sie auf diζ Analyse von Zusammenhängen oder auf die Analyse von Abhängigkeiten zielen. Im ersten Fall werden alle Variablen ohne vorherige Gewichtung oder Ordnung in das statistische Verfahren einbezogen. Bekanntes Beispiel hierzu ist das faktorenanalytische Modell aus Abschn. 2.7. Eine andere Situation ist gegeben, wenn die Variablen vor der statistischen Analyse entsprechend dem Untersuchungsziel unterschieden werden. So wurde etwa bei der multiplen Regressionsanalyse eine abhängige {Kriteriums-) Variable durch mehrere unabhängige (Prädiktor-) Variablen geschätzt (Abschn. 2.3). Dieses Schema läßt sich weiter aufgliedern, wenn man bei den auf die Analyse von Zusammenhängen zielenden Verfahren zusätzlich betrachtet, ob als Untersuchungsgegenstand , Variablen' oder,Elemente' genommen werden. Im konkreten Anwendungsfall wird man dieses Flußdiagramm unter Umständen mehrfach durchlaufen und so zu verschiedenen Kombinationen der einzelnen Verfahren kommen. Auf die jeweils in Abhängigkeit von der inhaltlichen Fragestellung zu treffenden Entscheidungen über mögliche Zusammenstellungen und Verbindungen multivariater Verfahren wird daher an dieser Stelle nicht Bezug genommen. Im Text selber finden sich noch Beispiele für die Anwendung der Clusteranalyse zur Gruppierung von Elementen, die anhand ihrer Faktorenwerte charakterisiert werden, und fur die Beurteilung der clusteranalytisch erstellten Lösungen mit Hilfe der Diskriminanzanalyse. Bevor die wichtigsten Clusteranalysealgorithmen genauer beschrieben werden, wird unter Bezug auf die auch im Flußdiagramm benutzte Differenzierung in verschiedene Meßniveaus einer Variablen (Abschn. 2.2.2) angegeben, aufweiche unterschiedliche Weise sich Ähnlichkeiten oder Unähnlichkeiten zwischen Elementen und Elementgruppen definieren lassen.
2.10 Übungen und Ergänzungen 1. Das Produkt zweier symmetrischer Matrizen ist nicht notwendigerweise symmetrisch. Man gebe ein Beispiel. 2. Die Inverse einer symmetrischen Matrix ist symmetrisch. 3. Man berechne die Regressionsgerade y = αχ + b durch Spezialisierung der Ergebnisse von Abschn. 2.3.
2. Grundzüge multivariater Verfahren
50
4. Verifiziere die Formel (2.3.3). 5. Verifiziere die Äquivalenz von (2.4.8) und (2.4.9). 6. Gegeben sei die («, m)-Matrix Z. Dann ist die Matrix R = ZZ' symmetrisch und positiv semidefinit. 7. Κ sei die Kovarianzmatrix von X j , . . . , χ m , und y . ; , . . . , y - m gegeben durch die Transformation y ; = C x / m i t regulärer Matrix C. Wie berechnet sich die Kovarianzmatrix der y ,·? 8. Man berechne das Maximum der F u n k t i o n / ( x ) = x'Ax unter der Nebenbedingung XX = 1 für die symmetrische Matrix A. 9. Das allgemeine Eigenwertproblem Αχ = λΒχ mit symmetrischen Matrizen A und Β und positiv definiter Matrix Β läßt sich durch die Lösung zweier symmetrischer einfacher Eigenwertprobleme behandeln. Wie? (Vgl. Anhang) 10. Die Eigenwerte der Matrix R = ZZ (vgl. Übung 6) seien ..., \ m mit zugehörigen Eigenvektoren X], . . . , \ m . Welche Eigenwerte und Eigenvektoren hat die Matrix S = Z'Z? 11. Man formuliere und beweise die in Übung 7 formulierte Aufgabe entsprechend für die Matrizen T, W und Β aus ( 2 . 4 . 4 ) - ( 2 . 4 . 6 ) . 12. Die Güte der Regressionsschätzung y fur die ursprünglichen Werte y läßt sich η
durch die Größe
Σ i=l
η ( y ¡ — y )
2
l Σ
( y ¡ — y )
2
ausdrücken. Man beweise, daß
i=l
diese Größe mit dem Produktmomentkorrelationskoeffizienten zwischen y und y übereinstimmt.
3. Ähnlichkeits- und Distanzfunktionen
3.1 Definition einer Ähnlichkeits- und Distanzfunktion Die Ähnlichkeit oder Unähnlichkeit zwischen Elementen und Elementgruppen kann auf sehr verschiedene Weise festgelegt werden. Je nach inhaltlichem Konzept werden dabei bestimmte Aspekte hervorgehoben und andere vernachlässigt. Das Quantifizieren von Ähnlichkeit' läßt sich formal als reellwertige Funktion s:EΧE R definieren, wodurch also je zwei Elementen e,·, e ; GE eine reelle Zahl s = s(e,·, e ; ) oder kurz s,y zugeordnet wird. Bei dieser Zuordnung von Elementen zu Zahlen werden Eigenschaften postuliert, die unserer Anschauung von Ähnlichkeit' sehr nahe kommen sollen. Die Funktion s wird so eingeschränkt, daß sie nur Werte im Intervall s^ < s < x; annimmt, wobei = s¡ maximale und s¡j = s0 minimale Ähnlichkeit bedeutet. Oft ist s0 = 0 und S] = 1. Für eine Ähnlichkeitsfunktion
s gelten folgende Axiome:
Sij
0 und 0 < δ < 1 stellen geeignet zu wählende Gewichtsfaktoren dar. So bedeutet 5 = 0 etwa in der Tab. 3.2.1.2, daß gemeinsames Fehlen von Eigenschaften nicht berücksichtigt wird, und 5 = 7, daß gemeinsames Fehlen von Eigenschaften voll berücksichtigt wird. Die Zahl λ hebt je nach Größe das Übereinstimmen (λ < 7) oder aber das Nichtübereinstimmen (λ > 7) hervor. Der Nachweis der Distanzeigenschaften für die aus den Ähnlichkeitsfunktionen sj,sj,ss und s γ gemäß d = 1 — s konstruierten metrischen Distanzfunktionen sei dem Leser als Übungsaufgabe empfohlen. Die obigen Ähnlichkeitsfunktionen s ; , S 2 , S j sind in dem Sinne äquivalent, daß die der Größe nach gebildete Reihenfolge der Ähnlichkeiten aller Elemente untereinander übereinstimmt. Die gleiche Monotonieeigenschaft gilt auch für s5, s6 und s 7 . Diese Bemerkung ist insofern wichtig, als die in Abschn. 4.2 zu beschreibenden wichtigen Verfahren für diesen Datentyp (Single-Linkage, CompleteLinkage) für äquivalente Ähnlichkeitsfunktionen die gleichen Ergebnisse liefern. Die Tab. 3.2.1.2 enthält die wichtigsten Ähnlichkeits- und Distanzfunktionen für binäre Variablen. Es lassen sich jedoch noch zahlreiche Ähnlichkeits- und Distanzfunktionen konstruieren, die, auf den jeweiligen Anwendungsfall zugeschnitten, gewisse Vorteile besitzen können. In [Sokal & Sneath 1963, 125 ff] sind weitere Beispiele aufgeführt. Die Frage nach Verteilung der Größe s zur Ermittlung von Signifikanzgrenzen ist im allgemeinen Fall noch nicht übersichtlich dargestellt. Es sei jedoch auf [Bock 1974, 48 ff) verwiesen. Wir betrachten nun eine nominale Variable ν mit r > 2 Kategorien. Sie läßt sich in r binäre Variablen (Hilfszustände) zerlegen, von denen die /-te den Wert 7 hat, falls diese Kategorie zutrifft und die übrigen / - 7 den Wert 0. Damit sind mehrkategoriale nominale Variablen auf binäre zurückgeführt, und die oben beschriebenen Ähnlichkeits- und Distanzfunktionen lassen sich entsprechend berechnen. Dieser Weg hat allerdings bei großer und unterschiedlich großer Anzahl von Zuständen in verschiedenen Variablen den Nachteil, daß er bei Ähnlichkeitsfunktio-
3.2
Ä h n l i c h k e i t s - u n d
D i s t a n z f u n k t i o n e n
bei qualitativen
O cd f* «β
(Λ > . ·*-» O •β Έ s ο
B f S
3
Ο
| . § S e §
1-1 w
.2
g S ff* s
·§
a
c
S oa
.S? ω
•S 3 •H a
Q
M S S -g o s > ™ M ο K sä s
1 Ο W
h
C Ό α> Χ · * * Ε -SP 3 S B » βο t, c a » ί u 6 ao o C Ό Ν < fi «
55
V a r i a b l e n
i Β
ΧΛ
O.
ε
3 OS
o
3« « «
λ
o β t n 5 O ο a í Λ S* o Ο
" en — c E 'g c υ β> χ) c a o -fj '-S -S « .a o β CLi
•m c •ïh Ν
«s
S
w υ
S Β
g
g
.2
s-(2
1 3 -H
Sí
«
9- Ν
ι
-a
•Q
+
c
M e P.
«1
+
ä o Ή
•—. 0 in dem Sinne äquivalent sind, daß die der Größe nach gebildete Reihenfolge der Ähnlichkeiten der Elemente für verschiedene Werte von λ erhalten bleibt.
67
3.6 Übungen und Ergänzungen
2. Mit d ist auch D : = pd/(l tion.
+ qd) für q > Ο, ρ > 0 eine metrische Distanzfunk-
3.Man zeige, daß die Distanz d5 := (b + c)¡m der L¡-Distanz für den Spezialfall binärer Daten bis auf den Faktor m entspricht und somit eine metrische Distanzfunktion ist. 4. Mit Übung 2 und 3 zeige man, daß die aus (3.2.1.1) für δ = 0, δ = 1 gemäß d = 1 — s gebildeten Distanzfunktionen für λ > 1 metrisch sind. An einem Gegenbeispiel zeige man, daß dies für λ < 1 nicht mehr gilt. Welche Aussagen lassen sich für 0 < δ < 1 machen? 5. Beweise llx — yll| = llxll^ + llyllf tion (3.1.17).
—
2\'y. Begründe hieraus die Transforma-
6. Die euklidische Distanz ist invariant unter linearen orthogonalen Transformationen. 7. Die mit (3.3.2.3) transformierten Meßwerte y,(/ = 1,..., n) haben den Mittelwert 0 und die Varianz 1. 8. Die Mahalanobis-Distanz (3.3.2.4) sowie die Distanzfunktion d ^ - ] ( x , y) : = [(x — y)' W 7 (x — y ) ] i / 2 mit W gemäß (2.4.5) ist invariant unter nichtsingulären linearen Transformationen. 9. Welche statistische Annahme über die Kovarianzmatrizen der Gruppen g/(/ = 1,..., k) liegt der Distanzfunktion (3.5.12) zugrunde? 10. Man beweise für die Transformationen (3.1.14), (3.1.15) und (3.1.16): d ist genau dann eine metrische Distanzfunktion, wenn s eine metrische Ähnlichkeitsfunktion ist. Für welche der Transformationen (3.1.11), (3.1.12), (3.1.13) und (3.1.17) gelten entsprechende Aussagen? 11. In (3.3.2.1) seien die Meßwerte schon so standardisiert, daß die Korrelationsmatrix mit der Kovarianzmatrix übereinstimmt. Dann stellen die mit (3.3.2.3) transformierten Meßwerte y¡ gerade die Hauptkomponentenwerte dar.
4. Clusteranalysealgorithmen
4.1 Vorbemerkung 4.1.1 Kriterien zur Systematisierung Im Unterschied zu anderen multivariaten Verfahren ist die Systematisierung von Clusteranalysealgorithmen nicht einheitlich und läßt sich nach sehr verschiedenen Kriterien vornehmen. Zweckmäßig ist u. E. eine Einteilung hinsichtlich des GruppierungsresM/tais, des Gruppierungsprozesses und des Gruppierungsfcnferiums. Wird die Form der gesuchten Gruppierung zur Systematisierung zugrunde gelegt, ergibt sich die generelle Trennung in hierarchische und nicht-hierarchische Verfahren. Man kann weiter danach differenzieren, ob die Cluster sich überlappen oder elementfremd sind {nicht-disjunkte und disjunkte Cluster). Eine nicht-hierarchische oder hierarchische Gruppierung, die entweder disjunkte oder nichtdisjunkte Cluster enthält, kann erschöpfend (exhaustiv) sein oder andererseits Elemente enthalten, die keinem Cluster zuzuordnen sind (nicht-exhaustiv). Werden Verfahren nach Art des Gruppierungsprozesses eingeteilt, unterscheidet man iterative von nicht-iterativen Verfahren. Bei hierarchischen Verfahren ist zu fragen, ob die Menge E der vorgegebenen Elemente als eine einzige Gruppe angesehen wird und sukzessiv in kleinere Teilmengen zerlegt wird (divisive Verfahren), oder ob eine Fusion einzelner Elemente zu immer umfangreicheren Clustern erfolgt (agglomerative Verfahren). Wird das Gruppierungskriterium herangezogen, lassen sich sequentielle und globale Verfahren unterscheiden. Sequentielle oder auch partielle Verfahren gelangen durch Berücksichtigung der in der Regel paarweise berechneten Distanz zur gesuchten Gruppierung, während bei globalen Verfahren die Distanz aller Elemente benutzt wird. Üblicherweise ist in diesen Fällen die vorgegebene Zielfunktion, die ein bestimmtes Distanzmaß repräsentiert, zu optimieren. Im übrigen findet sich noch die Unterteilung in polythetische Verfahren, die gemäß dem multivariaten Prinzip simultan alle Variablen zur Gruppierung verwenden, und monothetischen Verfahren, die pro Schritt jeweils nur eine Variable betrachten. Auf diese vergleichsweise kleine und praktisch kaum bedeutsame Verfahrensgruppe wird im Unterschied zu den polythetischen Verfahren im weiteren Verlauf nicht eingegangen.
70
4. Clusteranalysealgorithmen
4.1.2 Datenstruktur und Gruppierung Das gemeinsame Ziel der verschiedenen Clusteranalysealgorithmen besteht darin, die vorgegebenen η Elemente so zu gruppieren, daß sich die gebildeten Cluster hinsichtlich der benutzten m Variablen möglichst deutlich voneinander unterscheiden. Da die Elemente durch ihre Meßwerte der Variablen charakterisiert werden, ist unmittelbar einsichtig, daß eine sorgfältige Auswahl der Variablen besonders wichtig ist. Je nachdem, welche Variablen verwendet werden, können Form, Größe, Lage und Anzahl der Cluster sehr unterschiedlich sein. Dieses Verhältnis von natürlicher' Datenstruktur und mathematisch-statistischer bzw. heuristischer Gruppierung wird u. a. in den folgenden Fragen deutlich, die sich vor Durchführung einer Clusteranalyse stellen: — Welche und wieviele Variablen sollen berücksichtigt werden? — In welcher Beziehung stehen die Variablen zueinander? — Sollen die Variablen standardisiert bzw. normiert werden? — Welche Bedeutung hat das Skalenniveau der Variablen? Bei der Beantwortung der ersten Frage entsteht die nicht unerhebliche Schwierigkeit, nach der zu viele Variablen Redundanz bedeuten, zu wenige jedoch problemrelevante Information außer acht lassen. Dies Problem kann ebenso wie das der Gewichtung und Korrelation der Variablen, das in Frage 2 angesprochen wird, nur aus dem inhaltlichen Untersuchungskontext heraus bearbeitet werden. Unter Umständen ist es angezeigt, gewisse Variablen entsprechend ihrer inhaltlichen Bedeutung zu gewichten oder andererseits vorhandene Korrelationen zu eliminieren, um eine zu starke Betonung einzelner Dimensionen zu vermeiden. Die bei einer zeilen- oder spaltenweisen Normierung (Frage 3) auftretenden Effekte auf das Gruppierungsresultat können ausgesprochen groß sein, da bekanntlich jede Transformation die .natürliche' Struktur der Elemente modifiziert. So ergeben sich etwa bei Veränderung der Maßeinheiten einer Variable verschiedene Abstände und dadurch unter Umständen auch verschiedene Cluster. Die Bedeutung von Fragen der Normierung und damit verbunden der Skalierung wird durch die Diagramme in Abb. 4.1.2.1 deutlich. Der Übersichtlichkeit halber wurde der R2 gewählt. Durch Multiplikation mit einem konstanten Faktor verändert sich die relative Position der Elemente. Liegen im Fall (1) alle Elemente getrennt vor, bilden im Fall (2) die Elemente 1, 2 und 3,4 je ein Cluster, im Fall (3) hingegen die Elemente 1, 3 und 2,4. Dies ist nur ein Beispiel für mögliche Effekte bei Transformation der Daten. Insbesondere bei großer Variablen- und Elementanzahl werden derartige Änderungen des Gruppierungsresultats nicht so klar zu erkennen sein. Zur Vermeidung entsprechender methodischer Artefakte ist es erforderlich, neben der Präzisierung der Untersuchungsfragestellung und sorgfältigen Variablenauswahl bzw. -definition die
4.1 Vorbemerkung
71
©
10-
© 100
1000
100
100-
100
Abb. 4.1.2.1 Bedeutung der Skalierung für Clusterbildung.
von dem betreffenden Clusteranalysealgorithmus gestellten Implikationen genauer zu überprüfen. In der folgenden Darstellung wird dieser Aspekt besonders betont werden. Wie spezielle Probleme der formalen und inhaltlichen Beurteilung der erzielten Lösung angegangen werden können, wird ausführlicher im fünften Kapitel beschrieben.
4.1.3 Programmstandards Die Darstellung der verschiedenen Clusteranalysealgorithmen ist wie folgt gegliedert: a) Beschreibung des Algorithmus b) Bemerkungen (Konvergenz, Optimalität, Anwendbarkeit usw.) c) FORTRAN-IV Programmtext und Fallbeispiel d) Weitere Hinweise (Modifikationen, Implementierung, Kombinationsmöglichkeiten mit anderen Programmen usw.) Die unter c) angegebenen Programme wurden in FORTRAN-IV geschrieben, da die meisten Leser diese Programmiersprache beherrschen dürften und elegantere bzw. komfortablere Sprachen wie ALGOL 68, ALGOL W oder PL/1, die zur Darstellung von Algorithmen geeigneter sind, bisher eine vergleichsweise geringe Verbreitung gefunden haben. Die hier veröffentlichten Programm texte stellen lediglich das .Gerüst' des jeweiligen Verfahrens dar, und bei der praktischen Durchführung wird man etwa den Ausdruck von Überschriften oder Tabellen hinzufügen wollen.
4. Clusterartalysealgorithmen
72
Die Programme sind so flexibel gehalten, daß keine Änderungen notwendig sind, wenn die Elementanzahl n, Variablenanzahl m oder Clusteranzahl k unterschiedlich vorgegeben werden. Die Arrays werden daher in Form der eindimensionalen, halbdynamischen Speicherung angegeben. Sämtliche Arrays, deren Länge von n,m oder k abhängt, sind im aufrufenden Programm fest zu dimensionieren und werden zusammen mit aktuellen Längenangaben als Parameter der Subroutine übergeben. Dies führt zu vergleichsweise langen Parameterlisten, hat jedoch den Vorteil größerer Übertragbarkeit der Programme. Die Speicherung 2-dimensionaler Matrizen in einem 1-dimensionalen Array erfolgt anschaulich so, daß die Zahlen spaltenweise aneinandergefügt und in einen Vektor lückenlos hintereinander gereiht gespeichert werden. Hierbei sind folgende drei Fälle zu unterscheiden. ( 1 ) Beliebige unsymmetrische
Matrizen
Eine (η, w)-Matrix A wird entsprechend obigem Prinzip so in einen Vektor der Länge nm gespeichert, daß dort das Element a¿j an der Stelle n{j — 1) + i steht. Die lineare Folge der Elemente ist also a11a21
-anla12a22
-an2
-anm
.
(2) Symmetrische Matrizen mit Diagonale Da bei einer symmetrischen Matrix die Elemente unterhalb der Diagonalen spiegelbildlich zu denen oberhalb der Diagonalen sind (a,y = αμ), genügt es, nur die obere Dreiecksmatrix einschließlich der Diagonale spaltenweise in einen Vektor der Länge η (η + 1)12 zu speichern. Wie leicht abzuleiten ist, steht also das Element an an der Stelle und als lineare Reihenfolge ergibt sich a11a12a22ai3a23'i33
•••a¡„a2„ -ann
.
(3) Symmetrische Matrix ohne Diagonale Bei Distanz- oder Ähnlichkeitsmatrizen sind alle Diagonalelemente von vornherein bekannt (Kap. 3), so daß deren Speicherung überflüssig ist. Daher
4.2 Hierarchische Verfahren
73
wird die obere Dreiecksmatrix ohne die Diagonalelemente in einen Vektor der Länge n(n —1)12 spaltenweise hintereinandergefügt. Daraus entnimmt man, daß das Element a¡j an der Stelle steht und die lineare Reihenfolge lautet: a
12a 13a23a 14a24a34 - «In - ^η-Ι,η
·
4.2 Hierarchische Verfahren Die im folgenden beschriebenen Verfahren werden gewöhnlich unter der Bezeichnung ,Hierarchische Verfahren' subsumiert. Dieser Name stammt daher, daß durch diese Verfahren Folgen von Gruppierungen auf jeweils unterschiedlichen Distanz- oder Ähnlichkeitsebenen konstuiert werden und das Ergebnis dieses Prozesses anschaulich in einer Hierarchie von Qustern darstellbar ist. Zwei Cluster auf verschiedenen Distanz- oder Ähnlichkeitsebenen sind somit entweder elementfremd, oder eines der Cluster ist in dem anderen enthalten. Die Gruppierungsfolgen lassen sich einmal durch stufenweise Verfeinerung, zum anderen durch Vergröberung der Partition bilden. Wird ausgehend von der gröbsten Partition von E durch schrittweise Aufteilung die Gruppierung gebildet, spricht man von einem ,divisiveri Verfahren, während bei einem agglomerativeri' Verfahren die einzelnen Elemente sukzessiv zu Clustern und diese zu immer umfangreicheren Clustern zusammengefaßt werden. In diesem Fall bildet also die feinste Partition von E den Ausgangspunkt des Gruppierungsvorgangs. Das Ergebnis beider Vorgehensweisen der schrittweisen Division oder Agglomeration besteht in der Anordnung der Cluster auf unterschiedlichen Distanz- oder Ähnlichkeitsebenen und kann mit Hilfe eines Dendrogramms wiedergegeben werden. Je nachdem ob man die gesamte Struktur betrachtet, oder die bei einem bestimmten Distanzniveau vorliegende Gruppierung auf Grund inhaltlicher Entscheidungen über die notwendige Homogenität der Cluster zur Interpretation verwendet, handelt es sich um hierarchisch oder nicht-hierarchisch angeordnete Cluster, ohne daß jedoch im einen oder im anderen Fall zuverlässige Aussagen über die tatsächliche, den Daten immanente Struktur, abgeleitet werden können. Unabhängig von der realen Datenstruktur führen agglomerative und divisive Verfahren zu einer hierarchischen Repräsentation der Elemente. Ob hingegen die
74
4. Clusteranalysealgorithmen
Konstruktionsprinzip
Δ d
e
e 1
e 2
3
Π
e L,
V
e 5
e 6
e
divisiv 7
Abb. 4.2.1 Konstruktionsprinzip bei hierarchischen Verfahren-Dendrogramm.
einer Menge innewohnende hierarchische Struktur mit diesen Verfahren besonders gut aufgedeckt werden kann, ist andererseits nicht gewährleistet.
d¡
{1, 2, 3, 4, 5, 6, 7 }
d2
{1,2,3,4,5}
{6,7}
d3
{1,2,3,4,5}
{6} {7}
d4
{1,2,3} {4,5}
{6} {7}
d5
{1,2} { 3 } {4,5}
{6} {7}
d6
{1} { 2 } { 3 } {4,5}
{6} {7}
d7
{1} { 2 } { 3 } { 4 } { 5 } { 6 } { 7 }
Abb. 4.2.2 Cluster auf verschiedenen Distanzebenen aus Abb. 4.2.1
Ein Charakteristikum der hier angegebenen Verfahren besteht darin, daß man bei jedem Schritt nach einer effizienten und zugleich optimalen Vorgehensweise zur Fusion zweier Cluster oder Division eines Clusters in zwei Cluster sucht, ohne jedoch die auf diesem Niveau vorhandene Partition insgesamt zu berücksichtigen. So ist es keineswegs immer plausibel, jeweils nur zwei Cluster zu einem neuen zu vereinigen bzw. eines in zwei aufzuspalten. Daneben läßt sich ein einmal konstruiertes Cluster nicht wieder auflösen, wie dies bei nichthierarchischen Verfahren möglich ist.
4.2 Hieraichische Verfahren
75
Diese Eigenschaften schränken unter Umständen die praktische Anwendbarkeit hierarchischer Verfahren nicht unerheblich ein, so daß man eines der in Abschn. 4.3 erläuterten Verfahren bevorzugen wird. Für kleine Fallzahlen, auf die sich die meisten der weiter unten noch näher beschriebenen Algorithmen beschränken, sind diese agglomerativen Verfahren jedoch sehr schnell und daher gut geeignet fur die Berechnung einer Anfangsgruppierung, die mit einem iterativen Verfahren dann noch zu verbessern ist (vgl. Abschn. 4.3.2).
4.2.1 Agglomerative Verfahren Die fur zahlreiche agglomerative Verfahren grundlegenden Schritte lassen sich allgemein wie folgt angeben: (1) Beginne mit der feinsten Partition G := {gy,..., g„}, wobei g,· = {e,·}. (2) Suche diejenigen Gruppen, die unter allen übrigen Gruppen die minimale Distanz besitzen, somit die Gruppen g p und gq mit dpq = min dy . i*i (3) Fusioniere die Gruppen g p und g q zur neuen Gruppe g^ 6 ", wodurch sich die Gruppenanzahl um eins erniedrigt g"^" := gpUg^. (4) Ändere die q-te Zeile und Spalte der Distanzmatrix, indem die Abstände zwischen der neuen Gruppe g ^ und allen übrigen Gruppen neu berechnet werden, und streiche die p-te Zeile und Spalte. (5) Beende nach η — 1 Schritten, wenn also alle Gruppen in einer einzigen Gruppe zusammengefaßt sind, ansonsten fahre bei (2) mit der geänderten Distanzmatrix fort. Die verschiedenen Verfahren unterscheiden sich dadurch, wie im Schritt (4) die Distanz der neu gebildeten Gruppe zu den restlichen Gruppen festgelegt wird. Bevor die unserer Ansicht nach wichtigsten agglomerativen Verfahren, die alle im Programm AGGLOM implementiert worden sind, näher beschrieben werden, sei kurz auf mögliche Schwierigkeiten bei der Anwendung bzw. Interpretation hingewiesen. In bestimmten Fällen wird durch ein Verfahren der vorgegebene Gruppierungsraum modifiziert. Nach einer mehr qualitativen Einteilung von [Lance & Williams 1966, 374] tendieren manche Verfahren dazu, entferntere Elemente zu bevorzugen und diese noch einem Cluster zuzuordnen, wodurch — anschaulich gesehen — der Gruppierungsraum kontrahiert wird (,.Kontraktionseffekt'). Andere Verfahren wiederum haben die Tendenz, die Elemente zu sehr in einzelne und sehr kleine Gruppen zusammenzufassen, was einer Streckung des Gruppierungsraums entspricht (,Dilatationseffekt'). konservative'' Verfahren hingegen bewirken weder eine Streckung noch Kontraktion.
4. Clusteranalysealgorithmen
76
Ein anderes Problem ergibt sich beim Auftauchen sogenannter Inversionen. In jeder der im Schritt (3) angegebenen Verschmelzungen werden auf einem gewissen Distanzniveau, dem Minimum der betreffenden Distanzmatrix, zwei Gruppen fusioniert. Da der agglomerative Prozeß auf immer höherem Distanzniveau erfolgt, muß die Folge der η — 1 Minima monoton steigend sein. Dies ist jedoch dann nicht gewährleistet, wenn bei der Neuberechnung der O go . 2 Λ ^
2
• a ® i-J α>
•s
S
Ζ
M
J T3 υ ω
O.Í3 I 5
g