147 110 10MB
German Pages 182 [179] Year 2006
Matthias Dehmer
Strukturelle Analyse Web-basierter Dokumente
GABLER EDITION WlSSENSCHAFT Multimedia und Telekooperation Herausoegeben yon Professor Dr. Franz Lehner und Professor Dr. Freimut Bodendorf
Der technische Fortschritt und die rasante Entwicklung bei Computerund Netzwerktechnologien bewirken einen steigenden Informationsbedarf, dem diese Schriftenreihe mit aktuellen Forschungsergebnissen und Erfahrungsberichten Rechnung tragen will. Zwischen den Schwerpunkten Multimedia und Telekooperation bestehen zahlreiche Verbindungen und Wechselwirkungen, die durch die Diskussion in der Reihe aufgezeigt werden und Impulse f[ir die wissenschaftliche Auseinandersetzung bieten sollen. Da die Thematik auch f~ir die Unternehmenspraxis besondere Bedeutung hat, ist die anwendungsorientierte Darstellung ein zentrales Anliegen.
ml
c~ c~
m~
CD
~D
3
~D
m |
~D
CfJ
!
ml
~D
CT CZ
!
~D 0"
C~."
m l
C
Z~m
r--Ira
C~
CD
3
CZJ CD
m,i
c~
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet ~Jber abrufbar.
Dissertation Techn. Universit~it Darmstadt, 2005
1. Auflage Februar 2006 Alle Rechte vorbehalten 9 Deutscher Universitiits-Verlag/GWV Fachverlage GmbH,Wiesbaden 2006 Lektorat: Brigitte Siegel/Anita Wilke Der Deutsche UniversitiJts-Verlag ist ein Unternehmen von Springer Science+Business Media. www.duv.de Das Werk einschliel~lich aller seiner Teile ist urheberrechtlich gesch~Jtzt. Jede Verwertung aul~erhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verla.gs unzuliissig und strafbar. Das gilt insbesondere f~JrVervielfiiltigungen, Ubersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen,Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten w~iren und daher von jedermann benutzt werden diirften. Umschlaggestaltung: Regine Zimmer, Dipl.-Designerin, Frankfurt/Main Druck und Buchbinder: Rosch-Buch, Schel~litz Gedruckt auf siiurefreiem und chlorfrei gebleichtem Papier Printed in Germany ISBN 3-8350-0308-9
Vorwort Die vorliegende Arbeit entstand im Rahmen meiner T/itigkeit als Doktorand im Fachgebiet Telekooperation des Fachbereichs Informatik an der Technischen Universit/it Darmstadt. Meinem Doktorvater Prof. Dr. Max Miihlh/iuser danke ich fiir die grofie Freiheit, mit der ich fachlich das Thema bearbeiten und die Arbeit erstellen konnte. Dadurch, dass er mir alle MSglichkeiten innerhalb seines Fachgebiets zur Verftigung stellte und mich f6rderte, schaffte er die Voraussetzung ftir eine reibungslose Durchfiihrung der Arbeit. Diese Unterstiitzung hat mir sehr geholfen. Auch menschlich verdanke ich ihm sehr viel, so dass ohne ihn die Arbeit in der von mir angestrebten Zeit nicht zustande gekommen w/ire. Prof. Dr. Alexander Mehler, der die Zweitgutachtert/itigkeit iibernahm, danke ich einerseits fiir die besonders gute und fruchtbare Zusammenarbeit w/ihrend meiner Dissertationsphase. Unsere Zusammenarbeit im Rahmen von Publikationen und Diskussionen wirkte sich sehr positiv auf die Erstellung der Arbeit aus, so dass er mafigeblich die Qualit/it dieser Arbeit verbesserte. Weiterhin danke ich in diesem Zusammenhang Dipl.-Inform. Rfidiger Gleim, der im Rahmen dieser Arbeit mit grofiem Elan seine Diplomarbeit anfertigte. Damit unterstiitzte er mich stark mit Implementierungsarbeiten und anregenden Diskussionen. Dr. Frank Emmert-Streib danke ich zum einen ftir die/iufierst gute und erfrischende Zusammenarbeit und zum anderen ffir wertvolle und konstruktive Hinweise, betreffend Kapitel (6). Dr. Jfirgen Kilian gebiihrt mein Dank ffir die Mithilfe zur Kl/irung grundlegender Konstruktionsmerkmale des Graph/ihnlichkeitsmodells, insbesondere bezfiglich praktischer Aspekte der dynamischen Programmierung. Somit hat er wesentlichen Anteil am Gelingen des Kapitels (5), welches eine wichtige Grundlage fiir die Arbeit bildet. Dr. habil. Ulrike Brandt danke ich ftir die Diskussionen in der Anfangsphase meiner Arbeit. Ganz besonders mSchte ich meinem Vater Werner Dehmer danken, der mich in der Endphase der Arbeit finanziell unterstiitzte. Insbesondere danke ich meiner Frau Jana. Sie hat w/ihrend der Erstellung der Arbeit viel Geduld und Verst/indnis aufgebracht. Fiir das sprachliche Korrekturlesen dieser Arbeit bedanke ich mich bei Marion Dehmer-Sehn M.A., Dr. Sandra Bohlinger, Julia Hinske, Steve Hinske, Monika Lehr-Wleklinski, Dipl.-Inform. (FH) Nicolas Kalkhof und Dipl.Ing. Jana Miinzner. Dipl.-Inform. (FH) Karin Tillack danke ich fiir ihre Hilfe bei der Erstellung einiger Graphiken.
Matthias Dehmer V
Zusammenfassung Im Zuge der web-basierten Kommunikation und in Anbetracht der gigantischen Datenmengen, die im World Wide Web (kurz: Web) verfiigbar sind, erlangt das so genannte Web Mining eine immer stiirkere Bedeutung. Ziel des Web Mining ist die Informationsgewinnung und Analyse web-basierter Daten auf der Grundlage von Data Mining-Methoden. Die eigentliche Problemstellung des Data Mining ist die Entdeckung von Mustern und Strukturen in groBen Datenbestiinden. Web Mining ist also eine Variante des Data Mining; es kann grob in drei Bereiche unterteilt werden: Web Structure Mining, Web Content Mining und Web Usage Mining. Die zentrale Problemstellung des Web Structure Mining, die in dieser Arbeit besonders im Vordergrund steht, ist die Erforschung und Untersuchung struktureller Eigenschaften web-basierter Dokumente. Das Web wird in dieser Arbeit wie iiblich als Hypertext aufgefasst. In der Anfangsphase der Hypertextforschung wurden graphbasierte Indizes zur Messung struktureller Ausprggungen und Strukturvergleiche von Hypertexten verwendet. Diese sind jedoch im Hinblick auf die ghnlichkeitsbasierte Gruppierung graphbasierter Hypertextstrukturen unzureichend. Daher konzentriert sich die vorliegende Arbeit auf die Entwicklung neuer graphentheoretischer und iihnlichkeitsbasierter Analysemethoden. Ahnlichkeitsbasierte Analysemethoden, die auf graphentheoretischen Modellen beruhen, k6nnen nur dann sinnvoll im Hypertextumfeld eingesetzt werden, wenn sie aussagekrgftige und effiziente strukturelle Vergleiche graphbasierter Hypertexte erm6glichen. Aus diesem Grund wird in dieser Arbeit ein parametrisches Graphghnlichkeitsmodell entwickelt, welches viele Anwendungen im Web Structure Mining besitzt. Dabei stellt die Konstruktion eines Verfahrens zur Bestimmung der strukturellen Ahnlichkeit von Graphen eine zentrale Herausforderung dar. Klassische Verfahren zur Bestimmung der Graphiihnlichkeit beruhen in den meisten Fgllen auf Isomorphie- und Untergraphisomorphiebeziehungen. Dagegen wird in dieser Arbeit ein Verfahren zur Bestimmung der strukturellen J~hnlichkeit hierarchisierter und gerichteter Graphen entwickelt, welches nicht auf Isomorphiebeziehungen aufbaut. Oft wird im Rahmen von Analysen web-basierter Dokumentstrukturen das bekannte Vektorraummodell zu Grunde gelegt. Auf der Basis eines graphbasierten Reprgsentationsmodells wird dagegen in dieser Arbeit die These vertreten und belegt, dass die graphbasierte Reprgsentation einen sinnvollen Ausgangspunkt fiir die Modellierung web-basierter Dokumente darstellt. In einem experimentellen Teil werden die entwickelten GraphghnlichkeitsmaBe erfolgreich evaluiert und die aus der Evaluierung resultierenden Anwendungen vorgestellt.
VII
I nhalt sve rze ichnis
1 Einleitung 1.1
M o t i v a t i o n der A r b e i t
. . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Zielsetzung der A r b e i t
. . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
A u f b a u der A r b e i t
. . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.4
Wissenschaftlicher B e i t r a g der A r b e i t . . . . . . . . . . . . . . . .
7
Strukturelle Aspekte hypertextueller Einheiten
11
2.1
Hypertext und Hypermedia
11
2.2
P r o b l e m s t e l l u n g e n des W e b Mining 2.2.1
2.2.2 2.3
2.4
. . . . . . . . . . . . . . . . . . . . . .................
14
P r o b l e m e des World W i d e W e b beziiglich der I n f o r m a t i o n s s u c h e . . . . . . . . . . . . . . . . . . . . Bereiche des W e b Mining u n d deren K e r n a u f g a b e n
14 ....
16
Existierende graphentheoretische A n a l y s e m e t h o d e n von H y p e r t e x t s t r u k t u r e n . . . . . . . . . . . . .
20
2.3.1
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.3.2
MaBe fiir die s t r u k t u r e l l e A n a l y s e von H y p e r t e x t e n
22
2.3.3
Zusammenfassende Bewertung ................
30
2.3.4
Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
....
E x i s t i e r e n d e C l u s t e r i n g v e r f a h r e n zur Analyse hypertextueller Daten . . . . . . . . . . . . . . . . . . . .
31
2.4.1
I n t e r p r e t a t i o n von C l u s t e r l 6 s u n g e n
33
2.4.2
Hierarchische C l u s t e r i n g v e r f a h r e n
2.4.3
Partitionierende Clusteringverfahren
............. .............. ............
35 38 IX
2.4.4 2.5
2.6
2.7
Sonstige Clusteringverfahren . . . . . . . . . . . . . . . . .
40
Modellbildung: Polymorphie und funktionale Aquivalenz . . . . . . . . . . . . . . . . . . . . . . . .
43
Konkreter Modellierungsansatz auf der Basis von GXL . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
Zusammenfassende Bewertung und Fazit . . . . . . . . . . . . . .
47
G r e n z e n d e r inhaltsbasierten Kategorisierung von Hypertextstrukturen
51
3.1
Motivation
51
3.2
Das Testkorpus und die Extraktion web-basierter Hypertexte . . . . . . . . . . . . . . . . . . . . . . .
...............................
des maschinellen
Lernverfahrens
54
3.3
Motivation
............
56
3.4
Das Kategorisierungsexperiment . . . . . . . . . . . . . . . . . . .
59
3.5
Interpretation der Evaluierungsergebnisse . . . . . . . . . . . . . .
62
3.6
Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
Graphentheorie und strukturelle Ahnlichkeit: B e k a n n t e M e t h o den 4.1
X
67 Erforderliche Grundlagen . . . . . . . . . . . . . . . . . . . . . . .
67
4.1.1
Uberblick und Resultate der Graphentheorie . . . . . . . .
69
4.1.2
Ahnlichkeit strukturierter Objekte
72
4.1.3
Abstand, Distanz und Metriken . . . . . . . . . . . . . . .
.............
74
4.2
Strukturelle Ahnlichkeit yon Graphen . . . . . . . . . . . . . . . .
75
4.3
Graph Mining und weitere graphorientierte A h n l i c h k e i t s m a f i e . . .
80
4.4
Zusammenfassende Bewertung . . . . . . . . . . . . . . . . . . . .
89
Graphbasierte A n a l y s e u n d R e t r i e v a l : N e u e r A n s a t z
93
5.1
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
5.2
Gradsequenzen von Graphen . . . . . . . . . . . . . . . . . . . . .
98
5.3
Hierarchisierte und gerichtete Graphen
...............
102
5.4
Zentraler LSsungsansatz
.......................
105
5.5
Berechnungsgrundlagen . . . . . . . . . . . . . . . . . . . . . . . .
108
5.6
Strukturelle J~hnlichkeit hierarchisierter und gerichteter G r a p h e n .
113
5.7
Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
122
5.8
Experimentelle Ergebnisse
124
......................
5.8.1
E x p e r i m e n t e mit W e b s i t e - S t r u k t u r e n
............
5.8.2
E x p e r i m e n t e mit web-basierten D o k u m e n t e n . . . . . . . .
132
5.8.3
Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
137
6 Exkurs: Strukturvorhersage 6.1
7
125
139
Erkennung struktureller Beziehungen zwischen G r a p h m e n g e n . . . . . . . . . . . . . . . . . . . . . . . .
139
6.2
Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
142
6.3
Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
144
Zusammenfassung und A u s b l i c k
145
7.1
Z u s a m m e n f a s s u n g der Ergebnisse
7.2
Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
148
7.3
Weiterfiihrende Fragestellungen
151
Literaturverzeichnis
..................
...................
145
153
XI
Kapitel 1 Einleitung 1.1
M o t i v a t i o n der A r b e i t
Die Untersuchung von Strukturen ist aus der Sicht vieler Wissenschaftsbereiche ein aktuelles Forschungsthema. Dabei ist die Strukturanalyse einerseits in anwendungsorientierten Disziplinen und andererseits in theorieorientierten Forschungsbereichen von zentraler Bedeutung: 9 In der Linguistik wird intensiv die Struktur von Sprache, z.B. die syntaktische Sprachstruktur (Bar-Hillel 1964; Chomsky 1976) untersucht. 9 Die soziologische Forschung betrachtet z.B. Kommunikationsstrukturen (Bavelas 1950) und soziale Netzwerke (Harary 1959, 1974; Scott 2001). 9 In der Biologie und in der Biochemie spielen z.B. ffaktale biologische Strukturen (Sernetz 2001) eine grot3e Rolle. 9 Die Elektrotechnik untersucht Strukturen von Stromverzweigungen, elektrischer Netzwerke und Platinen. Aus diesen Beispielen geht zunS~chst nicht hervor, mit welchen Methoden und Formalismen die jeweiligen Strukturen modelliert werden. Da in dieser Arbeit relationale Strukturen in Form von Graphen als Repri~sentation komplexer Dokumentstrukturen eine wesentliche Rolle spielen, ist speziell das letzte Beispiel der obigen Aufz~hlung interessant. KIRCHOFF (Kirchhoff 1847) publizierte im Bereich der Elektrizit~tslehre bereits 1847 eine wichtige Arbeit bezogen auf die Theorie der Stromverzweigungen, die einen Grundstein der moder-
nen Graphentheorie I legte. Daran schlossen sich richtungsweisende Beitr~ige 2 von CALEY (Caley 1875), PETERSEN (Petersen 1891) und SYLVESTER (Sylvester 1878) an, die ihre Wurzeln ebenfalls in der Graphentheorie besitzen. Heute ist die Beschreibung von Strukturen ohne graphbasierte Modelle in vielen Wissenschaftsund Lebensbereichen nicht mehr vorstellbar, wobei Graphen in der Informatik, z.B. fiir die Darstellung von Rechnernetzen, breite Anwendung 3 finden. Die vorliegende Arbeit ist thematisch in einem Teilbereich des Web Mining (Chakrabarti 2002; Kosala & Blockeel 2000)- dem Web Structure Mining (Kosala & Blockeel 2000)- angesiedelt, weil sie strukturelle Modellierungsaspekte webbasierter 4 Dokumentstrukturen untersucht. Da der Umgang mit Computern allgegenw~irtig ist und die Menge an Dokumenten im Web bekanntlich exponentiell zunimmt, sind Hilfsmittel zur schnellen Erfassung, Klassifizierung und Aumndung von Dokumenten von zentraler Bedeutung. L~ingst wurde klar, dass Inhalt und Struktur vernetzter Dokumente hierbei relevant sind. Die vorliegende Arbeit konzentriert sich auf Strukturaspekte web-basierter Dokumente, welche in jiingerer Zeit immer st~irker ins Blickfeld riicken. Es existieren formale Ans~itze (d'Inverno et al. 1997; Fronk 2003; Lange 1990; Mehler 2001), die strukturelle Aspekte hypertextueller Dokumente beschreiben. Die ersten bekannten Arbeiten, die insbesondere die strukturelle Analyse von Hypertexten auf der Basis graphentheoretischer Methoden fokussierten, stammen von (Botafogo & Shneiderman 1991; Botafogo et al. 1992; Botafogo 1993). Dabei wurden bekannte Konzepte 5 der Graphentheorie verwendet, um Ma6zahlen- so genannte Indizes (Dehmer 2005; Mehler 2004) - fiir die Beschreibung struktureller Hypertextauspr~igungen zu entwickeln. Beispielsweise definierten BOTAFOGO et al. (Botafogo et al. 1992) als einen typischen Vertreter das bekannte Ma6 Compactness 6, welches den Grad der Vernetztheit einer Hypertextstruktur beschreibt. Die Aussagekraft solcher Ma6e ist jedoch sehr eingeschr~inkt, da die zu beschreibende Auspr~igung auf eine einzige Ma6zahl abgebildet wird. Damit folgt weiter, dass solche Ma6e nicht eindeutig interpretierbar sind. Unmittelbar daraus resultiert ein Problem, welches sich bislang negativ auf die Analyse hypertextueller Dokumente auswirkte (Dehmer 2005): Wegen der nicht eindeutigen Interpretierbarkeit und der damit verbundenden mangelnden Aussagekraft dieser Ma6e, ist eine Gruppierung ~ihnlicher Strukturen nicht mSglich, mit dem Ziel, ~ihnliche Funktionen oder sogar Qualit~itsmerkmale abzuleiten. Ein wichtiger Schritt lSiehe Kapitel (4.1.1). 2Weitere historische Beitr~ige zur Graphentheorie findet man z.B. im ersten Lehrbuch der Graphentheorie, welches von K6NIG (KSnig 1935) verfasst wurde. 3Fiir weitere Anwendungen siehe Kapitel (4.1.1). 4Web ist die Bezeichnung fiir das World Wide Web (WWW) (Bernes-Lee 2000). 5Siehe Kapitel (2.3.2). 6Siehe Kapitel (2.3.2).
fiir die Gruppierung strukturell ~hnlicher Hypertexte w~re die Entwicklung von Analysemethoden, die ganzheitliche Strukturvergleiche auf zwei gegebenen Hypertextgraphen zulassen. Strukturelle Vergleiche hypertextueller Graphmuster, bezogen auf die Interpretation lernpsychologischer Fragestellungen, fiihrten z.B. WINNE et al. (Winne et al. 1994) durch, wobei der Index Multiplicity 7 definiert wurde. Dabei ist Multiplicity lediglich auf der Basis der Kantenschnittmenge zweier Graphmuster definiert. Das impliziert, dass signifikante strukturelle Unterschiede zwischen Graphmustern durch die so erzielten Ahnlichkeitswerte nicht erfasst werden. Im Hinblick auf eine ~hnlichkeitsbasierte Gruppierung folgt schliefilich, dass die entstehenden Gruppierungen keine weitreichende Aussagekraft besitzen und damit schlecht interpretiert werden kSnnen. Somit scheidet die Klasse von Ahnlichkeitsmafien, die auf der Basis der Kantenschnittmenge definiert ist, fiir zukiinftige/~hnlichkeitsbasierte Analysen aus. Um eine bessere Wirkung hypertextueller Graphvergleiche zu erzielen, welche sich letztlich in einer wesentlich aussagekr/iftigeren Modellierung web-basierter Hypertexte auswirkt, wird in dieser Arbeit ein deutlich aussagef~higeres Graph~hnlichkeitsmodell entwickelt. Die eigentliche Zielsetzung der Arbeit und daraus resultierende Anforderungen werden nun in Kapitel (1.2) dargestellt.
1.2
Zielsetzung der Arbeit
In Kapitel (1.1) wurden Probleme graphentheoretischer Indizes kurz gefasst beschrieben. Der Einsatz graphbasierter Reprgsentationen zur Modellierung webbasierter Hypertexte im Hinblick auf Anwendungen im Web Structure Mining kann demnach nur dann erfolgreich sein, wenn die darauf aufbauenden Analysemethoden so viel komplexe Strukturmerkmale wie mSglich erfassen. Daraus ergibt sich die Anforderung ein Verfahren zu entwickeln, welches die strukturelle Ahnlichkeit graphbasierter Hypertexte ganzheitlich bestimmt. Dies stellt die eigentliche Herausforderung dieser Arbeit dar. Das Hauptziel dieser Arbeit wird nun folgendermafien formuliert: Das Hauptziel besteht in der Entwicklung iihnlichkeitsbasierter Analysemethoden hypertextueller Dokurnente auf der Basis ihrer hierarchischen Graphstruktur, urn einerseits anwendungsbezogene Problernstellungen irn Web Structure Mining, z.B. die strukturorientierte Filterung, besser als bisher zu 15sen. Andererseits sollen die entwickelten iihnlichkeitsbasierten Analysernethoden so flexibel sein, dass sic
7Siehe Kapitel (2.3.2).
fiir graphorientierte Problemstellungen in anderen Forschungsgebieten (Emmert-Streib et al. 2005) einzusetzen sind. Die Frage nach der Notwendigkeit eines graphbasierten Repr~entationsmodells fiir die ad~iquate Modellierung hypertextueller Dokumente wurde hierbei durch eine grundlegende Arbeit yon MEHLER et al. (Mehler et al. 2004) aufgeworfen. Dabei vertreten MEHLER et al. in (Mehler et al. 2004) die These, dass auf Grund der Ph~inomene Polymorphie und funktionale Aquivalenz web-basierte Einheiten nicht eindeutig kategorisierbar sind. Da in (Mehler et al. 2004) das bekannte Vektorraummodell (Ferber 2003; Mehler 2001) als Standardrepr~entation fiir web-basierte Dokumente eingesetzt wurde, ist die Frage nach der Erprobung eines neuen Repr~entationsmodells gerechtfertigt. In dieser Arbeit wird die These zu Grunde gelegt und belegt, dass die graphbasierte Repri~sentation hypertextueller Dokumente einen zentralen Ausgangspunkt einerseits ffir graphbasierte Modellierungen und ahnlichkeitsbasierte Analysealgorithmen und andererseits ftir anwendungsorientierte Aufgaben im Web Structure Mining darstellt. Dabei stellt die ganzheitliche Bestimmung der strukturellen J~hnlichkeit graphbasierter Dokumentstrukturen zunachst ein schwieriges Problem dar. Die bekannten Verfahren zur Bestimmung der Graph~hnlichkeit beruhen niimlich in vielen F~llen auf Isomorphie- und Untergraphisomorphiebeziehungen (Kaden 1982; Sobik 1982; Zelinka 1975). Da diese aus Komplexit~itsgriinden (Arvind & Kurur 2002; Ullmann 1976) ffir Graphen h6herer Ordnung nicht anwendbar sind, scheidet diese Verfahrensklasse zur massendatenorientierten Anwendung im Web Structure Mining aus. Deshalb ist ein Verfahren zur Bestimmung der Graph~ihnlichkeit im Web Structure Mining nur dann sinnvoll einsetzbar, wenn es grofie Datenmengen hinsichtlich Graphen hSherer Ordnung verarbeiten kann. Eine Vorgehensweise zur Ermittlung geeigneter Verfahren kSnnte- beispielhaft -sukzessiv folgende Fragen untersuchen: 9 Gibt es Ans~tze und Ideen, die Isomorphie- und Untergraphisomorphiebeziehungen aus Effizienzgrfinden umgehen? 9 Existieren strukturelle Kennzahlen s der zu betrachtenden Graphen, die effizient zu berechnen sind? 9 Wenn ja, sind solche Kennzahlen iiberhaupt zur Definition von Graphi~hnlichkeitsmafien aussagekNiftig genug?
9 Sind ausreichende MDglichkeiten fiirdie Gewichtung unterschiedlicher struktureller Aspekte (z.B. bei hierarchischen Graphen die Beriicksichtigung der H5henunterschiede 9) gegeben? SSiehe Kapitel (5.1). 9Siehe Kapitel (5.7).
9 Wie kann weiter vorgegangen werden, falls ein Graph/ihnlichkeitsmat3 gewisse Anforderungen nicht erftillt? Sind mSgliche Defizite auf der Basis von Parametern ausgleichbar? 9 Ist weitergehend die Entwicklung eines Verfahrens m6glich, das auf Grund seiner Konstruktion eine ganze Klasse von Ahnlichkeitsmafien definiert? 9 Sind solche Graphghnlichkeitsmafie nur im Bereich web-basierter Hypertexte nutzbar oder k6nnen sic auf Grund ihrer Konzeption fiberall dort eingesetzt werden, wo Graphghnlichkeitsprobleme bezfiglich derselben Graphklasse 1~ gestellt werden? Anhand dieser beispielhaften Vorgehensweise gewinnt man einen Eindruck fiber die Vielzahl der Fragestellungen, die auf der Suche nach einem Verfahren zur Bestimmung der strukturellen Graphghnlichkeit beantwortet werden mfissen. Entsprechend ist es ffir die vorliegende Arbeit von zentraler Bedeutung ein Graphghnlichkeitsmodell zu entwickeln, welches zur L6sung graphorientierter Problemstellungen im Web Structure Mining und verwandter Aufgaben in anderen Forschungsbereichen beitrggt.
1.3
A u f b a u der A r b e i t
Nach der Einleitung in Kapitel (1) gibt Kapitel (2) einen Uberblick fiber bestehende Data Mining-Konzepte (Han & Kamber 2001), wobei vor allem existierende Arbeiten der graphentheoretischen Analyse von Hypertexten detailliert besprochen werden. Weiter werden insbesondere die Clusteringverfahren (Bock 1974; Everitt 1993) ausffihrlich diskutiert, da sic in dieser Arbeit ein wichtiges Bindeglied zur ghnlichkeitsbasierten Dokumentanalyse darstellen. Ffir die Argumentationslinie der Arbeit sind die Phgnome Polymorphie (Mehler et al. 2004) und funktionale Aquivalenz (Mehler et al. 2004) von wesentlicher Bedeutung. Vorbereitend ffir ein Experiment im Bereich der inhaltsbasierten Kategorisierung werden in Kapitel (2) die dazu notwendigen Begriffe, zusammen mit einem graphbasierten Reprgsentationsmodell (Mehler et al. 2004), eingefiihrt. Das Kapitel (3) zeigt die Grenzen der inhaltsbasierten Kategorisierung in Form eines Experiments auf. Die Hypothese dieses Kapitels ist, dass Polymorphie und funktionale Aquivalenz charakteristisch fiir web-basierte Einheiten sind. Nach einer formellen Charakterisierung der Problemstellung werden die Ergebnisse der 1~ in dieser Arbeit betrachtete Graphklasse besteht aus knotenmarkierten, hierarchisierten und gerichteten Graphen. Siehe Kapitel (5.3).
SVM-Kategorisierung 11 interpretiert. Sie untermauern dabei nachhaltig die zu Anfang aufgestellte Hypothese. Die zusammengefasste Beschreibung des Forschungsstandes und der Kernaufgaben hinsichtlich der Graphentheorie ist Gegenstand von Kapitel (4). Neben einer Diskussion fiber den Ahnlichkeitsbegriff und der Einfiihrung wesentlicher Begriffe, wie z.B. Metrik, Abstand und Distanz, werden bekannte Methoden zur Bestimmung der strukturellen Ahnlichkeit von Graphen beschrieben. Das Ziel von Kapitel (4) besteht insbesondere darin, die mathematischen Fundamente der existierenden Verfahren zu beleuchten, um damit eine Abgrenzung zum neuen Ansatz leichter zu erreichen. In Kapitel (5) wird zun~chst die Motivation und der zentrale LSsungsansatz zur Bestimmung der Graph~hnlichkeit hierarchischer Graphen angegeben. Es stellt sich heraus, dass die Gradsequenzen gerichteter Graphen eine aussagekr~ftige Basis des neuen Verfahrens darstellen, jedoch nicht in Form einfacher Gradsequenzvektor-Vergleiche 12. Der wesentliche Aspekt, durch den sich das neue Verfahren von den in dieser Arbeit behandelten bekannten Verfahren abhebt, ist, dass die jeweiligen Graphen zun~chst in eindimensionale Strukturen transformiert werden. Die transformierten Strukturen werden auf der Basis bekannter Alignment-Techniken 13 (Gusfield 1997) weiterverarbeitet. Ein wichtiger Schritt in dieser Arbeit ist die Anwendung einer Gruppe multivariater Analyseverfahren (Backhaus et al. 2003), die Clusteringverfahren. Diese tragen zur LSsung anwendungsorientierter Problemstellungen im Bereich des Web Structure Mining bei. Kapitel (5) schliefit mit einer experimentellen Untersuchung ab. In dieser werden die entwickelten ~hnlichkeitsbasierten Analysemethoden auf bestehende web-basierte Dokumente angewendet. W~hrend sich der experimentelle Teil aus Kapitel (5) vornehmlich mit der anwendungsbezogenen Interpretation der gewonnenen ClusterlSsungen besch~ftigt, verfolgt das Kapitel (6) einen darfiber hinausgehenden Weg: Anhand vorgegebener Ahnlichkeitswertverteilungen zweier Graphmengen, wird die strukturelle Beziehung zwischen den Graphmengen untersucht. Die Evaluierungsergebnisse belegen, dass das eingesetzte Graph~hnlichkeitsmafi zur Erkennung komplexer Graphstrukturen geeignet ist. Weiter untermauern die Ergebnisse dieses Kapitels den sinnvollen Einsatz des verwendeten Graph~hnlichkeitsmafies im Web Structure Mining. Kapitel (7) fasst die Ergebnisse der Arbeit zusammen. Abschliefiend erfolgt einerseits ein kurz gefasster Ausblick bezogen auf weitere potenzielle Anwendungs11Siehe Kapitel (3.3). 12Siehe Definition (5.2.2) in Kapitel (5.2). 13Siehe Kapitel (5.5).
gebiete. Andererseits wird im Rahmen des Ausblicks eine bereits bestehende Anwendung des Graph~hnlichkeitsmodells aus Kapitel (5) erl~utert, die nicht im Bereich des Web Mining angesiedelt ist, und eine Aufstellung weiterfiihrender Fragestellungen angegeben.
1.4
W i s s e n s c h a f t l i c h e r B e i t r a g der A r b e i t
Im Bereich der strukturellen Analyse von Hypertexten existieren viele bekannte Arbeiten, z.B. (Botafogo & Shneiderman 1991; Botafogo et al. 1992; Botafogo 1993; Winne et al. 1994; Unz 2000), die insbesondere auf graphentheoretischen Modellierungsmethoden basieren. Ein Grot3teil dieser Arbeiten besch/fftigt sich mit der Definition und Analyse graphentheoretischer Indizes, die bereits in Kapitel (1.1) erwS~hnt wurden. Dabei dienen Indizes meistens zur strukturellen Charakterisierung typischer Hypertextauspr/~gungen und zur Beschreibung von Graphmustern im Zusammenhang mit Hypertext-Navigationsproblemen (McEneaney 1999, 2000; Unz 2000). Da die Aussagekraft und Interpretierbarkeit solcher Indizes sehr beschr~nkt ist, eignen sich Indizes nicht fiir die 5~hnlichkeitsbasierte Gruppierung von Hypertexten, welche aber den Schliissel fiir viele Anwendungen im Web Structure Mining darstellt. Diese Arbeit hat daher den Anspruch, graphentheoretische und ~hnlichkeitsbasierte Methoden zur strukturellen Analyse web-basierter Hypertexte zu entwickeln, damit bestehende Analysemethoden erweitert und verbessert werden. Anstatt des bekannten Vektorraumodells als Standardrepr/~sentation, wird in dieser Arbeit ein graphbasiertes Repr~sentationsmodell erprobt, welches auf hierarchisierten und gerichteten Graphen basiert. Dies geschieht mit dem Ziel, neue Repr/~sentationsmodelle fiir eine adequate Modellierung hypertextueller Dokumente zu erforschen. Die Vorarbeiten fiir die Entwicklung ghnlichkeitsbasierter Analysemethoden auf der Basis der hierarchischen Graphstruktur erfolgen in Kapitel (3). Kapitel (3) besch/fftigt sich mit einem Experiment zur inhaltsbasierten Hypertextkategorisierung. Diesem Experiment liegen die von (Mehler et al. 2004) definierten Begriffe Polymorphie und funktionale Aquivalenz zu Grunde, welche hinsichtlich hypertextueller Dokumente neuartig sind. In Kapitel (5) wird ein zentraler LSsungsansatz zur Bestimmung der strukturellen Ahnlichkeit hierarchisierter und gerichteter Graphen vorgestellt. In der vorliegenden Arbeit findet das Graph~hnlichkeitsmodell aus Kapitel (5) Anwendung beziiglich praxisorientierter Problemstellungen im Web Structure Mining. Mit Hilfe des Graph~hnlichkeitsmodells wird es m6glich, ganzheitliche Strukturvergleiche auf Hypertextgraphen durchzufiihren. Im Folgenden werden erzielte Erweiterungen auf der Basis des Graph~hnlichkeitsmodells angegeben. Diese Erweiterungen zeigen eine wesentlithe Verbesserung des Index-Konzepts auf:
9 Auf Grundlage des parametrischen Graphiihnlichkeitsmodells ist die Betonung vielfiiltiger Strukturaspekte mSglich, wobei damit alle komplexen Objektauspriigungen erfasst werden. 9 Im Gegensatz zu Indizes ist nun die Anwendung multivariater Analysemethoden mSglich. In dieser Arbeit werden speziell die Clusteringverfahren gewi~hlt, wobei diese zu den Struktur entdeckenden Verfahren gehSren. Auf der Basis aussagekr~ftiger Graphvergleiche werden damit viele Anwendungen verbessert, z.B. die strukturorientierte Filterung web-basierter Hypertexte. 9 Insgesamt erh~lt man ein generisches Modell zur Messung der strukturellen Ahnlichkeit hierarchisierter und gerichteter Graphen, welches in allen drei Teilbereichen des Web M i n i n g - Web Structure Mining, Web Usage Mining und Web Content Mining- anwendbar ist. Im Web Usage Mining ist das Graph~hnlichkeitsmodell aus Kapitel (5) z.B. zur Erzeugung und Erforschung graphbasierter Benutzergruppen 14 einsetzbar. Die Bestimmung der strukturellen Ahnlichkeit von Graphen stellt ein mathematisch schweres Problem dar. Klassische Verfahren zur Bestimmung der Graph~hnlichkeit beruhen in den meisten F~llen auf Isomorphie- oder Untergraphisomorphiebeziehungen. In Kapitel (4.4) erfolgen eine Diskussion und Bewertung bekannter Verfahren zur Bestimmung der strukturellen Ahnlichkeit von Graphen. Diese zeigen, dass solche Verfahren im Hinblick auf jene graphorientierte Problemstellungen nicht anwendbar sind, bei denen die Verarbeitung von Graphen hSherer Ordnung gefragt ist. Eine zentrale Konstruktionsidee des neuen Modells aus Kapitel (5) besteht darin, dass die betrachteten Graphen auf der Basis einer Abbildung in eindimensionale Strukturen transformiert werden. Es stellt sich heraus, dass die Ahnlichkeit der eindimensionalen Strukturen wesentlich effizienter bestimmt werden kann. Aus einer Menge von Ahnlichkeitswerten, die aus Alignments 15 der eindimensionalen Strukturen gewonnen werden, wird schliefilich ein finaler .Ahnlichkeitswert konstruiert, der die strukturelle Ahnlichkeit zweier Graphen ausdriickt. Kurz gefasst zeichnet sich das neue Modell durch die folgenden Vorteile gegenfiber bekannten Verfahren aus:
9 Starke Reduktion der Berechnungskomplexitiit. 9 Beriicksichtigung komplexer Kantenstrukturen wiihrend des Graphvergleichs. 9 Hohe Flexibilitiit durch ParametrisierungsmSglichkeiten. laSiehe Kapitel (7.2). 15Siehe Kapitel (5.5).
Auf Grundlage des neuen Modells wurden in dieser Arbeit folgende Ergebnisse erzielt und neue Anwendungsgebiete gefunden: 9 Bessere Beschreibungs- und Erforschungsm6glichkeiten bestehender graphbasierter Hypertexte. 9 Ableitung struktureller Aussagen beztiglich Testkorpora web-basierter Hypertexte. Dies geschieht z.B. auf Grundlage aussagekr/fftiger Ahnlichkeitswertverteilungen. 9 Strukturorientierte Filterung web-basierter Dokumente in Form von DOMStrukturen. Die Evaluierung des dazugeh6rigen Clustering-Experiments, welches in Kapitel (5.8.2) durchgefiihrt wurde, zeichnet sich durch hohe Precision- und Recallwerte aus. 9 Das Graph~hnlichkeitsmodell aus Kapitel (5) wurde v o n E M M E R T - S T R E I B et al. (Emmert-Streib et al. 2005) verwendet, um eine effiziente Methode zur Klassifikation grot3er ungerichteter Graphen zu entwickeln. Die bin~re Graphklassifikationsmethode wurde u.a. erfolgreich auf Microarray-Daten (Causton et al. 2003) aus Geb~rmutterhalskrebs-Experimenten angewendet, mit dem Ziel, Tumorstadien zu unterscheiden (Emmert-Streib et al. 2005).
Kapitel 2 Strukturelle Aspekte hypertextueller Einheiten Die Anwendung von klassischen Data Mining-Konzepten (Han & Kamber 2001) auf web-basierte Daten, wie z.B. die Clusteranalyse, wird als Web Mining (Chakrabarti 2002) bezeichnet. Ein Teilbereich des Web Mining, der in dieser Arbeit besonders im Vordergrund steht, ist das Web Structure Mining, welches die Aufdeckung und die Erforschung struktureller Aspekte web-basierter Hypertexte zum Hauptziel hat. Ausgehend yon einer kurzen Darstellung der Grundlagen von Hypertext und Hypermedia in Kapitel (2.1) hat das vorliegende Kapitel (2) das Ziel, eine verst~indliche Einfiihrung von Data Mining-Konzepten im Hinblick auf die Anwendung im Web Mining zu geben. Das Teilgebiet Web Structure Mining wird dabei besonders hervorgehoben, insbesondere graphentheoretische Methoden zur strukturellen Analyse von Hypertexten.
2.1
Hypertext und Hypermedia
Bekanntlich ist beim klassischen Medium Buch die Struktur und in der Regel auch die Lesereihenfolge sequenziell. Dagegen ist die Kerneigenschaft von Hypertezt 1, dass die textuellen Informationseinheiten, die so genannten Knoten, auf der Basis von Verweisen, auch Links genannt, in Form eines gerichteten Graphen, also nicht linear, miteinander verkntipft sind (Kuhlen 1991). Die einfachste graphentheoretische Modellierung einer Hypertextstruktur ist die Darstellung als unmarkierter gerichteter Graph ~ "- (V, E), E C_ V x V. V heit3t Knotenmenge und E heit3t Kantenmenge. Weiter bezeichnet man ein Element v E V als Knoten l In dieser Arbeit bezeichnet ein ,,Hypertext" konkrete Ausprggungen oder Instanzen (vgl. im Web: eine ,,Website"); Hypertext subsuInmiert in der vorliegenden Arbeit ,,Hyperrnedia" Software zur Handhabung von Hypertexten sei als ,,Hypertextsystem" bezeichnet. 11
und e E E als gerichtete Kante. Der Hypertext-Begriff wird in den Geisteswissenschaften und der modernen Informatik unterschiedlich interpretiert (Vogt 2000). So kann man abh~ngig vonder Fachdisziplin und vom Autor durchaus auf unterschiedliche Definitionen des Hypertextbegriffs stofien. Hypertext wird somit oft als Technologie, Methode oder Metapher bezeichnet (Vogt 2000). Tats~chlich wurden in der Literatur unz~hlige Definitionen und Auspr~gungen von Hypertext gegeben, siehe z.B. (Charney 1987; Conklin 1987; Delisle & Schwartz 1987; Halasz 1988; Nelson 1987; Oren 1987; Smith et al. 1987). Bei dieser Ffille von Definitionen- wobei die Autoren unterschiedliche Aspekte herausstellen- betont HOFMANN (Hofmann 1991) vier wichtige Kernpunkte, die er ffir eine vollst~ndige Charakterisierung von Hypertext in der Informatik als notwendig ansieht: Hypertexte haben die Gestalt yon gerichteten Graphen (Netzwerke). Die Knoten enthalten bzw. repr~sentieren die Informationen, die durch Verweise, die Links, miteinander verknfipft sind. Sowohl das Lesen als auch das Schreiben von Hypertext sind nichtlineare T~tigkeiten. Eine Datenstruktur, die diese Vernetzung unterstiitzt, ist dabei die Voraussetzung. Hypertexte sind nur in einem medialen Kontext, also maschinenunterstiitzt denkbar. Direkte Anwendungen davon sind klassische Hypertext- und Onlinesysteme. Hypertexte besitzen einen visuellen Aspekt. Das bedeutet, dass Hypertext nicht nur ein Konzept der Informationsstrukturierung, sondern auch eine Darstellungs- und Zugriffsform von textuellen Informationen ist. Auch in der Sprachwissenschaft und in der Linguistik wurde Hypertext als eine neue Form der schriftlichen Sprachverwendung studiert, z.B. (Lobin 1999; Storrer 2004). Dabei wurden insbesondere linguistische Aspekte, wie Kohdrenz- und Kohdsionsbeziehungen, in Hypertext untersucht. Eine bekannte Studie in diesem Problemkreis wurde von STORRER (Storrer 1999) durchgefiihrt. In dieser Arbeit geht es im Wesentlichen um die Fragestellung, ob die Ergebnisse fiber Untersuchungen von Koh~renzbildungsprozessen in linear organisierten Texten auf den Entwurf von Hypertexten iibertragbar sind. Weiterhin wurde die Problemstellung der automatischen Generierung von Hypertext aus natiirlichsprachigem Text untersucht, insbesondere wie und unter welchen Kriterien Hypertext automatisiert konstruierbar ist. Ein linguistisches Kriterium, welches als Grundlage zur Generierung von Hypertext aus Texten dient, wurde von MEHLER (Mehler 2001) angegeben. Historisch gesehen wurde die Hypertext-Idee aus heutiger Sicht zweifellos yon BUSH (Bush 1945) geschaffen. In seinem bekannten Artikel ,,As we may think" 12
(Bush 1945) beschrieb er das System Memex (Memory Extender), welches zum Ziel hatte, wissenschaftliche Dokumente nichtlinear zu verkniipfen und zu speichern, um dadurch die schon damals st~ndig wachsende Anzahl an wissenschaftlichen Publikationen fiir ein breites Publikum nutzbar zu machen. In seiner Ganzheit wurde dieses System jedoch nie realisiert, zumal es inkompatible Technologien (z.B. Buch und Microfiche) h~tte iiberbriicken miissen. Der eigentliche ,,Hypertext"-Begriff wurde in den sechziger Jahren durch NELSON gepr~gt. Er ffihrte die Ideen BUSH's weiter, indem er die technischen Voraussetzungen schaffte, um Hypertext auf Computersystemen zu realisieren. NELSON gilt als Architekt des universellen Hypertextsystems Xanadu (Nelson 1974), das aber oft als unrealistisch angesehen wurde, da es zum Ziel hatte, die Gesamtheit aller elektronischen Publikationen weltweit zu integrieren. Die Implementierung von Xanadu ist nur in Teilen erfolgt und wird bis heute fortgesetzt (Nielson 1993). Ein weiterhin sehr bekanntes Hypertextsystem ist Augment (Engelbart 1962), welches 1962 bis 1976 von ENGLEBART in Stanford realisiert wurde. Insgesamt gesehen wurden viele Hypertextsysteme entwickelt, wobei bekannte Vertreter z.B. gyperCard, NoteCards, Neptune/HAM und HyperTies (Schnupp 1992; Steinmetz 2000) sind. Detaillierte Informationen bezfiglich der genannten Hypertextsysteme findet man in (Hofmann 1991; Schnupp 1992; Steinmetz 2000). Der Begriff Hypermedia wird iiblicherweise gebraucht, wenn in Hypermedia-Dokumenten 2 nicht nur Texte, sondern auch multimediale Objekte wie Graphiken, Ton- und Filmsequenzen nichtlinear miteinander verknfipft werden. In der Literatur wird auf Grund dieses Sachverhalts bisweiten Hypertext (textbasiert) und Hypermedia (medienbasiert) als zwei disjunkte Kategorien betrachtet. Ffir diese Arbeit ist es sinnvoller Hypermedia unter Hypertext zu subsummieren. Hypertext beschreibt dann Dokumente mit Graphstruktur, Hypermedia meint die Untermenge, welche mehrere Medien einbezieht. Multimediasysteme werden in der Literatur klar von Hypertextsystemen unterschieden (Hofmann 1991; Steinmetz 2000), da in Multimediasystemen die Dokumentstrukturen modelliert werden, ohne deren strukturelle Aspekte hevorzuheben. Tiefere Einblicke fiber Hypermediaund Multimediasysteme geben z.B. STEINMETZ (Steinmetz & Nahrstedt 2004) und SCHULMEISTER (Schulmeister 2002), wobei SCHULMEISTER insbesondere didaktische und lernbezogene Aspekte von Hypermedia behandelt. Als Anwendungsgebiete von Hypertext und Hypermedia kommen mittlerweile unterschiedlichste Wissenschafts- und Industriebereiche in Frage. Anwendungsgebiete sind beispielsweise Biiro und Management, Konstruktions- und Fertigungsbereiche, Schule und Weiterbildung , technische Dokumentenverwaltung , elektronische Enzyklopiidien und Biicher, hyperteztuelle Produktkataloge und die Wissensrepriisentation (Kommers 1990; Schnupp 1992; Unz 2000). Weitere Uberblicke 2Im Sprachgebrauch ist ,,Hypertext" wie bereits definiert gebr~uchlich, abet nicht ,,Hypermedia", sondern ,,Hypermedia-Dokumente". 13
fiber die unterschiedlichen Anwendungsfelder sind in (Nielson 1996; Steinmetz 2000; Steinmetz & Nahrstedt 2004) zu finden.
2.2
Problemstellungen des Web Mining
Durch die Entstehung des World Wide Web (Bernes-Lee 2000), auch Web oder kurz WWW genannt, ist die Popularit~t von Hypertext in den neunziger Jahren deutlich gestiegen. 1989 wurde von BERNERS-LEE, einem damaligen Mitarbeiter des Forschungszentrums ffir Teilchenphysik (CERN) in Genf/Schweiz, die Idee des World Wide Web als Hypertextsystem geboren (Bernes-Lee 1989). Da in der vorliegenden Arbeit die Entwicklung graphentheoretischer Modelle ffir web-basierte Dokumentstrukturen fokussiert wird, erfolgt zuni~chst ein kurzer 0berblick fiber die Eigenschaften und Probleme des World Wide Web hinsichtlich der Informationssuche. Weiterhin werden die Kernbereiche des Web Mining detailliert dargestellt, wobei in dieser Arbeit das Web Structure Mining besonders thematisiert wird. Dies geschieht vor dem Hintergrund, dass das graphbasierte Modell aus Kapitel (5) zur Berechnung der strukturellen J~hnlichkeit web-basierter Hypertexte, zur LSsung von Problemstellungen im Web Structure Mining beitriigt.
2.2.1
P r o b l e m e des World W i d e W e b bezfiglich der I n f o r m a t i o n s s u c h e
Im klassischen Information Retrieval (IR) (Baeza-Yates & Ribeiro-Neto 1999; Ferber 2003) werden auf der Basis von Informationssystemen Fragestellungen der inhaltsorientierten Auffindung und Gewinnung (Retrieval) von Informationen in grofien Datenbest~nden untersucht. Dabei ist eine Benutzeranfrage an das System von zwei im Information Retrieval enthaltenen wesentlichen Begriffen gepr~gt (Baeza-Yates & Ribeiro-Neto 1999; Ferber 2003; Schauble 1997): 9 Vagheit: Das Informationsbedfirfnis kann durch den Benutzer nicht pr~zise
und formal formuliert werden. 9 Unsicherheit: Sie wird meistens durch die nicht aussagekr~ftige Semantik,
also durch fehlende inhaltliche Informationen in den vorliegenden Dokumenten oder Texten induziert. Vereinfacht gesehen, kann man das World Wide Web als sehr grofie und inhomogene Datenbank betrachten, die ti~glich viele Millionen Benutzeranfragen fiber 14
die verftigbaren Suchdienste erh~lt. BAEZA-YATES et al. (Baeza-Yates & Ribeiro-Neto 1999) stellen die Probleme des World Wide Web hinsichtlich der Informationssuche detailliert vor: Einerseits beziiglich der Daten und andererseits bezogen auf systemabh/~ngige Benutzeranfragen und deren Interpretation. Der erstgenannte Problemkreis wird dabei in folgende Unterpunkte untergliedert: 9 Verteilte Daten: Die Daten sind auf Grund der netzwerkartigen Struktur
des Webs auf viele Plattformen verteilt, wobei die Rechner in unbekannter Weise miteinander vernetzt sind und ihre Funktionssicherheit stark variiert. 9 Hoher Anteil an unbestgndigen Daten: Grot3e Datenmengen /indern sich
innerhalb kurzer Zeit. 1999 wurde ermittelt, dass sich zu dieser Zeit ca. 40% vom Gesamtinhalt des World Wide Web monatlich/inderte. 9 Grofle Datenmengen: Das Web unterliegt einem exponentialen Datenwachs-
turn, das Skalierungsprobleme induziert. 9 Unstrukturiertheit und Redundanz: Die meisten Dokumente im Web sind
unstrukturiert und inkonsistent, insbesondere gTML-Seiten. Grot3e Datenmengen werden kopiert oder gespiegelt, wodurch beachtliche Mengen an redundanten Daten entstehen. 9 Qualitiit der Daten: Da es eine unzureichende Datenkontrolle gibt, die z.B. inhaltlich fehlerhafte Dokumente im World Wide Web vor dem Upload ill-
tert, kann jeder beliebige Benutzer Daten einstellen, was die Qualit~t der Ergebnisse von Suchanfragen sehr beeintr~chtigt. 9 Heterogenitiit der Daten: Die Daten besitzen unterschiedliche Datentypen,
z.B. Text, Graphik und Video und unterschiedliche Sprachalphabete. Der zweite Problemkreis umfasst im Wesentlichen die Kernpunkte: 9 Richtige Formulierung von Benutzeranfragen und deren Interpretierbarkeit. 9 Interpretation von Systemantworten - u.a. die Selektion von ,,nutzbaren" Treffern- und Umgang/Optimierung von grofien Trefferlisten. Auf Grund der aufgefiihrten Probleme wird klar, dass das Ziel, brauchbare Benutzeranfragen zu formulieren und Systemantworten auf der Basis von Information Retrieval-Methoden zu optimieren, eine grot3e Herausforderung darstellt. Um eine bessere Vorstellung von den Komponenten einer Suehmasehine zu bekommen, sei die Abbildung (2.1) (Baeza-Yates & Ribeiro-Neto 1999) betraehtet. Am Beispiel dieser Abbildung werden die wesentlichen Komponenten der Suchmasehine kurz umrissen, die hier aus zwei B16cken bestehen: (i) aus dem Benutzer-Interface 15
9J Query Engine
Index
"1 Userinterface
User
..I
Indexer
Crawler
WWW Abbildung 2.1: Crawler-Indexer Architektur auf der Basis der Suchmaschine Alta Vista und der so genannten Query Engine und (ii) aus dem Crawler und dem Indexer. Wenn die Anfrage fiber das Benutzer-Interface zur Query Engine iibertragen wird, fiihrt die Query Engine eine Datenbankabfrage aus, mit dem Ziel, eine Rangordnungder Ergebnisdokumente zu erzeugen. Die Gfite solcher Abfragen wird oft mit den Performancemat3en (Ferber 2003) Recall und Precision 3, die aus dem Information Retrieval stammen, gemessen. Der Indexer bestimmt dabei, welche Inhaltsfragmente zur Indexierung gew~hlt werden, z.B. Plaintext, Ankertexte oder Meta-Tags. Das Sammeln der web-basierten Dokumente iibernimmt der Crawler, wobei die Breiten- und Tiefensuche bekannte Suchstrategien von Crawlern sind. Detaillierte Ausffihrungen fiber die Hintergriinde von Suchstrategien im World Wide Web sind bei CHAKRABARTI (Chakrabarti 2002) und BAEZA-YATES et al. (Baeza-Yates & Ribeiro-Neto 1999) zu finden. Eine umfassende Darstellung der Infomationssuche im World Wide Web mit Hinweisen zur Optimierung von Benutzeranfragen an Suchmaschinen liefert GLOGGLER (GSggler 2003).
2.2.2
Bereiche
des Web
Mining
und
deren
Kernaufgaben
In der wissenschaftlichen Literatur werden die Begriffe ,,Data Mining" und ,,Wissensentdeckung" oft unterschiedlich definiert (Berry & Linoff 1997; Fayyad et al. 3Die Definitionen von Recall und Precision werden in Kapitel (3.5) auf der Basis einer Kontingenztabelle angegeben. 16
1996). So geben z.B. WROBEL et al. (Wrobel et al. 2003) die Definition des Begriffs ,,Wissensentdeckung" folgendermat3en an (Fayyad et al. 1996; Wrobel et al. 2003):
,, Wissensentdeckung in Datenbanken ist der nichttriviale Prozess der Identifikation giiltiger, neuer, potenziell niitzlicher und schlussendlich verst~indlicher Muster in (groflen) Datenbestgnden." Als Teilschritt des Wissensentdeckungs-Prozesses bezeichnen WROBEL et al. (Wrobel et al. 2003) Data Mining als den eigentlichen Analyseschritt, das heifit, die Suche und Bewertung von Hypothesen. Entsprechend werden in kommerziellen 4 Bereichen Data Mining-Verfahren (Berthold & Hand 1999; Han & Kamber 2001; Witten & Eibe 2001) oft eingesetzt, um die gigantisehen Datenmengen in vielen industriellen und wissensehaftlichen Bereichen zu analysieren und dabei neues Wissen zu generieren. Beispielsweise liegen in vielen Unternehmen grofie Mengen von Kundendaten vor, jedoeh ist das Wissen fiber die Anforderungen und fiber das Verhalten der Kunden oft unzureiehend. Solehe Datenbest~nde werden in Data Warehousing-Systemen gespeichert und mit Methoden des Data Mining untersueht. Das Ziel einer solehen Untersuehung ist die Entdeekung von statistisehen Besonderheiten und Regeln innerhalb der Daten, die beispielsweise ffir Studien des Kunden- oder Kaufverhaltens eingesetzt werden. Die Sehwerpunkte der Data Mining-Methoden, die oft in der Praxis angewendet werden, lassen sieh mit Hilfe der folgenden Ubersicht erl~tutern: 9 Die Suche nach Assoziationsregeln (Hastie et al. 2001): Ein bekanntes Beispiel ist die so genannte Warenkorbanalyse, die zum Ziel hat, aus dem aktuellen Kaufverhalten Assoziationsregeln ffir zukfinftiges Kaufverhalten abzuleiten. 9 Die Clusteranalyse (Everitt 1993): Der entscheidende Unterschied zwischen der Clusteranalyse und der Kategorisierung ist, dass bei der Clusteranalyse das Klassensystem von vornherein unbekannt ist. Das Ziel ist die Gruppierung 5 der Datenobjekte in Gruppen (Cluster), so dass sich die Objekte innerhalb eines Clusters mSglichst ~hnlich und zwischen den Clustern mSglichst un~hnlich sind. Dabei basiert die .~hnlichkeit zwischen den Objekten auf einem jeweils problemspezifischen Ahnlichkeitsmat3. 9 Die Kategorisierung (Duda et al. 2001): Sie stellt Verfahren ffir die Einordnung von Objekten in Kategoriensysteme bereit. Die Kategorisierung stellt 4Wissensentdeckung und Data-Mining werden im kommerziellen Bereich meistens nicht unterschieden (Wrobel et al. 2003). 5Die Gruppierung wird in dieser Arbeit auch als Clusterung bezeichnet.
17
mit Hilfe von Zusammenh~ngen zwischen gemeinsamen Mustern und Merkmalen ein Kategoriensystem fiir die vorhandenen Objekte her, um dann auf der Basis eines statistischen Kategorisierungsmodells unbekannte Objekte in das Kategoriensystem einzuordnen. Bekannte Kategorisierungsverfahren stammen dabei aus dem Bereich des MaschineUen Lernens (Hastie et al. 2001). 9 Die Regressionsanalyse (Hastie et al. 2001): Die Regressionsanalyse ist ein Verfahren aus der mathematischen Statistik, welches auf Grund von gegebenen Daten einen mathematischen Zusammenhang in Gestalt einer Funktion zwischen zwei oder mehreren Merkmalen herstellt. Ein bekanntes Beispiel ist die lineare Regression (Hastie et al. 2001). Durch die ~ufierst starke Entwicklung des World Wide Web gewinnt die Anwendung von Data Mining-Verfahren auf web-basierte Daten immer mehr an Bedeutung. W~hrend das Allgemeinziel des Web Mining die Informationsgewinnung und die Analyse der Webdaten ist, werden drei bekannte Teilbereiche detailliert unterschieden (Cooley et al. 1997; Kosala & Blockeel 2000; Rahm 2002; Spiliopoulou 2000):
9 Web Content Mining: Das World Wide Web enth~lt mittlerweile viele Milliarden von Webseiten, t~glich kommen hunderttausende dazu. Das Web Content Mining stellt Methoden und Verfahren bereit, mit deren Hilfe Informationen und damit neues Wissen aus dieser Datenflut automatisch extrahiert werden kSnnen. Diese Verfahren finden beispielsweise bei der Informationssuche mit Suchmaschinen im World Wide Web Anwendung. W~hrend bekannte Suchmaschinen, wie z.B. Yahoo, auf einer einfachen textuellen Schlagwortsuche basieren, stellt die Konzeption neuer, besserer Verfahren fiir die Informationssuche im Bereich des Web Content Mining immer noch eine grofie Herausforderung dar. Die aktuellen Suchmaschinen sind n~mlich kaum in der Lage, semantische Zusammenhiinge zwischen web-basierten Dokumenten zu detektieren bzw. die Dokumente nach semantischen Gesichtspunkten zu kategorisieren. 9 Web Structure Mining: Die Aufgabe des Web Structure Mining ist es, strukturelle Informationen von Websites zu nutzen, um inhaltliche Informationen zu gewinnen, wobei die interne und externe Linkstruktur dabei eine wichtige Rolle spielt. Interne Linkstrukturen kSnnen mit Auszeichnungssprachen wie HTMLoder XML abgebildet werden und beschreiben innerhalb eines Knotens eingebettete graphentheoretische Strukturen. Die externe Linkstruktur beschreibt die Verlinkung der Webseiten untereinander und l~sst sich in Form eines hierarchisierten und gerichteten Graphen darstellen. Die Graphstruktur des World Wide Web wurde in den letzten Jahren in vielen Arbeiten intensiv untersucht (Adamic &: Huberman 2000; Deo &: Gupta 2001; 18
Kumar et al. 2000b; Raghavan 2000), wobei diese Studien zur Entwicklung und Verbesserung von Suchalgorithmen im World Wide Web fiihrten (Brin & Page 1998; Carri~re & Kazman 1997; Kleinberg 1999; Spertus 1997). Weiterhin wurden Ausgangsgrad- und Eingangsgradverteilungen (Deo & Gupta 2001) von Knoten, Zusammenhangskomponenten (Deo & Gupta 2001) und der Durchmesser (Deo & Gupta 2001) des WWWGraphen untersucht. Detaillierte Ergebnisse solcher Untersuchungen sind z.B. in (Broder et al. 2000; Deo & Gupta 2001; Huberman & Adamic 1999; Kumar et al. 2000b, a; Raghavan 2000; Watts 1999; Watts & Strogatz 1998) zu finden. Eine der bekanntesten Arbeiten, die im Bereich des Web Structure Mining eine wichtige Anwendung innerhalb der bekannten Suchmaschine Google gefunden hat, stammt von KLEINBERG (Kleinberg 1999). Dabei fiihrte er die Begriffe Hubs und Authorities ein. KLEINBERG bezeichnet Authorities als Webseiten, die aktuelle und ,,inhaltlich brauchbare" Informationen enthalten, wobei sich diese graphentheoretisch durch hohe Knoten-Eingangsgrade auszeichnen. Dagegen werden Hubs als solche Webseiten bezeichnet, die viele ,,niitzliche Links" zu gewissen Themengebieten offerieren. Ein guter graphentheoretischer Indikator fiir potenzielle Hubs ist nach KLEINBERG ein hoher Knoten-Ausgangsgrad der betrachteten Webseite.
9 Web Usage Mining: Unter dem Web Usage Mining (Rahm 2002) versteht man die Suche und Analyse von Mustern, die auf das Nutzungsverhalten eines WWW-Benutzers schliet3en l~sst. Ublich ist dabei die Anwendung yon Data Mining-Verfahren mit dem Ziel, das Zugriffsverhalten mit Hilfe von Web-Logs zu protokollieren. Die Ergebnisse solcher Analysen sind fiir Unternehmen, besonders aber fiir Online-Versandhguser aller Art interessant, weil aus ihnen Aussagen zur Effektivitgt, zur Qualit~t und zum Optimierungsbedarf der Websites abgeleitet werden k6nnen. Da bei vielbesuchten Websites t/tglich grot3e Datenmengen von Web-Logs anfallen, kann der Einsatz von Data Warehouse-Systemen notwendig werden, um diese Datenmengen zielgerecht und efiCizient zu verarbeiten. Die Bedeutung und Vertiefung des ftir diese Arbeit relevanten Web Structure Mining soll hier anhand yon zwei weiteren Problemstellungen hervorgehoben werden, und zwar im Wesentlichen als Motivation fiir die weiteren Kapitel: 1. Das Allgemeinziel des Web Structure Mining ist die Erforschung der strukturellen Eigenschaften yon web-basierten Dokumentstrukturen und den daraus resultierenden Informationen. An diesem Ziel orientierend, soll hier auf ein Problem aufmerksam gemacht werden, das bei der inhaltsorientierten Kategorisierung yon web-basierten Hypertexten auftritt. MEHLER et al. (Mehler et al. 2004) stellten die Hypothese auf, dass die beiden Phgnomene 19
funktionale Aquivalenz und Polymorphie charakteristisch fiir web-basierte Hypertextstrukturen sind. Dabei bezieht sich der Begriff der funktionalen .&quivalenz auf das Phiinomen, dass dieselbe Funktions- oder Inhaltskategorie durch v611ig verschiedene Bausteine web-basierter Dokumente manifestiert werden kann. Der Begriff der Polymorphie bezieht sich auf das Phiinomen, dass dasselbe Dokument zugleich mehrere Funktions- oder Inhaltskategorien manifestieren kann. Dabei werden die Problemstellung und die neuen Begriffe in Kapitel (2.5) definiert. Das Kategorisierungsexperiment, das die oben genannte Hypothese untermauert, wird in Kapitel (3.4) charakterisiert. Im Hinblick auf die Bestimmung der Ahnlichkeit web-basierter Hypertexte fassen Dokument Retrieval-Anwendungen die Dokumentstrukturen als die Mengen ihrer WSrter auf und berechnen auf der Basis des Vektorraummodells deren Ahnlichkeit. Als Motivation ffir graphorientierte Problemstellungen im Web Structure Mining und ffir die Kapitel (2.4), (5), wird an dieser Stelle ein Verfahren zur Bestimmung der strukturellen Ahnlichkeit web-basierter Dokumente erw~hnt, das nicht auf der vektorraumbasierten Representation beruht, sondern auf der Graphdarstellung der hypertextuellen Dokumente. Ausgehend vonder automatisierten Extraktion der Hypertexte und einer GXL-Modellierung (Winter 2002) der Graphen, werden hierarchisierte und gerichtete Graphen erzeugt, die komplexe Linkstrukturen berficksichtigen (Mehler et al. 2004). Basierend auf diesen Graphrepr~sentationen wird in Kapitel (5) das neue Verfahren (Dehmer & Mehler 2004; Emmert-Streib et al. 2005) zur Bestimmung der strukturellen Ahnlichkeit solcher Graphen entwickelt. Die fiir das Web Structure Mining resultierenden Anwendungsgebiete werden als Motivation ffir das neue Verfahren in Kapitel (5.1) dargestellt.
2.3
Existierende graphentheoretische Analysemethoden von Hypertextstrukturen
Wie in Kapitel (2.1) bereits dargestellt, l~sst sich die auszeichnende strukturelle Eigenschaft von Hypertext, die Nichtlinearit~t, in Form eines Netzwerks mit Hilfe einer graphentheoretischen Modellierung beschreiben. Damit liegt die Frage nach der Einsetzbarkeit von graphentheoretischen Analysemethoden auf der Hand. Das vorliegende Kapitel (2.3) fokussiert die Realisierbarkeit graphbasierter Modellierungen und gibt einen Eindruck fiber die Tragf~higkeit der Aussagen, die man mit einfachen graphentheoretischen Modellen, angewendet auf die Hypertextstruktur, erzielen kann. 20
2.3.1
Motivation
Als erste Anwendung ffir graphorientierte Methoden sei die Analyse des ,,Lost in Hyperspace"-Problems (Rivlin et al. 1994; Unz 2000) genannt. Aus der Natur der graphbasierten Modellierung, einer hohen Komplexit/it der vorliegenden Hypertextstruktur, einem fehlenden kontextuellen Zusammenhang der Links und der Tatsache, dass der Navigierende nur einen eingeschr/inkten Bereich im Hypertextgraph rezipiert, folgt, dass der Hypertextbenutzer die Orientierung verlieren kann. Graphentheoretische Analysemethoden, die als Abstraktionswerkzeug zu verstehen sind, werden oft eingesetzt, um das ,,Lost in Hyperspace"-Problem besser unter Kontrolle zu halten. Dazu werden graphentheoretische Kenngr6gen definiert, die beispielsweise Aussagen fiber die Erreichbarkeit von Knoten und deren Einfluss im Hypertextgraph treffen (Botafogo & Shneiderman 1991; Botafogo et al. 1992; Rivlin et al. 1994). Die Definition yon Indizes (Dehmer 2005; Mehler 2004) zur Beschreibung typischer Auspr/igungen von Hypertextgraphen kann als weitere Motivation ffir den Einsatz graphbasierter Methoden angesehen werden. Beispielsweise k6nnen solche Mage von Hyperteztautoren eingesetzt werden, um den Vernetztheitsgrad und die Linearitiit einer Hypertextstruktur zu bestimmen (Botafogo et al. 1992). Eine weitaus tiefer gehende Fragestellung w/ire an dieser Stelle, ob man auf der Basis von graphentheoretischen Indizes eine Gruppierung von ghnlichen Strukturen vornehmen k6nnte, um dann auf/ihnliche Funktionen und Qualit/itsmerkmale zu schliegen. In jedem Fall mfissen aber Fragen nach der Einsetzbarkeit und der Interpretierbarkeit solcher MaBzahlen gestellt werden, die in Kapitel (2.3.3) kurz diskutiert werden. Das Kapitel (2.3.2) gibt im Wesentlichen einen Uberblick fiber die bekannten Arbeiten der graphentheoretischen Analyse von Hypertextstrukturen, wobei es nicht den Anspruch auf Vollst/indigkeit erhebt. Einerseits werden damit MSglichkeiten vorgestellt, wie man mit einfachen graphbasierten Mitteln Hypertexte auf Grund charakteristischer Eigenschaften beschreiben und solche Mage auf Probleme der Hypertextnavigation anwenden kann. Andererseits zeigen einige der nachfolgenden Arbeiten die Grenzen yon graphentheoretischen Mat3zahlen auf, die sich z.B. in der Allgemeingfiltigkeit ihrer Aussagekraft und in der Interpretierbarkeit ihrer Wertebereiche guf3ern. Abgesehen von der graphentheoretischen Analyse von Hypertextstrukturen, besteht nach Meinung vieler Autoren im Hypertextumfeld ein deutlicher Mangel an grundlegenden formalen Konzepten, um komplexere hypertextuelle Strukturmerkmale, wie beispielsweise die semantische und pragmatische Unterscheidung von Knoten und Links, mit mathematischen Modellen auszudrficken, siehe z.B. TOCHTEaMANN et al. (Tochtermann & Dittrich 1996). Dennoch gibt es viele Arbeiten, in denen verschiedenartige Aspekte von Hypertext und Hypertextsystemen formalisiert wurden, z.B. (d'Inverno et al. 1997; Fronk 2001, 2003; Lange 21
1990; Mfihlh~user 1991; Mehler 2001; Parunak 1991; Stotts & Furuta 1989), die aber oft nur spezielle F~lle oder Modellierungsaspekte adressieren. Ein Teilgebiet der strukturellen Analyse von Hypertexten ist speziell die Untersuchung von Hypertextstrukturen mit graphentheoretischen Methoden. Dabei werden die Hypertexte oft in Matrixstrukturen abgebildet, meistens mit dem Ziel, Mat3zahlen zu bilden, die zur strukturellen Charakterisierung oder zur Beschreibung von Graphmustern dienen. Die in der Fachliteratur existierenden Ans~itze und Arbeiten, die sich mit der graphentheoretischen Analyse und Beschreibung von Hypertextstrukturen besch~iftigen, verfolgen im Wesentlichen zwei Ziele: 9 Die strukturelle Beschreibung und Charakterisierung von Hypertexten durch globale graphentheoretische Mai3e6. Sie heit3en global, weil sie auf der gesamten Hypertextstruktur definiert sind und die Hypertexte ganzheitlich charakterisieren. Bekannte Beispiele sind die Hypertextmetriken Compactness und S t r a t u m von (Botafogo et al. 1992). 9 Die Suche, die Bestimmung und die graphentheoretische Interpretation von Graphmustern in Hypertexten: Solche spezifischen Graphmuster werden oft bei der Beschreibung von Hypertext-Navigationsproblemen (McEneaney 1999, 2000; Unz 2000) und im Zusammenhang von Lernproblemen (Noller et al. 2001; Richter et al. 2003; Winne et al. 1994) mit Hypertext analysiert und interpretiert. In Kapitel (2.3.2) werden nun bekannte Arbeiten vorgestellt, die einerseits die Definition graphentheoretischer Indizes und andererseits die Untersuchung von Hypertext-Navigationsproblemen thematisieren.
2.3.2
M a r i e fiir d i e s t r u k t u r e l l e
Analyse
von Hypertexten
Die ersten einschneidenden Arbeiten im Bereich der strukturellen Analyse stammen von BOTAFOGO et al. (Botafogo & Shneiderman 1991; Botafogo et al. 1992; Botafogo 1993). In (Botafogo et al. 1992) wurden die bekannten Hypertextmetriken Compactness und Stratum definiert, wobei in dieser Untersuchung Hypertextgraphen als unmarkierte gerichtete Graphen ~ = (V, E), E c_ V x V aufgefasst werden. Mit Hilfe der k o n v e r t i e r t e n D i s t a n z m a t r i x 9= ~ wij
L )U
" falls wij existiert
(2.1)
" sonst,
6Solche graphentheoretischen Mat3eheit3en auch Indizes (Dehmer 2005; Mehler 2004). 22
a
d
b
c
a "
b 9
9
9
d
c
Abbildung 2.2: Der vollstandige gerichtete Graph K4 und der entsprechende Graph mit der leeren Kantenmenge. wobei wq den kiirzesten Weg 7 von vi nach vj und ~ die Konvertierungskonstante s bezeichnet, wird Compactness definiert als
C "-- ( V]2 -- IV )" ]~ -- A.~i=IN~']V] A..~j=I~]V]]~)Mij
(IVI -IVI).
(IVI -IVI)
(2.2)
IVI bezeichnet die Ordnung 9 des Hypertextgraphs und nach Definition gilt C C [0, 1]. Es ist C = 0 ~ ~ = (V, {}). Weiterhin gilt C = 1 ,z--> IEI = IV x V I - I V I. (Ivl ~ - I v P ) . t c i s t der Maximalwert der Matrixelemente aus der konvertierten Distanzmatrix. Er wird angenommen, falls E = {}. (IVI 2 - IVl) ist der minimale Wert der Summe der Matrixelemente und wird erreicht, wenn 7-/der vollstiindige Graph 1~ ist. Informell ausgedriickt bedeutet das, dass der Wert fiir das Giitemat3 Compactness beztiglich einer bestimmten Hypertextstruktur Aufschluss dariiber gibt, wie ,,dicht" die Hypertextstruktur vernetzt ist. Ein hoher Compactness-Wert im Sinne von BOTAFOGO et al. sagt aus, dass von jedem Knoten aus jeder andere Knoten leicht erreicht werden kann. Als Beispiel betrachte man die Graphen aus Abbildung (2.2). Der erste Graph ist der vollst~ndige gerichtete Graph K4 und nach Gleichung (2.2) folgt C = 1. Der zweite Graph besitzt die leere Kantenmenge, deshalb C = 0. In (Botafogo et al. 1992) wurde von einigen Hypertexten der Compactness-Wert bestimmt und n~her untersucht. So besat3 beispielsweise die hypertextuelle Beschreibung des Faehbereichs Informatik der Universitgt Maryland CMSC (Computer Science Department at the University Maryland) einen Compactness-Wert von C=0.53. Fiir das Buch in Hypertextform HH0 (Hypertext Hands On!) (Shneiderman & Kearsley 1989) wurde der Wert 6=0.55 ermittelt. Da es sich bei diesen Hypertexten um hierarchische, baumiihnliche Graphen handelte, lag die Vermutung nahe, dass ein Compactness-Wert von ca. 0.5 typisch fiir solch strukturierte Hypertexte ist. Die Bildung eines Intervalls, in das man die Compactness-Werte von Hypertexten einordnen kann, um dann aus dem 7Siehe Definition (4.1.5)in Kapitel (4.1). SBOTAFOGO et al. setzen in ihren Untersuchungen/C = IVI. 9Die Ordnung eines Graphen ist die Anzahl der Knoten. l~ wird der vollst~ndige Graph mit n Knoten in der Graphentheorie als Kn bezeichnet. 23
Wert innerhalb dieses Intervalls auf Giitemerkmale wie z.B. ,,gutes Navigationsverhalten" zu schlieflen, ist jedoch aus Grfinden der unterschiedlichen InterpretationsmSglichkeiten dieser Hypertextmetrik nicht mSglich. Ffir die Definition von Stratum
betrachte man
~-- /(T)ij~.__ ij ~ wij [
cc
die Distanzmatrix
falls wij 9 sonst 9
yon 7-/
existiert
(~)ij)ij sei die Matrix, die man durch Ersetzung der Matrixelemente c~ durch 0 in (Dij)ij erh~ilt. BOTAFOGO zeigt in (Botafogo et al. 1992), dass damit fiir Stratum $ die Gleichungen
S
A.~i=I (I~"]~V'I:~.._~'IV] 3~ 14X'~IVI ~j=l ~ ) ~z-~i_--lA X"~'V'(IX~ ''V'IVI3 ) j = l 75Ji - w ' l y l
-r IVl3-1Vl
. falls IV I gerade 9 falls IV[ ungerade,
bestehen. Nach Definition von S gilt S E [0, 1]. $ = 0 bedeutet, dass die Hypertextstruktur in sich geschlossen und beispielsweise kreisfSrmig angeordnet ist. S - 1 beschreibt 7-I in Form einer vollst~indig linearen Graphstruktur. Wenn man zur gegebenen Hypertextstruktur die zugehSrige Hierarchisierung betrachtet, drfickt Stratum aus, wie tief und linear die hierarchische Struktur ist. Beide Marie, Compactness und Stratum, sind auf unmarkierten gerichteten Graphen definiert und beinhalten keinerlei semantische Relationen des vorgelegten Hypertextes. BOTAFOGO et al. fiihrten diese Untersuchungen durch, indem sie von allen semantischen, pragmatischen und syntaktischen Typmerkmalen der hypertextuellen Tr~iger abstrahierten. Ein bekanntes Ph~inomen von quantitativen Mafien zur strukturellen Charakterisierung von Hypertexten und zur Beschreibung von Hypertextnavigationsproblemen ist, dass die Ergebnisse solcher Marie oft vom konkret betrachteten Hypertext abh~ngen und mit anderen Messungen schlecht vergleichbar sind. Um diesem Problem entgegenzuwirken, fiihrte HORNEY (Horney 1993) eine weitere Untersuchung zur Messung von Hypertextlinearit~it, in Bezug auf die Hypertextnavigation, durch. Dabei untersuchte HORNEY Pfadmuster, die durch bestimmte Aktionen der Benutzer im Hypertext erzeugt wurden, indem er Pfadl~ingen, ausgehend von den Knoten, bestimmte und mittelte. Dieses Prinzip wandte er auf das gesamte Hypertext-Dokument an und erhielt somit lineare Funktionen fiir diese Sachverhalte, die er als ein Marl fiir die Linearit~t eines Hypertextes definierte. Neben BOTAFOGO et al. untersuchten und evaluierten auch DE BRA et al. (DeBra & Houben 1997; DeBra 1999) Compactness und Stratum. Da in (Botafogo et al. 1992) Compactness und Stratum unter der Annahme definiert sind, dass im 24
Hypertextgraph lediglich Vorw~rtsbewegungen 11 ausgefiihrt werden, formulieren sie diese Mare neu, und zwar unter dem Aspekt, Backtracking-Bewegungen 12 im Hypertextgraph durchzuftihren. Somit werden durch die modifizierten Metriken navigational Compactness und navigational Stratum von DE BRA et al. die Navigationseigenschaften von Benutzern in Hypertextstrukturen besser ausgedrfickt. Ebenfalls wurden die Auswirkungen von Compactness und Stratum auf das Navigationsverhalten in (McEneaney 1999, 2000) untersucht, indem aus den schon bekannten Marien Pfadmetriken definiert und diese empirisch evaluiert wurden. Anstatt der in (Botafogo et al. 1992) definierten Matrizen verwendete MCENEANEY Pfadmatrizen ffir die analoge Anwendung dieser Hypertextmetriken. In der Pfadmatrix reprfisentiert ein Matrixelement die Hgufigkeit von Knotenfiberggngen von einem Knoten zu jedem anderen Knoten im Navigationspfad. Diese Pfadmetriken erm6glichen aus graphentheoretischen Mustern, dargestellt durch Navigationspfade, die Navigationsstrategien von Hypertextbenutzern zu erkennen. Eine Hypertextmetrik, welche Stratum ~thnlich ist, wurde yon COULSTON et al. in (Coulston & Vitolo 2001) definiert, indem sie die Navigationstiefe von Hypertextstrukturen basierend auf HUFFMAN-Codes vergleichen. Dabei stellt der HUFFMAN-Code einer Nachricht, dargestellt als Zeichenkette, die Bin/ircodierung jedes Zeichens der Nachricht dar, mit dem Ziel, dass die L~nge der codierten Nachricht minimal ausf~llt. Darauf basierend werden (i) die Informationen, die sich aus der Besuchsreihenfolge der Webseiten im Hypertextgraph ergeben, in einen HUFFMAN-Baum (Huffman 1952) transformiert, (ii) das codierte Navigationsverhalten des Benutzers wird in eine Baumstruktur transformiert, so dass diese mit dem erzeugten H U F F M A N - B a u m strukturell vergleichbar ist. Um schlieBlich diese beiden Strukturen zu vergleichen, definieren COULSTON et al. ein Mar, welches das Benutzerverhalten mit einem optimalen Navigationsmuster, codiert durch den HUFFMAN-Code, vergleicht. Damit m e s s e n COULSTON et al. das Navigationsverhalten von Hypertextbenutzern gegen das durch den HUFFMAN-Code erzeugte Optimum. Auger Compactness, Stratum und den bisher vorgestellten Magen gibt es noch weitere graphentheoretische Mare im Hypertextumfeld. UNZ (Unz 2000) beschreibt die zwei weiteren Marie Density und Kohgsion. Hauptsgchlich gibt UNZ abet in (Unz 2000) einen umfassenden Uberblick fiber das Thema ,,Lernen mit Hypertext", insbesondere bezogen auf Navigationsprobleme und die Informationssuche in Hypertexten. Density und Kohgsion wurden ursprfinglich v o n W I N N E 11 Im Sinne yon BOTAFOGO et al. heigt das: Falls der Weg von vi zu vj nicht existiert, wird er mit der Konvertierungskonstante K bewertet. Der Begriff des Weges wird in Definition (4.1.5) definiert. 12Das heiBt, man folgt der gerichteten Kante (vj, v~), falls man vorher die Bewegung (v~,vj) ausgefiihrt hat. 25
et al. (Winne et al. 1994) eingefiihrt, um das Verhalten yon Hypertextbenutzern im Zusammenwirken mit bestimmten Lernaktionen, wie z.B. ,,einen Text markieren", ,,einen Text unterstreichen" und ,,eine Notiz machen" im Hypertextsystem STUDY graphentheoretisch zu analysieren. Um die spezifischen Graphmuster der Hypertextbenutzer zu gewinnen, bilden WINNE et al. formale Sequenzen yon ausgeffihrten Lernaktionen in Adjazenzmatrizen 13 ab und erhalten so Graphmuster, die das Benutzerverhalten wiedergeben. Um dann messen zu kSnnen, welche Aktionen bei den Hypertextbenutzern welche Auswirkungen hatten, definierten WINNE et al. die Indizes ~:) : - -
und
~-~lVl z_.~i=l
~--~ZI1aij IVI~"
,
(Density)
(2.3)
--]IvI v, IVI C O ~ :=
i=1 z..,j=l aij . aj~ ivi2_lVi
(Kohgsion)
(2.4)
2
In den Gleichungen (2.3), (2.4) bezeichnet a~j den Eintrag in der Adjazenzmatrix in der/-ten Zeile und der j-ten Spalte. D gibt das Verhgltnis der Anzahl der tatsgchlich vorkommenden Kanten, zur Anzahl aller m6glichen Kanten inklusive Schlingen (Volkmann 1991) an und nach Definition gilt D E [0, i]. CO?( misst den Anteil von zweifach-gerichteten Kanten - das sind Kanten der Form (v~ vj), (vj ~ v~) fiir zwei Knoten vi ~ vj C V- ohne Schlingen. Der Ausdruck IVl2-1v 2 gibt die Anzahl a11er m5glichen Knotenpaare an und es gilt ebenfalls C(DT-( c [0, I]. Aus der Definition der Kohgsion schliefien WINNE et al.: Je h5her der Wert fiir die Kohgsion eines betrachteten Graphmusters ist, desto weniger schrgnkten die Lernaktionen den Hypertextbenutzer ein. Genereller betrachtet kann man diese Mafie als benutzerspezifische Prgferenzen innerhalb des Graphmusters interpretieren. Weitergehend und allgemeiner untersuchten NOLLER et al. (Noller et al. 2001) und RICHTER et al. (Richter et al. 9,003) diese Problematik und entwickelten eine automatisierte L5sung zur Analyse yon Navigationsverlgufen. Die Navigationsmuster analysierten sie mit graphentheoretischen Mitteln und interpretierten sie ebenfalls als psychologische Merkmale wie z.B. gewisse Verarbeitungsstrategien, konditionales Vorwissen und benutzerspezifische Prgferenzen. Bis hierher wurden globale graphentheoretische Marie vorgestellt, die zur strukturellen Charakterisierung von Hypertext und zur Interpretation von Graphmustern dienen. Bekannt sind aber auch solche graphentheoretischen Marie, die zur Charakterisierung von Graphelementen konstruiert wurden, insbesondere ffir die Knoten in einem Graph. Solche Marie sind in der Fachliteratur allgemeiner als Zentralitiitsmafle bekannt und finden meist Anwendung in der Theorie der sozialen Netzwerke (Scott 2001). Sehr bekannte und grundlegende Arbeiten in diesem Bereich findet man bei HARARY (Harary 1959) und HARARY et al. (Harary 13Siehe Gleichung (4.1) in Kapitel (4.1.1).
26
1965). Knotenzentralitgtsmafle, die etwas fiber die ,,Wichtigkeit" und ,,Bedeutsamkeit" von Knoten im Graph aussagen, wurden auch von BOTAFOGO et al. (Botafogo et al. 1992) definiert, bzw. bekannte MaBe in einem neuen Kontext angewendet. So definierten sie die MaBe ROCv
"--
z..~i=l
(Relative Out Centrality)
j=l
~-~lVl /CT)Ad.j j=l
-~lVl ~;-~lVl ~ D M i j RIC,
:=
i=1 A..~j= 1
(Relative In Centrality)
-~ IVl ~DJ~Ijv j=l
Dabei bedeuten ]~'~)./~ij wieder die Eintr~ge in der konvertierten Distanzmatrix, die durch die Definitionsgleichung (2.1) bereits angegeben wurde. BOTAFOGO et al. wandten das ROC-MaB an, um beispielsweise so genannte Landmarks - so werden identifizierbare Orientierungspunkte im Hypertext bezeichnet - zu kennzeichnen, weil Landmarks die Eigenschaft besitzen, mit mehr Knoten verbunden zu sein als andere Knoten im Hypertext. BOTAFOGO et al. kennzeichneten damit Knoten mit einem hohen ROC-Wert als Kandidaten fiir Landmarks. Dagegen sind Knoten mit niedrigem RIC-Wert im Hypertextgraph schwer zu erreichen. Letztlich dienen aber diese beiden Marie zur Analyse von Navigationsproblemen und damit wieder zum besseren Umgang mit dem ,,Lost in Hyperspace"-Problem. Zum Abschluss dieser Ubersicht wird eine Arbeit genannt, die ein graphentheoretisehes MaB fiir den Vergleieh von Hypertextgraphen liefert. So definierten WINNE et al. (Winne et al. 1994) das Marl Multiplicity fiir zwei geriehtete Graphen 7-ll und 7-12 als v, IvI 3--,I.VI bij M
"I
A..~i=l z...~2=l
aij"
i r j.
(2.5)
Naeh Definition gilt A/l E [0, 1] und a~j bzw. b~j bezeiehnen in Gleiehung (2.5) die Eintr~ge in der Adjazenzmatrix von ~1 bzw. 7-/2. Dabei wird hier die Knotenmenge V als gemeinsame Knotenmenge der beiden Graphen angesehen und Multiplicity misst damit die Anzahl der gemeinsamen Kanten beider Graphen, relativ zur Anzahl aller m6gliehen Kanten. Die Motivation zur Definition von Multiplicity war, individuelle Taktiken und Strategien, die sich in zwei Graphmustern niederschlagen, vergleichbarer zu machen. Eine Analyse von Hypertextstrukturen unter den Gesichtspunkten des Information Retrieval, in der aueh Hypertextstrukturen anhand ihrer spezifisehen Graphstruktur verglichen wurden, nahmen FURNER at al. (Furner et al. 1996) vor. Die graphentheoretischen Konstrukte, die in diesem Experiment angewendet wurden, waren z.B. 27
el
e2
a (1,1) I1
b (2,1)
I b (3,1)
xl
c (3,1) c (2,1)
b (2,2) I b (3,2) c (3,2) c (2,2) d (1,1)
e
I
I
Abbildung 2.3: Das linke Bild zeigt das Hypertext File abbccbbccd.Jedem Symbol ist das PaRr (Level, Ordnung) zugeordnet. Das rechte Bild zeigt einen Hypertext, der aus drei Hypertext Files el, e2 und e3 besteht, zusammen mit seiner Linkstruktur. Beispielsweise enth~lt el zwei Matched Pairs, namlich x l und x2. 9 Knotenindizes: Ein Beispiel ist der Ausgangs- und Eingangsgrad 14 eines Knotens. 9 Graphindizes" Graphentheoretische Kenngr5fie ffir die strukturelle Beschreibung von Graphen. Beipielsweise wurde in (Furner et al. 1996) der aus der Chemie bel~nnte WIENER-Index (Wiener 1947) verwendet. Das Hauptziel ihrer Untersuchung war jedoch die Aufdeckung von Zusammenh~ngen zwischen der Entstehung von Linkstrukturen und der Effektivit~t von
Hypertext Retrieval-Systemen. PARK stellt in (Park 1998) eine interessante Untersuchung der strukturellen Eigenschaften von Hypertextstrukturen vor, dessen Methoden von den bisher hier erwahnten abweichen. Er fasst Hypertextstrukturen als formale Sprachen auf und untersucht dann die von den Hypertextstrukturen erzeugten Sprachen und Grammatiktypen. PARK definiert dazu in (Park 1998) eine Grammatik G1 -- (V~ ~, P, o), wobei V
=
{a, X, a, b, c, d} (Alphabet),
E
=
{a,b,c,d}, E C_ V,
P
=
{a ~ aXd, X ~ X b X c X , X ~ e}, bezeichnet das leere Wort,
o"
bezeichnet das Startsymbol.
Um den Aufbau einer Hypertextstruktur mit seiner Konstruktion zu erfassen, unterscheidet PARK zwischen der inneren Stuktur - den Hypertext Files - und 14Siehe Definition (5.2.1) in Kapitel (5.2). 28
Themenbereich Indizes zur strukturellen HT-Charakterisierung (Compactness, Stratum)
Literaturangaben
Positiv/Negativ
(Botafogo et al. 1992; Coulston & Vitolo 2001; Horney 1993)
Einfache Implementierbarkeit/Unzureichende Interpretierbarkeit
Indizes zur Beschreibung von HT-Lernaktionen (Density, Koh~sion)
(Unz 2000; Winne et al. 1994)
Struktureller Vergleich von HT-Graphmustern (Multiplicity)
(Winne et al. 1994)
Knotenzentralitiitsmarie fiir Hypertexte (ROC, RIC)
Marie zur Beschreibung yon HTNavigationsverliiufen
(Botafogo et al. 1992; Harary 1959) (Botafogo et al. 1992; Coulston & Vitolo 2001; DeBra & Houben 1997; DeBra 1999; Horney 1993; McEneaney 1999, 2000; Noller et al. 2001; Richter et al. 2003)
Einfache Implementierbarkeit/Unzureichende Strukturerfassung; Nur fiir Spezialfiille definiert Einfache Implementierbarkeit/Unzureichende Strukturerfassung Intuitive Definition/Lediglich auf unmarkierten Graphen definiert
Einfache mathematische Modellierung/Unzureichende Interpretierbarkeit
Abbildung 2.4: Tabellarische Zusammenfassung der Ergebnisse aus Kapitel (2.3.2). der ~ufieren Struktur eines Hypertextes. Hypertext Files k6nnen nun mit W6rtern modelliert werden, die v o n d e r Grammatik G1 erzeugt werden, also w E L(G1). Die ~ufiere Struktur, die aus einer Menge von Hypertext Files versehen mit einer Linkstruktur besteht, definiert PARK als H T - (E, X, L). Dabei gilt" E ist eine endliche Menge von Hypertext Files, X ist die endliche Menge von allen Matched Pairs der Elemente von E, L ist die endliche Menge von geordneten Paaren von Matched Pairs in X. Das Konzept der Matched Pairs ben6tigt PARK, um verlinkbare Einheiten yon WSrtern aus L(G1) zu beschreiben. Um Matched Pairs in einem Wort zu identifizieren, wird in (Park 1998) das Level und die Ordnung von Symbolen in WSrtern w E L(G1) definiert. Das Level eines Symbols, das die Tiefe des Symbols im Wort angibt, kann ausgedriickt werden, indem die Produktionsmenge der Grammatik G1 in attributierter Form geschrieben wird. Die Abbildung (2.3) (Park 1998) zeigt schematisch ein Hypertext File zusammen mit einer Linkstruktur. Durch seine 29
Untersuchung mit Beschreibungsmitteln aus der Theorie der formalen Sprachen erh~lt PARK schliet31ich neuartige Einblicke in strukturelle Aspekte von Hypertext, weil er ein nicht graphentheoretisches Beschreibungsmittel w~hlt und damit neue ModellierungsmSglichkeiten aufdeckt.
2.3.3
Zusammenfassende
Bewertung
Die Abbildung (2.4) fasst die Ergebnisse des Kapitels (2.3.2) bewertend zusammen. Die Darstellungen in Kapitel (2.3.2) zeigen insgesamt, dass die Wirkung und die Aussagekraft von globalen Mai3en zur strukturellen Charakterisierung von Hypertexten und zur Beschreibung von Graphmustern, z.B. Navigationsverl~ufe, beschr~nkt ist. Das liegt zum einen daran, dass einige der vorgestellten Mai3e fiir speziellere Problemstellungen entwickelt wurden oder in einer speziellen Studie entstanden sind, z.B. bei WINNE et al. (Winne et al. 1994). Auf der anderen Seite erlauben quantitativ definierte Mat3e wie z.B. Compactness (Botafogo et al. 1992) keine allgemeingiiltigen Aussagen fiber eine verl~ssliche strukturelle Klassifikation von Hypertextgraphen bzw. fiber die Gfite und Verwendbarkeit solcher Strukturen. Eine aussagekr~ftige Evaluierung der Mat3e und die Interpretation einer solchen Auswertung ist in vielen F~llen nicht erfolgt. Ein positiver Aspekt ist die durchg~ngig klare, einfache mathematische Modellierung und die leichte Implementierbarkeit, indem von komplexeren Typmerkmalen der Knoten und Links abstrahiert wird. Der negative Aspekt, der daraus unmittelbar resultiert, ist die fehlende semantische Information fiber solche Typmerkmale, die sich auch in der mangelnden Interpretierbarkeit von Werteintervallen innerhalb des ausgeschSpften Wertebereichs ~ui3ert.
2.3.4
Fazit
Ffir den Vergleich yon Hypertextgraphen, im Hinblick auf lernpsychologische Implikationen, wurde das Mai3 Multiplicity von WINNE et al. (Winne et al. 1994), welches fiber der Kantenschnittmenge definiert ist, vorgestellt. Mit Multiplicity ist kein ganzheitlich struktureller Vergleich komplexer Hypertextgraphen mSglich, da dieses Mat3 zu wenig vonder gemeinsamen Graphstruktur erfasst. Wiinschenswert w~re fiir den strukturellen Vergleich solcher Hypertextgraphen ein Modell, welches (i) mSglichst viel vonder gemeinsamen Graphstruktur erfasst und (ii) parameterisierbar ist, d.h. die Gewichtung spezifischer Grapheigenschaften ermSglicht. An dieser Stelle sei nun als Ausblick und Motivation fiir weitere Arbeiten die automatisierte Aufdeckung und die verst~rkte Erforschung der graphentheoretischen Struktur gerade ffir web-basierte Hypertexte genannt, weil (i) bisher wenig fiber deren charakteristische graphentheoretische Struktur und deren Verteilungen bekannt ist (Schlobinski & Tewes 1999) und (ii) im Hinblick auf 30
anwendungsorientierte Problemstellungen die Graphstruktur ganz besonders als Quelle zur Informationsgewinnung dienen kann. Das bedeutet, mit stetig wachsender Anzahl der hypertextuellen Dokumente im WWW werden Aufgaben wie die gezielte Informationsextraktion, das automatisierte web-basierte Graphmatching und die Gruppierung 15 ~ihnlicher Graphstrukturen fiir ein effizientes Web Information Retrieval (Kobayashi & Takeda 2000) immer wiehtiger. In Bezug auf das web-basierte Graphmatching wurde bereits das am Ende des Kapitels (2.2) skizzierte Verfahren erw~thnt, welches in Kapitel (5) motiviert und entwiekelt wird.
2.4
Existierende Clusteringverfahren zur Analyse hypertextueller Daten
In Kapitel (2.3.2) wurden bekannte Arbeiten zur graphentheoretischen Analyse von Hypertextstrukturen vorgestellt. Dabei kamen aueh Marie zur Besehreibung einzelner typiseher Auspr~tgungen von Hypertexten und deren Anwendungen zur Spraehe. Im Hinbliek auf weiterfiihrende graphentheoretisehe Methoden im Bereich des Web Structure Mining, wie das am Ende von Kapitel (2.2.2) skizzierte Verfahren, werden in diesem Kapitel eine Gruppe von multivariaten Analysemethoden, die Clusteringverfahren, vorgestellt. Bei den in Kapitel (2.3.2) dargestellten Verfahren stand die Charakterisierung typiseher Auspr/igungen graphbasierter Hypertexte auf der Basis numerischer Mafizahlen im Vordergrund. Im Gegensatz dazu gehSren die Clusteringverfahren zur Gruppe der Struktur entdeckenden Verfahren, weil deren Ziel die Aufdeckung von strukturellen Zusammenh/tngen zwischen den betraehteten Objekten ist. Dabei ist die Einbeziehung mehrerer vorliegender Objektauspr~tgungen die stark auszeiehnende Eigensehaft von Clusteringverfahren (Baekhaus et al. 2003). Als weitere Anwendung innerhalb des Web Structure Mining und als eine Motivation ftir Kapitel (5.8) kSnnen Clusteringverfahren beispielsweise (i) zur Aufdeckung von Typklassen web-basierter Hypertexte eingesetzt werden, z.B. die Klasse der Mitarbeiterseiten innerhalb eines akademischen Webauftritts oder (ii) zur Trennung von strukturell signifikant unterschiedliehen Webseiten. Clusteringverfahren (Anderberg 1973; Backhaus et al. 2003; Berthold & Hand 1999; Bock 1974; Chakrabarti 2002; Everitt 1993; Fasulo 1999; Jain & Dubes 1988; Sp~tth 1977; Steinhausen & Langer 1997) werden zur Clusterung von Objekten angewendet, um m6gliehst homogene 16 Cluster zu erzeugen. In der 15Diezu Grunde liegenden Verfahren der Datengruppierung heifien Clusteringverfahren. Siehe Kapitel (2.4). 16Die Clusterhomogenit~tt wird in Kapitel (2.4.1) erkl/irt. 31
A
C
@@
Abbildung 2.5: A: Disjunkte, aber nicht partitionierende Clusterung mit nicht gruppierbaren Objekten. B: Uberlappende Clusterung. C: Partitionierende Clusterung Regel ist bei Beginn der Clusterung die Anzahl der Cluster und die Clusterverteilung unbekannt, somit auch die Zuordnung der Objekte innerhalb der einzelnen Cluster. Clusteringverfahren sind deshalb im Bereich des uniiberwachten Lernens (Hastie et al. 2001) angesiedelt, weil sie ohne Lernregeln eine mSglichst optimale Clusterung finden sollen. Die Clusterung erzeugt man, indem ~hnliche Objekte in Clustern zusammengeschlossen werden mit dem Ziel, dass die Objekte der gefundenen Cluster eine ganz bestimmte Charakteristik aufweisen, bzw. jedes Cluster einen eigenen Typ repr~entiert. Abbildung (2.5) zeigt verschiedene Varianten von Clusterungen, die entweder je nach Anwendungsfall gewfinscht sind oder deren Effekte, wie z.B. die Uberlappung der Cluster, verfahrensbedingt auftreten. Formeller ausgedrfickt l~sst sich diese Aufgabe ffir das Web Mining folgendermafien beschreiben: Es sei D := {dl,d2,...,dn}, IN ~ n > 1 die Menge der zu clusternden Dokumente. Will man die Clusteraufgabe in voller Allgemeinheit beschreiben, so fasst man die Dokumentenmenge als eine Menge O := {O1, O2,..., On} von unspezifizierten Objekten Oi, 1 _< i _< n auf. Eine Clusterung Cfin ist nun eine k-elementige disjunkte Zerlegung von D, also Cfin := {Ci C_ D I 1 1 gilt, denn dies bedeutet umgekehrt, dass im Cluster C die Streuung von mj hSher ist als die von mj in der Erhebungsgesamtheit. In Anbetracht der grofien Anzahl yon existierenden Clusteringverfahren und unter Beriicksichtigung ihrer St~irken und Schw~ichen, bezogen auf den jeweiligen Datenraum, ist eine Interpretation der gesamten ClusterlSsung unbedingt notwendig. Allein die Qualit/it der Daten, eine mSgliche Parametrisierung des zu Grunde liegenden Ahnlichkeitsmafies, die Wahl des Clusterabstands und weitere Parameter des Clusteringverfahrens haben einen wesentlichen Einfluss auf die ClusterlSsung und damit auch auf die Interpretation. Die Interpretation kann (i) mit Hilfe von numerischen Mafien zur Bewertung der Clusterhomogenit~it oder 34
mit Hilfe von gewghlten Abbruchkriterien - d e n e n meistens ebenfalls Homogenit/itsbetrachtungen zu Grunde liegen- erfolgen oder (ii) durch Visualisierung und kreatives Interpretieren. Falls wieder eine Objektmenge O - {O1, 0 2 . . . , On} und die Ahnlichkeitsmatrix (sij)ij vorausgesetzt wird, so w/ire beispielsweise die Maximierung der mittleren Homogenit~t h(Cfin) (Bock 1974)von Cfi~ "- {C~ c_ O I 1 _< i _< k} eine mathematische Interpretation und somit auch ein Bewertungskriterium fiir die G iite einer ClusterlSsung. Es ist k
h(Cf~n) "= max E h(Ci), C fin
i--1
wobei h(C~) wieder durch die Gleichung (2.6) reprasentiert wird. Da je nach Anwendungsfall auch eine ausgep~gte Separation, die Clustertrennung, gewfinscht sein kann, ist die Maximierung des Ausdrucks (Bock 1974) k
k
A(Cfi~) " - m a x E E c ~ ( C i , Cj) , C fin
i=l j = l
ein Marl ftir die Clustertrennung der Partition Cf~. Dabei bezeichnet c~(C~,Cj) den Abstand 17 zwischen den Clustern C~ und Cy. Dartiber hinaus gibt es weitere MSglichkeiten, um die Giite und die Aussagekraft von ClusterlSsungen statistisch zu bewerten (Backhaus et al. 2003; Book 1974; Jain & Dubes 1988; Rieger 1989). Insgesamt gesehen kann oftmals das Ergebnis einer Clusterung als der erste Schritt betrachtet werden, um detailliertes Wissen fiber die betrachteten Objekte zu erlangen und um dartiber hinaus eventuell neue Eigenschaften der Objekttypen zu erkennen. Weiterhin ist es notwendig, die Interpretation einer Clusterl6sung vor einem speziellen Anwendungshintergrund zu sehen. Oder das Ergebnis der Clusterung stellt die Grundlage fiir eine weitergehende praktische Anwendung dar, da eine ClusterlSsung, ffir sich isoliert betrachtet, keine weitreichende Aussagekraft besitzt.
2.4.2
Hierarchische
Clusteringverfahren
Um nun die grundlegende Funktionsweise von hierarchischen Clusteringverfahren fiir das Web Mining zu beschreiben, sei wieder die Dokumentenmenge D := {dl, d2,..., dn} mit einem problemspezifischen Ahnlichkeitsmat3 s : D x D [0, 1] (oder abstandsmafi) betrachtet. BOCK motiviert in (Bock 1974)hierarchische Clusteringverfahren mit Eigenschaften der Homogenitgt in Bezug auf partitionierende Clusteringverfahren, bei denen Cfin := (C1,6'2,..., Ck) die Eigenschaften einer Partition is von D erfiillt. Dabei ist offensichtlich, dass bei partitionierenden Verfahren (i) gr6fiere Homogenitgtswerte der Cluster Ci durch eine lrSiehe Kapitel (2.4.2). lSSiehe Kapitel (2.4.3).
35
Clusterabstand
=nnl~m=~r=tiv
h
divisiv
d,
d= d3 d4 ds d,
d,
d,
Dokumentenmenge
Abbildung 2.6: Dendogramm fiir eine Clusteraufgabe mit acht Dokumenten. Die gestrichelten Linien deuten die gew/ihlten Homogenit/itsstufen an. gr6gere Kardinalit~t der Menge (;'fin erreicht werden k6nnen, und umgekehrt (ii) sich hohe Homogenit/~tswerte nur bei hinreichend groger Kardinalit/it von Cyin erreichen lassen. Prinzipiell kann man zwei Arten von partitionierenden Verfahren unterscheiden: (i) Die Kardinalit/~t der Menge Cfin ist vorgegeben oder (ii) die Homogenit~tswerte der Cluster Ci werden von Anfang an durch Schranken gefordert. Dann ergibt sich im ersten Fall die Homogenit/it der Cluster durch das Verfahren selbst und im zweiten Fall ist k v o n d e r geforderten )~hnlichkeit innerhalb der Cluster abh/ingig. Da aber bei Clusteraufgaben die Zahl k und die Werte der Homogenit~tsschranken in der Regel nicht bekannt sind, gelten beide der eben vorgestellten MSglichkeiten als nicht optimal. Hierarchische Clusteringverfahren versuchen dieses Problem dadurch zu 15sen, dass sie eine Sequenz yon Clusterungen erzeugen, mit dem Ziel, dass die Homogenit/itswerte der Cluster mit wachsendem k steigen. Weiterhin gilt nach Konstruktion dieser Verfahren, dass immer homogenere Cluster dadurch gebildet werden, dass grSgere Cluster in kleinere unterteilt werden und dass dieses Prinzip beliebig nach unten fortgesetzt wird. Generell werden bei hierarchischen Clusteringverfahren divisive (top-down) oder agglomerative (bottom-up) Clusteringverfahren unterschieden, wobei sich in der Praxis die agglomerativen Verfahren durchsetzten. CHAKRABARTI (Chakrabarti 2002) gibt eine Vorschrift in Pseudocode an, aus der die wesentlichen Konstruktionsschritte von agglomerativen Verfahren leicht zu erkennen sind:
1. Die initiale und damit die feinste Partition von D ist Cfin "= {C1, wobei Ci = {di}. 2. while
[Cyin[ > 1 do.
3. W~hle
Ci, Cj E Cfin und berechne den Abstand c~(C~,Cj).
4. Streiche Ci und 36
Cj aus Cyin.
C2,..., Cn},
5. Setze ~ := Ci U Cj. 6. Fiige 7 in
Cfin ein.
7. od while Das Ergebnis einer Clusterung mit hierarchischen Verfahren 1/tsst sich als Dendogramm visualisieren. Ein Dendogramm einer fiktiven Clusterung zeigt die Abbildung (2.6). Dabei lassen sich nun auf jeder gewiinschten Homogenit/~tsstufe hi die Cluster ablesen und strukturell miteinander vergleichen. Man erkennt in Abbildung (2.6) deutlich ein auszeichnendes Merkmal eines agglomerativen Clusteringverfahrens: Auf der untersten Ebene stellen die Dokumente einelementige Cluster {dl}, {d2},..., {d8} dar; mit fallender Homogenit/tt werden die Cluster auf den Ebenen immer gr6ber, bis sic zu einem einzigen verschmolzen werden, welches alle Dokumente enth/~lt. Ein weiteres wichtiges Merkmal eines hierarchischen Clusteringverfahrens liegt darin, dass Dokumente, die auf der Basis eines Ahnlichkeitsmafies als sehr/~hnlich gelten, sehr friih zu einem Cluster verschmolzen werden. Das ist aber gleichbedeutend damit, dass der dazugeh6rige Homogenit/~tswert h~ im Dendogramm nahe bei Eins liegt. Weiterhin sind die Cluster auf den jeweiligen Holnogenit/ttsstufen im Dendogramm bezfiglich ihrer inneren Struktur interpretierbar, da ein Cluster, das im Dendogramm fiber mehrere Homogenit/~tsstufen in sich geschlossen bleibt, als sehr homogen angesehen werden kann. Wird dagegen ein Dokument erst im letzten oder vorletzten Schritt mit einem Cluster verschmolzen, so muss es auf Grund seiner Merkmale weniger/~hnlich sein, als die Dokumente in einem sehr homogenen Cluster. Fiir das Ergebnis einer Clusteraufgabe, die mit einem hierarchischen Verfahren gel6st werden soll, ist aber auch die Giite der Daten, die Aussagekraft des zu Grunde liegenden Ahnliehkeits- oder Abstandsmafies und vor allen Dingen die Wahl des Mafies a entscheidend, um die abstande a(C~,Cj) zweier Cluster zu bereehnen. Ausgehend von einem Ahnlichkeitsmafi s : D x D > [0, 1] und den Clustern Ci und Cj, sind
~s~ (c~, cj)
:=
o~ (c~, c j ) : =
rain d,d
{s(d, d)]d E Ci, dE Cj} (Single Linkage),
1
IC~llCjl ~ ~ ~(d, ~)(Average Linkage), dEC~ dCC~
max d,d
{s(d,d)ldE Ci, dE Cj} (Complete Linkage)
g/~ngige Clusterabst•nde. Zusammenfassend formuliert ist die tibersichtliche und anschauliche Darstellbarkeit des Ergebnisses in Form eines Dendogramms als positive Eigenschaft von 37
hierarchischen Clusteringverfahren zu sehen. Das Dendogramm, welches auch als Baumstruktur visualisiert werden kann, verlangt dabei nicht eine Clusteranzahl als Vorgabe, sondern auf jeder Ebene entsteht eine Anzahl von Clustern in natfirlicher Weise. Weiterhin sind die einfache Implementierbarkeit und die gute Interpretierbarkeit der entstehenden Cluster als Vorteile von hierarchischen Verfahren zu werten. Ffir Daten, bei denen eine hierarchische Struktur zu erwarten ist, sind hierarchische Clusteringverfahren besonders sinnvoll. Da in der Regel diese Kenntnis nicht vorhanden ist, muss das Dendogramm ftir den jeweiligen Anwendungsfall interpretiert werden, da die hierarchische Struktur durch den Algorithmus erzwungen wird. Als Nachteil ist die Komplexitiit von hierarchischen Clusteringverfahren zu sehen, weil die Erzeugung der Ahnlichkeitsmatrix bereits quadratische Laufzeit besitzt und somit fiir Massendaten problematisch wird. Die Verwendung von verschiedenen Clusterabst~nden ist ebenfalls ein kritischer Aspekt, da Clusterabstiinde wie Single Linkage bzw. Complete Linkage oft die Tendenz zur Entartung haben, d.h. die Bildung von besonders grot3en bzw. kleinen Clustern.
2.4.3
Partitionierende
Clusteringverfahren
In diesem Kapitel werden die Ziele und die grundlegende Wirkungsweise von partitionierenden Clusteringverfahren, die schon in Kapitel (2.4.2) kurz angesprochen wurden, erl~utert. Wieder ausgehend von der Dokumentenmenge D und einem Ahnlichkeitmat3 s: D • D ) [0, 1], bildet die Menge Czin := (C1, C2,... Ck) eine partitionierende Clusterung von D, falls die Eigenschaften Ci N Cj, i -~ j (Disjunktheit) und Ul
Kernel-Funktion, falls fiir x, y E X gemgg der Abbildung 9 : X > F das Skalarprodukt < q~(x), O(y) > in F definiert ist. Man kann leicht zeigen, dass eine Kernel-Funktion die Eigenschaften eines Skalarproduktes besitzt, aber effizienter zu berechnen ist (Cristianini & Shawe-Taylor 2000). Dabei zeigt sich der wesentliche Vorteil der Kernel-Funktionen darin, dass die maximal trennende Hyperebene im Featureraum F ohne die explizite Anwendung der Transformationsfunktion 9 bestimmt werden kann. Bekannte Kernel-Funktionen, die oftmals in Verbindung mit SVM's angewendet werden, sind ftir x, y E X
k(x,y) := < x,y > (Linear), k(x, y) := (c < x, y > +Co)d, c, Co e IR, d e IN (Polynomial), k(x,y) := e -~llx-yl12,7 E ]R (Radial Basis Funktion).
(3.5) (3.6) (3.7)
Ein Problem bleibt aber die Parameterauswahl in den Gleichungen (3.6), (3.7) bei einer konkreten Kategorisierungsaufgabe.
3.4
Das Kategorisierungsexperiment
In diesem Kapitel wird nun die spezielle Kategorisierungsaufgabe charakterisiert, indem die Schritte, angefangen mit der Konstruktion der Trainingsmengen bis zur optimalen Parameterbestimmung der Kernel-Funktion, detailliert erlgutert werden. Es sei das Kategoriensystem K "- {El, K 2 , . . . , KIK I}
(3.8) 59
gegeben (Dehmer et al. 2004). Die Funktions- oder Inhaltskategorien sind hier definiert 6 als K := {submission and author instructions, call for papers, important dates, committees, accepted papers, topics and general information, program, travel and accommodation, venue, invited speakers, registration, sponsors, workshops}, IKI = 13. Die Wahl dieser Kategorien wurde durch eine Linktextsuche bezogen auf das Testkorpus Tc 7 untermauert, indem jeder Linktext auf jeder Webseite von Tc genau einmal gez/ihlt wurde. Ein hohes Vorkommen eines Linktextes im Hinblick auf die Kardinalit/it von Tc wurde dabei als Indikator fiir eine repr/isentative Kategorie interpretiert. Um nun das eigentliche Kategorisierungsexperiment vor dem Hintergrund des Dimensionsproblems, mit einer SVM durchzufiihren, wurde aus praktischen Griinden die SVM-Bibliothek L• (Hsu et al. 2003) ausgew/ihlt. Da die SVMKlassifikation ursprtinglich fiir rein bin/ire Probleme s entwickelt wurde und das gew/ihlte Kategoriensystem (3.8) insgesamt 13 Kategorien enth/ilt, kam in diesem Experiment die Multiclass-Strategie ,, One Against All" zum Einsatz. Dabei wird das vorliegende 13-Kategorienproblem in 13 bin/ire Probleme unterteilt, indem ftir jede Kategorie ein SVM-Klassifikator gelernt wird. Dazu sind die KlassenLabels der (positiven) Trainingsbeispiele ftir die entsprechende Kategorie auf +1 zu setzen, alle anderen (negativen) werden auf-1 gesetzt. Die Menge der Trainingsmengen T := {T1, T2,..., TIKI}, die einen wesentlichen Einfluss auf das Kategorisierungsergebnis besitzt, wird im Folgenden konstruiert. Dabei wird die Konstruktion der Trainingsmenge Ti schrittweise erl/iutert: Es seien s c { + l , - 1 } , t c T~, 1 _< i __d l ( ~ , ~ ) zu zeigen ist. Dazu betrachte man die Definition von 7~ also "y~
"-- 1 1
(71 -~- O'i2
1 0"r _qL 0"/2
118
. j=l
. j=l
&out ( v . ~
align (v.~'~
&out ( v . ~
align ( v . ~ ) )
\
~,a '
\ z,3 '
\
~,a
\ z,3
,/
+
"
Um den Wertebereich von
~/~
betrachten. Nach Definition (analog wie &out
(
~2 --, Vi,j
Typs cu(x, y) "= 1 - e
auf Funktionen des
(x--Y) 2
2 (~
basieren, erhglt man zusammen mit Gleichung (5.25)
(t ~ (vi,~}, aligno~ t (vi~j~)) Nach Defnition von 7~ auch 7 in (i) _< 1 gezeigt.
7~
treten die Fglle
Vi,'j7 , Vi,j2 1
Da nun
a~
)("ff_~l "~2m)auf. Da diese Definitionen &out
&out zu &out( Vi,jl it I ~-- )
zu bestimmen, hat man haupts/ichlich
1_
0, kl = 2, k2 -- 10 und k a - 20. 9 Ausgehend von B/c2 und einem gew~hlten Startknoten werden jeweils zuf~llig Across-Kanten, Up-Kanten oder Down-Kanten erzeugt. 9 Basierend auf den Wurzelb/iumen B/c2 geniigen die so konstruierten Website-Strukturen der Definition (5.3.1). Die Bestimmung der Ahnlichkeitsmatrizen 2 (sij)ij, 1