Automatische Klassifikation und Information Retrieval: Anwendung und Entwicklung komplexer Verfahren in Information-Retrieval-Systemen und ihre Evaluierung 9783111563763, 9783484319127


209 12 52MB

German Pages 428 Year 1986

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Vorwort
0. Einleitung
1. Einige Grundaspekte der Informationsverarbeitung
2. Automatische Klassifikation
3. Prinzip des STEINADLER-Ansatzes
4 Thesaurusaufbau
5. Ermittlung der Hierarchieebenen der Klassifikation (Prioritätsklassenbildung)
6. Clusteranalyse innerhalb der einzelnen Hierarchieebenen der Klassifikation
7. Verknüpfungen zwischen benachbarten Hierarchieebenen der Klassifikation
8. Updatingmöglichkeiten der Klassifikation (dynamische Klassifikation)
9. Interpretation der Ergebnisse der Klassifikation bei der Grobrecherche
10. Präzisierung der Rechercheergebnisse (als spezielles Relevanzfeedback)
11. Evaluierungsproblematik
12. Wechselwirkungen der automatischen Klassifikation mit anderen Erschließungsverfahren und ihr Anwendungsgebiet
Anmerkungen
Literatur
Anhänge
Verzeichnis der mathematischen Bezeichnungen, der sonstigen Notation und Abkürzungen
Recommend Papers

Automatische Klassifikation und Information Retrieval: Anwendung und Entwicklung komplexer Verfahren in Information-Retrieval-Systemen und ihre Evaluierung
 9783111563763, 9783484319127

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Sprache und information Sprache und Information Beiträge zur philologischen und linguistischen Datenverarbeitung, Informatik und Informationswissenschaft Herausgegeben von Istvan Baton, Walther von Hahn, Rainer Kuhlen, Winfried Lenders, Wolfgang Putschke, Hans Jochen Schneider, Harald Zimmermann Band 12

Jin Panyr

Automatische Klassifikation und Information Retrieval Anwendung und Entwicklung komplexer Verfahren in Information-Retrieval-Systemen und ihre Evaluierung

Max Niemeyer Verlag Tübingen 1986

CIP-Kurztitelaufnahme der Deutschen Bibliothek Panyr, Jiri:

Automatische Klassifikation und Information retrieval : Anwendung u. Entwicklung komplexer Verfahren in Information-retrieval-Systemen u. ihre Evaluierung / Jiri Panyr. - Tübingen : Niemeyer, 1986. (Sprache und Information ; Bd. 12) NE:GT ISBN 3-484-31912-7

ISSN 0722-298-X

© Max Niemeyer Verlag Tübingen 1986 Alle Rechte vorbehalten. Ohne Genehmigung des Verlages ist es nicht gestattet, dieses Buch oder Teile daraus photomechanisch zu vervielfältigen. Printed in Germany. Druck: Weihert-Druck GmbH, Darmstadt.

Meiner F r a u I r m h i l d und unseren K i n d e r n Sylva und J i r k a

Vorwort Die Arbeit entstand in mehreren Phasen im Zusammenhang mit meiner Tätigkeit am Forschungsprojekt CONDOR der Firma SIEMENS. Das P r o j e k t CONDOR (COmmunikation in N a t ü r l i c h e r Sprache mit Dialog-Orientierten Retrievalsystemen) w u r d e z w i s c h e n 1973 und 1981 vom BMFT als Teilvorhaben 5 . 0 . 0 . 6 g e f ö r d e r t . Im Rahmen des P r o j e k t s ist

das V e r f a h r e n zur a u t o m a t i s c h e n

K l a s s i f i k a t i o n der Deskriptoren und Texte STEINADLER sowie die Retrieval- und Relevanzfeedback-Komponente ( P r ä z i s i e r u n g ) entstanden. Die üpdatingkomponente wurde erst nach dem Abschluß des Projekts entwickelt. Die vorliegende A r b e i t wurde in den J a h r e n 1981-1984 geschrieben und dabei um generelle Überlegungen ergänzt, die mit der Anwendung von automatischen K l a s s i f i k a t i o n s v e r f a h r e n in I n f o r m a t i o n Retrieval Systemen zusammenhängen. Sie bietet deshalb einen umfassenden Überblick über die gesamte Problematik der Clusteranalyse in Informationssystemen. Sie wurde Ende 1984 an der Philosophischen Fakultät der U n i v e r sität des Saarlandes (Fachrichtung I n f o r m a t i o n s w i s s e n s c h a f t ) als Dissertation angenommen. Mein Dank gilt vor allem Herrn Professor Dr. Harald H. Z i m m e r m a n n ( U n i v e r s i t ä t des Saarlandes), der mit seinem Rat und seiner Ermunterung entscheidenden E i n f l u ß auf das Entstehen dieser A r b e i t hatte, sowie den Herren Martin F. Wolters und Dr. N. B a n e r j e e , die meine Arbeit (insbesondere die Entstehung des V e r f a h r e n s STEINADLER und der Retrievalstrategien) u n t e r s t ü t z t und g e f ö r d e r t haben. Für wertvolle Hinweise danke ich auch H e r r n Professor Dr. Werner H. Tack ( U n i v e r s i t ä t des Saarlandes).

Mein Dank gilt auch den H e r r e n Dr. Heinz Schwärtzel und Professor Dr. Dieter Schutt, die durch ihr Verständnis und entsprechende Bereitstellung der H i l f s m i t t e l in der Schlußphase der s c h r i f t l i c h e n A r b e i t , i h r e Beendigung ermöglicht haben. Ein besonderer Dank gebührt Frau Martha Stocker, die das Manus k r i p t in seiner j e t z i g e n Form geschrieben hat. Meinen Freunden F r i t z Fleischhacker, Günter Raiss und Wolfgang Schwarz danke ich für ihren Einsatz beim Korrekturlesen. Schließlich danke ich meinen Eltern für ihre jahrelange Unterstützung .

München, den 1. April 1985

J i r i Panyr

VI l

INHALTSVERZEICHNIS

Vorwort

v

0.

Einleitung

l

0.1 0.2

l 6

1.

Einige Grundaspekte der I n f o r m a t i o n s v e r a r b e i t u n g 1.1 1.2

2.

M o t i v a t i o n der A r b e i t und der Vorgehensweise K u r z e Zusammenfassung

9

Informationswissenschaft Abgrenzung des B e g r i f f s :

11

I n f o r m a t i o n R e t r i e v a l System (IR-System)

15

1.3

Relevanzproblematik

24

1.4

Informationsgenerierungprozeß

28

1.5 1.5.1

Bezug der A r b e i t zur I n f o r m a t i o n s l i n g u i s t i k Probleme der l i n g u i s t i s c h e n F o r s c h u n g

31 31

1.5.2 1.5.3 1.6

Quantitative Linguistik Gegenstand der I n f o r m a t i o n s l i n g u i s t i k Forschungs- und Labormodelle von I n f o r m a t i o n R e t r i e v a l Systemen

35 36 37

Automatische K l a s s i f i k a t i o n

44

2.1

45

Allgemeine Problemstellung

2.2 Theoretische Grundlagen 2.2.1 Objekte und Merkmale der K l a s s i f i k a t i o n

47 47

2.2.2

Objektmengen d e r automatischen K l a s s i f i kation (Cluster) 2.2.3 Klassifikationstypen 2.3 Methoden der K l a s s i f i k a t i o n

57 61 63

2.3.1 2.3.2 2.3.3

D i r e k t e und r e k u r s i v e V e r f a h r e n Iterative Verfahren Graphentheoretische V e r f a h r e n

63 69 73

2.3.4

Hierarchische Verfahren

80

Vlll

2.4 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5 2.5 2.6

3.

4.

Anwendung der automatischen Klassifikation in IR-Systeraen Problemstellung und Motivation Aspekte des Einsatzes von automatischen Klassifikationsverfahren Dokumentenklassifikation (Dokumentenclustering) Termklassifikation Gemischte V e r f a h r e n Notiz zur dynamischen K l a s s i f i k a t i o n Evaluierungsproblematik

87 87 89 90 96 99 103 104

P r i n z i p des STEINADLER-Ansatzes

109

3.1

Motivation und Grundgedanke des V e r f a h r e n s

110

3.2 N o t i z zur Voranalyse 3.3 Thesaurusaufbau 3.4 Klassifikationsprozeß 3.4.1 Prioritätsklassenbildung 3.4.2 Clusteranalyse innerhalb der einzelnen Prioritätsklassen 3.4.3 V e r k n ü p f u n g e n zwischen benachbarten Prioritätsklassen

112 114 116 116

3.5 3.6

122 123

üpdatingprozeß Übersicht über Dateiorganisation

118 120

Thesaurusaufbau

125

4.1 Zum T h e s a u r u s b e g r i f f 4.2 Informationsaufbereitung 4.2.1 Automatische linguistische Analyse (im IR-System CONDOR) 4.2.2 Statistische Voranalyse 4.3 Thesaurusorganisation 4.3.1 Hash-organisierter Stammthesaurus (Thesaurushauptteil) 4.3.2 Stammthesauruseintrag

126 131 131 134 137 137 139

IX

5.

6.

7.

Ermittlung der Hierarchieebenen der K l a s s i f i k a t i o n (Prioritätsklassenbildung)

141

5.1 Problemstellung 5.2 P r i n z i p der Prioritätsklassenbildung 5.2.1 Theoretische Grundlagen und Voraussetzungen (bei Objekten mit binären Merkmalen) 5.2.2 Präordnung auf Prioritätsklassen 5.2.3 Bestimmung der Prioritätsklassen bei Objekten mit beliebigen Merkmalen 5.3 Beschreibung des Algorithmus 5.3.1 Einige Hinweise zur Prioritätsklassenbildung 5.3.2 A u f b e r e i t u n g des Klassifikationspools 5.3.3 Schematischer Algorithmusablauf

153 155 157

Clusteranalyse innerhalb der einzelnen Hierarchieebenen der Klassifikation

159

6.1 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.3 6.4

160 161 161 168 176 182 184 185

Problemstellung P r i n z i p des Verfahrens (INPRIOR) Theoretische Grundlagen und Voraussetzungen Operationale Algorithmusbeschreibung Formale Beschreibung des Verfahrensablaufs Thesauruseinträge nach der Clusteranalyse Alternative V e r f a h r e n Verfahrenseigenschaften

Verknüpfungen zwischen benachbarten der K l a s s i f i k a t i o n 7.1 7.1.1

142 143 143 150 151 153

Hierarchieebenen 188

Problemstellung 189 Theoretische Grundlagen und Voraussetzungen (Ausgangssituation) 190 7.1.2 Grundprinzipien und Basis der Vorgehensweise 198

8.

7.2 Beschreibung des Verfahrensansatzes 7.2.1 Auflösung zu kleiner Dokumentengruppen 7.2.2 Behandlung der nichtzuzuordnenden Knotenteile 7.2.3 Schematischer Algorithmusablauf 7.3 Thesauruseinträge nach der V e r n e t z u n g 7.4 Verfahrensmodifikation und alternative V e r f a h r e n 7.5 Interpretation und Eigenschaften des V e r f a h r e n s

218 219

Updatingmöglichkeiten der K l a s s i f i k a t i o n (dynamische K l a s s i f i k a t i o n )

222

8.1 8.2

223 225

Problemstellung U p d a t i n g p r i n z i p beim STEINADLER-Verfahren

8.3 Funktionen der Updatingkomponente 8.3.1 Ausgangssituation und Funktionsübersicht 8.3.2 Klassieren 8.3.3 K o r r e k t u r der Termcluster im K l a s s i f i k a t i o n s n e t z 8.3.4 Sonderbehandlung einiger Einzelterme 8.3.5 Löschen von Informationsobjekten 8.3.6 Sonstige Modifikationsmöglichkeiten 8.4 Veränderung der Thesauruseinträge nach der 8.5

9.

Updatingkomponente Aufwandschätzung (der K l a s s i f i k a t i o n mit STEINADLER)

203 204 211 212 216

228 228 233 238 240 243 246 247 249

I n t e r p r e t a t i o n der Ergebnisse der K l a s s i f i k a t i o n bei der Grobrecherche

251

9.1 E i n f ü h r u n g in die Rechercheproblematik 9.1.1 Recherchearten und Suchtechniken 9.1.2 Traditionelle Suchlogiken 9.1.3 P r i n z i p der Clustersuche 9.2 Spezielle Problemstellung (STEINADLER)

252 253 256 258 262

XI

9.3 Grobrecherchestrategien 9.3.1 Einleitung und D e f i n i t i o n e n 9.3.2 Suchauftragprojektion in das Klassifikationsnetz 9.3.3 Retrievalfunktionen 9.3.4 Rankingalgorithmen 9.4 Rahmenfunktionen der Grobrecherche

10. P r ä z i s i e r u n g der Rechercheergebnisse (als spezielles Relevanzfeedback) Grundlagen zu Relevanzfeedback-Strategien ( i n t e r a k t i v e Retrievalstrategien) 10.2 Problemstellung der Präzisierung als eines speziellen Relevanzfeedback 10.3 Präzisierung 10.3.1 Grundgedanke und Einteilung der Vorgehensweise 10.3.2 Potentielle Erweiterungsmöglichkeiten 10.4 Rahmenbedingungen der P r ä z i s i e r u n g s f u n k t i o n

264 265 269 274 275 282

283

10.1

11. Evaluierungsproblematik 11.1 B e w e r t u n g s k r i t e r i e n und -maße 11.1.1 Bewertungsproblematik: kritische Betrachtung 11.1.2 Übersicht über die wichtigsten E f f e k t i v i t ä t s m a ß e 11.2 Aspekte der Bewertungsproblematik 11.3 Evaluierungsmethoden 11.3.1 Zum Vorgang der Evaluierung von Retrievalergebnissen 11.3.2 Zur Bewertung der Retrievalleistung 11.3.3 Bewertung der Klassifikationsanwendungen 11.3.4 Zur CONDOR-Evaluierung (bzgl. STEINADLER) 11.4 Evaluierungsproblematik: Schlußbemerkung

284 288 290 291 294 295

298 299 299 303 306 310 311 314 319 326 327

Xll

12. Wechselwirkungen der automatischen K l a s s i f i k a t i o n mit anderen Erschließungsverfahren und ihr Anwendungsgebiet

329

12.1

Abgrenzung der Anwendungsziele der automatischen K l a s s i f i k a t i o n in Information Retrieval Systemen 330 12.2 Grenzen der Einflüsse sonstiger Erschließungsinstrumente 333 12.2.1 Thesaurusproblematik 333 12.2.2 Automatische linguistische Analyse 334 12.2.3 Formale Dokuraentanalyse 335 12.2.4 Verhältnis zwischen automatischer Klassif i k a t i o n und automatischer Indexierung 336 12.3 Automatische K l a s s i f i k a t i o n und Datenmodell 337 12.4 Intellektuelle und sonstige Einflüsse und Wechselwirkungen 339 12.5 Zur Anwendung der automatischen K l a s s i f i k a t i o n in I n f o r m a t i o n Retrieval Systemen 341

Anmerkungen

343

Literatur

368

Anhänge

391

A. Statistische Daten B. Beispiele der Knotenbildung C. Recherchebeispiel Verzeichnis der mathematischen Bezeichnungen, der sonstigen Notation und Abkürzungen

393 397 406

412

KAPITEL 0 EINLEITUNG

0.1 Motivation der Arbeit und der Vorgehensweise Im Mittelpunkt der Arbeit stehen die Methoden der automatischen Klassifikation in Information Retrieval Systemen (IR-Systemen), speziell ihre Anwendung in Prozessen der Informationserschließung und -Wiedergewinnung. Einen besonderen Schwerpunkt bildet dabei das Verfahren zur automatischen Klassifikation der Deskriptoren (Terme) und der Dokumente STEINADLER /!/, das im Rahmen des Forschungsprojekts CONDOR /2/ zwischen 1974 und 1980 konzipiert und entwickelt wurde. Die Anwendung der automatischen K l a s s i f i k a t i o n muß in einem breiteren Spektrum der methodologischen Grundlagen untersucht werden, die mit der Verwendung komplexer Verfahren in IR-Systemem zusammenhängen. Daher ist in der vorliegenden Arbeit auch ein Einblick in die Problematik der Informationserschließung und -Wiedergewinnung angeboten. Für die Anwendung der automatischen Klassifikation in IR-Systemen wurden in bisherigen Ansätzen vor allem zwei Gründe angegeben: die Verbesserung der E f f i z i e n z der Suche /3/ bei der Dokumentenklassifikation; die Verbesserung der E f f e k t i v i t ä t des Retrievals /4/ bei der Termklassifikation. Die Ansichten über die E r f ü l l u n g der o.g. Zielvorstellungen diff e r i e r e n . Während einige Fachleute der Dokumentenklassifikation neben der E f f i z i e n z - auch die Effektivitätsverbesserung bescheinigen /5/, sehen andere die Zielsetzung der Termklassifikation

nicht e r f ü l l t /6/ oder zumindest ihre Anwendung umstritten ( z . B . für die Erweiterung der Suchfrage um die Termklassen, die Suchb e g r i f f e e n t h a l t e n ) . Bezogen auf die gesamte Clusteringsproblematik sagt Mater (1983), daß man "den extralinguistischen Analysemethoden mehr Aufmerksamkeit schenken sollte / i n bezug auf die Informationsverarbeitung in natürlicher Sprache/. Hier sei nur die Cluster-Analyse erwähnt ( . . . ) , besonders wenn sie als selbstlernendes System /z.B. als dynamische K l a s s i f i k a t i o n mit Updatingmöglichkeiten/ konzipiert ist. Die Meinungen über die Eignung solcher Verfahren gehen noch weit auseinander. Das kann man als Indiz d a f ü r interpretieren, daß die theoretischen wie praktischen Grundlagen noch nicht hinreichend e r f o r s c h t sind" /?/. Die Bezeichnung "extralinguistisch" ist unpräzise, denn die automatische Klassifikation kann ohne weiteres in die Nähe der linguistischen Forschung gestellt werden, wie dies später noch aufgezeigt w i r d /8/. Als ein weiteres Argument für die Anwendung der Termklassifikation in IR-Systemen wurde auch der mit einem Dokumentenzuwachs sich zunehmend stabilisierende Wortschatz einer Dokumentenkollektion angegeben. Obwohl diese Annahme in überwiegender Mehrheit der Anwendungen ihre Gültigkeit behält,verursacht der ständige Zuwachs der Merkmale ( d . h . bei der Termklassifikation der Zuwachs der Dokumente) die gleichen Probleme, die auch mit einem Zuwachs der Klassifikationsobjekte verbunden sind /9/. Die prinzipielle Unmöglichkeit eines vom eigentlichen Benutzer unabhängigen objektiven Relevanzurteils ist eines der Hauptprobleme der "objektiven" Bewertung der E f f e k t i v i t ä t . Aus diesem Grund sind Ansätze entstanden, die auf verschiedene Arten versuchten, sich den E f f e k t i v i t ä t s v o r s t e l l u n g e n eines Benutzers zu nähern. So fangen z . B . Jackson (1970) oder Yu (1974a, 1974b, 1975) mit einer benutzerabhängigen Pseudoklassifikation an /10/ und aus ähnlichen Gründen wurden auch die Methoden des Relevanzfeedbacks (spez. für die Klassifikationsanwendung dann die Clusterfeedback-Methoden) entwickelt /ll/. Die Diskussion des Relev a n z b e g r i f f s hat ihren Niederschlag z . B . in den probabilistischen Theorien bzw. Modellen der IR-Systeme gefunden. Unter

probabilistischen Modellen sind dabei ausschließlich die Ansätze gemeint, die auf der Grundlage des sog. "Probability Ranking Principle" basieren /12/, und nicht die Methoden, die nur auf irgendeine A r t m i t wahrscheinlichkeitstheoretischen B e g r i f f e n operieren /13/. Die s i g n i f i k a n t e s t e methodologische Ausprägung dieser probabilistischen Theorien sind die sog. Relevanzfeedback-Strategien. Ein anderer Versuch, die Relevanzproblematik zu bewältigen, sind die sog. Fuzzy-Mengen bzw. die auf ihnen basierenden Modelle des Information Retrievals, die diese Problematik in die Unscharfe der natürlich-sprachlichen Ausdrücke verlagert haben und die auch als eine Reaktion auf die zunehmend logisierende Sprachbetrachtung gedeutet werden können /14/. Die Fuzzy-Modelle operieren, ähnlich wie die klassischen Retrievalmodelle, nur mit dem Beg r i f f "Relevanzgrad" und lassen den Schlüssellbegriff der probabilistischen Modelle "Relevanzwahrscheinlichkeit" außer Acht /15/. Die unkritische Übernahme von solchen Ansätzen f ü h r t jedoch zu Problemen, die sich in einer u n k r i t i s c h e n Majorisierung eines oder anderes Aspekts der Erschließung, der Wiedergewinnung oder auch der Bewertung der Informationen in einem IR-System niederschlagen. U.a. wird aus diesen Gründen in der vorliegenden Arbeit auch die Relevanz- bzw. die Evaluierungsproblematik eingehend behandelt. Alle Informationserschließungsverfahren, die die automatische K l a s s i f i k a t i o n nicht anwenden, f ü h r e n , unabhängig davon, wie man sie tatsächlich bezeichnet, zu einer strengen Suchlogik, d.h. bei der Recherche werden nur Dokumente gefunden bzw. angeboten, die entweder explizit einige der B e g r i f f e der Suchfrage enthalten oder die explizit mit solchen Suchbegriffen indexiert wurden /16/. Ein intellektuell erstellter Thesaurus kann in übersichtlichen thematisch homogenen Bereichen zwar den durch solche Suchlogiken verursachten Informationsverlust mindern, jedoch nicht beseitigen. In thematisch heterogenen Dokumentenbeständen kann schwerlich ein solcher Thesaurus zur Verfügung stehen. Schon aus diesen Gründen wird angenommen, daß eine automatische K l a s s i f i k a t i o n eine sinnvolle Ergänzung der Indexierungsmethoden

repräsentiert. Durch die Anwendung der automatischen Klassifikation wird anhand der kontextuellen Assoziationen zwischen Dokumenten bzw. Deskriptoren eine Dokumentbeschreibung ( d . h . das Ergebnis der automatischen oder intellektuellen Indexierung) implizit um Deskriptoren erweitert, zu deren Findung (und Zuteilung) keine, wie auch mächtige, I n t u i t i o n beitragen kann. Der Wunsch, Dokumentbeschreibungen erweitern zu können, muß sich in der Vorgehensweise einer maschinellen K l a s s i f i k a t i o n widerspiegeln. Die Deskriptoren (Terme) treten in einer Dokumentenkollektion meist in verschiedenen Kontexten a u f . Daraus läßt sich die Notwendigkeit von überlappenden Clustern ( d . h . Term- und/oder Dokumentengruppierungen) ableiten. Obwohl für die Erweiterung der Dokumentbeschreibungen sich primär die Termklassifikation anbietet, soll auch die (weniger umstrittene) Dokumentenklassifikation im Merkmalsraum d u r c h g e f ü h r t werden. Die die Termklassif i k a t i o n begleitenden Umgruppierungen im Merkmalsraum ( d . h . die Bildung der Dokumentencluster) können dann u.a. zur Bildung von homogeneren Termclustern und somit zu einer "schärferen" Abgrenzung der einzelnen (durch Terme und Dokumente beschriebenen) Kontexte beitragen. Die beiden Clustertypen ( d . h . Term- und Dokumentencluster) müssen miteinander eindeutig korrespondieren. Ein automatisches K l a s s i f i k a t i o n s v e r f a h r e n , das in einem IR-System angewendet werden soll, muß notwendigerweise Veränderungen und Zuwachs des Dokumentenbestandes wie auch des Wortschatzes in einem IR-System reflektieren können, d . h . das V e r f a h r e n muß diese Veränderungsmöglichkeiten schon bei seiner Konzeption berücksichtigen. Im weiteren wird die Begründung für die algorithmische Gliederung des (dem o.g. Zweck entsprechenden) Verfahrens STEINADLER k u r z aufgeführt. Die spezifischen ( d . h . in der Kollektion die seltenen) Terme erhöhen die Genauigkeit der Suche, f ü h r e n jedoch zu einem Informationsverlust. Die allgemeineren Terme ( d . h . in der Kollektion häufigeren) vervollständigen zwar die Suche, f ü h r e n jedoch zu

einem ballastbehafteten Retrieval. Unabhängig davon können allerdings die allgemeineren D e s k r i p t o r e n zu einer e i n f a c h e n Abgrenzung von verschiedenen Fachgebieten f ü h r e n (wie z . B . Terra BEFUND in der Medizin oder Term EDV in der I n f o r m a t i k ) , während seltene Terme die Bildung z u f ä l l i g e r Cluster begünstigen können, da die entsprechenden Merkmalsvektoren nicht genügend besetzt sind. Dies war auch die Motivation für die E i n t e i l u n g der Terme vor dem eigentlichen K l a s s i f i k a t i o n s p r o z e ß in etwaige Wichtigkeitsklassen. Da jedoch die W i c h t i g k e i t eines Terms für die Wiedergewinnung nicht eindeutig zu bestimmen bzw. zu d e f i n i e r e n ist ( z . B . auch deswegen, weil die G e n a u i g k e i t der Suche sich umgek e h r t proportional zu i h r e r Vollständigkeit v e r h ä l t /18/), wurde in der A r b e i t eine neutrale Bezeichnung " P r i o r i t ä t s k l a s s e " gewählt. Eine solche E i n t e i l u n g ermöglicht die D u r c h f ü h r u n g der Clusteranalyse zwischen statistisch u n g e f ä h r gleich bedeutenden Termen und hält auch die Anzahl der Umgruppierungen im Merkmalsraum im Rahmen. Die einzelnen P r i o r i t ä t s k l a s s e n ( d . h . die Hierarchieebenen der K l a s s i f i k a t i o n ) sind in bezug auf die in ihnen enthaltenen Terme d i s j u n k t . Ausgehend von der Hypothese, daß die Bildung der Termcluster in den hinsichtlich der Genauigkeit und der Vollständigkeit ausgewogenen "mittleren" P r i o r i t ä t s k l a s s e n am exaktesten w i r d , kann in einem der Clusteranalyse nachfolgenden Schritt eine Anpassung bzw. K o r r e k t u r der z u f ä l l i g e n Clusterbildung in den Randklassen s t a t t f i n d e n . Durch die V e r k n ü p f u n g der benachbarten P r i o r i t ä t s k l a s s e n entsteht dann eine hierarchische K l a s s i f i k a t i o n , d . h . eine für Änderung und Ergänzung der K l a s s i f i k a t i o n (beim Zuwachs der Dokumenten und Terme) v o r t e i l h a f t e B a u m s t r u k t u r . Durch diese Vorgehensweise bei der C l u s t e r b i l d u n g sind die entstandenen Cluster im P r i n z i p "übersichtlicher" als d i e , welche durch irgendeine klassische automatische K l a s s i f i k a t i o n s m e t h o d e entstehen. Daher kann in der entsprechenden Suchstrategie eine Erweiterung vorgenommen werden, die einem Anwender die Möglichk e i t bietet, über die für seinen Bedarf nützliche oder nutzlose Termkombinationen i n t e r a k t i v zu entscheiden. Diese i n t e r a k t i v e Suchstrategie (als P r ä z i s i e r u n g bezeichnet) kann den Relevanzf e e d b a c k - V e r f a h r e n zugeordnet werden.

6

Die o.g. Einteilung des Vorgangs des Klassifikationsprozesses erwies sich in Retrievalexperimenten und nach einem umfassenen S t u d i u m der Theorie und Praxis der IR-Systeme als sinnvoll und dem Verwendungszweck adäquat. Der Verfasser ist sich jedoch im klaren, daß die Verwendung der automatischen K l a s s i f i k a t i o n nicht jeder Anwendung in IR-Systemen angemessen ist. Es muß von Fall zu Fall entschieden werden, wann und wie die V e r f a h r e n der automatischen K l a s s i f i k a t i o n im Prozeß der Informationserschließung und -Wiedergewinnung eingesetzt werden können. Daher muß in der vorliegenden Arbeit auch ein genereller Überblick über die gesamte Problematik der automatischen K l a s s i f i k a t i o n , einschließlich der damit verwandten Fragestellungen der IR-Systeme (wie E v a l u i e r u n g , Suchstrategie e t c . ) , vermittelt werden.

0.2 K u r z e Zusammenfassung Die Arbeit beschäftigt sich mit der Anwendung der V e r f a h r e n der automatischen K l a s s i f i k a t i o n bei der Informationserschließung und der I n t e r p r e t a t i o n ihrer Ergebnisse bei der Wiedergewinnung in IR-Systemen. Besonders w i r d das vom Verfasser entwickelte Verfahren zur automatischen K l a s s i f i k a t i o n der Deskriptoren und Dokumente STEINADLER und die dazu k r e i e r t e Suchstrategie behandelt. Die A r b e i t soll einen umfassenden Einblick in die gesamte Problematik der automatischen K l a s s i f i k a t i o n in IR-Systemen vermitteln. Im folgenden w i r d eine k u r z e Übersicht über den Inhalt der Arbeit angeboten. D e t a i l l i e r t e r e Zusammenfassungen sind am Anfang jedes Kapitels a u f g e s t e l l t . Im Kapitel l w i r d zunächst der fachliche Rahmen der Arbeit abgesteckt. Insbesondere werden die Aufgaben der Informationswissenschaft (auch in Beziehung zur "künstlichen" Intelligenz) und der I n f o r m a t i o n s l i n g u i s t i k ( C o m p u t e r l i n g u i s t i k ) angesprochen, sowie die Terminologie der IR-Systeme erläutert. Besondere Abschnitte werden der Relevanzproblematik und den Informationsgenerierungsprozessen gewidmet. Zum Schluß des Kapitels wird ein Überblick über die Forschungsprojekte und Labormodelle der IR-Systeme vermittelt.

Das Kapitel 2 bietet ein umfassenden Einblick in die Theorie und Methoden der automatischen K l a s s i f i k a t i o n . Diese Übersicht ist durch die Anwendung von solchen Methoden in einem IR-System m o t i v i e r t . Die Methoden, die speziell für IR-Systeme entwickelt wurden, sind zum Schluß des Kapitels a u f g e f ü h r t . Dabei werden auch die Evaluierungsmöglichkeiten der Klassifikationsergebnisse angesprochen. Das Kapitel 3 beschäftigt sich mit der Motivation und mit dem Grundgedanken und bringt auch eine schematische Beschreibung des Ablaufs des V e r f a h r e n s STEINADLER. Der T h e s a u r u s b e g r i f f wird im Kapitel schließend wird der in dieser Arbeit abgeleitet und die Organisation bzw. e r k l ä r t , die dann die K l a s s i f i k a t i o n

4 allgemein e i n g e f ü h r t . Anverwendete Thesaurusbegriff der A u f b a u des Thesaurus mit STEINADLER verwendet.

Die Kapitel 5, 6 und 7 beschreiben die einzelnen Phasen der Klass i f i k a t i o n mit STEINADLER, d . h . die Bildung der Prioritätsklassen, die eigentliche Clusteranalyse innerhalb der einzelnen Prioritätsklassen und die Verknüpfung und gegenseitige Anpassung der Cluster benachbarter P r i o r i t ä t s k l a s s e n ( d . h . der Hierarchieebenen der K l a s s i f i k a t i o n ) , begleitet jeweils durch die entsprechenden Aufwandschätzungen. Mit den üpdatingmöglichkeiten der Ergebnisse der automatischen K l a s s i f i k a t i o n generell beschäftigt sich das Kapitel 8. Der Lösungsansatz für die K o r r e k t u r , Ergänzung bzw. E r w e i t e r u n g und das Löschen von Objekten in der durch STEINADLER generierten K l a s s i f i k a t i o n s s t r u k t u r wird detailliert beschrieben. Einleitend zu der im System CONDOR verwendeten Suchstrategie auf der Basis der STEINADLER-Ergebnisse w i r d im Kapitel 9 ein Überblick über die traditionellen Recherchearten und Suchtechniken sowie über die Technik der Clustersuche angeboten. Die Rankingalgorithmen und die Diskussion der weiteren Recherche schließen das Kapitel.

8

Die interaktive Komponente der Recherche auf der Basis von STEINADLER-Ergebnissen ( d . h . die P r ä z i s i e r u n g ) wird im Kapitel 10 beschrieben. Da diese Komponente den Relevanzfeedback-Strategien zugeordnet werden kann, werden auch die Motivation und das Grundp r i n z i p dieser Strategien (einschließlich des sog. Clusterfeedbacks) e r k l ä r t . Eine k r i t i s c h e Betrachtung der Bewertungsproblematik und eine Übersicht über die wichtigsten Bewertungsmaße einschließlich ihrer I n t e r p r e t a t i o n werden im Kapitel 11 angeboten. Speziell werden noch die Bewertungsansätze bei der Anwendung der Clusteranalyse behandelt. Die Arbeit schließt (im Kapitel 12) mit einer generellen Betrachtung der sinnvollen und nichtsinnvollen Wechselwirkungen der automatischen K l a s s i f i k a t i o n mit anderen möglichen Erschließungsmethoden oder -Instrumenten. Dabei werden auch die Anwendungsmöglichkeiten der automatischen K l a s s i f i k a t i o n besprochen. Vorerst w i r d geklärt, was unter der "Verbesserung der E f f e k t i v i t ä t durch die automatische K l a s s i f i k a t i o n " zu verstehen ist, d . h . es wird das wünschenswerte E f f e k t i v i t ä t s k r i t e r i u m f o r m u l i e r t . Die einzelnen Kapiteltexte werden durch eine Reihe von Anmerkungen (nach den einzelnen Kapiteln gegliedert) ergänzt. In den Anhängen werden noch einige statistische Daten und Beispiele des Retrievalablaufs sowie der erzeugten Term- und Dokumentencluster a u f g e f ü h r t . Am Schluß der Arbeit sind die im Text verwendeten mathematischen und auch sonstigen Symbole aufgelistet.

KAPITEL l EINIGE GRUNDASPEKTE DER INFORMATIONSVERARBEITUNG

Die Grundgedanken und Methoden bzw. Vorgehensweisen, d i e in der Arbeit beschrieben w e r d e n , können zu i n f o r m a t i o n s w i s s e n s c h a f t l i cher Forschung zugeordnet werden. Aus diesem Grund werden a n f a n g s (im Abschnitt 1.1) die Aufgaben und Ziele der I n f o r m a t i o n s w i s s e n schaft k u r z a u f g e l i s t e t . Ausgehend aus der U n a b h ä n g i g k e i t der drei wissenschaftlichen D i s z i p l i n e n , die sich in irgendeiner Form mit Sprach- bzw. I n f o r m a t i o n s v e r a r b e i t u n g b e s c h ä f t i g e n , d . h . der I n f o r m a t i o n s w i s s e n s c h a f t , Computerlinguistik und "künstlichen Intelligenz", w i r d ihre Beziehung z u e i n a n d e r angesprochen. Da sich die A r b e i t p r i m ä r mit der Anwendung von automatischen K l a s s i f i k a t i o n s v e r f a h r e n in I n f o r m a t i o n Retrieval Systemen (IRSystemen) b e s c h ä f t i g t , w i r d im Abschnitt 1.2 eine Übersicht über die Terminologie der IR-Systeme bzw. D e f i n i t i o n e n der wesentlichen dort verwenden B e g r i f f e angeboten und eine Abgrenzung des B e g r i f f s IR-System d u r c h g e f ü h r t . Der B e g r i f f der Relevanz gehört zu den S c h l ü s s e l b e g r i f f e n der Theorie der IR-Systeme, zu der diese Arbeit einen Beitrag leisten w i l l . In Abschnitt 1.3 w i r d daher eine E i n f ü h r u n g in d i e Relevanzproblematik vorgenommen. In Abschnitt 1.4 w i r d ein I n f o r m a t i o n s p r o z e ß d e f i n i e r t , der die Problematik von IR-Systemen widerspiegelt, d . h . der die Wiedergewinnung und auch Informationserschließung als einen approximativen Prozeß darstellt und und die mögliche W i r k u n g des Benutzers in Betracht z i e h t .

10

Abschnitt 1.5 stellt einen k u r z e n E x k u r s in die Computerlinguistik d a r . Der V e r f a s s e r ist sich im k l a r e n , daß dieser E i n b l i c k etwas s u b j e k t i v dargeboten w i r d . Es war auch nicht der Zweck des Abschnitts einen umfassenden Überblick zu l i e f e r n , sondern lediglich die Stellung der q u a n t i t a t i v e n und heuristischen Methoden in der L i n g u i s t i k zu umschreiben. Da die automatische Klass i f i k a t i o n der Texte (Dokumente) und der Terme ( D e s k r i p t o r e n ) in die Nähe der linguistischen V e r f a h r e n gestellt w i r d , war jedoch ein k u r z e r E x k u r s hinsichtlich einer solchen Zuordnung n ö t i g . Im Abschnitt 1.6 w i r d ein Überblick über Forschungs- und Labormodelle der IR-Systeme v e r m i t t e l t , die meist auch die automatische K l a s s i f i k a t i o n als Mittel zur Erschließung von I n f o r m a tionen konzeptionell enthalten.

11

1.1 Informationswissenschaft Während im Bereich der informationswissenschaftlichen Forschung meist relativ unbefangen auf das Gebiet der künstlichen Intelligenz verwiesen w i r d , f e h l t umgekehrt in A r b e i t e n über künstliche Intelligenz und ihre P r i n z i p i e n meist jeglicher Hinweis auf die Informationswissenschaft. Beide Gebiete erheben auch einen gewissen Anspruch auf eine i n t e g r a t i v e F u n k t i o n in bezug auf die zahlreichen w i s s e n s c h a f t l i c h e n D i s z i p l i n e n , die zu den spezifischen Lösungen im beanspruchten W i r k u n g s k r e i s b e i t r a g e n . Nilsson (1971) schreibt: "My view is that a r t i f i c i a l intelligence ( . . . ) an engineering discipline since its p r i m a r y goal is to build things ( . . . ) Instead of central t h e o r y , t h e r e are many theoretical subjects that are relevant ( . . . ) in a r t i f i c i a l intelligence. Some of these include mathematical logic, computational l i n g u i s t i c , theory of computation, i n f o r m a t i o n s t r u c t u r e s , control theory, statistical c l a s s i f i c a t i o n theory, graph t h e o r y , and theory of h e u r i s t i c search" /!/. Demgegen sagen Steinmüller/ Tittlbach (1980): "Es ist a n z u s t r e b e n , daß die I n f o r m a t i o n s w i s senschaft zugleich als Metatheorie über den gesamten Informationsbereich unter Einschluß der i n f o r m a t i o n e i l e n Aspekte der genannten Disziplinen entsteht", wie z . B . " I n f o r m a t i k , Dokumentations- und Bibliothekswissenschaft, K l a s s i f i k a t i o n s t h e o r i e , I n f o r m a t i o n s t h e o r i e , N a c h r i c h t e n t h e o r i e , Planungs- und Entscheidungstheorie, K o m m u n i k a t i o n s w i s s e n s c h a f t , Sprachwissenschaften, L i n g u i s t i k , Wissenschaftstheorie, formale (Logik und M a t h e m a t i k ) Methoden der I n f o r m a t i o n " /2/. Walker (1981) versucht eine D i f f e r e n z i e r u n g zu berücksichtigen, indem er über 3 selbständige Forschungsgebiete s p r i c h t , setzt jedoch i h r e Wechselwirkungen und Überschneidungen voraus: -

Informationswissenschaft; Computerlinguistik; künstliche I n t e l l i g e n z ( " a r t i f i c i a l intelligence" - A I ) .

Während die I n f o r m a t i o n s W i s s e n s c h a f t sich auf " f o r m a l i s i n g the processes of knowledge f o r m u l a t i o n , o r g a n i z a t i o n , c o d i f i c a t i o n , r e t r i e v a l , d i s s e m i n a t i o n , and a q u i s i t i o n " k o n z e n t r i e r t /3/ ( d . h .

12

auch auf W i s s e n s t r a n s f e r ) , soll die Computerlinguistik ("computational l i n g u i s t i c s " ) auf die folgenden zwei A r t e n relevant sein: " F i r s t , it can provide some practical techniques for interacting w i t h and controlling the operations of computer through n a t u r a l language ( . . . ) second, it addresses the general issue of communication in n a t u r a l language; recent research has made it clear how complex the processes associated w i t h human understanding really are and how more there is that need know" /4/. "Research in a r t i f i c i a l intelligence can be c h a r a c t e r i z e d by the k i n d of a c t i v i t y or area of behavior studied or by basic concepts and techniques that r e f l e c t underlying mechanism. In the f i r s t case, it is a p p r o p r i a t e to r e f e r to v i s i o n and image analysis, language and speech u n d e r s t a n d i n g , robotics, knowledge based systems, automatic programming and program synthesis, d i s t r i b u t ed data management, and game playing. ( . . . ) Considered in relation to concepts and techniques, AI is concerned with issue of representation and modeling sense reasoning, knowledge acquisition and use, h e u r i s t i c search procedures, and system control s t r u c t u r e " /5/. Diese G l i e d e r u n g steht in keinem W i d e r s p r u c h zu der A u f l i s t u n g der zugrundeliegenden P r i n z i p i e n der AI von Nilsson (1971) , ist aber relativ k o n t r a s t i v zu Winstons (1977) Versuch, ein "around" System a u f z u b a u e n . Nach Walker (1981) kann dieser Kontrast so umgeschrieben werden: "Research on concepts and techniques is o f t e n motivated by the desire to f o r m a l i z e abstract principles. Howev e r , as noted above, these principles are almost always developed and tested in the context of a system implementation" /6/. Die (allgemeine) I n f o r m a t ionsWissenschaft kann nach Zimmermann (1984) als die "wissenschaftliche Behandlung des Transfers von Wissen" betrachtet werden, sei es nun " k ü n s t l i c h e m 1 ( A I , comp u t e r i n t e r n ) oder menschlichem (psychologisch m o t i v i e r t ) . Unter dem 'Wissen' w i r d dabei keine philosophische Kategorie verstanden, sondern "es schließt auch ' M e i n e n ' und 'Glauben 1 ebenso ein wie theoretisches, praktisches (Handlungs-)Wissen oder in materiellen Gegenständen ( ' T e c h n o l o g i e n 1 , ' W e r k z e u g e n ' ) gleichsam kondensiertes Wissen" /7/. Somit wird die I n f o r m a t i o n auch als

13

Prozeß bzw. als Ergebnis des Prozesses der Vermittlung von Wissen verstanden (vgl. auch Fugmann (1981) bzw. Abschnitt 1 . 4 ) . "Wissenstransfer setzt einen P r o d u z e n t e n , einen Rezipienten und ein Vermittlungssystem (Informationssystem) voraus. Das V e r m i t t lungssystem kann auch als Kommunikationssystem betrachtet werden, da die I n t e r a k t i o n zwischen Produzent und Rezipient in der Regel wechselseitig e r f o l g t " (vgl. Zimmermann ( 1 9 8 4 ) ) . So a u f g e f a ß t , kann die Wissenschaft vom T r a n s f e r von Wissen in der F a c h k o m m u n i k a t i o n , in Büro und in der Verwaltung ( z . B . FachI n f o r m a t i o n s w i s s e n s c h a f t ) auch als "spezielle" Informationswissenschaft bezeichnet werden. D a r u n t e r werden auch Themen dieser Arbeit f a l l e n . Nach Zimmermann (1984) w i r d dann "insbesondere n ü t z l i c h , vor diesem H i n t e r g r u n d auch einige etablierte Wissenschaften zu beleuchten: So könnte die L i n g u i s t i k (oder Sprachwissenschaft) unter den vorgestellten Aspekten durchaus auch als eine spezielle Informationswissenschaft a u f g e f a ß t w e r d e n . Betrachtet man nämlich die Sprache als ein Kommunikationssystem, das dazu d i e n t , sprachlich kodiertes Wissen zu v e r m i t t e l n , so sind im Grunde alle entsprechenden Rahmenbedingungen der (allgemeinen) Informationswissenschaft e r f ü l l t " /8/. Mit einigen Abstrichen gilt dies auch z . B . für d i e E r z i e h u n g s w i s s e n s c h a f t , J o u r n a l i s t i k oder G e n e t i k . "Auch aus einem anderen Blickwinkel erscheint ein d e r a r t i g allgemeiner Ansatz zur D e f i n i t i o n von I n f o r m a t i o n s w i s s e n s c h a f t nützlich: verbindet er doch verschiedene D i s z i p l i n e n methodisch und i n h a l t l i c h " , d . h . als eine Metatheorie ( v g l . auch Steinmüller/ Tittlbach ( 1 9 8 0 ) ) , "auch wenn sich in der Spezialisierung vielf ä l t i g e Unterschiede ergeben" /9/. Diese Arbeit b e s c h ä f t i g t sich v o r r a n g i g mit einer Problematik der IR-Systeme. Auch wenn die sog. AI-Systeme ( d . h . Frage-Antwort- oder auch Expertensysteme) als eine evolutionäre Weiterentwicklung der IR-Systeme betrachtet werden können, werden sie diese nicht ablösen können. Beide werden vielmehr entweder ne-

14

beneinander oder miteinander gleichzeitig und als gegenseitige Ergänzung existieren. Addis (1982) schreibt "Expert Systems An Evolution in I n f o r m a t i o n Retrieval" und Walker (1981) sagt: "The IR-Systems of i n f o r m a t i o n science and ( . . . ) expert systems of A r t i f i c i a l Intelligence can be viewed as constituting two ends of a continuum of f a c i l i t i e s relevant for knowledge sythesis and interpretation. ( . . . ) both represent static states, the content of i n f o r m a t i o n retrieval systems providing the raw materials from which people derive i n f o r m a t i o n relevant for their needs; the expert systems embodying digested knowledge consensually validated as relevant for some area of i n g u i r y " /10/. Kuhlen (1984) resümiert (ausgehend von einer Autonomie der Informationswissenschaft und der Künstlichen Intelligenz ( K I ) ) : "Keineswegs ist die KI eine umfassende Meta-Disziplin für die Informationswissenschaft. So leisteten im Zusammenhang von I n f o r raation-Retrieval-Problemen KI-Methoden nur einen ( . . . ) Beitrag /von mehreren/. ( . . . ) Auf der anderen Seite erzwingen die Notwendigkeiten des I n f o r m a t i o n s m a r k t e s (internationaler Konkurenzdruck) mehr ingenieurmäßige /?/ E n t w i c k l u n g s a r b e i t , um z . B . die konzeptionell schon etwa 15 Jahre alten Information-RetrievalSysteme den heutigen Hard- und Software-Möglichkeiten anzupassen. Der augenblickliche Stand der KI w i r d den A n f o r d e r u n g e n der Informationspraxis von Materialumfang wie von der Komplexität her möglicherweise nicht gerecht. ( . . . ) Viele Probleme, für die KIMethoden relevant sind, sind sehr schwierig und nur l ä n g e r f r i s t i g lösbar, z . Z . noch im Stadium der Grundlagenforschung oder eng begrenzten Experimente ( z . B . Mini-Welten). ( . . . ) Die Informationspraxis kann nicht auf die Ergebnisse der Grundlagenforschung in der KI warten. ( . . . ) Es ist eine gefährliche Fehleinschätzung, wenn in industriellen K I - P r o j e k t e n davon ausgegangen w i r d , daß sämtlichen formalen, konzeptuellen und softwaretechnischen KIGrundlagen bereits erarbeitet wurden und für ehrgeizige Anwendungen nur noch ingenieurmäßig umgesetzt werden müssen. ( . . . ) Durch eine v e r s t ä r k t e Zusammenarbeit von KI und Informationswissenschaft, auch und gerade im Bereich der grundlagenorientierten Forschung, ist die Chance gegeben, neuartige Informationssysteme zu konzipieren und zu entwickeln, welche den technischen Poten-

15

tialen gerecht werden, welche durch die geplante, intensive Förderung der Informationstechnik für die nächsten Jahre zu erwarten sind und welche den d i r e k t e n Zugang von gelegentlichen und naiven Benutzern zu Informationssystemen ermöglichen sollten. Der zu erwartende Bedarf an Systemen, die eine hohe I n f o r m a t i v i t ä t bei einer einfachen, benutzergerechten Kommunikationsschnittstelle gewährleisten, w i r d nur durch eine f r u c h t b a r e Zusammenarbeit beider Disziplinen gedeckt werden können" /ll/.

1.2 Abgrenzung des B e g r i f f s ; Information Retrieval System (IR-System) Im Mittelpunkt der A r b e i t steht ein besonderes V e r f a h r e n zur automatischen K l a s s i f i k a t i o n von Dokumenten und Deskriptoren, das zur Anwendung in einem IR-System entwickelt wurde. Ehe nun das V e r f a h r e n beschrieben und in Spektrum der IR-Verfahren eingeordnet w i r d , sollen einige wesentliche B e g r i f f e der IR-Systeme aufgeführt (bzw. erläutert) werden. Unter einem Informationssystem versteht Neveling/Wersig (1975) "ein Kommunikationssystem, das durch den Austausch von Daten I n f o r m a t i o n e n bewirken soll" /12/. Nach Gebhardt (1981) wird unter einem System "eine Menge von O b j e k t e n , die untereinander in Beziehungen mit w o h l d e f i n i e r t e n Eigenschaften stehen" verstanden. Wenn diese Beziehungen vornehmlich in der Aufnahme, V e r a r b e i t u n g und Weitergabe von I n f o r m a t i o n e n bestehen, nennt man das System ein Informationssystem" /13/. Diese D e f i n i t i o n e n schließen in sich im Grunde jedes informationsverarbeitende oder verwaltende System mit e i n , d . h . auch ein beliebiges natürliches System (wie z . B . das menschliche Denken) oder ein künstliches, wie z . B . die B ü r o k r a t i e /14/. Eine wesentliche Einschränkung von IR-Systemen als spezielle Informationssysteme f o r m u l i e r t noch Lancaster (1968). Er s p e z i f i z i e r t IR-Systeme wie folgt /15/t "An information retrieval system does not i n f o r m ( i . e . change the knowledge of) the user on the subject of his i n q u i r y . It merely informs him on the existence (or nonexistence) and whereabouts of documents relating to his request." Heute werden solche spezielle IR-Systeme als R e f e r e n z - I n f o r m a -

16

tionssysteme bezeichnet. Dabei ist es notwendig zu betonen, daß die D e f i n i t i o n von Lancaster heute nicht mehr so "eng" gefaßt werden kann. Die E i n s c h r ä n k u n g bezieht sich bei Lancaster v . a . auf das Retrieval in L i t e r a t u r - I n f o r m a t i o n s b a n k e n (sog. bibliographischen Datenbanken, vergleichbar mit den "gedruckten" Bibliographien und R e f e r a t e b l ä t t e r n ) . Die neuere Wissenschaft bezieht auch Fakten-Informationssysteme mit ein: so werden auch Systeme, die Operationen über die ermittelten Fakten a u s f ü h r e n ( z . B . Z e i t r e i h e n - R e c h n u n g e n zu statistischen D a t e n ) , zu den IRSystemen gerechnet. Auch durch die Möglichkeit der automatischen K l a s s i f i k a t i o n und dadurch ermöglichter P r ä z i s i e r u n g der Suchf r a g e auf der Basis des Vorzeigens der automatisch erstellten O r d n u n g s s t r u k t u r des Datenbestandes, bekommt der Benutzer wohl, wenn auch h ä u f i g nicht sehr präzise, einen groben Überblick über die Inhalte der Dateneinheiten. Bei Relevanzfeedback-Verfahren kommt es ebenfalls schon zu einer Art des Wissensaustausches zwischen dem Benutzer und einem System, allerdings waren diese Ansätze 1968 mehr oder minder u n b e k a n n t . Lancaster (1968) wollte o f f e n b a r lediglich das "klassische" IR-System ( z . B . L i t e r a t u r Informationssystem) gegenüber dem Frage-Antwort-System oder dem Fakten-Retrieval abgrenzen. Unter "Retrieval" w i r d allgemein "die Methode verstanden, in einem bestimmten Datenbestand Suchvorgänge d u r c h z u f ü h r e n " /16/. Datenbestand (bezogen auf ein System) ist dann "die Menge der gespeicherten Dateneinheiten, auf die innerhalb des Systems zugeg r i f f e n werden kann" /17/. Ein Retrievalsystem w i r d demnach beschreibbar als "die Gesamtheit der methodologischen Grundlagen, technischen V e r f a h r e n und technischen E i n r i c h t u n g e n , die das Retrieval ermöglichen" /18/. Im w e i t e r e n w i r d u n t e r einem IR-System eine solche "Gesamtheit" verstanden, wobei neben die I n f o r m a tionswiedergewinnung auch die Informationserschließung einbezogen w i r d . Erst eine konzeptionell ( u n d p r a k t i s c h ) gelöste I n f o r m a tionserschließung ( I n d e x i e r u n g im weiteren Sinne) bildet nämlich die notwendige V o r a u s s e t z u n g für die W i e d e r g e w i n n u n g ( R e t r i e v a l ) . Bei dem F a k t e n r e t r i e v a l ( " D a t e n r e t r i e v a l " ) werden "als Antwort auf eine Suchfrage Daten s e l e k t i e r t , die geeignet s i n d , die Suchf r a g e d i r e k t zu beantworten" /19/. Die Grenzen zwischen einem IR-

17

System und einem Faktenretrieval-System werden heute - wie erwähnt - nicht mehr so eng gezogen, wie dies in den 60-er (und auch f r ü h e r e n 70-er) Jahren der Fall w a r . Komplexere Erschließungsmethoden ermöglichen auch eine komplexere Information bzw. Antwort für den Benutzer bzw. Suchfragesteller. Ein Faktenretrievalsystem (oder ein Frage-Antwort-System) kann somit u . U . als eine evolutionäre Weiterentwicklung des IR-System betrachtet werden (vgl. auch Addis ( 1 9 8 2 ) , Walker (1981), van Rijsbergen (1979, 1983), Panyr/Lehmann ( 1 9 8 3 ) ) . Die Informationsquellen werden in der IR-Praxis (und Theorie, spez. in der IuD-Praxis /20/) meist als Dokumente bezeichnet. Auch hier existieren z.T. erhebliche Unterschiede in der A u f f a s sung des Dokument-Begriffs. Wersig/Mayer-Uhlenried (1970) beziehen ihre D e f i n i t i o n lediglich auf die Dokumentationssysteme. Sie betrachten Dokumente dabei als Träger der Dokumentationsdaten, d.h. "ein Dokument ist die materielle Einheit eines Trägers dokumentarischer Daten", d . h . der Daten, die in der Lage sind, die Rezipienten (Benutzer) eines Dokumentationssystems in bezug auf ihre A n f r a g e n zu " i n f o r m i e r e n " /2l/. Der B e g r i f f "Dokument" wird in dieser Arbeit in weitgehend ähnlichem Kontext benutzt bzw. verstanden. Da sich aber die automatische K l a s s i f i k a t i o n nicht nur auf solche dokumentarische Daten zu beschränken braucht, wird in der Arbeit auch eine allgemeinere D e f i n i t i o n des DokumentB e g r i f f s verwendet. Der Verwendungszweck bleibt aber dem bei Neveling/Wersig (1975) ähnlich. Demnach ist ein Dokument eine Informationsquelle, die durch eine Menge materiell f i x i e r t e r und geordneter "Daten oder Informationen" gebildet ist, die eine beliebige (physikalische) Form und charakteristische Merkmale haben können /22/. Es ist o f f e n s i c h t l i c h , daß darunter auch die Dokumente im Sinne von Neveling/Wersig (1975) einschließlich ihrer akustischen Form ( z . B . Tonbandaufzeichnung) und zusätzlich beliebige k l a s s i f i z i e r b a r e potentielle Informationsquellen, wie z.B. DV-Programme, Bilder oder Geräusche, anfallen. Anstelle des Terminus "Dokument" wird in der Arbeit synonym (wenn auch vergröbend) auch "Informationsobjekt", "Informationsquelle" oder "dokumentarische Bezugseinheit" benutzt.

18

Im weiteren wird nicht mehr zwischen Dokument- ( d . h . selektierte Einheit ist das Dokument selbst) und Nachweisretrieval ( d . h . selektierte Einheit sind Dokumentbeschreibungen) unterschieden /23/. "Eine Dokumentbeschreibung ist die Darstellung formaler und/oder inhaltlicher C h a r a k t e r i s t i k a eines Dokuments in einer für Information und Dokumentation verwendbaren Form" /24/. Unter einer formalen Dokumentbeschreibung w i r d dann "die Beschreibung formaler C h a r a k t e r i s t i k a eines Dokuments" /25/ verstanden. Auf diese "formale C h a r a k t e r i s t i k a " w i r d ( z u n ä c h s t ) nicht näher eingegangen. "Eine inhaltliche Dokumentbeschreibung ist die Beschreibung inhaltlicher C h a r a k t e r i s t i k a eines Dokuments" /26/. Die Bezeichnung "Dokumentbeschreibung" w i r d im Sinne der (system-)internen Dokumentrepräsentation nach dem Prozeß der inhaltlichen Dokumenterschließung b e n u t z t . Diese Repräsentation kann dann ein Dokument selbst oder das Ergebnis seiner Indexierung werden, evtl. einschließlich der I n f o r m a t i o n e n , die a u f g r u n d der automatischen K l a s s i f i k a t i o n gewonnen werden, oder auch bibliographische Angaben. Die inhaltliche Dokumenterschliessung w i r d als eine der funktionalen Komponenten eines IR-Systems betrachtet. Die inhaltliche Dokumenterschließung w i r d auch als Indexierung bezeichnet. Laut DIN 31623 wird unter der Indexierung "die Gesamtheit der Methoden und V e r f a h r e n sowie deren Anwendungen, die zur Zuordnung von Deskriptoren oder Notationen zu Dokumenten f ü h r e n mit dem Ziel der inhaltlichen Erschließung W i e d e r a u f f i n d u n g " /27/ verstanden.

sowie gezielten

Eine der Indexierungsmethoden wird dann die automatische Indexierung , "nach der zu einem Dokument Deskriptoren oder Notationen von einer Datenverarbeitungsanlage ermittelt werden" /28/. Synonym zum "Deskriptor" wird in weiterem auch die Bezeichnung "Term" verwendet. Unter einem Term w i r d dabei ein Deskriptor oder eine Deskriptorgruppe ( z . B . Cluster) einschließlich einiger Inhaltskennzeichnungen (wie z . B . die Verknüpfungen zwischen Deskriptoren oder Clustern) verstanden. Diese Kennzeichnungen sind nicht notwendigerweise natürlich-sprachlich, sondern formal-sprachlich (u.a. auch Notation irgendwelches vorgegebenen K l a s s i f i k a t i o n s systems) . Im Angloamerikanischen entspricht es etwa dem Ausdruck "index term".

19

In DIN 31623 wird hauptsächlich die sog. gleichordnende Indexierung behandelt ( d . h . ohne S y n t a x ) . Unter der gleichordnenden Indexierung versteht man die "Indexierungsmethode, bei der die Deskriptoren oder Notationen unabhängig von ihrem hierarchischen Niveau und ihren dokumentspezifischen Zusammenhängen gleichrangig nebeneinander gestellt und dem betreffenden Dokument zugeordnet werden" /29/. Dagegen wird unter sog. syntaktischer Indexierung eine Indexierungsmethode verstanden, bei der neben der Angabe der Deskriptoren deren Gewichtung, Rolle und/oder unterschiedlich enge Verknüpfungen im betreffenden Dokument in besonderer Weise kenntlich gemacht werden. Laut Jansen (1978) ist syntaktische Indexierung "eine Methode, die auf dem semantischen Fundament a u f b a u t , das durch die gleichordnende Indexierung gelegt w i r d . Zusätzlich zu den semantischen Einheiten, repräsentiert durch Deskriptoren, treten syntaktische Angaben a u f , etwa in Form von Verknüpfungs-, Rollen- oder Gewichtungsindikatoren" /30/. Bei automatischer Indexierung werden die Deskriptoren überwiegend nach dem sog. E x t r a k t i o n s p r i n z i p gewonnen, d.h. dem Dokument selbst entnommen. Dies wird besonders dann (gilt auch für intellektuelle Indexierung) sinnvoll, wenn es sich um Gebiete handelt, "in denen die Bedeutung der in Fachsprache verwendeten Termini weitgehend unklar ist und von verschiedenen Autoren und Fragestellern höchst unterschiedlich interpretiert wird ( . . . ) Ähnlich liegen die Verhältnisse bei ausgeprägten terminologischen Studien, bei denen es sich ebenfalls um das A u f f i n d e n bestimmter Wörter oder Wortgruppen in Publikationen handelt, und bei denen erst aus dem Kontext die Bedeutung ermittelt werden soll" oder kann (Fugmann (1976) , /3l/). Dies wird wahrscheinlich aber bei jedem heterogenen Dokumentenbestand der Fall, da graphematisch gleiche Wörter verschiedene Bedeutungen haben können. Prinzipiell ist beim E x t r a k t i o n s p r i n z i p nicht von Bedeutung, ob die Deskriptoren den Dokumenten mit oder ohne H i l f e eines vorgegebenen Thesaurus zugeteilt werden.

20

Dem E x t r a k t i o n s p r i n z i p entgegen steht laut DIN 31623 die sog. Additionsmethode, "nach der einem Dokument Deskriptoren zugeteilt werden, die im Dokument nicht verbal enthalten sein müssen" /32/. Man kann auch beide P r i n z i p i e n kombinieren. Obwohl ein Vergleich zwischen den Ergebnissen der automatischen und manuellen I n d e x i e r u n g den Schluß zuläßt, daß die Ergebnisse gleich gut sein können (vgl. Sparck Jones/Kay (1976a) , Salton (1971) und (1975), Gebhardt ( 1 9 8 1 ) ) , sind bisher bei k e i n e r Ins t i t u t i o n Anwendungen mit umfangreichen Dokumentenbeständen bek a n n t , die automatisch indexiert wurden (vgl. Gebhardt (1981)). Als einer der Gründe w i r d z . B . der hohe E r f a s s u n g s a u f w a n d der meist nicht maschinell lesbaren Texte ( z . B . mit H i l f e eines Klarschriftlesers - vgl. Supper ( 1 9 7 8 ) , Hermann ( 1 9 7 3 ) ) genannt. Das automatische Indexieren w i r d zwar mancherorts für begrenzte Zwecke ( z . B . bei Titeln) p r a k t i z i e r t , aber von Dokumentaristen (speziell I n d e x i e r e r n ) mit Mißtrauen betrachtet (vgl. Sparck Jones/Kay ( 1 9 7 6 a ) ) . Für die automatische Indexierung spricht u.a. die auf jeden Fall bessere Konsistenz der Indexierungsergebnisse. Es ist allgemein b e k a n n t , daß manuelle Indexierungsresultate verschiedener Indexierer auch unterschiedlich ausfallen /33/. H ä u f i g e r w i r d schon die sog. maschinenunterstützte I n d e x i e r u n q angewandt. Anstelle des B e g r i f f s "maschinenunterstützte" wird verschiedentlich der Ausdruck "semiautomatische I n d e x i e r u n g " verwendet. Darunter wird das I n d e x i e r u n g s p r i n z i p verstanden, das auf der Basis einer automatischen I n d e x i e r u n g a r b e i t e t , aber offen für einen beliebigen intellektuellen E i n f l u ß bleibt. D a r u n t e r f ä l l t u.a. auch das Darmstädter P r o j e k t für automatische Index i e r u n g AIR (vgl. Lustig ( 1 9 7 9 ) , Knorz (1981, 1 9 8 3 ) ) , da dort die Existenz einer repräsentativen intellektuell indexierten Dokumentenmenge vorausgesetzt w i r d , oder das Saarbrücker Indexier u n g s p r o j e k t CTX, das mit intellektuell erstellten Lexika bzw. Thesauri arbeitet /34/. Die semiautomatische Indexierung w i r d als eine E r w e i t e r u n g der automatischen I n d e x i e r u n g betrachtet. Die automatische I n d e x i e r u n g arbeitet meist auf der Basis der Extraktionsmethode. Der E f f e k t der Additionsmethode beim auto-

21

matischen I n d e x i e r e n kann z . T . durch die automatische K l a s s i f i k a tion e r r e i c h t werden ( s . u . ) . Sie kann auch eine Rolle bei der selektiven Zuteilung der Deskriptoren zu Dokumenten einnehmen. Die Indexierung w i r d - wie in DIN 31623 v e r m e r k t - zum Zweck der "inhaltlichen Erschließung sowie gezielten W i e d e r a u f f i n d u n g " d u r c h g e f ü h r t . Der W i e d e r a u f f i n d u n g s v o r g a n g w i r d allgemein als Recherche bezeichnet. Unter der Recherche verstehen Neveling/ Wersig (1975) "die Methode, aus verschiedenen Datenbeständen diejenigen Dateneinheiten (Dokumente oder ihre Teile) herauszusuchen, die mit einem gesuchten Sachverhalt und/oder gesuchten Eigenschaften übereinstimmen" /35/. Je nach der T i e f e w i r d noch eine weitere Teilung vorgenommen: als Grobrecherche ( G R ) wird die Methode bezeichnet, die aus Datenbeständen die Dateneinheiten e r m i t t e l t , die mit einem S u c h a u f t r a g "grob" übereinstimmen; -

als Feinrecherche (FR) wird dann die Methode bezeichnet, die eine bei der Grobrecherche selektierte Dokumentenmenge in einer weiteren Analyse auf genauere Übereinstimmung mit der Fragestellung ü b e r p r ü f t .

Diese Strategie - sie ist weitgehend analysestrategisch, d . h . e f f i z i e n z b e z o g e n - erhält bei der Anwendung der automatischen K l a s s i f i k a t i o n in einem IR-System besondere Bedeutung. Beide Recherchearten werden h ä u f i g nicht unterschieden, d . h . entweder w i r d nur ein Recherchetyp in einem System möglich sein, oder sowohl die Grobrecherche als auch die Feinrecherche werden als ein Suchvorgang r e a l i s i e r t . Zu den Methoden des Recherchieren gehört auch die sog. Freitextrecherche . Hierbei wird in Dokumenten oder in i n v e r t i e r t e n Dateien nach einem bestimmten Wortlaut oder einer bestimmten Beg r i f f skombination im Text (meist satzbezogen - vgl. z . B . Wieland ( 1 9 7 9 ) ) gesucht. Unter einer i n v e r t i e r t e n Datei w i r d v e r e i n f a c h t eine Deskriptorenliste mit Verweisen auf die Dokumente verstanden, die den Deskriptor selbst ( d . h . Listendeskriptor) beinhalten

22 ( e v t l . mit der Angabe der Position des Deskriptors im Dokument, d . h . Absatz oder Satz und des Ranges im S a t z ) . Wenn die aufgenommen Dokumente als D. = {T. j T . e D . } bezeichnet w e r d e n , können dann die Einträge in der invertierten Datei als

T. = i D. l T . £ D. } D l i ' D iJ bezeichnet werden. Nach Neveling/Wersig (1975) ist die Benennung " i n v e r t i e r t e Datei" allerdings " f e h l i n t e r p r e t i e r b a r , denn sie bezieht sich auf die Umordnung der Dateneinheiten gegenüber der Dateneingabe. Baut man aus den eingegebenen Zitierungen eines Dokuments eine i n v e r t i e r t e Datei a u f , die die Angaben enthält, welches Dokument wo z i t i e r t worden ist, so kann man diese Datei nur noch bei Kenntnis des Aufbauvorgangs als i n v e r t i e r t erkennen" /36/. Neveling/Wersig benutzen stattdessen die Bezeichnung "merkmalbezoqene Datei". Zu einem Deskriptor sind dann meist die Kennzeichnungen ( z . B . Dokumentnummer) aller Dokumente (oder Dokument a t i o n s e i n h e i t e n ) z u g e o r d n e t , die mit diesem Deskriptor worden sind /37/.

indexiert

Unter einem IR-System w i r d im w e i t e r e n ein Quintupel

IR = ( 1 , 0 , Q, R, E) verstanden.

$ r e p r ä s e n t i e r t dabei die Menge aller möglichen

DokumentbeSchreibungen (speziell die Dokumente selbst), d . h . den aktuellen Dokumentenbestand. I steht für die Informationse r S c h l i e ß u n g s f u n k t i o n , speziell also für einen Indexierungsvorgang evtl. mit einer automatischen linguistischen Analyse und einer automatischen K l a s s i f i k a t i o n . Q ist

die Menge aller mög-

lichen S u c h f r a g e n ( S u c h a u f t r ä g e , Bedarfsmeldungen oder Anwendungen) , die an das IR-System gestellt werden können; R bezeichnet schließlich die R e t r i e v a l f u n k t i o n . Je nach dem Erschließungsvorgang I kann sich h i n t e r der Menge auch eine implizierte

23 Dokumentbeschreibung v e r b e r g e n , wie z.B. eine Term- und/oder Dok u m e n t e n k l a s s i f i k a t i o n . Die F u n k t i o n R kann als eine Folge aller möglichen Retrievalvorgänge dargestellt werden ( z . B . GR, FR, Relevanzfeedback, P r ä z i s i e r u n g e t c . ) . Sie vergleicht u . a . die Dokumentbeschreibungen ( z . B . die Deskriptorenmengen der einzelnen Dokumente) mit der Suchfrage (oder A n w e n d e r b e d a r f s m e l d u n g ) f « Q ( z . B . die Menge der aktuellen S u c h a r g u m e n t e ) . Die Menge E stellt schließlich die Menge der Rechercheergebnisse ( d . h . Systemvorschläge) d a r . E s gilt f ü r e « E u n d f « Q , d a ß e = R ( f , 2)) , wobei R ( f , Q) c S) oder R(f , ^ ) = 0, speziell dann

R: v

Q

> E.

Dabei ist zunächst ohne Interesse, ob die Ergebnismengen e e E dem Anwender des IR-System gleichgeordnet oder in einer von der Relevanz der Dokumente bezüglich des S u c h a u f t r a g s f e Q abhängigen Reihenfolge angeboten w e r d e n . O f f e n s i c h t l i c h kann es sich bei den F u n k t i o n e n I und R um sehr komplexe F u n k t i o n e n h a n d e l n . Die S t r u k t u r der Menge S) ist zunächst bei einer solchen formalen Beschreibung ohne Interesse. Die S u c h a u f t r ä g e aus Q können entweder natürlich-sprachige Ausd r ü c k e , A u s d r ü c k e in einer formalen Sprache oder eine Kombination von beiden sein. Zu der Beziehung der beiden F u n k t i o n e n I und R sagt z . B . Fugmann (1976) (vgl. auch Robertson et al. (1982) im ähnlichen K o n t e x t ) : "Es hängt auch sehr von der gestellten Aufgabe ab, ob der mit dem W i e d e r a u f f i n d e n von I n f o r m a t i o n e n verbundene Aufwand bevorzugt beim Indexieren oder v e r s t ä r k t beim Retrieval geleistet werden sollte, ob man w e i t e r h i n auf ein stärker ballastbehaftetes, jedoch informationsverlustarmes Retrieval Wert legt, ob die Verhältnisse umgekehrt gelagert s i n d , oder ob man in einem Indexierungs- und Retrievalsystem über Wahlmöglichkeiten v e r f ü g e n sollte."/38/ Als Parameter für die Güte des Retrievals sind meist die Maße "Recall" und "Precision" v e r w e n d e t . Unter einem Recall ( d . h .

24

Vollständigkeit der Suche) versteht man das Verhältnis der Anzahl der wiedergewonnenen relevanten Dokumente im Systemvorschlag zu der Anzahl aller bzgl. der gestellten Suchfrage relevanten Dokumente im Dokumentenbestand. Die Precision (d.h. die Genauigk e i t der Suche) w i r d dann durch den Anteil der relevanten wiedergewonnenen Dokumente an allen wiedergewonnenen Dokumenten im Systemvorschlag ausgedrückt. Diese Werte sagen jedoch für sich allein wenig. Sie werden deswegen h ä u f i g zu sog. Recall-PrecisionGraphen kombiniert (vgl. näher Kapitel 11).

1.3 Relevanzproblematik Maron/Kuhns (1960) bezeichnen in ihrem e i n f l u ß r e i c h e n A u f s a t z die Relevanz als den Schlüsselbegriff der Theorie der IR-Systeme /39/. Ähnlich schreibt z.B. auch Bookstein ( 1 9 7 9 ) : "The concept of relevance is fundamental to i n f o r m a t i o n r e t r i e v a l " /40/. Nach Saracevic (1975) ist Relevanz ein Maß der Übereinstimmung zwischen Dokument und Suchfrage aus der Sicht eines "Schiedsrichters" /4l/. Bei Saracevic ist die Relevanz auch aus anderen Perspektiven d e f i n i e r t , so z.B. in der Kommunikationstheorie als ein Maß der E f f e k t i v i t ä t der Verbindung zwischen Sender und Empfänger ("source" und "destination" /42/) in einem Kommunikationsprozeß. Ein Retrievalprozeß kann f r e i l i c h auch als ein Kommunikationsprozeß a u f g e f a ß t werden /43/. Es ist auch o f f e n s i c h t l i c h , daß ein Kommunikationssprozeß dann am e f f e k t i v s t e n ablaufen w i r d , wenn die Relevanzsysteme (und f r e i l i c h auch die Interpretationsschemata) von Sender und Empfänger (oder z . B . auch von I n d e x i e r e r n und IR-Anwendern) identisch oder zumindest ähnlich werden (vgl. Schütz (1971), ( 1 9 8 1 ) ) . Die sog. probabilistischen Modelle von IR-Systemen betrachten die Relevanz als eine Zufallsgröße. Für einen solchen stochastischen Ansatz gibt es vor allem zwei Quellen /44/: die Relevanzbewertung eines Dokuments bezüglich einer Suchf r a g e u n t e r l i e g t Zufallsschwankungen;

25

der Zusammenhang zwischen Relevanzbewertung eines Dokuments und (meßbaren) Eigenschaften des Dokuments ( z . B . Zahl der d a r i n enthaltenen Suchargumente, Ä h n l i c h k e i t zur S u c h f r a g e ) unterliegt Zufallsschwankungen, die nicht nur von den Zufallsschwankungen der Relevanzbewertung h e r r ü h r e n . In den probabilistischen Modellen von IR-Systemen w i r d dann versucht, diese "Relevanzschwankungen" durch die "Relevanzwahrscheinlichkeit" zu beschreiben. Die Theorie der probabilistischen Retrievalmodelle basiert im P r i n z i p auf den Arbeiten von Robertson (1977a, 1977b, 1977c) und Cooper (1973) . Einige Annahmen wurden allerdings schon f r ü her, z.B. bei Maron/Kuhns (1960) oder speziell bei Robertson/ Sparck Jones (1976) , f o r m u l i e r t /45/. Von Cooper wurde dann zuerst das sog. probabilistische R a n k i n g p r i n z i p ("probabilistic ranking principle") ausgesprochen /46/: "If a reference retrieval system s response to each request is a ranking of the document in the collections in order of decreasing probability of usefulness to the user who submitted the request, where the probabilities are estimated as accurately as possible on the basis of whatever data has been made available to the system for this purpose, then overall e f f e c t i v n e s s of the system to its users will be the best that is obtainable on the basis of that d a t a . " Also demnach soll das IR-System, um eine optimale E f f e k t i v i t ä t ( f ü r den B e n u t z e r ) zu gewährleisten, in der Lage sein, die angebotenen ( d . h . wiedergewonnenen) Dokumente nach der Wahrscheinlichkeit des positiven Relevanzurteils seitens des Benutzers oder i h r e r N ü t z l i c h k e i t für das Benutzerproblem oder Informat i o n s b e d ü r f n i s zu ordnen (vgl. auch Robertson ( 1 9 7 7 c ) ) . Robertson et al. (1982, 1983) schlagen deswegen ein Relevanzkonzept vor, das die W i r k u n g des Benutzers ("Patron") berücksichtigt. Demnach wird die Relevanz als eine Relation zwischen einem Dokument und einem Benutzer in bezug auf sein Informationsb e d ü r f n i s verstanden. Nach dieser I n t e r p r e t a t i o n w i r d dann die Menge der relevanten Dokumente e i n f a c h der Menge d e r j e n i g e n Dokumente gleichgesetzt, die das I n f o r m a t i o n s b e d ü r f n i s des Kunden-Anwenders ("Patron")

zufriedenstellen ("Pertinenz").

26

Eine Relevanzbeurteilung der wiedergewonnenen Dokumente hinsichtlich des Suchauftrages kann prinzipiell von zwei Seiten durchg e f ü h r t werden: vom IR-System, das zu entscheiden hat, ob ein Dokument nachgewiesen werden soll (System-Relevanz); vom Schiedsrichter (bzw. Benutzer selbst), der die inhaltliche Übereinstimmung des f o r m u l i e r t e n Problems (Suchauft r a g ) mit wiedergewonnenen Dokumenten beurteilt. Nach Sager (1975) können noch, falls der Schiedsrichter mit dem Benutzer identisch ist, zwei Beurteilungsarten unterschieden werden /47/: Relevanzgrad-Beurteilung, d . h . der Benutzer bewertet "möglichst objektiv" die Relevanz des Dokuments für sein Problem; Pertinenz-Beurteilung, d . h . der Benutzer bewertet "subjektiv" den I n f o r m a t i o n s w e r t des Dokuments bezüglich seines Problems (seines Informationsbedürfnisses). Diese Beurteilungen müssen nicht übereinstimmen, so z.B. kann ein höchst relevantes Dokument für den Benutzer keinen Informationswert haben, da er es nicht versteht, oder zu allgemein ist, oder er es schon kennt. Im zweiten Falle (Pertinenz-Beurteilung) dient die vorher erwähnte Veränderung des Wissens infolge eines Wissenstransfers (vom IR-System zum Benutzer) als das entscheidende K r i t e r i u m bzw. als ein Indikator der "Nützlichkeit" eines wiedergewonnenen Dokuments für das Informationsbedürfnis des Benutzers. Aus der funktionalen Gesichtspunkt der sog. Prager linguistischen Schule ("Cercle Linguistique de Praga" /48/) kann auch eine Parallele zwischen der Beziehung Relevanz - Pertinenz (aus der Position des Benutzers) und der Beziehung Thema - Rhema (in englischen Topic - Comment) hergestellt werden. Vereinfacht kann das Thema als die schon gegebene, bekannte I n f o r m a t i o n im Unterschied

27

zum Rhema als der neuen, noch unbekannten Information (im einem Satz) beschrieben werden. Der B e g r i f f des "Funktionalen" im Sinne der Prager Schule ist jedoch sehr vielschichtig. "Aufgabe", "Zweck" oder "Absicht" sind wohl die z u t r e f f e n d s t e n Interpretationen des B e g r i f f s der Funktion im Sinne dieser Schule /49/. Girke (1972) oder Danes (1973) erweitern die ursprünglichen satzspezifischen D e f i n i t i o n von Thema-Rhema zu einer textspezifischen D e f i n i t i o n . Girke (1972) spricht auch über Textthema bzw. über Textrhema und meint, daß "die Thema-Rhema-Gliederung noch stärker unter dem Aspekt Textrelevanz untersucht werden muß" /SO/. Die Pertinenz-Beurteilung ist auch die Ausgangsbasis für die probabilistischen Modelle des Informationsretrievals, speziell dann für die sog. nutztheoretischen Modelle der Indexierung ("ütility-theoretic-Indexing" /5l/). Das System bestimmt den System-Relevanzgrad nach einer formalen Übereinstimmung zwischen dem f o r m u l i e r t e n Problem ( S u c h a u f t r a g ) und den expliziten ( d . h . Dokumentbeschreibung) oder impliziten (z.B. Ergebnis der automatischen K l a s s i f i k a t i o n ) I d e n t i f i k a t i o n s merkmalen des Dokuments. Diese systemseitige Relevanzbeurteilung (Relevanzgradbestimmung) des gefundenen Dokuments bezüglich der Suchfrage geschieht mit H i l f e von sog. Rankingalgorithmen. Die Relevanzbeurteilung seitens eines Benutzers und seine Auswertung seitens des Systems ist dann der Gegenstand der sog. Relevanzfeedback-Verfahren. Im P r i n z i p kann f r e i l i c h die Relevanzgrad-Beurteilung seitens des Benutzers auch als Basis für die Evaluierung eines Systems dienen. Die Pertinenz-Beurteilung dagegen hat überwiegend nur im Zusammenhang mit einem Relevanzfeedback-Verfahren einen Sinn. Sie bildet dann auch die Basis von probabilistischen Suchstrategien (vgl. auch Robertson ( 1 9 7 7 a ) ) . Nach Robertson/Belkin (1978) sind für die Notwendigkeit eines Ranking von Dokumenten zwei unterschiedliche Gründe angegeben:

28

Relevanz selbst ist eine "multi-valued" oder kontinuierliche ( f o r t l a u f e n d e ) Variable; Retrieval ist ein p r i n z i p i e l l approximativer Prozeß. Diese zwei Gründe f ü h r e n dann zu zwei verschiedenen Rankingp r i n z i p i e n , wobei -

das eine auf einem Relevanzgrad, das andere auf dem B e g r i f f der RelevanzWahrscheinlichkeit

basiert. Während der Relevanzgrad ( d . h . die Relevanzvariable) im Prinzip die Diskrepanz zwischen Dokumentbeschreibung und Informationsb e d ü r f n i s auszudrücken versucht, wird nach dem zweiten P r i n z i p ( d . h . der RelevanzWahrscheinlichkeit) hauptsächlich die Unstimmigkeit zwischen der Suchfrage und dem eigentlichen Benutzerbed ü r f n i s ausgedrückt /52/. Die beiden P r i n z i p i e n sollten eigentlich kombiniert werden. Als die geeignete Vorgehensweise, die auch der Vorstellung über den approximativen Charakter der Retrievalprozesse entspricht, können dabei primär die Relevanzfeedback-Algorithmen dienen.

l . 4 Informationsgenerierungsprozeß Nach Neveling/Wersig (1975) ist "ein Informationsprozeß ein Kommunikationsprozeß, der zur V e r r i n g e r u n g von Ungewißheit f ü h r t ( I n f o r m a t i o n b e w i r k t ) " . Die "Ungewißheit" soll dann (nach Neveling/Wersig (1975)) "etwa verstanden werden als eine Situation, in der das I n d i v i d u u m eine D i f f e r e n z zwischen internen Motivationsvorgaben und bestehender Situation nicht aufgrund bestehenden Wissen lösen kann, sondern weitere Daten einholen muß. Dies gilt nicht nur für aktuell eingetretene Situationen, sondern auch für z u k ü n f t i g e Situationen, auf die sich das I n d i v i d u u m ständig vorbereiten muß" /53/.

29

Nach Fugmann (1981) f i n d e t der Mensch h ä u f i g in Vielerlei keine U n g e w i ß h e i t , und trotzdem können einschlägige Nachrichten (wie z . B . Tod des Freundes, eine Naturkatastrophe) für ihn von großem I n f o r m a t i o n s w e r t sein. In einer f o r t g e s c h r i t t e n e n D e f i n i t i o n wird demzufolge Ungewißheit durch Nichtwissen e r s e t z t , und I n f o r m a t i o n ist dann die Vermittlung von Wissen oder das Ergebnis eines Wissensaustausches. Auf diese Problematik wurde schon im Abschnitt 1.1 näher eingegangen. Moser (1977) spricht in diesem Zusammenhang über die Unbestimmtheitslage: " I n f o r m a t i o n läßt sich als Ergebnis eines Prozesses (der I n f o r m a t i o n s g e n e r i e r u n g ) verstehen, der durch Integration ( V e r a r b e i t u n g ) räumlich und/oder zeitlich t r a n s m i t t i e r t e n Daten zur Veränderung einer gegebenen Unbestimmtheitslage f ü h r t " /54/. "Eine für die I n f o r m a t i o n s g e n e r i e r u n g wichtige Konsequenz, wie sie aus dem vorgetragenen Ansatz unmittelbar abgeleitet werden kann, ist schließlich, daß I n f o r m a t i o n nur soweit entstehen k a n n , wie die Unbestimmtheit oder auch Unwissen vorherrscht und - evtl. in einem iterativen V e r f a h r e n - expliziert w u r d e . Art und Ausmaß der I n f o r m a t i o n s g e n e r i e r u n g hängen allerdings, wie e r w ä h n t , zugleich von der Datenlage, d . h . von Art und Umfang der erreichbaren Daten ab" /55/. Bei der automatischen Informationsgenerierung ( b z w . Informationserschließung) w i r d im E n d e f f e k t zu einem bestimmten Zweck, in einer bestimmten Zeit und evtl. auch für einen bestimmten Benutzer meist aus einer Wissensquelle eine I n f o r m a t i o n g e n e r i e r t . Ein solcher Vorgang kann dann einem informationeilen Prozeß gleichgesetzt werden. Die Relevanzvorstellungen (in speziellen von RelevanzSystemen oder Relevanzkonzepten) des Benutzers und die des Systems ( z . B . der automatischen K l a s s i f i k a t i o n ) stimmen meistens nicht voll überein. Zum Zwecke der Anpassung solcher Relevanzsysteme aneinander bzw. zum Zwecke der E r l ä u t e r u n g des Interpretationsschema des Systems muß daher in einem informationellen Prozeß auch ein Kommunikationsprozeß i n t e g r i e r t werden. Dieser Kommunikationsprozeß ( z . B . der Präzisierungsdialog bzw. das Relevanzfeedback-

30

V e r f a h r e n - vgl. Kapitel 10) dient also entweder der Klärung des Interpretationsschemas (z.b. des Darstellungsformalismus auf sprachlicher Metaebene) des Systems oder der Annäherung des Relevanzkonzepts des Systems an das des Benutzers (und umgekehrt). Die evtl. Bewertung der Ergebnisse der automatischen Informationsgenerierung (-erschließung) kann so mit der Möglichkeit der Annäherung beider Relevanzkonzepte v e r k n ü p f t werden. So z.B. kann die Frage nach einer "guten" oder "falschen" K l a s s i f i k a t i o n erst nach einem solchen Prozeß beantwortet werden, z.B. durch die Evaluierung der Rechercheergebnisse. Der Prozeß der Informationsgenerierung in IR-Systemen ( d . h . der Indexierungsprozeß oder auch die automatische K l a s s i f i k a t i o n ) kann also nicht unabhängig von dem Recherchevorgang gesehen werden, er bildet mit dem Recherchevorgang in einem IR-System eine Einheit. In Abb. 1.1 wird versucht, einen derartigen Informationsgenerierungsprozeß schematisch darzustellen. Dabei wird angenommen, daß das Interpretationsschema des Systems (Is) und das des Benutzers ( I m ) übereinstimmen ( d . h . Is = I m ) . Demzufolge reduziert sich der Zweck des Kommunikationsprozesses K ( z . B . des Retrievalprozesses) auf die Annäherung des Relevanzkonzeptes des Systems (Rs) an das des Benutzers ( R m ) . Falls Is / Im ist, dient der Kommunikationsprozeß K u.a. auch der Erhöhung der Systemstransparenz und somit auch der Anpassung des Interpretationsschemas Im an Is. Aus der Abb. 1.1 und o.g. Erläuterungen ist ersichtlich, daß hier das Relevanzkonzept des Systems als anpassungsfähig an das Relevanzkonzept des Benutzers betrachtet w i r d , wogegen das Interpretationsschema des Systems als etwas vorgegebenes vorliegt. Demzufolge muß nach dieser Konzeption der Benutzer sein Interpretationsschema anpassen. Auch das Relevanzkonzept hängt eng mit der Relevanzdefinition zusammen. Sie wurde im vorherigen Abschnitt eingehend behandelt. Darunter fallen systemseits die Fragen des Rankings der Ergebnisse, der Gewichtung der Indexterme und Suchargumente /35/ und auch die evtl. M o d i f i k a t i o n der Klassifikationsergebnisse ( z . B . durch ein Relevanzfeedback-Verfahren). Das Interpretationsschema

31

kann u . U . bei einzelnen Anwendungen dem System vorgegeben werden, aber in der Regel geschieht dies n i c h t . Zu den Aspekten des Interpretationsschemas gehört z . B . die formale Art der Präsentation der Rechercheergebnisse, die Form der gewonnenen Klassifik a t i o n s s t r u k t u r oder evtl. auch die algorithmische Vorgehensweise während der Erschließung ( G ) . ADDAPTIVITÄT RELEVANZKONZEPT DES SYSTEMS

Rs MODIFIKATION VON Rs

RELEVANZKONZEPT DES BENUTZERS Rm t

N

v

^^"

f

\ f V

~~~v.

v

' DB

W^ INFORMATIONSOATEN

f

RAN KING

^ THESAURUS

\> PROZESS

DER INFORMATIONSERSCHLIESSUNG G

KO^WUNIKATIONSPROZESS KLASSIFIKA-

.

^.

^

>

\

\

A

'

INTERPRETATIONSSCHEMA DES SYSTEMS Is

B E

u T

z RELEVANZFEEDBACK (PRAZISIERUNG)

MODIFIKATION VON Im TRANSPARENZVERBESSERUNG

E R

INTERPRETATIONSSCHEMA DES BENUTZERS Im

Abbildung 1.1

1.5 Bezug der Arbeit zur I n f o r m a t i o n s l i n g u i s t i k 1.5.1 Probleme der linguistischen Forschung Die formalen Methoden der Sprachbeschreibung ( w i e sie z . B . die generative L i n g u i s t i k und die mit ihr verwandte algebraische oder mathematische L i n g u i s t i k entwickelt haben /57/) e r r e i c h t e n relativ schnell - trotz ihrer s t r i k t e n Formalismen - eine hohe Akzeptanz in der theoretischen L i n g u i s t i k . Man spricht in diesem Zusammenhang (wenn auch ungenau) von "qualitativer L i n g u i s t i k " /58/.

32

Demgegenüber finden die Methoden der quantitativen Linguistik (auch als die "statistische Linguistik" bezeichnet) bei theoriebezogenen Sprachwissenschaftlern oft nur einen geringen Widerhall /59/, obwohl sie relativ f r ü h (wenn auch etwas i n d i r e k t ) z.T. mit der strukturalistischen L i n g u i s t i k in die Sprachforschung eingef ü h r t wurden (etwa mit dem Distributionalismus bzw. der "taxonomischen L i n g u i s t i k " / 6 0 / ) . Mit der Entwicklung der Computertechnoloqie und ihrer Einbeziehung zur Bewältigung der sog. I n f o r m a t i o n s k r i s e ( d . h . stetig wachsender Informations- bzw. genauer: P u b l i k a t i o n s f l u t ) und nicht zuletzt im Zusammenhang mit der Entwicklung maschineller Texterschließungs- und Wiedergewinnungssysteme (IR-Systeme) wurde die Notwendigkeit automatischer V e r f a h r e n zu Sprachanalysen immer o f f e n s i c h t l i c h e r . Dabei kommt den quantitativen Methoden eine besondere Bedeutung zu. Parallel zum anfänglichen Optimismus in bezug auf die prinzipiellen Möglichkeiten der automatischen Methoden in der L i n g u i s t i k /6l/ wurde auch eine Ablehnungsf r o n t der Linguisten gebildet. Nach Chomskys Absage an die Methoden der s t r u k t u r a l i s t i s c h e n Sprachtheorie (insbesondere der sog. "taxonomischen" Linguistik /62/) k l a f f t zwischen den B e f ü r w o r t e r n automatischer Methoden und theoretischen Linguisten eine große Lücke. Chomsky selbst v e r t e i d i g t energisch die Ansicht, daß die heuristische (behavioristische) Vorqehensweise ("discovery proc e d u r e " ) , die u.a. die Methoden der quantitativen Linguistik oder Parsingtheorie /63/ einschließt, kein reales Ziel der Linguistik sein kann. Die Ablehnung solcher Entdeckungsvorgänge kann aber im Endeffekt in die gleiche Schlußfolgerung münden, wie schon z.B. beim Klausschen Ansatz in der Semiotik /64/, wonach die Sprache (bzw. sprachliche Daten) als etwas unabhängiges vom menschlichen Handeln und von der menschlichen A r b e i t erforscht w i r d - mit fest determinierten Regeln. Dem widerspricht f r e i l i c h u.a. der ganze Prozeß des Spracherlernens. Ähnliche Standpunkte (wie Chomsky) vertritt auch der philosophische K r i t i k e r der automatischen Sprachverarbeitung, Bar-Hillel ( 1 9 6 0 ) . Demgegenüber sind automatische Methoden inzwischen bei vielen Anwendungen fast schon selbstverständlich, wie z . B . in textbezogenen IR-Systemen, speziell beim Vorgang der Informationserschließung /65/. Die

33

Theoriebildung in der L i n g u i s t i k könnte also - allgemein gesprochen - von der Einbeziehung der Computer nur p r o f i t i e r e n . Ähnlich zwiespältig wie die Beziehung zwischen (praxisverbundener) C o m p u t e r l i n g u i s t i k und "theoretischer" L i n g u i s t i k ist auch die Position der q u a n t i t a t i v e n Methoden in der Computerlinguis t i k . Die z . T . u n k r i t i s c h e M a j o r i s i e r u n g der linguistischen Forschung durch "Generativisten" hatte u . a . zur Folge, daß die Sprache überwiegend als ein deduktives Regelsystem a u f g e f a ß t w u r d e . Die i n d u k t i v e Vorgehensweise, die z . B . gerade bei der I n f o r m a tionserschließung (Texterschließung) sinnvoll (und notwendig) ist, wird dabei mehr oder minder abgelehnt. Für die automatische Sprachanalyse ist die P r i o r i s i e r u n g der generativen (Transformations-) Grammatik jedoch von Nachteil. So sind die bisherigen Modelle u . a . in der P a r s i n g t h e o r i e schwer anwendbar, da sie ohne weiteres für die praktische Anwendung nicht "umkehrbar" sind ( z . B . Erzeugungsregel e t c . ) . Zudem steht der klassische amerikanische S t r u k t u r a l i s m u s ( b z w . der S t r u k t u r a l i s m u s generell) t r o t z seiner zu Recht k r i t i s i e r t e n V e r e i n f a c h u n g einer k r i t i s c h e n Rel a t i v i e r u n g der t r a d i t i o n e l l e n grammatikalischen B e g r i f f e viel o f f e n e r gegenüber als dies die generative Grammatik Chomskys t u t . Die generative t r a n s f o r m a t i o n e l l e Grammatik z . B . betreibt "lediglich eine mehr oder weniger exakte Formalisierung von Erkenntnissen der t r a d i t i o n e l l e n Grammatik mit all ihren Schwächen, wie sie besonders in der logisierenden Sprachbetrachtung und der Vermischung von Schichten und Beschreibungsebenen der Sprache zum Ausdruck kommen" /66/. Diese K r i t i k soll k e i n Versuch sein, etwa den generativen Grammatik-Ansatz zu d i s k r e d i t i e r e n oder gar abzulehnen, sondern lediglich ein Hinweis d a r a u f geben, daß der heute z . T . noch dominierende theoretische Ansatz nicht einzig ausreichend für die Beschreibung sprachlicher Phänomene sein k a n n , ja daß er umgekehrt von den Ergebnissen und Methoden des S t r u k t u r a l i s m u s p r o f i t i e r e n kann. Spätestens seit der A r b e i t e n der S t r u k t u r e l l s t e n auf dem Gebiet der d e s k r i p t i v e n L i n g u i s t i k (speziell der D i s t r i b u t i o n a l isten

34

/67/) haben die statistischen V e r f a h r e n , trotz der Skepsis bzw. kritischen Ablehnung einiger f ü h r e n d e r Linguisten, einen festen Platz in der L i n g u i s t i k erhalten (vgl. Altmann (1972) , Moskowitsch ( 1 9 7 6 ) ) . Mit den Methoden des sog. "taxonotnischen" Strukturalismus kamen im E n d e f f e k t auch die Methoden der automatischen K l a s s i f i k a t i o n in die L i n g u i s t i k . Auch wenn das A t t r i b u t "taxonomisch" bei Chomsky /68/ eine eher negative Bedeutung hat, kann schwerlich bestritten werden, daß Segmentierung und "Klassifikation sprachlicher Einheiten zum Kern jeder Sprachbeschreibung gehört" /69/. Juilland/Lief (1968) sagen: "Es ist i r r e f ü h r e n d , wenn der Strukturalismus im Gegensatz zur transformationellen Grammatik als taxonomisch bezeichnet w i r d . Wenn man nämlich diesen B e g r i f f logisch interpretiert ( . . . ) muß die transformationeile Grammatik ebenfalls als taxonomisch gelten" /70/. Nach Moskowitsch (1969) sind verschiende linguistische Untersuchungen, speziell auf dem Gebiet der automatischen Inhaltserschließung, Referieren ( A b s t r a k t i n g ) , Indexierung oder auch automatischen Übersetzung, meist zum Stillstand gekommen, wenn sie mit den Problemen der Semantik in Berührung kamen /7l/. Dabei können (nach Moskowitsch (1969)) gerade statistischen Daten die Rolle eines objektiven Maßes der Beziehungen zwischen den (wort-) semantischen Einheiten übernehmen. Sie können auch die Gesetzmäßigkeiten in den Beziehungen solcher semantischer Einheiten aufdecken. Die Informationen über das gemeinsame A u f t r e t e n der Wörter in Texten, ohne die jedes seriöse semantische Wörterbuch undenkbar erscheint, können nur durch eine a u s f ü h r l i c h e statistische Textanalyse vollständig gewonnen werden. Moskowitsch (1969) zeigte auch, daß zwischen den statistischen Daten und den Eigenschaften semantischer Felder eine definierbare Beziehung besteht. Dies illustriert u.a. die Notwendigkeit der gegenseitigen Ergänzung verschiedener semantischer Konzeptionen (vgl. auch Coseriu ( 1 9 7 3 ) ) . Ähnlich wie im Strukturalismus (Distributionalismus) wird im E n d e f f e k t auch von der generativen Seite keine spezielle semantische Konzeption angeboten /72/.

35

1.5.2 Q u a n t i t a t i v e L i n g u i s t i k Im Rahmen der quantitativen L i n g u i s t i k wurden auf dem Gebiet der grammatikalischen Statistik eine Reihe von Untersuchungen d u r c h g e f ü h r t (vgl. z.B. Tesitelova ( 1 9 8 0 ) ) . In der morphologischen Statistik ist die untersuchte Einheit die W o r t f o r m . Mit ihrer H i l f e wird z.B. die Frequenz der morphologischen Grundkategorien und derer Kombination untersucht. In der syntaktischen Statistik (nach Tesitelova (1980)) wird als die Untersuchungseinheit der Satz betrachtet, der bei solchen grammatikalischen Untersuchungen in der Regel als eine prädikative Einheit verstanden w i r d , die f r e i l i c h um die Strukturuntersuchungen der inneren ( d . h . einfacher Satz) und äußeren Satzorganisation ( d . h . Einbettung in einen zusammengesetzten Satz) e r g ä n z t werden. Die Bedeutung derartiger Untersuchungen liegt hauptsächlich im Bereich der Texttypologie und der S t i l i s t i k . Daten, die durch die morphologische Statistik gewonnen werden, sollen einen unabdingbaren Teil jeder morphologischen Sprachbeschreibung ausmachen. Sie stellen auch eine Voraussetzung für Typologie-Untersuchungen d a r . Mit statistischen Untersuchungen der semantischen Relationen im Lexikon und in Texten beschäftigt sich u.a. Skorochodko ( 1 9 7 4 ) . Die Beziehungen zwischen dem Wortschatz und der Textlänge behandelt Maas (1972) . Nach Tesitelova (1980) ist eines der Ziele der quantitativen L i n g u i s t i k die Untersuchung der Frequenz und Distribution der Sprachphänomene nicht nur bezüglich einzelner Sprachebenen, sondern auch im Text als einer Einheit, d.h. in der K o n f r o n t a t i o n verschiedener Sprachebenen in der Relation zum Stil und seinen Ausprägungen, Form etc. Man versucht dabei,von einer Analyse zur Synthese zu kommen, und aus der quantitativen Position den Text als eine Einheit zu beurteilen /73/. Nach Altmann (1972) setzt sich die quantitative L i n g u i s t i k das Ziel, "alle latenten Abhängigkeiten in der Sprache zu entdecken und die grundlegenden elementaren Eigenschaften festzustellen, aus denen man die anderen voraussagen kann ( . . . ) Latente Abhängigkeiten haben stochastischen C h a r a k t e r , und zu i h r e r Feststel-

36

lung muß man sich statistischer Prozeduren bedienen. I n t u i t i v e Schätzungen und die Reduzierung des Messens auf die kategorische Skala ist bei der Erforschung der stochastischen Abhängigkeiten in der Sprache sinnlos" /74/. "Die quantitative L i n g u i s t i k kann ohne die qualitative nicht e x i s t i e r e n , jedoch gilt dasselbe auch umgekehrt, wenn die qualitative L i n g u i s t i k nicht für immer auf der Oberfläche der Sprache bleiben will" /75/. Diese Überlegungen waren u . a . auch die Motivation für einige Untersuchungen in dieser A r b e i t , sie bildeten auch die Begründung für die Einordnung der Verfahren der automatischen K l a s s i f i k a t i o n von Texten und B e g r i f f e n (also auch des hier entwickelten und vorgestellten V e r f a h r e n s STEINADLER) in die Nähe der linguistischen (speziell dann der informationslinguistischen) Forschung. Verf a h r e n der automatischen K l a s s i f i k a t i o n bekommen innerhalb der Methoden der quantitativen L i n g u i s t i k eine besondere Bedeutung. Sprachphilosophisch können die B e g r i f f s k l a s s e n (Cluster) als Typenbegriffe im Sinne der Familienähnlichkeit nach Wittgenstein (1953) a u f g e f a ß t werden (vgl. auch Meder ( 1 9 8 2 ) ) . Zu einem Hauptargument für die Clusteranalyse (bzw. für die automatische Klass i f i k a t i o n ) kann dann die semantische O f f e n h e i t der B e g r i f f e bzw. B e g r i f f s v e r k n ü p f u n g e n (-gruppen) werden. Die I n t e r p r e t a t i o n der gewonnenen B e g r i f f s g r u p p e n w i r d allerdings lediglich im Rahmen eines Relevanzsystems möglich sein. 1.5.3 Gegenstand der I n f o r m a t i o n s l i n q u i s t i k Vor diesem H i n t e r g r u n d kann - gleichsam zussammenfassend - gesagt werden: Als Gegenstand der I n f o r m a t i o n s l i n g u i s t i k wird "die sprachlich verschlüsselte I n f o r m a t i o n " /76/ betrachtet. Besondere Beachtung f i n d e t dabei die automatische linguistische Analyse, die dabei statistische Methoden der Sprachuntersuchung einbezieht. Als i n f o r m a t i o n s l i n g u i s t i s c h e Methoden werden im w e i t e r e n auch die Methoden der automatischen Text- und B e g r i f f s k l a s s i f i k a t i o n , der Thesaurusforschung, sowie das Ranking /77/ etc. betrachtet. Festzuhalten ist, daß sich bislang die L i n g u i s t i k (einschließlich der C o m p u t e r l i n g u i s t i k ) mit dieser Problematik nur wenig oder überhaupt nicht beschäftigt hat.

37

1.6 Forschungs- und Labormodelle zu IR-Systemen Zwischen den Ergebnissen der Forschung und Entwicklung auf dem Gebiet der Informationstechnologie (spez. dann bezüglich der Erschließung, Speicherung und Wiedergewinnung von I n f o r m a t i o n e n ) und den Methoden, die bei den kommerziellen Realisierungen der IR-Systeme implementiert werden, gibt es bisher zuwenig Berührungspunkte. Unter den kommerziellen IR-Systemen sind die IRSysteme verstanden, die zum Unterschied zu Labormodellen als sog. Produkte ein breites Anwendungsspektrum gefunden haben. Die meisten d e r a r t i g e r Systemen sind jedoch in den späteren 60-er und in den f r ü h e r e n 70-er Jahren entwickelt worden und deswegen auch durch Merkmale und E i n s c h r ä n k u n g e n gekennzeichnet, die teils durch die damalige Computertechnologie und teils durch die tradionellen organisatorischen Gegebenheiten der zentralistischen I n f o r m a t i o n s v e r m i t t l u n g bedingt waren /78/. Die ersten Ansätze dieser Dokumentretrievalsysteme haben sich zunächst auf eine intellektuelle Dokumentbeschreibung (Indexierung) gestützt. Automatischen I n d e x i e r u n g s v e r f a h r e n wurden erst etwas später entwickelt. Sie r e f l e k t i e r e n daher nicht die neueren Ergebnisse der Forschung und Entwicklung auf diesem Gebiet. Die Labormodelle der Dokumentretrievalsysteme wurden vorwiegend zu Forschungszwecken entwickelt, um experimentell 'die neueren Forschungsergebnisse auf dem Gebiet der Erschließungs- und/oder Wiedergewinnungstechnologie auszuprobieren ( a u s z u t e s t e n ) . Sie wurden mit Ausnahme vom IR-System CONDOR meistens in u n i v e r s i t ä ren Forschung entwickelt und sind bislang nur in einem eingeschränkten Maße außerhalb der Entwicklungsstätte eingesetzt worden. Sie b e f r i e d i g e n z.T. auch die traditionellen F u n k t i o n e n der kommerziellen Systeme m i t , meist jedoch nur zu Vergleichszwecken. Z . Z t . läßt sich auf dem Gebiet der E n t w i c k l u n g von IR-Systeme eine gewisse Stagnation feststellen. Die großen Computerhersteller, bei denen auch die am h ä u f i g s t e n verwendeten kommerziellen Systeme entwickelt w u r d e n , sind o f f e n b a r der Meinung, daß es ihre dominierende Marktstellung ihnen erlaubt, mit (im Sinne möglicher E n t w i c k l u n g e n ) "veralteten" Systemkonzeptionen noch einige

38

Zeit die Anwender zu b e f r i e d i g e n , da sich d e r z e i t sowieso keine anderen besseren P r o d u k t e anbieten. Die durch das japanisches "5 Generation" P r o j e k t angeregte Aufschwung in der Forschung zu sog. wissensbasierten Systemen (und das auch bei den Herstellern von kommerziellen IR-Systemen) kann darüber nicht hinwegtäuschen, daß die Probleme der Informationstechnologie (spez. der W e i t e r e n t w i c k l u n g von IR-Systemen mit breiten Einsatzmöglichk e i t e n ) in den H i n t e r g r u n d geraten ist. Wissensbasierten Systeme können jedoch d e r a r t i g e IR-Systeme k e i n e s f a l l s ersetzen, sondern bestenfalls ergänzen (vgl. auch Kuhlen ( 1 9 8 4 ) ) . Die langsam nach einer A n f a n g s e u p h o r i e in Gang gekommene E r n ü c h t e r u n g im Bereich der KI-Systeme und -Technologie kann dies nur u n t e r s t r e i c h e n /79/. Die drei bekanntesten Forschunqsprojekte im Bereich der Entwicklung umfassender IR-Systeme sind ( b z w . waren) SMART von H a r w a r d U n i v e r s i t y (Cambridge, Mass.; bis Mitte 1966) und Cornell U n i v e r s i t y ( I t h a c a , N Y . ; ab Mitte 1966 bis heute); CONDOR von Siemens, AG (ca. ab 1973 bis

1981);

FAKYR von TU Berlin (ca. ab 1972 bis h e u t e ) . Außer diesen Systemen können noch die IR-Systeme FIRST von Rank Xerox Corp, und SIRE von Syracuse U n i v e r s i t y ( N . .) k u r z erwähnt werden. Alle diese Systeme (bis auf SIRE) haben als einen der Forschungsschwerpunkte die Anwendung der automatischen Klassifikationsverfahren. Das experimentelle System SMART stellt das bisher bedeutendste F o r s c h u n g s p r o j e k t auf dem Gebiet der IR-Systeme dar /80/. Viele Impulse auf dem Gebiet der Erschließung und Wiedergewinnung von I n f o r m a t i o n e n , wie z . B . die Verwendung von DokumentclusteringV e r f a h r e n (mit sog. Vektor-Raum-Modell), Relevanzfeedback-Verf a h r e n etc., kommen gerade aus der sog. SMART-Schule ( b z w . nach dem P r o j e k t l e i t e r genannten "Salton S c h u l e " ) . Die große Bedeutung dieses P r o j e k t s liegt auch in der großen Zahl d u r c h g e f ü h r t e r

39

Experimente. Über SMART existiert inzwischen auch eine Reihe von V e r ö f f e n t l i c h u n g e n . Daher wird hier auf das System nicht näher eingegangen /8l/. Das hier vorzustellende STEINADLER-Verfahren wurde großenteils im Rahmen des Projektes CONDOR entwickelt, das das wichtigste und international bekannteste deutsche IR-Forschungsprojekt ist. So kennzeichnet es Kuhlen (1980): " { . . . ) CONDOR/Siemens - das System, das als Ganzes oder in einigen seiner a u s g e r e i f t e n Komponenten die Situation des Information-Retrieval in den Mittachtzigern sicherlich mitbestimmen w i r d " /82/. Das IR-System CONDOR wurde zwischen 1973 und 1981 bei SIEMENS (München) entwickelt und (wie gegenwärtig zu erkennen ist) 1981 durch einen Abschlußbericht abgeschlossen, ohne daß seine V e r f a h r e n und Erkenntnisse für eine spätere Produkt-Version ( d . h . für eine kommerzielle Realisierung) genügend gesichert werden /83/. Das CONDOR-System, wie schon die Auflösung seines Akronyms ("Communication in Natural language with Dialogue Oriented Retrieval Systems" /84/) andeutet, war in seiner ursprünglichen Fassung lediglich auf eine natürlich-sprachliche Mensch-Maschine-Schnittstelle ausgerichtet. Erst mit der E n t w i c k l u n g der 1. Teilversion von STEINALDER und der ihr angepaßten Retrieval-Komponente (ca. ab Mitte 1975) wurde auch die Linie der Entwicklung eines umfassenden IR-Systems v e r f o l g t . CONDOR wurde später (etwa seit 1978) als ein integriertes IR/DB-System k o n z i p i e r t . Diese Integration wurde allerdings, weil die Komponenten zur Text- und Datenverarbeitung ( d . h . IR- und Datenbanksystem) a n f a n g s getrennt entwikkelt wurden, nicht konsequent d u r c h g e f ü h r t . Die Forschungsschwerpunkte lagen dabei in folgenden Bereichen: linguistische Analyse der Texte und S u c h f r a g e n , wobei zu den Eigenarten von CONDOR gehört, daß für die E r k e n n u n g von syntaktischen Kategorien kein Wörterbuch verwendet wurde (vgl. die grobe Beschreibung der linguistischen Analyse im Kapitel 4 . 2 . 1 ) ;

40

formale Dokumentanalyse zu I n t e r p r e t a t i o n aller formalen Inf o r m a t i o n e n , die im Layout und in den Zeichen enthalten sind, einschließlich der K l a s s i f i k a t i o n von Zeichen und Textsegmente; die D o k u m e n t s t r u k t u r w u r d e dann automatisch in der Dokumentbeschreibung festgehalten (vgl. Neugebauer ( 1 9 8 2 ) ) ; E r k e n n u n g und Analyse von Strichzeichnungen ( d . h . Ablaufpläne, Diagramme, Graphen e t c . ) zwecks Erschließung und evtl. Wiedergewinnung von bildhaften I n f o r m a t i o n s a r t e n ( v g l . Zycha (1979)); automatische K l a s s i f i k a t i o n von Termen und Dokumenten, speziell die h i e r a r c h i s c h e K l a s s i f i k a t i o n STEINADLER; G r o b r e c h e r c h e s t r a t e g i e n ( v g l . auch Kapitel 9 und 1 0 ) , speziell dann . l i n e a r e gewichtete pseudoboolesche Suchlogik (Gewichtung von Termen entspricht ihren P r i o r i t ä t s k l a s s e n ) ; . Suchstrategien auf der Basis von voll- oder unvollständig erschlossenem K l a s s i f i k a t i o n s n e t z (nach STEINADLER); . Ranking von Retrievalergebnissen; i n t e r a k t i v e R e t r i e v a l s t r a t e g i e n auf der Basis von teil- oder vollerschlossenem K l a s s i f i k a t i o n s n e t z , d . h . Relevanzfeedbackstrategien (in der CONDOR-Terminologie auch als P r ä z i s i e r u n g bezeichnet); Feinrecherche der durch die Grobrecherche (spez. durch die lineare gewichtete pseudoboolesche Suchlogik) gewonnenen Dokumente ( v g l . Wieland ( 1 9 7 9 ) , Schwarz ( 1 9 8 2 a ) ) ; Datenbankmodelle, spez. die Integration von DB- und IR-Systemen ( v g l . z . B . Struß/Zeidler ( 1 9 8 2 ) , Leppert/Stork ( 1 9 8 2 ) ) ; Mensch-Maschine-Interaktion und Oberflächendesign bei Dialogsystemen ( v g l . z . B . Lauter ( 1 9 8 2 ) , Jäger ( 1 9 8 2 ) , Zeidler (1982));

41

automatische T h e s a u r u s g e n e r i e r u n g (vgl. Kapitel 4 ) ; Problematik der automatischen I n d e x i e r u n g (die Z u t e i l u n g s problematik bei Volltexten w u r d e jedoch v e r n a c h l ä s s i g t ) ; -

weitere Problemfelder der IR-Systeme, wie z . B . Updatingprobl e m a t i k , automatische semantische Analyse, Datenschutz und Datensicherheit.

Die Rechercheergebnisse wurden zwar e v a l u i e r t , jedoch keine besondere E v a l u i e r u n g s s t r a t e g i e v e r f o l g t . Es wurde meist benutzers u b j e k t i v b e u r t e i l t , d . h . eine P e r t i n e n z b e w e r t u n g d u r c h g e f ü h r t . Der Abschluß des P r o j e k t e s 1981 ließ geplante Verbesserungen und neue Konzepte nicht mehr r e a l i s i e r e n (vgl. auch Anm. / 8 3 / ) . Das IR-System FAKYR /85/ wurde am Fachbereich 20 der TU B e r l i n 1973 im Rahmen von Diplomarbeiten in seiner Version 1.0 implem e n t i e r t . In den folgenden Jahren wurden viele E f f e k t i v i t ä t s verbesserungen, f u n k t i o n a l e E r w e i t e r u n g e n etc. ebenfalls meist im Rahmen von Diplomarbeiten oder Dissertationen vorgenommen. Eine k o n t i n u i e r l i c h e Systempflege und - e r w e i t e r u n g f i n d e t auch heute noch statt. Nach Bollmann et al. (1983) ist

FAKYR ein experimentelles Doku-

m e n t r e t r i v a l s y s t e m , das verschiedene Methoden für O r g a n i s a t i o n und Wiedergewinnung von I n f o r m a t i o n e n und Testen von Hypothesen beinhaltet /86/. FAKYR kann somit auch als ein Methodenbanksystem mit den folgenden Komponenten b e t r a c h t e t werden /87/: Datenbankmanagement: d i r e k t e und i n v e r t i e r t e Dateien, Thes a u r u s o r g a n i s a t i o n , Lexikon der t r i v i a l e n Worte (Stopwortlex i k o n ) , statistische Daten; I n f o r m a t i o n R e t r i e v a l : Boolesches R e t r i e v a l , R a n k i n g v e r f a h r e n unter Verwendung von 43 Assoziationsmaßen, Fuzzy-Retrieval, m o d i f i z i e r t e s Retrieval über Klassen (Clustersuche, Verwendung von T e r m k l a s s e n ) ;

42

automatische K l a s s i f i k a t i o n : graphentheoretische Methoden, Single-Pass-Algorithmus, automatische Generierung von Dendrogrammen f ü r hierarchische K l a s s i f i k a t i o n ; automatische Evaluierung: berechnen von Recall, Precision, Fallout, Ausdruck von Recall-Precision- und Recall-FalloutGraphen. Im FAKYR-System fehlt z.T. die Komponente der linguistischen Analyse der texttuellen Dokumentteile. In dem bei Süß/Leckermann (1981) a u f g e f ü h r t e n Modell eines IR-Systems ist die Index i e r u n g s f u n k t i o n auch nicht präsent /88/. Das IR-System FIRST /89/ von Rank Xerox Corp, ist ein On-Line Dokumentretrieval-System, das in sich ein DB-Managementsystem mit einer automatischen Verarbeitung von natürlich-sprachlichen Suchfragen und Dokumentabstracts vereint und somit auch als ein Versuch der DB/IR-Systemintegration betrachtet werden k a n n . Die s t r u k t u r o r i e n t i e r t e n Informationen (wie z.B. bibliographischen Angaben) und D e s k r i p t o r e n , die einen allgemeinen C h a r a k t e r haben ( z . B . spezielle Anwendungsgebiete), werden in einer Datenbank abgespeichert. Die textuellen Daten werden jedoch ähnlich wie beim System SMART v e r a r b e i t e t , d.h. automatisch linguistisch analysiert und nach dem Algorithmus von Dattola m e h r s t u f i g klass i f i z i e r t (vgl. Abschnitt 2 . 3 . 3 ) . Die Suchfrage-Dokument-Ähnlichkeit w i r d dann zum Ranking der wiedergewonnenen Dokumente verwendet. Das FIRST-System ist also eine I n t e g r a t i o n vom SMARTSystem, das die textuelle I n f o r m a t i o n v e r a r b e i t e t , und einer Datenbank (spez CODASYL-Modell), wodurch es dem Benutzer primär ermöglicht w i r d , die Zahl der zu vergleichenden Dokumente mit H i l f e von benutzerspezifischen bibliographischen und deskriptiven Angaben, die durch einen d i r e k t e n Z u g r i f f zu e r r e i c h e n sind, stark e i n z u s c h r ä n k e n . Die eigentliche Textrecherche kann dann lediglich in einer untermenge von Dokumenten d u r c h g e f ü h r t werden (vgl. Dattola ( 1 9 7 9 ) ) . Das SIRE-System /90/ von der Syracuse U n i v e r s i t y (N. .) ist ein IR-System, das die Merkmale der konventionellen Systeme ( d . h .

43

invertierte Dateien, Boolesche A n f r a g e n ) b e s i t z t . Noreaut/Koll/ McGill (1977) haben gezeigt, daß auch ein solches System durch eine geringere M o d i f i k a t i o n der Dateiorganisation Ä h n l i c h k e i t s f u n k t i o n e n zu Vergleichszwecken (Dokument mit S u c h f r a g e ) verwenden kann und dadurch auch ein Ranking der wiedergewonnenen Dokumente möglich w i r d . Durch die Verwendung der t r a d i t i o n e l l e n Technik der i n v e r t i e r t e n Dateien w i r d auch die E f f i z i e n z der Suche (Recherche) verbessert /9l/. Bookstein (1980, 1981) behandelt eine ähnliche Problematik aus der Position der Theorie von FuzzyMengen /92/. Die Vorgehensweise von SIRE wird von Bookstein als "a hybrid technique" bezeichnet /93/. Ein IR-System, das auf einem operational einfachen probabilistischen Modell des I n f o r m a t i o n s r e t r i e v a l basiert, ist das System CUPID /94/ an der U n i v e r s i t ä t Cambridge in England (vgl. Porter ( 1 9 8 2 ) ) . Überblick über weitere "sophisticated R e t r i e v a l Systems" /95/ geben auch Raghavan/Deogun (1982) oder Salton/ McGill (1983) /96/. Anstelle eines Fazits (hinsichtlich der "sophisticated" IR-Systeme bzw. ihres E i n f l u s s e s auf die kommerziellen IR-Systeme) können noch die Worte von Henrichs (1983) a u f g e f ü h r t werden /97/: "Retrieval systems such as programmed in the late sixties and even more so in the seventies / d . h . die sog. kommerziellen Systeme/ will be obsolete in a few years, since the are already f a l l i n g behind c u r r e n t developments in the area of i n f o r m a t i o n . Successor systems on the same conceptual basis are useless. To spend once again enormous sums of money for such successor systems is economically not j u s t i f i a b l e . " Es ist also e r s i c h t l i c h , daß die Ergebnisse der Forschung und Entwicklung auf dem Gebiet der IR-Systeme auf die Dauer von Herstellern der kommerziellen Systemen nicht i g n o r i e r t werden können. Die kommerziellen IR-Systeme der nächsten Generation werden diese Ergebnisse nützen müssen.

KAPITEL 2 AUTOMATISCHE KLASSIFIKATION

Im Mittelpunkt der A r b e i t stehen die V e r f a h r e n der automatischen K l a s s i f i k a t i o n als ein Instrument der Informations- bzw. Texterschließung und ihre I n t e r p r e t a t i o n bei der I n f o r m a t i o n s w i e d e r gewinnung, speziell wird dann das K l a s s i f i k a t i o n s v e r f a h r e n STEINADLER beschrieben. Auch wenn das V e r f a h r e n , schon seiner Komplex i t ä t wegen, nicht ohne weiteres zu einer e i n z i g e n Gruppe von Methoden der Clusteranalyse zuzuordnen ist, haben zumindest einige seiner S t u f e n d i r e k t e oder i n d i r e k t e Entsprechungen in der Theorien zur automatischen K l a s s i f i k a t i o n . Schon aus diesen Gründen wird ein Überblick über die Methoden der Clusteranalyse gegeben, der dabei vorwiegend durch den Aspekt der möglichen Anwendung in einem IR-System m o t i v i e r t ist. Einleitend zu diesem Einblick in die Methoden der Clusteranalyse w i r d eine E i n f ü h r u n g in die Theorie und in die damit verbundenen Terminologie der automatischen K l a s s i f i k a t i o n angeboten. Im Abschnitt 2.4 werden einige Methoden vorgestellt, die speziell für eine IR-Anwendung entwickelt und bisher auch nur in IR-Systemen verwendet w u r d e n . Diese Methoden sind (bis auf eine Ausnahme) ausschließlich unter dem Aspekt der "dynamischen" Klass i f i k a t i o n ausgewählt, d . h . es werden nur Methoden beschrieben, die auch eine spätere E r w e i t e r u n g einer vorher ermittelten Klass i f i k a t i o n s s t r u k t u r ermöglichen, ohne diese gänzlich umstruktur i e r e n bzw. neu erzeugen zu müssen. Auf die Problematik der dynamischen K l a s s i f i k a t i o n wird im Abschnitt 2.5 eingegangen. Die Theorie der Clusteranalyse beschäftigt sich im allgemeinen sehr wenig mit der Möglichkeiten der Evaluierung der K l a s s i f i k a tionsergebnisse. Einige Ansätze zur Lösung einer solchen Problem a t i k , die großenteils aus dem Bereich der IR-Forschung kommen, werden im Abschnitt 2.6 behandelt.

45

2.1 Allgemeine Problemstellung In der Umwelt (fachlicher oder allgemeiner N a t u r ) treten h ä u f i g ungeordnete Mengen von Objekten a u f , die man mehr oder weniger gut beschreiben k a n n . Mit H i l f e einer K l a s s i f i k a t i o n /!/ w i r d versucht, diese Objekte in Gruppen (Klassen) von ähnlichen Elementen a u f z u t e i l e n . Dabei ist jedoch im allgemeinen von vornherein nicht bekannt, wie viele solcher Klassen e x i s t i e r e n , wie solche Klassen zu c h a r a k t e r i s i e r e n sind und schließlich auch, wie viele Objekte überhaupt einzelnen Klassen angehören. Bei der automatischen K l a s s i f i k a t i o n wird vorausgesetzt, daß eine Struktur e x i s t i e r t , die eine solche A u f t e i l u n g ermöglicht. Diese Voraussetzung ist h ä u f i g nicht ü b e r p r ü f b a r . Bei einer so formulierten Fragestellung werden vornehmlich sogenannte natürliche Klassen gesucht. K l a s s i f i k a t i o n s v e r f a h r e n sind vor allem "realwissenschaftliche" V e r f a h r e n , d . h . sie werden v o r r a n g i g zu einem speziellen Zweck d u r c h g e f ü h r t . Dadurch w i r d die o.g. Fragestellung m o d i f i z i e r t , d . h . die gewonnenen Klassen werden u.a. auch im Hinblick auf den Zweck und das Ziel der K l a s s i f i k a t i o n g e n e r i e r t . Dabei ist o f f e n sichtlich, daß dann neben den natürlichen Klassen auch zweckdienliche künstliche Klassen entstehen. Im weiteren wird neben der Bezeichnung " K l a s s i f i k a t i o n " (darunter w i r d , soweit nicht anders v e r m e r k t , die automatische Klass i f i k a t i o n verstanden) auch die Bezeichnung Clustering oder Clusteranalyse gebraucht. Dementsprechend werden die dadurch gewonnenen Klassen (Gruppen) auch als Cluster bezeichnet und dabei auch über Clusterbildung gesprochen. Die Clusteranalyse ist vorab auf die Bestimmung von Objektgruppen gerichtet. Die Ähnlichkeit von Objekten innerhalb einer Gruppe soll gegenüber der Ähnlichkeit von Objekten verschiedener Gruppen möglichst groß sein /2/. Die automatische K l a s s i f i k a t i o n dieser Art ist eine nichtdeterministische Methode, also kann sie, trotz der unberücksichtigten statistischen I n f e r e n z , als eine probabilistische Methode bezeichnet werden. Sie kann in die Gruppe der

46

nichtdimensionalen V e r f a h r e n eingeordnet werden und als ein Verfahren der Strukturanalyse bezeichnet werden /3/. Die oben formulierte Fragestellung wird auch als "unüberwachtes Lernen" ("unsupervised learning") bezeichnet /4/, im Gegensatz zu sog. "überwachtem Lernen", bei dem die Klassencharakteristiken ( d . h . klassenbildende Merkmale) vorab bekannt sind. Die Zuordnung der Objekte zu bekannten Klassen wird im weiteren auch als Klassieren bezeichnet /5/. Die Klassifikationsergebnisse können meist nur im Hinblick auf den Zweck und das Ziel der Clusteranalyse beurteilt werden. Es gibt also anstelle einer "falschen" oder "richtigen" lediglich eine unbrauchbare oder zweckdienliche K l a s s i f i k a t i o n /6/. Die ersten Verfahren zur automatischen K l a s s i f i k a t i o n wurden außerhalb der Statistik entwickelt und vor allem in vergleichenden Wissenschaften angewandt. Federführend waren die Arbeiten auf dem Gebiet der biologischen Taxonomie. Die ersten Entwicklungen fallen in die Jahre 1957 - 1962. 1963 erschien das erste Standardwerk über die automatische K l a s s i f i k a t i o n , die "Principles of Numerical Taxonomy" von Sokal/Sneath. Jardine/Sibson unterstreichen 1971 schließlich die Konsistenzkriterien für das Clustering durch die E i n f ü h r u n g der entsprechenden Axiomatik /7/. Im Unterschied zu sonstigen multivariaten V e r f a h r e n /B/, zu denen die Clusteranalyse zugeordnet w i r d , stellt eine Clusteranalyse geringere Anforderungen an die Datenqualität. Die Frage der statistischen I n f e r e n z wird bei der automatischen K l a s s i f i k a t i o n meist ausgeklammert. Durch die Clusteranalyse wird grundsätzlich zunächst keine Hypothese bestätigt, sondern es wird versucht, die S t r u k t u r einer Datenmenge zu beschreiben. Die Clusteranalyse hat also zunächst eine deskriptive Funktion oder bestenfalls dient sie einer Hypothesengenerierung /9/. Die E i n f ü h r u n g eines Signif i k a n z t e s t s (mit vorgegebenem S i g n i f i k a n z n i v e a u ) kann man sich zwar vorstellen, allerdings wird seine Aussage nicht eindeutig i n t e r p r e t i e r b a r /10/. Damit ist folgendes gemeint: Setzt man voraus, daß eine Objektmenge mit H i l f e eines C l u s t e r i n g v e r f a h r e n s

47

in zwei Teilmengen a u f g e t e i l t und diese Teilung als nicht signif i k a n t erkannt w i r d , so w i r d dann auch die sog. Nullhypothese, d . h . die Existenz einer solchen Teilung, abgelehnt. Aus der Position der (automatischen) K l a s s i f i k a t i o n ist aber eine A u f t e i l u n g einer ungeordneten Menge in zwei Teilmengen im P r i n z i p immer besser als gar keine /ll/. Die Problematik der E f f i z i e n z und E f f e k t i v i t ä t eines K l a s s i f i k a t i o n s v e r f a h r e n s , insbesondere bei großen Datenmengen, sowie des Verhaltens der K l a s s i f i k a t i o n in einer dynamischen Umgebung blieb bei theoretischen Fragestellungen meist u n b e r ü h r t /12/. Diese F a k t o r e n spielen aber gerade im Bereich der IR-Systeme die wesentlichste Rolle.

2.2 Theoretische Grundlagen 2.2.1 Objekte und Merkmale der K l a s s i f i k a t i o n Im weiteren

(2.1)

sei

S

die zu k l a s s i f i z i e r e n d e Objektmenge. Dabei ist N die Anzahl der Objekte ( M e r k m a l s t r ä g e r ) O.e S, i * I , und I die zugehörige Indexmenge. Zur Beschreibung der Objekte dient eine Auswahl von p Merkmalen;

(2.2)

M = { mj_ F .. . , m J

.

Die Menge M w i r d als Merkmalsmenge bezeichnet. Im weiteren w i r d in diesem Kontext auch über Objektraum S b z w . Merkmalsraum M gesprochen. Ein Merkmal m. w i r d dann als q u a n t i t a t i v bezeichnet, falls sich seine Ausprägungen durch reelle Zahlen ausdrücken lassen, d . h . p r i n z i p i e l l beliebige Werte eines endlichen oder unendlichen Intervals aus R einnehmen können.

48

Nehmen aber die Ausprägungen eines Merkmals m. lediglich eine endliche Anzahl der Alternativen ein, wird von qualitativen Merkmalen gesprochen. Dabei wird zwischen komparativen Merkmalen, die eine vollständige Rangordnung der Objekte nach dem Besitz bestimmter Eigenschaften erlauben, und k l a s s i f i k a t o r isehen Merkmalen unterschieden. Die Menge der Ausprägungen des Merkmals m. w i r d als Ausprägungsmenge X. bezeichnet. Beispiel 2.1 Das Merkmal

, das die vier Jahreszeiten bezeichnet, d.h.

Xi = ( F r ü h l i n g , Sommer, Herbst, W i n t e r ) , ist ein klassifikatorisches Merkmal. Demgegenüber ist das Merkmal m. "erreichte Ausbildung" mit X. = (Hauptschulabschluß, Mittlere R e i f e , A b i t u r , Diplom, Promotion) als komparativ zu bezeichnen.

Qualitative klassifikatorische Merkmale mit nur zwei Ausprägungen werden als binäre Merkmale bezeichnet. Der zum Objekt O. zugehörige Vektor X. = ( x . . ) \ , w i r d allgemein als Merkmalsvektor des Objektes 0. bezeichnet. Als Grundlage zur Lösung des Klassifikationsproblems ergibt sich dann eine M a t r i x A =

Je nach der Art der Merkmale spricht man entweder über quantitative oder qualitative oder gemischte ( d . h . beide Merkmalstypen in M v e r t r e t e n ) Daten oder Datenmatrix.

49

Die Relation «< über die Objektmenge S w i r d als die Präordnung auf S bezeichnet, wenn sie folgende Axiome e r f ü l l t : I:

für alle j ,k « I ( J A ) gut 0 < O K J oder 0, ·< 0. oder beides; k D

II.

für alle j e I gilt O. < 0. ;

I I I . f ü r alle j , k , l < £ I g i l t , d a ß

(o. N XN

ijN

X N

51 werden dann als Distanz- bzw. Ä h n l i c h k e i t s m a t r i z e n bezeichnet. Infolge der Eigenschaften ( I ) , ( I I ) , ( I I I ) b z w . (1) , (2) , (3) sind diese M a t r i z e n symetrisch. Bei Merkmalsträgern (Objekten) mit k l a s s i f i k a t o r i s c h e n oder komparativen Merkmalen kann h ä u f i g lediglich auf eine i n d i r e k t e Ähnl i c h k e i t s r e l a t i o n z u g e g r i f f e n werden. Die dabei bevorzugte Anwendung des Streuungsmaßes der Merkmale f i n d e t seinen Niederschlag bei dem b e n u t z t e n G ü t e k r i t e r i u m der K l a s s i f i k a t i o n . Nach Vogel (1982a) gelten "die Merkmalsträger einer Klasse dann als

ähnlich,

wenn die Streuung innerhalb dieser Klasse k l e i n ist" /13/. Für die k l a s s i f i k a t o r i s c h e n Merkmale ist dann die m i t t l e r e Entropie ein gebräuchliches Streuungsmaß, dessen Eigenschaften mit denen der V a r i a n z vergleichbar sind (vgl. Vogel (1982a) . Die Entropie für das i-te Merkmal m. w i r d als (2.3)

d * ( m . ) - Id n - J V " > n i k - l d "ik K ~~ -L

d e f i n i e r t , wobei n .

lK

die absolute H ä u f i g k e i t der k-ten Ausprägung

vom i-ten Merkmal m. und

Mi) n = V" n . . Al l k mit L (i) als die Anzahl der Ausprägungen vom m. ist. Es gilt u . a . ( v g l . Vogel ( 1 9 8 2 a ) ) , daß d*(m.)

(2.4)

0 *

Id L (i)

*

=

norm

( m1. ) ^ l ,

d . h . die Entropie ist auf Intervall τ J

1

1

rfc



P - z.

/ '"tJ Λ L·

'