Fortgeschrittene Analyseverfahren in den Sozialwissenschaften: Ein Überblick [1. Aufl.] 9783658302368, 9783658302375

Regression, Faktorenanalyse, Qualitative Comparative Analysis oder auch Inhaltsanalyse – der Band gibt einen Überblick ü

314 16 6MB

German Pages XIII, 404 [412] Year 2020

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Front Matter ....Pages I-XIII
Einführung (Markus Tausendpfund)....Pages 1-5
Lineare Regression (Gerrit Bauer)....Pages 7-43
Analyse binärer abhängiger Variablen (Felix Weiss)....Pages 45-73
Aggregatdatenanalyse (Sebastian Kuhn)....Pages 75-118
Mehrebenenanalyse (Markus Tausendpfund)....Pages 119-164
Fehlende Werte (Michael Bergmann, Fabio Franzese)....Pages 165-203
Explorative Faktorenanalyse und Skalenkonstruktion (Christian Schnaudt)....Pages 205-242
Qualitative Comparative Analysis (Felix Hörisch, Matthias Heiken)....Pages 243-274
Teilstandardisierte Experteninterviews (Benjamin von dem Berge)....Pages 275-300
Inhaltsanalyse (Daniela Braun)....Pages 301-334
Experimente (Sascha Huber)....Pages 335-375
Big Data (Dominic Nyhuis)....Pages 377-405
Recommend Papers

Fortgeschrittene Analyseverfahren in den Sozialwissenschaften: Ein Überblick [1. Aufl.]
 9783658302368, 9783658302375

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Grundwissen Politik

Markus Tausendpfund  Hrsg.

Fortgeschrittene Analyseverfahren in den Sozialwissenschaften Ein Überblick

Grundwissen Politik Reihe herausgegeben von Lars Holtkamp Institut für Politikwissenschaft FernUniversität Hagen Hagen, Deutschland Viktoria Kaina Institut für Politikwissenschaft FernUniversität Hagen Hagen, Deutschland Susanne Lütz Institut für Politikwissenschaft FernUniversität Hagen Hagen, Deutschland Michael Stoiber Institut für Politikwissenschaft FernUniversität Hagen Hagen, Deutschland Annette Elisabeth Töller Institut für Politikwissenschaft FernUniversität Hagen Hagen, Deutschland

Weitere Bände in der Reihe http://www.springer.com/series/12703

Markus Tausendpfund Hrsg.

Fortgeschrittene Analyseverfahren in den Sozialwissenschaften Ein Überblick

Hrsg. Markus Tausendpfund Fakultät für Kultur- und Sozialwissenschaften FernUniversität in Hagen Hagen, Deutschland

Grundwissen Politik ISBN 978-3-658-30236-8    ISBN 978-3-658-30237-5  (eBook) https://doi.org/10.1007/978-3-658-30237-5 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer VS © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Lektorat: Jan Treibel Springer VS ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany

Vorwort

Dieser Band enthält überblicksartige Darstellungen weiterführender Analyseverfahren bzw. Forschungsmethoden, um eine sozialwissenschaftliche Forschungsfrage zu bearbeiten. Jedes Verfahren bzw. jede Methode wird in ihren Grundlagen vorgestellt und an einem Anwendungsbeispiel aus der Forschung erläutert. Die Diskussion der Möglichkeiten und Grenzen eines Verfahrens gibt wertvolle Orientierungen für die (eigene) praktische Anwendung. Folgende Verfahren bzw. Methoden wurden in diesem Band berücksichtigt: Lineare Regression, logistische Regression, Aggregatdatenanalyse, Mehrebenenanalyse, Fehlende Werte, Faktorenanalyse, Qualitative Comparative Analysis, Teilstandardisierte Experteninterviews, Inhaltsanalyse, Experimente und Big Data. Die vorgestellten Verfahren sind zwar nur eine Auswahl der existierenden Analyseverfahren bzw. Forschungsmethoden, aber sie stellen sicherlich die am häufigsten eingesetzten Verfahren in den Sozialwissenschaften dar. Ich bin den Kolleginnen und Kollegen, die zu diesem Band beigetragen haben, zu großem Dank verpflichtet. Sie alle sind der Einladung, einen Beitrag zu verfassen, nicht nur mit Freude und Sorgfalt nachgekommen, sondern haben auch mein Drängen, den gemeinsamen Vorgaben zu folgen, mit viel Geduld und Offenheit ertragen. Dieser Band ist weitgehend identisch mit dem Kurs „Fortgeschrittene Analyseverfahren in den Sozialwissenschaften“, der seit einigen Semestern im Modul MB2 im Master-Studiengang „Politikwissenschaft – Regieren und Partizipation“ an der FernUniversität in Hagen eingesetzt wird. Neben den Autoren bin ich insbesondere Juliane Döschner und Daniel Saar zu Dank verpflichtet, die an der Schlussredaktion der einzelnen Beiträge beteiligt waren.

VII

VIII

Vorwort

Über Hinweise auf Fehler, Kommentare und Verbesserungsvorschläge freue ich mich. Sie erreichen mich unter der E-Mail-Adresse Markus.Tausendpfund@ FernUni-­Hagen.de. Hagen, Deutschland April 2020

Markus Tausendpfund

Inhaltsverzeichnis

Einführung��������������������������������������������������������������������������������������������������������  1 Markus Tausendpfund Lineare Regression�������������������������������������������������������������������������������������������  7 Gerrit Bauer  nalyse binärer abhängiger Variablen����������������������������������������������������������� 45 A Felix Weiss Aggregatdatenanalyse��������������������������������������������������������������������������������������� 75 Sebastian Kuhn Mehrebenenanalyse �����������������������������������������������������������������������������������������119 Markus Tausendpfund Fehlende Werte�������������������������������������������������������������������������������������������������165 Michael Bergmann und Fabio Franzese  xplorative Faktorenanalyse und Skalenkonstruktion���������������������������������205 E Christian Schnaudt Qualitative Comparative Analysis�������������������������������������������������������������������243 Felix Hörisch und Matthias Heiken Teilstandardisierte Experteninterviews ���������������������������������������������������������275 Benjamin von dem Berge

IX

X

Inhaltsverzeichnis

Inhaltsanalyse���������������������������������������������������������������������������������������������������301 Daniela Braun Experimente�������������������������������������������������������������������������������������������������������335 Sascha Huber Big Data�������������������������������������������������������������������������������������������������������������377 Dominic Nyhuis

Über die Autoren

Dr. Gerrit Bauer  ist Akademischer Rat an der Ludwig-Maximilians-Universität (LMU) München. Seine Forschungsschwerpunkte umfassen familiensoziologische (Fertilität, Scheidung, Arbeitsteilung) sowie ungleichheitsrelevante Fragestellungen (z. B. zum Zusammenhang zwischen räumlicher und sozialer Mobilität). Derzeit beschäftigt er sich zudem mit Veränderungen der Lebenszufriedenheit im Lebensverlauf (kurzfristige Effekte der Geburt von Kindern sowie langfristige Effekte der sozialen Herkunft). Dr. Michael Bergmann  ist wissenschaftlicher Mitarbeiter am Munich Center for the Economics of Aging (MEA) des Max-Planck-Instituts für Sozialrecht und Sozialpolitik in München. Er leitet dort die Abteilung „Survey Methodology“ des Survey of Health, Ageing and Retirement in Europe (SHARE). Seine Forschungsinteressen liegen im Bereich der methodischen Umfrageforschung, insbesondere in der Untersuchung von Panel Conditioning, Panel Attrition und Intervieweffekten sowie -fälschungen in Längsschnittstudien. Dr. Daniela  Braun  ist wissenschaftliche Assistentin am Lehrstuhl für Vergleichende Politikwissenschaft am Geschwister-Scholl-Institut (GSI) der Ludwig-Maximilians-Universität in München (LMU). Ihre Arbeitsbereiche umfassen die politische Einstellungs- und Verhaltensforschung sowie die Untersuchung der Wahlen zum Europäischen Parlament. Dr. Fabio Franzese  ist wissenschaftlicher Mitarbeiter am Munich Center for the Economics of Aging (MEA) des Max-Planck-Instituts für Sozialrecht und Sozialpolitik in München. Er arbeitet dort im Database Management für den Survey of XI

XII

Über die Autoren

Health, Ageing and Retirement in Europe (SHARE) und forscht zu den Themen Gesundheits- und Familiensoziologie. Matthias  Heiken  ist Masterstudent der Politischen Wissenschaft an der Ruprecht-Karls-Universität Heidelberg. Seine Arbeitsschwerpunkte sind Arbeitsmarkt-, Sozial- und Asylpolitik in Deutschland und im internationalen Vergleich. PD. Dr. Felix Hörisch  ist derzeit Vertretungsprofessor am Institut für Politische Wissenschaft der Ruprecht-Karls-Universität Heidelberg. In seiner Forschung befasst er sich unter anderem mit Arbeitsmarkt-, Sozial-, Fiskal- und Asylpolitik im nationalen und internationalen Vergleich sowie der Methode Qualitative Comparative Analysis. Zudem ist er Mitglied des Advisory Boards von COMPASSS (COMPArative Methods for Systematic cross-caSe analySis), dem QCA-Netzwerk. Prof. Dr. Sascha Huber  ist Professor am Institut für Politikwissenschaft der Universität Mainz. In seiner Forschung befasst er sich unter anderem mit der politischen Urteils- und Entscheidungsbildung in Demokratien und der Anwendung experimenteller Methoden. Sebastian Kuhn  hat Politikwissenschaft, Soziologie und Germanistik an der Universität Stuttgart studiert und als wissenschaftlicher Mitarbeiter an der FriedrichSchiller-­Universität Jena und an der FernUniversität in Hagen gearbeitet. Seit 2016 ist er bei der AOK Baden-Württemberg beschäftigt und leitet dort das Referat „Datenmanagement“. Seine Forschungsinteressen liegen hauptsächlich im Bereich quantitativer Methoden der Datenanalyse. Dr. Dominic Nyhuis  ist Akademischer Rat an der Leibniz Universität Hannover, Arbeitsbereich für Vergleichende Regierungslehre und das Politische System Deutschlands. Seine Tätigkeitsschwerpunkte liegen im Bereich von Parteien, Parlamenten und der vergleichenden Kommunalpolitikforschung. Methodisch liegt sein Fokus auf der Auswertung neuartiger Datenquellen für die sozialwissenschaftliche Forschung und neueren Entwicklungen der quantitativen Methodik. Dr. Christian Schnaudt  ist wissenschaftlicher Mitarbeiter am Lehrstuhl für Politikwissenschaft – Politische Soziologie an der Universität Mannheim. Seine Forschungsinteressen liegen in den Bereichen der politischen Einstellungs- und Verhaltensforschung, quantitativer Forschungsmethoden sowie der Umfragemethodik.

Über die Autoren

XIII

Dr. Markus Tausendpfund  ist wissenschaftlicher Mitarbeiter an der Fakultät für Kultur- und Sozialwissenschaften, Arbeitsstelle Quantitative Methoden, an der FernUniversität in Hagen. Seine Arbeitsgebiete umfassen Methoden der empirischen Sozialforschung, Einstellungs- und Verhaltensforschung sowie lokale Politikforschung. Dr. Benjamin von dem Berge  ist Forschungsreferent und Wissenschaftler an der Zeppelin Universität in Friedrichshafen. Davor war er Wissenschaftlicher Mitarbeiter am Lehrstuhl „Vergleich Politischer Systeme“ (Prof. Dr. Thomas Poguntke) an der Heinrich-­Heine-­Universität Düsseldorf sowie am Mannheimer Zentrum für Europäische Sozialforschung (MZES) der Universität Mannheim (Prof. Dr. Jan W. van Deth). Seine wissenschaftlichen Arbeitsgebiete umfassen politische Parteien und Parteiensysteme, Demokratisierung, Europäische Integration und Vergleichende Politikwissenschaft im Allgemeinen. Dr. Felix Weiss  ist Assistant Professor für Bildungssoziologie an der Universität Aarhus, Dänemark. Seine Forschungsschwerpunkte sind Soziale Stratifizierung und Mobilität, Bildungsungleichheit, Arbeitsmärkte und Lebenslaufsoziologie.

Einführung Markus Tausendpfund

1

Zielsetzung

Regression, Faktorenanalyse, Qualitative Comparative Analysis oder auch Inhaltsanalyse  – in den Sozialwissenschaften gibt es zahlreiche Analyseverfahren, um eine Forschungsfrage zu bearbeiten. Dabei gibt es nicht „das“ Analyseverfahren oder „die“ Methode, die sich für alle denkbaren sozialwissenschaftlichen Fragestellungen eignet. Im Gegenteil: Die Wahl eines bestimmten Analyseverfahrens oder einer Forschungsmethode ist in erster Linie von der konkreten Forschungsfrage abhängig.1 Das vorliegende Lehrbuch möchte mit wichtigen Analyseverfahren bzw. Forschungsmethoden der Sozialwissenschaften vertraut machen. Der Band deckt zum

1  Ausschließlich aus Gründen der besseren Lesbarkeit wird in diesem Buch nicht durchgängig eine geschlechtsneutrale Sprache verwendet. Männliche, weibliche und genderneutrale Formen wechseln sich in diesem Buch zufallsverteilt ab. Mit den Bezeichnungen sind jeweils alle Geschlechter gemeint.

M. Tausendpfund (*) Fakultät für Kultur- und Sozialwissenschaften, FernUniversität in Hagen, Hagen, Deutschland E-Mail: [email protected] © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 M. Tausendpfund (Hrsg.), Fortgeschrittene Analyseverfahren in den Sozialwissenschaften, Grundwissen Politik, https://doi.org/10.1007/978-3-658-30237-5_1

1

2

M. Tausendpfund

einen nicht alle existierenden Analyseverfahren/Forschungsmethoden ab und bietet zum anderen nur eine erste Einführung in die jeweiligen Methoden bzw. Analyseverfahren. Bei der Auswahl der Verfahren wurden insbesondere solche berücksichtigt, die in den Sozialwissenschaften besonders häufig verwendet werden. Die einzelnen Beiträge stellen jeweils ein spezifisches Analyseverfahren bzw. eine Methode vor und diskutieren Voraussetzungen sowie Vor- und Nachteile. Dabei werden die einzelnen Verfahren nicht abstrakt dargestellt, sondern jeweils an konkreten sozialwissenschaftlichen Fragestellungen illustriert. Die Auseinandersetzung mit den unterschiedlichen Verfahren soll einerseits die passive Methodenkompetenz, also das grundlegende Verständnis des jeweiligen Verfahrens, fördern und andererseits das Interesse wecken, sich mit ausgewählten Verfahren intensiver zu beschäftigen. Im Rahmen von Haus- und Abschlussarbeiten können (und sollen) einzelne Analyseverfahren bzw. Methoden genutzt werden, um konkrete Forschungsfragen zu bearbeiten. 104 Prüfungsfragen und -antworten wurden zudem als digitales Zusatzmaterial aufbereitet und sind als SN Flashcards für die Leserinnen und Leser in Ergänzung zum Buch nutzbar.

2

Beiträge im Überblick

Das Lehrbuch umfasst insgesamt elf inhaltliche Kapitel und gibt einen Überblick über wichtige Analyseverfahren bzw. Forschungsmethoden in den Sozialwissenschaften. Die Regressionsanalyse ist sicherlich das wichtigste und bekannteste Analyseverfahren in den Sozialwissenschaften. Insbesondere bei großen Fallzahlen sind regressionsanalytische Verfahren ein beliebtes Instrument, mit dessen Hilfe der Effekt einer oder mehrerer unabhängiger Variablen (uVs) auf eine abhängige Variable (aV) geschätzt wird. Die Bezeichnung Regressionsanalyse ist dabei ein Oberbegriff für eine Vielzahl an regressionsanalytischen Verfahren. Das einfachste ­regressionsanalytische Verfahren ist die lineare Regression (OLS), die unter anderem eine (pseudo-)metrische abhängige Variable voraussetzt. Der Beitrag von Gerrit Bauer bietet eine Auffrischung bereits erworbener, aber möglicherweise vergessener Kenntnisse. Das wesentliche Ziel dieses Beitrags ist es, in zwei wichtige Erweiterungen des OLS-Grundmodells einzuführen: in Interaktionseffekte und in die Modellierung nicht linearer Zusammenhänge. In den Sozialwissenschaften werden viele Fragestellungen untersucht, die in Variablen mit zwei Ausprägungen (sogenannte dichotome oder binäre Variablen) abgebildet werden können. Typische Themen sind etwa die Wahlbeteiligung, der

Einführung

3

Kauf eines bestimmten Produkts oder auch der Tabakkonsum. Aufbauend auf der Darstellung von Kreuztabellen stellt Felix Weiss das lineare Wahrscheinlichkeitsmodell (linear probability model) sowie die logistische Regression vor. Dabei werden unterschiedliche Interpretationsmöglichkeiten der logistischen Regression vorgestellt und ihre Vor- und Nachteile diskutiert. Unter der Bezeichnung Aggregatdatenanalyse wird in diesem Band ein Analyseverfahren verstanden, in dessen Rahmen sich die verwendeten Daten auf die Aggregat- bzw. Kollektivebene beziehen und diese mithilfe statistischer Verfahren ausgewertet werden. Während sich bei der linearen und logistischen Regression die uVs und die aV meist auf der Mikroebene befinden, liegen die uVs und die aV bei der Aggregatdatenanalyse auf der Makroebene. Der Beitrag von Sebastian Kuhn gibt einen Überblick über die Grundlagen der Aggregatdatenanalyse und diskutiert Stärken und Schwächen der Methode. Die zentrale Annahme der Mehrebenenanalyse (Kontextanalyse) ist, dass individuelle Einstellungen und Verhalten nicht nur eine Folge von individuellen Merkmalen sind, sondern auch das Resultat der Einwirkungen von kontex­tuellen Faktoren. Bei der Mehrebenenanalyse handelt es sich um ein regressionsanalytisches Verfahren, bei dem die aV auf der Mikroebene, die uVs auf der Mikro- und Makroebene angesiedelt sind. Die Grundlage einer Mehrebenenanalyse ist eine hierarchische Datenstruktur, deren Elemente der unteren Ebene jeweils genau einem Element der höheren Ebene zugeordnet sind (z. B. Personen in Ländern). Der Beitrag von Markus Tausendpfund bietet eine Einführung in die Logik und Vorgehensweise der Mehrebenenanalyse. Dabei werden die Voraussetzungen der Mehrebenenanalyse (z.  B.  Fallzahl) sowie die typische Analysestrategie vorgestellt. Der Beitrag gibt auch einen knappen Überblick über Weiterentwicklungen (z. B. Drei-Ebenen-Modell). Die meisten Daten, die in der empirischen Sozialforschung verwendet werden, stammen aus Befragungen. Ein Problem bei Befragungen ist es, dass die Personen nicht alle Fragen beantworten. Insbesondere bei sensiblen Fragen (z. B. zum Einkommen) verweigern die Befragten ihre Antwort. Eine hohe Verweigerung kann allerdings zu systematischen Verzerrungen bei den empirischen Ergebnissen führen. Deshalb zielt der Beitrag von Michael Bergmann und Fabio Franzese darauf ab, ein Bewusstsein für die Problematik von fehlenden Werten zu schaffen und stellt Möglichkeiten vor, wie bei der Analyse von Befragungsdaten mit Item Nonresponse umgegangen werden kann. Sie stellen die Ursachen für Item Nonresponse und zentrale Ausfallmechanismen vor und diskutieren die gängigsten Verfahren für den Umgang mit fehlenden Werten. In der empirischen Sozialforschung sind wir häufig mit komplexen Konzepten wie Vertrauen oder Legitimität konfrontiert, die nicht mit einem Indikator operatio-

4

M. Tausendpfund

nalisiert werden können. Die Messung eines komplexen Konzepts mittels mehrerer Items ist zwar im Allgemeinen einer Messung über lediglich ein einzelnes Item vorzuziehen, da sich hierdurch die mit der Messung behafteten Fehler im Durchschnitt reduzieren. Allerdings ergibt sich aus der Verwendung mehrerer Items oder Variablen zwangsläufig die Frage, ob diese überhaupt zur Messung ein und desselben theoretischen Konzepts geeignet sind und folglich zu einer gemeinsamen Skala zusammengefasst werden können. Zur Prüfung, ob mehrere verschiedene Frageitems oder Variablen ein und dasselbe theoretische Konzept erfassen und somit zu einer gemeinsamen Skala zusammengefasst werden können, greifen Sozi­ alwissenschaftlerinnen auf die sogenannte Faktorenanalyse zurück. Christian Schnaudt stellt die generellen Grundlagen der Faktorenanalyse vor und differenziert verschiedene faktorenanalytische Verfahren, die in der sozialwissenschaftlichen Forschung häufig eingesetzt werden. Die Qualitative Comparative Analysis (QCA) ist ein vor rund 30 Jahren von Charles Ragin entwickeltes Verfahren, das sich in den letzten Jahren in den Sozialwissenschaften zunehmend etabliert hat. Zentrales Ziel der Methode ist die Identifikation von notwendigen und hinreichenden Bedingungen für eine bestimmte abhängige Variable, in der Terminologie der Methode eines bestimmten Outcomes. Während Sozialwissenschaftler bei großen Fallzahlen insbesondere auf regressionsanalytische Verfahren zurückgreifen, nutzen sie insbesondere bei mittleren Fallzahlen die QCA. Der Beitrag von Felix Hörisch und Matthias Heiken macht mit der Terminologie und den Grundbegriffen der QCA vertraut. Darauf aufbauend werden zwei Arten der QCA erläutert: crisp-set und fuzzy-set QCA. Der Beitrag von Benjamin von dem Berge macht mit teilstandardisierten Experteninterviews vertraut. Dabei handelt es sich um eine Methode der Datenerhebung, nicht der Datenanalyse. Das Kapitel bietet eine Anleitung zur Durchführung von Experteninterviews. Wer im Rahmen teilstandardisierter Experteninterviews befragt wird, hängt vom Forschungsgegenstand der jeweiligen Studie ab. Werden beispielsweise Sachverhalte in politischen Parteien untersucht, dann können Parteifunktionäre befragt werden, bei Sachverhalten in kommunalen Verwaltungen könnten dies Mitarbeitende der Verwaltungen sein. Neben der Auswahl der Experten behandelt der Beitrag auch Fragen zur Datenqualität und gibt praktische Hinweise zur Durchführung von Experteninterviews. In der Methodenliteratur wird die Inhaltsanalyse zwar traditionell als ein Datenerhebungsverfahren eingeordnet, allerdings handelt es sich auch um ein Verfahren der Datenanalyse. Der Beitrag von Daniela Braun deckt beide Aspekte der Inhaltsanalyse ab. Zunächst wird der Schritt der Datenerhebung anhand des Euromanifesto-­Projekts dargestellt. Im Rahmen des Euromanifesto-Projekts werden die Wahlprogramme der Parteien, die zu den Europawahlen antreten, gesam-

Einführung

5

melt und anhand eines Codierschemas systematisch codiert. Darauf aufbauend wird auf die Möglichkeit eingegangen, die Inhaltsanalyse als Analyseverfahren zu verwenden. Dabei wird exemplarisch untersucht, wie sich die Salienz europäischer Polices im Europawahlkampf über die Zeit verändert hat. Während regressionsanalytische Verfahren streng genommen nur Beziehungen (Korrelationen) zwischen Variablen untersuchen können, bieten Experimente die Möglichkeit, kausale Beziehungen zu entdecken. Das Experiment gilt zwar allgemein als Idealtyp empirischer Forschung, um kausale Zusammenhänge entdecken bzw. prüfen zu können, allerdings wurde lange Zeit der Gebrauch dieser Methode in der Politikwissenschaft oder Soziologie als nicht anwendbar betrachtet. Erst in jüngerer Zeit ist wieder eine stärkere Aufmerksamkeit gegenüber experimentellen Untersuchungsformen festzustellen. Der Beitrag von Sascha Huber bietet eine Einführung in sozialwissenschaftliche Experimente und gibt einen Überblick über Ziele und Formen von Experimenten. Daran anschließend arbeitet er heraus, unter welchen Voraussetzungen sozialwissenschaftliche Experimente eine lohnenswerte Forschungsstrategie darstellen. „Big Data“ ist derzeit in aller Munde. Durch die Digitalisierung sind heute mehr Daten verfügbar als jemals zuvor. Zum Abschluss und als Ausblick auf aktuelle und künftige Entwicklungen behandelt Dominic Nyhuis in diesem Band das Thema Big Data, welches für die Sozialwissenschaften zunehmend an Bedeutung gewinnt. Er behandelt einerseits die Grundlagen der automatischen Webdatensammlung und stellt andererseits Überlegungen zur Auswertung großer, wenig strukturierter Daten vor. Dabei macht Nyhuis auch mit den technischen Grundlagen der webbasierten Datensammlung vertraut und stellt Beispiele aus der sozialwissenschaftlichen Big Data-Forschung vor.

Lineare Regression Gerrit Bauer

1

Einführung

In diesem Kapitel wird das lineare Regressionsmodell (auch als OLS-Modell bezeichnet) in seinen Grundzügen dargestellt. Diese kurze Einführung dient zur Auffrischung bereits erworbener Kenntnisse. Das wesentliche Ziel dieses Beitrags ist es im Anschluss, in zwei wichtige Erweiterungen des OLS-Grundmodells ein­ zuführen: in Interaktionseffekte und in die Modellierung nicht linearer Zusammenhänge. Interaktionseffekte dienen der Modellierung von Effektheterogenität: Wirkt ein Merkmal auf einen Outcome unter bestimmten Bedingungen, z. B. in bestimmten Gruppen, unterschiedlich? In einem Anwendungsbeispiel mit Daten des European Social Survey (ESS) wird veranschaulicht, wie sich untersuchen lässt, ob ein höheres Einkommen bei Frauen und Männern gleichermaßen mit einer höheren Lebenszufriedenheit einhergeht. Ist der Effekt des Einkommens auf die Lebenszufriedenheit gleich stark oder liegt Effektheterogenität vor?

G. Bauer (*) Institut für Soziologie, Ludwig-Maximilians-Universität (LMU), München, Deutschland E-Mail: [email protected] © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 M. Tausendpfund (Hrsg.), Fortgeschrittene Analyseverfahren in den Sozialwissenschaften, Grundwissen Politik, https://doi.org/10.1007/978-3-658-30237-5_2

7

8

G. Bauer

Die zweite Modellerweiterung dient der Modellierung nicht linearer Zusammenhänge im OLS-Regressionsmodell. Es wird unter anderem der Frage nachgegangen, wie sich die Lebenszufriedenheit in Abhängigkeit des Einkommens entwickelt. Ist die Zunahme des Einkommens um einen bestimmten Betrag (z. B. 200 Euro) stets mit dem gleichen Zugewinn an Lebenszufriedenheit verbunden (linearer Zusammenhang) oder bringt ein solcher zusätzlicher Betrag denjenigen mehr, die über ein niedriges und nicht ohnehin schon über ein hohes Einkommen verfügen? Auch hier stellt sich letztlich wieder die Frage nach homogenen oder heterogenen Effekten: Wirkt sich ein zusätzlicher Einkommensbetrag je nach bereits vorhandenem Einkommen unterschiedlich auf die Lebenszufriedenheit aus? Interaktionseffekte und nicht linearer Zusammenhänge werden zwar oftmals getrennt voneinander diskutiert, weisen aber über den Zugang der Effektheterogenität Gemeinsamkeiten auf. Diese werden in diesem Beitrag herausgearbeitet. Dabei erfolgt zunächst immer eine kurze formale Einführung, an die sich Beispielanalysen mit fiktiven Daten (mit wenigen, konstruierten Datenpunkten) sowie dann mit dem ESS für Deutschland anschließen. Ein Schwerpunkt liegt auf der korrekten Interpretation der Regressionsergebnisse. Ich werde immer wieder darauf hinweisen, dass neben der Darstellung der Regressionsergebnisse in tabellarischer Form grafische Verfahren für eine fehlerfreie Interpretation der Ergebnisse (nahezu) unabdingbar sind, zumindest, wenn Effektheterogenität und Nicht-Linearität vorliegen.

2

Was ist eine Regression?

Eine Regression ist ein Verfahren zur Untersuchung von Zusammenhängen zwischen zwei (bivariate Regression) oder mehreren Variablen (multivariate Regression). Der Begriff Regression ist dabei so zu verstehen, dass untersucht wird, inwieweit ein Merkmal auf ein anderes regressiert, d. h. zurückgeführt werden kann (von lateinisch regredi: umkehren, zurückgehen). Beispielsweise lässt sich so untersuchen, ob und inwieweit Lebenszufriedenheit auf Einkommen zurückgeführt werden kann oder ob eine bestimmte Parteipräferenz auf bestimmte Einstellungen, etwa zur Zuwanderung, zurückführbar ist. Schon seit Jahrzehnten hat sich die Untersuchung von Zusammenhängen mit Regressionen zum Standardverfahren in den Sozial- und Wirtschaftswissenschaften entwickelt (Wolf und Best 2010). Diese Verfahren lassen es zu, die Stärke von Zusammenhängen und den simultanen Einfluss mehrerer Merkmale zu untersuchen (multivariate Regressionsmodelle) und aus den Befunden unter bestimmten Voraussetzungen kausale Schlüsse über den Ursache-Wirkungs-Zusammenhang zu ziehen.

Lineare Regression

9

Dabei stellt sich sogleich die Frage, was eine Regression von einer einfachen Korrelationsanalyse unterscheidet. Korrelationsanalysen dienen schließlich auch der Untersuchung von Zusammenhängen. Der wesentliche Unterschied beruht auf theoretischen Vorannahmen, die für die Interpretation der Regressionsergebnisse unabdingbar sind: Die Forscherin oder der Forscher muss festlegen, was in den Analysen die unabhängige(n) Variable(n) X und was die abhängige Variable (Y) ist (Jann 2005). Die abhängige Variable wird dabei auch als Outcome, erklärte Variable, vorhergesagte Variable, Regressand, Prädikant, Response oder endogene Variable bezeichnet und der Konvention nach mit Y symbolisiert. Für die unabhängige(n) Variable(n), die mit X symbolisiert werden, finden sich auch die Bezeichnungen Regressor, Prädiktor, erklärende Variable, Stimulus, Treatment, exogene Variable oder Kontrollvariable (Wooldridge 2003; Jann 2005). Die Festlegung, was durch welche Variable beeinflusst wird, muss vor der eigentlichen Analyse auf Basis plausibler theoretischer Überlegungen erfolgen. Bezogen auf unseren Erklärungsgegenstand erfolgt im Folgenden die Festlegung, dass die Lebenszufriedenheit das Explanandum ist, das heißt, es soll erklärt werden, warum sich Menschen in ihrer Lebenszufriedenheit unterscheiden.1 Als unabhängige Variable wird in den Analysen dabei unter anderem das Geschlecht genutzt. Für den Zusammenhang zwischen Geschlecht und Lebenszufriedenheit ist ziemlich klar, dass das Geschlecht dem Wohlbefinden zeitlich vorausgeht, d. h. die Lebenszufriedenheit kann keinen Einfluss auf das Geschlecht haben. Damit lässt sich plausibel festlegen, dass die Analysen mit der Y-Variablen Lebenszufriedenheit und mit der X-Variablen Geschlecht gerechnet werden sollten. Gleiches gilt auch für das Alter. Zufriedenere Menschen sehen vielleicht jünger aus als griesgrämige, Effekte auf das tatsächliche Alter, also auf die Zeit, die zwischen Erhebung der Daten und Geburt verstrichen ist, hat das subjektive Wohlbefinden aber ganz sicher nicht. Komplizierter wird die Sache schon, wenn wir uns einer weiteren Variablen zuwenden, die hier im Zusammenhang mit der Lebenszufriedenheit untersucht werden soll: Einkommen. Hat ein höheres Einkommen einen positiven Effekt auf die Lebenszufriedenheit, weil z. B. durch mehr Geld der physische und soziale Wohlstand verbessert werden kann? Oder hat vielleicht die Lebenszufriedenheit eher 1  Anders ausgedrückt lautet die Frage: Warum gibt es Ungleichheit in der Lebenszufriedenheit, nach der Menschen mit ihrem Handeln streben. Entsprechende theoretische Argumente für das universelle Streben nach Zufriedenheit finden sich bereits bei Adam Smith (1776 (1974)) sowie in der Literatur zur Produktion von Wohlbefinden (Lindenberg 1989; Esser 1999).

10

G. Bauer

einen Effekt auf das Einkommen, weil z. B. zufriedenere Menschen bei Gehaltsverhandlungen einen besseren Eindruck hinterlassen? Zur Klärung dieser Frage sind theoretische Vorüberlegungen notwendig. Damit hat sich der Theorieteil einer wissenschaftlichen Arbeit auseinanderzusetzen. Wir knüpfen hier an eine große Zahl von Forschungsarbeiten an und müssen eine explizite Annahme machen: Wir unterstellen, dass das Einkommen die Lebenszufriedenheit beeinflusst und dass der umgekehrte Kausalzusammenhang nicht besteht. Wenn eine theoriegeleitete Festlegung auf eine abhängige Variable (aV) und eine (bivariat) oder mehrere (multivariat) unabhängige Variable(n) (uV) getroffen wurde, können wir mit der Analyse beginnen. Vor der Einführung in das OLS-­ Standardregressionsverfahren werfen wir einen Blick auf 11 fiktive Datenpunkte. Diese sind der erste von insgesamt vier Teildatensätzen des sogenannten Anscombe-­ Quartetts (Anscombe 1973). Für Berechnungen mit einer Drittvariablen werden weitere fiktive Datenpunkte hinzugefügt. Der erste Analysedatensatz ist in Tab. 1 dargestellt (eine Übersicht über alle hier verwendeten fiktiven, d. h. konstruierten Datenpunkte, mit denen sich die Ergebnisse nachrechnen lassen, findet sich in Tabelle im Anhang). In der ersten Spalte findet sich eine laufende Identifikationsnummer für jede Beobachtung, in der ersten Zeile der Tabelle ist der Variablenname für jede Spalte abgetragen. In der Spalte y1 finden sich folglich 11 Werte für die abhängige Variable, in der Spalte x1 sind 11 Werte für die unabhängige Variable gelistet. Die zwei weiteren Spalten enthalten aus einem Regressionsmodell berechnete Werte, nämlich vorhergesagte Werte (yhat) und Residuen (resid), auf die später noch ausführlich eingegangen wird. Tab. 1  Anscombe-Datensatz. Quelle: Eigene Darstellung in Anlehnung an Anscombe (1973) id 1 2 3 4 5 6 7 8 9 10 11

y1 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68

x1 10 8 13 9 11 14 6 4 12 7 5

y1hat 8,00 7,00 9,50 7,50 8,50 10,00 6,00 5,00 9,00 6,50 5,50

resid 0,04 −0,05 −1,92 1,31 −0,17 −0,04 1,24 −0,74 1,84 −1,68 0,18

Lineare Regression

11

Der Zusammenhang zwischen den beiden metrischen Variablen x und y lässt sich nun z.  B. durch den Pearson’schen Regressionskoeffizienten r beschreiben. Dieser nimmt den Wert 0,82 an, somit liegt ein positiver Zusammenhang vor, wobei der Wertebereich des Korrelationskoeffizienten das Intervall [−1, 1] umfasst (−1: perfekt negativer, +1: perfekt positiver, 0: kein Zusammenhang). Einen Zusammenhang mit der Stärke 0,82 kann man als sehr stark bezeichnen. Illustrieren lassen sich die 11 Datenpunkte durch einen Scatterplot. Ein solcher ist in Abb. 1 dargestellt. Man bemerke, dass hier durch die Wahl der Achsen bereits eine Festlegung auf die abhängige und unabhängige Variable erfolgen musste. Ein Regressionsverfahren dient nun dazu, den in Abb. 1 dargestellten Zusammenhang mit einer mathematischen Funktion y = f(x) möglichst gut zu beschreiben. Im Folgenden wird in der linearen Regression davon ausgegangen, dass zwischen dem Outcome y und dem Prädiktor x ein linearer Zusammenhang besteht. Grundsätzlich sind aber auch nicht-parametrische Funktionen zur Beschreibung des Zusammenhangs denkbar. Somit lässt sich auch der Locally-Weighted-­ Scatterplott-­Smoother (LOWESS), der in Abb. 1 als glättende Kurve eingezeichnet ist, als eine nicht-parametrische Regression auffassen, denn auch er beschreibt y

Abb. 1  Scatterplot und LOWESS für 11 Datenpunkte. Quelle: Eigene Darstellung

12

G. Bauer

als eine (komplexe) Funktion von x (Cleveland 1979). Der gefundene Zusammenhang wird durch den LOWESS-Grafen zwar dargestellt, daraus ergibt sich aber keine Kennzahl (kein Koeffizient), die die Stärke und Richtung des Zusammenhangs in einem Zahlenwert beschreibt (gleiches gilt für Mittelwert- oder Medianregressionen, bei denen man konditionale Mittelwerte von y in Abhängigkeit von x betrachtet und diese zu einer Regressionskurve verbindet). Die Sozialforschung interessiert aber: Um welchen Betrag verändert sich y, wenn sich x um eine Einheit ändert? Das lineare Regressionsverfahren liefert hier die passende Antwort.

2.1

Lineare Regression

Bisher wurde argumentiert, dass eine Regressionsanalyse y als irgendeine Funktion von x beschreibt. Also:

y = f (x)

Im Folgenden wird die Funktion näher spezifiziert. Dabei wird zunächst unterstellt, dass es sich um eine lineare Funktion handelt. Es wird also angenommen, dass sich y jeweils um einen konstanten Betrag verändert, wenn sich x um eine Einheit verändert. Damit lautet die lineare Funktion:

y = α + βx + ε

Die abhängige Variable wird demnach durch drei Parameter erklärt: durch die Konstante α, den Steigungsparameter β sowie durch den Fehlerterm ε. Der Fehlerterm ist notwendig, da y (im späteren Beispiel: Lebenszufriedenheit) selten allein durch ein x (später: Einkommen) erklärt werden kann. Die Vorhersage von y basierend auf x ist also weder deterministisch noch perfekt. Die gemachten Fehler werden durch das Residuum ε gekennzeichnet. Durch Subtraktion von ε ergibt sich nun

y − ε = α + βx

y − ε bezeichnet dabei die vorhergesagten Werte, die zumeist als yˆ (y-Dach, vorhergesagte Werte der abhängigen Variablen y) bezeichnet werden. Somit lässt sich die Regressionsgleichung schreiben als

Lineare Regression

13

y − ε = yˆ = α + βx



yˆ und x stehen dabei in einer linearen Beziehung, d. h. alle Wertepaare von yˆ und x liegen auf einer Geraden (auf der sogenannten Regressionsgeraden). Die Stärke des Zusammenhangs wird durch den Steigungsparameter β symbolisiert: Wenn sich  x um eine Einheit ändert, so geht damit eine Veränderung in yˆ der Stärke β einher. Der Regressionsparameter α wird als Konstante bezeichnet und gibt den y-Achsenabschnitt an: An dieser Stelle schneidet bei x = 0 die Regressionsgerade die y-Achse des Koordinatensystems. α gibt somit den Wert von yˆ für x = 0 an. Wie wird nun gewährleistet, dass die aus den Daten geschätzte Funktion gut zu den Datenpunkten passt? Die Schätzung der Regressionsgleichung erfolgt nach dem Kleinste-Quadrate- (KQ-) beziehungsweise Ordinary-Least-Square- (OLS-) Prinzip. Das Ziel ist die Minimierung der Fehler ε. Zumal Fehler sowohl positiv als auch negativ sein können (manchmal für y über-, manchmal unterschätzt), werden diese quadriert und somit vom Vorzeichen unabhängig gemacht. Die Summe über die quadrierten Fehler pro Untersuchungseinheit n soll minimiert werden. n



n

∑e = ∑y − yˆ = Minimum i =1

2 i

i =1

Die Schätzung der Regressionsparameter kann bei geringer Fallzahl von Hand erfolgen, in der Praxis übernimmt aber ein Statistikprogramm diese Aufgabe. Für Details zur OLS-Schätzung und zu Eigenschaften der Schätzer sowie für die inferenzstatistischen Grundlagen der OLS-Analyse sei an dieser Stelle auf die statistische Literatur verwiesen (Wooldridge 2003; Jann 2005; Best und Wolf 2015).

2.2

Eine bivariate Veranschaulichung mit fiktiven Daten

Schätzt man eine lineare Regression über die elf Datenpaare für x und y aus Tab. 1, so ergibt sich daraus folgende Regressionsgleichung mit α = 3 und β = 0, 5:

yˆ = 3 + 0, 5x

Diese Schätzgleichung minimiert die quadrierten Residuen und sorgt somit für vorhergesagte Werte, die bestmöglich zu den gemessenen Daten passen. Die gemessenen Werte sind als Datenpunkte in den Scatterplot eingezeichnet, die vorher-

14

G. Bauer

gesagten Werte yˆ liegen alle auf der Regressionsgeraden. Diese hat den ­Steigungsparameter 0,5. Das bedeutet: Erhöht sich x um eine Einheit, so steigt yˆ um 0,5 Einheiten an. Dies entspricht β und ist als Steigungsdreieck in Abb. 2 eingetragen. α nimmt den Wert 3 an, hier schneidet bei x = 0 die Regressionsgerade die y-Achse. Durch die beiden Parameter α und β ist die Lage der Regressionsgeraden im Koordinatensystem fest definiert. Abb.  2 veranschaulicht für den Datenpunkt (xi| yi) die Unterschiede zwischen y und yˆ . In den Daten gemessen wurden die Werte (9|8,81), vorhergesagt wurde (9|7,50), denn 7, 5 = 3 + 0, 5∗9. Der gemessene Wert für das spezifische yi ist mit 8,81 also höher als der durch die Regressionsgerade vorhergesagte Wert von yˆ1 , der den Wert 7,50 annimmt. Die Abweichung des Datenpunkts zur Regressionsgeraden bezeichnet den Fehler, den das Modell macht. εi = y − yˆ , d. h. das Residuum ist im konkreten Fall 8, 81 − 7, 50 = 1, 31.

Abb. 2  Scatterplot und lineare Regressionsgerade für 11 Datenpunkte. Quelle: Eigene Darstellung

Lineare Regression

2.3

15

Eine bivariate Veranschaulichung mit Umfragedaten

Nun wird der einfache Fall der bivariaten Regression auf eine konkrete Forschungsfrage und damit verbunden auf einen großen sozialwissenschaftlichen Datensatz übertragen. Dafür müssen wir uns noch bewusst machen, dass es sich bei den folgenden Daten um Umfragedaten handelt, die mittels einer Zufallsstichprobe erhoben wurden. Auch mit Stichprobendaten lassen sich die Regressionsparameter α und β berechnen. Beides sind dann Stichprobenkennwerte. Inwiefern sich die berechneten Schätzer auf die Grundgesamtheit übertragen lassen, ob also aus der Stichprobe verlässlich auf Zusammenhänge in der Grundgesamtheit geschlossen werden kann, ist eine inferenzstatistische Frage. Um diese zu beantworten, reichen die Parameter α und β alleine nicht aus, man muss für sie zusätzlich Standardfehler berechnen, und zwar auf der Basis der Streuung von ε und x (siehe Jann 2005, S. 171 für eine kompakte Darstellung). Die Schätzung ist umso präziser, d. h. der Standardfehler des Koeffizienten ist umso kleiner, je geringer die Residuen streuen und je mehr Streuung die unabhängige Variable aufweist. Im Folgenden wird neben der Richtung und Stärke des Zusammenhangs also auch immer die statistische Signifikanz des Steigungsparameters zu interpretieren sein. Betrachtet wird nun der Effekt des Haushaltseinkommens auf die Lebenszufriedenheit. Lebenszufriedenheit wird mit einer Frage erfasst: „Wie zufrieden sind Sie  – alles in allem  – mit Ihrem gegenwärtigen Leben?“ Die Skala ist 11-stufig (von 0 bis 10), wobei hohe Werte auf eine hohe Lebenszufriedenheit hindeuten. Die Messung des Haushaltseinkommens nach Steuern erfolgt im ESS vergleichsweise grob. Befragte ordnen ihr Haushaltseinkommen einer von 10 Kategorien zu. Durch Berechnung der Kategorie-Mittelwerte (z.  B. 750  Euro für die Kategorie 500 bis 1000 Euro) wurde aus der kategorialen Variable eine metrische Variable gebildet. Abb. 3 zeigt deutlich, dass die abhängige Variable 11 und die unabhängige Variable 10 mögliche Ausprägungen hat. Weil sich hunderte Datenpunkte jeweils überdecken würden, wurde für die Abbildung jeweils eine geringe Zufallsstreuung hinzugerechnet. So lässt sich erkennen, wo im Diagramm viele bzw. wenige Datenpunkte vorzufinden sind. Mit insgesamt 2545 Datenpunkten lässt sich nun der Zusammenhang berechnen. Die allgemeine Regressionsgleichung für dieses bivariate Beispiel lautet:

 = α + β ∗ Haushaltseinkommen Lebenszufriedenheit

16

G. Bauer

Abb. 3 Scatterplot und lineare Regressionsgerade mit ESS-Daten. Quelle: Eigene Darstellung

Durch OLS-Schätzung erhalten wir die Regressionsparameter α (Konstante) und β (Steigungsparameter). Damit lautet unsere empirisch geschätzte Regressionsgleichung

= Lebenszufriedenheit 6,69 + 0,00025 ∗ Haushaltseinkommen

Inhaltlich bedeutet dies, dass für Personen mit einem Einkommen von 0 Euro eine Zufriedenheit von 6,69 (Konstante, y-Achsenabschnitt) zu erwarten ist. Die Zufriedenheit mit dem Leben steigt dann mit jedem Euro Haushaltseinkommen um 0,00025 Einheiten an. Menschen, die sich in ihrem Haushaltseinkommen um 4000 Euro unterscheiden, weisen dem Modell nach einen Lebenszufriedenheitsunterschied von einem Skalenpunkt auf. Üblich ist es in der sozialwissenschaftlichen Literatur, die Regressionsgleichung nicht, wie hier gerade geschehen, mit konkreten Zahlenwerten aufzuschreiben, sondern die Regressionsparameter in einer Regressionstabelle abzutragen, und zwar einschließlich der zugehörigen Inferenzstatistik sowie der Kennwerte, die der Beurteilung der Modellgüte dienen.

Lineare Regression

17

Tab. 2 ist die Regressionstabelle für das gerade berechnete Modell. Für beide Schätzer, d.  h. für die Konstante und für den Regressionskoeffizienten, sind die Werte abgetragen. Zusätzlich sind darunter noch die jeweiligen p-Werte in Klammern aufgelistet. Dass die Konstante signifikant unterschiedlich von Null ist und man darauf mit einer Irrtumswahrscheinlichkeit von p