Kombination von Merkmale, bedingte Häufigkeit, Unabhängigkeit, Mosaikplots

Kombination zweier Merkmale

Beispiel - Alkoholtest

  • 100 Autofahrer
  • 10 nachweislich betrunken
    • 30% ist Test negativ
    • 70% ist Test positiv
  • 90 nachweislich nicht betrunken
    • 20% ist Test positiv
    • 80% ist Test negativ

Gemeinsame absolute Häufigkeit

betrunkennüchternSumme
Test positiv71825
Test negativ37275
Summe1090100

Kontingenztafeln

  • Ausgangspunkt 2 Merkmale, X und Y
  • mit k bzw m verschiedenen Ausprägungen

a1, a2, … ak für X

b1, b2, b… bm für Y

  • Kontingenztafeln / Kontingenztabellen
    • zweidimensionale Häufigkeitstabellen
    • stellen Häufigkeit der Kombinationen von Ausprägungen zweier Merkmale dar

Kontingenztafel absoluter Häufigkeiten

Bild

Kontingenztafel relativer Häufigkeiten

Bild

Kombination zweier Merkmale

  • absolute Häufigkeit von 7, dass die Person betrunken UND der Test positiv ist

    • h(betrunken, Test positiv) = 7
  • relative Häufigkeit von 0,07, dass Person Betrunken UND der Test positiv ist

    • f(betrunken, Test positiv) = 0,07

Bedingte relative Häufigkeit

Bild

  • relative Häufigkeit von “betrunken unter der Bedingung, dass der Test positiv ist” = 0,28
    • f(betrunken | Test positiv) = 0,28

Bild

  • relative Häufigkeit von “negativer Test unter der Bedingung, dass Person betrunken ist” = 0,3
    • f(Test negativ | betrunken) = 0,3

Definition

Bild

Bedinge relative Häufigkeitsverteilung

  • wenn man Wert eines Merkmals festhält, erhält man eindimensionale Häufigkeitsverteilung des anderen Merkmals

Bild

Häufigkeitsbaum

Bild

Mosaikplot

Bild

  • Flächengrößen der Segmente sind proportional zu gemeinsamen relativen Häufigkeiten

Unabhängigkeit nominaler Merkmale

Beispiel - Alkoholschnelltest, hier nutzloses Gerät

Wenn schnelltest nicht funktioniert, dann ist Change eines positiven oder negativen Test unabhängig davon, ob Alkohol getrunken wurde oder nicht

Im obigen Beispiel ist Chance betrunken zu sein immer 10%, egal was der Test sagt 7 / 70 = 3 / 30 = 10 / 100 = 10%

absolute Häufigkeiten

Bild

Beispiel

Bild

relative Häufigkeiten

Bild

Beispiel

Bild

Erwartete Häufigkeiten im Falle von Unabhängigkeit berechnen

Bild

Maße für Unabhängigkeit

Pearsons χ2 -Statistik*

Bild

  • Probleme
    • Maximalwert hängt von Anzahl der Merkmalsträger n ab
    • Maximalwert hängt von Anzahl der Zeilen k und Anzahl der Spalten m ab
    • damit ist Wert von χ2 verschiedener Datensätze nicht vergleichbar

Phi-Koeffizient

Bild

Kontingenzmaß V nach Cramer

Bild

Kontingenzmaß C nach Pearson

Bild

Exakte Zusammenhänge

  • Gegenteil von Unabhängigkeit

    • ist Bestimmtheit
    • oder exakter Zusammenhang
  • Wert eines Merkmals trifft mit genau einem Wert des anderen Merkmals auf

  • Cramers V und korrigierte Kontingenzmaß nach Pearson nehmen Wert 1 bei exakten Zusammenhängen

Bestimmtheit und Assoziation

Wichtig: Bestimmtheit ist nicht gleichbedeutend mit einem kausalem Zusammenhang

  • spricht statt kausaler Abhängigkeit auch von Assoziation
Last modified 2023.05.25