Kombination zweier Merkmale
Beispiel - Alkoholtest
- 100 Autofahrer
- 10 nachweislich betrunken
- 30% ist Test negativ
- 70% ist Test positiv
- 90 nachweislich nicht betrunken
- 20% ist Test positiv
- 80% ist Test negativ
Gemeinsame absolute Häufigkeit
| betrunken | nüchtern | Summe | |
|---|---|---|---|
| Test positiv | 7 | 18 | 25 |
| Test negativ | 3 | 72 | 75 |
| Summe | 10 | 90 | 100 |
Kontingenztafeln
- Ausgangspunkt 2 Merkmale, X und Y
- mit k bzw m verschiedenen Ausprägungen
a1, a2, … ak für X
b1, b2, b… bm für Y
- Kontingenztafeln / Kontingenztabellen
- zweidimensionale Häufigkeitstabellen
- stellen Häufigkeit der Kombinationen von Ausprägungen zweier Merkmale dar
Kontingenztafel absoluter Häufigkeiten
Kontingenztafel relativer Häufigkeiten
Kombination zweier Merkmale
absolute Häufigkeit von 7, dass die Person betrunken UND der Test positiv ist
h(betrunken, Test positiv) = 7
relative Häufigkeit von 0,07, dass Person Betrunken UND der Test positiv ist
f(betrunken, Test positiv) = 0,07
Bedingte relative Häufigkeit
- relative Häufigkeit von “betrunken unter der Bedingung, dass der Test positiv ist” = 0,28
f(betrunken | Test positiv) = 0,28
- relative Häufigkeit von “negativer Test unter der Bedingung, dass Person betrunken ist” = 0,3
f(Test negativ | betrunken) = 0,3
Definition
Bedinge relative Häufigkeitsverteilung
- wenn man Wert eines Merkmals festhält, erhält man eindimensionale Häufigkeitsverteilung des anderen Merkmals
Häufigkeitsbaum
Mosaikplot
- Flächengrößen der Segmente sind proportional zu gemeinsamen relativen Häufigkeiten
Unabhängigkeit nominaler Merkmale
Beispiel - Alkoholschnelltest, hier nutzloses Gerät
Wenn schnelltest nicht funktioniert, dann ist Change eines positiven oder negativen Test unabhängig davon, ob Alkohol getrunken wurde oder nicht
Im obigen Beispiel ist Chance betrunken zu sein immer 10%, egal was der Test sagt
7 / 70 = 3 / 30 = 10 / 100 = 10%
absolute Häufigkeiten
Beispiel
relative Häufigkeiten
Beispiel
Erwartete Häufigkeiten im Falle von Unabhängigkeit berechnen
Maße für Unabhängigkeit
Pearsons χ2 -Statistik*
- Probleme
- Maximalwert hängt von Anzahl der Merkmalsträger n ab
- Maximalwert hängt von Anzahl der Zeilen k und Anzahl der Spalten m ab
- damit ist Wert von χ2 verschiedener Datensätze nicht vergleichbar
Phi-Koeffizient
Kontingenzmaß V nach Cramer
Kontingenzmaß C nach Pearson
Exakte Zusammenhänge
Gegenteil von Unabhängigkeit
- ist Bestimmtheit
- oder exakter Zusammenhang
Wert eines Merkmals trifft mit genau einem Wert des anderen Merkmals auf
Cramers V und korrigierte Kontingenzmaß nach Pearson nehmen Wert 1 bei exakten Zusammenhängen
Bestimmtheit und Assoziation
Wichtig: Bestimmtheit ist nicht gleichbedeutend mit einem kausalem Zusammenhang
- spricht statt kausaler Abhängigkeit auch von Assoziation