Klausur
Grundbegriffe
Hierarchie
- Ausprägungen, Werte
- Was wir messen und beobachten
- belegen …
- Merkmale, Variablen
- Was wri beschreiben
- beschreiben …
- Objekte, Ereignisse (Merkmalsträger)
- Was wir beobachten
- beschreiben …
- Phänomene, Vorgänge, Prozesse
Definitionen
- Statistische Einheit/Merkmalsträger
- Objekte oder Ereignisse an denen Daten beobachtet werden
- Grundgesamtheit/Population
- Menge aller statistischen Einheiten über die man Aussagen gewinnen will
- Merkmale/Variablen
- interessierende Größen der statistischen Einheiten
- Werte werden Ausprägungen genannt
Merkmalstypen
- qualitativ
- Namen oder Klassenbezeichnungen
- Beruf, Familienstand, Farbe …
- quantitativ
- Merkmale haben Zahlwert
- beruhen auf Messung mit einer Dimension und Einheit
Quantitative Merkmalstypen
- diskret
- abzählbar wie viele Ausprägungen
- endlich oder unendlich
- Würfelaugen
- stetig
- jeder Zahlenwert (in einem Intervall) möglich
- Temperatur
- quasi-stetig
- stetige Werte sind möglich kommen aber praktisch nicht vor
- Mietpreise
- gruppiert (klassiert, diskretisiert)
- Zuordnung von Werten zu diskreten Gruppen
- Gruppiert ist immer diskret! Unabhängig von qualitativ oder quantitativ
Skalen
- Nominalskala
- qualitative Ausprägungen die nicht geordnet werden können
- Abstände zwischen zwei Werten nicht messbar
- Ausprägungen entweder gleich oder verschieden
- Beruf, Familienstand, Farbe
- Ordinalskala
- qualitative Ausprägung, können geordnet werden
- Rangfolge und Gleichheit
- Abstände können nicht gemessen werden, nur im Sinne des Ranges
- Kundenzufriedenheit: unzufrieden, neutral, zufrieden, sehr zufrieden
- Kardinalskala
- quantitative Merkmale
- Abstand kann sinnvoll gemessen werden
- metrische Merkmale genannt

Beschreibung und Exploration eindimensionaler Daten

- Umfang n = 36
- Erhobene Daten werde Urliste, ROhdaten, Primärdaten genannt
- Merkmale
- 1 Statistik
- 2 Computergrafik
- 3 Computerspiel
- 4 Datenbank
Absolute und relative Häufigkeit

Gruppieren von Werten

- Warum Gruppieren
- Analyse einfacher
- natürliche Gruppierung, zb. Zensuren
- Aggregation zum Datenschutz
- Manchmal bereits gruppiert um Antwortverweigerung oder verzerrungen zu minimieren
Grafische Darstellung
- Balkendiagramm
- qualitative Merkmale
- Vertikale:
- Ausprägung auf X-Achse
- Häufigkeiten auf Y-Achse
- Histogram
- quantitative Merkmale
- Ausprägung auf X-Achse
- Häufigkeiten auf Y-Achse
- Gruppiere quantitative Merkmale und zeichne Häufigkeiten über Klassenintervalle
- Fläche der Rechtsecke proportional zur Häufigkeit, nicht die Höhe!
- Durch Klassenbreite modifizierte Höhe nennt man Häufigkeitsdichte
- Wenn alle Klassen gleich breit ist Höhe proportional zur Häufigkeit
Kumulierte Häufigkeitsverteilung
- Welcher Anteil der Daten ist kleiner oder gleich interessierenden Wert x?
- Absolute kumulierte Häufigkeitsverteilung H(x)

- Relative kumulierte Häufigkeitsverteilung oder Empirische Verteilungsfunktion F(x)

Lagemaße
- Arithmetisches Mittel
- für metrische Merkmale, Intervall und Verhältnisskala
- wird aus Rohdaten berechnet

- kann als Schwerpunkt interpretiert werden
- Empfindlich gegenüber Ausreißern
- minimiert Summe der quadratischen Abweichungen
- Median
- für ungerades n ist Median mittlere Beobachtung der geordneten Rohdaten
- für gerade n ist Median arithmetisches Mittel der beiden Mitte liegenden Werte

- robust gegenüber Ausreißern
- besser bei schiefen Verteilungen
- minimiert Summe der absoluten Abweichungen
- Modus
- Modus oder Modalwert x_mod
- Ausprägung mit größter Häufigkeit
- ist eindeutig falls Häufigkeitsverteilung eindeutiges Maximum besitzt
- wichtigste Lagemaß für qualitative Merkmale und schon bei Nominalskala sinnvoll
- Geometrisches Mittel
- wenn Wachstumsfaktoren über mehrere Zeitperioden beobachtet werden
- Wachstumsfaktoren werden multipliziert um Gesamtwachstum zu berechnen

- Harmonisches Mittel
- Werte haben Gewicht

Streuungsmaße
- Minium
- Maximum
- Spannweite
- Quantile
- Zahl mit q_p mit 0 < p < 1 heißt p-Quantil
- häufig verwendete Quantile
- q_0,25 unteres/erstes Quartil
- q_0,5 zweites Quartil oder Median
- q_0,75 drittes Quartil
- Fünf-Punkte-Zusammenfassung
- Quartile, Minimum, Maximum und Median teilen Datensatz in vier Teile
- gibt Informationen über Verteilung der Beobachtungen
- Interquartilsabstand IQR
- Abstand zwischen ersten und drittem Quartil
- IQR = q_0,75 - q_0,25
- misst Streuung der mittleren 50% der Daten
-Boxplots


- Mittlere absolute Abweichung
- mittlere absolute Abweichung
- Häufigkeitsdaten mit relativen Häufigkeiten
- Empirische Varianz und Standardabweichung
- empirische Varianz
var()
- Streuung der Werte
- Standardabweichung ist Wurzel aus Varianz
sd()- beschreibt durchschnittliche Abweichung alle Werte vom Mittelwert
- Häufigkeitsdaten
Konzentrationsmaße
- Lorenzkurve
ineq Lc()- relative kumulierte Ausprägung über relativen kumulierten Häufigkeiten auftragen
- keine Konzentration: gleichmäßiger Anstieg
- Grad der Konzentration messen
- Fläche zwischen Diagonale und Lorenzkurve
- je größer die Fläche, desto größer die Konzentration
- Gini-Koeffizient
ineq Gini() - normierter Gini-Koeffizient
Kombination zweier Merkmale
absolute_table <- table(array...)
rel_table <- prop.table(absolute_table) * 100
- Kontingenztafeln
- Ausgangspunkt sind zwei Merkmale X und Y
- zweidimensionale Häufigkeitstabellen, die Häufigkeit der Kombination von Ausprägungen zweier Merkmale darstellen
- absolute Häufigkeit
- relative Häufigkeit
- gemeinsame absolute Häufigkeit
- gemeinsame relative Häufigkeit
- bedingte relative Häufigkeit
- Häufigkeitsbaum
- Mosaikplot
- Unabhängigkeit nominaler Merkmale, relative Häufigkeit
- Erwartete absolut Häufigkeit im Fall von Unabhängigkeit berechnen
- Maße für Unabhängigkeit
- Pearsons χ2 -Statistik
- Phi-Koeffizient

- nur wenn Merkmal binär ist, also zwei Ausprägungen
- Interpretation
- 0 keinen Zusammenhang
- 1 oder -1 perfekter Zusammenhang
- Kontingenzmaß V nach Cramer

- Interpretation
- 0 kein Zusammenhang
- 1 perfekter Zusammenhang
- Werte sind vergleichbar
- Kontingenzmaß C nach Pearson

- Interpretation
- 0 kein Zusammenhang
- 1 perfekter Zusammenhang
Exakte Zusammenhänge
- bei quadratischen Kontingenztabellen
- gilt die Bestimmtheit in beide Richtungen, d.h. jeder Wert eines Merkmals tritt mit genau einem Wert des anderen Merkmals auf und umgekehrt

- bei nicht quadratischen Kontingenztabellen
- tritt Wert eines Merkmals mit nur einem Wert des anderen Merkmals auf

Korrelation metrischer Merkmale
- Erhöht / verringert sich Wert eines Merkmals immer wenn man den Wert des anderen erhöht / verringert
- ist Stärke der Erhöhung / Verringerung der Merkmale proportional
- misst stärke des linearen Zusammenhangs
- Bravais-Pearson-Korrelationskoeffizient r
- Wertebereich des Korrelationskoeffizienten r
Regression
- eine Funktion die die Daten möglichst genau beschreibt
- in der Praxis: Regression bestimmt eine Funktion f die Fehler minimiert
- Lineare Regression
Rang-Korrelation
- Kontingenzmaße messen Abhängigkeit nominaler Merkmale
- Bravais-Person-Korrelation misst Stärke des linearen Zusammenhangs zwischen metrischen Merkmalen
- Idee
- Sortiere Werte und ersetzte sie durch den Rang
- Maße für Rang-Korrelation
- Spearmans Rho
cor(..., method = "spearman") - Kendalls Tau `cor(…, method = “kendall”)
- Wertebereich bei beiden -1 bis 1
- Werte der Maße können nicht direkt miteinander verglichen werden
- nicht geeignet für monoton steigende/fallende Beziehungen
Zeitreihen
- Folge von Zahlen die in gleichbleibenden Abständen den Status einer Aktivität über Zeit als Messwert wiedergeben
- Aktivität und Messmethode dürfen sich nicht verändern
- Komponenten
- Trend: längerfristige Änderungen
- Saisonalität, periodische Schwankungen
- Rauschen, Fehler, Zufallskomponente

- Trend bestimmen - Glätten
- Gleitender Durchschnitt
- arithmetisches Mittel von n Punkten, bspw. für n = 5
- rückblickend

- zentriert

filter() oder SMA()- rückblickender Ansatz hinkt hinterher bei plötzlichen Änderungen
- Zentrierter Ansatz verhinder das
- je größer n, desto stärker die glättung
- empfindlich gegenüber Ausreißern
- Modelle zur Dekomposition
- Additiv
- saisonalität und rauschen sind unabhängig vom Level der Zeitreihe
- zeitreihe = trend + saisonalität + rauschen
- Anzahl der Fehlermeldungen schwankt +- 100 absolute Schwankungen
- Multiplikativ
- je höher der Level der Zeitreihe, desto größer Saisonalität und Rauschen
- zeitreihe = trend * saisonalität * rauschen
- Anzahl der Fehlermeldungen schwankt immer um +- 10% relative Schwankungen
Preisindex
- beschreibt um wie viel Prozent sich Preise mehrerer Güter / Dienstleistungen in Zeitraum gegenüber Basiszeit durchschnittlich verändert haben
- P ist Preisindex, t Berichtszeit
- Preisindex nach Laspeyres



- Allgemein
- m verschiedene Waren
- zwei verschiedene Zeiträume, Basiszeitraum der erste
- p^j_i ist Preis der Ware j im Zeitraum i
- q^j_i ist Quantität der Ware j im Zeitraum i
- Berechne Preisindex nach Laspeyres für Zeitraum t > 1
