Klausur

Grundbegriffe

Hierarchie

  • Ausprägungen, Werte
    • Was wir messen und beobachten
    • belegen …
  • Merkmale, Variablen
    • Was wri beschreiben
    • beschreiben …
  • Objekte, Ereignisse (Merkmalsträger)
    • Was wir beobachten
    • beschreiben …
  • Phänomene, Vorgänge, Prozesse
    • Was wir untersuchen

Definitionen

  • Statistische Einheit/Merkmalsträger
    • Objekte oder Ereignisse an denen Daten beobachtet werden
  • Grundgesamtheit/Population
    • Menge aller statistischen Einheiten über die man Aussagen gewinnen will
  • Merkmale/Variablen
    • interessierende Größen der statistischen Einheiten
    • Werte werden Ausprägungen genannt

Merkmalstypen

  • qualitativ
    • Namen oder Klassenbezeichnungen
    • Beruf, Familienstand, Farbe …
  • quantitativ
    • Merkmale haben Zahlwert
    • beruhen auf Messung mit einer Dimension und Einheit
Quantitative Merkmalstypen
  • diskret
    • abzählbar wie viele Ausprägungen
    • endlich oder unendlich
    • Würfelaugen
  • stetig
    • jeder Zahlenwert (in einem Intervall) möglich
    • Temperatur
  • quasi-stetig
    • stetige Werte sind möglich kommen aber praktisch nicht vor
    • Mietpreise
  • gruppiert (klassiert, diskretisiert)
    • Zuordnung von Werten zu diskreten Gruppen
    • Gruppiert ist immer diskret! Unabhängig von qualitativ oder quantitativ

Skalen

  • Nominalskala
    • qualitative Ausprägungen die nicht geordnet werden können
    • Abstände zwischen zwei Werten nicht messbar
    • Ausprägungen entweder gleich oder verschieden
    • Beruf, Familienstand, Farbe
  • Ordinalskala
    • qualitative Ausprägung, können geordnet werden
    • Rangfolge und Gleichheit
    • Abstände können nicht gemessen werden, nur im Sinne des Ranges
    • Kundenzufriedenheit: unzufrieden, neutral, zufrieden, sehr zufrieden
  • Kardinalskala
    • quantitative Merkmale
    • Abstand kann sinnvoll gemessen werden
    • metrische Merkmale genannt

Informationsgehalt

Bild

Beschreibung und Exploration eindimensionaler Daten

Bild

  • Umfang n = 36
  • Erhobene Daten werde Urliste, ROhdaten, Primärdaten genannt
  • Merkmale
    • 1 Statistik
    • 2 Computergrafik
    • 3 Computerspiel
    • 4 Datenbank

Absolute und relative Häufigkeit

Bild

Gruppieren von Werten

Bild

  • Warum Gruppieren
    • Analyse einfacher
    • natürliche Gruppierung, zb. Zensuren
    • Aggregation zum Datenschutz
    • Manchmal bereits gruppiert um Antwortverweigerung oder verzerrungen zu minimieren

Grafische Darstellung

  • Balkendiagramm
    • qualitative Merkmale
    • Vertikale:
      • Ausprägung auf X-Achse
      • Häufigkeiten auf Y-Achse
  • Histogram
    • quantitative Merkmale
    • Ausprägung auf X-Achse
    • Häufigkeiten auf Y-Achse
    • Gruppiere quantitative Merkmale und zeichne Häufigkeiten über Klassenintervalle
    • Fläche der Rechtsecke proportional zur Häufigkeit, nicht die Höhe!
    • Durch Klassenbreite modifizierte Höhe nennt man Häufigkeitsdichte
    • Wenn alle Klassen gleich breit ist Höhe proportional zur Häufigkeit

Kumulierte Häufigkeitsverteilung

  • Welcher Anteil der Daten ist kleiner oder gleich interessierenden Wert x?
  • Absolute kumulierte Häufigkeitsverteilung H(x)
  • Bild
  • Relative kumulierte Häufigkeitsverteilung oder Empirische Verteilungsfunktion F(x)
  • Bild

Lagemaße

  • Arithmetisches Mittel
    • für metrische Merkmale, Intervall und Verhältnisskala
    • wird aus Rohdaten berechnet
    • Bild
    • kann als Schwerpunkt interpretiert werden
    • Empfindlich gegenüber Ausreißern
    • minimiert Summe der quadratischen Abweichungen
  • Median
    • für ungerades n ist Median mittlere Beobachtung der geordneten Rohdaten
    • für gerade n ist Median arithmetisches Mittel der beiden Mitte liegenden Werte
    • Bild
    • robust gegenüber Ausreißern
    • besser bei schiefen Verteilungen
    • minimiert Summe der absoluten Abweichungen
  • Modus
    • Modus oder Modalwert x_mod
    • Ausprägung mit größter Häufigkeit
    • ist eindeutig falls Häufigkeitsverteilung eindeutiges Maximum besitzt
    • wichtigste Lagemaß für qualitative Merkmale und schon bei Nominalskala sinnvoll
  • Geometrisches Mittel
    • wenn Wachstumsfaktoren über mehrere Zeitperioden beobachtet werden
    • Wachstumsfaktoren werden multipliziert um Gesamtwachstum zu berechnen
    • Bild
  • Harmonisches Mittel
    • Werte haben Gewicht
    • Bild

Streuungsmaße

  • Minium
    • kleinster Wert
  • Maximum
    • größter Wert
  • Spannweite
    • Maximum - Minimum
  • Quantile
    • Zahl mit q_p mit 0 < p < 1 heißt p-Quantil
    • häufig verwendete Quantile
      • q_0,25 unteres/erstes Quartil
      • q_0,5 zweites Quartil oder Median
      • q_0,75 drittes Quartil
  • Fünf-Punkte-Zusammenfassung
    • Quartile, Minimum, Maximum und Median teilen Datensatz in vier Teile
    • gibt Informationen über Verteilung der Beobachtungen
  • Interquartilsabstand IQR
    • Abstand zwischen ersten und drittem Quartil
    • IQR = q_0,75 - q_0,25
    • misst Streuung der mittleren 50% der Daten -Boxplots
    • Bild
    • Bild
  • Mittlere absolute Abweichung
    • mittlere absolute Abweichung
      • Bild
    • Häufigkeitsdaten mit relativen Häufigkeiten
      • Bild
  • Empirische Varianz und Standardabweichung
    • empirische Varianz var()
      • Bild
      • Streuung der Werte
    • Standardabweichung ist Wurzel aus Varianz sd()
      • beschreibt durchschnittliche Abweichung alle Werte vom Mittelwert
    • Häufigkeitsdaten
      • Bild

Konzentrationsmaße

  • Lorenzkurve ineq Lc()
    • relative kumulierte Ausprägung über relativen kumulierten Häufigkeiten auftragen
    • keine Konzentration: gleichmäßiger Anstieg
    • Grad der Konzentration messen
      • Fläche zwischen Diagonale und Lorenzkurve
      • je größer die Fläche, desto größer die Konzentration
  • Gini-Koeffizient ineq Gini()
    • Bild
  • normierter Gini-Koeffizient
    • Bild

Kombination zweier Merkmale

absolute_table <- table(array...)
rel_table <- prop.table(absolute_table) * 100
  • Kontingenztafeln
    • Ausgangspunkt sind zwei Merkmale X und Y
    • zweidimensionale Häufigkeitstabellen, die Häufigkeit der Kombination von Ausprägungen zweier Merkmale darstellen
    • absolute Häufigkeit
      • Bild
    • relative Häufigkeit
      • Bild
    • gemeinsame absolute Häufigkeit
      • Bild
    • gemeinsame relative Häufigkeit
      • Bild
    • bedingte relative Häufigkeit
      • Bild
      • Bild
  • Häufigkeitsbaum
    • Bild
  • Mosaikplot
    • Bild
  • Unabhängigkeit nominaler Merkmale, relative Häufigkeit
    • Bild
  • Erwartete absolut Häufigkeit im Fall von Unabhängigkeit berechnen
    • Bild
  • Maße für Unabhängigkeit
    • Pearsons χ2 -Statistik
      • Bild
    • Phi-Koeffizient
      • Bild
      • nur wenn Merkmal binär ist, also zwei Ausprägungen
      • Interpretation
        • 0 keinen Zusammenhang
        • 1 oder -1 perfekter Zusammenhang
    • Kontingenzmaß V nach Cramer
      • Bild
      • Interpretation
        • 0 kein Zusammenhang
        • 1 perfekter Zusammenhang
      • Werte sind vergleichbar
    • Kontingenzmaß C nach Pearson
      • Bild
      • Interpretation
        • 0 kein Zusammenhang
        • 1 perfekter Zusammenhang

Exakte Zusammenhänge

  • bei quadratischen Kontingenztabellen
    • gilt die Bestimmtheit in beide Richtungen, d.h. jeder Wert eines Merkmals tritt mit genau einem Wert des anderen Merkmals auf und umgekehrt Bild
  • bei nicht quadratischen Kontingenztabellen
    • tritt Wert eines Merkmals mit nur einem Wert des anderen Merkmals auf Bild

Korrelation metrischer Merkmale

  • Erhöht / verringert sich Wert eines Merkmals immer wenn man den Wert des anderen erhöht / verringert
  • ist Stärke der Erhöhung / Verringerung der Merkmale proportional
  • misst stärke des linearen Zusammenhangs
  • Bravais-Pearson-Korrelationskoeffizient r
    • Bild
  • Wertebereich des Korrelationskoeffizienten r
    • Bild

Regression

  • eine Funktion die die Daten möglichst genau beschreibt
  • in der Praxis: Regression bestimmt eine Funktion f die Fehler minimiert
  • Lineare Regression
    • Bild

Rang-Korrelation

  • Kontingenzmaße messen Abhängigkeit nominaler Merkmale
  • Bravais-Person-Korrelation misst Stärke des linearen Zusammenhangs zwischen metrischen Merkmalen
  • Idee
    • Sortiere Werte und ersetzte sie durch den Rang
  • Maße für Rang-Korrelation
    • Spearmans Rho cor(..., method = "spearman")
    • Kendalls Tau `cor(…, method = “kendall”)
    • Wertebereich bei beiden -1 bis 1
    • Werte der Maße können nicht direkt miteinander verglichen werden
    • nicht geeignet für monoton steigende/fallende Beziehungen

Zeitreihen

  • Folge von Zahlen die in gleichbleibenden Abständen den Status einer Aktivität über Zeit als Messwert wiedergeben
  • Aktivität und Messmethode dürfen sich nicht verändern
  • Komponenten
    • Trend: längerfristige Änderungen
    • Saisonalität, periodische Schwankungen
    • Rauschen, Fehler, Zufallskomponente
    • Bild
  • Trend bestimmen - Glätten
    • Gleitender Durchschnitt
      • arithmetisches Mittel von n Punkten, bspw. für n = 5
      • rückblickend Bild
      • zentriert Bild
      • filter() oder SMA()
      • rückblickender Ansatz hinkt hinterher bei plötzlichen Änderungen
      • Zentrierter Ansatz verhinder das
      • je größer n, desto stärker die glättung
      • empfindlich gegenüber Ausreißern
  • Modelle zur Dekomposition
    • Additiv
      • saisonalität und rauschen sind unabhängig vom Level der Zeitreihe
      • zeitreihe = trend + saisonalität + rauschen
      • Anzahl der Fehlermeldungen schwankt +- 100 absolute Schwankungen
    • Multiplikativ
      • je höher der Level der Zeitreihe, desto größer Saisonalität und Rauschen
      • zeitreihe = trend * saisonalität * rauschen
      • Anzahl der Fehlermeldungen schwankt immer um +- 10% relative Schwankungen

Preisindex

  • beschreibt um wie viel Prozent sich Preise mehrerer Güter / Dienstleistungen in Zeitraum gegenüber Basiszeit durchschnittlich verändert haben
  • P ist Preisindex, t Berichtszeit
  • Preisindex nach Laspeyres
    • Bild
    • Bild
    • Bild
    • Allgemein
      • m verschiedene Waren
      • zwei verschiedene Zeiträume, Basiszeitraum der erste
      • p^j_i ist Preis der Ware j im Zeitraum i
      • q^j_i ist Quantität der Ware j im Zeitraum i
      • Berechne Preisindex nach Laspeyres für Zeitraum t > 1
      • Bild
Last modified 2023.07.24