Eindimensionale Häufigkeit

Eindimensionale Häufigkeit

Beispiel: Thema der Diplomarbeit

  • k = 4 verschiedene Themen
    • Statistik
    • Computergrafik
    • Computerspiel
    • Datenbank
  • n = 36 Diplomarbeiten

Bild

Beschreibung und Exploration eindimensionaler Daten

  • Betrachtung eines Merkmals X
  • Erhebung von Umfang n
    • im Beispiel n = 36
  • Beobachtung der Werte x1, x2, xn für X
    • im Beispiel x1 = 3 (Computerspiele)
  • Werte werden als Rohdaten, Primärdaten oder Urliste bezeichnet

Häufigkeiten

  • Welche Werte kommen wie häufig vor?

\[ x1, x2, … xn \ nehmen k \ verschiedene \ Werte \newline a1, a2, … ak \ mit \ k \le n \ an. \]

Bild

Strichliste

Bild

Anzahl der Ausprägungen

  • Die Anzahl k verschiedener Werte aj ist bei … die Anzahl n der Merkmalsträger

    • qualitativen und diskreten Merkmalen of deutlich kleiner als
    • stetigen und quasi-stetigen Merkmalen oft (fast) gleich groß wie
  • im Beispiel

    • nur 4 Diplomarbeitsthemen bei 36 Studierenden
    • nur wenige Automodelle bei Millionen von Kunden
    • aber jeden Tag eine andere Temperatur, wenn genau gemessen wird

Absolute und relative Häufigkeit

Bild

  • Häufigkeitstabelle listet die Ausprägungen aj mit absoluten Häufigkeiten hj und / oder relativen Häufigkeiten fj auf

im Beispiel

Bild

Grafische Darstellungen

  • Balkendiagramme für qualitative Merkmale
  • Histogram für quantitative Merkmale

Vertikale Balkendiagramme

Balkendiagramme

Gruppieren von Werten

Wenn die Anzahl der Ausprägungen groß ist, dann wird eine Analyse komplizierter. Man kann dann Werte gruppieren (klassieren) und mit einer kleineren Häufigkeitstabelle arbeiten.

Warum Daten Gruppieren?

  • Analyse wird einfacher
  • wenn natürliche Gruppierung bereits existiert
  • Aggregation zum Datenschutz
  • Manchmal ist Datenerhebung bereits gruppiert, um Antwortverweigerungen oder Verzerrungen zu minimieren

Histogramme

Bild

Bild

  • Histogramme werden so konstruiert das
    • Fläche der Rechtecke proportional zur Häufigkeit ist
    • NICHT die Höhe der Rechtecke
    • da Auge primär die Flächen wahrnimmt
  • durch Klassenbreite modifizierte Höhe wie
    • Häufigkeitsdichte
  • WENN alle Klassen gleich breit
    • dann Höhe proportional zur Häufigkeit

Faustregeln Histogramm

  • Klassen sollten gleich breit sein
  • Klassengrenzen sinnvoll gerundet auf 10, 100 etc
  • Anwendung diktiert oft Klassenbreite
    • wir fein soll aufgelöst werden
  • alternative Anordnung um einen spezifischen Punkt
    • wie Mittelwert
  • bei Erhebung vom Umfang n wähle als Anzahl k der Klassen \[ k = \sqrt{n}, k = 2*\sqrt{n} \ oder \ k = 10 \log_{10} * n \]

Form des Histogramms

Modalität

Bild

Symmetrie um den Gipfel

Bild

Interpretation

  • bi und multimodale Histogramme
    • unter Umständen Konsequenz aus Mischung verschiedener Gruppen
  • schief Verteilung
    • Spanne verschiedener Werte nicht symmetrisch um Gipfel verteilt
  • Frage:
    • sind mehr Werte im steileren oder im flacheren Teil
  • Allgemeinere Frage
    • Wo ist welcher Anteil der Werte

Kumulierte Häufigkeitsverteilung

Bild

Empirische Verteilungsfunktion

Bild

Glattere Kurven durch Polygonzüge

Bild

Bei empirischen Verteilungsfunktionen werden Punkte direkt verbunden

Bild

Last modified 2023.04.26