Eindimensionale Häufigkeit
Beispiel: Thema der Diplomarbeit
- k = 4 verschiedene Themen
- Statistik
- Computergrafik
- Computerspiel
- Datenbank
- n = 36 Diplomarbeiten
Beschreibung und Exploration eindimensionaler Daten
- Betrachtung eines Merkmals X
- Erhebung von Umfang n
- im Beispiel n = 36
- Beobachtung der Werte x1, x2, xn für X
- im Beispiel x1 = 3 (Computerspiele)
- Werte werden als Rohdaten, Primärdaten oder Urliste bezeichnet
Häufigkeiten
- Welche Werte kommen wie häufig vor?
\[ x1, x2, … xn \ nehmen k \ verschiedene \ Werte \newline a1, a2, … ak \ mit \ k \le n \ an. \]
Strichliste
Anzahl der Ausprägungen
Die Anzahl k verschiedener Werte aj ist bei … die Anzahl n der Merkmalsträger
- qualitativen und diskreten Merkmalen of deutlich kleiner als
- stetigen und quasi-stetigen Merkmalen oft (fast) gleich groß wie
im Beispiel
- nur 4 Diplomarbeitsthemen bei 36 Studierenden
- nur wenige Automodelle bei Millionen von Kunden
- aber jeden Tag eine andere Temperatur, wenn genau gemessen wird
Absolute und relative Häufigkeit
- Häufigkeitstabelle listet die Ausprägungen aj mit absoluten Häufigkeiten hj und / oder relativen Häufigkeiten fj auf
im Beispiel
Grafische Darstellungen
- Balkendiagramme für qualitative Merkmale
- Histogram für quantitative Merkmale
Vertikale Balkendiagramme
Gruppieren von Werten
Wenn die Anzahl der Ausprägungen groß ist, dann wird eine Analyse komplizierter. Man kann dann Werte gruppieren (klassieren) und mit einer kleineren Häufigkeitstabelle arbeiten.
Warum Daten Gruppieren?
- Analyse wird einfacher
- wenn natürliche Gruppierung bereits existiert
- Aggregation zum Datenschutz
- Manchmal ist Datenerhebung bereits gruppiert, um Antwortverweigerungen oder Verzerrungen zu minimieren
Histogramme
- Histogramme werden so konstruiert das
- Fläche der Rechtecke proportional zur Häufigkeit ist
- NICHT die Höhe der Rechtecke
- da Auge primär die Flächen wahrnimmt
- durch Klassenbreite modifizierte Höhe wie
- Häufigkeitsdichte
- WENN alle Klassen gleich breit
- dann Höhe proportional zur Häufigkeit
Faustregeln Histogramm
- Klassen sollten gleich breit sein
- Klassengrenzen sinnvoll gerundet auf 10, 100 etc
- Anwendung diktiert oft Klassenbreite
- wir fein soll aufgelöst werden
- alternative Anordnung um einen spezifischen Punkt
- wie Mittelwert
- bei Erhebung vom Umfang n wähle als Anzahl k der Klassen \[ k = \sqrt{n}, k = 2*\sqrt{n} \ oder \ k = 10 \log_{10} * n \]
Form des Histogramms
Modalität
Symmetrie um den Gipfel
Interpretation
- bi und multimodale Histogramme
- unter Umständen Konsequenz aus Mischung verschiedener Gruppen
- schief Verteilung
- Spanne verschiedener Werte nicht symmetrisch um Gipfel verteilt
- Frage:
- sind mehr Werte im steileren oder im flacheren Teil
- Allgemeinere Frage
- Wo ist welcher Anteil der Werte
Kumulierte Häufigkeitsverteilung
Empirische Verteilungsfunktion
Glattere Kurven durch Polygonzüge
Bei empirischen Verteilungsfunktionen werden Punkte direkt verbunden