II Statistik
6 Beschreibende und schlussfolgernde Statistik
WĂ€hrend die beschreibende Statistik (oder deskriptive Statistik) das Ziel verfolgt, empirische (d. h. auf erfahrungswissenschaftlichem Wege gewonnene) Daten einer Stichprobe durch Kennwerte (wie z. B. Mittelwerte) und meist unter Verwendung bestimmter Veranschaulichungshilfen (wie z. B. Tabellen oder Graphiken) zusammenzufassen, zu ordnen und ĂŒbersichtlich darzustellen, strebt die schlussfolgernde Statistik (oder Inferenzstatistik) Aussagen ĂŒber eine Population (Grundgesamtheit) an, die ĂŒber die Stichprobe hinausgehen und eine ĂberprĂŒfung zuvor formulierter Hypothesen (Aussagen, Annahmen) auf der Grundlage von Wahrscheinlichkeitsaussagen (z. B. Signifikanztest) ermöglichen. Im vorliegenden Kapitel wird auf diese beiden groĂen Teilbereiche der Statistik nĂ€her eingegangen. Mögliche Fehler und Fallen, die bei der DurchfĂŒhrung deskriptiver und inferenzstatistischer Analysen auftreten können, werden in Kapitel 11 dargestellt.
6.1 Deskriptive Statistik
Deskriptive Studien können zu unterschiedlichen DatensĂ€tzen fĂŒhren. Sie können beispielsweise in Bezug auf die folgenden Aspekte variieren:
âą Umfang der Stichprobe: Die Stichprobe kann sehr groĂ sein (im Extremfall umfasst sie die Population) oder sehr klein (im Extremfall beinhaltet sie nur eine einzelne Person wie bei Einzelfalluntersuchungen).
⹠Anzahl der Variablen: Die Studie kann sich nur auf eine einzelne abhÀngige Variable beziehen (sog. univariate Designs) oder auf mehrere abhÀngige Variablen (multivariate Designs).
âą Messzeitpunkte der Variablen: Auch kann die Studie nur einen einzigen Messzeitpunkt berĂŒcksichtigen (sog. Querschnittsstudie) oder zwei oder mehr Messzeitpunkte umfassen (Messwiederholungstudie; liegen die Messzeitpunkte weiter auseinander spricht man auch von einer LĂ€ngsschnittstudie).
In diesem Abschnitt steht die Berechnung von Statistiken einzelner Variablen aus Querschnittsuntersuchungen im Vordergrund, einschlieĂlich ihrer Darstellung mittels Tabellen und Graphiken. Dieses Vorgehen wird auch als univariate Statistik bezeichnet. Allerdings kommt es in der deskriptiven Statistik recht hĂ€ufig vor, dass zwei (oder mehr) Variablen gleichzeitig in die Betrachtung einbezogen werden. Bei der simultanen BerĂŒcksichtigung von zwei Variablen spricht man von bivariater Statistik, bei mehreren Variablen von multivariater Statistik. Die Berechnung und Darstellung bi- und multivariater Statistiken sowie die Analyse von Messwiederholungsdaten werden in den Kapiteln 7 und 8 behandelt. LehrbĂŒcher zur EinfĂŒhrung insbesondere in die uni- und bivariate Statistik stammen von Clauss & Ebner (1995), Benninghaus (2005) und Holling & Gidega (2011).
HÀufigkeiten von VariablenausprÀgungen
Liegen fĂŒr VariablenausprĂ€gungen sprachliche Umschreibungen vor, wie z. B. »weiblich« und »mĂ€nnlich« fĂŒr die Geschlechtsvariable, spricht man von Wertekategorien. FĂŒr die statistische Auswertung mittels SPSS werden diesen Wertekategorien nachtrĂ€glich numerische GröĂen (Zahlen) zugewiesen (Kodierung; z. B. 1 = weiblich, 2 = mĂ€nnlich). Werte hingegen stellen VariablenausprĂ€gungen dar, fĂŒr die es keine sprachliche Umschreibung gibt, wie z. B. bei der Altersvariablen (das Alter wird bereits in Zahlen angegeben) oder bei Einstellungsskalen und Testverfahren. HĂ€ufigkeiten geben an, wie oft die ermittelten Wertekategorien oder Werte bei den untersuchten Personen auftreten (vgl. Weinbach & Grinnell, 2000).
Nehmen wir als Beispiel den Fall, dass das individuelle AusmaĂ an Empathie bei einer Stichprobe von
n = 26 SchĂŒlerinnen und SchĂŒlern erfasst wurde (z. B. mit Hilfe des »Fragebogens zur Erfassung von Empathie« von Leibetseder, Laireiter, Riepler & Köller, 2001; ein Beispielitem fĂŒr die Skala »Betroffenheit« lautet: »Es macht mich traurig, in einer Gruppe einen einsamen Menschen zu sehen«). AnschlieĂend wurden die Werte der Probanden, die zwischen 1 = sehr niedrig und 7 = sehr hoch rangieren, in SPSS eingegeben (
Kap. 4.1). Die HĂ€ufigkeiten der Empathiewerte kann anschlieĂend anhand von Tabellen und/oder Graphiken veranschaulicht werden.
HĂ€ufigkeitstabellen
Zur Darstellung von HĂ€ufigkeiten in Form einer Tabelle ist im MenĂŒ von SPSS der Befehl Analysieren â Deskriptive Statistiken â HĂ€ufigkeiten aufzurufen. In dem sich öffnenden Fenster wird dann die Variable »Empathie« ausgewĂ€hlt. Da die Option »HĂ€ufigkeitstabellen anzeigen« in der SPSS-Voreinstellung bereits markiert ist, kann die Berechnung direkt durch Klicken auf OK gestartet werden. Der Output enthĂ€lt neben Informationen zur Anzahl gĂŒltiger und fehlender Werte die resultierende HĂ€ufigkeitstabelle, die in Tabelle 6 dargestellt ist.
WĂ€hrend in der ersten Spalte von Tabelle 6 diejenigen Variablenwerte angezeigt werden, die im Datensatz tatsĂ€chlich vorhanden sind (d. h. fĂŒr jeden Wert der siebenstufigen Empathieskala gibt es mindestens eine »gĂŒltige« Person in der Stichprobe), finden sich in Spalte 2 die »HĂ€ufigkeiten« der einzelnen Werte (meist durch f fĂŒr engl. frequencies abgekĂŒrzt) sowie (in der letzten Zeile) die Gesamtanzahl der Werte (Gesamtsumme = 26). Diese Angaben werden auch als »absolute HĂ€ufigkeiten« (fabs)
Tab. 6: Univariate SPSS-HÀufigkeitstabelle am Beispiel von »Empathie«
bezeichnet. Spalte 3 (»Prozent«) hingegen zeigt, wie hÀufig ein bestimmter Wert prozentual (auf 100 % berechnet) im Datensatz auftritt. Diese Angaben kennzeichnen die »relativen HÀufigkeiten« (frel), d. h. den Anteil der Personen einer Stichprobe, bei dem eine bestimmte MerkmalsausprÀgung vorliegt. Die Berechnung der relativen HÀufigkeiten erfolgt durch Formel 1.
Formel 1: Berechnung der relativen HĂ€ufigkeiten
Beachte: frel bezeichnet die relativen HÀufigkeiten, fabs die absoluten HÀufigkeiten und n die Anzahl der Personen. Sollen die relativen HÀufigkeiten auf Prozent bezogen werden, sind sie zusÀtzlich mit 100 zu multiplizieren. NÀhere ErlÀuterungen finden sich im Text.
Bezogen auf den Skalenwert 2 der Empathieskala ergibt sich zum Beispiel folgende Rechnung: relative HĂ€ufigkeit
frel = 3/26 = 0.115. Multipliziert man diesen Wert anschlieĂend mit 100, gelangt man zur prozentualen HĂ€ufigkeit von 11.5 (
Tab. 6). WÀhrend sich die prozentualen HÀufigkeiten (die hÀufig mit
f % abgekĂŒrzt werden) auf alle Antworten einschlieĂlich eventuell fehlender Werte beziehen, sind fehlende Werte bei den »gĂŒltigen Prozent« in Spalte 4 von der Berechnung ausgeschlossen. Da im vorliegenden Datensatz keine fehlenden Werte enthalten sind, fallen beide Spalten in Tabelle 6 identisc...