Aufgaben

Beispielaufgabe Everitt (2009): Pulse Rates and Heights Data

50 Krankenhauspatienten, ihre Körpergröße in cm und ihre Herzfrequenz in b/min
Datenfile: http://134.76.136.156/mat/pulse_heights.txt

Scatterplot

Anpassung lineares Modell (Statistik | multiple Regression)

Parameter in Überblick (aus Statistica Hilfe)

  • Multiples R:  Multipler Korrelationskoeffizient, gleich der positiven Quadratwurzel aus R-Quadrat (Bestimmtheitsmaß, siehe Restvarianz und R-Quadrat).  Diese Statistik ist ein Maß für die Stärke der linearen Beziehung zwischen den Variablen.
  • R-Quadrat:  Der Koeffizient multipler Determination (Bestimmtheitsmaß) misst den Anteil der Gesamtstreuung der abhängigen Variablen, der durch die (multiplen) unabhängigen Variablen erklärt wird.
  • R-Quadrat = 1 - [SQ Residuen/SQ Gesamt]
  • SQ Residuen ist die Summe der Fehlerquadrate und SQ Gesamt ist die Gesamtquadratsumme.
  • Korrigiertes R-Quadrat:  Dieses R-Quadrat wurde korrigiert, indem die entsprechenden Quadratsummen durch ihre jeweiligen Freiheitsgrade dividiert wurden.
  • R-Quadrat (korrigiert) = 1 - [(SQ Residuen/FG)/(SQ Gesamt/FG)]
  • F, FG und p-Wert. Der F-Wert, die Freiheitsgrade FG und der sich ergebende p-Wert werden für den globalen F-Test der Beziehung zwischen der abhängigen Variablen und der Menge der unabhängigen Variablen verwendet.  Hier ist:
  • F = Mittlere Quadrate Regression /Mittlere Quadrate Residuen.
  • Standardfehler der Schätzung:  Diese Statistik bewertet die Abweichung der beobachteten Werte von der Regressionsgeraden.
  • Konstante:  Falls eine Regressionsanalyse unter Einschluss der Konstanten gewählt wurde (siehe Modelldefinition - Register Details), wird hier die Schätzung für die Konstante angegeben.
  • Standardfehler (Stdf.):  Das ist der Standardfehler der Konstante.
  • t(FG) und p-Wert:  Der t-Wert mit zugehörigem Freiheitsgrad (FG) und der sich ergebende p-Wert für den Test der Hypothese, dass die Konstante gleich Null ist.

Bewertung des Modells:

  • Test der Koeffizienten
  • Test des Gesamtmodells (VA)

Ergebnisse | Residuen/Voraussetzungen/Prognose

  • Scatterplot: verschiedene Plots, die zur Bewertung der Anpassung nützlich sein können
  • speichern: hier können die vorhergesagten Werte gespeichert werden für weitere Analysen etc.

 

Beispielaufgabe Everitt (2009): Kinesiology

Zwei Variablen: Sauerstoffaufnahme und Atemvolumen in Litern
Datenfile: http://134.76.136.156/mat/kinesiology.txt

einen ersten grafischen Überblick verschaffen mit Scatterplots

lineares Modell anpassen (Statistik | multiple Regression)

Inspektion des Modells: Modell ist unzufriedenstellend

 

 

Aufgabe Potenz

Ein Forscherteam habe von 100 Personen einen Datensatz mit 8 Variablen erhoben. Die Dokumentation bzw. der Codierungsplan sei verloren gegangen. Die Variablennamen der potenziellen Kriterien beginnen mit "k" und die Namen der Prädiktoren mit "p".

  • Lesen Sie die Daten aus der Datei
    http://www.psych.uni-goettingen.de/mat/mv/lm-potenz.txt
  • Verschaffen Sie sich einen graphischen Überblick über die Zusammenhänge zwischen den Variablen. Identifizieren Sie grafisch plausible Modelle.
  • Berechnen Sie ein Modell erster Ordnung, das versucht, die Variable k3 aufgrund der p1 (Prädiktor) vorherzusagen. Wie ist die Güte der Vorhersage?
  • Überprüfen Sie, ob ein Modell dritter Ordnung die Vorhersage verbessert (deskriptiv, nicht statistisch).
  • Logarithmieren Sie die Variable k22 und rechnen Sie eine lineare Regression, in der Sie p1 als Prädiktor benutzen. Was erkennen Sie im Vergleich mit der Berechung desselben Modells mit den untransformierten Daten?
  • Es ist klar, dass es in dem Datensatz Variablen gibt, die am besten mit einem Modell erster, zweiter oder dritter Ordnung erklärt werden können. Identifizieren Sie die Variablen und das sie am besten erklärende Modell. Begründen Sie ihre Zuordnung auch statistisch.
  • Lösung

Aufgabe Studierendendaten