regression_logistic

 

pZiel ist es, die Logistische Regression als Spezialfall der MR sowie als einen Anwendungsfall des GLM zu kennenzulernen.

Logistische Regression ist eine Unterform der Gruppe der Generalized Linear Models. Die Link-Funktion des Kriteriums ist die Logit-Transformation.

Ausflug: odds und odds-ratios

odds oder Quote: Verhältnis von Beobachtungen, für die ein binäres Merkmal zutrifft oder nicht (Erkrankte / nicht Erkrankte). Quotient aus der Wahrscheinlichkeit für ein Ereignis durch die Gegenwahrscheilichkeit.

formel-odds.png

odds-ratio oder Quotenverhältnis: Verhältnis von odds, z. B. wenn ein weiteres binäres Merkmal erfasst ist (Risikofaktor vorhanden / nicht vorhanden). Für beide Risiko-Faktor-Gruppen werden die odds (Erkrankung ja/nein) berechnet und ins Verhältnis zueinander gesetzt.

formel-odds-ratio.png

Ausflug Logistische Funktion

logistische Funktion

s-förmige Kurve

Zwei Parameter legen die Kurve fest: Lage des Wendepunktes in x-Werten, Steilheits-Parameter.

Abb:

Konstante ist Verschiebung in X-Richtung, Gewicht ist Steilheit. Die Ähnlichkeit zur MR wird in der vorletzten Formel am deutlichsten, aber da können die beiden Parameter nicht unabhängig voneinander geändert werden, wie in der letzten Formel.

Ausflug Generalisierte Lineare Modelle

Paper

Logistische Regression, Allgemeines

Das Kriterium ist hier dichotom/binär. Problem des eingeschränkten Schwankungsbereiches des Kriteriums. Lösungsansatz: Umwandlung durch geeignete Transformation (logit). S-Kurve wie in der Item-Response Theorie.

 

Dieser Ansatz lässt einen Schluss auf die Wahrscheinlichkeit einer der beiden Ausprägungen zu. Das Festlegen der dichotomen Ausprägung geschieht über einen cut-off-Wert (meist bei 0.5).

 

Parameterschätzung über die entsprechenden Verfahren ergeben für jede Erklärungsvariable einen Parameter, logit(p).
Die Odds-Ratio (zu interpretieren als Änderung im Kriterium (Response-Variable) pro Einheit in Erklärungsvariable) exp(parameter).

 

Prüfung Gesamtmodell

Goodness of fit. Analogie zu R2 in MR.

 

Verschiedene Ansätze. Nur Annäherungen.

log likelihood ratio, -2 log likelihood, Cox / Snell R2, Nagelkerke R2

log likelihood ratio:

Deviance als Äquivalent zu Quadratsummen (bzw. erklärter Varianz) in MR. Ausmaß der Abweichung der Daten in einem logistischen Modell (lack of fit).

Deviancemodel = -2ln [(likelihood fitted model)/(likelihood saturated model)]

Deviancenull = -2ln[(likelihood null model)/(likelihood saturated model)]

saturated model ist ein Modell mit 'theoretisch perfektem Fit'

null model ist Modell nur mit der Konstanten als Prädiktor

Deviancemodel sig. kleiner deviancenull => Fit des Modells ist statistisch besser als Nullmodell.

likelihood-ratio: -2ln[(likelihood null model)/(likelihood fitted model)]

Chi2 zur Prüfung des Gesamtmodells: deviancemodell - deviancenull

analog F-Test in MR.

 

pseudo-R2

R2 likelihood ratio: R2L = (Dnull - Dmodel)/Dnull

Limitation: R2L ist nicht monoton verbunden mit der odds-ratio

Klassifikationstabelle

Prüfung der Prädiktoren

Wald-Statistik

 

Probleme:

Verhältnis Variablen zu Vpn

complete separation

Einflussreiche Beobachtungen

 

Datenfiles

Beispieldatensatz Everitt (2010) zu log. Regr. GHQ-Datensatz (General Health Questionnaire). GHQ-Werte schwanken von 0(gesund) - 10 (krank) Geschlecht (1=Frau, 2=Männer) Anzahl der Fälle, die als psychatrische Fälle klassifiziert wurde. Anzahl der Fälle, die keine psychatrischen Klassifikationen erhielten.
"http://www.psych.uni-goettingen.de/mat/mat/ghq.txt"

sex	GHQ	ncases	nnotcases
0	0	4	80
0	1	4	29
0	2	8	15
0	3	6	3
...
0	9	2	0
0	10	1	0
1	0	1	36
1	1	2	25
1	2	2	8
...
1	8	3	1
1	9	2	0
1	10	2	0

Derselbe Datensatz, nur dass die Vpn einzeln aufgeführt sind. Das entspricht der üblichen Struktur der Datensätze.
"http://www.psych.uni-goettingen.de/mat/mv/ghq-vp.txt"

vp	sex	ghq	case	cnt
1	1	0	1	1
2	1	0	1	2
3	1	0	1	3
4	1	0	1	4
5	1	0	0	1
...
167	1	7	1	1
168	1	7	1	2
169	1	8	1	1
170	1	8	1	2
171	1	8	1	3
172	1	9	1	1
173	1	9	1	2
174	1	10	1	1
175	0	0	1	1
176	0	0	0	1
...
273	0	8	1	3
274	0	8	0	1
275	0	9	1	1
276	0	9	1	2
277	0	10	1	1
278	0	10	1	2

Beispieldatensatz Everitt (2010) zu log. Regr.
do-it-yourself-Datensatz
work (skilled/unskilled/office)
tenure (rent/own)
type (appartment/house)
age (<30/31-45/46+)
yes (Anzahl)
no (Anzahl)
"http://www.psych.uni-goettingen.de/mat/danwork.txt"

        work tenure      type   age yes no
1    skilled   rent apartment   <30  18 15
2    skilled   rent apartment 31-45  15 13
3    skilled   rent apartment   46+   6  9
4    skilled   rent     house   <30  34 28
5    skilled   rent     house 31-45  10  4
6    skilled   rent     house   46+   2  6
7    skilled    own apartment   <30   5  1
8    skilled    own apartment 31-45   3  1
9    skilled    own apartment   46+   1  1
10   skilled    own     house   <30  56 12
......

Datensatz als Einzel-Vps ...

Logistische Regression in R

Ein Tutorial dazu.

Logistische Regression in Statistica

Logistische Regression

  • In Statistica zu finden unter
    "Statistik | höhere (nicht)lineare Modelle | nichtlineare Regression | logistische Regression"
    wichtig ist, im Dialogfenster nach der Variablenauswahl/Modellspezifikation das Häkchen bei "asymt. Standardfehler" zu setzen, da nur so z. B. die Paramter-Signifikanztests erfolgen.
  • Alternativ direkt bei GLZ
    "Statistik | höhere (nicht)lineare Modelle | verallgemeinerte lineare/nichtlineare Modelle"
  • Übliche Struktur des Datensatzes mit einer Zeile pro Vp: "Daten enthalten | Codes und keine Häufigkeiten"
    Häufigkeitsdaten (Aggregieren über Vpn gleicher Bedingungskombination): "Daten enthalten | Codes und Häufigkeiten" Achtung, das geht nur für Prädiktoren (UV), nicht für Kriterium (AV).
  • Ergebnis-Überblick im ersten Ergebnisfenster Oberteil (automatisches Umcodieren bei Anzahl)
  • 'Zusf: Paramterschätzungen"
    oben nochmals Gesamttest
    in der Tabelle die Modell-Koeffizienten
  • 'Beob./Prognose/Residuen'
    erzeugt eine Tabelle mit den Prognostizierten Werten und den Residuen, die Originalvariablen können optional dazu gespeichert werden.
    hier ist auch erkennbar, wie der cut-off gelegt wird. Erzeugen einer Variable (über 0.5 -> 1, unter 0.5 -> 0) und Kreuztabelle dazu macht die Prognose nachvollziehbar.
  • Log-Reg ist näher an Klassifikation bietet aber keine Einzel-UV-Signifikanztests

 

 

 

 

Datensätze

Beispiele

Aufgaben