Codierung

Dummy-Codierung

Übersetzung von binären, nominalskalierten (oder rangskalierten) Prädiktoren mit r Abstufungen (Faktorstufen) in r-1 Dummy-Variablen, die die Berechnung varianzanalytischer Effekte in MR möglich machen.

Statistikpakete funktionieren so.

 

Referenzkodierung (dummy-coding, treatment-coding)

sinnvoll bei Vergleich mit einer Referenzgruppe (z. B. Kontrollgruppe)

1 falls Kategorie k mit k = 1, ..., K−1 vorliegt
x(k) = 0 sonst

Konstante (ß0) ist Erwartungswert in der Referenzgruppe. ßi (Gewicht von xi) ist Unterschied der Gruppe ai zu Referenzgruppe. Test ßi = 0 prüft diesen Unterschied.

 

Effektkodierung

1 falls Kategorie k mit k = 1, . . . , K − 1 vorliegt
x(k) =  −1  falls Referenzkategorie K vorliegt
0    sonst

Vergleich mit dem Mittelwert über alle Kategorien

Die Effektkodierung eignet sich, wenn Änderungen vom Mittelwert über alle Kategorien interessieren (ANOVA).

Kontrastkodierung

Es werden ausschließlich 1 und -1 als Kontrast-Koeffizienten verwendet. Die Kontrast-Koeffizienten müssen sich über die Faktorstufen hinweg zu 0 aufaddieren. Die Dummy-Variablen kontrastieren verschiedene Faktorstufen-Kombinationen.

yi =β0 +β(1)x(1)i +β(2)x(2)i +...+β(K−1)x(K−1)i +εi

Abh ̈angig von der Kodierung werden die Effekte β0,β(1),...,β(K−1) wie folgt gesch ̈atzt und interpretiert:
Dummykodierung:
βˆ0 entspricht dem Mittelwert in der Referenzkategorie. Die Effekte βˆ(1),...,βˆ(K−1) werden im Vergleich zur Referenzkategorie interpretiert.
Effektkodierung:
βˆ0 entspricht dem Durchschnitt der Mittelwerte aus allen Kategorien 1,...,K. Die Effekte βˆ(1),...,βˆ(K−1) werden im Vergleich zu diesem mittleren Wert interpretiert.

 

Wann ist welche Kodierung sinnvoll?
Die Art der Kodierung richtet sich nach der jeweiligen inhaltlichen Fragestellung.
Die Dummykodierung eignet sich beispielsweise, wenn in der Medizin eine bisherige Behandlung mit verschiedenen neuen Behandlungen verglichen wird.
Die Effektkodierung eignet sich, wenn A ̈nderungen vom Mittelwert u ̈ber alle Kategorien interessieren.

 

Beispiel 4 Faktorstufen (a1..a4) => drei Dummy-Variablen (x1...x3)

reference effect contrast
predx1x2x3x1x2x3x1x2x3
a1 1 0 0 1 0 0 1 1 1
a2 0 1 0 0 1 0 1 -1 -1
a3 0 0 1 0 0 1 -1 1 -1
a4 0 0 0 -1 -1 -1 -1 -1 1

U = ß0 + ß1x1 + ß2x2 + b3x3

reference-coding: ß0 is constant, ßi differences of group ai to reference group

effect-coding: ß0 is factor-mean (over all factor levels), ßi differences of group ai to ß0

contrast-coding: ß0 gewichteter Erwartungswert, ßi Beitrag des Kontrastes zur Varianzaufklärung

Beispiel 2x2 Design

 

Faktor AFaktor Bc1c2c3
1 1 -1 -1 1
1 2 -1 1 -1
2 1 1 -1 -1
2 2 1 1 1

c1 kodiert Haupteffekt A

c2 kodiert Haupteffekt B

c3 kodiert Interaktion A * B

Referenzen

Kontraste in R:

http://www.ats.ucla.edu/stat/r/library/contrast_coding.htm

http://www.ats.ucla.edu/stat/r/modules/dummy_vars.htm

Coding Scheme Comparisons made
Dummy Coding Compares each level to the reference level, intercept being the cell mean of the reference group
Simple Coding Compares each level to the reference level, intercept being the grand mean
Deviation Coding Compares each level to the grand mean
Orthogonal Polynomial Coding Orthogonal polynomial contrasts
Helmert Coding Compare levels of a variable with the mean of the subsequent levels of the variable
Reverse Helmert Coding Compares levels of a variable with the mean of the previous levels of the variable
Forward Difference Coding Compares adjacent levels of a variable (each level minus the next level)
Backward Difference Coding Compares adjacent levels of a variable (each level minus the prior level)
User-Defined Coding User-defined contrast