loesungsansatz

Lösungsansatz

[noch unfertig - wird in der nächsten Zeit weiter aktualisiert.]

[Die hier gezeigten Ansätze sind beispielhaft. Es mag deutlich verschiedene geben, die ebenso richtig sind.]

Vorüberlegungen:

Die Erfassung der Merkfähigkeit erfolgt durch einen Test mit Messwerten zwischen 0 und 100 Punkten. Obwohl keine näheren Angaben zum Datenniveau gemacht wurden, gehen wir von Intervalldatenniveau aus, vor allem, da sich der Score aus vielen Einzeltestwerten zusammensetzt. Ausserdem sind Messwerte über psychologische Leistungsindices vielfach normalverteilt. Dies soll später an den Daten überprüft werden, soll aber zunächst für die Auswertungsplanung angenommen werden.

Da, wie bei Trainingsevaluationen üblich, ein Leistungsmaß mehrfach erhoben wurde, handelt es sich grundsätzlich um eine Art von Messwiederholungsdesign. Dies hat Implikationen auf die Beurteilung der Daten z. B. hinsichtlich der Abhängigkeit der Messwerte pro Person bzw. hinsichtlich der Wahl der Freiheitsgrade, mit denen die statistischen Tests durchgeführt werden.

Es wurden 3 Gruppen untersucht, wovon eine Gruppe als Warte-Kontrollgruppe fungiert. Diese soll den 'natürlichen' Verlauf ohne Intervention abschätzen lassen, wobei bereits die mehrfache Erhebung der Behaltensleistung Auswirkungen haben könnte. Ein Vergleich dieser Gruppe mit den andern beiden Trainingsgruppen lässt mich also den Effekt der Trainings abschätzen, wenn nicht Alternativerklärungen zum tragen kommen. Die Bemerkung, die Gruppen seien nach vielerlei Variablen wie Geschlecht, Alter, sozioökonomischem Status etc. vergleichbar, muss im vorgegebenen Kontext ausreichen, um Konfundierungen auszuschließen, da die Variablen nicht im Datensatz enthalten sind und somit eine eigene Überprüfung unmöglich ist.

Glücklicherweise sind die Gruppen gleich groß, so dass keine zusätzlichen Abhängigkeiten aufgrund unterschiedlicher Gruppengrößen in eventuellen varianzanalytischen Designs zu befürchten sind. Dies würde sonst die Wahl der Art der Quadratsummenbildung beeinflussen.

Trainingswirksamkeit

Als ersten Teilauftrag will die Brain-Fit GmbH von Ihnen wissen, ob ihr Gedächtnistraining wirksam ist. Wir beginnen mit einer Visualisierung der mittleren Behaltensleisung unmittelbar vor und nach der Trainingswoche.

mk3 prepost

Bereits deskriptiv/grafisch ist klar zu erkennen, dass sich die Mittelwerte der beiden Trainingsgruppen erhöhen, während die Kontrollgruppe auf nahezu auf ihrem Ausgangsniveau bleibt. Alle Änderungen gehen deskriptiv in die erwartete Richtung. Zum Trainingsstart scheint es keine bedeutsamen Unterschiede zwischen den Gruppen zu geben. Allerdings fehlt eine statistische Absicherung.

Ein mindestens unmittelbare (kurzfristige) Verbesserung der Behaltensleistung durch das Brain-Fit-Training müßte sich durch sig. höhere Behaltenswerte (im Mittel) der Trainingsgruppe im Vergleich zur Kontrollgruppe zeigen. Darüber hinaus müsste sichergestellt sein, dass die relevanten Gruppen sich vor dem Training nicht mehr als nur zufällig unterscheiden. Eine statistische Absicherung könnte z. B. mittels zweier T-Tests zwischen Gedächtnistrainingsgruppe und KG zum Zeitpunkt pre und post erfolgen, sowie durch ein varianzanalytisches Design (2 Gruppen * pre/post) in dem sich eine signifikante Wechselwirkung zeigen müsste. Das Alpha-Niveau beim Überprüfen des "Nicht-Unterschieds" zum Ausgangspunkt sollte höher gewählt werden (z. B. 10% oder 20%) um den Beta-Fehler zu verringern. Alle drei Effekte müßten gegeben sein, um dem Training eine Wirksamkeit bescheinigen zu können (Testplanung).

R-Code und Ergebnisse zu diesem Ansatz:

> 
> d.r <- read.delim(file="http://www.psych.uni-goettingen.de/mat/mv/brain-fit-r.txt")
> 
> # T-Test Brain-Fit-Gruppe vs KG, Zeitpunkt pre
> t.test(d.r$score[d.r$group == 'gt' & d.r$tt == 'pre'], d.r$score[d.r$group == 'kg' & d.r$tt == 'pre'])

 Welch Two Sample t-test

data:  d.r$score[d.r$group == "gt" & d.r$tt == "pre"] and d.r$score[d.r$group == "kg" & d.r$tt == "pre"] 
t = 0.5413, df = 95.741, p-value = 0.5896
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -2.883554  5.045554 
sample estimates:
mean of x mean of y 
 50.1824   49.1014 

> 
> # T-Test Brain-Fit-Gruppe vs KG, Zeitpunkt post
> t.test(d.r$score[d.r$group == 'gt' & d.r$tt == 'post'], d.r$score[d.r$group == 'kg' & d.r$tt == 'post'])

 Welch Two Sample t-test

data:  d.r$score[d.r$group == "gt" & d.r$tt == "post"] and d.r$score[d.r$group == "kg" & d.r$tt == "post"] 
t = 8.3326, df = 97.831, p-value = 4.976e-13
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 14.95932 24.31228 
sample estimates:
mean of x mean of y 
 68.5638   48.9280 

> 
> # VA Design Pre-Post * Gruppe: Die unmittelbare Wirkung, nur Brain-Fit gegen KG
> # Datensatz "bauen"
> d.prepost <- d.r[151:450,]
> d.2prepost <- d.prepost[d.prepost$group != 'sp',]
> d.2prepost$tt <- factor(d.2prepost$tt)
> m.2prepost = aov(score ~ (group*tt) + Error(vp/tt) + (group), data=d.2prepost)
> summary(m.2prepost)

Error: vp
 Df  Sum Sq Mean Sq F value    Pr(>F)    
group      1  5364.8  5364.8  25.308 2.214e-06 ***
Residuals 98 20774.1   212.0                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Error: vp:tt
 Df Sum Sq Mean Sq F value    Pr(>F)    
tt         1 4144.1  4144.1  155.99 < 2.2e-16 ***
group:tt   1 4303.5  4303.5  161.99 < 2.2e-16 ***
Residuals 98 2603.5    26.6                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
>

Der T-Test Gedächtnistrainingsgruppe - KG zum Zeitpunkt prä ist nicht signifikant (t = 0.54, df = 95.741, p-value = 0.59). Auch bei hoch gewähltem Alpha (= 0.2) liegt der p-Wert deutlich höher, so dass man nicht von einem systematischen Gruppenunterschied zum Trainingsstart ausgehen kann, die Gruppen können also als vergleichbar gelten. Am Ende des Trainings ist das völlig anders. Die Trainingsgruppe hat einen signifikant höheren Wert in der Behaltensleistung als die Kontrollgruppe (t = 8.33, df = 97.831, p-value <= 0.001).

Ebenfalls erwartungskonform zeigt die zweifaktorielle Varianzanalyse eine hochsignifikante Wechselwirkung, was belegt, dass sich die beiden Gruppen in der Zeit zwischen pre und post völlig verschieden entwickelt haben (F=161.99, df1=1, df2=98, p<=0.001, s.).

[hier nicht eingefügt sind die Überprüfung der Normalverteilungsvoraussetzung bzw. die deskriptive Analyse der Daten auf Verteilungsbesonderheiten.]

[ alternativ könnte man natürlich mit Statistica dieselben Berechnungen durchführen ]

Frage 2: Das beste Training?

Die Aussage "Die mit unserem Verfahren trainierten Personen erreichen klar die höchsten Werte" soll hier so interpretiert werden, dass die mit Brain-Fit trainierte Personengruppe einen signifikant höheren Mittelwert nach dem Training hat, als die körperlich traininerte Gruppe und selbstverständlich auch signifikant über dem Mittelwert der Kontrollgruppe liegt.

[statistischer Beleg beispielsweise durch entsprechende multiple T-Tests mit entsprechender Testplanung oder via VA und geplanten Vergleichen o. ä. Alles sollte gesehen werden im (grafischen) Vergleich mit den Werten vor Trainingsbeginn.]

Stabilität

Durch die Öffentlichkeitsarbeit der Brain-Fit GmbH werden die 'Grauen Panther' (Partei, zur Interessensvertretung von Senioren) auf das Training aufmerksam. Auf Einladung des Bundesvorstandes der 'Grauen Panther' stellen Sie auf Anregung und mit Zustimmung Ihres Auftraggebers Ihre Evaluationsergebnisse vor.

Sie werden explizit und kritisch nach der Stabilität der Trainingserfolge von "Brain-Fit©" befragt und zeigen die folgende Grafik, die die Entwicklung der Gedächtnistest-Werte in den 3 Wochen nach Trainingsende zeigt.

mk3 post

Der wissenschafliche Beauftragte der Partei kritisiert, dass nach drei Wochen ja das körperliche Training die besseren Gedächtniswerte ergäbe. Die Wirksamkeit des Gedächtnistrainings sei also klar wiederlegt.

R: Test der letzten beiden Messzeitpunkte über die drei Gruppen

> ##dev.off()
> # fu2 und fu3 (Langzeiteffekt)
> d.fu2.fu3 <- d.r[601:900,]
> d.fu2.fu3$tt <- factor(d.fu2.fu3$tt)
> m.fu2.fu3 = aov(score ~ (group*tt) + Error(vp/tt) + (group),data=d.fu2.fu3)
> summary(m.fu2.fu3)# und die Mittelwerte dazu

Error: vp
           Df Sum Sq Mean Sq F value   Pr(>F)    
group       2   9598  4798.8  15.935 5.45e-07 ***
Residuals 147  44269   301.2                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Error: vp:tt
           Df Sum Sq Mean Sq F value Pr(>F)
tt          1   21.5  21.467  0.5256 0.4696
group:tt    2    4.0   2.012  0.0493 0.9519
Residuals 147 6003.7  40.841

R: Test der letzten beiden Messzeitpunkte zwischen den beiden Trainingsgruppen

> # fu2 und fu3 (Langzeiteffekt) ohne KG
> d.fu2.fu3.no.kg <- d.fu2.fu3[d.fu2.fu3$group != 'kg',]
> d.fu2.fu3.no.kg$tt <- factor(d.fu2.fu3.no.kg$tt)
> m.fu2.fu3.no.kg = aov(score ~ (group*tt) + Error(vp/tt) + (group),data=d.fu2.fu3.no.kg)
> summary(m.fu2.fu3.no.kg)

Error: vp
          Df Sum Sq Mean Sq F value Pr(>F)
group      1    752  751.67  2.2693 0.1352
Residuals 98  32461  331.24               

Error: vp:tt
          Df Sum Sq Mean Sq F value Pr(>F)
tt         1   21.1  21.145  0.5898 0.4443
group:tt   1    2.0   2.030  0.0566 0.8124
Residuals 98 3513.1  35.847

Statistica: Test der letzten beiden Messzeitpunkte über die drei Gruppen

mk3 s03

mk3 s04

Statistica: Test der letzten beiden Messzeitpunkte zwischen den beiden Trainingsgruppen

mk3 s05

mk3 s06

[weitere Kommentare und Interpretationen hinsichtlich der Fragestellungen fehlen und folgen noch]