Überblick | Die Randomisierung Jacobs: Versuchsplanung 
Exkurs: kein notwendiger Bestandteil des Tutoriums Versuchplanung

Wie stark unterscheiden sich die experimentellen Gruppen unmittelbar nach der Randomisierung ?

Durch die Randomisierung der Vpn der Untersuchungsstichprobe auf EG und KG kann die Vergleichbarkeit der experimentellen Gruppen hinsichtlich aller möglichen Persönlichkeitseigenschaften nicht garantiert, sondern lediglich wahrscheinlich gemacht werden. Meistens werden EG- und KG-Mittelwert nach der Randomisierung bei einer beliebigen Variablen recht ähnlich ausfallen. In wenigen Fällen sind aber aus statistischen Gründen "signifikante Unterschiede" zu erwarten, weil der Zufall, wenn auch selten, so doch manchmal die Gruppenzuweisung ungünstig gestaltet.

In diesem Zusammenhang stellt sich die Frage, innerhalb welcher Vertrauensgrenzen 95% oder 99% der Mittelwertsunterschiede zwischen EG und KG liegen. Durch die Beantwortung der Frage lässt sich dann etwa abschätzen, wie stark sich EG und KG vor dem Versuch hinsichtlich wichtiger Variablen aller Wahrscheinlichkeit nach höchstens unterscheiden werden. Auf der Basis dieser Schätzung könnte man dann entscheiden, ob man das entsprechende Risiko auf sich nehmen will oder weitere Kontrollmaßnahmen, etwa Parallelisierung, hinzuziehen soll. Die theoretisch beste Art einer entsprechenden Überprüfung bestünde darin, alle möglichen Zufallszuweisungen zu betrachten.

Gelegentlich überprüft man den Erfolg der Randomisierung, in dem man nach der Randomisierung, aber vor dem Versuch hinsichtlich einiger relevanter Persönlichkeitsvariablen die Nullhypothese formuliert: "Die Mittelwerte von EG und KG unterscheiden sich nicht." Da beide Gruppen aber nachgewiesener Maßen aus derselben Population gezogen wurden, stellt sich die Frage, ob man dann überhaupt einen Signifikanztest durchzuführen braucht, der darüber entscheiden soll, ob die Gruppen aus derselben Population stammen. Die Testung wird in der Regel mit t-Test für unabhängige Stichproben durchgeführt, sofern die Voraussetzungen dafür annähernd erfüllt sind. Unabhängig von Signifikanzerwägungen ist jedoch eine Einschätzung der möglichen Mittelwertsunterschiede in EG und KG von Interesse.

Bei normalverteilten Variablen kann man davon ausgehen, dass die Mittelwertsunterschiede zwischen EG und KG bei kleinem n einer t-Verteilung folgen und sich bei großem n normal verteilen. Als Mittelwert der Verteilung der Mittelwertsunterschiede wird 0 und als Standardabweichung der Standardfehler der Mittelwertsdifferenzen von EG und KG erwartet. Der Standardfehler der Mittelwertsdifferenzen wird als Prüfstreuung für den t-Test verwendet und kann auch zur Bestimmung des Vertrauensintervalls genutzt werden. Nach Bortz 1999, 137, Formel 5.10  lautet die Formel
   
Formel 1
Standardfehler der Mittelwertsdifferenz
Formel  2
Standardfehler der Mittelwertsdifferenz
bei gleichen Gruppengrößen n und 
gleichen Varianzen der Stichproben

Aus Formel 2 wird im übrigen leicht ersichtlich, dass die Effizienz der Randomisierung umso höher ist,

Bortz gibt weitere Formeln an, welche den Standardfehler auf der Basis von Stichproben schätzen bzw. direkt ausrechnen lassen. Manche Statistikprogramme (z.B. SPSS) liefern bei der Berechnung des t-test ebenfalls den Standardfehler der Mittelwertsdifferenzen. Durch Multiplikation des Standardfehlers der Mittelwertesdifferenzen mit dem entsprechenden t-Wert, der 97,5 % der Fläche der t-verteilung markiert, kann man die Grenzen berechnen, innerhalb derer 95% der Mittelwertesunterschiede liegen sollten.
Simulationsversuch
Wären EG und KG direkt aus einer Population gezogen worden, dann würde man die Varianz der Population analog eines normalen t-Tests auf Grund der beiden Stichprobenvarianzen von  EG und KG schätzen. Da die Untersuchungsstichprobe (alle Vpn, die für die Untersuchung verfügbar sind) aber die Population darstellt, aus der 2 Gruppen nach Zufall zugewiesen werden, entspricht die Varianz der gesamten Untersuchungsstichprobe s² der Varianz der Population s². Man muesste also die Varianz der Population direkt ausrechnen können, indem man anstelle von s² in der obigen Formel 2 einfach die Stichprobenvarianz s² der Untersuchungsstichprobe eingibt.
 
Formel 3
Standardfehler der Mittelwertsdifferenz:
Die Varianz der Untersuchungsstichprobe
wird als Populationsvarianz eingesetzt.

Im folgenden soll abgeschätzt werden, ob die Verwendung der Varianz der Untersuchungsstichprobe zu einer brauchbaren Schätzung für den Standardfehler der Mittelwertsdifferenzen führt.  Zugleich soll anschaulich aufgezeigt werden, zu welchen Ergebnissen die Randomisierung bei einer normal verteilten Variablen führt und wie groß die möglichen Mittelwertsunterschiede zwischen EG und KG einzuschätzen sind.

Simulationsschritte:
Zunächst lies ich mir mittels eines Programms der UCLA-University 40 normalverteilte Zufallszahlen mit folgenden Eigenschaften zusenden:


aus: http://calculators.stat.ucla.edu/cdf/normal/normalrand.php [29.4.2004]

Die mir zugesandten Daten sollen hier eine (realistische, normalverteilte) Variable (etwa Intelligenztestleistung) für alle Vpn repräsentieren, welche dem Experiment zur Verfügung stehen (=Untersuchungsstichprobe). Die Variable wird im folgenden Testvar genannt. Die 40 Probanden der Untersuchungsstichprobe lieferten bei Testvar folgende statistischen Kennwerte.

Abbildung 1:
Histogramm der Variablen Testvar

Die Standardabweichung in Abbildung 1 entspricht der geschätzten Populationsstreuung: Die tatsächliche Stichprobenstreuung in der gesamten Untersuchungsstichprobe beträgt 13,867. Wie man sieht, folgen die Daten nicht exakt der schwarz eingezeichneten idealen Normalverteilung, sondern erinnern eher an realistische Befunde. Die Probanden dieser hypothetischen Untersuchungsstichprobe sollen nun nach Zufall auf  EG und KG aufgeteilt werden.

Nach dem oben gemachten Vorschlag müsste man nun nach Formel 3 als Standardfehler der Mittelwertsdifferenzen erwarten:
 
Formel 4
Standardfehler der Mittelwertsdifferenz:
unter Verwendung der Varianz der
Untersuchungsstichprobe nach Formel 3.

Die 40 Vpn der Untersuchungsstichprobe wurden nun in insgesamt 5 Durchgängen jeweils 1000 mal nach Zufall auf EG und KG aufgeteilt. (Dabei wurde auf den Algorithmus des JavaScripts auf der Seite Zufällige Zuteilung von Versuchspersonen (Vpn) zu den experimentellen Gruppen zurückgegriffen ). Nach jeder Zufallszuweisung wurden die Testvar-Mittelwerte beider Gruppen berechnet und daraus die Differenz der Mittelwerte von EG und KG gebildet. Die Mittelwertsdifferenzen sollten sich dabei annähernd in Form einer Normal- bzw. t-Verteilung mit df = 38 um den Mittelwert 0 verteilen. Wie beispielhaft aus dem 5.Simulationsversuch hervorgeht, werden diese Annahmen ziemlich klar bestätigt:

Abbildung 2
 Verteilung der Mittelwertsdifferenzen von Testvar zwischen EG und KG im 5. Simulationsversuch
[Hinweis: Die übrigen Simulationsversuche sehen ähnlich aus]

Wie man an der schwarz eingezeichneten NV-Kurve in Abbildung 2 sieht, verteilen sich die Mittelwertsunterschiede annähernd normal. Die meisten Mittelwertsunterschiede zwischen EG und KG liegen nahe am Wert 0. Unter Normalverteilungsannahme schwanken ca . 68 % aller Mittelwertsunterschiede eine Standardabweichung, d.h. hier +-4,37 Punkte um Null herum. Tabelle 1 fasst Mittelwerte und Standardabweichungen der Mittelwertsdifferenzen von EG und KG für die 5 Simulationsversuche zusammen:

    Tabelle 1: Mittelwert M und Streuung s aus jeweils 1000 Mittelwertsdifferenzen von Testvar zwischen EG und KG

                 Versuch   M     s
                     1.  -0.13  4.34    
                     2.  -0.13  4.48
                     3.  -0.18  4.46 
                     4.   0.23  4.35
                     5.   0.00  4.37
   nach Formel 3                                       
   geschätzter Standardfehler = 4.39                  
Der aufgrund der Untersuchungsstichprobe errechnete Standardfehler der Mittelwertsdifferenz von 4.39 entspricht recht gut den simulierten Ergebnissen. Übrigens: Berechnet man den Standardfehler auf konventionelle Art, in dem man ihn auf der Basis der Streuungen in EG und KG schätzt, kommt man zu ähnlichen, aber etwas höheren Werten. Für 3 Zufallsziehungen, wovon eine bewusst auch extrem unterschiedliche Werte für EG und KG enthielt, ergaben sich nach der Formel 5.13 von Bortz (1999) übereinstimmend Standardfehler der Mittelwertsdifferenzen von ungefähr 4.5 und nach SPSS nahe 4.52.

Zur weiteren Kontrolle wurde die Simulation für die ersten 20 bzw. die ersten 30 konstruierten Vpn durchgeführt,. D.h. 20 bzw. 30 Vpn wurden 1000 mal auf EG und KG aufgeteilt. Da die Gruppengröße kleiner als im obigen Versuch ausfällt, ist natürlich mit einem höheren Standardfehler zu rechnen.
Tabelle 2 kommt zu recht guten Übereinstimmungen von Simulation und Formel.

Tabelle 2: Standardabweichung der Mittelwertsdifferenzen (EG-KG) bei der Simulation (1000 Zufallszuweisungen) und nach Formel

                   Simulation Formel
je 10 Vpn pro Gruppe   6.7     6.62

je 15 Vpn pro Gruppe   5.66    5.5

Berechnung des Vertrauensintervalls
Innerhalb welcher Grenzen liegen die Mittelwerte von EG und KG mit 95%iger Wahrscheinlichkeit?

für große Stichproben (n pro Gruppe >30) kann das Vertrauensintervall über die Normalverteilung errechnet werden.
z = 1.96 entspricht einem Flächenanteil von  .975
 
Formel 5
95%iges Vertrauensintervall des Mittelwertsunterschiedes 
zwischen EG und KG bei gleichen großen Stichproben

Grundsätzlich kann das Vertrauensintervall über die t-Verteilung bestimmt werden, wenn die Voraussetzungen erfüllt sind. Anhand der t-Tabelle muss für ein df = N-2 derjenige t-Wert gesucht werden, der von links .975 der Fläche der t-Verteilung ausmacht, wobei N hier die Anzahl aller Vpn der Untersuchungsstichprobe ist.
 
Formel 6
95%iges Vertrauensintervall des Mittelwertsunterschiedes 
zwischen EG und KG bei gleichen beliebigen Stichprobengrößen

Übertragen auf die hier genannten Anwendungsbeispiele ergeben sich die t-Werte

N=40  t= 2.02
N=30  t= 2.04
N=10  t= 2.10

womit sich für unsere Beispiele unter Anwendung der vorgeschlagenen Formel 3 die 95%igen Vertrauensintervalle ergeben:

                        
  Vertrauensintervall
    bei 40 Vpn: 2.02*4.39 = 0 +-  8.87
    bei 30 Vpn: 2.04*5.5  = 0 +- 11.22
    bei 20 Vpn: 2.10*6.6  = 0 +- 13.86

Interpretationsbeispiel :
In 95% der Fälle unterscheiden sich die Mittelwerte von EG und KG nach der Randomisierung um höchstens 8.87 Testpunkte, d.h. die Mittelwertsdifferenz (M EG - M KG) liegt im Intervall minus 8.87 bis plus 8.87, bzw.  [ -8.87 £ (M EG - M KG) £ 8.87 ],
wenn

Schluss
Auch wenn die durchgeführten Simulationen nicht alle möglichen Fälle abdecken und vornehmlich Demonstrationszwecken dienen, scheint die Verwendung der Stichprobenvarianz der Untersuchungsstichprobe eine gute Schätzung für den Standardfehler der Mittelwertsdifferenz zu liefern. Die Schätzung des Standardfehlers der Mittelwertsdifferenzen durch die Varianzen der verwendeten Stichproben -analog eines konventionellen t-Tests - führt aber zu recht ähnlichen Ergebnissen. Somit lässt sich mit beiden Methoden ein beliebiges Vertrauensintervall schätzen, innerhalb dessen die Mittelwertsunterschiede von EG und KG zu erwarten sind.

Als grobe Faustregel für das 95 prozentige Vertrauensintervall der meisten experimentellen Untersuchungen mit gleicher Gruppengröße für EG und KG im Bereich ab n = 10 pro Gruppe könnte man Formel 7 betrachten:
 
Formel 7
Grobe Schätzung des 95%iges Vertrauensintervall des 
Mittelwertsunterschiedes zwischen EG und KG bei 
Stichprobengrößen von jeweils n Vpn:


Literatur: Bortz, J. (1999). Statistik für Sozialwissenschaftler. Springer-Verlag. Berlin
created 4.5.2004: last update 4.10.2004; Bernhard Jacobs, b.jacobs@mx.uni-saarland.de