Randomisierung allein genügt manchmal nicht

Randomisierung mit anderen Kontrollmethoden kombinieren!

Die Randomisierung der Vpn zu den experimentellen Bedingungen ist die wichtigste Technik zur Wahrung der internen Validität, weil sie alle bekannten wie unbekannten Störfaktoren "innerhalb gewisser statistischer Grenzen" kontrolliert. Sie kann die Vergleichbarkeit der Gruppen hinsichtlich aller möglichen Störvariablen aber nicht garantieren. (siehe Wie stark unterscheiden sich die experimentellen Gruppen unmittelbar nach der Randomisierung ?)

Da die Effizienz der Randomisierung mit sinkender Versuchspersonenanzahl und wachsender Versuchspersonenstreuung der Untersuchungsstichprobe abnimmt, muss man insbesondere bei kleinen Stichproben und/oder sehr heterogenen Probanden dafür sorgen, dass die Vpn der experimentellen Gruppen zumindest hinsichtlich ganz wichtiger bekannter (Stör)variablen zuverlässig vergleichbar sind. Es geht folglich darum, bei zentralen Variablen die Vergleichbarkeit von EG und KG zu garantieren und zur Kontrolle aller sonstigen Variablen das Zufallsverfahren anzuwenden.

Klassische Parallelisierung vor der Randomisierung

Bei der klassischen Form, "erst parallelisieren, dann randomisieren", werden die Vpn so auf EG und KG aufgeteilt, dass sie hinsichtlich der Parallisierungvariablen hoch vergleichbare Mittelwerte und Streuungen aufweisen müssen. Diese Prozedur verbessert die Validität des Versuchs, sofern die gewählte Parallelisierungsvariable neben der UV einen sehr bedeutsamen Einfluss auf die AV ausübt, was man üblicherweise durch eine substantielle Korrelation der Parallelisierungsvariablen mit der AV belegen könnte.

Vortest als Parallelisierungsvariable

Verwendet man ein Design mit Vortest, so lässt sich in etlichen Fällen auch der Vortest (=die abhängige Variable) als sehr wirksame Parallelisierungsvariable nutzen, weil von allen möglichen Variablen der Vortest in der Regel am höchsten mit dem Nachtest korreliert. "Zukünftiges Verhalten und Erleben wird eben am ehesten von bisher erworbenem Verhalten und Erleben bestimmt, es sei denn, der Versuch beziehe sich auf Bereiche, die keinerlei Rückgriff auf bisherige Erfahrung zulassen."
Die Probanden der Untersuchungsstichprobe werden danach zunächst nach Vortest parallelisiert, anschließend die Paarlinge nach Zufall auf EG und KG verteilt und dann erst beginnt der eigentliche Versuch. Hierbei sollte die Vortestung allerdings keinen großen Testeffekt aufweisen. Da man als Treatmentüberprüfung dann eventuell auch die Unterschiede in den Vortest-Nachtestdifferenzen zwischen EG und KG verwenden könnte, wäre zudem häufig eine schärfe statistische Testung möglich.

Hohe Vergleichbarkeit hinsichtlich mehrere Variablen

Die Zuteilung der Probanden wird etwas komplizierter, wenn man sicher stellen will, dass die Probanden der EG und KG nach der Randomisierung fast identische Mittelwerte und Streuungen in "mehreren bekannten Störvariablen" zeigen und sich hinsichtlich der sonstigen Variablen nur zufällig unterscheiden sollen. Gelegentlich strebt man auch an, den Vergleich von EG und KG hinsichtlich mehrerer Variablen "garantiert repräsentativ" zu gestalten.
Um die garantierte, bzw. besser als durch Zufall errreichbare, Vergleichbarkeit der Mittelwerte von EG und KG bei 2 bekannten Störvariablen (A und B) zu erzielen, könnte man die Probanden der Untersuchungsstichprobe zunächst analog dem Vierfelderschema in 4 sich welchselseitig ausschließende Gruppen einteilen. Die Variablen A und B werden etwa medianisiert und die Probanden nach ihrer Variablenkombination (++, +- , - +, --) eingeteilt, wie es unten mit 20 hypothetischen Vpn der Untersuchungsstichprobe gemacht wird.
    B+    B-
A+  6     3   9
A-  4     7   11
    10     10
Nun teilt man die Probanden innerhalb jeder der vier Gruppen nach Zufall auf EG und KG. Um möglichst gleich viele Probanden der EG und KG zuzuteilen, könnte man die bei ungerader Gruppenanzahl übrig gebliebenen Vpn zu einer Restgruppe zusammenfassen und diese nach dem normalen Zufallsverfahren zuteilen.
Eine andere Variante bestünde darin, die Untersuchungsstichprobe zunächst nach einer Variablen in zwei Gruppen einzuteilen (z.B. nach Geschlecht), innerhalb dieser beiden Gruppen (Frauen bzw. Männer) nach der zweiten Variablen (z.B. Intelligenz) zu parallelisieren und anschließend alle Paarlinge nach Zufall auf EG und KG zu verteilen. Dann hat man in EG und KG gleich viele Männer wie Frauen und Mittelwerte sehr hoch vergleichbarer Intelligenz, während sonstige personale Störfaktoren durch das Randomisierungsverfahren kontrolliert wären.

Repräsentative Zuordnung bestimmter Extremgruppen garantieren

Eine Parallelisierung nach 3 Variablen ist bei kleinen Stichproben kaum noch praktikabel. Sie wird dennoch manchmal vornehmlich im Feld realisiert und ist dann eher unter den Begriff Stratifizierung zu finden:. Man stelle sich eine sehr heterogene Schulklasse vor, die als Untersuchungsstichprobe fungiert. Hierbei soll nun dafür gesorgt werden, dass sich bestimmte "wechselseitig ausschließende" Extremgruppen zu gleichen Teilen auf EG und KG aufteilen, etwa 2 wegen Rauschgiftdelikten und 2 wegen Körperverletzung aufgefallene Schüler, 4 AusländerInnen mit absolut unzureichenden Deutschkenntnissen, 4 SchülerInen, welche 2 mal eine Klasse wiederholt haben, sowie der ansonsten unauffällige Rest der Klasse. Die Probanden innerhalb der (Extrem)gruppen werden nach Zufall auf EG und KG verteilt und die Extremgruppen sind repräsentativ in beiden experimentellen Gruppen vorhanden.

Alternativen zur klassischen Randomisierung bei geringer Vpn-Anzahl

Bei kleinen Untersuchungstichproben gilt es stets abzuwägen, ob man statt eines klassischen Randomisierungsdesigns nicht mindestens vorher in klassischer Weise parallelisiert oder eine Vortestung vor der Randomisierung realisierbar ist, um durch die Parallelisierung des Vortests die Vergleichbarkeit der Ausgangsvoraussetzungen bei der AV zu garantieren. Sofern möglich, sollte man bei wenigen verfügbaren Vpn sehr homogene Probanden auswählen oder ein Wiederholungsexperiment in Erwägung ziehen. Ähnliche Überlegungen drängen sich selbst bei größeren Untersuchungsstichproben auf, wenn die UV nur geringe Unterschiede in der AV zwischen EG und KG erwartet lässt.

Didaktische Verdeutlichungen einiger Überlegungen an einem praktischen Beispiel

Im Seminar Einführung in die Versuchsplanung SS 04 wurden 32 TeilnehmerInnen nach Zufall auf EG und KG aufgeteilt. 16 Probanden in der EG und 16 Probanden in der KG sind nicht einmal als kleine Gruppen aufzufassen. Zudem handelt es sich ja noch um eine relativ homogene Untersuchungsstichprobe, da alle Probanden "Studierende der Erziehungswissenschaften" sind. Eine Datenauswertung des erfragten Abiturnotendurchschnitts ergab folgende Ergebnisse:

Abiturnotendurchschnitt von EG und KG
nach der Randomisierung

M s Boxplot

EG
KG

2,6
2,1

0,59
0,79

Wie man sieht, war die Randomisierung nicht perfekt, weil die EG 0.5 Notenstufen schwächere Abiturnotenmittelwerte lieferte als die KG. Der Unterschied verfehlt knapp die Signifikanz (p=.06, zweiseitig), entspricht aber immerhin einer Effektstärke von d = .72. Die Wahrscheinlichkeit, durch Randomisierung für die EG einen mindestens so ungünstigen Abiturnotendurchschnitt zu erhalten, ist zwar deutlich geringer als 90 %, kommt aber durchaus vor. Ich selbst habe schon bei einem echten durchgeführten Experiment allein durch Randomisierung einen hochsignifikante Unterschied zwischen 2 Experimentalgruppen beim Abiturnotendurchschnitt hinnehmen müssen, der einer Effektstärke von d = 1 entsprach.
Würde man nun 2 verschiedene Unterrichtsmethoden mit EG und KG gegeneinander testen, wobei man nur geringe Unterschiede in der Lernleistung zugunsten der EG erwarten würde, dann hätte man keine Chance, diesen Unterschied auch statistisch nachzuweisen, weil der Abiturnotendurchschnitt höchstwahrscheinlich einen positiven Effekt auf die Lernleistung von StudentInnen ausübt und die EG wegen geringerer Abiturleistungen davon weniger profitieren würde.
In einem solchen Fall könnte man nun den Abiturnotendurchschnitt kovarianzanalytisch aus der AV "herausrechnen". Wesentlich durchsichtiger wäre es jedoch gewesen, man hätte vor dem Versuch die Probanden nach Abiturnotendurchschnitt parallelisiert und anschließend nach Zufall auf EG und KG aufgeteilt.
Die potenzielle Verwendung eines Vortests (Lernleistung) vor der Randomisierung hängt von etlichen Bedingungen ab. Zum einen müsste dafür genügend Zeit zur Verfügung stehen und die Testung selbst dürfte keine großen Lerneffekte nach sich ziehen. Schließlich bringt der Vortest als Parallisierungsvariable nur dann etwas ein, wenn das durch die UV zu fördernde Wissen vor dem Unterrichtsexperiment zum Teil vorhanden ist und verlässliche Unterschiede zwischen den Probanden ermittelt werden könnten.
Da deutlich mehr Frauen als Männer Erziehungswissenschaften in Saarbrücken studieren, ist die Anzahl der Männer in der Untersuchungsstichprobe mit einem Anteil von 22 % klar unterrepräsentiert. Würde man nun einen Versuch durchführen, bei dem das Geschlecht einen wesentlichen Einfluss auf die AV ausübte oder wollte man den Anteil der Geschlechter in beiden Gruppen zwingend repräsentativ gestalten, so könnte man zunächst die Studenten und dann die Studentinnen der Untersuchungsgruppe nach Abiturnotendurchschnitt parallelisieren und dann in jeder Gruppe nach Zufall auf EG und KG aufteilen.

created 17.5.2004; Bernhard Jacobs, b.jacobs@mx.uni-saarland.de

	M	s	Boxplot
EG KG	2,6 2,1	0,59 0,79

Die Randomisierung	Jacobs: Versuchsplanung
Exkurs: empfehlenswerter Bestandteil des Tutoriums Versuchplanung