Übereinstimmungsmaße für zwei Rater bei dichtomen Urteilen
Zwei Beurteiler schätzen mehrere Beobachtungen anhand eines Merkmals
in die Kategorien + oder - ein. Wie hoch ist die Übereinstimmung ?
Beispiel:
Dozent A und Dozent B beurteilen unabhängig voneinander
die Klausuren von 50 Studenten und geben für jeden Studenten als Urteil ab
+ = Klausur bestanden ; - = Klausur nicht bestanden.
Nun werden in einem Vierfelderschema die Häufigkeiten eingegeben.
A + - B +30 5 - 4 11 nur Vierfelderwerte eingeben und
A + - B +a b - c d
A + - B + -
Proportion of overall agreement Positive agreement Negative agreement Cohens Kappape= ( (a+c)/N*(a+b)/N)+( (b+d)/N*(c+d)/N) Odds Ratio Yules Y
Die Formeln für PO, PA und NA stammen aus: http://ourworld.compuserve.com/homepages/jsuebersax/raw.htm [13.6.2008]
die Formel für Cohens Kappa aus http://de.wikipedia.org/wiki/Cohens_Kappa [13.6.2008],
die Formeln für Odds Ratio und Yules Y aus: Wirtz, M. & Nachtigall, Ch. (2002). Deskriptive Statistik. Statistische Methoden für Psychologen. Teil 1. Juventa. Weinheim.
Übereinstimmungsmaß für zwei Rater bei mehreren, bis zu 6 Merkmalsausprägungen
fiktives Beispiel: Lehrer A und B korrigieren unabhängig voneinander die Klassenarbeiten von 100 Schülern und geben anschließend Noten. Für jeden Schüler wird bestimmt, welche Note er von Lehrer A und Lehrer B erhalten hat. Dann werden die Häufigkeiten in die entsprechenden Kästchen eingetragen. Das Programm berechnet zunächst Zeilen- und Spaltensummen. Die Übereinstimmung wird als relative Häufigkeit, also als Anteil der Übereinstimmungen an allen Urteilen [hier po=.7] erfasst. Zudem wird der bereits durch Zufall erwartete Anteil der Übereinstimmungen berechnet [hier pe=.29]. Beide Werte sind Parameter für Cohens Kappa, was dann auch ausgegeben wird [hier k=.58].
Benötigt man weniger als 6 Kategorien, so lässt man die restlichen Felder einfach frei
Beurteilerübereinstimmung zwischen Rater A und B
Die Formel für das gewichtete Kappa wurde entnommen bei Bortz, J. & Schuster, C (2010, S.159). Statistik. Springer-Verlag
Die Gewichte ergeben sich als quadrierte Abweichungen von der Übereinstimmung: z.B. erste Zeile: 0,1,4,9,16,25
Beispiel für reale Daten von H. Lukesch aus:
rpss23.psychologie.uni-regensburg.de/download/lukesch/vorlesung_diagnostik_01.pdf [20.6.2008]Objektivitätsbestimmung der Bewertungen der Abschlussklausuren
im Fach Psychologie nach der LPO I SS 1979 an der Universität Regensburg
Beispiel: Rater A und Rater B beurteilen 10 Vpn und geben für jede Vp entweder das Urteil 0 oder 1 ab.Vp Rater_A Rater_BA 1 1 B 1 1 C 1 1 D 1 1 E 1 1 F 1 1 G 0 1 H 1 0 I 0 0 J 0 0Analysieren Deskriptive Statistiken KreuztabellenDann Rater_A in Zeilen, Rater_B in Spalten, Unter Statistik Kappa markieren.
Man erhält nachfolgende Vierfeldertafel. Kappa wird mit .524 angegeben
Eingabe der Vierfelderwerte in obige Programme führt zu einem Kappa von .52.