DeutschKlinik und TherapieSchule und EntwicklungHuman Resources

Kritische Differenzen – ab wann ist ein Unterschied von Bedeutung?

In der psychologischen Diagnostik geht es typischerweise darum, den Testwert einer Person mit den Werten einer Normpopulation oder -stichprobe zu vergleichen, also ihre Ergebnisse in Bezug auf eine demographisch ähnliche Vergleichsgruppe einzuordnen.

In vielen spezifischen Situationen stellt sich jedoch auch die Frage, ob sich zwei Testergebnisse so stark unterscheiden, dass dieser Unterschied nicht allein auf Messfehler oder Zufall zurückzuführen ist, sondern durch einen tatsächlichen Unterschied in dem gemessenen Merkmal erklärt werden kann. Dafür kann man die sogenannte kritische Differenz heranziehen.

Bild: Shutterstock / eamesBot

Was sind kritische Differenzen?

Die kritische Differenz bezeichnet den Unterschied, der mindestens zwischen zwei Testwerten vorliegen muss, um als bedeutsam betrachtet zu werden. Die Formel, mit der dies für zwei Testwerte, die aus demselben Test stammen, berechnet werden kann, ist die folgende:

Die Berechnung der kritischen Differenz basiert auf der Messgenauigkeit, d.h. der Reliabilität, (Rel (x)), und der Standardabweichung des Tests (SD(X)). Aus diesen ergibt sich der Standardmessfehler (SME). Dieser Wert gibt an, wie stark ein Testergebnis aufgrund von Messfehlern schwanken kann. Niedrige SME-Werte bedeuten, dass ein Test sehr genau misst, während hohe Werte bedeuten, dass die Testergebnisse stärker schwanken können.

Zur Berechnung braucht man auch das Konfidenzniveau (z1-∝/2)) welches man zugrunde legen möchte. Typischerweise wird das 95-Prozent-Konfidenzniveau verwendet, welches dann einen Wert für die kritische Differenz ergibt, der mit 95-prozentiger Sicherheit groß genug ist, um bedeutsam zu sein und nicht allein durch Messfehler und Zufall erklärt werden kann. Eine Rest-Unsicherheit von 5 Prozent, welche als akzeptabel betrachtet werden kann, bleibt also bestehen. 

Fügt man all diese Werte in die Formel von oben ein, ergibt sich der Unterschied, der mindestens zwischen zwei Testwerten vorliegen muss, um mit einer Sicherheit von 95% nicht auf Zufall oder Messfehler zurückgeführt werden zu können. Für den Fall, dass zwei Testwerte aus unterschiedlichen Tests verglichen werden, muss die Berechnung die Reliabilität des zweiten Tests ebenfalls mitberücksichtigt werden.

Wann werden kritische Differenzen genutzt?

Es gibt drei typische Anwendungsfälle, bei denen kritische Differenzen hilfreich sein können. Beim ersten geht es um den Unterschied zwischen zwei Personen, die denselben Test gemacht haben. Beim zweiten und dritten Fall wird jeweils nur eine Person betrachtet. Einmal können Werte verglichen werden, die eine Person in zwei verschiedenen Tests, bzw. Subtests erzielt hat. Dadurch kann eine Profilanalyse durchgeführt werden, bei der untersucht wird, ob sich bestimmte Eigenschaften einer Person bedeutsam von anderen Eigenschaften derselben Person unterscheiden, also z.B. ob spezifische Stärken und Schwächen vorliegen. Der letzte Fall bezieht sich auf die wiederholte Messung desselben Konstrukts, also eine Verlaufsanalyse. Die kritische Differenz kann dann herangezogen werden, um zu bestimmen, ob sich über die Zeit eine bedeutsame Veränderung in einer Person vollzogen hat, oder ob die unterschiedlichen Werte eher durch zufällige Schwankungen der Messung erklärt werden können.

Im Folgenden wird näher auf die drei Anwendungsfälle eingegangen.

Vergleich von zwei Personen

Angenommen zwei Kandidatinnen stehen für eine Stelle zur Auswahl, und es soll entschieden werden, wer von beiden besser für sie geeignet ist. Im Zuge der Einstellungsdiagnostik machen beide denselben Test, z.B. den Design a Matrix (DESIGMA) - Advanced. Mit diesem soll die allgemeine kognitive Leistungsfähigkeit bestimmt werden. Nach dem Test liegen für beide Kandidat*innen IQ-Werte vor: Kandidatin 1 hat einen IQ von 103 als Ergebnis, und Kandidatin 2 erhält einen IQ-Wert von 112. Der Unterschied beträgt also 9 IQ-Punkte. Aber bedeutet das, dass der Unterschied in der kognitiven Leistungsfähigkeit zwischen den beiden Kandidatinnen bedeutsam ist? Hier kann die kritische Differenz zurate gezogen werden. 

Um sie zu berechnen, braucht man einige Werte: Die Standardabweichung des Testwertes, um den Standardmessfehler berechnen zu können, die Reliabilität des Tests und das Konfidenzniveau. Bis auf das Konfidenzniveau sind diese Werte meist im Manual des Tests zu finden. IQ-Werte sind normiert und haben aufgrund ihrer Definition eine Standardabweichung von 15, weswegen man diese nicht explizit berechnen muss. Um die kritische Differenz zu berechnen, kann die Hogrefe Toolbox verwendet werden: Unter der Option „Konfidenzintervalle & kritische Differenzen“ wird zunächst die Normskala und das Konfidenzniveau ausgewählt, und schließlich die Reliabilität des Tests eingetragen. 

Wenn man nun die Reliabilität der Version A des DESIGMA von .96 und ein Konfidenzniveau von 95% annimmt, ergibt sich eine kritische Differenz von 8,32. Da der Unterschied zwischen den beiden Kandidatinnen größer als dieser Wert ist, kann man mit einer Rest-Unsicherheit von 5% davon ausgehen, dass dieser Unterschied bedeutsam ist.

Intraindividuelle Vergleiche

Es kann von Interesse sein, zwei Testergebnisse zu vergleichen, die von derselben Person produziert wurden – entweder in zwei unterschiedlichen Tests oder in unterschiedlichen Untertests im selben Test. Letzteres wäre eine Profilanalyse, und oft sind die kritischen Differenzen für diese im Manual des Tests angegeben. Dies ist z.B. bei den IDS-2 (Intelligence and Developmental Scales -2) der Fall, welche über die Anwendung von kritischen Differenzen eine detaillierte Analyse des kognitiven und allgemeinen Entwicklungsprofils einer Person ermöglicht. Sind sie die kritischen Differenzen nicht im Manual angegeben, kann man sie ähnlich berechnen wie die kritischen Differenzen des Unterschieds zwischen zwei Personen. Man braucht dafür allerdings standardisierte Werte, sodass die zu vergleichenden Testwerte gleiche Mittelwerte und Standardabweichungen aufweisen. Dies ist gegeben, wenn beide Tests dieselbe Normskala verwenden. Außerdem braucht man auch hier die Reliabilitäten der beiden (Untertests-)Tests, sowie das Konfidenzniveau.

Nehmen wir beispielsweise an, dass mit einer Person eine umfassende Intelligenz-Diagnostik durchgeführt wurde, und nun liegen Werte für ihren verbalen IQ (= 110) und ihren numerischen IQ (= 97) vor. Ob es sich bei dem verbalen IQ um einen bedeutsam höheren Wert als den numerischen IQ handelt und die Ergebnisse somit als individuelle Stärke in der verbalen Intelligenzleistung interpretiert werden können, kann wieder anhand der kritischen Differenz bestimmt werden. Unter der Annahme einer Reliabilität von .95 für den Subtest zur verbalen Intelligenz und .90 für den Subtest zur numerischen Intelligenz ergibt sich gemäß der Formel eine kritische Differenz von etwa 11,4. Da der Unterschied zwischen den Werten größer als diese kritische Differenz ist (13 > 11,4), kann man davon ausgehen, dass der verbale IQ signifikant höher ist als der numerische und somit eine spezifische Stärke im verbalen Bereich vorliegt. 

Vergleich von verschiedenen Messzeitpunkten

Der letzte Anwendungsfall bezieht sich darauf, ob eine Person sich über die Zeit bedeutsam verändert hat. Es könnte z.B. sein, dass im Verlauf einer Psychotherapie festgestellt werden soll, ob sich die psychische Belastung der Patient*in signifikant verbessert hat, z.B. anhand des SCL-90-S. Im Unterschied zu den beiden vorherigen Anwendungsfällen werden hierfür die nicht normierten Testwerte verwendet, da man für diesen Vergleich den Bezug zur Normpopulation nicht benötigt. Außerdem können durch die getrennte Normierung der beiden Testwerte methodische Artefakte erzeugt werden. 

Geht man davon aus, dass die Messfehlervariablen, die immer zu Unsicherheit in Testungen führen, zwischen den Messgelegenheiten normalverteilt und unkorreliert sind, und sich die Messfehlervarianz zwischen den zwei Messgelegenheiten nicht unterscheidet, kann man die kritische Differenz hier mit derselben Formel berechnen wie für den Vergleich zwischen zwei Personen. Es wird die Standardabweichung der Testwerte (nicht normiert), die Reliabilität des Tests und das Konfidenzniveau benötigt. Ist der Unterschied der beiden Werte größer als die so berechnete kritische Differenz, kann man davon ausgehen, dass die Veränderung in z.B. der psychischen Belastung nicht auf Zufall oder Messfehler zurückgeführt werden kann, und sich tatsächlich etwas für die Person verändert hat.

 

Literatur

Eid, M., & Schmidt, K. (2014). Testtheorie und Testkonstruktion. Hogrefe Verlag GmbH & Company KG.

 

Ein Beitrag von Hogrefe Group Research & Development.

 

Webinarempfehlung

Aufzeichnungen zu Testpsychologischen Grundlagen

Erlangen Sie mehr Sicherheit in der Auswahl, Durchführung, Auswertung und Interpretation von Testverfahren.

Nächste Termine
  • terminungebunden
  • terminungebunden
Details anzeigen