In dit artikel analyseren we het probleem dat ontstaat wanneer de scientist-practitioner bij het interpreteren van een testscore op een psychologische test een betrouwbare uitspraak wil doen over een individu, maar zich hierbij laat informeren door groepsdata. In de testpraktijk beoogt men de betrouwbaarheid van een testscore te achterhalen door de bijbehorende meetfout te schatten onder gebruikmaking van een kans- en foutentheorie die oorspronkelijk in de astronomie en natuurkunde werden ontwikkeld. Deze theorieën vereisen onafhankelijke en oneindig vaak herhaalde metingen van hetzelfde subject (homogeniteit) onder gelijkblijvende omstandigheden (stationariteit). Dit levert idealiter een scoreverdeling (privéverdeling) op, waarvan het gemiddelde gezien wordt als de meest betrouwbare meetwaarde. Binnen de testpraktijk is dit ideaal echter vrijwel onhaalbaar. Men beroept zich daarom op een gedachte-experiment, waarin een testpersoon in een tijdsvacuüm blootgesteld wordt aan oneindig veel testafnames met hersenspoeling (wissen van het geheugen) na iedere afname. Uitsluitend op basis van dit gedachte-experiment kan men in de klassieke testtheorie uitgaan van de gewenste, doch niet-bestaande, privéverdeling. Het gemiddelde hiervan wordt gelijkgesteld aan de betrouwbare score en de standaardafwijking vormt de meetfout. Aangezien dit experiment fictief is, blijven de betrouwbare score en de meetfout van een individu onbekend. Bij wijze van oplossing meet men een (grote) steekproef van verschillende personen eenmalig en gebruikt men deze data als schatter voor de privéverdeling van een enkel individu. Kortom, interindividuele data worden gelijkgesteld aan intra-individuele data. Ongeacht de praktische noodzaak is een dergelijke uitruil theoretisch alleen te rechtvaardigen onder strikte voorwaarden, die gevat zijn in het zogeheten ergodisch theorema. Een van deze voorwaarden is dat alle privéverdelingen van alle personen in de steekproef identiek moeten zijn om een uitspraak over een individu te mogen doen. Het is onrealistisch te veronderstellen dat in de testpraktijk aan deze voorwaarde voldaan wordt. Het gevolg hiervan is dat er onverifieerbare uitspraken worden gedaan over het individu en onbekende risico’s worden genomen voor diens welzijn. Dit geeft aanleiding tot een korte verkenning van mogelijke alternatieven voor testgebruik.
English abstract
The test tested: about the unusability of psychological tests for statements about the individual
In this article, we analyse the problem that arises when a scientist-practitioner interprets a test score on a psychological test in order to make a reliable statement about an individual, but lets herself be informed by group data. In test practice, the aim is to determine the reliability of a test score by estimating the corresponding measurement error using a probability and error theory originally developed in astronomy and physics. These theories require independent and infinitely repeated measurements of the same subject (homogeneity) under constant conditions (stationarity). Ideally, this results in a score distribution (propensity distribution), of which the average is interpreted as the most reliable measurement value. This ideal, however, is virtually unfeasible within test practice. One therefore appeals to a thought experiment that places a test person in a time vacuum while being exposed to infinitely many test administrations with intermediate brainwashing (erasing the memory). Solely by means of this thought experiment can the classical test theory be based upon the desired, yet non-existent, propensity distribution. The average of this distribution is equated to the most reliable score and the standard deviation is the measurement error. Since this experiment is fictitious, the reliable score and the measurement error of an individual remain unknown. As a solution, a (large) sample of different persons is measured once and this data is used as an estimator for the propensity distribution of a single individual. In short, intraindividual data is replaced by interindividual data. Irrespective of the practical necessity, such an exchange is theoretically justified only under strict conditions, which are expressed in the so-called Ergodic Theorem. One of these conditions is that all propensity distributions of all persons in the sample must be identical to allow any statement concerning an individual. It is unrealistic to assume that this condition is met in test practice. As a result, unverifiable statements are made about the individual and unknown risks are taken for its well-being. This gives rise to a brief exploration of possible alternatives for test-use.
Volledige tekst lezen (enkel abonnees)/Read full text (subscribers only)
Over de (eerste) auteur

- Nora Loretan, MSc, is promovenda en werkzaam als beleidsmedewerker en docent bij het onderwijsinstituut Pedagogische Wetenschappen en Onderwijswetenschappen van de Radboud Universiteit in Nijmegen - Nora Loretan, MSc, is PhD candidate and active as a policy officer and teacher at the Teaching Institute for Pedagogic Sciences and Educational Sciences at the Radboud University in Nijmegen - E-mail: n.loretan@pwo.ru.nl